Метод адаптивного разделения слоя беспроводного вывода крупных языковых моделей на крае вычислений на основе модельного обучения с подкреплением

Yuxuan CHEN ,  

Rongpeng LI ,  

Xiaoxue YU ,  

Zhifeng ZHAO ,  

Honggang ZHANG ,  

Abstract

Оптимизация развертывания крупных языковых моделей (LLM) в среде краевых вычислений критически важна для повышения защиты конфиденциальности и вычислительной эффективности. Для эффективного беспроводного вывода LLM в данном исследовании проведен всесторонний анализ влияния различных точек разделения в ведущих открытых LLM. В данной работе представлен фреймворк на основе модельного обучения с подкреплением (MBRL) для определения оптимальной точки разделения между краем и пользовательским устройством (UE). Путем введения наградной модели данной метод значительно снижает вычислительные затраты на частую оценку производительности. Обширные результаты моделирования показывают, что данный метод эффективно балансирует производительность вывода и вычислительную нагрузку в различных сетевых условиях и предоставляет надежное решение для развертывания LLM в децентрализованной среде.

Keywords

крупные языковые модели; краевые вычисления; модельное обучение на основе подкрепления; разделительное вывод; модель Transformer

READ MORE