Оптимизация развертывания крупных языковых моделей (LLM) в среде краевых вычислений критически важна для повышения защиты конфиденциальности и вычислительной эффективности. Для эффективного беспроводного вывода LLM в данном исследовании проведен всесторонний анализ влияния различных точек разделения в ведущих открытых LLM. В данной работе представлен фреймворк на основе модельного обучения с подкреплением (MBRL) для определения оптимальной точки разделения между краем и пользовательским устройством (UE). Путем введения наградной модели данной метод значительно снижает вычислительные затраты на частую оценку производительности. Обширные результаты моделирования показывают, что данный метод эффективно балансирует производительность вывода и вычислительную нагрузку в различных сетевых условиях и предоставляет надежное решение для развертывания LLM в децентрализованной среде.
Keywords
крупные языковые модели; краевые вычисления; модельное обучение на основе подкрепления; разделительное вывод; модель Transformer