Использование контроллера на ускорителе искусственного интеллекта SWAI для минимизации затрат на рассуждения модели Transformer

Yulong ZHAO ,  

Chunzhi WU ,  

Yizhuo WANG ,  

Lufei ZHANG ,  

Yaguang ZHANG ,  

Wenyuan SHEN ,  

Hao FAN ,  

Hankang FANG ,  

Yi QIN ,  

Xin LIU ,  

Abstract

На основе архитектуры Transformer модели стали основой в области обработки естественного языка. Однако огромные вычислительные затраты на процесс рассуждения остаются значительным вызовом, ограничивающим реальное применение этих моделей. В этой статье на ускорителе искусственного интеллекта (AI) используется контроллер для минимизации затрат на процесс рассуждения модели Transformer, в основном включая 4 аспекта: во-первых, полный анализ составляющих затрат на процесс рассуждения Transformer, выявление основных узких мест. Во-вторых, с помощью главного ядра (MPE) ускорителя искусственного интеллекта SWAI, реализована трехуровневая система планирования, состоящая в том, что количество запусков между хостом и устройством снижается до примерно одной тысячной от изначальной настройки PyTorch-GPU. В-третьих, вводится технология управления памятью с нулевым копированием на основе слияния страниц, что значительно сокращает задержку доступа к памяти и увеличивает общую эффективность процесса рассуждения. Наконец, разработан быстрый способ загрузки модели, устраняющий избыточные вычисления для проверки модели и процесса инициализации, сокращая общее время загрузки большой модели с 22 128,31 миллисекунд до 1041,72 миллисекунд. Эта статья значительно оптимизировала модель Transformer, сделав ее более эффективной и быстрой на ускорителе AI.

Keywords

Оптимизация вывода Transformer; Трехуровневое планирование; Управление памятью с нулевым копированием; Быстрая загрузка модели

READ MORE