Uso de un controlador en un acelerador de inteligencia artificial SWAI para minimizar el costo del razonamiento del modelo Transformer

Yulong ZHAO ,  

Chunzhi WU ,  

Yizhuo WANG ,  

Lufei ZHANG ,  

Yaguang ZHANG ,  

Wenyuan SHEN ,  

Hao FAN ,  

Hankang FANG ,  

Yi QIN ,  

Xin LIU ,  

Abstract

Basado en la arquitectura Transformer, los modelos se han convertido en la piedra angular del procesamiento del lenguaje natural. Sin embargo, el enorme costo computacional del proceso de razonamiento sigue siendo un desafío importante, limitando la aplicación real de estos modelos. Este artículo utiliza un controlador en un acelerador de inteligencia artificial (IA) para minimizar el costo del proceso de razonamiento del modelo Transformer, que incluye principalmente 4 aspectos: en primer lugar, un análisis completo de los componentes del costo del proceso de razonamiento de Transformer, identificando los principales cuellos de botella. En segundo lugar, utilizando el núcleo principal (MPE) del acelerador de IA SWAI, se implementó un marco de programación de tres niveles, reduciendo el número de arranques entre el host y el dispositivo a aproximadamente una milésima parte de la configuración original de PyTorch-GPU. En tercer lugar, se introduce una técnica de gestión de memoria de copia cero basada en la fusión de páginas, que reduce significativamente la latencia de acceso a la memoria y mejora la eficiencia general del razonamiento. Por último, se desarrolla un método rápido de carga de modelo, eliminando los cálculos redundantes para la validación y el proceso de inicialización del modelo, reduciendo el tiempo total de carga del modelo grande de 22 128,31 milisegundos a 1041,72 milisegundos. Este artículo optimizó significativamente el modelo Transformer, haciéndolo más eficiente y rápido en un acelerador de IA.

Keywords

Optimización de la inferencia de Transformer; Programación en tres niveles; Gestión de memoria sin copias; Carga rápida de modelo

READ MORE