Uso de un controlador de inteligencia artificial SWAI para minimizar los costos del proceso de inferencia del modelo Transformer

Yulong ZHAO ,  

Chunzhi WU ,  

Yizhuo WANG ,  

Lufei ZHANG ,  

Yaguang ZHANG ,  

Wenyuan SHEN ,  

Hao FAN ,  

Hankang FANG ,  

Yi QIN ,  

Xin LIU ,  

Abstract

Los modelos basados en la arquitectura Transformer se han convertido en la piedra angular en el campo del procesamiento del lenguaje natural. Sin embargo, los enormes costos del proceso de inferencia siguen siendo un gran desafío, lo que limita la aplicación práctica de estos modelos. En este artículo, se utiliza un controlador en un acelerador de inteligencia artificial (AI) para minimizar los costos del proceso de inferencia del modelo Transformer e incluye principalmente 4 aspectos: Primero, se realiza un análisis exhaustivo de los costos del proceso de inferencia de Transformer, identificando los principales cuellos de botella. Luego, utilizando el núcleo principal del acelerador de inteligencia artificial SWAI, se implementó un marco de planificación de tres niveles, reduciendo el número de arranques entre el host y el dispositivo a aproximadamente una milésima de la configuración original de PyTorch-GPU. Luego, se introduce una técnica de gestión de memoria sin copia basada en la fusión de páginas, lo que reduce significativamente la latencia de acceso a la memoria y mejora la eficiencia general de la inferencia. Por último, se desarrolla un método rápido de carga del modelo, eliminando cálculos redundantes para la validación del modelo y el proceso de inicialización, reduciendo el tiempo total de carga del modelo grande de 22 128,31 milisegundos a 1 041,72 milisegundos. Este artículo optimiza significativamente el modelo Transformer, haciendo que el proceso de inferencia en un acelerador de AI sea más eficiente y rápido.

Keywords

Optimización de inferencia Transformer; Planificación de tres niveles; Gestión de memoria sin copia; Carga rápida del modelo

READ MORE