Método de cuantización adaptativa con corrección de valores atípicos para Transformers visuales

Zheyang LI ,  

Chaoxiang LAN ,  

Kai ZHANG ,  

Wenming TAN ,  

Ye REN ,  

Jun XIAO ,  

Abstract

Aunque el modelo Transformer ha demostrado resultados notables en varios campos, sus enormes demandas de cálculo y memoria limitan su aplicación, especialmente al desplegarlo en dispositivos de borde con recursos restringidos. La cuantización, como un método eficiente de compresión de modelos, puede reducir significativamente el tiempo de ejecución del Transformer en dispositivos de borde. Cabe destacar que, en comparación con las redes neuronales convolucionales (CNN), los valores de activación del Transformer presentan valores atípicos más pronunciados, lo que provoca una distribución desigual de las características entre canales y tokens. Para abordar este problema, se propone un método de cuantización con corrección adaptativa de valores atípicos (AOCQ), que reduce significativamente los efectos adversos de estos valores. AOCQ ajusta las diferencias notables entre canales y tokens en tres niveles: operador; marco; pérdida. Se introduce un nuevo operador que puede equilibrar de manera equivalente los valores de activación entre canales, y se agrega una etapa adicional a nivel de marco para optimizar el paso de cuantización de activaciones. Además, a nivel de pérdida, el desequilibrio en los valores de activación entre tokens y canales se transfiere al proceso de optimización de los pesos del modelo. El análisis teórico demuestra que este método puede reducir eficazmente el error de cuantización. La efectividad del método propuesto se ha validado en varios modelos y tareas de referencia. Después de la cuantización post-entrenamiento de 8 bits, el modelo DeiT-B alcanza una precisión del 81.57% con una pérdida de solo 0.28 puntos porcentuales, mientras que logra una aceleración de la inferencia de 4 veces. Además, en múltiples tareas, incluida la clasificación de imágenes y la detección de objetos, los pesos de Swin Transformer y DeiT pueden ser cuantizados a 4 bits, con una pérdida de precisión de solo el 2%, y el uso de memoria requerido es solo 1/8 del original.

Keywords

Transformer;compresión y aceleración de modelos;cuantización post-entrenamiento;valores atípicos

READ MORE