TP-ViT: Cuantificador pareado uniforme truncado y método de reconstrucción progresiva con atenuación de bits para la cuantificación del Transformer visual

Xichuan ZHOU ,  

Sihuan ZHAO ,  

Rui DING ,  

Jiayu SHI ,  

Jing NIE ,  

Lihui CHEN ,  

Haijun LIU ,  

Abstract

El Transformer visual (ViT) ha logrado un éxito significativo en diversas aplicaciones de visión por computadora impulsadas por inteligencia artificial. Sin embargo, ViT requiere altos recursos computacionales y de memoria, lo que limita su aplicación práctica en dispositivos de borde con recursos limitados. Aunque la cuantificación posterior al entrenamiento (PTQ) ofrece una solución prometedora al reducir la precisión del modelo mediante el uso de una pequeña cantidad de datos de calibración, la cuantificación agresiva de bajo bit generalmente provoca una caída significativa en el rendimiento. Para abordar este desafío, proponemos un cuantificador pareado uniforme truncado y un método de reconstrucción progresiva con atenuación de bits para la cuantificación del Transformer visual (TP-ViT). Este método es un marco PTQ innovador diseñado específicamente para ViT, que incluye dos contribuciones técnicas clave: (1) Cuantificador pareado uniforme truncado — este nuevo método de cuantificación puede manejar efectivamente valores atípicos en las activaciones después de Softmax, reduciendo significativamente el error de cuantificación; (2) estrategia de optimización de atenuación de bits — utilizando pesos de transición para reducir gradualmente la precisión de bits mientras se mantiene el rendimiento del modelo bajo condiciones de cuantificación extrema. Los experimentos integrales en tareas de clasificación de imágenes, detección de objetos y segmentación de instancias demuestran que TP-ViT supera a los métodos PTQ más avanzados actuales, especialmente en escenarios de cuantificación de 3 bits altamente desafiantes. Bajo condiciones de cuantificación de 3 bits, este marco logró una mejora de 6.18 puntos porcentuales en la precisión Top-1 en el modelo ViT-small. Los resultados validan la robustez y universalidad de TP-ViT, allanando el camino para el despliegue eficiente de modelos ViT en aplicaciones de visión por computadora en hardware de borde.

Keywords

Transformer visual; cuantificación posterior al entrenamiento; reconstrucción por bloques; clasificación de imágenes; detección de objetos; segmentación de instancias

READ MORE