TP-ViT : quantificateur pair uniforme tronqué et méthode de reconstruction progressive avec atténuation des bits pour la quantification des Transformers visuels

Xichuan ZHOU ,  

Sihuan ZHAO ,  

Rui DING ,  

Jiayu SHI ,  

Jing NIE ,  

Lihui CHEN ,  

Haijun LIU ,  

Abstract

Le Transformer visuel (ViT) a obtenu un succès significatif dans diverses applications de vision par ordinateur alimentées par l'intelligence artificielle. Cependant, ViT nécessite des ressources de calcul et de mémoire élevées, ce qui limite son application pratique sur des dispositifs périphériques à ressources limitées. Bien que la quantification post-entraînement (PTQ) propose une solution prometteuse en réduisant la précision du modèle à l'aide de peu de données de calibration, une quantification agressive en faible nombre de bits entraîne généralement une forte dégradation des performances. Pour relever ce défi, nous proposons un quantificateur pair uniforme tronqué et une méthode de reconstruction progressive avec atténuation des bits pour la quantification des Transformers visuels (TP-ViT). Cette méthode est un cadre PTQ innovant conçu spécialement pour ViT, comprenant deux contributions techniques clés : (1) Quantificateur pair uniforme tronqué — cette nouvelle méthode de quantification peut efficacement gérer les valeurs aberrantes dans les activations après Softmax, réduisant considérablement l'erreur de quantification ; (2) stratégie d'optimisation de l'atténuation des bits — utilisant des poids de transition pour réduire progressivement la précision des bits tout en maintenant les performances du modèle dans des conditions de quantification extrêmes. Des expériences exhaustives sur des tâches de classification d'images, détection d'objets et segmentation d'instances montrent que TP-ViT surpasse les meilleures méthodes PTQ actuelles, notamment dans des scénarios de quantification à 3 bits particulièrement difficiles. Dans ces conditions, ce cadre atteint une amélioration de 6,18 points de pourcentage de la précision Top-1 sur le modèle ViT-small. Les résultats valident la robustesse et la généralité de TP-ViT, ouvrant la voie à un déploiement efficace des modèles ViT dans des applications de vision par ordinateur sur du matériel périphérique.

Keywords

Transformer visuel; quantification post-entraînement; reconstruction par blocs; classification d'images; détection d'objets; segmentation d'instances

READ MORE