TP-ViT: abgeschnittener gleichmäßiger Paarquantisierer und progressive Bit-Abschwächungs-Rekonstruktionsmethode für die Visual Transformer-Quantisierung

Xichuan ZHOU ,  

Sihuan ZHAO ,  

Rui DING ,  

Jiayu SHI ,  

Jing NIE ,  

Lihui CHEN ,  

Haijun LIU ,  

Abstract

Der Visual Transformer (ViT) hat in verschiedenen KI-gestützten Computer-Vision-Anwendungen bedeutende Erfolge erzielt. Allerdings erfordert ViT hohe Rechen- und Speicherressourcen, was seine praktische Anwendung auf ressourcenbeschränkten Edge-Geräten einschränkt. Obwohl die Post-Training-Quantisierung (PTQ) eine vielversprechende Lösung darstellt, indem sie die Modellgenauigkeit mit einer kleinen Menge an Kalibrierdaten reduziert, führt aggressive Low-Bit-Quantisierung häufig zu erheblichen Leistungseinbußen. Zur Bewältigung dieser Herausforderung schlagen wir den abgeschnittenen gleichmäßigen Paarquantisierer und die progressive Bit-Abschwächungs-Rekonstruktionsmethode für die Visual Transformer-Quantisierung (TP-ViT) vor. Diese Methode ist ein innovatives PTQ-Framework, das speziell für ViT entwickelt wurde und zwei wichtige technische Beiträge enthält: (1) abgeschnittener gleichmäßiger Paarquantisierer — diese neue Quantisierungsmethode kann Ausreißer in den Softmax-basierten Aktivierungen effektiv handhaben und reduziert die Quantisierungsfehler erheblich; (2) Bit-Abschwächungs-Optimierungsstrategie — nutzt Übergangsgewichte, um die Bitgenauigkeit schrittweise zu verringern und dabei die Modellleistung unter extremen Quantisierungsbedingungen zu erhalten. Umfassende Experimente in den Bereichen Bildklassifizierung, Objekterkennung und Instanzsegmentierung zeigen, dass TP-ViT gegenüber den derzeit fortschrittlichsten PTQ-Methoden überlegen ist, insbesondere in den herausfordernden 3-Bit-Quantisierungsszenarien. Unter 3-Bit-Quantisierungsbedingungen erzielte dieses Framework eine Steigerung der Top-1-Genauigkeit um 6,18 Prozentpunkte beim ViT-small-Modell. Die Ergebnisse bestätigen die Robustheit und Allgemeingültigkeit von TP-ViT und ebnen den Weg für die effiziente Bereitstellung von ViT-Modellen in Computer-Vision-Anwendungen auf Edge-Hardware.

Keywords

Visual Transformer; Post-Training-Quantisierung; Blockrekonstruktion; Bildklassifizierung; Objekterkennung; Instanzsegmentierung

READ MORE