視覚Transformers向け適応的異常値補正量子化手法

Zheyang LI; Chaoxiang LAN; Kai ZHANG; Wenming TAN; Ye REN; Jun XIAO

doi:10.1631/FITEE.2400994

視覚Transformers向け適応的異常値補正量子化手法

DOI：10.1631/FITEE.2400994

Abstract

Transformerモデルは複数の分野で顕著な成果を示しているものの、大規模な計算およびメモリ要件がその応用を制約しており、特にリソースが限られたエッジデバイス上での展開に課題をもたらしています。量子化は効果的なモデル圧縮手法として、エッジデバイス上でのTransformerの実行時間を大幅に短縮できます。注目すべきは、畳み込みニューラルネットワーク（CNN）と比較して、Transformerの活性化値はより顕著な異常値を示し、その結果、チャネル間およびトークン間で特徴分布が不均一になることです。この問題に対処するために、適応的異常値補正量子化（AOCQ）手法を提案し、これらの異常値の悪影響を大幅に低減します。AOCQは、演算子レベル、フレームワークレベル、損失レベルの3段階でチャネル間およびトークン間の顕著な差異を調整します。異なるチャネル間の活性化値を等価にバランスさせる新しい演算子を導入し、フレームワークレベルでは活性化値の量子化ステップを最適化するための追加の段階を設けています。さらに損失レベルでは、各トークンおよびチャネル間の不均衡な活性化値がモデル重みの最適化プロセスに移行されます。理論的解析により、本手法が量子化誤差を効果的に低減できることが示されています。提案手法の有効性は複数のベンチマークモデルとタスクで検証されました。8ビットの事後学習量子化を施したDeiT-Bモデルは、わずか0.28ポイントの精度低下で81.57%の精度を達成し、4倍の推論高速化を実現しました。さらに、画像分類や物体検出を含む複数のタスクにおいて、Swin TransformerおよびDeiTの重みは4ビットに事後学習量子化可能であり、精度低下はわずか2%、必要なメモリは元の1/8に過ぎません。

Keywords

Transformer;モデル圧縮と加速;事後学習量子化;異常値

視覚Transformers向け適応的異常値補正量子化手法

Zheyang LI ,

Chaoxiang LAN ,

Kai ZHANG ,

Wenming TAN ,

Ye REN ,

Jun XIAO ,

DOI：10.1631/FITEE.2400994

Abstract

Keywords