TP-ViT: جهاز تكميم زوجي موحد مقطوع للطيران مع طريقة إعادة بناء التدهور التدريجي للبتات موجه لمحولات الرؤية

Xichuan ZHOU ,  

Sihuan ZHAO ,  

Rui DING ,  

Jiayu SHI ,  

Jing NIE ,  

Lihui CHEN ,  

Haijun LIU ,  

Abstract

نجح محول الرؤية (ViT) بشكل كبير في تطبيقات الرؤية الحاسوبية المدفوعة بواسطة الذكاء الاصطناعي المختلفة. ومع ذلك، فإن ViT يتطلب احتياجات عالية من الحساب والذاكرة، مما يحد من تطبيقه الفعلي على الأجهزة الطرفية ذات الموارد المحدودة. بالرغم من أن التكميم بعد التدريب (PTQ) يوفر حلاً واعدًا من خلال تقليل دقة النموذج باستخدام كمية صغيرة من بيانات المعايرة، إلا أن التكميم العددي المنخفض العدواني غالبًا ما يؤدي إلى تدهور كبير في الأداء. لمواجهة هذا التحدي، نقدم جهاز تكميم زوجي موحد مقطوع للطيران مع طريقة إعادة بناء التدهور التدريجي للبتات موجهة لمحولات الرؤية (TP-ViT). هذه الطريقة هي إطار PTQ مبتكر مصمم خصيصًا لـ ViT، ويشمل مساهمتين أساسيتين: (1) جهاز التكميم الزوجي الموحد المقطوع — هذه الطريقة الجديدة للتكميم قادرة على معالجة القيم الشاذة بعد تفعيل Softmax بفعالية، مما يقلل بشكل كبير من خطأ التكميم؛ (2) استراتيجية تحسين تدهور البتات — تستخدم أوزان انتقالية لتقليل دقة البتات تدريجيًا مع الحفاظ على أداء النموذج تحت ظروف التكميم القاسية. أظهرت التجارب الشاملة على مهام تصنيف الصور، واكتشاف الأهداف، وتقسيم الحالات أن TP-ViT يتفوق على أفضل طرق PTQ الحالية، خاصة في سيناريوهات التكميم بثلاث بتات ذات التحديات العالية. تحت شرط التكميم بثلاث بتات، حقق الإطار زيادة بنسبة 6.18 نقطة مئوية في دقة Top-1 على نموذج ViT-small. تؤكد النتائج على متانة وعمومية TP-ViT، مما يمهد الطريق للنشر الفعال لنماذج ViT في تطبيقات الرؤية الحاسوبية على أجهزة الحافة.

Keywords

محول الرؤية;تكميم بعد التدريب;إعادة بناء الكتل;تصنيف الصور;اكتشاف الأهداف;تقسيم الحالات

READ MORE