استخدام وحدة التحكم على مسرع الذكاء الاصطناعي سواي لتقليل تكاليف استدلال نموذج Transformer

Yulong ZHAO ,  

Chunzhi WU ,  

Yizhuo WANG ,  

Lufei ZHANG ,  

Yaguang ZHANG ,  

Wenyuan SHEN ,  

Hao FAN ,  

Hankang FANG ,  

Yi QIN ,  

Xin LIU ,  

Abstract

استنادًا إلى تصميم Transformer ، أصبحت النماذج أساسًا في مجال معالجة اللغة الطبيعية. ومع ذلك ، لا تزال عملية الاستدلال تشكل تحديًا هائلًا للحسابات ، مما يقيد التطبيقات الفعلية لهذه النماذج. يستخدم هذا البحث وحدة تحكم على مسرع الذكاء الاصطناعي (AI) لتقليل تكلفة عملية استدلال نموذج Transformer ، ويشمل في الأساس 4 جوانب: أولاً ، تحليل شامل لتكلفة عملية استدلال Transformer وتحديد المعوقات الرئيسية. ثانياً ، استخدام النواة الرئيسية (MPE) لمسرع الذكاء الاصطناعي SWAI ، حقق إطار جدولة ثلاثي المستوى تقليل في عدد مرات التشغيل بين المضيف والجهاز إلى حوالي واحد من الألف من الإعداد الأصلي لـ PyTorch-GPU. ثالثاً ، إدخال تقنية إدارة الذاكرة الصفرية المستندة إلى دمج الصفحة تقلل بشكل ملحوظ من تأخير الوصول إلى الذاكرة وتحسن كفاءة الاستدلال الشاملة. أخيرًا ، تطوير طريقة سريعة لتحميل النموذج ، والتخلص من الحسابات الزائدة للتحقق من النموذج وعملية التهيئة ، حيث تصل وقت تحميل النموذج الكلي الكبير من 22 128.31 مللي ثانية إلى 1041.72 مللي ثانية. قلل هذا البحث بشكل كبير من تحسين نموذج Transformer ، مما يجعل استدلاله أكثر كفاءة وسرعة على مسرع AI.

Keywords

تحسين الاستدلال بتقنية Transformer ؛ جدولة ثلاثية المستوى ؛ إدارة الذاكرة الصفرية ؛ تحميل النموذج السريع

READ MORE