استخدام وحدة تحكم مسرع الذكاء الاصطناعي الصيني لتقليل تكاليف عملية استنتاج Transformer

Yulong ZHAO ,  

Chunzhi WU ,  

Yizhuo WANG ,  

Lufei ZHANG ,  

Yaguang ZHANG ,  

Wenyuan SHEN ,  

Hao FAN ,  

Hankang FANG ,  

Yi QIN ,  

Xin LIU ,  

Abstract

استنادًا إلى بنية Transformer ، أصبحت النماذج أساسًا في مجال معالجة اللغة الطبيعية. ومع ذلك ، فإن النفقات الهائلة لعملية الاستنتاج ما زالت تشكل تحديًا كبيرًا ، مما يحد من التطبيقات العملية لهذه النماذج. يستخدم هذا البحث وحدة التحكم على مسرع الذكاء الاصطناعي (AI) لتقليل تكاليف عملية استنتاج نموذج Transformer ، ويحتوي بشكل رئيسي على 4 جوانب: أولاً ، تحليل شامل لتكاليف عملية استنتاج Transformer وتحديد العقبات الرئيسية. ثم ، باستخدام النواة الرئيسية لمسرع الذكاء الاصطناعي الصيني (SWAI) ، تم تحقيق إطار جدولة ثلاثي المستويات ، مما يقلل من مرات التشغيل بين المضيف والجهاز إلى حوالي إلى واحد من الألف المجموعة الأصلية لـ PyTorch-GPU. ثم ، تقديم تقنية إدارة الذاكرة الخالية من النسخ القائمة على دمج المراحل ، مما يقلل بشكل كبير من تأخير الوصول إلى الذاكرة ويعزز كفاءة الاستنتاج الشاملة. في النهاية ، تطوير طريقة سريعة لتحميل النموذج ، والقضاء على الحسابات الزائدة للتحقق من النموذج وعملية التهيئة ، وتقليل وقت تحميل النموذج الكلي من 22،128.31 مللي ثانية إلى 1،041.72 مللي ثانية. يحسن هذا البحث بشكل كبير نموذج Transformer ، مما يجعل عملية الاستنتاج عليه أكثر كفاءة وسرعة على مسرع AI.

Keywords

تحسين الاستنتاج الفولتي لـ Transformer ؛ جدولة ثلاثية المستوى ؛ إدارة الذاكرة الخالية من النسخ ؛ تحميل النموذج السريع

READ MORE