استخدام وحدة التحكم على مسرع الذكاء الاصطناعي سواي لتقليل تكاليف استدلال نموذج Transformer

Yulong ZHAO; Chunzhi WU; Yizhuo WANG; Lufei ZHANG; Yaguang ZHANG; Wenyuan SHEN; Hao FAN; Hankang FANG; Yi QIN; Xin LIU

doi:10.1631/FITEE.2400453

استخدام وحدة التحكم على مسرع الذكاء الاصطناعي سواي لتقليل تكاليف استدلال نموذج Transformer

DOI：10.1631/FITEE.2400453

Abstract

استنادًا إلى تصميم Transformer ، أصبحت النماذج أساسًا في مجال معالجة اللغة الطبيعية. ومع ذلك ، لا تزال عملية الاستدلال تشكل تحديًا هائلًا للحسابات ، مما يقيد التطبيقات الفعلية لهذه النماذج. يستخدم هذا البحث وحدة تحكم على مسرع الذكاء الاصطناعي (AI) لتقليل تكلفة عملية استدلال نموذج Transformer ، ويشمل في الأساس 4 جوانب: أولاً ، تحليل شامل لتكلفة عملية استدلال Transformer وتحديد المعوقات الرئيسية. ثانياً ، استخدام النواة الرئيسية (MPE) لمسرع الذكاء الاصطناعي SWAI ، حقق إطار جدولة ثلاثي المستوى تقليل في عدد مرات التشغيل بين المضيف والجهاز إلى حوالي واحد من الألف من الإعداد الأصلي لـ PyTorch-GPU. ثالثاً ، إدخال تقنية إدارة الذاكرة الصفرية المستندة إلى دمج الصفحة تقلل بشكل ملحوظ من تأخير الوصول إلى الذاكرة وتحسن كفاءة الاستدلال الشاملة. أخيرًا ، تطوير طريقة سريعة لتحميل النموذج ، والتخلص من الحسابات الزائدة للتحقق من النموذج وعملية التهيئة ، حيث تصل وقت تحميل النموذج الكلي الكبير من 22 128.31 مللي ثانية إلى 1041.72 مللي ثانية. قلل هذا البحث بشكل كبير من تحسين نموذج Transformer ، مما يجعل استدلاله أكثر كفاءة وسرعة على مسرع AI.

Keywords

تحسين الاستدلال بتقنية Transformer ؛ جدولة ثلاثية المستوى ؛ إدارة الذاكرة الصفرية ؛ تحميل النموذج السريع

استخدام وحدة التحكم على مسرع الذكاء الاصطناعي سواي لتقليل تكاليف استدلال نموذج Transformer

Yulong ZHAO ,

Chunzhi WU ,

Yizhuo WANG ,

Lufei ZHANG ,

Yaguang ZHANG ,

Wenyuan SHEN ,

Hao FAN ,

Hankang FANG ,

Yi QIN ,

Xin LIU ,

DOI：10.1631/FITEE.2400453

Abstract

Keywords