استنادًا إلى تصميم Transformer ، أصبحت النماذج أساسًا في مجال معالجة اللغة الطبيعية. ومع ذلك ، لا تزال عملية الاستدلال تشكل تحديًا هائلًا للحسابات ، مما يقيد التطبيقات الفعلية لهذه النماذج. يستخدم هذا البحث وحدة تحكم على مسرع الذكاء الاصطناعي (AI) لتقليل تكلفة عملية استدلال نموذج Transformer ، ويشمل في الأساس 4 جوانب: أولاً ، تحليل شامل لتكلفة عملية استدلال Transformer وتحديد المعوقات الرئيسية. ثانياً ، استخدام النواة الرئيسية (MPE) لمسرع الذكاء الاصطناعي SWAI ، حقق إطار جدولة ثلاثي المستوى تقليل في عدد مرات التشغيل بين المضيف والجهاز إلى حوالي واحد من الألف من الإعداد الأصلي لـ PyTorch-GPU. ثالثاً ، إدخال تقنية إدارة الذاكرة الصفرية المستندة إلى دمج الصفحة تقلل بشكل ملحوظ من تأخير الوصول إلى الذاكرة وتحسن كفاءة الاستدلال الشاملة. أخيرًا ، تطوير طريقة سريعة لتحميل النموذج ، والتخلص من الحسابات الزائدة للتحقق من النموذج وعملية التهيئة ، حيث تصل وقت تحميل النموذج الكلي الكبير من 22 128.31 مللي ثانية إلى 1041.72 مللي ثانية. قلل هذا البحث بشكل كبير من تحسين نموذج Transformer ، مما يجعل استدلاله أكثر كفاءة وسرعة على مسرع AI.
Keywords
تحسين الاستدلال بتقنية Transformer ؛ جدولة ثلاثية المستوى ؛ إدارة الذاكرة الصفرية ؛ تحميل النموذج السريع