أسلوب التوازي الفعال للذاكرة لتدريب Transformer المتسلسلات الطويلة

Peng LIANG ,  

Linbo QIAO ,  

Yanqi SHI ,  

Hao ZHENG ,  

Yu TANG ,  

Dongsheng LI ,  

Abstract

في السنوات الأخيرة، أثارت النماذج اللغوية الضخمة (LLM) المعتمدة على هيكل Transformer اهتمامًا واسعًا بفضل أدائها المتميز. يجب على نموذج LLM الصناعي التعامل مع مدخلات طويلة لتوفير خدمات عالية الجودة. ومع ذلك، يزداد استهلاك الذاكرة بشكل مربع مع طول المتسلسلة، مما يقيد قدرة التدريب على المتسلسلات الطويلة. الطرق المتوازية الحالية تنتج معلومات تكرارية خلال التنفيذ، مما يوفر مساحة لتحسين استخدام الذاكرة؛ في الوقت نفسه، التوازي الدال (TP) لا يمكنه تحقيق تداخل حاسبات واتصالات فعال. معالجة المشكلة المذكورة أعلاه، تقدم هذه الورقة طريقة توازي عامة - التوازي الفعال للذاكرة (METP)، مصممة خصيصًا لوحدة الحساب النواة Transformer للتدريب (أي ضربتان متتاليتان للمصفوفة وعملياتها المحتملة الوظيفية بينهما O=f (AB)C) حيث يقوم METP بتخصيص مهام الحساب O إلى أجهزة متعددة واستخدام الاتصال نقطة إلى نقطة (إرسال/استقبال) بدلاً من تبادل الاتصال الجماعي لإكمال الحساب، وتجنب إنشاء معلومات تكرارية. بفضل تقنية التخزين المؤقت المزدوج تحقيق تداخل عميق بين الحسابات والاتصالات، وتقديم شروط تداخل تام لتدريب Transformer المتسلسلات الطويلة. التحليل النظري يظهر: عندما يكون التوازي p، يكون إنفاق METP على الذاكرة عند عدم استخدام الانتباه FlashAttention يساوي O(1/p3)؛ عند استخدام FlashAttention لحساب الانتباه المتعدد، يمكن توفير على الأقل 41.7٪ من الذاكرة بالمقارنة مع TP. يظهر التجربة العملية أن METP يمكن أن يزيد من طول المتسلسلة بنسبة 2.38-2.99 مرة مقارنة بالأساليب الأخرى.

Keywords

تعلم موزع؛ نموذج لغوي كبير (LLM)؛ متسلسلة طويلة؛ نظام التعلم الآلي؛ كفاءة الذاكرة؛ التوازي للأبعاد

READ MORE