في السنوات الأخيرة، أثارت نماذج اللغة الكبيرة (LLM) القائمة على بنية Transformer اهتمامًا واسعًا بفضل أدائها الممتاز. تحتاج نماذج LLM الصناعية إلى معالجة تسلسلات طويلة لتقديم خدمات عالية الجودة. ومع ذلك، يزداد استهلاك الذاكرة بمعدل تربيعي مع طول التسلسل، مما يقيّد قدرة التدرّب على التسلسلات الطويلة على التوسّع. الطرق الموازية القائمة تولّد موترات زائدة أثناء التنفيذ، مما يترك مجالًا لتحسين إدارة الذاكرة؛ في نفس الوقت، لا يمكن للموازاة بالتنسور (TP) تحقيق تداخل فعال بين الحوسبة والاتصال. لمعالجة هذه القضايا، يقترح هذا البحث طريقة موازية عامة - الموازاة بالتنسور ذات الكفاءة العالية للذاكرة (METP)، المصممة خصيصًا لوحدات الحوسبة الأساسية في تدريب Transformer (أي عمليتين ضرب مصفوفات متتاليتين والعمليات الدالية المحتملة بينهما O=f(AB)C). تقوم METP بتوزيع المهام الجزئية لحساب O على أجهزة متعددة، وتستخدم اتصال نقطة إلى نقطة (send/recv) بدلاً من الاتصالات الجماعية لتبادل المصفوفات الفرعية لإكمال الحسابات، مما يتجنب إنشاء موترات زائدة. ومن خلال تقنية التخزين المؤقت ذو العزل المزدوج، يتم تحقيق تداخل عميق بين الحوسبة والاتصال، مع تقديم شروط نظرية لتداخل كامل لتوجيه تدريب Transformer في التسلسلات الطويلة. تُظهر التحليلات النظرية أنه عندما يكون التوازي بمستوى p، فإن استهلاك الذاكرة لـ METP بدون استخدام FlashAttention لحساب الانتباه هو O(1/p3)؛ وعند استخدام FlashAttention لحساب الانتباه متعدد الرؤوس، يمكن توفير ما لا يقل عن 41.7٪ من الذاكرة مقارنة بـ TP. وتبرز التجارب أنه مع تكوين 8 وحدات A100 GPU، يمكن لـ METP زيادة طول التسلسل بمقدار 2.38 إلى 2.99 مرة مقارنة بالطرق الأخرى.
Keywords
التعلم الموزع;نماذج اللغة واسعة النطاق;التسلسلات الطويلة;أنظمة التعلم الآلي;الكفاءة في الذاكرة;الموازاة بالتنسور