بفضل أدائه المتميز في مجالات متعددة ، حظىت النماذج الكبيرة بانتباه واسع في مجال الرؤية الحاسوبية ومعالجة اللغة الطبيعية. ومع ذلك ، يواجه تدريب هذه النماذج تقييدات كبيرة في سعة ذاكرة الوصول العشوائي لمعالج الرسومات (GPU). يقوم هذا المقال بتنظيم نظام تقنيات تحسين تدريب النماذج الكبيرة تحت ظروف ذاكرة الوصول العشوائي المحدودة لـ GPU. يشرح أولاً العوامل الرئيسية لاحتلال ذاكرة VRAM خلال عملية التدريب - معلمات النموذج وحالة النموذج وتنشيط النموذج؛ ثم نقوم بتقييم النتائج البحثية الحالية من هذه الزوايا الثلاثة. وأخيراً ، نتطلع إلى اتجاهات تطوير هذا المجال مستقبلاً ، مشددين على أهمية الابتكار المستمر في تقنيات تحسين الذاكرة لتعزيز تطور النماذج اللغوية الكبيرة. يقدم هذا الاستعراض الشامل مرجعاً نظامياً لفهم التحديات وتطور التقنيات في تحسين ذاكرة الوصول العشوائي أثناء تدريب النماذج اللغوية الكبيرة للباحثين.
Keywords
Training techniques;Memory optimization;Model parameters;Model states;Model activations