RetryTrigger: طريقة تحمل أخطاء الاستدلال الذكية لنماذج اللغة الكبيرة تجاه أعطال الأجهزة العابرة

Jiajia JIAO ,  

Yixu YU ,  

Abstract

في السنوات الأخيرة، أظهرت نماذج اللغة الكبيرة أداءً متميزًا في مختلف مهام معالجة اللغة الطبيعية. ومع ذلك، مع تزايد حدوث الأعطال العابرة في الأجهزة، أصبح مشكلة تلف البيانات الصامت في نماذج اللغة الكبيرة أكثر وضوحًا، مما أثر بشكل كبير على جودة المخرجات وتجربة المستخدم. تعتمد الحلول الرئيسية الحالية للحماية بشكل رئيسي على تحمل الأخطاء على مستوى الخوارزميات المدعوم بالأجهزة أو طرق تحمل الأخطاء التشغيلية المستندة إلى حدود طبقات معينة من النموذج. لكن هذه الطرق غالبًا ما تعاني من اعتماد مفرط على الأجهزة، تكلفة أداء مرتفعة أو تغطية غير كاملة للأعطال. لتجاوز هذه القيود، تقترح هذه الورقة طريقة جديدة لاستدراك أخطاء الاستدلال دون الحاجة إلى دعم أجهزة إضافية تُسمى RetryTrigger، لمواجهة جميع أنواع الأعطال العابرة بشكل شامل. خلال عملية استدلال نموذج اللغة الكبيرة، يقوم RetryTrigger بجمع سمات الإخراج في وقت التشغيل بشكل ديناميكي (مثل أعلى احتمالية، فرق احتمالات top-k، إنتروبيا الإخراج، إحصائيات logits، وتأخير الاستدلال)، ويُدخل هذه السمات إلى نموذج LightGBM الرئيسي للتحديد. يمكن لهذا النموذج الرئيسي التنبؤ بدقة ما إذا كانت هناك حاجة لتكرار الاستدلال، مما يحقق مزيجًا من كفاءة الاستدلال وتخفيف الأعطال دون الاعتماد على أجهزة إضافية. أُجريت تجارب مكثفة على 7 نماذج لغة كبيرة تمثيلية (بمن فيهم T5-Small، RoBERTa، BioMedBERT، Qwen2.5-Coder-0.5B/7B، MiniMind وOpt)، وأظهرت النتائج أن RetryTrigger يمكنه خفض معدل تلف البيانات الصامت بنسبة تصل إلى 95.33٪ (بمتوسط انخفاض 92.97٪)، مع تحمل أقل تكلفة أداء عند 2.4012٪ (بمتوسط 4.1167٪). مقارنةً بالحلول الرائدة الحالية، تحقق هذه الطريقة مزيدًا من التوازن المثالي بين الموثوقية وكفاءة الاستدلال.

Keywords

نماذج اللغة الكبيرة;مرونة النظام;الكشف الذكي عن الأعطال;إعادة حساب الاستدلال;الأعطال العابرة

READ MORE