طرق الأمثل في سيناريو التعاون التام: مراجعة شاملة لتعلم التعزيزي للعوامل المتعددة

Tao YANG; Xinhao SHI; Qinghan ZENG; Yulin YANG; Cheng XU; Hongzhe LIU

doi:10.1631/FITEE.2400259

طرق الأمثل في سيناريو التعاون التام: مراجعة شاملة لتعلم التعزيزي للعوامل المتعددة

DOI：10.1631/FITEE.2400259

Abstract

في السنوات الأخيرة، أصبح التعلم التعزيزي للعوامل المتعددة نجمة ساطعة في مجال التعلم التعزيزي، حيث أظهرت مدى إمكانياتها الهائلة في العديد من سيناريوهات التطبيق. توجيه وظيفة المكافأة من خلال إنشاء معايير التقييم وآلية التغذية المرتدة، توجه العوامل الذكية لاستكشاف بيئتها واتخاذ القرارات الأمثل. في الوقت نفسه، تقدم أهداف التعاون على المستوى الكبير مسارًا لتعلم العوامل الذكية، مما يضمن توافق سياسات السلوك الفردية مع أهداف النظام الكلي. التفاعل بين هيكل المكافأة وأهداف التعاون يعزز ليس فقط فعالية العوامل الفردية، بل يعزز أيضًا التعاون بين العوامل الذكية، ويوفر الديناميكية والاتجاهات لتطوير الذكاء الجماعي وتشغيل أنظمة العوامل المتعددة بسلاسة. تناولت هذه الورقة بعمق الطرق المختلفة لتصميم هيكل المكافأة في التعلم التعزيزي لمتعدد العوامل واستراتيجيات تحسين أهداف التعاون، مع إلقاء نظرة مفصلة على تطورات العلوم في هذه المجالات الجديدة. بالإضافة إلى ذلك، تم استعراض تطبيقات البيئة المحاكية في سيناريوهات التعاون بتفصيل، وناقشت اتجاهات تطوير هذا المجال في المستقبل واتجاهات البحث المحتملة، مما يوفر وجهات نظر مستقبلية وإلهامًا للأبحاث اللاحقة.

Keywords

تعلم تعزيزي لعوامل متعددة (MARL)؛ هيكل تعاوني؛ وظيفة مكافأة؛ تحسين أهداف التعاون

طرق الأمثل في سيناريو التعاون التام: مراجعة شاملة لتعلم التعزيزي للعوامل المتعددة

Tao YANG ,

Xinhao SHI ,

Qinghan ZENG ,

Yulin YANG ,

Cheng XU ,

Hongzhe LIU ,

DOI：10.1631/FITEE.2400259

Abstract

Keywords