في السنوات الأخيرة، أصبح التعلم التعزيزي للعوامل المتعددة نجمة ساطعة في مجال التعلم التعزيزي، حيث أظهرت مدى إمكانياتها الهائلة في العديد من سيناريوهات التطبيق. توجيه وظيفة المكافأة من خلال إنشاء معايير التقييم وآلية التغذية المرتدة، توجه العوامل الذكية لاستكشاف بيئتها واتخاذ القرارات الأمثل. في الوقت نفسه، تقدم أهداف التعاون على المستوى الكبير مسارًا لتعلم العوامل الذكية، مما يضمن توافق سياسات السلوك الفردية مع أهداف النظام الكلي. التفاعل بين هيكل المكافأة وأهداف التعاون يعزز ليس فقط فعالية العوامل الفردية، بل يعزز أيضًا التعاون بين العوامل الذكية، ويوفر الديناميكية والاتجاهات لتطوير الذكاء الجماعي وتشغيل أنظمة العوامل المتعددة بسلاسة. تناولت هذه الورقة بعمق الطرق المختلفة لتصميم هيكل المكافأة في التعلم التعزيزي لمتعدد العوامل واستراتيجيات تحسين أهداف التعاون، مع إلقاء نظرة مفصلة على تطورات العلوم في هذه المجالات الجديدة. بالإضافة إلى ذلك، تم استعراض تطبيقات البيئة المحاكية في سيناريوهات التعاون بتفصيل، وناقشت اتجاهات تطوير هذا المجال في المستقبل واتجاهات البحث المحتملة، مما يوفر وجهات نظر مستقبلية وإلهامًا للأبحاث اللاحقة.
Keywords
تعلم تعزيزي لعوامل متعددة (MARL)؛ هيكل تعاوني؛ وظيفة مكافأة؛ تحسين أهداف التعاون