В последние годы мультиагентное обучение с подкреплением стало яркой звездой на поле обучения с подкреплением, продемонстрировав свой огромный потенциал во многих областях применения. Направляясь функция награды через установление критериев оценки и механизм обратной связи, направляет разведчиков в своей среде и принимает оптимальные решения. В то же время, кооперативные цели на макроуровне предоставляют траекторию для обучения агентов, гарантируя высокую согласованность стратегий индивидуального поведения с общими целями системы. Взаимодействие между структурой награды и кооперативными целями усиливает не только эффективность отдельных агентов, но также способствует взаимодействию между разведчиками и обеспечивает вдохновение для развития и гармоничного функционирования систем мультиагентного управления. В данной статье дается глубокий анализ методов конструирования структуры награды и стратегии оптимизации кооперативных целей в мультиагентном обучении с подкреплением, приведен подробный обзор последних научных достижений в этой области. Кроме того, внимательно рассматриваются приложения симулированной среды в сценариях сотрудничества и обсуждаются будущие тенденции развития этой области и потенциальные направления исследований, что предоставляет перспективный взгляд и вдохновение для дальнейших исследований.
Keywords
Мультиагентное обучение с подкреплением (MARL); кооперативная структура; функция награды; оптимизация кооперативных целей