Методы оптимизации в полностью кооперативной среде: обзор мультиагентного обучения с подкреплением

Tao YANG; Xinhao SHI; Qinghan ZENG; Yulin YANG; Cheng XU; Hongzhe LIU

doi:10.1631/FITEE.2400259

Методы оптимизации в полностью кооперативной среде: обзор мультиагентного обучения с подкреплением

DOI：10.1631/FITEE.2400259

Abstract

В последние годы мультиагентное обучение с подкреплением стало яркой звездой на поле обучения с подкреплением, продемонстрировав свой огромный потенциал во многих областях применения. Направляясь функция награды через установление критериев оценки и механизм обратной связи, направляет разведчиков в своей среде и принимает оптимальные решения. В то же время, кооперативные цели на макроуровне предоставляют траекторию для обучения агентов, гарантируя высокую согласованность стратегий индивидуального поведения с общими целями системы. Взаимодействие между структурой награды и кооперативными целями усиливает не только эффективность отдельных агентов, но также способствует взаимодействию между разведчиками и обеспечивает вдохновение для развития и гармоничного функционирования систем мультиагентного управления. В данной статье дается глубокий анализ методов конструирования структуры награды и стратегии оптимизации кооперативных целей в мультиагентном обучении с подкреплением, приведен подробный обзор последних научных достижений в этой области. Кроме того, внимательно рассматриваются приложения симулированной среды в сценариях сотрудничества и обсуждаются будущие тенденции развития этой области и потенциальные направления исследований, что предоставляет перспективный взгляд и вдохновение для дальнейших исследований.

Keywords

Мультиагентное обучение с подкреплением (MARL); кооперативная структура; функция награды; оптимизация кооперативных целей

Методы оптимизации в полностью кооперативной среде: обзор мультиагентного обучения с подкреплением

Tao YANG ,

Xinhao SHI ,

Qinghan ZENG ,

Yulin YANG ,

Cheng XU ,

Hongzhe LIU ,

DOI：10.1631/FITEE.2400259

Abstract

Keywords