Méthodes d'optimisation dans un scénario entièrement coopératif : une synthèse de l'apprentissage renforcé multi-agent

Tao YANG ,  

Xinhao SHI ,  

Qinghan ZENG ,  

Yulin YANG ,  

Cheng XU ,  

Hongzhe LIU ,  

Abstract

Ces dernières années, l'apprentissage renforcé multi-agent est devenu une nouvelle étoile éblouissante dans le domaine de l'apprentissage renforcé, démontrant son énorme potentiel dans de nombreux scénarios d'application. La fonction de récompense, en établissant des critères d'évaluation et un mécanisme de rétroaction, guide les agents dans leur environnement et les aide à prendre les décisions optimales. En même temps, les objectifs de coopération à un niveau macro fournissent des trajectoires pour l'apprentissage des agents et assurent une grande cohérence entre les stratégies comportementales individuelles et les objectifs globaux du système. L'interaction entre la structure de récompense et les objectifs de coopération renforce non seulement l'efficacité des agents individuels, mais favorise également la coopération entre les agents, fournissant ainsi une impulsion et une direction pour le développement de l'intelligence collective et le fonctionnement harmonieux des systèmes multi-agents. Cet article examine en détail les méthodes de conception de la structure de récompense et les stratégies d'optimisation des objectifs de coopération dans l'apprentissage renforcé multi-agent, et passe en revue en détail les dernières avancées scientifiques dans ces domaines. De plus, une évaluation approfondie des applications environnementales coopératives est réalisée, ainsi que des discussions sur les tendances futures dans ce domaine et les orientations de recherche potentielles, offrant ainsi un aperçu prospectif et inspirant pour les recherches ultérieures.

Keywords

Apprentissage renforcé multi-agent (MARL) ; Cadre coopératif ; Fonction de récompense ; Optimisation des objectifs coopératifs

READ MORE