Ces dernières années, l'apprentissage par renforcement multi-agent est devenu une étoile éblouissante dans le domaine de l'apprentissage par renforcement, démontrant son énorme potentiel dans de nombreux scénarios d'application. La fonction de récompense, en établissant des critères d'évaluation et un mécanisme de rétroaction, guide l'agent intelligent dans son environnement pour explorer et prendre les meilleures décisions. En même temps, les objectifs de coopération au niveau macro fournissent une trajectoire pour l'apprentissage de l'agent, assurant une grande cohérence entre les politiques de comportement individuel et les objectifs du système global. L'interaction entre la structure de récompense et les objectifs de coopération non seulement renforce l'efficacité des agents intelligents individuels, mais favorise également la collaboration entre les agents, fournissant ainsi la motivation et la direction pour le développement de l'intelligence collective et le fonctionnement harmonieux des systèmes multi-agents. Cet article examine en profondeur les méthodes de conception de la structure de récompense et les stratégies d'optimisation des objectifs de coopération dans l'apprentissage par renforcement multi-agent, examine en détail les dernières avancées scientifiques dans ce domaine. De plus, il passe en revue l'application des environnements de simulation dans des scénarios de coopération, discute des tendances futures dans ce domaine et des orientations de recherche potentielles, offrant ainsi une perspective prospective et une inspiration pour la recherche future.
Keywords
Apprentissage par renforcement multi-agent (MARL) ; Cadre coopératif ; Fonction de récompense ; Optimisation de l'objectif de coopération