En los últimos años, el aprendizaje reforzado multiagente se ha convertido en una nueva estrella brillante en el campo del aprendizaje reforzado, demostrando su enorme potencial en numerosos escenarios de aplicación. La función de recompensa, a través del establecimiento de criterios de evaluación y un mecanismo de retroalimentación, guía a los agentes en su entorno y les ayuda a tomar decisiones óptimas. Al mismo tiempo, los objetivos de cooperación a nivel macro proporcionan trayectorias para el aprendizaje de los agentes y garantizan una alta coherencia entre las estrategias de comportamiento individual y los objetivos globales del sistema. La interacción entre la estructura de recompensa y los objetivos de cooperación no solo refuerza la eficacia de los agentes individuales, sino que también promueve la cooperación entre agentes, proporcionando así un impulso y una dirección para el desarrollo de la inteligencia colectiva y el funcionamiento armonioso de los sistemas multiagente. En este artículo se examinan en detalle los métodos de diseño de la estructura de recompensa y las estrategias de optimización de los objetivos de cooperación en el aprendizaje reforzado multiagente, y se revisan en detalle los últimos avances científicos en estos campos. Además, se lleva a cabo una evaluación exhaustiva de las aplicaciones ambientales cooperativas, así como discusiones sobre las tendencias futuras en este campo y las posibles direcciones de investigación, ofreciendo así una perspectiva prospectiva e inspiradora para investigaciones posteriores.
Keywords
Aprendizaje reforzado multiagente (MARL); Estructura cooperativa; Función de recompensa; Optimización de objetivos cooperativos