En los últimos años, el aprendizaje por refuerzo multiagente se ha convertido en una estrella brillante en el campo del aprendizaje por refuerzo, demostrando su enorme potencial en numerosos escenarios de aplicación. La función de recompensa, al establecer criterios de evaluación y un mecanismo de retroalimentación, guía al agente inteligente en su entorno para explorar y tomar las mejores decisiones. Al mismo tiempo, los objetivos de cooperación a nivel macro proporcionan una trayectoria para el aprendizaje del agente, asegurando una gran coherencia entre las políticas de comportamiento individual y los objetivos del sistema global. La interacción entre la estructura de recompensa y los objetivos de cooperación no solo refuerza la eficacia de los agentes inteligentes individuales, sino que también fomenta la colaboración entre agentes, proporcionando así la motivación y la dirección para el desarrollo de la inteligencia colectiva y el funcionamiento armonioso de los sistemas multiagente. Este artículo examina en profundidad los métodos de diseño de la estructura de recompensa y las estrategias de optimización de los objetivos de cooperación en el aprendizaje por refuerzo multiagente, analiza en detalle los últimos avances científicos en este campo. Además, revisa la aplicación de entornos de simulación en escenarios de cooperación, discute las tendencias futuras en este campo y las posibles direcciones de investigación, proporcionando así una perspectiva prospectiva y una inspiración para la investigación futura.
Keywords
Aprendizaje por refuerzo multiagente (MARL); Marco cooperativo; Función de recompensa; Optimización del objetivo de cooperación