Полностью совместный сценарий оптимизации методов: обзор многоподходного усиленного обучения

Tao YANG ,  

Xinhao SHI ,  

Qinghan ZENG ,  

Yulin YANG ,  

Cheng XU ,  

Hongzhe LIU ,  

Abstract

В последние годы многоподходный усиленный обучения стал блистательной новой звездой в области усиленного обучения, продемонстрировав свой огромный потенциал во многих прикладных сценариях. Функция вознаграждения через установление оценочных критериев и механизм обратной связи направляет агентов в их окружении и помогает принимать оптимальные решения. В то же время, кооперативные цели на макроуровне предоставляют траектории для обучения агентов и обеспечивают высокую согласованность индивидуальных стратегий поведения с общими целями системы. Взаимодействие между структурой вознаграждения и кооперативными целями не только усиливает эффективность индивидуальных агентов, но также способствует содействию между агентами, обеспечивая толчок и направление для развития коллективного интеллекта и гармоничной работы многоподводных систем. В данной статье подробно рассматриваются методы проектирования структуры вознаграждения и стратегии оптимизации кооперативных целей в многоподдержной усиленной учёбе, подробно рассмотрены самые последние научные достижения в этой области. Кроме того, проводится глубокий анализ приложений сред сотрудничества, обсуждаются будущие тенденции в этой области, потенциальные направления исследований, что обеспечивает перспективный взгляд и вдохновение для последующих исследований.

Keywords

Многоподходное усиленное обучение (MARL); Кооперативная структура; Функция вознаграждения; Оптимизация кооперативного задания

READ MORE