В последние годы многоподходный усиленный обучения стал блистательной новой звездой в области усиленного обучения, продемонстрировав свой огромный потенциал во многих прикладных сценариях. Функция вознаграждения через установление оценочных критериев и механизм обратной связи направляет агентов в их окружении и помогает принимать оптимальные решения. В то же время, кооперативные цели на макроуровне предоставляют траектории для обучения агентов и обеспечивают высокую согласованность индивидуальных стратегий поведения с общими целями системы. Взаимодействие между структурой вознаграждения и кооперативными целями не только усиливает эффективность индивидуальных агентов, но также способствует содействию между агентами, обеспечивая толчок и направление для развития коллективного интеллекта и гармоничной работы многоподводных систем. В данной статье подробно рассматриваются методы проектирования структуры вознаграждения и стратегии оптимизации кооперативных целей в многоподдержной усиленной учёбе, подробно рассмотрены самые последние научные достижения в этой области. Кроме того, проводится глубокий анализ приложений сред сотрудничества, обсуждаются будущие тенденции в этой области, потенциальные направления исследований, что обеспечивает перспективный взгляд и вдохновение для последующих исследований.
Keywords
Многоподходное усиленное обучение (MARL); Кооперативная структура; Функция вознаграждения; Оптимизация кооперативного задания