JFA: двухэтапная модель усиленного обучения тибетских Джючи с интеграцией иерархических нейронных сетей и человеческих знаний

Xiali LI ,  

Xiaoyu FAN ,  

Junzhi YU ,  

Zhicheng DONG ,  

Xianmu CAIRANG ,  

Ping LAN ,  

Abstract

Тибетские игры Джючи, являясь объектом нематериального культурного наследия национального уровня, представляют собой сложную шахматную игру, включающую две стадии: расстановку и бой. При ограниченных аппаратных ресурсах повышение уровня силы модели глубокого усиленного обучения (DRL) для тибетских Джючи становится задачей. Для её решения в данной работе предлагается двухэтапная модель JFA на основе иерархических нейронных сетей и руководствующей человеческой экспертизы. Модель включает два подмодели: стратегическую модель расстановки (SLM) для стадии расстановки и иерархическую боевую модель (HBM) для стадии боя. Обе подмодели используют схожую сетевую структуру, применяют параллельный Монте-Карло поиск по дереву (MCTS) и проводят самостоятельное обучение с помощью самоигры. HBM состоит из иерархической нейронной сети, верхний уровень которой выбирает ход и прыжковые захваты, а нижний уровень — действия по формированию квадратов и захвату фигур. На основе человеческих знаний разработан вспомогательный агент, который вместе со SLM и HBM симулирует весь игровой процесс и предоставляет сигналы вознаграждения на основе ситуации с формированием квадратов или фактическим исходом партии. Кроме того, в модели HBM предложены два метода обрезки на основе человеческих знаний: для параллельного MCTS и для захвата ходов согласно нижней сети. В экспериментах с игрой модели расстановки против модели, использующей подход AlphaZero, SLM достиг 74% побед, при этом время принятия решений сократилось примерно до 1/147 времени модели AlphaZero. SLM завоевала первое место на Национальном чемпионате Китая по компьютерным играм 2024 года. HBM достигла 70% побед в играх с другими моделями тибетских Джючи. При совместной работе SLM и HBM в рамках JFA выигрышный процент увеличивается до 81%, что соответствует уровню любительского игрока четвертого дана. Эти достижения демонстрируют, что рамки JFA эффективно повышают игровую производительность искусственного интеллекта тибетских Джючи.

Keywords

игра; усиленное обучение; тибетские Джючи; независимая двухэтапная модель; самоигра; иерархическая нейронная сеть; параллельный Монте-Карло поиск деревьев

READ MORE