Глубокое обучение с подкреплением продемонстрировало значительные способности в визуальных задачах, но его обобщающая способность ослабевает, когда входное изображение подвергается помеховому сигналу, поэтому обученного агента сложно применить в новой среде. Чтобы позволить агенту различать шумовой сигнал и важные пиксели на изображении, техники увеличения данных и создание вспомогательных сетей являются эффективным решением. Предложен новый алгоритм, а именно улучшение извлечения важности Q-значений (SEQA), этот алгоритм поощряет агента полностью исследовать неизвестное состояние и сосредотачивать внимание на важной информации. Конкретно, SEQA блокирует помеховую особенность, извлекает значимые особенности, использует потери в качестве критика, чтобы обновить сеть декодирования масок, тем самым заставляя агента обращать внимание на важные особенности и принимать правильные решения. Этот алгоритм был оценен на стандарте обобщения контроля DeepMind, результаты экспериментов показали, что этот алгоритм значительно повысил эффективность обучения и его стабильность. В то же время, в большинстве задач стандарта обобщения контроля DeepMind наш алгоритм превосходит передовые методы обучения с подкреплением по эффективности образцов и обобщающей способности.
Keywords
Глубокое обучение с подкреплением; визуальные задачи; обобщение; увеличение данных; важность; Стандарт обобщения контроля DeepMind