El aprendizaje profundo reforzado ha demostrado capacidades notables en tareas visuales, pero su capacidad de generalización es más débil cuando la imagen de entrada se ve afectada por una señal de interferencia, por lo que es difícil aplicar un agente inteligente entrenado en un entorno nuevo. Para permitir que un agente inteligente distinga las señales de ruido en la imagen de los píxeles importantes, las técnicas de aumento de datos y el establecimiento de redes auxiliares son una solución efectiva. Se propone un nuevo algoritmo, es decir, la mejora de la extracción de la importancia de Q-valor (SEQA), este algoritmo anima al agente a explorar completamente el estado desconocido y enfocar su atención en la información importante. Concretamente, SEQA bloquea las características de interferencia, extrae las características importantes, utiliza la pérdida del crítico para actualizar la red de decodificación de máscaras, obligando así al agente a centrarse en las características importantes y tomar decisiones correctas. Este algoritmo se evaluó en el benchmark de generalización de control DeepMind, los resultados experimentales mostraron que este algoritmo mejora considerablemente la eficiencia y la estabilidad del entrenamiento. Al mismo tiempo, en la mayoría de las tareas del benchmark de generalización de control DeepMind, nuestro algoritmo es superior a los métodos de aprendizaje profundo reforzado líderes en eficiencia de muestras y capacidad de generalización.
Keywords
Aprendizaje profundo reforzado; tareas visuales; generalización; aumento de datos; importancia; Benchmark de generalización de control DeepMind