L'apprentissage approfondi par renforcement a montré de remarquables capacités dans les tâches visuelles, mais sa capacité de généralisation est plus faible lorsque l'image d'entrée est perturbée par un signal de brouillage, il est donc difficile d'appliquer un agent intelligent entraîné dans un nouvel environnement. Afin de permettre à un agent intelligent de distinguer les signaux de bruit sur l'image des pixels importants, les techniques d'augmentation de données et la mise en place de réseaux auxiliaires sont une solution efficace. Une nouvelle méthode est proposée, à savoir l'amélioration de l'extraction de la valeur Q de l'importance (SEQA), cette méthode encourage l'agent à explorer complètement l'état inconnu et à concentrer son attention sur les informations importantes. Concrètement, le SEQA bloque les caractéristiques perturbatrices, extrait les caractéristiques importantes, utilise la perte du critique pour mettre à jour le réseau de décodage des masques, forçant ainsi l'agent à se concentrer sur les caractéristiques importantes et à prendre les bonnes décisions. Cette méthode a été évaluée sur le benchmark de généralisation de contrôle DeepMind, les résultats des expériences ont montré que cette méthode améliore considérablement l'efficacité et la stabilité de l'entraînement. Dans le même temps, dans la plupart des tâches du benchmark de généralisation de contrôle DeepMind, notre méthode est supérieure aux méthodes d'apprentissage par renforcement de pointe en termes d'efficacité de l'échantillon et de capacité de généralisation.
Keywords
Apprentissage approfondi par renforcement; tâches visuelles; généralisation; augmentation de données; importance; Benchmark de généralisation de contrôle DeepMind