Avec le nombre croissant de vulnérabilités exposées sur Internet, les tests d'intrusion autonomes (pentesting) ont émergé comme un domaine de recherche prometteur. L'apprentissage par renforcement (RL) est un choix naturel pour étudier ce sujet. Cependant, deux défis clés limitent l'applicabilité du pentesting autonome basé sur RL dans les scénarios réels : le dilemme de l'environnement d'entraînement – entraîner des agents dans des environnements simulés est économe en échantillons tout en assurant que leur réalisme reste un défi ; la faible capacité de généralisation – les politiques des agents fonctionnent souvent mal lorsqu'elles sont transférées à des scénarios inconnus, des changements même légers pouvant entraîner un écart de généralisation important. Pour relever ces deux défis, nous proposons un cadre de pentesting autonome généralisable appelé GAP, qui vise à réaliser un entraînement efficace des politiques dans des environnements réalistes et à former des agents généralisables capables de tirer des inférences à partir d'un seul cas. GAP introduit un pipeline réel-vers-sim-vers-réel qui permet un apprentissage de politique de bout en bout dans des environnements réels inconnus tout en construisant des simulations réalistes et améliore la capacité de généralisation des agents en exploitant la randomisation de domaine et l'apprentissage par renforcement méta (meta-RL). Nous sommes parmi les premiers à appliquer la randomisation de domaine dans le pentesting autonome et proposons une méthode de randomisation de domaine alimentée par un large modèle de langage pour la génération d'environnements synthétiques. Nous appliquons également le meta-RL pour améliorer la capacité de généralisation des agents dans des environnements inconnus en exploitant des environnements synthétiques. La combinaison des deux méthodes comble efficacement l'écart de généralisation et améliore la performance d'adaptation des politiques des agents. Des simulations sont réalisées sur diverses machines virtuelles vulnérables, avec des résultats montrant que GAP peut permettre l'apprentissage de politiques dans divers environnements réalistes, atteindre un transfert de politique en zéro-shot dans des environnements similaires, et réaliser une adaptation rapide des politiques dans des environnements dissemblables.
Keywords
Cybersécurité;Tests d'intrusion;Apprentissage par renforcement;Randomisation de domaine;Méta-apprentissage par renforcement;Grand modèle de langage