Mind the Gap: hacia un pentesting autónomo generalizable mediante aleatorización de dominio y meta-aprendizaje por refuerzo

Shicheng ZHOU ,  

Jingju LIU ,  

Yuliang LU ,  

Jiahai YANG ,  

Yue ZHANG ,  

Jie CHEN ,  

Abstract

Con el aumento del número de vulnerabilidades expuestas en Internet, las pruebas de penetración autónomas (pentesting) han surgido como un área de investigación prometedora. El aprendizaje por refuerzo (RL) es una opción natural para estudiar este tema. Sin embargo, dos desafíos clave limitan la aplicabilidad del pentesting autónomo basado en RL en escenarios del mundo real: el dilema del entorno de entrenamiento — entrenar agentes en entornos simulados es eficiente en muestras mientras se asegura que su realismo siga siendo un reto; la pobre capacidad de generalización — las políticas de los agentes suelen funcionar mal cuando se transfieren a escenarios no vistos, con incluso cambios leves que pueden causar una brecha significativa de generalización. Para abordar ambos desafíos, proponemos un marco generalizable de pentesting autónomo denominado GAP, que busca lograr un entrenamiento eficiente de políticas en entornos realistas y entrenar agentes generalizables capaces de inferir sobre otros casos a partir de una instancia. GAP introduce una línea de producción real-a-simulación-a-real que permite el aprendizaje de políticas de extremo a extremo en entornos reales desconocidos mientras construye simulaciones realistas y mejora la capacidad de generalización de los agentes mediante la utilización de la aleatorización de dominio y el aprendizaje meta-RL. Somos de los primeros en aplicar la aleatorización de dominio en pentesting autónomo y proponemos un método de aleatorización de dominio potenciado por un modelo de lenguaje grande para la generación de entornos sintéticos. Además, aplicamos meta-RL para mejorar la capacidad de generalización de los agentes en entornos no vistos mediante el uso de entornos sintéticos. La combinación de ambos métodos cierra eficazmente la brecha de generalización y mejora el rendimiento de adaptación de políticas de los agentes. Las simulaciones se realizaron en varias máquinas virtuales vulnerables, con resultados que muestran que GAP puede permitir el aprendizaje de políticas en diversos entornos realistas, lograr transferencia de política zero-shot en entornos similares y una rápida adaptación de políticas en entornos disímiles.

Keywords

Ciberseguridad;Pruebas de penetración;Aprendizaje por refuerzo;Aleatorización de dominio;Meta-aprendizaje por refuerzo;Modelo de lenguaje grande

READ MORE