Mind the Gap: к обобщаемому автономному тестированию на проникновение через рандомизацию домена и мета-обучение с подкреплением

Shicheng ZHOU ,  

Jingju LIU ,  

Yuliang LU ,  

Jiahai YANG ,  

Yue ZHANG ,  

Jie CHEN ,  

Abstract

С увеличением количества уязвимостей, обнаруживаемых в Интернете, автономное тестирование на проникновение (pentesting) стало перспективной областью исследований. Обучение с подкреплением (RL) естественно подходит для изучения этой темы. Однако два ключевых вызова ограничивают применение автономного тестирования на проникновение на основе RL в реальных условиях: дилемма тренировочной среды — обучение агентов в смоделированных условиях эффективно с точки зрения выборок, но при этом сложной задачей является обеспечение реалистичности; плохая обобщающая способность — политики агентов часто плохо работают при переносе на невидимые сценарии, причем даже незначительные изменения могут вызвать значительный разрыв в обобщении. Чтобы решить обе проблемы, мы предлагаем обобщаемую структуру автономного тестирования на проникновение под названием GAP, которая направлена на эффективное обучение политик в реалистичных средах и обучение обобщаемых агентов, способных делать выводы о других случаях на основе одного примера. GAP вводит конвейер реал-сим-реал, который позволяет сквозное обучение политик в неизвестных реальных средах при построении реалистичных симуляций и улучшает обобщающую способность агентов с помощью рандомизации домена и мета-обучения с подкреплением (meta-RL). Мы одни из первых применили рандомизацию домена в автономном тестировании на проникновение и предложили метод рандомизации домена, основанный на крупной языковой модели, для генерации синтетических сред. Мы также применяем meta-RL для улучшения обобщающей способности агентов в невидимых средах, используя синтетические среды. Сочетание этих двух методов эффективно преодолевает разрыв в обобщении и улучшает адаптацию политик агентов. Моделирование проведено на различных уязвимых виртуальных машинах, результаты показывают, что GAP позволяет обучать политики в различных реалистичных средах, достигать переноса политики с нулевым выстрелом в схожих средах и обеспечивать быструю адаптацию политики в несхожих средах.

Keywords

Кибербезопасность;Тестирование на проникновение;Обучение с подкреплением;Рандомизация домена;Мета-обучение с подкреплением;Крупная языковая модель

READ MORE