انتبه للفجوة: نحو اختبارات اختراق ذاتية عامة عبر التوزيع العشوائي للمجال والتعلم التعزيزي الفوقي

Shicheng ZHOU ,  

Jingju LIU ,  

Yuliang LU ,  

Jiahai YANG ,  

Yue ZHANG ,  

Jie CHEN ,  

Abstract

مع ازدياد عدد الثغرات الأمنية التي يتم كشفها على الإنترنت، ظهرت اختبارات الاختراق الذاتية (pentesting) كمجال بحث واعد. التعلم المعزز (RL) هو خيار طبيعي لدراسة هذا الموضوع. ومع ذلك، هناك تحديان رئيسيان يحدان من تطبيق اختبارات الاختراق الذاتية القائمة على RL في السيناريوهات الواقعية: معضلة بيئة التدريب – حيث يكون تدريب الوكلاء في بيئات محاكاة فعالًا من حيث العينات مع ضمان أن تظل واقعية، وقدرة التعميم الضعيفة – حيث تؤدي سياسات الوكلاء أداءً ضعيفًا عند نقلها إلى سيناريوهات غير مرئية، مع إمكانية أن تؤدي حتى التغيرات الطفيفة إلى فجوة تعميم كبيرة. لمعالجة هذين التحديين، نقترح إطار عمل عام لاختبارات الاختراق الذاتية يسمى GAP، والذي يهدف إلى تحقيق تدريب سياسة فعال في بيئات واقعية وتدريب وكلاء قابلين للتعميم قادرين على استخلاص استنتاجات حول حالات أخرى من حالة واحدة. يقدم GAP خط أنابيب من الواقع إلى المحاكاة ثم إلى الواقع يمكّن التعلم الشامل للسياسة في بيئات حقيقية غير معروفة مع إنشاء محاكاة واقعية ويحسن قدرة التعميم للوكلاء من خلال الاستفادة من التوزيع العشوائي للمجال والتعلم التعزيزي الفوقي (meta-RL). نحن من بين الأوائل الذين يطبقون التوزيع العشوائي للمجال في اختبارات الاختراق الذاتية ونقترح طريقة توزيع عشوائي للمجال مدعومة بنموذج لغة كبير لتوليد بيئات صناعية. نطبق كذلك meta-RL لتحسين قدرة التعميم للوكلاء في البيئات غير المرئية من خلال الاستفادة من البيئات الصناعية. الجمع بين الطريقتين يجسر بشكل فعال فجوة التعميم ويحسن أداء تكيف سياسات الوكلاء. تم إجراء المحاكاة على أجهزة افتراضية عرضة لمخاطر متعددة، أظهرت النتائج أن GAP يمكنه تمكين تعلم السياسات في بيئات واقعية مختلفة، وتحقيق نقل سياسة بدون تدريب مسبق في بيئات مشابهة، وتحقيق تكيف سريع للسياسة في بيئات غير مشابهة.

Keywords

الأمن السيبراني;اختبار الاختراق;التعلم المعزز;التوزيع العشوائي للمجال;التعلم التعزيزي الفوقي;نموذج اللغة الكبير

READ MORE