Mit der zunehmenden Anzahl von im Internet entdeckten Schwachstellen hat sich autonomes Penetrationstesten (pentesting) als vielversprechendes Forschungsgebiet etabliert. Reinforcement Learning (RL) eignet sich von Natur aus gut zur Untersuchung dieses Themas. Allerdings begrenzen zwei zentrale Herausforderungen die Anwendbarkeit von RL-basiertem autonomem Pentesting in realen Szenarien: das Trainingsumgebungsdilemma – das Training von Agenten in simulierten Umgebungen ist datenproben-effizient, während die Sicherstellung ihrer Realitätsnähe herausfordernd bleibt; schlechte Generalisierungsfähigkeit – die Politiken der Agenten funktionieren oft schlecht, wenn sie auf unbekannte Szenarien übertragen werden, wobei bereits geringfügige Veränderungen eine erhebliche Generalisierungslücke verursachen können. Um beide Herausforderungen zu adressieren, schlagen wir einen generalisierbaren autonomen Pentesting-Rahmen namens GAP vor, der effizientes Politikinning in realistischen Umgebungen sowie das Training generalisierbarer Agenten ermöglicht, die in der Lage sind, Schlüsse über andere Fälle aus einem Beispiel zu ziehen. GAP führt eine Real-to-Sim-to-Real-Pipeline ein, die das End-to-End-Politiklernen in unbekannten realen Umgebungen bei gleichzeitiger Konstruktion realistischer Simulationen ermöglicht und die Generalisierungsfähigkeit der Agenten durch Nutzung von Domain Randomization und Meta-RL verbessert. Wir gehören zu den ersten, die Domain Randomization im autonomen Pentesting anwenden und schlagen eine große Sprachmodell-gestützte Domain Randomization-Methode zur Erzeugung synthetischer Umgebungen vor. Darüber hinaus wenden wir Meta-RL an, um die Generalisierungsfähigkeit der Agenten in unbekannten Umgebungen durch den Einsatz synthetischer Umgebungen zu verbessern. Die Kombination der beiden Methoden schließt die Generalisierungslücke effektiv und verbessert die Anpassungsleistung der Agentenpolitik. Simulationen werden auf verschiedenen verwundbaren virtuellen Maschinen durchgeführt, wobei die Ergebnisse zeigen, dass GAP das Politiklernen in verschiedenen realistischen Umgebungen ermöglicht, Zero-Shot-Politiktransfer in ähnlichen Umgebungen erzielt und eine schnelle Politik-Anpassung in dissimiliaren Umgebungen erreicht.