L'analyse des données binaires, en tant que technologie de base importante, soutient de nombreuses applications dans le domaine du génie logiciel et de la recherche en sécurité. Avec l'expansion continue de la taille des logiciels et l'évolution complexe de l'architecture logicielle, la technologie d'analyse des données binaires est confrontée à de nouveaux défis. Pour surmonter les obstacles actuels, les chercheurs appliquent des technologies d'intelligence artificielle à la compréhension et à l'analyse du code binaire, dont l'essence réside dans la manière de représenter le code binaire, c'est-à-dire comment utiliser des méthodes intelligentes pour générer des vecteurs de représentation de code binaire contenant des informations sémantiques, puis les appliquer à diverses tâches d'analyse des données binaires. Cet article passe en revue les dernières avancées dans la technologie de représentation du code binaire et analyse le flux de travail des recherches connexes, qu'il divise en deux parties : les méthodes d'extraction de caractéristiques du code binaire et les méthodes d'intégration de caractéristiques du code binaire. La partie extraction de caractéristiques comprend la définition et la classification des caractéristiques, ainsi que le processus de construction des caractéristiques. Dans la partie intégration des caractéristiques, en fonction du modèle d'intelligence de compréhension des données utilisé, les méthodes d'intégration sont classées en 4 catégories et sont ensuite présentées en détail. Enfin, une synthèse du développement global de la recherche actuelle est réalisée, et quelques orientations potentielles de recherche en matière de technologie de représentation du code binaire sont envisagées.
Keywords
Analyse binaire; Représentation du code binaire; Sélection des caractéristiques du code binaire; Intégration des caractéristiques du code binaire