Modelo probabilístico de alertas de análisis estático mejorado con grandes modelos de lenguaje

Xinlong PAN ,  

Jianhua LI ,  

Zhihong ZHOU ,  

Gaolei LI ,  

Xiuzhen CHEN ,  

Jin MA ,  

Jun WU ,  

Quanhai ZHANG ,  

Abstract

El análisis estático enfrenta numerosos desafíos en el manejo de alertas, donde los modelos probabilísticos y la clasificación de prioridades de alertas son métodos clave para aliviar la carga manual del usuario. Estos modelos generalmente dependen de la retroalimentación del usuario para ordenar las alertas, mejorando así la eficiencia del procesamiento. Sin embargo, los métodos existentes suelen estar limitados por baja eficiencia y capacidad de generalización insuficiente. Aunque los métodos basados en aprendizaje han mostrado cierto potencial, generalmente conllevan altos costos de entrenamiento y están restringidos por estructuras de modelos predefinidas. Además, la integración de los grandes modelos de lenguaje (LLM) en el análisis estático aún no ha explotado completamente su potencial, lo que resulta en una baja precisión en la identificación de vulnerabilidades. Para abordar estos problemas, este artículo propone un nuevo marco denominado BinLLM, que utiliza la capacidad de generalización de los LLM para mejorar el rendimiento del modelo probabilístico de alertas mediante el aprendizaje de reglas. Nuestro enfoque introduce reglas abstractas generadas por LLM en el modelo probabilístico, combinando las rutas de alerta y las instrucciones clave del análisis estático, fortaleciendo la capacidad de inferencia del modelo, mejorando eficazmente la tasa de identificación de vulnerabilidades reales y mitigando errores de generalización. En una evaluación experimental con un conjunto de programas en C, BinLLM redujo el número de verificaciones necesarias para validar alertas en un 40.1 % y 9.4 % en comparación con dos métodos de referencia avanzados, Bingo y BayeSmith, reflejando plenamente el potencial de la combinación de LLM y análisis estático para mejorar la gestión de alertas.

Keywords

análisis estático; razonamiento bayesiano; grandes modelos de lenguaje; clasificación de alertas

READ MORE