Detección de alucinaciones en grandes modelos de lenguaje basada en la verificación de consistencia multi-perspectiva: un método de caja negra sin recursos

Linggang KONG ,  

Xiaofeng ZHONG ,  

Jie CHEN ,  

Haoran FU ,  

Yongjie WANG ,  

Abstract

Los grandes modelos de lenguaje (LLM), gracias a sus sobresalientes capacidades de procesamiento y generación del lenguaje natural, se han aplicado ampliamente en diversos campos. Sin embargo, los LLM a veces generan contenido que contradice los hechos, conocidas como alucinaciones, lo que representa un desafío importante para su uso en escenarios reales. Para mejorar la confiabilidad de los LLM, es crucial detectar las alucinaciones durante el proceso de generación del modelo. Los métodos comunes para detectar alucinaciones incluyen obtener conocimientos externos o verificar el estado interno del modelo, pero esto requiere acceso interno al LLM o depender de recursos expertos confiables, lo que representa una barrera para los usuarios finales. Para abordar estos desafíos, proponemos un método de detección en caja negra sin recursos basado en la verificación de consistencia desde múltiples perspectivas para identificar las alucinaciones del LLM. Este método, al fusionar las puntuaciones de consistencia de múltiples perspectivas de la consulta y la respuesta, mitiga eficazmente el problema de la confianza excesiva del LLM. En comparación con los métodos que dependen de una única perspectiva, nuestro enfoque muestra un mejor rendimiento en la detección de alucinaciones en múltiples conjuntos de datos y diferentes LLM. Cabe destacar que en un escenario experimental con una tasa de alucinación del LLM del 94,7 %, nuestro método aumentó la precisión media (B-ACC) en 2,3 puntos porcentuales y alcanzó un área bajo la curva (AUC) de 0,832, sin necesidad de depender de recursos externos durante todo el proceso.

Keywords

Grandes modelos de lenguaje (LLM); detección de alucinaciones LLM; verificación de consistencia; seguridad LLM

READ MORE