Détection des hallucinations des grands modèles de langage basée sur la vérification de la cohérence multi-perspectives : une méthode noire sans ressources
Les grands modèles de langage (LLM), grâce à leurs excellentes capacités de traitement et de génération du langage naturel, sont largement utilisés dans divers domaines. Cependant, les LLM génèrent de temps en temps du contenu contradictoire avec les faits, appelé hallucinations, ce qui représente un défi majeur pour leur utilisation dans des scénarios réels. Pour améliorer la fiabilité des LLM, il est crucial de détecter les hallucinations lors du processus de génération. Les méthodes courantes de détection des hallucinations incluent l'acquisition de connaissances externes ou la vérification de l'état interne du modèle, mais cela nécessite un accès en boîte blanche au LLM ou la dépendance à des ressources expertes fiables, ce qui constitue une barrière pour les utilisateurs finaux. Pour relever ces défis, nous proposons une méthode de détection des hallucinations en boîte noire sans ressources basée sur la vérification de la cohérence multi-perspectives afin d’identifier les hallucinations des LLM. Cette méthode combine efficacement les scores de cohérence multi-perspectives des requêtes et des réponses, atténuant ainsi le problème de la confiance excessive des LLM. Comparée aux méthodes basées sur une seule perspective, notre approche montre de meilleures performances de détection des hallucinations sur plusieurs ensembles de données et différents LLM. Il est à noter que dans un scénario expérimental où le taux d'hallucination du LLM est de 94,7 %, notre méthode a amélioré la précision moyenne (B-ACC) de 2,3 points de pourcentage et atteint une aire sous la courbe (AUC) de 0,832, sans recourir à aucune ressource externe tout au long du processus.
Keywords
Grands modèles de langage (LLM); détection des hallucinations LLM; vérification de cohérence; sécurité LLM