Halluzinationserkennung großer Sprachmodelle durch Multi-Perspektiven-Konsistenzprüfung: Eine Black-Box-Null-Ressourcen-Methode

Linggang KONG; Xiaofeng ZHONG; Jie CHEN; Haoran FU; Yongjie WANG

doi:10.1631/FITEE.2500180

Halluzinationserkennung großer Sprachmodelle durch Multi-Perspektiven-Konsistenzprüfung: Eine Black-Box-Null-Ressourcen-Methode

DOI：10.1631/FITEE.2500180

Abstract

Große Sprachmodelle (LLM) werden aufgrund ihrer hervorragenden Fähigkeiten in der Verarbeitung und Generierung natürlicher Sprache in vielen Bereichen weit verbreitet eingesetzt. Dennoch erzeugen LLM gelegentlich Inhalte, die den Fakten widersprechen, sogenannte Halluzinationen, was eine ernsthafte Herausforderung für deren Einsatz in realen Szenarien darstellt. Um die Zuverlässigkeit von LLM zu erhöhen, ist es entscheidend, Halluzinationen während des Generierungsprozesses zu erkennen. Häufig verwendete Methoden zur Erkennung von Halluzinationen umfassen das Abrufen externer Wissensquellen oder die Überprüfung des Modellzustands, was jedoch einen White-Box-Zugriff auf das LLM oder die Abhängigkeit von verlässlichen Expertenressourcen erfordert und somit für Endanwender eine hohe Hürde darstellt. Zur Lösung dieser Herausforderungen schlagen wir eine Black-Box-Null-Ressourcen-Erkennungsmethode basierend auf einer Multi-Perspektiven-Konsistenzprüfung vor, um Halluzinationen in LLM zu identifizieren. Diese Methode mildert das Problem der übermäßigen Selbstsicherheit von LLM effektiv, indem sie Konsistenzwerte aus verschiedenen Perspektiven von Abfrage und Antwort kombiniert. Im Vergleich zu Erkennungsmethoden, die auf einer einzigen Perspektive basieren, zeigt unser Ansatz eine bessere Halluzinationserkennungsleistung auf mehreren Datensätzen und verschiedenen LLM. Bemerkenswert ist, dass in einem Experiment mit einer Halluzinationsrate von 94,7 % bei einem LLM unser Ansatz die durchschnittliche Genauigkeit (B-ACC) um 2,3 Prozentpunkte verbesserte und eine Flächenunter-der-Kurve (AUC) von 0,832 erreichte, ohne während des gesamten Prozesses auf externe Ressourcen angewiesen zu sein.

Keywords

Große Sprachmodelle (LLM); LLM-Halluzinationserkennung; Konsistenzprüfung; LLM-Sicherheit

Halluzinationserkennung großer Sprachmodelle durch Multi-Perspektiven-Konsistenzprüfung: Eine Black-Box-Null-Ressourcen-Methode

Linggang KONG ,

Xiaofeng ZHONG ,

Jie CHEN ,

Haoran FU ,

Yongjie WANG ,

DOI：10.1631/FITEE.2500180

Abstract

Keywords