Обнаружение галлюцинаций больших языковых моделей через многоточную проверку согласованности: метод черного ящика без ресурсов

Linggang KONG; Xiaofeng ZHONG; Jie CHEN; Haoran FU; Yongjie WANG

doi:10.1631/FITEE.2500180

Обнаружение галлюцинаций больших языковых моделей через многоточную проверку согласованности: метод черного ящика без ресурсов

DOI：10.1631/FITEE.2500180

Abstract

Большие языковые модели (LLM), благодаря своим выдающимся возможностям обработки и генерации естественного языка, широко применяются в различных областях. Однако LLM время от времени создают содержание, противоречащее фактам, так называемые галлюцинации, что представляет серьезную проблему при их применении в реальных условиях. Для повышения надежности LLM крайне важно обнаруживать галлюцинации в процессе генерации моделей. Распространенные методы выявления галлюцинаций включают получение внешних знаний или проверку внутреннего состояния модели, но это требует доступа к внутренностям LLM или использования надежных экспертных знаний, что ставит высокие требования для конечных пользователей. Для решения этих проблем мы предлагаем метод обнаружения галлюцинаций в режиме черного ящика без использования внешних ресурсов, основанный на проверке согласованности с нескольких точек зрения для выявления галлюцинаций LLM. Этот метод эффективно снижает проблему чрезмерной уверенности LLM путем объединения оценок согласованности запросов и ответов с разных перспектив. По сравнению с методами, основанными на единственной точке зрения, наш подход показывает лучшие результаты обнаружения галлюцинаций на различных наборах данных и моделях LLM. Важно отметить, что в эксперименте с уровнем галлюцинаций у LLM в 94,7% наш метод повысил среднюю точность (B-ACC) на 2,3 процентных пункта и достиг площади под кривой (AUC) 0,832 без необходимости использования каких-либо внешних ресурсов в процессе.

Keywords

Большие языковые модели (LLM); обнаружение галлюцинаций LLM; проверка согласованности; безопасность LLM

Обнаружение галлюцинаций больших языковых моделей через многоточную проверку согласованности: метод черного ящика без ресурсов

Linggang KONG ,

Xiaofeng ZHONG ,

Jie CHEN ,

Haoran FU ,

Yongjie WANG ,

DOI：10.1631/FITEE.2500180

Abstract

Keywords