Большие языковые модели (LLM), благодаря своим выдающимся возможностям обработки и генерации естественного языка, широко применяются в различных областях. Однако LLM время от времени создают содержание, противоречащее фактам, так называемые галлюцинации, что представляет серьезную проблему при их применении в реальных условиях. Для повышения надежности LLM крайне важно обнаруживать галлюцинации в процессе генерации моделей. Распространенные методы выявления галлюцинаций включают получение внешних знаний или проверку внутреннего состояния модели, но это требует доступа к внутренностям LLM или использования надежных экспертных знаний, что ставит высокие требования для конечных пользователей. Для решения этих проблем мы предлагаем метод обнаружения галлюцинаций в режиме черного ящика без использования внешних ресурсов, основанный на проверке согласованности с нескольких точек зрения для выявления галлюцинаций LLM. Этот метод эффективно снижает проблему чрезмерной уверенности LLM путем объединения оценок согласованности запросов и ответов с разных перспектив. По сравнению с методами, основанными на единственной точке зрения, наш подход показывает лучшие результаты обнаружения галлюцинаций на различных наборах данных и моделях LLM. Важно отметить, что в эксперименте с уровнем галлюцинаций у LLM в 94,7% наш метод повысил среднюю точность (B-ACC) на 2,3 процентных пункта и достиг площади под кривой (AUC) 0,832 без необходимости использования каких-либо внешних ресурсов в процессе.
Keywords
Большие языковые модели (LLM); обнаружение галлюцинаций LLM; проверка согласованности; безопасность LLM