Видео большие языковые модели (video-LLM) демонстрируют выдающиеся возможности в многомодальном понимании, но их потенциал в безобразцовой оценке временной согласованности видеоаннотаций еще недостаточно исследован. Существующие методы ограничены в обнаружении ключевых временных ошибок (таких как пропущенные действия, ошибки или нарушение порядка). В связи с этим в статье сделаны два основных вклада: (1) предложена инновационная безобразцовая рамочная система TimeJudge, которая преобразует обнаружение временных ошибок в набор калиброванных бинарных вопросов-ответов, вводит модально-чувствительный механизм калибровки доверия и стратегию взвешенного консенсусного голосования для устойчивой агрегации результатов; (2) тщательно создан набор эталонных данных TEDBench, охватывающий видео с 4 уровнями сложности действий и предоставляющий детальные аннотации временных ошибок для систематической оценки производительности video-LLM в этой задаче. Экспериментальные результаты показывают, что TimeJudge значительно повышает показатели полноты и F1-метрики обнаружения временных ошибок в нескольких передовых video-LLM без какой-либо конкретной настройки под задачу. Этот метод предоставляет универсальное, масштабируемое и безобучаемое решение для улучшения возможности временного контроля video-LLM.
Keywords
Видео большие языковые модели (Video-LLM); мульти-модальные большие языковые модели (MLLM); мульти-модальные большие языковые модели в роли судьи; видеоаннотации; эталон оценки