TimeJudge: безобразцовая детекция временной согласованности видеоаннотаций на основе больших языковых моделей для видео

Yangliu HU; Zikai SONG; Junqing YU; Yiping Phoebe CHEN; Wei YANG

doi:10.1631/FITEE.2500412

TimeJudge: безобразцовая детекция временной согласованности видеоаннотаций на основе больших языковых моделей для видео

DOI：10.1631/FITEE.2500412

Abstract

Видео большие языковые модели (video-LLM) демонстрируют выдающиеся возможности в многомодальном понимании, но их потенциал в безобразцовой оценке временной согласованности видеоаннотаций еще недостаточно исследован. Существующие методы ограничены в обнаружении ключевых временных ошибок (таких как пропущенные действия, ошибки или нарушение порядка). В связи с этим в статье сделаны два основных вклада: (1) предложена инновационная безобразцовая рамочная система TimeJudge, которая преобразует обнаружение временных ошибок в набор калиброванных бинарных вопросов-ответов, вводит модально-чувствительный механизм калибровки доверия и стратегию взвешенного консенсусного голосования для устойчивой агрегации результатов; (2) тщательно создан набор эталонных данных TEDBench, охватывающий видео с 4 уровнями сложности действий и предоставляющий детальные аннотации временных ошибок для систематической оценки производительности video-LLM в этой задаче. Экспериментальные результаты показывают, что TimeJudge значительно повышает показатели полноты и F1-метрики обнаружения временных ошибок в нескольких передовых video-LLM без какой-либо конкретной настройки под задачу. Этот метод предоставляет универсальное, масштабируемое и безобучаемое решение для улучшения возможности временного контроля video-LLM.

Keywords

Видео большие языковые модели (Video-LLM); мульти-модальные большие языковые модели (MLLM); мульти-модальные большие языковые модели в роли судьи; видеоаннотации; эталон оценки

TimeJudge: безобразцовая детекция временной согласованности видеоаннотаций на основе больших языковых моделей для видео

Yangliu HU ,

Zikai SONG ,

Junqing YU ,

Yiping Phoebe CHEN ,

Wei YANG ,

DOI：10.1631/FITEE.2500412

Abstract

Keywords