TimeJudge: Null-Proben-Erkennung der zeitlichen Konsistenz von Videozusammenfassungen basierend auf Video-Großsprachmodellen

Yangliu HU; Zikai SONG; Junqing YU; Yiping Phoebe CHEN; Wei YANG

doi:10.1631/FITEE.2500412

TimeJudge: Null-Proben-Erkennung der zeitlichen Konsistenz von Videozusammenfassungen basierend auf Video-Großsprachmodellen

DOI：10.1631/FITEE.2500412

Abstract

Video-Großsprachmodelle (video-LLM) zeigen herausragende Fähigkeiten im multimodalen Verständnis, ihr Potenzial bei der Null-Proben-Bewertung der zeitlichen Konsistenz von Videozusammenfassungen wurde jedoch noch nicht vollständig genutzt. Bestehende Methoden sind bei der Erkennung wichtiger zeitlicher Fehler (wie fehlende Aktionen, Halluzinationen oder Reihenfolgestörungen) eingeschränkt. Daher leistet dieser Artikel zwei zentrale Beiträge: (1) Vorschlag eines innovativen Null-Proben-Rahmens namens TimeJudge, der die Erkennung zeitlicher Fehler in eine Reihe kalibrierter binärer Frage-Antwort-Aufgaben umwandelt und einen modalsensitiven Konfidenzkalibrierungsmechanismus sowie eine konsistenzgewichtete Abstimmungsstrategie zur robusten Ergebnisaggregation einführt; (2) sorgfältiger Aufbau eines Benchmark-Datensatzes TEDBench, der Videos mit 4 Stufen der Aktionskomplexität abdeckt und fein granulierte zeitliche Fehlerannotationen für die systematische Bewertung der Leistung von video-LLM bei dieser Aufgabe bereitstellt. Experimentelle Ergebnisse zeigen, dass TimeJudge die Rückrufrate und den F1-Score bei der Erkennung zeitlicher Fehler auf mehreren fortgeschrittenen video-LLM deutlich verbessert, ohne dass eine spezifische Feinabstimmung erforderlich ist. Diese Methode bietet eine allgemeine, skalierbare und trainingsfreie Lösung zur Verbesserung der zeitlichen Prüfungsfähigkeit von video-LLM.

Keywords

Video-Großsprachmodelle (Video-LLM); Multimodale Großsprachmodelle (MLLM); Multimodale Großsprachmodelle als Schiedsrichter; Videozusammenfassung; Bewertungsbenchmark

TimeJudge: Null-Proben-Erkennung der zeitlichen Konsistenz von Videozusammenfassungen basierend auf Video-Großsprachmodellen

Yangliu HU ,

Zikai SONG ,

Junqing YU ,

Yiping Phoebe CHEN ,

Wei YANG ,

DOI：10.1631/FITEE.2500412

Abstract

Keywords