TimeJudge : détection zero-shot de la cohérence temporelle des résumés vidéo basée sur les grands modèles linguistiques vidéo

Yangliu HU ,  

Zikai SONG ,  

Junqing YU ,  

Yiping Phoebe CHEN ,  

Wei YANG ,  

Abstract

Les grands modèles linguistiques vidéo (video-LLM) démontrent des capacités exceptionnelles en compréhension multimodale, mais leur potentiel dans l’évaluation zero-shot de la cohérence temporelle des résumés vidéo reste sous-exploité. Les méthodes existantes montrent des limites dans la détection des erreurs clés de séquence (telles que les actions manquantes, les hallucinations ou les désordres de séquence). Pour cela, cet article apporte deux contributions majeures : (1) proposer un cadre zero-shot innovant nommé TimeJudge, qui reformule la détection des erreurs temporelles en une série de tâches calibrées de questions-réponses binaires, en introduisant un mécanisme de calibration de confiance sensible au modal et une stratégie de vote pondéré de cohérence pour une agrégation robuste des résultats ; (2) construire soigneusement un dataset de référence TEDBench couvrant des vidéos avec 4 niveaux de complexité d’action, et fournir des annotations fines d’erreurs temporelles pour une évaluation systématique des performances des video-LLM sur cette tâche. Les résultats expérimentaux montrent que TimeJudge améliore significativement le rappel et la F1-score de la détection d’erreurs temporelles sur plusieurs video-LLM avancés sans nécessiter d’ajustement spécifique à la tâche. Cette méthode propose une solution générale, évolutive et sans entraînement pour améliorer la capacité de révision temporelle des video-LLM.

Keywords

Modèles linguistiques vidéo (Video-LLM) ; Modèles linguistiques multimodaux (MLLM) ; Modèles multimodaux comme juge ; Résumés vidéo ; Benchmark d’évaluation

READ MORE