TimeJudge: Detección sin muestras de coherencia temporal de resúmenes de video basada en grandes modelos de lenguaje de video

Yangliu HU; Zikai SONG; Junqing YU; Yiping Phoebe CHEN; Wei YANG

doi:10.1631/FITEE.2500412

TimeJudge: Detección sin muestras de coherencia temporal de resúmenes de video basada en grandes modelos de lenguaje de video

DOI：10.1631/FITEE.2500412

Abstract

Los grandes modelos de lenguaje de video (video-LLM) muestran capacidades sobresalientes en la comprensión multimodal, pero su potencial en la evaluación sin muestras de la coherencia temporal de los resúmenes de video aún no se ha explotado plenamente. Los métodos actuales tienen capacidades limitadas para detectar errores temporales clave (como omisión de acciones, alucinaciones o desorden de secuencia). Para ello, este trabajo realiza dos contribuciones principales: (1) propone un marco innovador sin muestras llamado TimeJudge, que reconstruye la detección de errores temporales como un conjunto de tareas bipolares calibradas de preguntas y respuestas, e introduce un mecanismo de calibración de confianza sensible a los modos y una estrategia de votación ponderada por coherencia para lograr una agregación robusta de resultados; (2) construye cuidadosamente un conjunto de datos de referencia TEDBench que cubre videos con 4 niveles de complejidad de acción, y proporciona anotaciones detalladas de errores temporales para evaluar sistemáticamente el desempeño de los video-LLM en esta tarea. Los resultados experimentales muestran que TimeJudge mejora significativamente la tasa de recuperación y la puntuación F1 en la detección de errores temporales en varios video-LLM avanzados sin necesidad de ajuste específico para la tarea. Este método proporciona una solución general, escalable y sin entrenamiento para mejorar la capacidad de revisión temporal de los video-LLM.

Keywords

Grandes modelos de lenguaje de video (Video-LLM); Modelos multimodales de lenguaje grande (MLLM); Modelos multimodales como jueces; Resúmenes de video; Benchmark de evaluación

TimeJudge: Detección sin muestras de coherencia temporal de resúmenes de video basada en grandes modelos de lenguaje de video

Yangliu HU ,

Zikai SONG ,

Junqing YU ,

Yiping Phoebe CHEN ,

Wei YANG ,

DOI：10.1631/FITEE.2500412

Abstract

Keywords