Los grandes modelos de lenguaje de video (video-LLM) muestran capacidades sobresalientes en la comprensión multimodal, pero su potencial en la evaluación sin muestras de la coherencia temporal de los resúmenes de video aún no se ha explotado plenamente. Los métodos actuales tienen capacidades limitadas para detectar errores temporales clave (como omisión de acciones, alucinaciones o desorden de secuencia). Para ello, este trabajo realiza dos contribuciones principales: (1) propone un marco innovador sin muestras llamado TimeJudge, que reconstruye la detección de errores temporales como un conjunto de tareas bipolares calibradas de preguntas y respuestas, e introduce un mecanismo de calibración de confianza sensible a los modos y una estrategia de votación ponderada por coherencia para lograr una agregación robusta de resultados; (2) construye cuidadosamente un conjunto de datos de referencia TEDBench que cubre videos con 4 niveles de complejidad de acción, y proporciona anotaciones detalladas de errores temporales para evaluar sistemáticamente el desempeño de los video-LLM en esta tarea. Los resultados experimentales muestran que TimeJudge mejora significativamente la tasa de recuperación y la puntuación F1 en la detección de errores temporales en varios video-LLM avanzados sin necesidad de ajuste específico para la tarea. Este método proporciona una solución general, escalable y sin entrenamiento para mejorar la capacidad de revisión temporal de los video-LLM.
Keywords
Grandes modelos de lenguaje de video (Video-LLM); Modelos multimodales de lenguaje grande (MLLM); Modelos multimodales como jueces; Resúmenes de video; Benchmark de evaluación