TimeJudge: كشف بدون عينات لاتساق ترتيب ملخص الفيديو استنادًا إلى نماذج اللغة الكبيرة للفيديو

Yangliu HU ,  

Zikai SONG ,  

Junqing YU ,  

Yiping Phoebe CHEN ,  

Wei YANG ,  

Abstract

تُظهر نماذج اللغة الكبيرة للفيديو (video-LLM) قدرات رائعة في فهم متعدد الوسائط، ولكن إمكاناتها في تقييم الاتساق الزمني ملخص الفيديو بنهج بدون عينات لا تزال غير مستغلة بشكل كافٍ. الطرق الحالية محدودة في اكتشاف أخطاء الترتيب الزمني الرئيسية (مثل فقدان الحركة، الهلوسة أو اختلاط التسلسل). لذلك، تقدم هذه الورقة مساهمتين رئيسيتين: (1) اقتراح إطار مبتكر بدون عينات يُدعى TimeJudge، يعيد صياغة كشف أخطاء الترتيب الزمني كمجموعة من مهام الأسئلة الثنائية المعايرة، مع إدخال آلية معايرة ثقة حساسة للوسائط واستراتيجية تصويت مرجّح للاتساق لتحقيق تجميع نتائج قوي؛ (2) بناء مجموعة بيانات معيارية بعناية تدعى TEDBench تغطي مقاطع فيديو بأربع مستويات من تعقيد الحركة، مع تعليقات دقيقة لأخطاء الترتيب الزمني لتقييم منهجي لأداء video-LLM في هذه المهمة. تظهر التجارب أن TimeJudge يحسن بشكل ملحوظ معدل الاسترداد ودرجة F1 في كشف أخطاء الترتيب الزمني عبر عدة نماذج video-LLM متقدمة دون الحاجة إلى تعديل خاص بالمهمة. توفر هذه الطريقة حلاً عامًا وقابلًا للتوسع وبدون تدريب لتعزيز قدرة مراجعة الترتيب الزمني لـ video-LLM.

Keywords

نماذج اللغة الكبيرة للفيديو (Video-LLM); نماذج اللغة الكبيرة متعددة الوسائط (MLLM); نماذج اللغة الكبيرة متعددة الوسائط كحكم; ملخص الفيديو; معيار تقييم

READ MORE