تحسين دقة جودة الفقرات الزمنية في التعرف على سلوك الفيديو

Shaowu XU ,  

Xibin JIA ,  

Qianmei SUN ,  

Jing CHANG ,  

Abstract

آلية الانتباه الزمني حاسمة للتعرف على سلوك الفيديو، حيث تمكن النموذج من التركيز على الفقرات الرئيسية ذات المعلومات الدلالية الغنية. ومع ذلك، ينشأ هذا النوع من النماذج غالبًا بسبب تنوع التدريب المحدود ونقص الرصد الزمني الدقيق ظاهرة تشوه زمني - أي أن وزن الانتباه يتزامن بطريقة خاطئة مع المحتوى الدلالي. وعلى الرغم من أن العلامات على مستوى الفيديو توفر توجيهات سلوكية خشنة، إلا أن القيود التفصيلية المفقودة تؤدي إلى استمرار الضوضاء في الانتباه، بشكل خاص في السيناريوهات المعقدة التي تحتوي على عناصر مكانية مزعجة. تأتي هذه الدراسة لحل هذه المشكلة من خلال تقديم تعزيز لدقة جودة الفقرات الزمنية (TFE) - وهي نمطية تعلم معارضة تعتمد على نظرية انفصال البيانات (DisenIB). يقوم TFE بفصل دلالة السلوك ذات الصلة وزيف الانتزاع بواسطة فك الأسرار المقاومة، وبالتالي تخفيف مشكلة التشوه الزمني. تستفيد هذه الطريقة من التمثيل المعرفي المعايرة مسبقاً بواسطة بدء العملية، وبناء عملية التعلم المعارض بحيث يتنافس سياق تركيز الفقرات الزمنية المرتفع مع التوهمية الضعيفة للصلة بالسلوك. هذه الطريقة تضمن الاتساق الزمني دون الحاجة إلى علامات رصد تفصيلية، وتعزز عزوم الانتباه بدقة. تم التحقق من فعالية هذه الأساليب من خلال تجارب كبيرة على مجموعات البيانات الرائدة UCF101، HMDB-51 وCharades، وأظهرت النتائج أن TFE يمكن أن يزيد بشكل كبير من دقة التعرف على السلوك.

Keywords

تعرف على السلوك؛ انفصال المعلومات البيانية؛ نمذجة الزمن؛ دقة جودة الفقرات الزمنية

READ MORE