Verbesserung der zeitlichen Treue in der Erkennung des Videoverhaltens

Shaowu XU ,  

Xibin JIA ,  

Qianmei SUN ,  

Jing CHANG ,  

Abstract

Der Mechanismus der zeitlichen Aufmerksamkeit ist entscheidend für die Erkennung von Videoverhalten, da er es dem Modell ermöglicht, sich auf Schlüsselsegmente mit reichhaltigen semantischen Informationen zu konzentrieren. Diese Modelle leiden jedoch oft unter zeitlichen Verzerrungen aufgrund begrenzter Trainingsvielfalt und fehlender detaillierter zeitlicher Überwachung, d. h. das Gewicht der Aufmerksamkeit stimmt nicht mit dem semantischen Inhalt überein. Obwohl die Videotags grobe Verhaltensrichtlinien liefern, führt der Mangel an detaillierten Einschränkungen zu einer kontinuierlichen Präsenz von Aufmerksamkeitsrauschen, insbesondere in komplexen Szenarien mit störenden räumlichen Elementen. Zur Lösung dieses Problems schlägt dieser Artikel eine Verbesserung der zeitlichen Treue (TFE) vor - ein adversatives Lernparadigma, das auf der Theorie der Entwirrung des Informationsflaschenhalses (DisenIB) basiert. TFE trennt die relevante semantische Behavio-ralität von der falschen Relevanz, indem es die Adversarial-Funktionen umschichtet und so das Problem der zeitlichen Verzerrung mildert. Diese Methode verwendet eine vorab trainierte Repräsentation zur Initialisierung und etabliert einen adversativen Lernprozess, bei dem hohe zeitliche Aufmerksamkeitsegmente und die Verhaltensrelevanz miteinander konkurrieren. Diese Methode gewährleistet zeitliche Kohärenz, ohne dass detaillierte Überwachungsetiketten benötigt werden, und verbessert die Treue der Aufmerksamkeitsgewichte. Zahlreiche Experimente mit Referenzdatensätzen wie UCF101, HMDB-51 und Charades haben die Wirksamkeit dieser Methode bestätigt, was zeigt, dass TFE die Genauigkeit der Verhaltenserkennung erheblich verbessern kann.

Keywords

Verhaltenserkennung; Entwirrung des Informationsflaschenhalses; zeitliche Modellierung; zeitliche Treue

READ MORE