Le mécanisme d'attention temporelle est crucial pour la reconnaissance des comportements vidéo, il permet au modèle de se concentrer sur les segments clés contenant des informations sémantiques riches. Cependant, ces modèles rencontrent souvent une distorsion temporelle en raison d'une diversité d'entraînement limitée et d'un manque de supervision temporelle fine - c'est-à-dire que le poids de l'attention est décalé par rapport au contenu sémantique. Bien que les étiquettes au niveau de la vidéo fournissent des directives comportementales grossières, l'absence de contraintes détaillées entraîne une présence continue de bruit d'attention, en particulier dans des scénarios complexes contenant des éléments spatiaux perturbateurs. Pour résoudre ce problème, cet article propose une amélioration de la fidélité temporelle (TFE) - un paradigme d'apprentissage adversarial basé sur la théorie du dégroupement de l'information (DisenIB). TFE sépare la sémantique comportementale pertinente de la pertinence fausse en décomposant les caractéristiques adverses, atténuant ainsi le problème de distorsion temporelle. Cette méthode utilise une représentation pré-entraînée pour l'initialisation, établissant un processus d'apprentissage adversarial où les segments d'attention temporelle élevés et la pertinence comportementale s'affaiblissent mutuellement. Cette méthode assure une cohérence temporelle sans avoir besoin d'étiquettes de supervision fines, et améliore la fidélité des poids d'attention. De nombreuses expériences sur les ensembles de données de référence UCF101, HMDB-51 et Charades ont confirmé l'efficacité de cette méthode, les résultats montrant que TFE peut considérablement améliorer la précision de la reconnaissance des comportements.
Keywords
reconnaissance des comportements; dégroupement de l'information; modélisation temporelle; fidélité temporelle