Mejoramiento de la fidelidad temporal en el reconocimiento del comportamiento en vídeo

Shaowu XU ,  

Xibin JIA ,  

Qianmei SUN ,  

Jing CHANG ,  

Abstract

El mecanismo de atención temporal es crucial para el reconocimiento del comportamiento en vídeo, ya que permite al modelo enfocarse en segmentos clave con información semántica rica. Sin embargo, estos modelos a menudo sufren distorsión temporal debido a la limitada diversidad y la falta de supervisión temporal detallada, es decir, el peso de la atención no coincide con el contenido semántico. A pesar de que las etiquetas a nivel de vídeo proporcionan pautas de comportamiento generales, la falta de restricciones detalladas conduce a la presencia continua de ruido de atención, especialmente en escenarios complejos que contienen elementos espaciales perturbadores. Para abordar este problema, este artículo propone un mejoramiento de la fidelidad temporal (TFE) - un paradigma de aprendizaje adversarial basado en la teoría de la desenredación del cuello de botella de información (DisenIB). TFE separa la relevancia semántica del comportamiento de la relevancia falsa descomponiendo las características adversas, aliviando así el problema de la distorsión temporal. Este método utiliza una representación preentrenada para la inicialización, estableciendo un proceso de aprendizaje adversarial donde los segmentos de atención temporal alta y la relevancia del comportamiento compiten entre sí. Este método garantiza coherencia temporal sin necesidad de etiquetas de supervisión detalladas, y mejora la fidelidad de los pesos de atención. Numerosos experimentos en los conjuntos de datos de referencia UCF101, HMDB-51 y Charades han confirmado la eficacia de este método, mostrando que TFE puede mejorar significativamente la precisión del reconocimiento del comportamiento.

Keywords

reconocimiento del comportamiento; desenredado del cuello de botella de información; modelización temporal; fidelidad temporal

READ MORE