Улучшение достоверности последовательности в распознавании видеоповедения

Shaowu XU ,  

Xibin JIA ,  

Qianmei SUN ,  

Jing CHANG ,  

Abstract

Механизм внимания к последовательности критичен для распознавания видеоповедения, он позволяет модели сосредотачиваться на ключевых фрагментах с богатой семантической информацией. Однако эти модели часто сталкиваются с временной дисторсией из-за ограниченного разнообразия обучения и отсутствия точной временной наблюдаемости - то есть вес внимания несоответствует семантическому содержанию. Несмотря на то, что видеоматериалы обеспечивают грубое направление поведения, отсутствие деталей приводит к постоянному наличию шума внимания, особенно в сложных сценариях с мешающими пространственными элементами. Для решения этой проблемы в данной статье предлагается улучшение достоверности последовательности (TFE) - методика адверсарного обучения, основанная на теории разложения информационного бутылочного горлышка (DisenIB). TFE разделяет семантическую релевантность поведения и ложную релевантность путем разделения адверсариальных функций, тем самым смягчая проблему временной дисторсии. Этот метод использует предварительно обученное представление для инициализации, устанавливая адверсарное обучение, где высокие временные фрагменты внимания конкурируют с контекстом ослабленной релевантности поведения. Этот метод обеспечивает последовательную согласованность без необходимости точной временной метки и повышает достоверность веса внимания. Большое количество экспериментов с использованием базовых наборов данных UCF101, HMDB-51 и Charades подтверждают эффективность этого метода, результаты показывают, что TFE значительно повышает точность распознавания поведения.

Keywords

распознавание поведения; разложение информационного бутылочного горлышка; моделирование последовательности; достоверность последовательности

READ MORE