Аудиовизуальное распознавание речи с несколькими говорящими для разнообразных сценариев

Yuxiao LIN; Tao JIN; Xize CHENG; Zhou ZHAO; Fei WU

doi:10.1631/FITEE.2500411

Аудиовизуальное распознавание речи с несколькими говорящими для разнообразных сценариев

DOI：10.1631/FITEE.2500411

Abstract

В последние годы все больше внимания уделяется аудиовизуальному распознаванию речи (AVSR). Однако существующие исследования в основном упрощают сложные задачи практического применения и сосредоточены только на сценариях с двумя говорящими и идеально синхронизированными аудио- и видеоклипами. В данной работе исследуется влияние количества говорящих и несинхронизации модальностей на задачу AVSR и предлагается сквозная архитектура AVSR в более реалистичных условиях. В частности, предлагается механизм экспертного смешивания, учитывающий количество говорящих (SA-MoE) для явного моделирования различий в характеристиках в различных сценариях с разным количеством говорящих, а также спроектирован модуль межмодальной перестановки (CMR) для надежной обработки асинхронных входных данных. Кроме того, с использованием внутреннего различия в сложностях предлагается новая стратегия обучения под названием обучение на основе вызова (CBCL), которая заставляет модель фокусироваться на сложных и проблемных данных, а не на простых, что повышает эффективность.

Keywords

распознавание и синтез речи; мультимодальное распознавание; курсовое обучение; распознавание речи с несколькими говорящими

Аудиовизуальное распознавание речи с несколькими говорящими для разнообразных сценариев

Yuxiao LIN ,

Tao JIN ,

Xize CHENG ,

Zhou ZHAO ,

Fei WU ,

DOI：10.1631/FITEE.2500411

Abstract

Keywords