В последние годы все больше внимания уделяется аудиовизуальному распознаванию речи (AVSR). Однако существующие исследования в основном упрощают сложные задачи практического применения и сосредоточены только на сценариях с двумя говорящими и идеально синхронизированными аудио- и видеоклипами. В данной работе исследуется влияние количества говорящих и несинхронизации модальностей на задачу AVSR и предлагается сквозная архитектура AVSR в более реалистичных условиях. В частности, предлагается механизм экспертного смешивания, учитывающий количество говорящих (SA-MoE) для явного моделирования различий в характеристиках в различных сценариях с разным количеством говорящих, а также спроектирован модуль межмодальной перестановки (CMR) для надежной обработки асинхронных входных данных. Кроме того, с использованием внутреннего различия в сложностях предлагается новая стратегия обучения под названием обучение на основе вызова (CBCL), которая заставляет модель фокусироваться на сложных и проблемных данных, а не на простых, что повышает эффективность.
Keywords
распознавание и синтез речи; мультимодальное распознавание; курсовое обучение; распознавание речи с несколькими говорящими