Reconnaissance audiovisuelle de la parole multi-locuteurs pour des scénarios diversifiés

Yuxiao LIN ,  

Tao JIN ,  

Xize CHENG ,  

Zhou ZHAO ,  

Fei WU ,  

Abstract

Ces dernières années, la reconnaissance audiovisuelle de la parole (AVSR) a suscité un intérêt croissant. Cependant, les recherches existantes simplifient souvent les défis complexes des applications réelles, se concentrant uniquement sur les scénarios à deux locuteurs et les segments audio-vidéo parfaitement synchronisés. Cet article étudie l'impact du nombre de locuteurs et du désalignement modal sur la tâche AVSR, et propose un cadre AVSR de bout en bout dans des conditions plus réalistes. Plus précisément, un mécanisme de mélange d'experts sensible au nombre de locuteurs (SA-MoE) est proposé pour modéliser explicitement les différences de caractéristiques entre différents scénarios de nombre de locuteurs, et un module de réalignement cross-modal (CMR) est conçu pour gérer de manière robuste les entrées asynchrones. En outre, en tirant parti des différences intrinsèques de difficulté, une nouvelle stratégie d'entraînement appelée apprentissage par curriculum basé sur les défis (CBCL) est proposée, qui force le modèle à se concentrer sur les données difficiles et complexes plutôt que sur les données simples, améliorant ainsi l'efficacité.

Keywords

reconnaissance et synthèse vocale; reconnaissance multimodale; apprentissage par curriculum; reconnaissance vocale multi-locuteurs

READ MORE