En los últimos años, el reconocimiento audiovisual del habla (AVSR) ha recibido una creciente atención. Sin embargo, la investigación existente simplifica los desafíos complejos en aplicaciones reales y se centra únicamente en escenarios de dos hablantes y fragmentos de audio y vídeo perfectamente alineados. Este artículo investiga el impacto del número de hablantes y el desalineamiento modal en la tarea AVSR, y propone un marco AVSR de extremo a extremo en condiciones más realistas. En particular, se propone un mecanismo de mezcla de expertos consciente del número de hablantes (SA-MoE) para modelar explícitamente las diferencias de características en escenarios con distintos números de hablantes, y se diseña un módulo de realineamiento crossmodal (CMR) para manejar entradas asincrónicas de manera robusta. Además, aprovechando las diferencias intrínsecas de dificultad, se propone una nueva estrategia de entrenamiento llamada aprendizaje curricular basado en desafíos (CBCL), que obliga al modelo a centrarse en datos difíciles y desafiantes en lugar de datos simples, mejorando así la eficiencia.
Keywords
reconocimiento y síntesis de voz; reconocimiento multimodal; aprendizaje curricular; reconocimiento de voz multihablante