Multisprecher-Audio-visuelle Spracherkennung für diverse Szenarien

Yuxiao LIN ,  

Tao JIN ,  

Xize CHENG ,  

Zhou ZHAO ,  

Fei WU ,  

Abstract

In den letzten Jahren hat die audio-visuelle Sprach­erkennung (AVSR) zunehmende Aufmerksamkeit erhalten. Bestehende Studien vereinfachen jedoch meist die komplexen Herausforderungen in realen Anwendungen und konzentrieren sich nur auf Zwei-Sprecher-Szenarien und perfekt synchronisierte Audio-Video-Segmente. Diese Arbeit untersucht den Einfluss der Sprecheranzahl und der Modaldisychronie auf die AVSR-Aufgabe und schlägt ein End-to-End-AVSR-Framework unter realistischeren Bedingungen vor. Insbesondere wird ein sprecheranzahlbewusster Experten-Mischmechanismus (SA-MoE) vorgeschlagen, um die Merkmalsunterschiede zwischen Szenarien mit unterschiedlicher Sprecheranzahl explizit zu modellieren, und ein modal-übergreifendes Neuausrichtungsmodul (CMR) entworfen, um asynchrone Eingaben robust zu verarbeiten. Darüber hinaus wird unter Ausnutzung der intrinsischen Schwierigkeit eine neue Trainingsstrategie namens Challenge-basierte Curriculum-Lernen (CBCL) vorgestellt, die das Modell zwingt, sich auf schwierige und herausfordernde Daten anstatt auf einfache Daten zu konzentrieren, wodurch die Effizienz verbessert wird.

Keywords

Spracherkennung und Synthese; multimodale Erkennung; Curriculum-Lernen; Mehrsprecher-Spracherkennung

READ MORE