Multisprecher-Audio-visuelle Spracherkennung für diverse Szenarien

Yuxiao LIN; Tao JIN; Xize CHENG; Zhou ZHAO; Fei WU

doi:10.1631/FITEE.2500411

Multisprecher-Audio-visuelle Spracherkennung für diverse Szenarien

DOI：10.1631/FITEE.2500411

Abstract

In den letzten Jahren hat die audio-visuelle Spracherkennung (AVSR) zunehmende Aufmerksamkeit erhalten. Bestehende Studien vereinfachen jedoch meist die komplexen Herausforderungen in realen Anwendungen und konzentrieren sich nur auf Zwei-Sprecher-Szenarien und perfekt synchronisierte Audio-Video-Segmente. Diese Arbeit untersucht den Einfluss der Sprecheranzahl und der Modaldisychronie auf die AVSR-Aufgabe und schlägt ein End-to-End-AVSR-Framework unter realistischeren Bedingungen vor. Insbesondere wird ein sprecheranzahlbewusster Experten-Mischmechanismus (SA-MoE) vorgeschlagen, um die Merkmalsunterschiede zwischen Szenarien mit unterschiedlicher Sprecheranzahl explizit zu modellieren, und ein modal-übergreifendes Neuausrichtungsmodul (CMR) entworfen, um asynchrone Eingaben robust zu verarbeiten. Darüber hinaus wird unter Ausnutzung der intrinsischen Schwierigkeit eine neue Trainingsstrategie namens Challenge-basierte Curriculum-Lernen (CBCL) vorgestellt, die das Modell zwingt, sich auf schwierige und herausfordernde Daten anstatt auf einfache Daten zu konzentrieren, wodurch die Effizienz verbessert wird.

Keywords

Spracherkennung und Synthese; multimodale Erkennung; Curriculum-Lernen; Mehrsprecher-Spracherkennung

Multisprecher-Audio-visuelle Spracherkennung für diverse Szenarien

Yuxiao LIN ,

Tao JIN ,

Xize CHENG ,

Zhou ZHAO ,

Fei WU ,

DOI：10.1631/FITEE.2500411

Abstract

Keywords