التعرف على الكلام الصوتي المرئي متعدد المتحدثين لمشاهد متنوعة

Yuxiao LIN; Tao JIN; Xize CHENG; Zhou ZHAO; Fei WU

doi:10.1631/FITEE.2500411

التعرف على الكلام الصوتي المرئي متعدد المتحدثين لمشاهد متنوعة

DOI：10.1631/FITEE.2500411

Abstract

في السنوات الأخيرة، حاز التعرف على الكلام الصوتي المرئي (AVSR) على اهتمام متزايد. ومع ذلك، فقد بسطت الدراسات الحالية التحديات المعقدة في التطبيقات العملية، حيث ركزت فقط على سيناريوهات المتحدثين الثنائيين والمقاطع الصوتية والمرئية متزامنة تمامًا. تبحث هذه الدراسة تأثير عدد المتحدثين وعدم التزامن بين النماذج على مهمة AVSR، وتقترح إطارًا شاملًا AVSR في ظروف أكثر واقعية. على وجه الخصوص، تم اقتراح آلية دمج خبراء مدركة لعدد المتحدثين (SA-MoE) لنمذجة الفوارق المميزة بين مشاهد عدد المتحدثين المختلفين بوضوح، وتصميم وحدة إعادة التزامن عبر النماذج (CMR) لمعالجة الإدخالات غير المتزامنة بشكل قوي. بالإضافة إلى ذلك، باستخدام الفروق الجوهرية في الصعوبة، تم اقتراح استراتيجية تدريب جديدة تسمى التعلم المنهجي المبني على التحدي (CBCL) التي تجبر النموذج على التركيز على البيانات الصعبة والتحديات بدلاً من البيانات البسيطة، مما يحسن الكفاءة.

Keywords

التعرف على الكلام والتركيب;التعرف متعدد النماذج;التعلم المنهجي;التعرف على الكلام متعدد المتحدثين

التعرف على الكلام الصوتي المرئي متعدد المتحدثين لمشاهد متنوعة

Yuxiao LIN ,

Tao JIN ,

Xize CHENG ,

Zhou ZHAO ,

Fei WU ,

DOI：10.1631/FITEE.2500411

Abstract

Keywords