Your Location:
Home >
Browse articles >
面向多样化场景的多说话者音频─视觉语音识别
常规文章 | Updated:2026-01-07
    • 面向多样化场景的多说话者音频─视觉语音识别

      Enhanced Publication
    • Multi-talker audio–visual speech recognition towards diverse scenarios&

    • 在视听语音识别领域,提出了一种新的端到端框架。xx专家建立了说话人数感知混合专家机制和跨模态调整模块,为解决AVSR任务中的说话人数和模态失准问题提供了解决方案。
    • Frontiers of Information Technology & Electronic Engineering   2025年26卷第11期 页码:2310-2323
    • DOI:10.1631/FITEE.2500411    

      中图分类号: TP18
    • 收稿:2025-06-13

      修回:2025-11-02

      网络出版:2025-12-08

      纸质出版:2025-11

    Scan QR Code

  • 林宇箫, 金涛, 成曦泽, 等. 面向多样化场景的多说话者音频─视觉语音识别[J]. Frontiers of Information Technology & Electronic Engineering, 2025,26(11):2310-2323. DOI: 10.1631/FITEE.2500411.

    Yuxiao LIN, Tao JIN, Xize CHENG, et al. Multi-talker audio–visual speech recognition towards diverse scenarios&[J]. Frontiers of Information Technology & Electronic Engineering, 2025, 26(11): 2310-2323. DOI: 10.1631/FITEE.2500411.

  •  
  •  

0

浏览量

0

Downloads

0

CSCD

>
文章被引用时,请邮件提醒。
Submit
工具集
下载
参考文献导出
分享
收藏
添加至我的专辑

相关文章

暂无数据

相关作者

暂无数据

相关机构

暂无数据
0