面向多样化场景的多说话者音频─视觉语音识别

林宇箫; 金涛; 成曦泽; 赵洲; 吴飞

doi:10.1631/FITEE.2500411

Your Location：

Home >

Browse articles >

面向多样化场景的多说话者音频─视觉语音识别

常规文章 | Updated：2026-01-07

- 面向多样化场景的多说话者音频─视觉语音识别
  Enhanced Publication
- Multi-talker audio–visual speech recognition towards diverse scenarios^&
- “在视听语音识别领域，提出了一种新的端到端框架。xx专家建立了说话人数感知混合专家机制和跨模态调整模块，为解决AVSR任务中的说话人数和模态失准问题提供了解决方案。”
- Frontiers of Information Technology & Electronic Engineering 2025年26卷第11期页码：2310-2323
- Affiliations：
  
  College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China
- Author bio：
  
  E-mail: yuxiaolinling@zju.edu.cn
  jint_zju@zju.edu.cn
  chengxize@zju.edu.cn
  zhaozhou@zju.edu.cn
  ‡ Corresponding author
- Funds：
  
  National Natural Science Foundation of China(62572423)
- DOI：10.1631/FITEE.2500411
  中图分类号： TP18
- 收稿：2025-06-13，
  
  修回：2025-11-02，
  
  网络出版：2025-12-08，
  
  纸质出版：2025-11
- Accepted：
Scan QR Code
林宇箫, 金涛, 成曦泽, 等. 面向多样化场景的多说话者音频─视觉语音识别[J]. Frontiers of Information Technology & Electronic Engineering, 2025,26(11):2310-2323.

Yuxiao LIN, Tao JIN, Xize CHENG, et al. Multi-talker audio–visual speech recognition towards diverse scenarios^&[J]. Frontiers of Information Technology & Electronic Engineering, 2025, 26(11): 2310-2323.
林宇箫, 金涛, 成曦泽, 等. 面向多样化场景的多说话者音频─视觉语音识别[J]. Frontiers of Information Technology & Electronic Engineering, 2025,26(11):2310-2323. DOI： 10.1631/FITEE.2500411.

Yuxiao LIN, Tao JIN, Xize CHENG, et al. Multi-talker audio–visual speech recognition towards diverse scenarios^&[J]. Frontiers of Information Technology & Electronic Engineering, 2025, 26(11): 2310-2323. DOI： 10.1631/FITEE.2500411.

浏览量

Downloads

CSCD

文章被引用时，请邮件提醒。

Submit

工具集

关联资源

暂无数据

面向多样化场景的多说话者音频─视觉语音识别

Multi-talker audio–visual speech recognition towards diverse scenarios&

DOI：10.1631/FITEE.2500411

Multi-talker audio–visual speech recognition towards diverse scenarios^&