최근 몇 년간 음성-시각 음성 인식(AVSR)에 대한 관심이 증가하고 있습니다. 그러나 기존 연구들은 실제 응용에서의 복잡한 도전을 대체로 단순화하여, 이중 화자 시나리오와 완벽하게 정렬된 오디오-비디오 클립에만 집중해왔습니다. 본 논문은 화자 수와 모달 불일치가 AVSR 작업에 미치는 영향을 연구하고, 보다 현실적인 조건에서 종단 간 AVSR 프레임워크를 제안합니다. 구체적으로, 다양한 화자 수 환경에서의 특징 차이를 명확히 모델링하기 위해 화자 수 인지 전문가 혼합(SA-MoE) 메커니즘을 제안하고, 비동기 입력을 견고하게 처리하기 위한 교차 모달 재정렬(CMR) 모듈을 설계했습니다. 또한 내재된 난이도 차이를 활용하여 도전 기반 커리큘럼 학습(CBCL)이라는 새로운 훈련 전략을 제시함으로써, 모델이 단순 데이터보다 어렵고 도전적인 데이터에 집중하도록 하여 효율성을 향상시켰습니다.