중국 문자 인식을 위한 공유 가중치 다중모드 번역 모델

Yuankang SUN ,  

Bing LI ,  

Lexiang LI ,  

Peng YANG ,  

Dongmei YANG ,  

Abstract

중국 문자 인식 작업은 중국 문자의 의미 모호함과 혼란 문제를 해결하기 위해 중국어 음성과 형태의 모호성을 강조하는 문맥 의미를 중국 말뭉치와 어휘에서 얻는 현재 대부분의 방법들이 중국어 고유 음운학 및 형태학적 특징들을 무시하는 경우가 많다. 위 문제를 해결하기 위해 본 논문은 공유 가중치 다중모드 번역 모델을 통해 중국 문자 인식에 초점을 맞춘다. 본 모델은 중국어 성조와 각 중국어 단어 요소에 대해 중국어 폰트 형태의 특징을 모두 통합함으로써 다양한 텍스트의 깊은 의미 특징을 배우기 위해 설계되었다. 구체적으로, 중국어 성조 특징은 임베딩층을 통해 인코딩되고, 중국어 폰트 형태 특징은 컨볼루션 신경망을 통해 학습된다. 중국 문자 인식 작업에서 소스 문장과 목표 문장 사이의 여러 모드 특징 유사성을 고려하여 학습과정에서 소스 문장의 연합 정보를 활용하여 목표 문장을 생성하기 위한 공유 가중치 임베딩 메커니즘이 설계되었다. 실험 결과는 본 논문에서 제안된 공유 가중치 다중모드 번역 모델이 각각 89.550%와 79.480%의 이중 평가 테스트(BLEU) 및 F1 값에서 현재 최첨단 기준 모델 대비 유의한 향상을 보여주었다.

Keywords

중국변종자; 다중모드 모델; 번역 모델; 음운 및 형태

READ MORE