Shared-weight multimodal translation model for recognizing Chinese variant characters

Yuankang SUN ,  

Bing LI ,  

Lexiang LI ,  

Peng YANG ,  

Dongmei YANG ,  

Abstract

Задача распознавания китайских вариативных символов направлена на решение проблемы семантической неоднозначности и путаницы в китайских символах, которая представляет потенциальную угрозу безопасности веб-контента и увеличивает сложность управления чувствительными терминами. Большинство существующих методов на этапе предварительного обучения уделяют внимание получению контекстной семантики из китайских корпусов текстов и лексики, часто игнорируя фонетические и морфологические особенности китайского языка. Исходя из вышеуказанной проблемы, в данной статье предлагается модель многомодального перевода с общими весами, направленная на распознавание китайских вариативных символов. Данная модель объединяет фонетические особенности пиньиня и морфологические особенности китайского шрифта в каждом китайском лингвистическом элементе для изучения глубоких семантических особенностей вариативного текста. На практике применяется кодирование фонетических особенностей пиньиня через слой вложений и использование сверточных нейронных сетей для изучения морфологических особенностей китайских символов. Учитывая многомодальные семантические характеристики между исходным предложением и целевым предложением в задаче распознавания китайских вариативных символов, разрабатывается общий механизм вложения весов, при использовании эвристической информации исходного предложения в процессе обучения для генерации цели. Результаты экспериментов показывают, что предложенная в данной статье модель многомодального перевода с общими весами достигает значений 89.550% и 79.480% соответственно в двуязычном тесте (BLEU) и значении F1, что ведет к значительному улучшению по сравнению с текущей передовой базовой моделью.

Keywords

Chinese variant characters;Multimodal model;Translation model;Phonology and morphology

READ MORE