La tarea de reconocimiento de caracteres chinos tiene como objetivo resolver los problemas de ambigüedad semántica y confusión en los caracteres chinos, que representan un riesgo potencial para la seguridad del contenido de la página y complican la gestión de palabras sensibles. La mayoría de los métodos existentes se centran en la fase de pre-entrenamiento en la obtención de la semántica contextual a partir de los corpus y el vocabulario chino, a menudo descuidando las características fonéticas y morfológicas inherentes al chino. Para resolver este problema, este artículo propone un modelo de traducción multimodal de peso compartido para el reconocimiento de caracteres chinos. Este modelo integra las características fonéticas del pinyin y las características morfológicas de las fuentes chinas en cada elemento léxico chino para aprender las características semánticas profundas del texto variado. Específicamente, las características fonéticas del pinyin chino se codifican mediante una capa de incrustación y las características morfológicas de las fuentes chinas se aprenden mediante una red neuronal convolucional. Dada la similitud de las características multimodales entre la frase origen y la frase destino en la tarea de reconocimiento de caracteres chinos, se diseñó un mecanismo de incrustación de peso compartido para generar la frase destino a partir de la información heurística de la frase origen durante el proceso de entrenamiento. Los resultados experimentales muestran que el modelo de traducción multimodal de peso compartido propuesto en este artículo alcanza el 89,550% y el 79,480% respectivamente en términos de evaluación bilingüe (BLEU) y valor F1, lo que representa una mejora significativa en comparación con el modelo de referencia actual más avanzado.
Keywords
caracteres chinos variados; modelo multimodal; modelo de traducción; fonética y morfológico