Gemeinsames Gewichts-Multimodalübersetzungsmodell für die Erkennung chinesischer Zeichen

Yuankang SUN ,  

Bing LI ,  

Lexiang LI ,  

Peng YANG ,  

Dongmei YANG ,  

Abstract

Die Aufgabe der Erkennung chinesischer Zeichen zielt darauf ab, die Probleme der semantischen Unklarheit und Verwirrung in chinesischen Zeichen zu lösen, die ein potenzielles Sicherheitsrisiko für den Inhalt der Seite darstellen und die Verwaltung sensibler Wörter komplizieren. Die meisten bestehenden Methoden konzentrieren sich in der vortrainingsphase auf die Gewinnung von kontextueller Semantik aus chinesischen Korpora und Vokabular, wobei die inhärenten phonetischen und morphologischen Merkmale des Chinesischen oft vernachlässigt werden. Um dieses Problem zu lösen, schlägt dieser Artikel ein gemeinsames Gewichts-Multimodalübersetzungsmodell für die Erkennung chinesischer Zeichen vor. Dieses Modell integriert die phonetischen Merkmale des Pinyin und die morphologischen Merkmale der chinesischen Schriften in jedes chinesische Lexikelement, um die tiefen semantischen Merkmale des variablen Textes zu erlernen. Konkret werden die chinesischen Pinyin-phonetischen Merkmale durch eine Einbettungsschicht codiert und die morphologischen Merkmale der chinesischen Schriften durch ein Convolutional Neural Network gelernt. Angesichts der Ähnlichkeit der multimodalen Merkmale zwischen der Quellphrase und der Zielsatz in der chinesischen Zeichenerkennungsaufgabe wurde ein gemeinsames Gewichts-Einbettungsmechanismus entworfen, um den Zielsatz aus der heuristischen Information des Quellsatzes während des Trainingsprozesses zu generieren. Die experimentellen Ergebnisse zeigen, dass das in diesem Artikel vorgeschlagene gemeinsame Gewichts-Multimodalübersetzungsmodell jeweils 89,550% und 79,480% in Bezug auf bilinguale Bewertungstests (BLEU) und F1-Wert erreicht, was eine signifikante Verbesserung gegenüber dem aktuellen fortschrittlichsten Baseline-Modell darstellt.

Keywords

chinesische Variantenzeichen; multimodales Modell; Übersetzungsmodell; phonetisch und morphologisch

READ MORE