La tarea de corrección de la ortografía china tiene como objetivo detectar y corregir posibles errores de ortografía en el texto chino. Sin embargo, el idioma chino presenta una gran complejidad, ya que existen múltiples variantes de cambios tonales que pueden corresponder a diferentes caracteres. Dada esta complejidad del idioma chino, la tarea de corrección de la ortografía china es fundamental para garantizar la precisión y claridad de la comunicación escrita, y recientes investigaciones ya han incorporado conocimientos externos a través de las modalidades de voz y visión en el modelo. Sin embargo, estos métodos no han logrado utilizar de manera efectiva la información modal de manera enfocada para resolver diferentes tipos de errores de ortografía. En este artículo, proponemos un modelo de lenguaje preentrenado multi-modal llamado DRMSpell para la corrección de la ortografía china, que tiene en cuenta la interacción entre las modalidades. Introducimos un módulo de reponderación multi-modal dinámico para reponderar diferentes modalidades y obtener información multi-modal más útil. Para aprovechar al máximo la información multi-modal obtenida y reforzar aún más el modelo, proponemos una estrategia de enmascaramiento modal independiente, que enmascara tres tipos de modalidades para un elemento de palabra individual en la etapa de preentrenamiento. Nuestro método muestra un rendimiento líder en la mayoría de las métricas de prueba de referencia ampliamente utilizadas, y los resultados experimentales muestran que nuestro método es capaz de modelar la información de interacción entre las modalidades, incluso para la información modal errónea.
Keywords
Corrección de ortografía china; multi-modalidad; estrategia de enmascaramiento