Building accurate translation-tailored large language models with language-aware instruction tuning

Changtong ZAN; Liang DING; Li SHEN; Yibing ZHAN; Xinghao YANG; Weifeng LIU

doi:10.1631/FITEE.2400458

Building accurate translation-tailored large language models with language-aware instruction tuning

DOI：10.1631/FITEE.2400458

Abstract

Los grandes modelos de lenguaje (LLM) han mostrado una capacidad excepcional en tareas de procesamiento del lenguaje natural, como la traducción automática. Sin embargo, el gran tamaño de los parámetros del gran modelo de lenguaje conlleva costos de cálculo significativos durante el proceso de inferencia. Investigaciones anteriores han intentado entrenar modelos de lenguaje grandes personalizados para la traducción ajustando modelos de tamaño mediano en datos de traducción. Sin embargo, al manejar direcciones de traducción cero que no estaban incluidas en el conjunto de datos de ajuste, el modelo a menudo ignora las instrucciones, lo que resulta en una traducción incorrecta del contenido al idioma objetivo, es decir, un problema de desviación de traducción. Con este fin, este artículo propone un algoritmo de ajuste en dos etapas para mejorar la capacidad de los grandes modelos de lenguaje personalizados para la traducción a seguir las instrucciones, especialmente para mantener la precisión de la dirección de traducción. Primero, ajustamos el modelo en el conjunto de datos de traducción para estimular su capacidad de traducción básica. En la segunda etapa, construimos ejemplos de conflicto de instrucciones sustituyendo aleatoriamente las instrucciones por instrucciones incorrectas. Luego, introducimos una pérdida no verosímil adicional para reducir la probabilidad de asignación del modelo a estos ejemplos. Para 16 direcciones de traducción cero, los resultados experimentales obtenidos con los modelos LLaMA 2 y LLaMA 3 en dos conjuntos de datos base muestran que nuestro método es capaz de reducir significativamente la proporción de desviaciones de traducción con respecto al idioma objetivo (pudiendo reducirse hasta un 62,4 por ciento como máximo), mejorando así la calidad de la traducción (la medida de repuesto bilingüe puede mejorar hasta un 9,7 como máximo). El análisis muestra que nuestro método es capaz de mantener un excelente rendimiento en otras tareas (como la traducción supervisada y tareas generales). El código se puede obtener en la siguiente dirección: https://github.com/alphadl/LanguageAware_Tuning.

Keywords

Zero-shot machine translation;Off-target issue;Large language model;Language-aware instruction tuning;Instruction-conflicting sample

Building accurate translation-tailored large language models with language-aware instruction tuning

Changtong ZAN ,

Liang DING ,

Li SHEN ,

Yibing ZHAN ,

Xinghao YANG ,

Weifeng LIU ,

DOI：10.1631/FITEE.2400458

Abstract

Keywords