Большая языковая модель (LLM) проявила выдающиеся способности в задачах обработки естественного языка, таких как машинный перевод. Однако огромный размер параметров большой языковой модели приводит к значительным вычислительным затратам в процессе вывода. Предыдущие исследования пытались обучить переводоспециализированные большие языковые модели путем донастройки средних по размеру моделей на данных перевода. Однако при обработке нулевых направлений перевода, которые не были включены в набор данных для донастройки, модель часто игнорирует указания, что приводит к неправильному переводу контента на целевой язык, то есть к проблеме отклонения в переводе. В этой статье предлагается двухэтапный алгоритм донастройки для повышения способности переводоспециализированных больших языковых моделей следовать указаниям, особенно сохранять точность направления перевода. Сначала мы проводим донастройку модели на наборе данных перевода для стимулирования ее основной способности к переводу. На втором этапе мы строим примеры конфликтующих указаний, заменяя указания случайным образом неверными. Затем мы вводим дополнительную неподобающую потерю для снижения вероятности назначения моделью таких примеров. Для 16 нулевых направлений перевода экспериментальные результаты, полученные с использованием моделей LLaMA 2 и LLaMA 3 на двух базовых наборах данных, показывают, что наш метод способен существенно снижать долю отклонения перевода от целевого языка (высшее снижение составляет до 62,4 процента), тем самым улучшая качество перевода (показатель двуязычной оценки может повыситься на 9,7). Анализ показывает, что наш метод способен сохранять отличное качество исполнения в других задачах (таких как контролируемый перевод и общие задачи). Код можно получить по следующему адресу: https://github.com/alphadl/LanguageAware_Tuning.
Keywords
Zero-shot machine translation;Off-target issue;Large language model;Language-aware instruction tuning;Instruction-conflicting sample