Building accurate translation-tailored large language models with language-aware instruction tuning

Changtong ZAN ,  

Liang DING ,  

Li SHEN ,  

Yibing ZHAN ,  

Xinghao YANG ,  

Weifeng LIU ,  

Abstract

Große Sprachmodelle (LLM) haben sich in Aufgaben der natürlichen Sprachverarbeitung wie maschinelle Übersetzung als außergewöhnlich leistungsfähig erwiesen. Die große Anzahl von Parametern des großen Sprachmodells verursacht jedoch erhebliche Rechenkosten während des Inferenzprozesses. Frühere Studien haben versucht, maßgeschneiderte große Sprachmodelle für die Übersetzung zu trainieren, indem mittelgroße Modelle an Übersetzungsdaten angepasst wurden. Bei der Bearbeitung von Null-Übersetzungsrichtungen, die nicht in den Anpassungsdatensatz aufgenommen wurden, ignoriert das Modell häufig die Anweisungen, was zu einer falschen Übersetzung des Inhalts in die Zielsprache führt, also zu einem Übersetzungsabweichungsproblem. Zu diesem Zweck schlägt dieser Artikel einen zweistufigen Anpassungsalgorithmus vor, um die Fähigkeit maßgeschneiderter großer Sprachmodelle für die Übersetzung zu verbessern, insbesondere um die Genauigkeit der Übersetzungsrichtung aufrechtzuerhalten. Zunächst passen wir das Modell an den Übersetzungsdatensatz an, um seine grundlegende Übersetzungsfähigkeit zu stimulieren. In der zweiten Stufe erstellen wir Konfliktbeispiele, indem wir die Anweisungen zufällig durch falsche Anweisungen ersetzen. Anschließend führen wir einen zusätzlichen nicht-likelihood-Verlust ein, um die Wahrscheinlichkeit der Zuweisung des Modells zu diesen Beispielen zu verringern. Für 16 Null-Übersetzungsrichtungen zeigen die experimentellen Ergebnisse mit den Modellen LLaMA 2 und LLaMA 3 auf zwei Basissätzen, dass unsere Methode dazu in der Lage ist, den Anteil an Übersetzungsabweichungen von der Zielsprache erheblich zu reduzieren (um bis zu 62,4 Prozent), wodurch die Qualität der Übersetzung verbessert wird (die zweisprachige Ersatzmaßnahme kann um bis zu 9,7 erhöht werden). Die Analyse zeigt, dass unsere Methode in anderen Aufgaben (wie überwachte Übersetzung und allgemeine Aufgaben) eine ausgezeichnete Leistung aufrechterhalten kann. Der Code kann unter folgender Adresse abgerufen werden: https://github.com/alphadl/LanguageAware_Tuning.

Keywords

Zero-shot machine translation;Off-target issue;Large language model;Language-aware instruction tuning;Instruction-conflicting sample

READ MORE