Memory-efficient Tensor Parallelism Method for Long Sequence Transformer Training

Peng LIANG; Linbo QIAO; Yanqi SHI; Hao ZHENG; Yu TANG; Dongsheng LI

doi:10.1631/FITEE.2400602

Memory-efficient Tensor Parallelism Method for Long Sequence Transformer Training

DOI：10.1631/FITEE.2400602

Abstract

In den letzten Jahren hat das große Sprachmodell (LLM) auf der Grundlage der Transformer-Architektur aufgrund seiner herausragenden Leistung weitgehende Aufmerksamkeit erregt. Industrieelle LLMs müssen lange Sequenzeingaben verarbeiten, um hochwertige Dienste bereitzustellen. Der Speicherverbrauch steigt jedoch quadratisch mit der Sequenzlänge an und begrenzt die Skalierbarkeit des Trainings langer Sequenzen. Bestehende parallele Methoden erzeugen redundanten Tensor während der Ausführung und bieten Optimierungsmöglichkeiten für den Speicher. Gleichzeitig kann Tensor-Parallelismus (TP) die effektive Überlappung von Berechnung und Kommunikation nicht erreichen. Um diese Probleme zu lösen, schlagen wir in dieser Arbeit eine generische parallele Methode - Memory-efficient Tensor Parallelism (METP) vor, die speziell für die Kernberechnungseinheit des Transformer-Trainings (d. h. zwei aufeinanderfolgende Matrixmultiplikationen und mögliche Funktionen zwischen ihnen O=f（AB）C） entworfen ist. METP weist die Berechnungsaufgabe von O mehreren Geräten zu und verwendet Punkt-zu-Punkt-Kommunikation (senden/empfangen), um den Austausch von Teilmatrizen durch Sammelkommunikation zu ersetzen und die Berechnung abzuschließen, um redundanten Tensor zu vermeiden. Mit der Dual-Buffer-Technologie wird eine tiefgreifende Überlappung von Berechnung und Kommunikation erreicht, und es werden vollständig überlappende theoretische Bedingungen vorgeschlagen, um das Training langer Sequenzen des Transformers zu leiten. Die theoretische Analyse zeigt: Wenn die Parallelität p beträgt, beträgt der Speicheraufwand von METP ohne Verwendung der Flash-Attention-Berechnungsaufmerksamkeit O（1/p³)；bei Verwendung von FlashAttention zur Berechnung der mehrköpfigen Selbst-Aufmerksamkeit kann im Vergleich zu TP mindestens 41,7 % Speicher gespart werden. Experimente haben gezeigt, dass METP die Sequenzlänge im Vergleich zu anderen Methoden um das 2,38- bis 2,99-fache erhöhen kann, basierend auf einer Konfiguration mit 8 A100-GPUs.

Keywords

Verteiltes Lernen; Großes Sprachmodell (LLM); Lange Sequenz; Lernendes Maschinensystem; Speichereffizienz; Tensor-Parallelismus

Memory-efficient Tensor Parallelism Method for Long Sequence Transformer Training

Peng LIANG ,

Linbo QIAO ,

Yanqi SHI ,

Hao ZHENG ,

Yu TANG ,

Dongsheng LI ,

DOI：10.1631/FITEE.2400602

Abstract

Keywords