In den letzten Jahren haben große Sprachmodelle (LLM) basierend auf der Transformer-Architektur aufgrund ihrer hervorragenden Leistung breite Aufmerksamkeit erlangt. Industrielle LLM müssen lange Sequenzen verarbeiten, um qualitativ hochwertige Dienste anzubieten. Der Speicherverbrauch wächst allerdings quadratisch mit der Sequenzlänge, was die Skalierbarkeit des Trainings langer Sequenzen einschränkt. Bestehende parallele Methoden erzeugen während der Ausführung redundante Tensoren, was Raum für Speicheroptimierung lässt; zudem kann Tensorparallelistik (TP) keine effektive Überlappung von Berechnung und Kommunikation erreichen. Zur Lösung dieser Probleme schlägt diese Arbeit eine universelle parallele Methode vor – speichereffiziente Tensorparallelistik (METP), die speziell für die Kerneinheiten der Transformer-Trainingsberechnung entwickelt wurde (d.h. zwei aufeinanderfolgende Matrixmultiplikationen und mögliche Funktionsoperationen dazwischen O=f(AB)C). METP verteilt die Teilaufgaben der Berechnung von O auf mehrere Geräte, verwendet Punkt-zu-Punkt-Kommunikation (send/recv) anstelle von kollektiver Kommunikation zum Austausch von Untermatrizen zur Vervollständigung der Berechnung und vermeidet so die Erzeugung redundanter Tensoren. Durch Double-Buffering-Technik wird eine tiefe Überlappung von Berechnung und Kommunikation erreicht, und es werden theoretische Bedingungen für vollständige Überlappung vorgeschlagen, um das Training von langen Transformer-Sequenzen zu steuern. Theoretische Analysen zeigen, dass bei Parallelitätsgrad p der Speicheraufwand von METP ohne Verwendung von FlashAttention zur Berechnung der Aufmerksamkeit O(1/p3) beträgt; bei Verwendung von FlashAttention zur Berechnung der mehrköpfigen Selbstaufmerksamkeit kann im Vergleich zu TP mindestens 41,7 % Speicher eingespart werden. Experimente belegen, dass METP bei einer Konfiguration mit 8 A100 GPUs die Sequenzlänge gegenüber anderen Methoden um das 2,38- bis 2,99-Fache erhöhen kann.