Automatische Generierung von parallelen Strategien mit Minimierung der Speicherredundanz

Yanqi SHI ,  

Peng LIANG ,  

Hao ZHENG ,  

Linbo QIAO ,  

Dongsheng LI ,  

Abstract

Aufgrund von Speicher- und Rechenressourcenbeschränkungen werden große Deep-Learning-Modelle in der Regel auf verteilte Weise trainiert. Aktuelle Methoden zur Generierung von Strategien haben selten die Minimierung des Speicherbedarfs zum Ziel. Aus diesem Grund wurde ein neuer Algorithmus vorgeschlagen, der in der Lage ist, automatische parallele Strategien zu generieren, um die Speicherredundanz zu minimieren. Ein Modell für die Kosten der redundanten Speicher wurde vorgeschlagen, um die Speicherkosten für jeden Operator in der gegebenen parallelen Strategie zu berechnen. Um die beste parallele Strategie zu generieren, wird das Problem der Suche nach parallelen Strategien als ganzzahliges lineares Programmierungsproblem formalisiert und ein effizienter Solver verwendet, um die parallele Strategie mit der geringsten Speichernutzung zu finden. Die vorgeschlagene Methode wurde in einem multidimensionalen parallelen Schulungsrahmen implementiert; Experimentelle Ergebnisse zeigen, dass im Vergleich zur neuesten Megatron-LM-Methode bis zu 67% der Speicherkosten eingespart werden können, ohne dass sich die Leistung wesentlich unterscheidet.

Keywords

Deep Learning;automatischer Parallelismus;Minimierung der Speicherredundanz

READ MORE