Aufgrund von Speicher- und Rechenressourcenbeschränkungen werden große Deep-Learning-Modelle in der Regel verteilt trainiert. Aktuelle Strategiegenerierungsmethoden zielen selten darauf ab, den Speicherverbrauch zu minimieren. Zu diesem Zweck wird ein neuer Algorithmus vorgeschlagen, der in der Lage ist, eine automatische parallele Strategie zu generieren, die darauf abzielt, den Speicherüberfluss zu minimieren. Es wird ein redundantes Speicherkostenmodell vorgeschlagen, um die Speicherkosten jeder Operation in der vorgeschlagenen parallelen Strategie zu berechnen. Um die optimale parallele Strategie zu gewährleisten, wird das Problem der Suche nach einer parallelen Strategie als ganzzahliges lineares Programmierungsproblem formalisiert, und ein effizienter Solver wird verwendet, um eine parallele Strategie mit minimaler Speichernutzung zu finden. Die vorgeschlagene Methode wird in einem multidimensionalen parallelen Schulungsrahmen implementiert; experimentelle Ergebnisse zeigen, dass im Vergleich zur neuesten Megatron-LM-Methode bis zu 67 % der Speicherkosten eingespart werden können, während die Durchsatzleistung fast gleich bleibt.
Keywords
Tiefes Lernen; automatisch parallel; Minimierung von Speicherredundanz