Training large-scale language models with limited GPU memory: a survey

Yu TANG ,  

Linbo QIAO ,  

Lujia YIN ,  

Peng LIANG ,  

Ao SHEN ,  

Zhilin YANG ,  

Lizhi ZHANG ,  

Dongsheng LI ,  

Abstract

Dank ihrer hervorragenden Leistung in vielen Anwendungsbereichen erregen die großen Modelle breites Interesse in Bereichen wie Computer Vision und Natural Language Processing. Das Training dieser Modelle stößt jedoch auf erhebliche Beschränkungen in Bezug auf den VRAM-Speicher (Video Random Access Memory) der Grafikprozessoreinheit (GPU). Dieser Artikel organisiert ein System von Optimierungstechniken für das Training großer Modelle unter Bedingungen von begrenztem GPU-VRAM. Zunächst wird eine tiefgreifende Analyse der drei Hauptelemente der VRAM-Nutzung während des Trainings durchgeführt: Modellparameter, Modellstatus und Modellaktivierung. Anschließend wird eine multiperspektivische Bewertung bestehender Forschungsergebnisse in diesen drei Aspekten vorgenommen. Schließlich werden die zukünftigen Entwicklungsrichtungen auf diesem Gebiet skizziert und auf die Bedeutung kontinuierlicher Innovationen in den Technologien zur VRAM-Optimierung zur Förderung der Entwicklung großer Sprachmodelle hingewiesen. Dieser Überblick bietet Forschern eine systematische Referenz zur Verständnis der Herausforderungen der VRAM-Optimierung und des technologischen Fortschritts beim Training großer Sprachmodelle.

Keywords

Training techniques;Memory optimization;Model parameters;Model states;Model activations

READ MORE