Training large-scale language models with limited GPU memory: a survey

Yu TANG ,  

Linbo QIAO ,  

Lujia YIN ,  

Peng LIANG ,  

Ao SHEN ,  

Zhilin YANG ,  

Lizhi ZHANG ,  

Dongsheng LI ,  

Abstract

Благодаря своим выдающимся характеристикам в различных областях применения крупные модели привлекают широкое внимание в сфере компьютерного зрения, обработки естественного языка и т. Д. Однако обучение таких моделей сталкивается с значительными ограничениями в объеме оперативной памяти графического процессора (GPU). В этой статье систематически рассматриваются технологии оптимизации обучения крупных моделей при ограниченном объеме оперативной памяти GPU. Во-первых, осуществляется глубокий анализ трех основных элементов использования памяти VRAM во время обучения - параметры модели, состояние модели и активация модели; затем проводится многоплановая оценка существующих научных результатов в этих трех аспектах; наконец, прогнозируются направления развития этой области в будущем, подчеркивая важность непрерывных инноваций в технологиях оптимизации памяти для стимулирования развития крупных языковых моделей. Этот обзор предоставляет исследователям систематическое руководство для понимания оптимизации памяти в процессе обучения крупных языковых моделей.

Keywords

Training techniques;Memory optimization;Model parameters;Model states;Model activations

READ MORE