Training large-scale language models with limited GPU memory: a survey

Yu TANG; Linbo QIAO; Lujia YIN; Peng LIANG; Ao SHEN; Zhilin YANG; Lizhi ZHANG; Dongsheng LI

doi:10.1631/FITEE.2300710

Previous | Next

Training large-scale language models with limited GPU memory: a survey

DOI：10.1631/FITEE.2300710

Abstract

Благодаря своим выдающимся характеристикам в различных областях применения крупные модели привлекают широкое внимание в сфере компьютерного зрения, обработки естественного языка и т. Д. Однако обучение таких моделей сталкивается с значительными ограничениями в объеме оперативной памяти графического процессора (GPU). В этой статье систематически рассматриваются технологии оптимизации обучения крупных моделей при ограниченном объеме оперативной памяти GPU. Во-первых, осуществляется глубокий анализ трех основных элементов использования памяти VRAM во время обучения - параметры модели, состояние модели и активация модели; затем проводится многоплановая оценка существующих научных результатов в этих трех аспектах; наконец, прогнозируются направления развития этой области в будущем, подчеркивая важность непрерывных инноваций в технологиях оптимизации памяти для стимулирования развития крупных языковых моделей. Этот обзор предоставляет исследователям систематическое руководство для понимания оптимизации памяти в процессе обучения крупных языковых моделей.

Keywords

Training techniques;Memory optimization;Model parameters;Model states;Model activations

Training large-scale language models with limited GPU memory: a survey

Yu TANG ,

Linbo QIAO ,

Lujia YIN ,

Peng LIANG ,

Ao SHEN ,

Zhilin YANG ,

Lizhi ZHANG ,

Dongsheng LI ,

DOI：10.1631/FITEE.2300710

Abstract

Keywords