Благодаря своим выдающимся характеристикам в различных областях применения крупные модели привлекают широкое внимание в сфере компьютерного зрения, обработки естественного языка и т. Д. Однако обучение таких моделей сталкивается с значительными ограничениями в объеме оперативной памяти графического процессора (GPU). В этой статье систематически рассматриваются технологии оптимизации обучения крупных моделей при ограниченном объеме оперативной памяти GPU. Во-первых, осуществляется глубокий анализ трех основных элементов использования памяти VRAM во время обучения - параметры модели, состояние модели и активация модели; затем проводится многоплановая оценка существующих научных результатов в этих трех аспектах; наконец, прогнозируются направления развития этой области в будущем, подчеркивая важность непрерывных инноваций в технологиях оптимизации памяти для стимулирования развития крупных языковых моделей. Этот обзор предоставляет исследователям систематическое руководство для понимания оптимизации памяти в процессе обучения крупных языковых моделей.
Keywords
Training techniques;Memory optimization;Model parameters;Model states;Model activations