Gracias a su sobresaliente rendimiento en múltiples campos de aplicación, los modelos de gran tamaño han despertado un amplio interés en ámbitos como la visión por computadora y el procesamiento del lenguaje natural. Sin embargo, el entrenamiento de estos modelos se enfrenta a importantes limitaciones en la capacidad de la memoria de video (VRAM) de la unidad de procesamiento gráfico (GPU). Este artículo organiza un sistema de técnicas de optimización del entrenamiento de modelos de gran tamaño bajo condiciones de VRAM limitada de la GPU. En primer lugar, se analiza en profundidad los tres elementos centrales del uso de la VRAM durante el entrenamiento: los parámetros del modelo, el estado del modelo y la activación del modelo. A continuación, se evalúan los logros de investigación existentes desde estos tres enfoques. Por último, se vislumbran las futuras direcciones de desarrollo de este campo, haciendo hincapié en la importancia de la innovación continua en las tecnologías de optimización de la VRAM para impulsar el desarrollo de los grandes modelos de lenguaje. Esta revisión proporciona a los investigadores una referencia sistemática para comprender los desafíos de optimización de la VRAM y la evolución técnica en el entrenamiento de los grandes modelos de lenguaje.
Keywords
Training techniques;Memory optimization;Model parameters;Model states;Model activations