Método de generación automática de estrategias paralelas con minimización de la redundancia de memoria

Yanqi SHI ,  

Peng LIANG ,  

Hao ZHENG ,  

Linbo QIAO ,  

Dongsheng LI ,  

Abstract

Dadas las limitaciones de memoria y recursos de cálculo, los modelos de aprendizaje profundo a gran escala suelen entrenarse de forma distribuida. Los métodos actuales de generación de estrategias rara vez tienen como objetivo la minimización del uso de memoria. Por esta razón, se ha propuesto un nuevo algoritmo capaz de generar estrategias paralelas automáticas con el objetivo de minimizar la redundancia de memoria. Se propuso un modelo de costo de memoria redundante para calcular los costos de memoria de cada operador en la estrategia paralela dada. Para garantizar la generación de la mejor estrategia paralela, el problema de búsqueda de estrategia paralela se formaliza como un problema de programación lineal entera, utilizando un solucionador eficiente para encontrar la estrategia paralela con el menor uso de memoria. El método propuesto se implementó en un marco de entrenamiento paralelo multidimensional; los resultados experimentales muestran que, en comparación con el último método Megatron-LM, se puede ahorrar hasta un 67% de los costos de memoria, sin apenas diferencia en el rendimiento.

Keywords

Aprendizaje profundo;paralelismo automático;minimización de la memoria redundante

READ MORE