Dadas las limitaciones de memoria y recursos de cálculo, los modelos de aprendizaje profundo suelen entrenarse de forma distribuida. Las actuales estrategias de generación de métodos rara vez se centran en la minimización del uso de la memoria como objetivo. Para este fin, se propone un nuevo algoritmo capaz de generar una estrategia paralela automática destinada a minimizar la redundancia de la memoria. Se propone un modelo de costo de memoria redundante para calcular los costos de memoria de cada operador en la estrategia paralela propuesta. Para garantizar la mejor estrategia paralela, el problema de búsqueda de estrategia paralela se formaliza como un problema de programación lineal entera, y se utiliza un solucionador eficiente para encontrar una estrategia paralela con un uso mínimo de la memoria. El método propuesto se implementa en un marco de entrenamiento paralelo multidimensional; los resultados experimentales muestran que, en comparación con el método más reciente Megatron-LM, se pueden ahorrar hasta un 67% de los costos de memoria, manteniendo un rendimiento casi idéntico.
Keywords
aprendizaje profundo; paralelo automático; minimización de la redundancia de la memoria