Метод генерации автоматических параллельных стратегий с минимизацией избыточной памяти

Yanqi SHI ,  

Peng LIANG ,  

Hao ZHENG ,  

Linbo QIAO ,  

Dongsheng LI ,  

Abstract

Учитывая ограничения по памяти и вычислительным ресурсам, крупномасштабные модели глубокого обучения обычно обучаются в распределенном режиме. Существующие методы генерации стратегий редко делают минимизацию использования памяти целью. В этой связи предложен новый алгоритм, который способен генерировать автоматические параллельные стратегии с целью минимизации избыточной памяти. Была предложена модель избыточной памяти для расчета затрат памяти для каждого оператора в данной параллельной стратегии. Для обеспечения генерации оптимальной параллельной стратегии проблема поиска параллельной стратегии сформулирована как целочисленная задача линейного программирования, используя эффективный решатель для поиска параллельной стратегии с минимальным использованием памяти. Предлагаемый метод реализован в многомерной параллельной системе обучения; результаты эксперимента показывают, что по сравнению с последним методом Megatron-LM, можно сэкономить до 67% затрат памяти, при этом не сильно отличаясь по производительности.

Keywords

Глубокое обучение;автоматический параллелизм;минимизация избыточной памяти

READ MORE