Метод генерации автоматической параллельной стратегии с целью минимизации избыточной памяти

Yanqi SHI ,  

Peng LIANG ,  

Hao ZHENG ,  

Linbo QIAO ,  

Dongsheng LI ,  

Abstract

В связи с ограничениями по памяти и вычислительными ресурсами модели глубокого обучения обычно обучаются в распределенном режиме. На сегодняшний день существующие методы генерации стратегий редко нацелены на минимизацию использования памяти в качестве цели. В этой связи предлагается новый алгоритм, способный генерировать автоматическую параллельную стратегию с целью минимизации излишней памяти. Предлагается модель издержек избыточной памяти для расчета затрат памяти каждым оператором в предложенной параллельной стратегии. Для обеспечения наилучшей параллельной стратегии проблема поиска параллельной стратегии формализуется как задача целочисленного линейного программирования, и используется эффективный решатель для поиска стратегии с минимальным использованием памяти. Предложенный метод реализован в многомерной фреймворке параллельного обучения; результаты эксперимента показывают, что по сравнению с последним методом Megatron-LM можно сэкономить до 67% издержек памяти, при этом мало отличается пропускная способность.

Keywords

глубокое обучение; автоматический параллельный; минимизация избыточной памяти

READ MORE