En raison de contraintes de mémoire et de ressources de calcul, les modèles d'apprentissage approfondi à grande échelle sont généralement entraînés de manière distribuée. Les méthodes actuelles de génération de stratégies portent rarement sur la minimisation de l'utilisation de la mémoire comme objectif. Pour cette raison, un nouvel algorithme a été proposé, capable de générer des stratégies parallèles automatiques visant à minimiser la redondance de la mémoire. Un modèle de coût de mémoire redondante a été proposé pour calculer les coûts de mémoire de chaque opérateur dans la stratégie parallèle donnée. Pour garantir la génération de la meilleure stratégie parallèle, le problème de recherche de stratégie parallèle est formalisé en tant que problème de programmation linéaire entière, en utilisant un solveur efficace pour trouver la stratégie parallèle avec la plus faible utilisation de mémoire. La méthode proposée a été mise en œuvre dans un cadre d'entraînement parallèle multidimensionnel ; les résultats de l'expérience montrent qu'en comparaison avec la dernière méthode Megatron-LM, il est possible d'économiser jusqu'à 67% des coûts de mémoire, avec à peine une différence de débit.
Keywords
Apprentissage profond;parallélisme automatique;minimisation de la mémoire redondante