En raison des limitations de mémoire et des ressources de calcul, les modèles d'apprentissage en profondeur sont généralement entraînés de manière distribuée. Les méthodes actuelles de génération de stratégies sont rarement axées sur la minimisation de l'utilisation de la mémoire comme objectif. À cette fin, un nouvel algorithme est proposé, capable de générer une stratégie parallèle automatique visant à minimiser la redondance de la mémoire. Un modèle de coût de mémoire redondante est proposé pour calculer les dépenses de mémoire de chaque opérateur dans la stratégie parallèle proposée. Pour garantir la meilleure stratégie parallèle, le problème de recherche de stratégie parallèle est formalisé en tant que problème de programmation linéaire entière, et un solveur efficace est utilisé pour trouver une stratégie parallèle avec une utilisation minimale de la mémoire. La méthode proposée est mise en œuvre dans un cadre d'apprentissage parallèle multi-dimensionnel; les résultats expérimentaux montrent qu'en comparaison avec la méthode la plus récente Megatron-LM, il est possible d'économiser jusqu'à 67% des dépenses de mémoire, tout en maintenant un débit quasi identique.
Keywords
apprentissage en profondeur; parallèle automatique; minimisation de la redondance de la mémoire