Méthode de parallélisme tensoriel à haute efficacité mémoire pour la formation Transformer sur de longues séquences

Peng LIANG; Linbo QIAO; Yanqi SHI; Hao ZHENG; Yu TANG; Dongsheng LI

doi:10.1631/FITEE.2400602

Méthode de parallélisme tensoriel à haute efficacité mémoire pour la formation Transformer sur de longues séquences

DOI：10.1631/FITEE.2400602

Abstract

Ces dernières années, les grandes modèles de langage (LLM) basés sur l'architecture Transformer ont suscité un vif intérêt en raison de leurs performances exceptionnelles. Les LLM industrielles doivent traiter de longues séquences d'entrée pour fournir un service de qualité. Cependant, la consommation de mémoire augmente de manière quadratique avec la longueur de la séquence, limitant la capacité d'extension de l'entraînement sur de longues séquences. Les méthodes parallèles actuelles génèrent des tenseurs redondants lors de l'exécution, offrant ainsi un espace d'optimisation de la mémoire; en même temps, le parallélisme tensoriel (TP) ne peut pas réaliser un chevauchement efficace des calculs et des communications. Pour résoudre ces problèmes, cet article propose une méthode parallèle générale - le parallélisme tensoriel à haute efficacité mémoire (METP), spécialement conçu pour l'unité de calcul de base de l'entraînement Transformer (c'est-à-dire deux multiplications matricielles consécutives et d'éventuelles opérations fonctionnelles entre elles O=f (AB)C). Le METP répartit les sous-tâches de calcul de O sur plusieurs appareils, utilisant une communication point à point (envoi/réception) au lieu d'un échange de communication collectif pour terminer le calcul, évitant la génération de tenseurs redondants. La technique de double tampon permet un chevauchement profond des calculs et des communications, et des conditions théoriques de chevauchement complet sont proposées pour guider la formation Transformer sur de longues séquences. L'analyse théorique montre : lorsque la parallélisme est p, le METP en termes de coût mémoire en cas d'absence de calcul d'attention FlashAttention est O(1/p³); lors de l'utilisation de FlashAttention pour calculer l'auto-attention multi-tête, au moins 41,7% de mémoire peut être économisée par rapport à TP. Les expériences montrent que sur la base de 8 GPU A100, le METP peut augmenter la longueur de la séquence de 2,38 à 2,99 fois par rapport à d'autres méthodes.

Keywords

Apprentissage distribué; Grande modèle de langue (LLM); Longue séquence; Système d'apprentissage machine; Efficacité mémoire; Parallélisme tensoriel

Méthode de parallélisme tensoriel à haute efficacité mémoire pour la formation Transformer sur de longues séquences

Peng LIANG ,

Linbo QIAO ,

Yanqi SHI ,

Hao ZHENG ,

Yu TANG ,

Dongsheng LI ,

DOI：10.1631/FITEE.2400602

Abstract

Keywords