Basé sur l'architecture Transformer, les modèles sont devenus la pierre angulaire du traitement du langage naturel. Cependant, le coût énorme du processus de raisonnement reste un défi majeur, limitant l'application réelle de ces modèles. Cet article utilise un contrôleur sur un accélérateur d'intelligence artificielle (IA) pour minimiser le coût du processus de raisonnement du modèle Transformer, comprenant principalement 4 aspects : tout d'abord, une analyse complète des composants du coût du processus de raisonnement de Transformer, identifiant les principaux goulots d'étranglement. Ensuite, en utilisant le noyau principal (MPE) de l'accélérateur d'IA SWAI, un cadre de planification en trois niveaux a été mis en place, réduisant le nombre de démarrages entre l'hôte et l'appareil à environ un millième de la configuration d'origine de PyTorch-GPU. Troisièmement, une technique de gestion de mémoire de copie nulle basée sur la fusion de pages est introduite, réduisant considérablement la latence d'accès à la mémoire et améliorant l'efficacité globale du raisonnement. Enfin, une méthode rapide de chargement de modèle a été développée, éliminant les calculs redondants pour la validation et le processus d'initialisation du modèle, réduisant le temps de chargement total du grand modèle de 22 128,31 millisecondes à 1041,72 millisecondes. Cet article a considérablement optimisé le modèle Transformer, le rendant plus efficace et rapide sur un accélérateur IA.
Keywords
Optimisation de l'inférence de Transformer ; Planification en trois niveaux ; Gestion de mémoire sans copie ; Chargement rapide de modèle