Les modèles basés sur l'architecture Transformer sont devenus la pierre angulaire du domaine du traitement du langage naturel. Cependant, les énormes coûts du processus d'inférence restent un défi majeur, limitant l'application pratique de ces modèles. Cet article utilise un contrôleur sur un accélérateur d'intelligence artificielle (IA) pour minimiser les coûts du processus d'inférence du modèle Transformer et comprend principalement 4 aspects : Tout d'abord, une analyse complète des coûts du processus d'inférence Transformer est réalisée, identifiant les principaux goulots d'étranglement. Ensuite, en utilisant le noyau principal de l'accélérateur d'intelligence artificielle SWAI, un cadre de planification à trois niveaux a été mis en place, réduisant le nombre de démarrages entre l'hôte et le périphérique à environ un millième de la configuration d'origine PyTorch-GPU. Ensuite, une technique de gestion de la mémoire sans copie basée sur la fusion de pages est introduite, réduisant considérablement les retards d'accès à la mémoire et améliorant l'efficacité globale de l'inférence. Enfin, un développement d'une méthode de chargement rapide du modèle, éliminant les calculs redondants pour la validation du modèle et le processus d'initialisation, réduisant le temps de chargement total du grand modèle de 22 128,31 millisecondes à 1 041,72 millisecondes. Cet article optimise considérablement le modèle Transformer, rendant le processus d'inférence sur un accélérateur IA plus efficace et rapide.
Keywords
Optimisation de l'inférence Transformer; Planification à trois niveaux; Gestion de la mémoire sans copie; Chargement rapide du modèle