RetryTrigger : méthode intelligente de réessai d'inférence tolérante aux pannes transitoires matérielles pour grands modèles de langage

Jiajia JIAO ,  

Yixu YU ,  

Abstract

Ces dernières années, les grands modèles de langage ont démontré des performances exceptionnelles dans diverses tâches de traitement du langage naturel. Cependant, avec l'augmentation des pannes transitoires matérielles, le problème de la corruption silencieuse des données dans les grands modèles de langage est devenu de plus en plus important, affectant considérablement la qualité des sorties et l'expérience utilisateur. Les solutions de protection existantes reposent principalement sur une tolérance aux pannes au niveau algorithmique assistée par matériel ou sur des méthodes de tolérance aux pannes en ligne pilotées par les frontières de certaines couches du modèle. Toutefois, ces méthodes présentent souvent des contraintes strictes en matière de matériel, des coûts de performance élevés ou une couverture des pannes incomplète. Pour surmonter ces limitations, cet article propose une nouvelle méthode de tolérance intelligente aux pannes d'inférence sans support matériel supplémentaire, RetryTrigger, visant à gérer exhaustivement divers pannes transitoires. Lors de l'inférence d'un grand modèle de langage, RetryTrigger collecte dynamiquement les caractéristiques de sortie en temps réel (telles que la probabilité maximale, la différence de probabilité top-k, l'entropie de sortie, les statistiques des logits et la latence d'inférence), puis les utilise comme entrée pour un méta-modèle LightGBM afin de prendre une décision. Ce méta-modèle peut prédire avec précision s'il est nécessaire de déclencher une nouvelle tentative d'inférence, réalisant ainsi un équilibre entre efficacité d'inférence et atténuation des pannes sans nécessiter de matériel supplémentaire. Cet article présente de nombreuses expériences sur 7 modèles représentatifs de grands modèles de langage (y compris T5-Small, RoBERTa, BioMedBERT, Qwen2.5-Coder-0.5B/7B, MiniMind et Opt), montrant que RetryTrigger peut réduire jusqu'à 95,33 % le taux de corruption silencieuse des données (réduction moyenne de 92,97 %), tout en maintenant un coût de performance minimal de 2,4012 % (moyenne de 4,1167 %). Par rapport aux solutions de pointe existantes, cette méthode offre un meilleur compromis entre fiabilité et efficacité de l'inférence.

Keywords

grands modèles de langage;résilience système;détection intelligente des pannes;réexécution de l'inférence;pannes transitoires

READ MORE