RetryTrigger: método inteligente de reintento de inferencia tolerante a fallos transitorios de hardware para grandes modelos de lenguaje

Jiajia JIAO ,  

Yixu YU ,  

Abstract

En los últimos años, los grandes modelos de lenguaje han demostrado un rendimiento sobresaliente en diversas tareas de procesamiento del lenguaje natural. Sin embargo, con el aumento de las fallas transitorias de hardware, el problema de la corrupción silenciosa de datos en los grandes modelos de lenguaje se ha vuelto cada vez más evidente, afectando gravemente la calidad de la salida y la experiencia del usuario. Las soluciones de protección existentes se basan principalmente en tolerancia a fallos a nivel algorítmico asistida por hardware o en métodos de tolerancia a fallos en línea impulsados por los límites de ciertas capas del modelo. Sin embargo, estos métodos a menudo presentan una gran dependencia del hardware, un alto costo en rendimiento o una cobertura incompleta de fallas. Para superar estas limitaciones, este artículo propone un novedoso método de inferencia tolerante a fallos sin soporte de hardware adicional, RetryTrigger, para abordar exhaustivamente diversos fallos transitorios. Durante el proceso de inferencia del gran modelo de lenguaje, RetryTrigger recopila dinámicamente características de salida en tiempo de ejecución (como la máxima probabilidad, la diferencia de probabilidades top-k, la entropía de salida, estadísticas de logits y la latencia de inferencia) y alimenta estas características a un meta-modelo LightGBM para su determinación. Este meta-modelo puede predecir con precisión si es necesario activar un reintento de inferencia, logrando así un equilibrio entre la eficiencia de la inferencia y la mitigación de fallos sin necesidad de hardware adicional. Se realizaron numerosos experimentos en 7 modelos representativos de grandes modelos de lenguaje (incluyendo T5-Small, RoBERTa, BioMedBERT, Qwen2.5-Coder-0.5B/7B, MiniMind y Opt), y los resultados muestran que RetryTrigger puede reducir la tasa de corrupción silenciosa de datos hasta en un 95,33 % (reducción promedio del 92,97 %), mientras logra un costo de rendimiento mínimo del 2,4012 % (promedio del 4,1167 %). En comparación con las soluciones avanzadas existentes, este método logra un mejor equilibrio entre confiabilidad y eficiencia de inferencia.

Keywords

grandes modelos de lenguaje;resiliencia del sistema;detección inteligente de fallos;cómputo de inferencia repetido;fallos transitorios

READ MORE