出版云平台

RetryTrigger: intelligente Inferenz-Wiederholungs-Fehlertoleranz-Methode für große Sprachmodelle gegenüber transienten Hardwarefehlern

DOI：10.1631/ENG.ITEE.2025.0104

Abstract

In den letzten Jahren haben große Sprachmodelle herausragende Leistungen in verschiedenen Aufgaben der natürlichen Sprachverarbeitung gezeigt. Allerdings wird mit der zunehmenden Häufigkeit von transienten Hardwarefehlern das Problem stiller Datenkorruption in großen Sprachmodellen immer deutlicher, was die Ausgabequalität und das Benutzererlebnis erheblich beeinträchtigt. Bestehende gängige Schutzlösungen basieren hauptsächlich auf hardware-unterstützter algorithmischer Fehlertoleranz oder auf online-Fehlertoleranzmethoden, die an den Grenzen bestimmter Modellschichten ansetzen. Diese Methoden leiden jedoch oft unter starken Hardwareabhängigkeiten, hohen Performancekosten oder unvollständiger Fehlerabdeckung. Um diese Einschränkungen zu überwinden, schlägt dieser Artikel eine neuartige fehlersensitive Inferenzmethode ohne zusätzliche Hardwareunterstützung namens RetryTrigger vor, die umfassend auf verschiedene transiente Fehler reagiert. Während des Inferenzprozesses großer Sprachmodelle sammelt RetryTrigger dynamisch Laufzeitausgabemerkmale (wie maximale Wahrscheinlichkeit, top-k Wahrscheinlichkeitsdifferenz, Ausgangsentropie, Logits-Statistiken und Inferenzlatenz) und führt diese Merkmale einem LightGBM-Metamodell zur Bewertung zu. Dieses Metamodell kann genau vorhersagen, ob ein Re-Inferenzversuch ausgelöst werden muss, wodurch eine doppelte Absicherung von Inferenz-Effizienz und Fehlerabschäwchtung ohne zusätzliche Hardware ermöglicht wird. Es wurden umfangreiche Experimente mit 7 repräsentativen großen Sprachmodellen (einschließlich T5-Small, RoBERTa, BioMedBERT, Qwen2.5-Coder-0.5B/7B, MiniMind und Opt) durchgeführt, die zeigen, dass RetryTrigger die stille Datenkorruptionsrate um bis zu 95,33 % reduzieren kann (durchschnittlich 92,97 %), bei minimalen Performancekosten von 2,4012 % (durchschnittlich 4,1167 %). Im Vergleich zu bestehenden Spitzentechnologien bietet diese Methode eine bessere Balance zwischen Zuverlässigkeit und Inferenz-Effizienz.

Keywords

große Sprachmodelle;Systemresilienz;intelligente Fehlererkennung;Inferenz-Neuberechnung;transiente Fehler

RetryTrigger: intelligente Inferenz-Wiederholungs-Fehlertoleranz-Methode für große Sprachmodelle gegenüber transienten Hardwarefehlern

Jiajia JIAO ,

Yixu YU ,

DOI：10.1631/ENG.ITEE.2025.0104

Abstract

Keywords