RetryTrigger: умный метод повторного инференса с учетом транзиентных аппаратных сбоев для больших языковых моделей

Jiajia JIAO ,  

Yixu YU ,  

Abstract

В последние годы большие языковые модели демонстрируют выдающиеся результаты в различных задачах обработки естественного языка. Однако с ростом числа транзиентных аппаратных сбоев проблема молчаливого повреждения данных в больших языковых моделях становится все более острой, серьезно ухудшая качество вывода и пользовательский опыт. Существующие основные защитные решения в основном опираются на аппаратно-ассистируемую алгоритмическую отказоустойчивость или методы онлайн-отказоустойчивости с управлением на границах определённых слоев модели. Но эти методы часто страдают из-за высокой зависимости от аппаратного обеспечения, значительных издержек по производительности или неполного охвата сбоев. Для преодоления этих ограничений в статье предлагается новая методика обнаружения сбоев без дополнительной аппаратной поддержки — RetryTrigger, обеспечивающая всестороннюю защиту от различных транзиентных сбоев. В процессе инференса больших языковых моделей RetryTrigger динамически собирает характеристики выходных данных во время выполнения (такие как максимальная вероятность, разница вероятностей top-k, энтропия вывода, статистика logits и задержка инференса) и передает их в метамодель LightGBM для принятия решения. Эта метамодель точно предсказывает, нужно ли инициировать повторный инференс, что позволяет добиться баланса между эффективностью инференса и смягчением сбоев без дополнительного оборудования. Проведены масштабные эксперименты на 7 представительных больших языковых моделях (включая T5-Small, RoBERTa, BioMedBERT, Qwen2.5-Coder-0.5B/7B, MiniMind и Opt), результаты показывают, что RetryTrigger может снизить уровень молчаливого повреждения данных до 95,33% (в среднем на 92,97%), при этом обеспечивая минимальные издержки по производительности – 2,4012% (в среднем 4,1167%). По сравнению с современными передовыми решениями, данный метод обеспечивает лучший баланс между надежностью и эффективностью инференса.

Keywords

большие языковые модели;устойчивость системы;интеллектуальное обнаружение сбоев;повторные вычисления инференса;транзиентные сбои

READ MORE