Modelle auf der Grundlage der Transformer-Architektur sind zu Eckpfeilern im Bereich der natürlichen Sprachverarbeitung geworden. Dennoch bleiben die enormen Kosten des Inferenzprozesses eine große Herausforderung, die die praktische Anwendung dieser Modelle einschränken. In diesem Artikel wird ein Controller auf einem künstlichen Intelligenzbeschleuniger (AI) eingesetzt, um die Kosten des Inferenzprozesses des Transformer-Modells zu minimieren und umfasst hauptsächlich 4 Aspekte: Erstens wird eine umfassende Analyse der Kosten des Transformer-Inferenzprozesses durchgeführt, wobei die Hauptengpässe identifiziert werden. Dann wurde mit Hilfe des Hauptkerns des künstlichen Intelligenzbeschleunigers SWAI ein Drei-Ebenen-Planungsrahmen implementiert, der die Anzahl der Starts zwischen Host und Gerät auf etwa ein Tausendstel der ursprünglichen PyTorch-GPU-Konfiguration reduzierte. Anschließend wird eine Technik zur speicherschonenden Speicherverwaltung auf der Grundlage der Fusion von Seiten eingeführt, die die Speicherzugriffsverzögerung erheblich reduziert und die Gesamteffizienz der Inferenz verbessert. Schließlich wurde eine schnelle Modelllade-Methode entwickelt, die redundante Berechnungen zur Modellvalidierung und -initialisierung beseitigt und die Gesamtladezeit des großen Modells von 22.128,31 Millisekunden auf 1.041,72 Millisekunden reduziert. Dieser Artikel optimiert das Transformer-Modell erheblich und macht den Inferenzprozess auf einem KI-Beschleuniger effizienter und schneller.
Keywords
Optimierung der Transformer-Inferenz; Dreistufige Planung; Speicherschonende Speicherverwaltung; Schnelles Laden des Modells