Basierend auf der Architektur des Transformer sind Modelle zu einem Eckpfeiler im Bereich der natürlichen Sprachverarbeitung geworden. Dennoch bleibt der enorme Rechenaufwand des Schlussfolgerungsprozesses eine große Herausforderung, die die tatsächliche Anwendung dieser Modelle einschränkt. Dieser Artikel nutzt einen Controller auf einem KI-Beschleuniger (AI), um die Kosten des Schlussfolgerungsprozesses des Transformer-Modells zu minimieren, und umfasst hauptsächlich 4 Aspekte: Erstens eine umfassende Analyse der Schlussfolgerungskosten des Transformer-Prozesses und die Identifizierung der Hauptengpässe. Zweitens wurde mit dem Hauptkern (MPE) des KI-Beschleunigers SWAI ein dreistufiges Planungssystem implementiert, das die Anzahl der Starts zwischen Host und Gerät auf etwa ein Tausendstel der ursprünglichen PyTorch-GPU-Einstellung reduziert. Drittens wird eine Zero-Copy-Speicherverwaltungstechnik auf der Grundlage der Seitenfusion eingeführt, die die Speicherzugriffslatenz erheblich verringert und die Gesamteffizienz des Schlussfolgerungsprozesses verbessert. Schließlich wurde eine schnelle Modell-Ladungsmethode entwickelt, die redundante Berechnungen für die Modellvalidierung und den Initialisierungsprozess beseitigt und die Gesamtladezeit für große Modelle von 22 128,31 Millisekunden auf 1041,72 Millisekunden reduziert. Dieser Artikel hat das Transformer-Modell erheblich optimiert, um es auf einem KI-Beschleuniger effizienter und schneller zu machen.
Keywords
Optimierung der Transformer-Inferenz; Dreistufige Planung; Speicherverwaltung ohne Kopieren; Schnelles Laden des Modells