Die Optimierung der Bereitstellung großer Sprachmodelle (LLMs) in einer Edge-Computing-Umgebung ist entscheidend, um den Datenschutz und die Recheneffizienz zu verbessern. Um eine effiziente drahtlose LLM-Inferenz zu erreichen, analysiert diese Studie umfassend die Auswirkungen verschiedener Split-Punkte in führenden Open-Source-LLMs. Dieser Beitrag präsentiert einen modellbasierten Verstärkungslernrahmen (MBRL) zur Bestimmung des besten Split-Punkts zwischen Edge und Benutzergerät (UE). Durch die Einführung eines Belohnungsmodells reduziert diese Methode die Berechnungskosten für häufige Leistungsbewertungen erheblich. Umfangreiche Simulationsergebnisse zeigen, dass diese Methode die Inferenzleistung und die Rechenlast unter verschiedenen Netzwerkbedingungen effektiv ausbalanciert und eine robuste Lösung für die Bereitstellung von LLMs in einer dezentralen Umgebung bietet.
Keywords
große Sprachmodelle; Edge-Computing; modellbasiertes Verstärkungslernen; Split-Inferenz; Transformator-Modell