Prototype-guided cross-task knowledge distillation

Deng LI ,  

Peng LI ,  

Aming WU ,  

Yahong HAN ,  

Abstract

In den letzten Jahren haben groß angelegte, vorab trainierte Modelle ihre Vorteile in verschiedenen Aufgaben gezeigt. Aufgrund der hohen Rechenlast und des enormen Speicherbedarfs ist es jedoch schwierig, solche Modelle in realen Szenarien einzusetzen. Die gängigen Methoden zur Wissensdestillation erfordern, dass Lehrer- und Schülermodelle denselben Tagungsraum nutzen, was die Verwendung von vorab trainierten Modellen in realen Szenarien einschränkt. Zur Linderung der Beschränkungen der verschiedenen Tagungsräume schlägt dieser Artikel eine Methode zur Wissensdestillation auf der Grundlage von Prototypen (ProC-KD) vor, um das wesentliche Wissen der Objektrepräsentation des Lehrernetzwerks auf verschiedene Szenarien von Nebenaufgaben zu übertragen. Erstens wird zur Verbesserung des Erlernens genereller Kenntnisse in verschiedenen Aufgabenszenarien ein Prototypenlernmodul vorgeschlagen, das unveränderliche Objektrepräsentationen aus dem Lehrernetzwerk erlernt. Zweitens wird für verschiedene Nebenaufgaben ein adaptives Merkmalsverbesserungsmodul vorgeschlagen, das durch die Übernahme allgemeiner Prototypenrepräsentationen die Merkmale des Schülernetzwerks verbessert und das Lernen des Schülernetzwerks zur Verbesserung seiner Generalisierungsfähigkeit anleitet. Experimente in verschiedenen visuellen Aufgaben bestätigen die Wirksamkeit des vorgeschlagenen Ansatzes in Szenarien der Wissensdestillation auf der Grundlage von Nebenaufgaben.

Keywords

Knowledge distillation;Cross-task;Prototype learning

READ MORE