Prototype-guided cross-task knowledge distillation

Deng LI ,  

Peng LI ,  

Aming WU ,  

Yahong HAN ,  

Abstract

Ces dernières années, les modèles pré-entraînés à grande échelle ont montré leurs avantages dans diverses tâches. Cependant, en raison de la lourde charge de calcul et des énormes besoins de stockage, il est difficile de déployer des modèles pré-entraînés à grande échelle dans des scénarios réels. Les méthodes actuelles de distillation des connaissances nécessitent que les modèles enseignant et élève utilisent le même espace d'étiquettes, ce qui limite l'utilisation des modèles pré-entraînés dans des scénarios réels. Pour atténuer les contraintes des différents espaces d'étiquettes, cet article propose une méthode de distillation des connaissances fondée sur des prototypes (ProC-KD), visant à transférer les connaissances essentielles de représentation des objets du réseau enseignant à divers scénarios de tâches secondaires. Premièrement, pour améliorer l'apprentissage des connaissances générales dans des scénarios de tâches diverses, un module d'apprentissage de prototypes est proposé, qui apprend des représentations invariables des objets du réseau enseignant. Deuxièmement, pour diverses tâches secondaires, un module d'amélioration adaptative des caractéristiques est proposé, qui, par l'adoption de représentations de prototypes générales, renforce les caractéristiques du réseau élève et guide l'apprentissage du réseau élève pour renforcer sa capacité de généralisation. Des expériences sur différentes tâches visuelles confirment l'efficacité de l'approche proposée dans les scénarios de distillation des connaissances basée sur des tâches secondaires.

Keywords

Knowledge distillation;Cross-task;Prototype learning

READ MORE