Prototype-guided cross-task knowledge distillation

Deng LI ,  

Peng LI ,  

Aming WU ,  

Yahong HAN ,  

Abstract

En los últimos años, los modelos preentrenados a gran escala han mostrado sus ventajas en diversas tareas. Sin embargo, debido a la pesada carga computacional y las enormes demandas de almacenamiento, es difícil desplegar modelos preentrenados a gran escala en escenarios reales. Los métodos actuales de destilación del conocimiento requieren que los modelos maestro y alumno utilicen el mismo espacio de etiquetas, lo que limita el uso de los modelos preentrenados en escenarios reales. Para mitigar las restricciones de los diferentes espacios de etiquetas, en este artículo se propone un método de destilación del conocimiento basado en prototipos (ProC-KD), con el objetivo de transferir los conocimientos esenciales de representación de objetos de la red maestra a diversos escenarios de tareas secundarias. En primer lugar, para mejorar el aprendizaje de conocimientos generales en escenarios de tareas diversos, se propone un módulo de aprendizaje de prototipos, que aprende representaciones invariables de objetos de la red maestra. En segundo lugar, para diversas tareas secundarias, se propone un módulo de mejora adaptativa de características, que, mediante la adopción de representaciones de prototipos generales, mejora las características de la red estudiante y guía el aprendizaje de la red estudiante para mejorar su capacidad de generalización. Los experimentos en diversas tareas visuales confirman la eficacia del enfoque propuesto en escenarios de destilación del conocimiento basado en tareas secundarias.

Keywords

Knowledge distillation;Cross-task;Prototype learning

READ MORE