End-to-end object detection using a query-selection encoder with hierarchical feature-aware attention

Zuyi WANG ,  

Zhimeng ZHENG ,  

Jun MENG ,  

Li XU ,  

Abstract

Debido a la no necesidad de diseñar componentes humanos complejos y simplificar el proceso de detección, el método de detección de extremo a extremo ha sido objeto de gran atención en los últimos años. Sin embargo, en comparación con los detectores tradicionales, estos métodos presentan problemas de lenta convergencia del aprendizaje y rendimiento de detección insuficiente, debido a la limitación del algoritmo por señales de supervisión positivas insuficientes durante la fusión y selección de características. Para solucionar este problema, este artículo propone un codificador de selección de consultas (QSE) para detectores de extremo a extremo, capaz de mejorar la velocidad de convergencia del aprendizaje y la precisión de la detección. El QSE está compuesto por varias capas de codificador, y después de cada capa de codificador se añade una red ligera para optimizar secuencialmente las características y proporcionar una supervisión positiva más completa para un aprendizaje efectivo. Además, en cada capa de codificador se introduce un mecanismo de atención jerárquica a las características (HFA), que incluye atención dentro de la capa y entre capas a las características, para reforzar la interacción y fusión de características de diferentes niveles. HFA puede suprimir eficazmente representaciones de características similares y reforzar representaciones de características discriminativas, acelerando así el proceso de selección de características. Este método puede aplicarse de manera flexible a detectores basados en redes neuronales convolucionales y detectores basados en transformadores; numerosos experimentos en grandes conjuntos de datos de referencia para la detección de objetos MS COCO, CrowdHuman y PASCAL VOC muestran que los detectores basados en redes neuronales convolucionales o en transformadores, utilizando QSE, pueden lograr un mejor rendimiento de detección de extremo a extremo en menos ciclos de aprendizaje.

Keywords

End-to-end object detection;Query-selection encoder;Hierarchical feature-aware attention

READ MORE