End-to-end object detection using a query-selection encoder with hierarchical feature-aware attention

Zuyi WANG ,  

Zhimeng ZHENG ,  

Jun MENG ,  

Li XU ,  

Abstract

Dank der nicht notwendigen Gestaltung komplexer menschlicher Komponenten und der Vereinfachung des Erkennungsprozesses hat die End-to-End-Erkennungsmethode in den letzten Jahren viel Aufmerksamkeit erhalten. Im Vergleich zu herkömmlichen Detektoren weisen diese Methoden jedoch Probleme mit der langsamen Konvergenz des Lernens und der unzureichenden Erkennungsleistung auf, die auf die Einschränkung des Algorithmus durch unzureichende positive Überwachungssignale während der Merkmalsfusion und -auswahl zurückzuführen sind. Zur Lösung dieses Problems schlägt dieser Artikel einen Anfrageauswahlcodierer (QSE) für End-to-End-Detektoren vor, der die Konvergenzgeschwindigkeit des Lernens und die Genauigkeit der Detektion verbessern kann. QSE besteht aus mehreren Encoder-Schichten, und nach jeder Encoder-Schicht wird ein leichtes Netzwerk hinzugefügt, um die Merkmale sequentiell zu optimieren und eine umfassendere positive Überwachung für ein effektives Lernen zu ermöglichen. Darüber hinaus wird in jeder Encoder-Schicht ein hierarchischer Merkmalsaufmerksamkeitsmechanismus (HFA) eingeführt, der eine intra-schichtige und inter-schichtige Aufmerksamkeit für Merkmale umfasst, um die Interaktion und Fusion von Features verschiedener Ebenen zu verstärken. HFA kann effektiv ähnliche Merkmalsrepräsentationen unterdrücken und diskriminierende Merkmalsrepräsentationen stärken, um den Feature-Auswahlprozess zu beschleunigen. Diese Methode kann flexibel auf Detektoren basierend auf Convolutional Neural Networks und Transformer-Detektoren angewendet werden. Zahlreiche Experimente mit großen Benchmark-Datensätzen für die Objekterkennung MS COCO, CrowdHuman und PASCAL VOC zeigen, dass Detektoren, die QSE verwenden, basierend auf Convolutional Neural Networks oder Transformer, in weniger Trainingszyklen eine bessere End-to-End-Erkennungsleistung erzielen können.

Keywords

End-to-end object detection;Query-selection encoder;Hierarchical feature-aware attention

READ MORE