Methode zur halbüberwachten Sound-Event-Detection auf der Grundlage der dynamischen Optimierung der Klassenverteilung

Lijian GAO ,  

Qing ZHU ,  

Yaxin SHEN ,  

Qirong MAO ,  

Yongzhao ZHAN ,  

Abstract

Die Aufgabe des halbüberwachten Sound-Event-Detection verwendet in der Regel große unbeschriftete Daten und synthetische Daten, um die Generalisierungsfähigkeit des Modells zu verbessern und so effektiv das Überanpassungsmodell auf eine geringe Anzahl beschrifteter Daten zu reduzieren. Der Generalisierungs-Trainingsprozess geht jedoch in der Regel mit Rauschen von falschen Markierungen und Interferenzen des Domänenwissens einher. Zur Linderung des Problems des halblärmigen Klassenverteilungslernens schlagen wir eine Methode des halbüberwachten Klassenverteilungslernens vor, die auf der dynamischen Optimierung von Hinweisen (PADO) basiert. Genauer gesagt, wenn echte Markierungsdaten bereitgestellt werden, integriert PADO dynamisch einen Satz lernfähiger unabhängiger Parameter (Klassentoken) zur Exploration des a priori-Wissens der echten Verteilung als zusätzliche Hinweisinformationen, die dynamisch mit dem gestörten Wissen über die Posterior-Verteilung interagieren, wodurch das Klassenverteilungswissen optimiert und die Generalisierungsfähigkeit des Modells erhalten bleibt. Auf dieser Grundlage kann PADO die Effizienz des Klassenverteilungslernens erheblich verbessern. Experimentelle Ergebnisse auf den DCASE 2019-, 2020- und 2021-Datensätzen zeigen, dass PADO deutlich besser ist als aktuelle fortschrittliche Methoden und leicht auf andere Hauptmodelle übertragen werden kann.

Keywords

Hinweisabstimmung; Klassenverteilunglernen; Halbüberwachtes Lernen; Sound-Event-Detection

READ MORE