Die Aufgabe der halbüberwachten Schallerkennung verwendet in der Regel umfangreiche unbeschriftete Daten und synthetische Daten, um die Generalisierungsfähigkeit des Modells zu verbessern und so effektiv das Überanpassungsmodell an einer kleinen Menge von beschrifteten Daten zu reduzieren. Der Prozess des Generalisierungstrainings wird jedoch in der Regel von Rauschen von falschen Labels und von domänenwissensinterferenzen begleitet, was zu einem Problem des halbrauschenen Klassenverteilungslernens führt. Zur Linderung dieses Problems des halbräuschenen Klassenverteilungslernens wird eine Methode zur Optimierung des halbüberwachten Klassenverteilungslernens auf der Grundlage von dynamischen Vorschlägen (PADO) vorgeschlagen. Insbesondere, wenn echte Label-Daten zur Verfügung stehen, integriert PADO dynamisch einen Satz von lernbaren unabhängigen Parametern (Klassentoken) zur Exploration des a-priori-Wissens der tatsächlichen Verteilung als zusätzliche Hinweisinformationen, dynamisch mit dem Wissen der nachgeräuschposteriori-Verteilung interagiert, was es ermöglicht, das Wissen der Klassenverteilung zu optimieren und die Generalisierungsleistung des Modells zu erhalten. Auf dieser Grundlage kann PADO die Effizienz des Klassenverteilungslernens erheblich verbessern. Die Ergebnisse der Experimente auf den DCASE 2019-, 2020- und 2021-Datensätzen zeigen, dass PADO deutlich besser ist als die aktuellen fortschrittlichen Methoden und leicht auf andere Hauptmodelle übertragbar ist.
Keywords
Prompt tuning;Class distribution learning;Semi-supervised learning;Sound event detection