Die Analyse der emotionalen Struktur des chinesischen Textes (CTASA) ist eine Sequenzmarkierungsaufgabe, die in der Regel von überwachten tiefen Lernmethoden abhängt. Das Sammeln großer annotierter Datensätze für das Training kann jedoch teuer und zeitaufwendig sein. Durch die Auswahl der wertvollsten Proben bietet aktives Lernen eine Lösung zur Reduzierung der Kennzeichnungskosten. Frühere Methoden des aktiven Lernens konzentrierten sich hauptsächlich auf die Unsicherheit der Probe oder die Vielfalt, sahen sich aber tatsächlich auch Herausforderungen wie Modellbias oder die Auswahl nicht zusammenhängender Proben gegenüber. Zur Lösung dieser Probleme führen wir in diesem Dokument das mehrschichtige aktive Lernen (MAL) ein, das auf zwei Ebenen tiefe Textinformationen, den Satz und das Wort, zur Modellierung der komplexen Struktur des chinesischen Textes verwendet. Durch Integration von Satzebene-Merkmalen, die aus den Embeddings des bidirektionalen Satzencoders (BERT) und der Wahrscheinlichkeitsverteilung auf Wortebene aus dem bedingten zufälligen Feldmodell (CRF) extrahiert wurden, kann MAL die emotionale Struktur des chinesischen Textes (CTAS) umfassend erfassen. Die Experimentelergebnisse zeigen, dass MAL im Vergleich zu Basismethoden die Markierungskosten um etwa 70 % signifikant senkt und eine stabilere Leistung bietet.
Keywords
Emotionsanalyse; Sequenzmarkierung; aktives Lernen; bidirektionale Codierung von Sätzen (BERT)