MAL: multilevel active learning with BERT for Chinese textual affective structure analysis

Shufeng XIONG ,  

Guipei ZHANG ,  

Xiaobo FAN ,  

Wenjie TIAN ,  

Lei XI ,  

Hebing LIU ,  

Haiping SI ,  

Abstract

Die Analyse der emotionalen Struktur des chinesischen Textes (CTASA) ist eine Aufgabe der sequenziellen Markierung, die in der Regel von tiefen überwachten Lernmethoden abhängig ist. Die Beschaffung großer markierter Datensätze kann jedoch sowohl teuer als auch zeitaufwändig sein. Durch die Auswahl der wertvollsten Proben bietet das aktive Lernen eine Lösung zur Kostensenkung für die Markierung. Frühere aktive Lernmethoden konzentrierten sich hauptsächlich auf die Unsicherheit oder Vielfalt der Proben, stehen aber tatsächlich immer noch vor Herausforderungen wie Modellbias oder Auswahl von nicht relevanten Proben. Zur Lösung dieser Probleme führt dieser Artikel das mehrschichtige aktive Lernen (MAL) ein, das die tiefen Textinformationen auf zwei Ebenen – Sätze und Wörter – zur Modellierung der komplexen Struktur des chinesischen Textes nutzt. Durch die Integration von Merkmalen auf Satzebene, die aus den Einbettungen des transformerbasierten bidirektionalen Codierers (BERT) extrahiert wurden, sowie der Wahrscheinlichkeitsverteilung auf Wortebene, die aus dem Modell des bedingten zufälligen Feldes (CRF) gewonnen wurde, kann MAL die emotionale Struktur des chinesischen Textes (CTAS) umfassend erfassen. Experimentelle Ergebnisse zeigen, dass MAL im Vergleich zur Basismethode die Markierungskosten erheblich senkt (um ungefähr 70 %) und eine stabilere Leistung bietet.

Keywords

Sentiment analysis;Sequence labeling;Active learning (AL);Bidirectional encoder representations from Transformers (BERT)

READ MORE