MAL: multilevel active learning with BERT for Chinese textual affective structure analysis

Shufeng XIONG ,  

Guipei ZHANG ,  

Xiaobo FAN ,  

Wenjie TIAN ,  

Lei XI ,  

Hebing LIU ,  

Haiping SI ,  

Abstract

L'analyse de la structure émotionnelle du texte chinois (CTASA) est une tâche d'étiquetage séquentiel, souvent dépendante des méthodes d'apprentissage approfondi supervisées. Cependant, l'obtention de grands ensembles de données annotées peut être à la fois coûteuse et chronophage. En sélectionnant les échantillons les plus précieux, l'apprentissage actif offre une solution pour réduire le coût de l'annotation. Les méthodes d'apprentissage actif précédentes se sont principalement concentrées sur l'incertitude ou la diversité des échantillons, mais en réalité elles sont toujours confrontées à des défis tels que le biais du modèle ou le choix d'échantillons non pertinents. Pour résoudre ces problèmes, cet article introduit l'apprentissage actif à plusieurs niveaux (MAL), qui utilise les informations textuelles profondes à deux niveaux – les phrases et les mots – pour modéliser la structure complexe du texte chinois. En intégrant des caractéristiques au niveau de la phrase extraites des incrustations des encodeurs bidirectionnels basés sur le transformer (BERT) ainsi que la distribution de probabilité au niveau des mots obtenue à partir du modèle de champ conditionnel aléatoire (CRF), MAL est capable de capturer de manière exhaustive la structure émotionnelle du texte chinois (CTAS). Les résultats expérimentaux montrent que, par rapport à la méthode de base, MAL réduit considérablement le coût de l'annotation (d'environ 70 %) et offre des performances plus stables.

Keywords

Sentiment analysis;Sequence labeling;Active learning (AL);Bidirectional encoder representations from Transformers (BERT)

READ MORE