L'analyse de la structure émotionnelle du texte en chinois (CTASA) est une tâche d'étiquetage de séquence, généralement basée sur des méthodes d'apprentissage profond supervisé. Cependant, obtenir de grands ensembles de données annotées pour l'entraînement peut être à la fois coûteux et long. En choisissant les échantillons les plus précieux, l'apprentissage actif offre une solution pour réduire le coût de l'annotation. Les méthodes d'apprentissage actif précédentes se sont principalement concentrées sur l'incertitude de l'échantillon ou la diversité, mais en réalité elles sont également confrontées à des défis tels que le biais du modèle ou le choix d'échantillons non pertinents. Pour résoudre ces problèmes, nous introduisons dans ce document l'apprentissage actif multi-niveaux (MAL), qui utilise des informations textuelles profondes à deux niveaux, la phrase et le mot, pour modéliser la structure complexe du texte chinois. En intégrant les fonctionnalités au niveau de la phrase extraites des intégrations du codeur bidirectionnel de phrases (BERT) et la distribution de probabilité au niveau des mots obtenue à partir du modèle de champ conditionnel aléatoire (CRF), MAL est capable de capturer de manière exhaustive la structure émotionnelle du texte chinois (CTAS). Les résultats de l'expérience montrent que par rapport aux méthodes de base, MAL a réduit de manière significative le coût de l'annotation d'environ 70% et offert des performances plus stables.
Keywords
Analyse des émotions; étiquetage de séquence; apprentissage actif; codage bidirectionnel des phrases (BERT)