El análisis de la estructura emocional del texto chino (CTASA) es una tarea de marcado secuencial, generalmente dependiente de métodos profundos de aprendizaje supervisado. Sin embargo, obtener conjuntos de datos grandes y etiquetados puede ser costoso y llevar mucho tiempo. Mediante la selección de las muestras más valiosas, el aprendizaje activo ofrece una solución para reducir el costo del marcado. Los métodos de aprendizaje activo anteriores se han centrado principalmente en la incertidumbre o la diversidad de las muestras, pero en realidad siguen enfrentando desafíos como el sesgo del modelo o la selección de muestras no relevantes. Para resolver estos problemas, este artículo introduce el aprendizaje activo multinivel (MAL), que utiliza la información del texto profundo en dos niveles, oraciones y palabras, para modelar la estructura compleja del texto chino. Al integrar características del nivel de oración extraídas de las incrustaciones del codificador bidireccional basado en el transformador (BERT) y la distribución de probabilidad a nivel de palabra obtenida del modelo de campo condicional aleatorio (CRF), MAL puede capturar exhaustivamente la estructura emocional del texto chino (CTAS). Los resultados experimentales muestran que, en comparación con el método base, MAL reduce significativamente el costo de marcado (aproximadamente un 70 %) y ofrece un rendimiento más estable.
Keywords
Sentiment analysis;Sequence labeling;Active learning (AL);Bidirectional encoder representations from Transformers (BERT)