El análisis de la estructura emocional del texto en chino (CTASA) es una tarea de etiquetado secuencial, generalmente dependiente de métodos de aprendizaje profundo supervisado. Sin embargo, obtener grandes conjuntos de datos anotados para el entrenamiento puede ser costoso y lleva tiempo. Al elegir las muestras más valiosas, el aprendizaje activo proporciona una solución para reducir el costo de la anotación. Los métodos anteriores de aprendizaje activo se centraban principalmente en la incertidumbre de la muestra o la diversidad, pero en realidad también enfrentan desafíos como el sesgo del modelo o la selección de muestras no relacionadas. Para resolver estos problemas, introducimos en este documento el aprendizaje activo multinivel (MAL), que utiliza información profunda del texto en dos niveles, la oración y la palabra, para modelar la estructura compleja del texto chino. Al integrar las características a nivel de oración extraídas de las incrustaciones del codificador bidireccional de oraciones (BERT) y la distribución de probabilidad a nivel de palabras obtenida del modelo de campo aleatorio condicional (CRF), MAL puede capturar exhaustivamente la estructura emocional del texto chino (CTAS). Los resultados del experimento muestran que en comparación con los métodos básicos, MAL redujo significativamente el costo de la anotación en aproximadamente un 70% y ofreció un rendimiento más estable.
Keywords
Análisis de emociones; etiquetado secuencial; aprendizaje activo; codificación bidireccional de oraciones (BERT)