MAL: multilevel active learning with BERT for Chinese textual affective structure analysis

Shufeng XIONG ,  

Guipei ZHANG ,  

Xiaobo FAN ,  

Wenjie TIAN ,  

Lei XI ,  

Hebing LIU ,  

Haiping SI ,  

Abstract

Анализ эмоциональной структуры китайского текста (CTASA) - это задача последовательной разметки, обычно зависящая от глубоких методов обучения с учителем. Однако получение крупных помеченных наборов данных может быть как дорогостоящим, так и затратным по времени. Путем выбора наиболее ценных образцов активное обучение предлагает решение для снижения стоимости разметки. Ранее методы активного обучения в основном фокусировались на неопределенности образцов или разнообразии, но на самом деле они все еще сталкиваются с проблемами, такими как модельный дисбаланс или выбор нерелевантных образцов. Для решения этих проблем в настоящей статье предлагается многоуровневое активное обучение (MAL), которое использует информацию на двух уровнях - предложений и слова, для моделирования сложной структуры китайского текста. Путем интеграции признаков на уровне предложения, извлеченных из встраиваний двунаправленного кодировщика на основе трансформера (BERT), а также вероятностного распределения на уровне слов, полученного из модели условного случайного поля (CRF), MAL может полностью отражать эмоциональную структуру китайского текста (CTAS). Экспериментальные результаты показывают, что по сравнению с базовым методом MAL существенно сокращает стоимость разметки (примерно на 70%) и обеспечивает более стабильную производительность.

Keywords

Sentiment analysis;Sequence labeling;Active learning (AL);Bidirectional encoder representations from Transformers (BERT)

READ MORE