Анализ эмоциональной структуры китайского текста (CTASA) - это задача последовательной разметки, обычно зависящая от глубоких методов обучения с учителем. Однако получение крупных помеченных наборов данных может быть как дорогостоящим, так и затратным по времени. Путем выбора наиболее ценных образцов активное обучение предлагает решение для снижения стоимости разметки. Ранее методы активного обучения в основном фокусировались на неопределенности образцов или разнообразии, но на самом деле они все еще сталкиваются с проблемами, такими как модельный дисбаланс или выбор нерелевантных образцов. Для решения этих проблем в настоящей статье предлагается многоуровневое активное обучение (MAL), которое использует информацию на двух уровнях - предложений и слова, для моделирования сложной структуры китайского текста. Путем интеграции признаков на уровне предложения, извлеченных из встраиваний двунаправленного кодировщика на основе трансформера (BERT), а также вероятностного распределения на уровне слов, полученного из модели условного случайного поля (CRF), MAL может полностью отражать эмоциональную структуру китайского текста (CTAS). Экспериментальные результаты показывают, что по сравнению с базовым методом MAL существенно сокращает стоимость разметки (примерно на 70%) и обеспечивает более стабильную производительность.
Keywords
Sentiment analysis;Sequence labeling;Active learning (AL);Bidirectional encoder representations from Transformers (BERT)