Анализ эмоциональной структуры китайского текста (CTASA) является задачей последовательной разметки, обычно зависящей от методов глубокого обучения с учителем. Однако получение больших наборов данных с разметкой для обучения может быть как дорогостоящим, так и затратным по времени. Путем выбора самых ценных образцов активное обучение предлагает решение для снижения стоимости разметки. Прежние методы активного обучения сосредотачивались на неопределенности образца или разнообразии, но на самом деле они сталкиваются с вызовами, такими как смещение модели или выбор несвязанных образцов. Чтобы решить эти проблемы, мы вводим в этом документе многоуровневое активное обучение (MAL), которое использует глубокую информацию текста на двух уровнях: предложение и слово, для моделирования сложной структуры китайского текста. Путем объединения признаков на уровне предложения, извлеченных из встраивания двунаправленного кодировщика предложений (BERT), и вероятностного распределения на уровне слов, полученного из модели случайного поля условий (CRF), MAL способен полностью улавливать эмоциональную структуру китайского текста (CTAS). Результаты эксперимента показывают, что по сравнению с базовыми методами MAL значительно снизил стоимость разметки на около 70% и обеспечил более стабильную производительность.
Keywords
Анализ эмоций; последовательная разметка; активное обучение; двунаправленное кодирование предложений (BERT)