Обработка многозначных триггерных слов и аргументов в извлечении событий: стратегия самоадаптивного изучения смысла на основе механизма награды-наказания
Извлечение событий - это сложная задача обработки естественного языка, направленная на идентификацию триггерных слов и аргументов и их классификацию из неструктурированных текстов. Полисемия триггерных слов и аргументов является одним из основных вызовов, влияющих на точность извлечения событий. Существующие методы обычно предполагают, что полисемия в триггерных словах и аргументах равномерно распределена. Однако на практике в реальных сценариях различается количество образцов разных смыслов в одном и том же триггере или аргументе, что приводит к смещению распределения смыслов. Это смещение представляет собой два вызова для точного извлечения событий: пропуск низкочастотных смыслов и ложное срабатывание высокочастотных смыслов. Для решения этих вызовов предлагается метод самоадаптивного изучения смысла, с использованием механизма награды-наказания для уменьшения различий в распределении высокочастотных и низкочастотных смыслов и одновременно увеличения различий между целевыми и неверными смыслами с целью балансирования распределения смысла. Кроме того, предлагается механизм контекстного восприятия событий на уровне предложения, направленный на точное обучение кодировщика, чтобы усилить предсказание семантики событий для многозначных триггерных слов и аргументов, упомянутых в предложении. Наконец, для различных задачных смыслов предлагается специфический декодер смысла, точно определяющий границы предсказанных триггерных слов и аргументов для этого смысла. Результаты экспериментов на ACE2005 и его разновидностях, а также на эталоне ERE, показывают, что метод, предложенный в этой статье, превосходит все базовые линии извлечения одиночных и многозадачных событий.
Keywords
извлечение событий; Полисемические триггеры; Полисемные аргументы; Семантический дисбаланс; Механизм награды-наказания