DDiNER: метод распознавания именованных сущностей на китайском языке с использованием словаря области для сложных промышленных сценариев

Ronghui LIU ,  

Wei CUI ,  

Xiaojun LIANG ,  

Weihua GUI ,  

Abstract

В промышленных процессах точное распознавание именованных сущностей (NER) на китайском языке имеет важное значение для извлечения информации, построения графов знаний и интеллектуального принятия решений. Однако размытые границы сущностей, семантические перекрытия и недостаток аннотированных данных существенно ограничивают его производительность. Для решения указанных проблем в данной работе предложена рамочная структура для китайского NER с использованием словаря области — DDiNER. Эта структура интегрирует иерархический словарь промышленной области с двунаправленной кодирующей моделью через иерархический адаптер словаря, а также сочетает двунаправленные сети с длительной краткосрочной памятью и условные случайные поля для реализации многоуровневого объединения признаков. Экспериментальные результаты показывают, что DDiNER демонстрирует выдающуюся производительность с средней точностью, полнотой и F1-мерой, равными 95,75%, 95,73% и 95,74% соответственно, значительно превосходя существующие методы. Результаты валидации на независимом наборе данных подтверждают хорошую робастность и обобщающую способность модели при распознавании незарегистрированных и редких сущностей. Исследование предоставляет эффективное и масштабируемое решение для китайского NER в промышленной области с заметным потенциалом применения в интеллектуальных прикладных задачах.

Keywords

распознавание именованных сущностей; процессная промышленность; словарь области; иерархический адаптер словаря

READ MORE