تحليل هيكل المشاعر في النص الصيني (CTASA) هو مهمة تسمية متسلسلة ، وغالبًا ما يعتمد على أساليب التعلم العميق المراقبة. ومع ذلك ، قد يكون الحصول على مجموعة بيانات كبيرة موسومة للتدريب مكلفًا ويستغرق وقتًا. من خلال اختيار العينات الأكثر قيمة ، يوفر التعلم النشط حلاً لخفض تكلفة العلامة. تركز طرق التعلم النشط السابقة على عدم اليقين في العينة أو التنوع ، ولكن في الواقع تواجه تحديات مثل انحياز النموذج أو اختيار العينات غير ذات الصلة. لحل هذه المشاكل ، نقدم في هذا البحث التعلم النشط متعدد الطبقات (MAL) ، والذي يستخدم معلومات النص العميق في طبقتين ، الجملة والكلمة ، لنمذجة الهيكل المعقد للنص الصيني. من خلال دمج الميزات على مستوى الجملة التي تم استخلاصها من التشفير المزدوج ثنائي الاتجاه (BERT) والتوزيع الاحتمالي على مستوى الكلمات المستمد من نموذج الميدان الشرطي العشوائي (CRF) ، يمكن لقاعدة العمل MAL الاستيعاب الشامل لهيكل المشاعر للنص الصيني (CTAS). تشير نتائج التجربة إلى أن MAL يقلل بشكل كبير من تكلفة العلامة بنسبة تصل إلى حوالي 70٪ مقارنة بالطرق الأساسية ، وأداؤه أكثر استقراراً.
Keywords
تحليل المشاعر. تسمية المتسلسلة. التعلم النشط. التشفير المزدوج ثنائي الاتجاه (BERT)