تم دراسة نظام اتصال عريض النطاق قريب المجال للعديد من المستخدمين المدعم بسطح فائق الذكاء المساعد ذي الاتجاه الكامل، وقدم خوارزمية قوية معتمدة على التعلم التعزيزي العميق. من خلال تحسين شكل الحزمة النشطة لبنية القاعدة وشكل الحزمة الباعثة لسطح فائق الذكاء، تم تحسين سرعة الوصول للمستخدم. لتخفيف مشكلة تقسيم الحزم العريضة في الاتصالات عريضة النطاق، تم إدخال هيكل مختلط للترميز المختلط ذي الصلة الزمنية لتحقيق شكل فعال للحزم عريضة النطاق. باعتبار نموذج التحول الزمني المرتبط لسطح فائق الذكاء، تم تحويل تصميم تشكيل الحزم الغير نشطة إلى مشكلة تحكم مختلطة للتحول المستمر والمتقطع، وتم حل مشكلة التحكم في الإجراءات المتتابعة عالية الأبعاد من خلال تطبيق رسم خرائط الإجراءات المختلط. بالإضافة إلى ذلك، تم تقديم أوبراكتور softmax لتخفيف الانحياز التقديري في خوارزميات التعلم التعزيزي الحالية. تظهر نتائج المحاكاة أن الخوارزمية المقدمة أفضل من الخوارزميات الحالية في التغلب على مشكلة التقدير المفرط والتقدير المفرط للنشر.
Keywords
التعلم التعزيزي العميق. تشكيل الحزم القريب. سطح فائق الذكاء. تقسيم الحزم عريضة النطاق.