موضع الإمساك بالجسم مرتبط ارتباطًا وثيقًا بنوع المهمة. بالنسبة لنفس العنصر، قد تتطلب احتياجات المستخدم المختلفة طرق إمساك مختلفة. توفر جاذبية الرؤية معرفة مسبقة موثوقة لسلوك التشغيل. عادةً ما تستخلص الطرق الحالية الجاذبية من الصور أو الفيديو، لكن الجاذبية المستندة إلى المستوي تفتقر إلى المعلومات المكانية اللازمة لتحقيق عمليات ذات ست درجات حرية. بالإضافة إلى ذلك، الأساليب الحالية مقيدة بجاذبية مرتبطة بفئات محددة مسبقًا ولا يمكنها اشتقاق الجاذبية مباشرة من تعليمات المستخدم. لحل هذه المشكلات، نقترح مهمة جديدة: تقسيم جاذبية الأجسام ثلاثية الأبعاد المستندة إلى التعليمات اللغوية. لدعم هذا البحث، تم بناء مجموعة بيانات تعليمات-جاذبية. تحتوي هذه المجموعة المعقدة على 7190 مثالًا من 20 فئة شائعة من الأجسام، مع 624 توجيهًا تشغيلياً تحدد الجاذبية المرتبطة بها. لتقييم قدرة النموذج على التعميم لتعليمات جديدة، تشمل المجموعة إعدادات "مرئية" و"غير مرئية". استنادًا إلى ذلك، تم تصميم شبكة تقسيم جاذبية ثلاثية الأبعاد مدفوعة بالتعليمات تستخرج الميزات من سحابة النقاط وتدمج ميزات التعليمات طبقة بطبقة. استنادًا إلى التعليمات المعطاة، يمكن للنموذج تقسيم مناطق التشغيل المقترحة مباشرة على سحابة نقاط الجسم، مما يوجه اختيار وضع الإمساك الأمثل. تظهر التجارب أن هذه الطريقة تتفوق على الطرق الأخرى ذات الصلة في إعدادات "مرئية" و"غير مرئية"، وتُظهر قدرة تعميم على تعليمات المستخدم المتنوعة والجاذبية غير المعروفة.
Keywords
جاذبية رؤية; تقسيم سحابة نقاط; المعنى المفتوح; الدمج متعدد الوسائط; روبوتات الخدمة