La position de préhension d'un objet est étroitement liée au type de tâche. Pour un même objet, les besoins des différents utilisateurs peuvent correspondre à différentes façons de le saisir. L'affordance visuelle fournit une connaissance a priori fiable pour les actions opératoires. Les méthodes existantes apprennent généralement l'affordance à partir d'images ou de vidéos, mais l'affordance basée sur des surfaces planes manque des informations spatiales nécessaires pour réaliser des opérations à six degrés de liberté. De plus, les méthodes actuelles sont limitées aux affordances liées à des catégories prédéfinies et ne peuvent pas déduire directement l'affordance à partir des instructions utilisateur. Pour résoudre ces problèmes, une nouvelle tâche est proposée : la segmentation de l'affordance 3D des objets pilotée par des instructions en langage naturel. Pour soutenir cette recherche, un ensemble de données d'instructions-affordance a été construit. Cet ensemble de données, complexe, comprend 7190 instances d'objets dans 20 catégories communes, accompagnées de 624 instructions d'opérations qui spécifient clairement les affordances correspondantes. Pour évaluer la capacité de généralisation du modèle aux nouvelles instructions, l'ensemble de données comprend des configurations "vue" et "non vue". Sur cette base, un réseau de segmentation d'affordance 3D piloté par instructions a été conçu, extrayant des caractéristiques à partir de nuages de points et fusionnant les caractéristiques des instructions couche par couche. En fonction des instructions utilisateur données, le modèle peut segmenter directement les zones d'opération suggérées sur le nuage de points de l'objet, guidant ainsi la sélection de la pose de préhension optimale. Les résultats expérimentaux montrent que cette méthode surpasse d'autres méthodes connexes dans les configurations "vue" et "non vue" et démontre une capacité de généralisation aux instructions utilisateur variées et aux affordances inconnues.
Keywords
affordance visuelle; segmentation de nuages de points; sémantique ouverte; fusion multimodale; robots de service