Segmentación de affordancia 3D de objetos basada en nube de puntos impulsada por instrucciones lingüísticas

Jiaxuan DU ,  

Hao WU ,  

Qing MA ,  

Guohui TIAN ,  

Zhixian ZHAO ,  

Shuwen LENG ,  

Abstract

La posición de agarre de un objeto está estrechamente relacionada con el tipo de tarea. Para un mismo objeto, diferentes necesidades de los usuarios pueden corresponder a diferentes formas de agarre. La affordancia visual proporciona un conocimiento a priori fiable para las acciones operativas. Los métodos existentes suelen aprender la affordancia a partir de imágenes o vídeos, pero la affordancia basada en superficies planas carece de la información espacial necesaria para realizar operaciones de seis grados de libertad. Además, los métodos actuales están limitados a affordancias relacionadas con categorías predefinidas y no pueden inferir la affordancia directamente a partir de las instrucciones del usuario. Para resolver estos problemas, se propone una nueva tarea: segmentación de affordancia tridimensional de objetos impulsada por instrucciones lingüísticas. Para apoyar esta investigación, se construyó un conjunto de datos de instrucciones y affordancias. Este conjunto desafiante contiene 7190 instancias de objetos en 20 categorías comunes con 624 instrucciones operativas que especifican claramente las affordancias correspondientes. Para evaluar la capacidad del modelo para generalizar a nuevas instrucciones, el conjunto de datos incluye configuraciones "vista" y "no vista". Sobre esta base, se diseñó una red de segmentación de affordancia 3D impulsada por instrucciones que extrae características de la nube de puntos y fusiona características de instrucciones capa por capa. Según las instrucciones del usuario dada, el modelo puede segmentar directamente las áreas de operación sugeridas en la nube de puntos del objeto, guiando así la selección de la postura óptima de agarre. Los resultados experimentales muestran que este método supera a otros métodos relacionados en las configuraciones "vista" y "no vista" y demuestra capacidad de generalización a instrucciones diversas y affordancias desconocidas.

Keywords

affordancia visual; segmentación de nube de puntos; semántica abierta; fusión multimodal; robots de servicio

READ MORE