Sprachgesteuerte 3D-Affordanzsegmentierung von Objekt-Punktwolken

Jiaxuan DU ,  

Hao WU ,  

Qing MA ,  

Guohui TIAN ,  

Zhixian ZHAO ,  

Shuwen LENG ,  

Abstract

Die Greifposition eines Objekts hängt eng mit der Art der Aufgabe zusammen. Für dasselbe Objekt können unterschiedliche Benutzeranforderungen unterschiedliche Greifarten erfordern. Visuelle Affordanzen liefern zuverlässiges Vorwissen für operative Handlungen. Bestehende Methoden lernen Affordanzen meist aus Bildern oder Videos, doch flächenbasierte Affordanzen fehlen die räumlichen Informationen, die für Operationen mit sechs Freiheitsgraden erforderlich sind. Außerdem sind aktuelle Methoden auf vorab definierte kategoriebezogene Affordanzen beschränkt und können Affordanzen nicht direkt aus Benutzeranweisungen ableiten. Um diese Probleme zu lösen, wird eine neue Aufgabe vorgeschlagen: sprachgesteuerte 3D-Objekt-Affordanzsegmentierung. Zur Unterstützung dieser Forschung wurde ein Anweisungs-Affordanz-Datensatz erstellt. Dieser herausfordernde Datensatz enthält 7190 Objektinstanzen aus 20 gängigen Objektkategorien und ist mit 624 operativen Anweisungen versehen, die die entsprechenden Affordanzen eindeutig spezifizieren. Zur Bewertung der Generalisierungsfähigkeit des Modells auf neue Anweisungen umfasst der Datensatz „gesehene“ und „ungesehene“ Einstellungen. Darauf aufbauend wurde ein sprachgesteuertes 3D-Affordanzsegmentierungsnetzwerk entworfen, das Merkmale aus Punktwolken extrahiert und Anweisungsmerkmale schichtweise integriert. Basierend auf den gegebenen Benutzeranweisungen kann das Modell direkt die vorgeschlagenen Operationsbereiche auf der Objekt-Punktwolke segmentieren und somit die Auswahl der optimalen Greifpose anleiten. Experimentelle Ergebnisse zeigen, dass diese Methode in den „gesehenen“ und „ungesehenen“ Einstellungen anderen verwandten Methoden überlegen ist und eine Generalisierungsfähigkeit für vielfältige Benutzeranweisungen und unbekannte Affordanzen demonstriert.

Keywords

visuelle Affordanz; Punktwolken-Segmentierung; offene Semantik; multimodale Fusion; Serviceroboter

READ MORE