出版云平台

Сегментация 3D аффорданса объекта по облаку точек, управляемая языковыми командами

DOI：10.1631/ENG.ITEE.2026.0044

Abstract

Место захвата объекта тесно связано с типом задачи. Для одного и того же предмета разные требования пользователей могут соответствовать разным способам захвата. Зрительная аффорданс обеспечивает надежные априорные знания для действий. Существующие методы обычно изучают аффорданс из изображений или видео, но плоская аффорданс лишена пространственной информации, необходимой для реализации операций в шести степенях свободы. Кроме того, текущие методы ограничены аффордансами, связанными с предопределенными категориями, и не могут напрямую выводить аффорданс из пользовательских команд. Для решения этих проблем предложена новая задача: сегментация аффорданса трехмерных объектов, управляемая языковыми командами. Для поддержки исследования был создан набор данных с инструкциями и аффордансами. Этот сложный набор содержит 7190 экземпляров объектов из 20 распространенных категорий и сопровождается 624 операционными командами, четко определяющими соответствующий аффорданс. Для оценки способности модели к обобщению на новые команды набор данных включает настройки "встречающиеся" и "невстречающиеся". На этой основе разработана командно-управляемая сеть сегментации трехмерного аффорданса, которая извлекает признаки из облака точек и постепенно интегрирует признаки команд. Опираясь на заданные пользовательские команды, модель может непосредственно сегментировать рекомендуемые операционные области на облаке точек объекта, направляя выбор оптимальной позы захвата. Экспериментальные результаты показывают, что метод превосходит другие связанные методы в настройках "встречающихся" и "невстречающихся", демонстрируя способность к обобщению для разнообразных пользовательских команд и неизвестных аффордансов.

Keywords

зрительная аффорданс; сегментация облака точек; открытая семантика; мультимодальное объединение; сервисные роботы

Сегментация 3D аффорданса объекта по облаку точек, управляемая языковыми командами

Jiaxuan DU ,

Hao WU ,

Qing MA ,

Guohui TIAN ,

Zhixian ZHAO ,

Shuwen LENG ,

DOI：10.1631/ENG.ITEE.2026.0044

Abstract

Keywords