详细介绍了用于VLN的O3D-SIM管道。它从RGB-D图像中提取开放集语义实例信息(掩码,CLIP/DINO特征)详细介绍了用于VLN的O3D-SIM管道。它从RGB-D图像中提取开放集语义实例信息(掩码,CLIP/DINO特征)

语义实例提取:CLIP和DINO特征用于3D映射

2025/12/11 03:00

摘要和1 引言

  1. 相关工作

    2.1. 视觉与语言导航

    2.2. 语义场景理解和实例分割

    2.3. 3D场景重建

  2. 方法论

    3.1. 数据收集

    3.2. 从图像中获取开放集语义信息

    3.3. 创建开放集3D表示

    3.4. 语言引导导航

  3. 实验

    4.1. 定量评估

    4.2. 定性结果

  4. 结论和未来工作、披露声明及参考文献

3. 方法论

在本节中,我们讨论采用O3D-SIM的视觉语言导航(VLN)方法的流程。我们首先概述我们提出的流程,然后对其组成步骤进行深入分析。我们方法论的初始阶段涉及数据收集,包括一组RGB-D图像以及外部和内部相机参数,这些将首先被概述。随后,我们转向创建开放集3D语义实例地图。此过程分为两个主要阶段:首先,我们从图像中提取开放集语义实例信息;接着,我们利用收集到的开放集信息将3D点云组织成开放集3D语义实例地图。我们讨论的最后部分聚焦于VLN模块,我们讨论其实现和功能。

\ O3D-SIM创建的流程如图2所示。创建O3D-SIM的第一步,在3.2节中介绍,是从输入图像的RGB序列中提取开放集语义实例信息。这些信息包括,对于每个对象实例,掩码信息和由CLIP [9]和DINO [10]嵌入特征表示的语义特征。第二步,在3.3节中介绍,使用这些开放集语义实例信息将输入的3D点云聚类成开放集语义3D对象地图,参见图2和图3。通过随时间应用RGB-D图像序列,该操作得到增量改进。

\

:::info 作者:

(1) Laksh Nanwani,海德拉巴国际信息技术学院,印度;该作者对本工作贡献相同;

(2) Kumaraditya Gupta,海德拉巴国际信息技术学院,印度;

(3) Aditya Mathur,海德拉巴国际信息技术学院,印度;该作者对本工作贡献相同;

(4) Swayam Agrawal,海德拉巴国际信息技术学院,印度;

(5) A.H. Abdul Hafez,哈桑卡利永库大学,沙欣贝伊,加济安泰普,土耳其;

(6) K. Madhava Krishna,海德拉巴国际信息技术学院,印度。

:::


:::info 本论文可在arxiv上获取,遵循CC by-SA 4.0 Deed(署名-相同方式共享4.0国际)许可协议。

:::

\

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 service@support.mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。