Подробно описывает конвейер O3D-SIM для VLN. Он извлекает информацию о семантических экземплярах открытого типа (маски, функции CLIP/DINO) из RGB-D изображенийПодробно описывает конвейер O3D-SIM для VLN. Он извлекает информацию о семантических экземплярах открытого типа (маски, функции CLIP/DINO) из RGB-D изображений

Семантическое извлечение экземпляров: функции CLIP и DINO для 3D-картирования

2025/12/11 03:00
2м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Резюме и 1 Введение

  1. Связанные работы

    2.1. Навигация на основе зрения и языка

    2.2. Семантическое понимание сцены и сегментация экземпляров

    2.3. Реконструкция 3D-сцены

  2. Методология

    3.1. Сбор данных

    3.2. Семантическая информация открытого набора из изображений

    3.3. Создание 3D-представления открытого набора

    3.4. Навигация на основе языка

  3. Эксперименты

    4.1. Количественная оценка

    4.2. Качественные результаты

  4. Заключение и будущая работа, Заявление о раскрытии информации и Ссылки

3. Методология

В этом разделе мы обсуждаем конвейер нашего метода навигации на основе зрения и языка (VLN), который использует O3D-SIM. Мы начинаем с обзора предлагаемого конвейера, а затем представляем глубокий анализ его составных этапов. Начальная фаза нашей методологии включает сбор данных, состоящий из набора RGB-D изображений и внешних и внутренних параметров камеры, которые описаны в первую очередь. Впоследствии мы переходим к созданию Семантической карты экземпляров 3D открытого набора. Этот процесс разделен на два основных этапа: изначально мы извлекаем информацию о семантических экземплярах открытого набора из изображений; после этого мы используем собранную информацию открытого набора для организации 3D-облака точек в семантическую карту экземпляров 3D открытого набора. Заключительная часть нашего обсуждения фокусируется на модуле VLN, где мы говорим о его реализации и функциональности.

\ Конвейер создания O3D-SIM изображен на Рис.2. Первым шагом создания O3D-SIM, представленным в Разделе 3.2, является извлечение семантической информации экземпляров открытого набора из RGB-последовательности входных изображений. Эта информация включает для каждого экземпляра объекта информацию о маске и семантические характеристики, представленные встраиваемыми характеристиками CLIP [9] и DINO [10]. Второй шаг, представленный в Разделе 3.3, использует эту семантическую информацию экземпляров открытого набора для кластеризации входного 3D-облака точек в семантическую карту 3D-объектов открытого набора, см. Рисунки 2 и 3. Операция улучшается постепенно путем применения последовательности RGB-D изображений с течением времени.

\

:::info Авторы:

(1) Лакш Нанвани, Международный институт информационных технологий, Хайдарабад, Индия; этот автор внес равный вклад в эту работу;

(2) Кумарадитья Гупта, Международный институт информационных технологий, Хайдарабад, Индия;

(3) Адитья Матур, Международный институт информационных технологий, Хайдарабад, Индия; этот автор внес равный вклад в эту работу;

(4) Свайям Агравал, Международный институт информационных технологий, Хайдарабад, Индия;

(5) А.Х. Абдул Хафез, Университет Хасана Кальонджу, Шахинбей, Газиантеп, Турция;

(6) К. Мадхава Кришна, Международный институт информационных технологий, Хайдарабад, Индия.

:::


:::info Эта статья доступна на arxiv по лицензии CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Возможности рынка
Логотип OpenLedger
OpenLedger Курс (OPEN)
$0.17414
$0.17414$0.17414
-2.53%
USD
График цены OpenLedger (OPEN) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Киты снова накапливают мемкоин TRUMP перед обедом Трампа

Киты снова накапливают мемкоин TRUMP перед обедом Трампа

Ключевые моменты: Киты снова покупают мемкоин президента Дональда Трампа TRUMP, поскольку приближается Trump Gala. Согласно данным Lookonchain, один кит,
Поделиться
Themarketperiodical2026/04/13 06:46
Лучшая криптовалюта для инвестиций в апреле? Litecoin остается стабильным, Hyperliquid движется медленно, APEMARS Этап 16 создает редкую возможность для раннего входа

Лучшая криптовалюта для инвестиций в апреле? Litecoin остается стабильным, Hyperliquid движется медленно, APEMARS Этап 16 создает редкую возможность для раннего входа

Криптовалютный рынок демонстрирует возобновление активности, поскольку инвесторы ищут лучшую криптовалюту для инвестиций в апреле. Litecoin продолжает демонстрировать устойчивость на фоне сети
Поделиться
Captainaltcoin2026/04/13 06:15
Пропустили ранний Monero и Zcash? APEMARS становится лучшим альткоином для покупки сегодня с привлечением более 400 000$ на этапе 16

Пропустили ранний Monero и Zcash? APEMARS становится лучшим альткоином для покупки сегодня с привлечением более 400 000$ на этапе 16

Криптовалютные рынки движутся циклами, но эмоции инвесторов следуют гораздо более простой схеме. Волнение приходит рано, сомнения появляются во время роста, а сожаление возникает после
Поделиться
Timestabloid2026/04/13 06:15

Новости 24/7 в прямом эфире

Еще

Генезис USD1: 0% + 12% APR

Генезис USD1: 0% + 12% APRГенезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR