O3D-SIM створюється шляхом проєкції 2D-масок та вбудовувань у 3D, використовуючи DBSCAN для початкового уточнення.O3D-SIM створюється шляхом проєкції 2D-масок та вбудовувань у 3D, використовуючи DBSCAN для початкового уточнення.

Побудова відкритого 3D-представлення: злиття функцій та геометрично-семантичне об'єднання

2025/12/15 01:00

Анотація та 1 Вступ

  1. Пов'язані роботи

    2.1. Навігація на основі зору та мови

    2.2. Семантичне розуміння сцени та сегментація об'єктів

    2.3. 3D реконструкція сцени

  2. Методологія

    3.1. Збір даних

    3.2. Семантична інформація з відкритим набором із зображень

    3.3. Створення 3D-представлення з відкритим набором

    3.4. Навігація на основі мови

  3. Експерименти

    4.1. Кількісна оцінка

    4.2. Якісні результати

  4. Висновок та майбутня робота, Заява про розкриття інформації та Посилання

3.3. Створення 3D-представлення з відкритим набором

Для завершення побудови O3D-SIM ми тепер спираємося на вбудовані ознаки, вилучені для кожного об'єкта, проектуючи інформацію про об'єкт у 3D-простір, кластеризуючи та пов'язуючи об'єкти на кількох зображеннях для створення комплексного 3D-представлення сцени. Процес проектування семантичної інформації в 3D-простір та уточнення карти зображено на рисунку 3.

\ 3.3.1. Ініціалізація O3D-SIM

\ 3D-карта спочатку створюється за допомогою вибраного зображення, яке виступає як опорний кадр для ініціалізації нашого представлення сцени. Цей крок встановлює фундаментальну структуру нашої 3D-сцени, яка потім поступово доповнюється даними з наступних зображень для збагачення складності та деталізації сцени.

\ Дані для об'єктів у 3D-сцені організовані як вузли в словнику, який спочатку є порожнім. Потім об'єкти ідентифікуються з початкового зображення разом із відповідними даними, що охоплюють вбудовані ознаки та інформацію про їхні маски. Для кожного об'єкта, розпізнаного на зображенні, створюється 3D-хмара точок з використанням доступної інформації про глибину та маски об'єкта. Це формування хмари точок включає відображення 2D-пікселів у 3D-простір, що полегшується внутрішніми параметрами камери та значеннями глибини. Згодом положення камери використовується для точного вирівнювання хмари точок у глобальній системі координат. Для уточнення нашого представлення сцени фільтрація фону видаляє елементи, ідентифіковані як фон, такі як стіни чи підлоги. Ці елементи виключаються з подальшої обробки, особливо на етапі кластеризації, оскільки вони не є основним фокусом нашого представлення сцени.

\ Набір хмар точок об'єктів далі обробляється за допомогою кластеризації DBSCAN[34] для уточнення представлення. Хмара точок зменшується за допомогою фільтрації воксельної сітки для зменшення кількості точок та обчислювальної складності, зберігаючи при цьому керовану просторову структуру даних. DBSCAN групує точки, які щільно упаковані разом, позначаючи точки, що лежать окремо в регіонах з низькою щільністю, як шум. На етапі посткластеризації ідентифікується найбільший кластер, який зазвичай відповідає основному об'єкту інтересу в хмарі точок. Це допомагає відфільтрувати шум та нерелевантні точки, створюючи чистіше представлення об'єкта інтересу.

\ Положення об'єкта в 3D-просторі визначається шляхом обчислення орієнтації обмежувальної рамки, яка пропонує стисле просторове представлення розташування та розміру об'єкта в 3D-просторі. Згодом вихід 3D-карти ініціалізується з початковим набором вузлів, що інкапсулюють вбудовані ознаки, дані хмари точок, обмежувальні рамки та кількість точок у хмарі точок, пов'язаних з кожним вузлом. Кожен вузол також включає інформацію про джерело для полегшення відстеження походження даних та зв'язку між вузлами та їхніми 2D-зображеннями.

\ 3.3.2. Поступове оновлення O3D-SIM

\ Після ініціалізації сцени ми оновлюємо представлення даними з нових зображень. Цей процес забезпечує актуальність та точність нашої 3D-сцени при надходженні додаткової інформації. Він ітерується по кожному зображенню в послідовності зображень; для кожного нового зображення витягуються дані про кілька об'єктів, і сцена оновлюється.

\ Об'єкти виявляються для кожного нового зображення, і нові вузли створюються як початкове зображення. Ці тимчасові вузли містять 3D-дані для нещодавно виявлених об'єктів, які повинні бути або об'єднані з існуючою сценою, або додані як нові вузли. Схожість між нещодавно виявленими та існуючими вузлами сцени визначається шляхом поєднання візуальної схожості, отриманої з вбудованих ознак, та просторової (геометричної) схожості, отриманої з перекриття хмари точок, для формулювання сукупної міри схожості. Якщо ця міра перевищує заздалегідь визначений поріг, нове виявлення вважається відповідним існуючому об'єкту в сцені. Дійсно, нещодавно виявлений вузол або об'єднується з існуючим вузлом сцени, або додається як новий вузол.

\ Об'єднання включає інтеграцію хмар точок та усереднення вбудованих ознак. Обчислюється зважене середнє вбудованих елементів CLIP та DINO, враховуючи внесок з інформації про ключ джерела, з перевагою для вузлів з більшою кількістю ідентифікаторів джерела. Якщо потрібно додати новий вузол, він включається до словника сцени.

\ Уточнення сцени відбувається після додавання об'єктів з усіх зображень у вхідній послідовності. Цей процес консолідує вузли, які представляють одні й ті ж фізичні об'єкти, але спочатку були ідентифіковані як окремі через оклюзії, зміни точки зору або подібні фактори. Він використовує матрицю перекриття для ідентифікації вузлів, які мають спільну просторову зайнятість, і логічно об'єднує їх в один вузол. Сцена завершується шляхом відкидання вузлів, які не відповідають мінімальній кількості точок або критеріям виявлення. Це призводить до уточненого та оптимізованого кінцевого представлення сцени - Семантичні карти екземплярів 3D з відкритим набором, також відомі як O3D-SIM.

\

:::info Автори:

(1) Лакш Нанвані, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;

(2) Кумарадітья Гупта, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;

(3) Адітья Матур, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія; цей автор зробив рівний внесок у цю роботу;

(4) Свайям Аграваль, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія;

(5) А.Х. Абдул Хафез, Університет Хасана Кальйонджу, Шахінбей, Газіантеп, Туреччина;

(6) К. Мадхава Крішна, Міжнародний інститут інформаційних технологій, Хайдарабад, Індія.

:::


:::info Ця стаття доступна на arxiv за ліцензією CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Ринкові можливості
Логотип OpenLedger
Курс OpenLedger (OPEN)
$0.1776
$0.1776$0.1776
-3.72%
USD
Графік ціни OpenLedger (OPEN) в реальному часі
Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.