O3D-SIM è costruito proiettando maschere 2D ed embedding in 3D, utilizzando DBSCAN per il raffinamento iniziale.O3D-SIM è costruito proiettando maschere 2D ed embedding in 3D, utilizzando DBSCAN per il raffinamento iniziale.

Costruire una Rappresentazione 3D Open-Set: Fusione di Caratteristiche e Unione Geometrico-Semantica

2025/12/15 01:00

Abstract e 1 Introduzione

  1. Lavori Correlati

    2.1. Navigazione Visione-e-Linguaggio

    2.2. Comprensione Semantica della Scena e Segmentazione delle Istanze

    2.3. Ricostruzione della Scena 3D

  2. Metodologia

    3.1. Raccolta Dati

    3.2. Informazioni Semantiche Open-set dalle Immagini

    3.3. Creazione della Rappresentazione 3D Open-set

    3.4. Navigazione Guidata dal Linguaggio

  3. Esperimenti

    4.1. Valutazione Quantitativa

    4.2. Risultati Qualitativi

  4. Conclusione e Lavori Futuri, Dichiarazione di divulgazione e Riferimenti

3.3. Creazione della Rappresentazione 3D Open-set

Per completare la costruzione dell'O3D-SIM, ora ci basiamo sugli embedding di caratteristiche estratti per ciascun oggetto proiettando le informazioni dell'oggetto nello spazio 3D, raggruppando e associando oggetti attraverso più immagini per creare una rappresentazione completa della scena 3D. Il processo di proiezione delle informazioni semantiche nello spazio 3D e di perfezionamento della mappa è illustrato nella Figura 3.

\ 3.3.1. L'Inizializzazione dell'O3D-SIM

\ La mappa 3D viene inizialmente creata utilizzando un'immagine selezionata, che funge da quadro di riferimento per l'inizializzazione della nostra rappresentazione della scena. Questo passaggio stabilisce la struttura fondamentale della nostra scena 3D, che viene poi progressivamente arricchita con dati da immagini successive per aumentare la complessità e il dettaglio della scena.

\ I dati per gli oggetti all'interno di una scena 3D sono organizzati come nodi all'interno di un dizionario, che inizialmente è vuoto. Gli oggetti vengono quindi identificati dall'immagine iniziale insieme ai dati correlati che comprendono caratteristiche di embedding e informazioni sulle loro maschere. Per ogni oggetto individuato nell'immagine, viene creata una nuvola di punti 3D utilizzando le informazioni di profondità disponibili e la maschera dell'oggetto. Questa formazione di nuvole di punti comporta la mappatura dei pixel 2D nello spazio 3D, facilitata dai parametri intrinseci della fotocamera e dai valori di profondità. Successivamente, la posa della fotocamera viene utilizzata per allineare con precisione la nuvola di punti all'interno del sistema di coordinate globale. Per perfezionare la nostra rappresentazione della scena, il filtraggio dello sfondo rimuove elementi identificati come sfondo, come pareti o pavimenti. Questi elementi sono esclusi dall'ulteriore elaborazione, in particolare nella fase di clustering, poiché non costituiscono il focus principale della nostra rappresentazione della scena.

\ L'insieme delle nuvole di punti degli oggetti viene ulteriormente elaborato utilizzando il clustering DBSCAN[34] per il perfezionamento della rappresentazione. La nuvola di punti viene sottocampionata tramite il filtraggio della griglia voxel per ridurre il numero di punti e la complessità computazionale mantenendo gestibile la struttura spaziale dei dati. DBSCAN raggruppa i punti che sono strettamente impacchettati insieme etichettando i punti che si trovano da soli in regioni a bassa densità come rumore. In una fase post-clustering, il cluster più grande, che in genere corrisponde all'oggetto principale di interesse all'interno della nuvola di punti, viene identificato. Questo aiuta a filtrare il rumore e i punti irrilevanti, producendo una rappresentazione più pulita dell'oggetto di interesse.

\ La posa di un oggetto nello spazio 3D è determinata calcolando l'orientamento di un bounding box, che offre una rappresentazione spaziale concisa della posizione e delle dimensioni dell'oggetto nello spazio 3D. Successivamente, l'output della mappa 3D viene inizializzato con un set iniziale di nodi, che incapsulano embedding di caratteristiche, dati della nuvola di punti, bounding box e il conteggio dei punti nella nuvola di punti associata a ciascun nodo. Ogni nodo include anche informazioni sulla fonte per facilitare la tracciabilità delle origini dei dati e il collegamento tra i nodi e le loro controparti di immagini 2D.

\ 3.3.2. Aggiornamento Incrementale dell'O3D-SIM

\ Dopo aver inizializzato la scena, aggiorniamo la rappresentazione con dati da nuove immagini. Questo processo garantisce che la nostra scena 3D rimanga attuale e precisa man mano che diventano disponibili ulteriori informazioni. Itera su ogni immagine nella sequenza di immagini; per ogni nuova immagine, vengono estratti dati multi-oggetto e la scena viene aggiornata.

\ Gli oggetti vengono rilevati per ogni nuova immagine e vengono creati nuovi nodi come nell'immagine iniziale. Questi nodi temporanei contengono i dati 3D per gli oggetti appena rilevati che devono essere uniti alla scena esistente o aggiunti come nuovi nodi. La somiglianza tra i nodi di scena appena rilevati e quelli esistenti è determinata combinando la somiglianza visiva, derivata dagli embedding di caratteristiche, e la somiglianza spaziale (geometrica), ottenuta dalla sovrapposizione della nuvola di punti, per formulare una misura di somiglianza aggregata. Se questa misura supera una soglia predeterminata, si ritiene che la nuova rilevazione corrisponda a un oggetto esistente nella scena. Infatti, il nodo appena rilevato viene unito a un nodo di scena esistente o aggiunto come nuovo nodo.

\ L'unione comporta l'integrazione delle nuvole di punti e la media degli embedding di caratteristiche. Viene calcolata una media ponderata degli embedding CLIP e DINO, considerando il contributo dalle informazioni chiave della fonte, con una preferenza per i nodi con più identificatori di fonte. Se è necessario aggiungere un nuovo nodo, viene incorporato nel dizionario della scena.

\ Il perfezionamento della scena avviene una volta che gli oggetti di tutte le immagini nella sequenza di input sono stati aggiunti. Questo processo consolida i nodi che rappresentano gli stessi oggetti fisici ma che inizialmente sono stati identificati come separati a causa di occlusioni, cambiamenti di punto di vista o fattori simili. Impiega una matrice di sovrapposizione per identificare i nodi che condividono l'occupazione spaziale e li unisce logicamente in un unico nodo. La scena viene finalizzata scartando i nodi che non soddisfano il numero minimo di punti o i criteri di rilevamento. Ciò si traduce in una rappresentazione finale della scena raffinata e ottimizzata - Mappe di Istanze Semantiche 3D OpenSet, alias O3D-SIM.

\

:::info Autori:

(1) Laksh Nanwani, International Institute of Information Technology, Hyderabad, India; questo autore ha contribuito in egual misura a questo lavoro;

(2) Kumaraditya Gupta, International Institute of Information Technology, Hyderabad, India;

(3) Aditya Mathur, International Institute of Information Technology, Hyderabad, India; questo autore ha contribuito in egual misura a questo lavoro;

(4) Swayam Agrawal, International Institute of Information Technology, Hyderabad, India;

(5) A.H. Abdul Hafez, Hasan Kalyoncu University, Sahinbey, Gaziantep, Turkey;

(6) K. Madhava Krishna, International Institute of Information Technology, Hyderabad, India.

:::


:::info Questo articolo è disponibile su arxiv sotto licenza CC by-SA 4.0 Deed (Attribution-Sharealike 4.0 International).

:::

\

Disclaimer: gli articoli ripubblicati su questo sito provengono da piattaforme pubbliche e sono forniti esclusivamente a scopo informativo. Non riflettono necessariamente le opinioni di MEXC. Tutti i diritti rimangono agli autori originali. Se ritieni che un contenuto violi i diritti di terze parti, contatta service@support.mexc.com per la rimozione. MEXC non fornisce alcuna garanzia in merito all'accuratezza, completezza o tempestività del contenuto e non è responsabile per eventuali azioni intraprese sulla base delle informazioni fornite. Il contenuto non costituisce consulenza finanziaria, legale o professionale di altro tipo, né deve essere considerato una raccomandazione o un'approvazione da parte di MEXC.