O3D-SIM को 2D मास्क और एम्बेडिंग को 3D में प्रोजेक्ट करके बनाया गया है, प्रारंभिक परिष्करण के लिए DBSCAN का उपयोग करते हुए।O3D-SIM को 2D मास्क और एम्बेडिंग को 3D में प्रोजेक्ट करके बनाया गया है, प्रारंभिक परिष्करण के लिए DBSCAN का उपयोग करते हुए।

ओपन-सेट 3डी प्रतिनिधित्व का निर्माण: फीचर फ्यूजन और ज्यामितीय-अर्थपूर्ण विलय

2025/12/15 01:00

सार और 1 परिचय

  1. संबंधित कार्य

    2.1. दृष्टि-और-भाषा नेविगेशन

    2.2. सिमेंटिक दृश्य समझ और इंस्टेंस सेगमेंटेशन

    2.3. 3D दृश्य पुनर्निर्माण

  2. कार्यप्रणाली

    3.1. डेटा संग्रह

    3.2. छवियों से ओपन-सेट सिमेंटिक जानकारी

    3.3. ओपन-सेट 3D प्रतिनिधित्व बनाना

    3.4. भाषा-निर्देशित नेविगेशन

  3. प्रयोग

    4.1. मात्रात्मक मूल्यांकन

    4.2. गुणात्मक परिणाम

  4. निष्कर्ष और भविष्य का कार्य, प्रकटीकरण विवरण, और संदर्भ

3.3. ओपन-सेट 3D प्रतिनिधित्व बनाना

O3D-SIM का निर्माण पूरा करने के लिए, हम अब प्रत्येक वस्तु के लिए निकाले गए फीचर एम्बेडिंग पर आधारित होकर वस्तु की जानकारी को 3D स्पेस में प्रोजेक्ट करके, क्लस्टरिंग करके, और कई छवियों में वस्तुओं को जोड़कर एक व्यापक 3D दृश्य प्रतिनिधित्व बनाते हैं। सिमेंटिक जानकारी को 3D स्पेस में प्रोजेक्ट करने और मानचित्र को परिष्कृत करने की प्रक्रिया चित्र 3 में दर्शाई गई है।

\ 3.3.1. O3D-SIM प्रारंभीकरण

\ 3D मानचित्र प्रारंभ में एक चयनित छवि का उपयोग करके बनाया जाता है, जो हमारे दृश्य प्रतिनिधित्व को प्रारंभ करने के लिए संदर्भ फ्रेम के रूप में कार्य करता है। यह चरण हमारे 3D दृश्य की आधारभूत संरचना स्थापित करता है, जिसे फिर बाद की छवियों से डेटा के साथ क्रमिक रूप से बढ़ाया जाता है ताकि दृश्य की जटिलता और विवरण को समृद्ध किया जा सके।

\ 3D दृश्य के भीतर वस्तुओं के लिए डेटा को एक शब्दकोश के भीतर नोड्स के रूप में व्यवस्थित किया जाता है, जो प्रारंभ में खाली होता है। फिर वस्तुओं को प्रारंभिक छवि से उनके संबंधित डेटा के साथ पहचाना जाता है जिसमें एम्बेडिंग फीचर्स और उनके मास्क पर जानकारी शामिल होती है। छवि में पहचानी गई प्रत्येक वस्तु के लिए, उपलब्ध गहराई की जानकारी और वस्तु के मास्क का उपयोग करके एक 3D पॉइंट क्लाउड बनाया जाता है। इस पॉइंट क्लाउड निर्माण में 2D पिक्सेल को 3D स्पेस में मैपिंग शामिल है, जिसे कैमरा के आंतरिक पैरामीटर और गहराई मूल्यों द्वारा सुविधाजनक बनाया जाता है। इसके बाद, कैमरा की स्थिति का उपयोग वैश्विक निर्देशांक प्रणाली के भीतर पॉइंट क्लाउड को सटीक रूप से संरेखित करने के लिए किया जाता है। हमारे दृश्य प्रतिनिधित्व को परिष्कृत करने के लिए, पृष्ठभूमि फ़िल्टरिंग पृष्ठभूमि के रूप में पहचाने गए तत्वों को हटाती है, जैसे दीवारें या फर्श। इन तत्वों को आगे की प्रक्रिया से बाहर रखा जाता है, विशेष रूप से क्लस्टरिंग चरण में, क्योंकि वे हमारे दृश्य प्रतिनिधित्व का मुख्य फोकस नहीं बनाते हैं।

\ वस्तु के पॉइंट क्लाउड्स के सेट को प्रतिनिधित्व परिष्करण के लिए DBSCAN[34] क्लस्टरिंग का उपयोग करके आगे प्रोसेस किया जाता है। पॉइंट क्लाउड को वॉक्सेल ग्रिड फिल्टरिंग के माध्यम से डाउनसैंपल किया जाता है ताकि बिंदुओं की संख्या और कम्प्यूटेशनल जटिलता को कम किया जा सके, जबकि डेटा की स्थानिक संरचना को प्रबंधनीय बनाए रखा जाता है। DBSCAN उन बिंदुओं को समूहित करता है जो एक साथ घनी रूप से पैक किए गए हैं, जबकि कम घनत्व वाले क्षेत्रों में अकेले स्थित बिंदुओं को शोर के रूप में लेबल करता है। पोस्टक्लस्टरिंग चरण में, सबसे बड़ा क्लस्टर आमतौर पर पॉइंट क्लाउड के भीतर रुचि की मुख्य वस्तु से मेल खाता है जिसे पहचाना जाता है। यह शोर और अप्रासंगिक बिंदुओं को फ़िल्टर करने में मदद करता है, जिससे रुचि की वस्तु का एक स्वच्छ प्रतिनिधित्व उत्पन्न होता है।

\ 3D स्पेस में एक वस्तु की स्थिति एक बाउंडिंग बॉक्स के अभिविन्यास की गणना करके निर्धारित की जाती है, जो 3D स्पेस में वस्तु के स्थान और आकार का एक संक्षिप्त स्थानिक प्रतिनिधित्व प्रदान करता है। इसके बाद, 3D मानचित्र आउटपुट को नोड्स के प्रारंभिक सेट के साथ प्रारंभ किया जाता है, जिसमें फीचर एम्बेडिंग्स, पॉइंट क्लाउड डेटा, बाउंडिंग बॉक्स, और प्रत्येक नोड से जुड़े पॉइंट क्लाउड में बिंदुओं की गिनती शामिल होती है। प्रत्येक नोड में स्रोत जानकारी भी शामिल होती है ताकि डेटा के मूल का पता लगाने और नोड्स और उनके 2D छवि समकक्षों के बीच संबंध को सुविधाजनक बनाया जा सके।

\ 3.3.2. O3D-SIM का वृद्धिशील अपडेट

\ दृश्य को प्रारंभ करने के बाद, हम नई छवियों से डेटा के साथ प्रतिनिधित्व को अपडेट करते हैं। यह प्रक्रिया सुनिश्चित करती है कि हमारा 3D दृश्य अतिरिक्त जानकारी उपलब्ध होने पर वर्तमान और सटीक रहता है। यह छवि अनुक्रम में प्रत्येक छवि पर पुनरावृत्ति करता है; प्रत्येक नई छवि के लिए, बहु-वस्तु डेटा निकाला जाता है, और दृश्य को अपडेट किया जाता है।

\ प्रत्येक नई छवि के लिए वस्तुओं का पता लगाया जाता है, और प्रारंभिक छवि की तरह नए नोड्स बनाए जाते हैं। ये अस्थायी नोड्स नए पहचाने गए वस्तुओं के लिए 3D डेटा रखते हैं जिन्हें या तो मौजूदा दृश्य में विलय किया जाना चाहिए या नए नोड्स के रूप में जोड़ा जाना चाहिए। नए पहचाने गए और मौजूदा दृश्य नोड्स के बीच समानता फीचर एम्बेडिंग्स से प्राप्त दृश्य समानता और पॉइंट क्लाउड ओवरलैप से प्राप्त स्थानिक (ज्यामितीय) समानता को जोड़कर निर्धारित की जाती है, ताकि एक समग्र समानता उपाय तैयार किया जा सके। यदि यह उपाय एक पूर्वनिर्धारित सीमा से अधिक हो जाता है, तो नई पहचान को दृश्य में मौजूद एक वस्तु से मेल खाने वाला माना जाता है। वास्तव में, नए पहचाने गए नोड को या तो मौजूदा दृश्य नोड के साथ विलय किया जाता है या एक नए नोड के रूप में जोड़ा जाता है।

\ विलय में पॉइंट क्लाउड्स का एकीकरण और फीचर एम्बेडिंग्स का औसत शामिल है। CLIP और DINO एम्बेडिंग्स का एक भारित औसत गणना की जाती है, स्रोत कुंजी जानकारी से योगदान पर विचार करते हुए, अधिक स्रोत पहचानकर्ताओं वाले नोड्स के लिए प्राथमिकता के साथ। यदि एक नए नोड को जोड़ने की आवश्यकता है, तो इसे दृश्य शब्दकोश में शामिल किया जाता है।

\ दृश्य परिष्करण तब होता है जब इनपुट अनुक्रम की सभी छवियों से वस्तुओं को जोड़ दिया गया हो। यह प्रक्रिया उन नोड्स को समेकित करती है जो एक ही भौतिक वस्तुओं का प्रतिनिधित्व करते हैं लेकिन प्रारंभ में अलग-अलग पहचाने गए थे, जो ओक्लूज़न, दृष्टिकोण परिवर्तन, या इसी तरह के कारकों के कारण था। यह उन नोड्स की पहचान करने के लिए एक ओवरलैप मैट्रिक्स का उपयोग करता है जो स्थानिक अधिभोग साझा करते हैं और तार्किक रूप से उन्हें एक ही नोड में विलय करते हैं। दृश्य को अंतिम रूप दिया जाता है उन नोड्स को त्यागकर जो न्यूनतम बिंदुओं की संख्या या पहचान मानदंडों को पूरा करने में विफल रहते हैं। इसका परिणाम एक परिष्कृत और अनुकूलित अंतिम दृश्य प्रतिनिधित्व है - ओपनसेट 3D सिमेंटिक इंस्टेंस मैप्स, जिसे O3D-SIM भी कहा जाता है।

\

:::info लेखक:

(1) लक्ष नानवानी, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत; इस लेखक ने इस कार्य में समान रूप से योगदान दिया;

(2) कुमारादित्य गुप्ता, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत;

(3) आदित्य माथुर, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत; इस लेखक ने इस कार्य में समान रूप से योगदान दिया;

(4) स्वयं अग्रवाल, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत;

(5) ए.एच. अब्दुल हाफेज़, हसन कल्योनकु विश्वविद्यालय, साहिनबे, गज़ियांटेप, तुर्की;

(6) के. माधव कृष्णा, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत।

:::


:::info यह पेपर CC by-SA 4.0 डीड (एट्रिब्यूशन-शेयरअलाइक 4.0 इंटरनेशनल) लाइसेंस के तहत arxiv पर उपलब्ध है

:::

\

अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए service@support.mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है