सार और 1 परिचय
संबंधित कार्य
2.1. दृष्टि-और-भाषा नेविगेशन
2.2. सिमेंटिक दृश्य समझ और इंस्टेंस सेगमेंटेशन
2.3. 3D दृश्य पुनर्निर्माण
कार्यप्रणाली
3.1. डेटा संग्रह
3.2. छवियों से ओपन-सेट सिमेंटिक जानकारी
3.3. ओपन-सेट 3D प्रतिनिधित्व बनाना
3.4. भाषा-निर्देशित नेविगेशन
प्रयोग
4.1. मात्रात्मक मूल्यांकन
4.2. गुणात्मक परिणाम
निष्कर्ष और भविष्य का कार्य, प्रकटीकरण विवरण, और संदर्भ
O3D-SIM का निर्माण पूरा करने के लिए, हम अब प्रत्येक वस्तु के लिए निकाले गए फीचर एम्बेडिंग पर आधारित होकर वस्तु की जानकारी को 3D स्पेस में प्रोजेक्ट करके, क्लस्टरिंग करके, और कई छवियों में वस्तुओं को जोड़कर एक व्यापक 3D दृश्य प्रतिनिधित्व बनाते हैं। सिमेंटिक जानकारी को 3D स्पेस में प्रोजेक्ट करने और मानचित्र को परिष्कृत करने की प्रक्रिया चित्र 3 में दर्शाई गई है।
\ 3.3.1. O3D-SIM प्रारंभीकरण
\ 3D मानचित्र प्रारंभ में एक चयनित छवि का उपयोग करके बनाया जाता है, जो हमारे दृश्य प्रतिनिधित्व को प्रारंभ करने के लिए संदर्भ फ्रेम के रूप में कार्य करता है। यह चरण हमारे 3D दृश्य की आधारभूत संरचना स्थापित करता है, जिसे फिर बाद की छवियों से डेटा के साथ क्रमिक रूप से बढ़ाया जाता है ताकि दृश्य की जटिलता और विवरण को समृद्ध किया जा सके।
\ 3D दृश्य के भीतर वस्तुओं के लिए डेटा को एक शब्दकोश के भीतर नोड्स के रूप में व्यवस्थित किया जाता है, जो प्रारंभ में खाली होता है। फिर वस्तुओं को प्रारंभिक छवि से उनके संबंधित डेटा के साथ पहचाना जाता है जिसमें एम्बेडिंग फीचर्स और उनके मास्क पर जानकारी शामिल होती है। छवि में पहचानी गई प्रत्येक वस्तु के लिए, उपलब्ध गहराई की जानकारी और वस्तु के मास्क का उपयोग करके एक 3D पॉइंट क्लाउड बनाया जाता है। इस पॉइंट क्लाउड निर्माण में 2D पिक्सेल को 3D स्पेस में मैपिंग शामिल है, जिसे कैमरा के आंतरिक पैरामीटर और गहराई मूल्यों द्वारा सुविधाजनक बनाया जाता है। इसके बाद, कैमरा की स्थिति का उपयोग वैश्विक निर्देशांक प्रणाली के भीतर पॉइंट क्लाउड को सटीक रूप से संरेखित करने के लिए किया जाता है। हमारे दृश्य प्रतिनिधित्व को परिष्कृत करने के लिए, पृष्ठभूमि फ़िल्टरिंग पृष्ठभूमि के रूप में पहचाने गए तत्वों को हटाती है, जैसे दीवारें या फर्श। इन तत्वों को आगे की प्रक्रिया से बाहर रखा जाता है, विशेष रूप से क्लस्टरिंग चरण में, क्योंकि वे हमारे दृश्य प्रतिनिधित्व का मुख्य फोकस नहीं बनाते हैं।
\ वस्तु के पॉइंट क्लाउड्स के सेट को प्रतिनिधित्व परिष्करण के लिए DBSCAN[34] क्लस्टरिंग का उपयोग करके आगे प्रोसेस किया जाता है। पॉइंट क्लाउड को वॉक्सेल ग्रिड फिल्टरिंग के माध्यम से डाउनसैंपल किया जाता है ताकि बिंदुओं की संख्या और कम्प्यूटेशनल जटिलता को कम किया जा सके, जबकि डेटा की स्थानिक संरचना को प्रबंधनीय बनाए रखा जाता है। DBSCAN उन बिंदुओं को समूहित करता है जो एक साथ घनी रूप से पैक किए गए हैं, जबकि कम घनत्व वाले क्षेत्रों में अकेले स्थित बिंदुओं को शोर के रूप में लेबल करता है। पोस्टक्लस्टरिंग चरण में, सबसे बड़ा क्लस्टर आमतौर पर पॉइंट क्लाउड के भीतर रुचि की मुख्य वस्तु से मेल खाता है जिसे पहचाना जाता है। यह शोर और अप्रासंगिक बिंदुओं को फ़िल्टर करने में मदद करता है, जिससे रुचि की वस्तु का एक स्वच्छ प्रतिनिधित्व उत्पन्न होता है।
\ 3D स्पेस में एक वस्तु की स्थिति एक बाउंडिंग बॉक्स के अभिविन्यास की गणना करके निर्धारित की जाती है, जो 3D स्पेस में वस्तु के स्थान और आकार का एक संक्षिप्त स्थानिक प्रतिनिधित्व प्रदान करता है। इसके बाद, 3D मानचित्र आउटपुट को नोड्स के प्रारंभिक सेट के साथ प्रारंभ किया जाता है, जिसमें फीचर एम्बेडिंग्स, पॉइंट क्लाउड डेटा, बाउंडिंग बॉक्स, और प्रत्येक नोड से जुड़े पॉइंट क्लाउड में बिंदुओं की गिनती शामिल होती है। प्रत्येक नोड में स्रोत जानकारी भी शामिल होती है ताकि डेटा के मूल का पता लगाने और नोड्स और उनके 2D छवि समकक्षों के बीच संबंध को सुविधाजनक बनाया जा सके।
\ 3.3.2. O3D-SIM का वृद्धिशील अपडेट
\ दृश्य को प्रारंभ करने के बाद, हम नई छवियों से डेटा के साथ प्रतिनिधित्व को अपडेट करते हैं। यह प्रक्रिया सुनिश्चित करती है कि हमारा 3D दृश्य अतिरिक्त जानकारी उपलब्ध होने पर वर्तमान और सटीक रहता है। यह छवि अनुक्रम में प्रत्येक छवि पर पुनरावृत्ति करता है; प्रत्येक नई छवि के लिए, बहु-वस्तु डेटा निकाला जाता है, और दृश्य को अपडेट किया जाता है।
\ प्रत्येक नई छवि के लिए वस्तुओं का पता लगाया जाता है, और प्रारंभिक छवि की तरह नए नोड्स बनाए जाते हैं। ये अस्थायी नोड्स नए पहचाने गए वस्तुओं के लिए 3D डेटा रखते हैं जिन्हें या तो मौजूदा दृश्य में विलय किया जाना चाहिए या नए नोड्स के रूप में जोड़ा जाना चाहिए। नए पहचाने गए और मौजूदा दृश्य नोड्स के बीच समानता फीचर एम्बेडिंग्स से प्राप्त दृश्य समानता और पॉइंट क्लाउड ओवरलैप से प्राप्त स्थानिक (ज्यामितीय) समानता को जोड़कर निर्धारित की जाती है, ताकि एक समग्र समानता उपाय तैयार किया जा सके। यदि यह उपाय एक पूर्वनिर्धारित सीमा से अधिक हो जाता है, तो नई पहचान को दृश्य में मौजूद एक वस्तु से मेल खाने वाला माना जाता है। वास्तव में, नए पहचाने गए नोड को या तो मौजूदा दृश्य नोड के साथ विलय किया जाता है या एक नए नोड के रूप में जोड़ा जाता है।
\ विलय में पॉइंट क्लाउड्स का एकीकरण और फीचर एम्बेडिंग्स का औसत शामिल है। CLIP और DINO एम्बेडिंग्स का एक भारित औसत गणना की जाती है, स्रोत कुंजी जानकारी से योगदान पर विचार करते हुए, अधिक स्रोत पहचानकर्ताओं वाले नोड्स के लिए प्राथमिकता के साथ। यदि एक नए नोड को जोड़ने की आवश्यकता है, तो इसे दृश्य शब्दकोश में शामिल किया जाता है।
\ दृश्य परिष्करण तब होता है जब इनपुट अनुक्रम की सभी छवियों से वस्तुओं को जोड़ दिया गया हो। यह प्रक्रिया उन नोड्स को समेकित करती है जो एक ही भौतिक वस्तुओं का प्रतिनिधित्व करते हैं लेकिन प्रारंभ में अलग-अलग पहचाने गए थे, जो ओक्लूज़न, दृष्टिकोण परिवर्तन, या इसी तरह के कारकों के कारण था। यह उन नोड्स की पहचान करने के लिए एक ओवरलैप मैट्रिक्स का उपयोग करता है जो स्थानिक अधिभोग साझा करते हैं और तार्किक रूप से उन्हें एक ही नोड में विलय करते हैं। दृश्य को अंतिम रूप दिया जाता है उन नोड्स को त्यागकर जो न्यूनतम बिंदुओं की संख्या या पहचान मानदंडों को पूरा करने में विफल रहते हैं। इसका परिणाम एक परिष्कृत और अनुकूलित अंतिम दृश्य प्रतिनिधित्व है - ओपनसेट 3D सिमेंटिक इंस्टेंस मैप्स, जिसे O3D-SIM भी कहा जाता है।
\
:::info लेखक:
(1) लक्ष नानवानी, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत; इस लेखक ने इस कार्य में समान रूप से योगदान दिया;
(2) कुमारादित्य गुप्ता, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत;
(3) आदित्य माथुर, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत; इस लेखक ने इस कार्य में समान रूप से योगदान दिया;
(4) स्वयं अग्रवाल, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत;
(5) ए.एच. अब्दुल हाफेज़, हसन कल्योनकु विश्वविद्यालय, साहिनबे, गज़ियांटेप, तुर्की;
(6) के. माधव कृष्णा, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत।
:::
:::info यह पेपर CC by-SA 4.0 डीड (एट्रिब्यूशन-शेयरअलाइक 4.0 इंटरनेशनल) लाइसेंस के तहत arxiv पर उपलब्ध है।
:::
\
