O3D-SIM को 2D मास्क और एम्बेडिंग को 3D में प्रोजेक्ट करके बनाया गया है, प्रारंभिक परिष्करण के लिए DBSCAN का उपयोग करते हुए।O3D-SIM को 2D मास्क और एम्बेडिंग को 3D में प्रोजेक्ट करके बनाया गया है, प्रारंभिक परिष्करण के लिए DBSCAN का उपयोग करते हुए।

ओपन-सेट 3डी प्रतिनिधित्व का निर्माण: फीचर फ्यूजन और ज्यामितीय-अर्थपूर्ण विलय

2025/12/15 01:00
6 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

सार और 1 परिचय

  1. संबंधित कार्य

    2.1. दृष्टि-और-भाषा नेविगेशन

    2.2. सिमेंटिक दृश्य समझ और इंस्टेंस सेगमेंटेशन

    2.3. 3D दृश्य पुनर्निर्माण

  2. कार्यप्रणाली

    3.1. डेटा संग्रह

    3.2. छवियों से ओपन-सेट सिमेंटिक जानकारी

    3.3. ओपन-सेट 3D प्रतिनिधित्व बनाना

    3.4. भाषा-निर्देशित नेविगेशन

  3. प्रयोग

    4.1. मात्रात्मक मूल्यांकन

    4.2. गुणात्मक परिणाम

  4. निष्कर्ष और भविष्य का कार्य, प्रकटीकरण विवरण, और संदर्भ

3.3. ओपन-सेट 3D प्रतिनिधित्व बनाना

O3D-SIM का निर्माण पूरा करने के लिए, हम अब प्रत्येक वस्तु के लिए निकाले गए फीचर एम्बेडिंग पर आधारित होकर वस्तु की जानकारी को 3D स्पेस में प्रोजेक्ट करके, क्लस्टरिंग करके, और कई छवियों में वस्तुओं को जोड़कर एक व्यापक 3D दृश्य प्रतिनिधित्व बनाते हैं। सिमेंटिक जानकारी को 3D स्पेस में प्रोजेक्ट करने और मानचित्र को परिष्कृत करने की प्रक्रिया चित्र 3 में दर्शाई गई है।

\ 3.3.1. O3D-SIM प्रारंभीकरण

\ 3D मानचित्र प्रारंभ में एक चयनित छवि का उपयोग करके बनाया जाता है, जो हमारे दृश्य प्रतिनिधित्व को प्रारंभ करने के लिए संदर्भ फ्रेम के रूप में कार्य करता है। यह चरण हमारे 3D दृश्य की आधारभूत संरचना स्थापित करता है, जिसे फिर बाद की छवियों से डेटा के साथ क्रमिक रूप से बढ़ाया जाता है ताकि दृश्य की जटिलता और विवरण को समृद्ध किया जा सके।

\ 3D दृश्य के भीतर वस्तुओं के लिए डेटा को एक शब्दकोश के भीतर नोड्स के रूप में व्यवस्थित किया जाता है, जो प्रारंभ में खाली होता है। फिर वस्तुओं को प्रारंभिक छवि से उनके संबंधित डेटा के साथ पहचाना जाता है जिसमें एम्बेडिंग फीचर्स और उनके मास्क पर जानकारी शामिल होती है। छवि में पहचानी गई प्रत्येक वस्तु के लिए, उपलब्ध गहराई की जानकारी और वस्तु के मास्क का उपयोग करके एक 3D पॉइंट क्लाउड बनाया जाता है। इस पॉइंट क्लाउड निर्माण में 2D पिक्सेल को 3D स्पेस में मैपिंग शामिल है, जिसे कैमरा के आंतरिक पैरामीटर और गहराई मूल्यों द्वारा सुविधाजनक बनाया जाता है। इसके बाद, कैमरा की स्थिति का उपयोग वैश्विक निर्देशांक प्रणाली के भीतर पॉइंट क्लाउड को सटीक रूप से संरेखित करने के लिए किया जाता है। हमारे दृश्य प्रतिनिधित्व को परिष्कृत करने के लिए, पृष्ठभूमि फ़िल्टरिंग पृष्ठभूमि के रूप में पहचाने गए तत्वों को हटाती है, जैसे दीवारें या फर्श। इन तत्वों को आगे की प्रक्रिया से बाहर रखा जाता है, विशेष रूप से क्लस्टरिंग चरण में, क्योंकि वे हमारे दृश्य प्रतिनिधित्व का मुख्य फोकस नहीं बनाते हैं।

\ वस्तु के पॉइंट क्लाउड्स के सेट को प्रतिनिधित्व परिष्करण के लिए DBSCAN[34] क्लस्टरिंग का उपयोग करके आगे प्रोसेस किया जाता है। पॉइंट क्लाउड को वॉक्सेल ग्रिड फिल्टरिंग के माध्यम से डाउनसैंपल किया जाता है ताकि बिंदुओं की संख्या और कम्प्यूटेशनल जटिलता को कम किया जा सके, जबकि डेटा की स्थानिक संरचना को प्रबंधनीय बनाए रखा जाता है। DBSCAN उन बिंदुओं को समूहित करता है जो एक साथ घनी रूप से पैक किए गए हैं, जबकि कम घनत्व वाले क्षेत्रों में अकेले स्थित बिंदुओं को शोर के रूप में लेबल करता है। पोस्टक्लस्टरिंग चरण में, सबसे बड़ा क्लस्टर आमतौर पर पॉइंट क्लाउड के भीतर रुचि की मुख्य वस्तु से मेल खाता है जिसे पहचाना जाता है। यह शोर और अप्रासंगिक बिंदुओं को फ़िल्टर करने में मदद करता है, जिससे रुचि की वस्तु का एक स्वच्छ प्रतिनिधित्व उत्पन्न होता है।

\ 3D स्पेस में एक वस्तु की स्थिति एक बाउंडिंग बॉक्स के अभिविन्यास की गणना करके निर्धारित की जाती है, जो 3D स्पेस में वस्तु के स्थान और आकार का एक संक्षिप्त स्थानिक प्रतिनिधित्व प्रदान करता है। इसके बाद, 3D मानचित्र आउटपुट को नोड्स के प्रारंभिक सेट के साथ प्रारंभ किया जाता है, जिसमें फीचर एम्बेडिंग्स, पॉइंट क्लाउड डेटा, बाउंडिंग बॉक्स, और प्रत्येक नोड से जुड़े पॉइंट क्लाउड में बिंदुओं की गिनती शामिल होती है। प्रत्येक नोड में स्रोत जानकारी भी शामिल होती है ताकि डेटा के मूल का पता लगाने और नोड्स और उनके 2D छवि समकक्षों के बीच संबंध को सुविधाजनक बनाया जा सके।

\ 3.3.2. O3D-SIM का वृद्धिशील अपडेट

\ दृश्य को प्रारंभ करने के बाद, हम नई छवियों से डेटा के साथ प्रतिनिधित्व को अपडेट करते हैं। यह प्रक्रिया सुनिश्चित करती है कि हमारा 3D दृश्य अतिरिक्त जानकारी उपलब्ध होने पर वर्तमान और सटीक रहता है। यह छवि अनुक्रम में प्रत्येक छवि पर पुनरावृत्ति करता है; प्रत्येक नई छवि के लिए, बहु-वस्तु डेटा निकाला जाता है, और दृश्य को अपडेट किया जाता है।

\ प्रत्येक नई छवि के लिए वस्तुओं का पता लगाया जाता है, और प्रारंभिक छवि की तरह नए नोड्स बनाए जाते हैं। ये अस्थायी नोड्स नए पहचाने गए वस्तुओं के लिए 3D डेटा रखते हैं जिन्हें या तो मौजूदा दृश्य में विलय किया जाना चाहिए या नए नोड्स के रूप में जोड़ा जाना चाहिए। नए पहचाने गए और मौजूदा दृश्य नोड्स के बीच समानता फीचर एम्बेडिंग्स से प्राप्त दृश्य समानता और पॉइंट क्लाउड ओवरलैप से प्राप्त स्थानिक (ज्यामितीय) समानता को जोड़कर निर्धारित की जाती है, ताकि एक समग्र समानता उपाय तैयार किया जा सके। यदि यह उपाय एक पूर्वनिर्धारित सीमा से अधिक हो जाता है, तो नई पहचान को दृश्य में मौजूद एक वस्तु से मेल खाने वाला माना जाता है। वास्तव में, नए पहचाने गए नोड को या तो मौजूदा दृश्य नोड के साथ विलय किया जाता है या एक नए नोड के रूप में जोड़ा जाता है।

\ विलय में पॉइंट क्लाउड्स का एकीकरण और फीचर एम्बेडिंग्स का औसत शामिल है। CLIP और DINO एम्बेडिंग्स का एक भारित औसत गणना की जाती है, स्रोत कुंजी जानकारी से योगदान पर विचार करते हुए, अधिक स्रोत पहचानकर्ताओं वाले नोड्स के लिए प्राथमिकता के साथ। यदि एक नए नोड को जोड़ने की आवश्यकता है, तो इसे दृश्य शब्दकोश में शामिल किया जाता है।

\ दृश्य परिष्करण तब होता है जब इनपुट अनुक्रम की सभी छवियों से वस्तुओं को जोड़ दिया गया हो। यह प्रक्रिया उन नोड्स को समेकित करती है जो एक ही भौतिक वस्तुओं का प्रतिनिधित्व करते हैं लेकिन प्रारंभ में अलग-अलग पहचाने गए थे, जो ओक्लूज़न, दृष्टिकोण परिवर्तन, या इसी तरह के कारकों के कारण था। यह उन नोड्स की पहचान करने के लिए एक ओवरलैप मैट्रिक्स का उपयोग करता है जो स्थानिक अधिभोग साझा करते हैं और तार्किक रूप से उन्हें एक ही नोड में विलय करते हैं। दृश्य को अंतिम रूप दिया जाता है उन नोड्स को त्यागकर जो न्यूनतम बिंदुओं की संख्या या पहचान मानदंडों को पूरा करने में विफल रहते हैं। इसका परिणाम एक परिष्कृत और अनुकूलित अंतिम दृश्य प्रतिनिधित्व है - ओपनसेट 3D सिमेंटिक इंस्टेंस मैप्स, जिसे O3D-SIM भी कहा जाता है।

\

:::info लेखक:

(1) लक्ष नानवानी, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत; इस लेखक ने इस कार्य में समान रूप से योगदान दिया;

(2) कुमारादित्य गुप्ता, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत;

(3) आदित्य माथुर, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत; इस लेखक ने इस कार्य में समान रूप से योगदान दिया;

(4) स्वयं अग्रवाल, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत;

(5) ए.एच. अब्दुल हाफेज़, हसन कल्योनकु विश्वविद्यालय, साहिनबे, गज़ियांटेप, तुर्की;

(6) के. माधव कृष्णा, इंटरनेशनल इंस्टीट्यूट ऑफ इनफॉर्मेशन टेक्नोलॉजी, हैदराबाद, भारत।

:::


:::info यह पेपर CC by-SA 4.0 डीड (एट्रिब्यूशन-शेयरअलाइक 4.0 इंटरनेशनल) लाइसेंस के तहत arxiv पर उपलब्ध है

:::

\

मार्केट अवसर
OpenLedger लोगो
OpenLedger मूल्य(OPEN)
$0,22538
$0,22538$0,22538
+1,67%
USD
OpenLedger (OPEN) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

पॉलीमार्केट में 73% संभावना है कि मई के अंत तक हॉर्मुज़ जलडमरूमध्य यातायात सामान्य हो जाएगा

पॉलीमार्केट में 73% संभावना है कि मई के अंत तक हॉर्मुज़ जलडमरूमध्य यातायात सामान्य हो जाएगा

संयुक्त राज्य अमेरिका और ईरान के बीच एक अस्थायी युद्धविराम ने होर्मुज जलडमरूमध्य के आसपास व्यापारियों की स्थिति के कारण एक उल्लेखनीय, हालांकि अनिश्चित, बाजार प्रतिक्रिया को जन्म दिया।
शेयर करें
Crypto Breaking News2026/04/18 08:41
RWA फाउंडेशन का अनुमान है कि टोकनाइजेशन बढ़ने के साथ खरबों की संपत्तियां ऑनचेन में स्थानांतरित होंगी

RWA फाउंडेशन का अनुमान है कि टोकनाइजेशन बढ़ने के साथ खरबों की संपत्तियां ऑनचेन में स्थानांतरित होंगी

टोकनाइज़ेशन वैश्विक वित्त को नया आकार दे रहा है, जहां स्टॉक्स, रियल एस्टेट, बॉन्ड्स और प्राइवेट क्रेडिट तेज़ ऑनचेन रेल्स पर जा रहे हैं क्योंकि RWA बाज़ार लगातार बढ़ रहा है।
शेयर करें
Blockchainreporter2026/04/18 09:00
'गोरेपन का प्रतीक': आलोचकों ने ट्रंप की दूसरे दर्जे की ईरान 'री-डील' को खारिज किया

'गोरेपन का प्रतीक': आलोचकों ने ट्रंप की दूसरे दर्जे की ईरान 'री-डील' को खारिज किया

पॉडकास्टर्स डेनियल मूडी और वजाहत अली ने राष्ट्रपति डोनाल्ड ट्रंप पर तंज कसा कि उन्होंने पहले एक बेहतर अंतरराष्ट्रीय समझौते को ध्वस्त करने के बाद ईरान के साथ एक गंभीर रूप से त्रुटिपूर्ण समझौते के बारे में डींग हांकी
शेयर करें
Alternet2026/04/18 09:56

24/7 लाइव न्यूज़

अधिक

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!