MaGGIe प्राकृतिक छवियों पर बालों की रेंडरिंग और इंस्टेंस सेपरेशन में उत्कृष्ट प्रदर्शन करता है, जटिल, मल्टी-इंस्टेंस परिदृश्यों में MGM और InstMatt से बेहतर है।MaGGIe प्राकृतिक छवियों पर बालों की रेंडरिंग और इंस्टेंस सेपरेशन में उत्कृष्ट प्रदर्शन करता है, जटिल, मल्टी-इंस्टेंस परिदृश्यों में MGM और InstMatt से बेहतर है।

मजबूत मास्क-निर्देशित मैटिंग: शोरयुक्त इनपुट और ऑब्जेक्ट बहुमुखी प्रतिभा का प्रबंधन

2025/12/21 02:00

सार और 1. परिचय

  1. संबंधित कार्य

  2. MaGGIe

    3.1. कुशल मास्क्ड गाइडेड इंस्टेंस मैटिंग

    3.2. फीचर-मैट टेम्पोरल कंसिस्टेंसी

  3. इंस्टेंस मैटिंग डेटासेट

    4.1. इमेज इंस्टेंस मैटिंग और 4.2. वीडियो इंस्टेंस मैटिंग

  4. प्रयोग

    5.1. इमेज डेटा पर प्री-ट्रेनिंग

    5.2. वीडियो डेटा पर ट्रेनिंग

  5. चर्चा और संदर्भ

\ पूरक सामग्री

  1. आर्किटेक्चर विवरण

  2. इमेज मैटिंग

    8.1. डेटासेट जनरेशन और तैयारी

    8.2. ट्रेनिंग विवरण

    8.3. मात्रात्मक विवरण

    8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम

  3. वीडियो मैटिंग

    9.1. डेटासेट जनरेशन

    9.2. ट्रेनिंग विवरण

    9.3. मात्रात्मक विवरण

    9.4. अधिक गुणात्मक परिणाम

8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम

चित्र 13 चुनौतीपूर्ण परिदृश्यों में हमारे मॉडल के प्रदर्शन को प्रदर्शित करता है, विशेष रूप से बालों के क्षेत्रों को सटीक रूप से रेंडर करने में। हमारा फ्रेमवर्क विवरण संरक्षण में लगातार MGM⋆ से बेहतर प्रदर्शन करता है, खासकर जटिल इंस्टेंस इंटरैक्शन में। InstMatt की तुलना में, हमारा मॉडल अस्पष्ट क्षेत्रों में बेहतर इंस्टेंस पृथक्करण और विवरण सटीकता प्रदर्शित करता है।

\ चित्र 14 और चित्र 15 कई इंस्टेंस वाले चरम मामलों में हमारे मॉडल और पिछले कार्यों के प्रदर्शन को दर्शाते हैं। जबकि MGM⋆ घने इंस्टेंस परिदृश्यों में शोर और सटीकता से जूझता है, हमारा मॉडल उच्च सटीकता बनाए रखता है। InstMatt, अतिरिक्त ट्रेनिंग डेटा के बिना, इन जटिल सेटिंग्स में सीमाएं दिखाता है।

\ हमारे मास्क-गाइडेड दृष्टिकोण की मजबूती चित्र 16 में और प्रदर्शित की गई है। यहां, हम MGM वेरिएंट और SparseMat द्वारा मास्क इनपुट में लापता भागों की भविष्यवाणी करने में सामना की जाने वाली चुनौतियों को उजागर करते हैं, जिन्हें हमारा मॉडल संबोधित करता है। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि हमारा मॉडल मानव इंस्टेंस सेगमेंटेशन नेटवर्क के रूप में डिज़ाइन नहीं किया गया है। जैसा कि चित्र 17 में दिखाया गया है, हमारा फ्रेमवर्क इनपुट मार्गदर्शन का पालन करता है, एक ही मास्क में कई इंस्टेंस के साथ भी सटीक अल्फा मैट भविष्यवाणी सुनिश्चित करता है।

\ अंत में, चित्र 12 और चित्र 11 हमारे मॉडल की सामान्यीकरण क्षमताओं पर जोर देते हैं। मॉडल पृष्ठभूमि से मानव विषयों और अन्य वस्तुओं दोनों को सटीक रूप से निकालता है, विभिन्न परिदृश्यों और वस्तु प्रकारों में इसकी बहुमुखी प्रतिभा को प्रदर्शित करता है।

\ सभी उदाहरण बिना ग्राउंड-ट्रुथ वाली इंटरनेट छवियां हैं और r101fpn400e से मास्क को मार्गदर्शन के रूप में उपयोग किया गया है।

\ चित्र 13. हमारा मॉडल प्राकृतिक छवियों पर अत्यधिक विस्तृत अल्फा मैट उत्पन्न करता है। हमारे परिणाम दिखाते हैं कि यह सटीक है और महंगी कम्प्यूटेशनल लागत के बिना पिछले इंस्टेंस-अज्ञेयवादी और इंस्टेंस-जागरूकता विधियों के साथ तुलनीय है। लाल वर्ग प्रत्येक इंस्टेंस के लिए विवरण क्षेत्रों में ज़ूम करते हैं। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 14. हमारे फ्रेमवर्क कई इंस्टेंस वाले चरम मामले में इंस्टेंस को सटीक रूप से अलग करते हैं। जबकि MGM अक्सर इंस्टेंस के बीच ओवरलैपिंग का कारण बनता है और MGM⋆ में शोर होता है, हमारा बाहरी डेटासेट पर प्रशिक्षित InstMatt के साथ समान परिणाम उत्पन्न करता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 15. हमारे फ्रेमवर्क एक ही पास में इंस्टेंस को सटीक रूप से अलग करते हैं। प्रस्तावित समाधान भविष्यवाणी/परिष्करण को पांच बार चलाए बिना InstMatt और MGM के साथ तुलनीय परिणाम दिखाता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 16. MGM और SparseMat के विपरीत, हमारा मॉडल इनपुट गाइडेंस मास्क के लिए मजबूत है। अटेंशन हेड के साथ, हमारा मॉडल InstMatt जैसे इंस्टेंस के बीच जटिल परिष्करण के बिना मास्क इनपुट के लिए अधिक स्थिर परिणाम उत्पन्न करता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 17. हमारा समाधान मल्टी-इंस्टेंस मास्क गाइडेंस के साथ सही ढंग से काम करता है। जब एक गाइडेंस मास्क में कई इंस्टेंस मौजूद होते हैं, तो हम अभी भी उन इंस्टेंस के लिए सही यूनियन अल्फा मैट उत्पन्न करते हैं। लाल तीर त्रुटियों या लाल बॉक्स में ज़ूम-इन क्षेत्र को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है।

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 13. V-HIM60 पर प्रस्तावित टेम्पोरल कंसिस्टेंसी मॉड्यूल की प्रभावशीलता (तालिका 6 का विस्तार)। द्वि-दिशात्मक Conv-GRU और फॉरवर्ड-बैकवर्ड फ्यूजन का संयोजन तीन टेस्ट सेट पर सर्वोत्तम समग्र प्रदर्शन प्राप्त करता है। बोल्ड प्रत्येक स्तर के लिए सर्वश्रेष्ठ को हाइलाइट करता है।

\

:::info लेखक:

(1) Chuong Huynh, यूनिवर्सिटी ऑफ मैरीलैंड, कॉलेज पार्क (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, यूनिवर्सिटी ऑफ मैरीलैंड, कॉलेज पार्क (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com)।

:::


:::info यह पेपर CC by 4.0 Deed (Attribution 4.0 International) लाइसेंस के तहत arxiv पर उपलब्ध है।

:::

\

मार्केट अवसर
Mask Network लोगो
Mask Network मूल्य(MASK)
$0,5779
$0,5779$0,5779
+%0,78
USD
Mask Network (MASK) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए service@support.mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

एलन मस्क की कुल संपत्ति कानूनी जीत के बाद रिकॉर्ड $749B पर पहुंची, जिससे टेस्ला का विशाल मुआवजा बहाल हुआ

एलन मस्क की कुल संपत्ति कानूनी जीत के बाद रिकॉर्ड $749B पर पहुंची, जिससे टेस्ला का विशाल मुआवजा बहाल हुआ

एलन मस्क की कुल संपत्ति कानूनी जीत के बाद रिकॉर्ड $749B पर पहुंची, जिससे टेस्ला का विशाल मुआवजा बहाल हुआ, यह पोस्ट BitcoinEthereumNews.com पर प्रकाशित हुई। मुख्य बातें एलन मस्क
शेयर करें
BitcoinEthereumNews2025/12/21 10:13
आर्थर हेस: ऑल्टकॉइन सीजन हमेशा मौजूद रहता है; बस कुछ ट्रेडर्स के पास बढ़ते हुए कॉइन्स नहीं होते।

आर्थर हेस: ऑल्टकॉइन सीजन हमेशा मौजूद रहता है; बस कुछ ट्रेडर्स के पास बढ़ते हुए कॉइन्स नहीं होते।

PANews ने 21 दिसंबर को रिपोर्ट किया कि, Cointelegraph के अनुसार, BitMEX के सह-संस्थापक Arthur Hayes ने एक YouTube पॉडकास्ट साक्षात्कार में कहा कि altcoin सीज़न
शेयर करें
PANews2025/12/21 10:30
BTC $88,000 से नीचे गिरा, दिन में 0.22% की गिरावट।

BTC $88,000 से नीचे गिरा, दिन में 0.22% की गिरावट।

PANews ने 21 दिसंबर को रिपोर्ट दिया कि, OKX मार्केट डेटा के अनुसार, BTC अभी-अभी $88,000 से नीचे गिर गया है और वर्तमान में $87,978.00 प्रति कॉइन पर कारोबार कर रहा है, 0.22% की गिरावट के साथ
शेयर करें
PANews2025/12/21 10:16