MaGGIe प्राकृतिक छवियों पर बालों की रेंडरिंग और इंस्टेंस सेपरेशन में उत्कृष्ट प्रदर्शन करता है, जटिल, मल्टी-इंस्टेंस परिदृश्यों में MGM और InstMatt से बेहतर है।MaGGIe प्राकृतिक छवियों पर बालों की रेंडरिंग और इंस्टेंस सेपरेशन में उत्कृष्ट प्रदर्शन करता है, जटिल, मल्टी-इंस्टेंस परिदृश्यों में MGM और InstMatt से बेहतर है।

मजबूत मास्क-निर्देशित मैटिंग: शोरयुक्त इनपुट और ऑब्जेक्ट बहुमुखी प्रतिभा का प्रबंधन

2025/12/21 02:00
3 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

सार और 1. परिचय

  1. संबंधित कार्य

  2. MaGGIe

    3.1. कुशल मास्क्ड गाइडेड इंस्टेंस मैटिंग

    3.2. फीचर-मैट टेम्पोरल कंसिस्टेंसी

  3. इंस्टेंस मैटिंग डेटासेट

    4.1. इमेज इंस्टेंस मैटिंग और 4.2. वीडियो इंस्टेंस मैटिंग

  4. प्रयोग

    5.1. इमेज डेटा पर प्री-ट्रेनिंग

    5.2. वीडियो डेटा पर ट्रेनिंग

  5. चर्चा और संदर्भ

\ पूरक सामग्री

  1. आर्किटेक्चर विवरण

  2. इमेज मैटिंग

    8.1. डेटासेट जनरेशन और तैयारी

    8.2. ट्रेनिंग विवरण

    8.3. मात्रात्मक विवरण

    8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम

  3. वीडियो मैटिंग

    9.1. डेटासेट जनरेशन

    9.2. ट्रेनिंग विवरण

    9.3. मात्रात्मक विवरण

    9.4. अधिक गुणात्मक परिणाम

8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम

चित्र 13 चुनौतीपूर्ण परिदृश्यों में हमारे मॉडल के प्रदर्शन को प्रदर्शित करता है, विशेष रूप से बालों के क्षेत्रों को सटीक रूप से रेंडर करने में। हमारा फ्रेमवर्क विवरण संरक्षण में लगातार MGM⋆ से बेहतर प्रदर्शन करता है, खासकर जटिल इंस्टेंस इंटरैक्शन में। InstMatt की तुलना में, हमारा मॉडल अस्पष्ट क्षेत्रों में बेहतर इंस्टेंस पृथक्करण और विवरण सटीकता प्रदर्शित करता है।

\ चित्र 14 और चित्र 15 कई इंस्टेंस वाले चरम मामलों में हमारे मॉडल और पिछले कार्यों के प्रदर्शन को दर्शाते हैं। जबकि MGM⋆ घने इंस्टेंस परिदृश्यों में शोर और सटीकता से जूझता है, हमारा मॉडल उच्च सटीकता बनाए रखता है। InstMatt, अतिरिक्त ट्रेनिंग डेटा के बिना, इन जटिल सेटिंग्स में सीमाएं दिखाता है।

\ हमारे मास्क-गाइडेड दृष्टिकोण की मजबूती चित्र 16 में और प्रदर्शित की गई है। यहां, हम MGM वेरिएंट और SparseMat द्वारा मास्क इनपुट में लापता भागों की भविष्यवाणी करने में सामना की जाने वाली चुनौतियों को उजागर करते हैं, जिन्हें हमारा मॉडल संबोधित करता है। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि हमारा मॉडल मानव इंस्टेंस सेगमेंटेशन नेटवर्क के रूप में डिज़ाइन नहीं किया गया है। जैसा कि चित्र 17 में दिखाया गया है, हमारा फ्रेमवर्क इनपुट मार्गदर्शन का पालन करता है, एक ही मास्क में कई इंस्टेंस के साथ भी सटीक अल्फा मैट भविष्यवाणी सुनिश्चित करता है।

\ अंत में, चित्र 12 और चित्र 11 हमारे मॉडल की सामान्यीकरण क्षमताओं पर जोर देते हैं। मॉडल पृष्ठभूमि से मानव विषयों और अन्य वस्तुओं दोनों को सटीक रूप से निकालता है, विभिन्न परिदृश्यों और वस्तु प्रकारों में इसकी बहुमुखी प्रतिभा को प्रदर्शित करता है।

\ सभी उदाहरण बिना ग्राउंड-ट्रुथ वाली इंटरनेट छवियां हैं और r101fpn400e से मास्क को मार्गदर्शन के रूप में उपयोग किया गया है।

\ चित्र 13. हमारा मॉडल प्राकृतिक छवियों पर अत्यधिक विस्तृत अल्फा मैट उत्पन्न करता है। हमारे परिणाम दिखाते हैं कि यह सटीक है और महंगी कम्प्यूटेशनल लागत के बिना पिछले इंस्टेंस-अज्ञेयवादी और इंस्टेंस-जागरूकता विधियों के साथ तुलनीय है। लाल वर्ग प्रत्येक इंस्टेंस के लिए विवरण क्षेत्रों में ज़ूम करते हैं। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 14. हमारे फ्रेमवर्क कई इंस्टेंस वाले चरम मामले में इंस्टेंस को सटीक रूप से अलग करते हैं। जबकि MGM अक्सर इंस्टेंस के बीच ओवरलैपिंग का कारण बनता है और MGM⋆ में शोर होता है, हमारा बाहरी डेटासेट पर प्रशिक्षित InstMatt के साथ समान परिणाम उत्पन्न करता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 15. हमारे फ्रेमवर्क एक ही पास में इंस्टेंस को सटीक रूप से अलग करते हैं। प्रस्तावित समाधान भविष्यवाणी/परिष्करण को पांच बार चलाए बिना InstMatt और MGM के साथ तुलनीय परिणाम दिखाता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 16. MGM और SparseMat के विपरीत, हमारा मॉडल इनपुट गाइडेंस मास्क के लिए मजबूत है। अटेंशन हेड के साथ, हमारा मॉडल InstMatt जैसे इंस्टेंस के बीच जटिल परिष्करण के बिना मास्क इनपुट के लिए अधिक स्थिर परिणाम उत्पन्न करता है। लाल तीर त्रुटियों को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ चित्र 17. हमारा समाधान मल्टी-इंस्टेंस मास्क गाइडेंस के साथ सही ढंग से काम करता है। जब एक गाइडेंस मास्क में कई इंस्टेंस मौजूद होते हैं, तो हम अभी भी उन इंस्टेंस के लिए सही यूनियन अल्फा मैट उत्पन्न करते हैं। लाल तीर त्रुटियों या लाल बॉक्स में ज़ूम-इन क्षेत्र को इंगित करता है। (रंग में और डिजिटल ज़ूम में सर्वोत्तम देखा गया)।

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है।

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 12. HIM2K+M-HIM2K पर मात्रात्मक परिणामों का विवरण (तालिका 5 का विस्तार)। ग्रे बिना पुनः प्रशिक्षण के सार्वजनिक वजन को इंगित करता है। (जारी)

\ तालिका 13. V-HIM60 पर प्रस्तावित टेम्पोरल कंसिस्टेंसी मॉड्यूल की प्रभावशीलता (तालिका 6 का विस्तार)। द्वि-दिशात्मक Conv-GRU और फॉरवर्ड-बैकवर्ड फ्यूजन का संयोजन तीन टेस्ट सेट पर सर्वोत्तम समग्र प्रदर्शन प्राप्त करता है। बोल्ड प्रत्येक स्तर के लिए सर्वश्रेष्ठ को हाइलाइट करता है।

\

:::info लेखक:

(1) Chuong Huynh, यूनिवर्सिटी ऑफ मैरीलैंड, कॉलेज पार्क (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, यूनिवर्सिटी ऑफ मैरीलैंड, कॉलेज पार्क (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com)।

:::


:::info यह पेपर CC by 4.0 Deed (Attribution 4.0 International) लाइसेंस के तहत arxiv पर उपलब्ध है।

:::

\

मार्केट अवसर
Mask Network लोगो
Mask Network मूल्य(MASK)
$0,4907
$0,4907$0,4907
+%0,26
USD
Mask Network (MASK) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

Republic ने XDC Network के Validator Set में किया जॉइन, इंस्टीट्यूशनल मोमेंटम को दी मजबूती

Republic ने XDC Network के Validator Set में किया जॉइन, इंस्टीट्यूशनल मोमेंटम को दी मजबूती

Republic अब XDC Network का हिस्सा बन गया है, जहाँ वह इनस्टिट्यूशनल वेलिडेटर के रूप में जुड़ा है। इससे इस ब्लॉकचेन के वेलिडेटर ग्रुप में एक और मजबूत फाइनेंशियल ट
शेयर करें
Beincrypto HI2026/05/06 01:00
15% Ethereum रैली के बीच नेटवर्क की समस्या exchanges तक पहुंची

15% Ethereum रैली के बीच नेटवर्क की समस्या exchanges तक पहुंची

पिछले एक महीने में Ethereum प्राइस में 15% की तेजी आई है, लेकिन ऑन-चेन स्टोरी धीरे-धीरे बियरिश हो गई है। एक्टिव यूज़र्स की संख्या जनवरी के ऑल-टाइम हाई से 33% गि
शेयर करें
Beincrypto HI2026/05/06 00:00
SEC क्वार्टरली रिपोर्ट्स बंद कर सकता है: इसका क्रिप्टो stocks पर क्या असर पड़ेगा

SEC क्वार्टरली रिपोर्ट्स बंद कर सकता है: इसका क्रिप्टो stocks पर क्या असर पड़ेगा

SEC का अर्धवार्षिक रिपोर्टिंग प्रस्ताव छोटे जारीकर्ताओं के लिए लागत बचत का वादा करता है, लेकिन लिक्विडिटी डिस्काउंट जोखिमों की चेतावनी भी देता है। The post SEC
शेयर करें
Beincrypto HI2026/05/06 01:07

Starter Gold Rush: Win $2,500!

Starter Gold Rush: Win $2,500!Starter Gold Rush: Win $2,500!

Start your first trade & capture every Alpha move