सार और 1. परिचय
संबंधित कार्य
MaGGIe
3.1. कुशल मास्क्ड गाइडेड इंस्टेंस मैटिंग
3.2. फीचर-मैट टेम्पोरल कंसिस्टेंसी
इंस्टेंस मैटिंग डेटासेट
4.1. इमेज इंस्टेंस मैटिंग और 4.2. वीडियो इंस्टेंस मैटिंग
प्रयोग
5.1. इमेज डेटा पर प्री-ट्रेनिंग
5.2. वीडियो डेटा पर ट्रेनिंग
चर्चा और संदर्भ
\ पूरक सामग्री
आर्किटेक्चर विवरण
इमेज मैटिंग
8.1. डेटासेट जनरेशन और तैयारी
8.2. ट्रेनिंग विवरण
8.3. मात्रात्मक विवरण
8.4. प्राकृतिक छवियों पर अधिक गुणात्मक परिणाम
वीडियो मैटिंग
9.1. डेटासेट जनरेशन
9.2. ट्रेनिंग विवरण
9.3. मात्रात्मक विवरण
9.4. अधिक गुणात्मक परिणाम
यह खंड इमेज मैटिंग प्रक्रिया पर विस्तार करता है, डेटासेट जनरेशन और मौजूदा विधियों के साथ व्यापक तुलना में अतिरिक्त जानकारी प्रदान करता है। हम I-HIM50K और M-HIM2K डेटासेट के निर्माण में गहराई से जाते हैं, विस्तृत मात्रात्मक विश्लेषण प्रदान करते हैं, और हमारे दृष्टिकोण की प्रभावशीलता को रेखांकित करने के लिए आगे गुणात्मक परिणाम प्रस्तुत करते हैं।
I-HIM50K डेटासेट को HHM50K [50] डेटासेट से संश्लेषित किया गया था, जो मानव छवि मैट्स के व्यापक संग्रह के लिए जाना जाता है। हमने एकल-व्यक्ति छवियों को फ़िल्टर करने के लिए COCO डेटासेट पर प्रशिक्षित MaskRCNN [14] Resnet-50 FPN 3x मॉडल का उपयोग किया, जिसके परिणामस्वरूप 35,053 छवियों का एक उपसमुच्चय प्राप्त हुआ। InstMatt [49] पद्धति का पालन करते हुए, इन छवियों को BG20K [29] डेटासेट से विविध पृष्ठभूमि के खिलाफ कंपोजिट किया गया, प्रति छवि 2-5 विषयों के साथ मल्टी-इंस्टेंस परिदृश्य बनाए गए। विषयों को यथार्थवादी पैमाने बनाए रखने और अत्यधिक ओवरलैप से बचने के लिए आकार और स्थिति दी गई, जैसा कि इंस्टेंस IoUs 30% से अधिक न होने से संकेत मिलता है। इस प्रक्रिया ने 49,737 छवियां उत्पन्न कीं, प्रति छवि औसतन 2.28 इंस्टेंस। ट्रेनिंग के दौरान, गाइडेंस मास्क अल्फा मैट्स को बाइनराइज़ करके और रैंडम ड्रॉपआउट, डाइलेशन और इरोशन ऑपरेशन लागू करके उत्पन्न किए गए। I-HIM50K से नमूना छवियां चित्र 10 में प्रदर्शित की गई हैं।
\ M-HIM2K डेटासेट को विभिन्न मास्क गुणवत्ता के खिलाफ मॉडल रोबस्टनेस का परीक्षण करने के लिए डिज़ाइन किया गया था। इसमें प्रति इंस्टेंस दस मास्क शामिल हैं, जो विभिन्न MaskRCNN मॉडल का उपयोग करके उत्पन्न किए गए हैं। इस जनरेशन प्रक्रिया के लिए उपयोग किए गए मॉडल के बारे में अधिक जानकारी तालिका 8 में दिखाई गई है। मास्क को ग्राउंड ट्रुथ अल्फा मैट्स के साथ उच्चतम IoU के आधार पर इंस्टेंस से मिलाया गया, 70% का न्यूनतम IoU थ्रेशोल्ड सुनिश्चित करते हुए। जो मास्क इस थ्रेशोल्ड को पूरा नहीं करते थे, उन्हें ग्राउंड ट्रुथ से कृत्रिम रूप से उत्पन्न किया गया। इस प्रक्रिया के परिणामस्वरूप 134,240 मास्क का एक व्यापक सेट प्राप्त हुआ, जिसमें कंपोजिट के लिए 117,660 और प्राकृतिक छवियों के लिए 16,600 शामिल हैं, जो मास्क्ड गाइडेड इंस्टेंस मैटिंग के मूल्यांकन के लिए एक मजबूत बेंचमार्क प्रदान करता है। पूर्ण डेटासेट I-HIM50K और M-HIM2K इस कार्य की स्वीकृति के बाद जारी किया जाएगा।
\ 
\ 
\
:::info लेखक:
(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);
(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);
(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);
(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).
:::
:::info यह पेपर arxiv पर उपलब्ध है CC by 4.0 Deed (Attribution 4.0 International) लाइसेंस के तहत।
:::
\


