MaGGIe excelează în redarea părului și separarea instanțelor pe imagini naturale, depășind MGM și InstMatt în scenarii complexe, cu multiple instanțe.MaGGIe excelează în redarea părului și separarea instanțelor pe imagini naturale, depășind MGM și InstMatt în scenarii complexe, cu multiple instanțe.

Matting Robust Ghidat de Mască: Gestionarea Intrărilor Zgomotoase și Versatilitatea Obiectelor

2025/12/21 02:00

Rezumat și 1. Introducere

  1. Lucrări Conexe

  2. MaGGIe

    3.1. Matting Eficient Ghidat cu Mască pentru Instanțe

    3.2. Consistență Temporală Feature-Matte

  3. Seturi de Date pentru Matting de Instanțe

    4.1. Matting de Instanțe pentru Imagini și 4.2. Matting de Instanțe pentru Video

  4. Experimente

    5.1. Preantrenare pe date de imagini

    5.2. Antrenare pe date video

  5. Discuții și Referințe

\ Material Suplimentar

  1. Detalii de arhitectură

  2. Matting de imagini

    8.1. Generarea și pregătirea seturilor de date

    8.2. Detalii de antrenare

    8.3. Detalii cantitative

    8.4. Mai multe rezultate calitative pe imagini naturale

  3. Matting video

    9.1. Generarea setului de date

    9.2. Detalii de antrenare

    9.3. Detalii cantitative

    9.4. Mai multe rezultate calitative

8.4. Mai multe rezultate calitative pe imagini naturale

Fig. 13 prezintă performanța modelului nostru în scenarii dificile, în special în redarea exactă a regiunilor de păr. Cadrul nostru depășește constant MGM⋆ în păstrarea detaliilor, mai ales în interacțiunile complexe între instanțe. În comparație cu InstMatt, modelul nostru prezintă o separare superioară a instanțelor și acuratețe a detaliilor în regiunile ambigue.

\ Fig. 14 și Fig. 15 ilustrează performanța modelului nostru și a lucrărilor anterioare în cazuri extreme care implică mai multe instanțe. În timp ce MGM⋆ se confruntă cu zgomot și acuratețe în scenarii dense de instanțe, modelul nostru menține o precizie ridicată. InstMatt, fără date suplimentare de antrenare, prezintă limitări în aceste contexte complexe.

\ Robustețea abordării noastre ghidate cu mască este demonstrată în continuare în Fig. 16. Aici, evidențiem provocările cu care se confruntă variantele MGM și SparseMat în predicția părților lipsă din intrările de mască, pe care modelul nostru le rezolvă. Cu toate acestea, este important de menționat că modelul nostru nu este conceput ca o rețea de segmentare a instanțelor umane. Așa cum se arată în Fig. 17, cadrul nostru respectă ghidajul de intrare, asigurând predicția precisă a alpha matte chiar și cu mai multe instanțe în aceeași mască.

\ În final, Fig. 12 și Fig. 11 subliniază capacitățile de generalizare ale modelului nostru. Modelul extrage cu acuratețe atât subiecții umani, cât și alte obiecte din fundaluri, demonstrând versatilitatea sa în diverse scenarii și tipuri de obiecte.

\ Toate exemplele sunt imagini de pe Internet fără ground-truth, iar masca de la r101fpn400e este folosită ca ghidaj.

\ Figura 13. Modelul nostru produce alpha matte extrem de detaliat pe imagini naturale. Rezultatele noastre arată că este precis și comparabil cu metodele anterioare agnostice la instanțe și conștiente de instanțe, fără costuri de calcul scumpe. Pătratele roșii măresc regiunile de detalii pentru fiecare instanță. (Cel mai bine vizualizat în culoare și zoom digital).

\ Figura 14. Cadrele noastre separă precis instanțele într-un caz extrem cu multe instanțe. În timp ce MGM cauzează adesea suprapunerea între instanțe și MGM⋆ conține zgomot, al nostru produce rezultate comparabile cu InstMatt antrenat pe setul de date extern. Săgeata roșie indică erorile. (Cel mai bine vizualizat în culoare și zoom digital).

\ Figura 15. Cadrele noastre separă precis instanțele într-o singură trecere. Soluția propusă arată rezultate comparabile cu InstMatt și MGM fără a rula predicția/rafinarea de cinci ori. Săgeata roșie indică erorile. (Cel mai bine vizualizat în culoare și zoom digital).

\ Figura 16. Spre deosebire de MGM și SparseMat, modelul nostru este robust la masca de ghidaj de intrare. Cu capul de atenție, modelul nostru produce rezultate mai stabile la intrările de mască fără rafinare complexă între instanțe precum InstMatt. Săgeata roșie indică erorile. (Cel mai bine vizualizat în culoare și zoom digital).

\ Figura 17. Soluția noastră funcționează corect cu ghidaje de mască multi-instanță. Când există mai multe instanțe într-o singură mască de ghidaj, producem în continuare alpha matte de uniune corect pentru acele instanțe. Săgeata roșie indică erorile sau regiunea mărită în cutia roșie. (Cel mai bine vizualizat în culoare și zoom digital).

\ Tabelul 12. Detalii ale rezultatelor cantitative pe HIM2K+M-HIM2K (Extensia Tabelului 5). Gri indică greutatea publică fără reantrenare.

\ Tabelul 12. Detalii ale rezultatelor cantitative pe HIM2K+M-HIM2K (Extensia Tabelului 5). Gri indică greutatea publică fără reantrenare. (Continuat)

\ Tabelul 12. Detalii ale rezultatelor cantitative pe HIM2K+M-HIM2K (Extensia Tabelului 5). Gri indică greutatea publică fără reantrenare. (Continuat)

\ Tabelul 12. Detalii ale rezultatelor cantitative pe HIM2K+M-HIM2K (Extensia Tabelului 5). Gri indică greutatea publică fără reantrenare. (Continuat)

\ Tabelul 13. Eficacitatea modulelor de consistență temporală propuse pe V-HIM60 (Extensia Tabelului 6). Combinația de Conv-GRU bidirecțional și fuziunea înainte-înapoi obține cea mai bună performanță globală pe cele trei seturi de teste. Bold evidențiază cel mai bun pentru fiecare nivel.

\

:::info Autori:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Această lucrare este disponibilă pe arxiv sub licență CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Oportunitate de piață
Logo Mask Network
Pret Mask Network (MASK)
$0.5791
$0.5791$0.5791
+0.99%
USD
Mask Network (MASK) graficul prețurilor în timp real
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează service@support.mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.