บทคัดย่อและ 1. บทนำ
งานวิจัยที่เกี่ยวข้อง
MaGGIe
3.1. Efficient Masked Guided Instance Matting
3.2. Feature-Matte Temporal Consistency
ชุดข้อมูล Instance Matting
4.1. Image Instance Matting และ 4.2. Video Instance Matting
การทดลอง
5.1. การฝึกล่วงหน้าบนข้อมูลภาพ
5.2. การฝึกบนข้อมูลวิดีโอ
การอภิปรายและเอกสารอ้างอิง
\ เอกสารเสริม
รายละเอียดสถาปัตยกรรม
Image matting
8.1. การสร้างและเตรียมชุดข้อมูล
8.2. รายละเอียดการฝึก
8.3. รายละเอียดเชิงปริมาณ
8.4. ผลลัพธ์เชิงคุณภาพเพิ่มเติมบนภาพธรรมชาติ
Video matting
9.1. การสร้างชุดข้อมูล
9.2. รายละเอียดการฝึก
9.3. รายละเอียดเชิงปริมาณ
9.4. ผลลัพธ์เชิงคุณภาพเพิ่มเติม
ส่วนนี้ขยายความเกี่ยวกับกระบวนการ image matting โดยให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับการสร้างชุดข้อมูลและการเปรียบเทียบอย่างครอบคลุมกับวิธีการที่มีอยู่ เราเจาะลึกถึงการสร้างชุดข้อมูล I-HIM50K และ M-HIM2K นำเสนอการวิเคราะห์เชิงปริมาณโดยละเอียด และนำเสนอผลลัพธ์เชิงคุณภาพเพิ่มเติมเพื่อเน้นย้ำประสิทธิผลของแนวทางของเรา
ชุดข้อมูล I-HIM50K ถูกสังเคราะห์จากชุดข้อมูล HHM50K [50] ซึ่งเป็นที่รู้จักในการรวบรวม human image mattes อย่างกว้างขวาง เราใช้โมเดล MaskRCNN [14] Resnet-50 FPN 3x ที่ฝึกบนชุดข้อมูล COCO เพื่อกรองภาพที่มีคนเดียว ส่งผลให้ได้ชุดย่อย 35,053 ภาพ โดยปฏิบัติตามวิธีการของ InstMatt [49] ภาพเหล่านี้ถูกประกอบกับพื้นหลังที่หลากหลายจากชุดข้อมูล BG20K [29] สร้างสถานการณ์แบบหลายอินสแตนซ์ที่มี 2-5 ตัวละครต่อภาพ ตัวละครถูกปรับขนาดและจัดวางเพื่อรักษาขนาดที่สมจริงและหลีกเลี่ยงการทับซ้อนมากเกินไป ตามที่ระบุโดย instance IoUs ไม่เกิน 30% กระบวนการนี้ให้ผลลัพธ์ 49,737 ภาพ โดยเฉลี่ย 2.28 อินสแตนซ์ต่อภาพ ระหว่างการฝึก มาสก์นำทางถูกสร้างโดยการแปลง alpha mattes เป็นไบนารีและใช้การดำเนินการ dropout, dilation และ erosion แบบสุ่ม ภาพตัวอย่างจาก I-HIM50K แสดงในรูปที่ 10
\ ชุดข้อมูล M-HIM2K ถูกออกแบบมาเพื่อทดสอบความทนทานของโมเดลต่อคุณภาพมาสก์ที่แตกต่างกัน ประกอบด้วยสิบมาสก์ต่ออินสแตนซ์ ที่สร้างโดยใช้โมเดล MaskRCNN ต่างๆ ข้อมูลเพิ่มเติมเกี่ยวกับโมเดลที่ใช้ในกระบวนการสร้างนี้แสดงในตารางที่ 8 มาสก์ถูกจับคู่กับอินสแตนซ์ตาม IoU สูงสุดกับ ground truth alpha mattes โดยมั่นใจถึงเกณฑ์ IoU ขั้นต่ำที่ 70% มาสก์ที่ไม่เป็นไปตามเกณฑ์นี้ถูกสร้างขึ้นเทียมจาก ground truth กระบวนการนี้ส่งผลให้ได้ชุดครอบคลุม 134,240 มาสก์ โดยมี 117,660 สำหรับภาพประกอบและ 16,600 สำหรับภาพธรรมชาติ ให้เกณฑ์มาตรฐานที่แข็งแกร่งสำหรับการประเมิน masked guided instance matting ชุดข้อมูลเต็ม I-HIM50K และ M-HIM2K จะถูกเผยแพร่หลังจากการยอมรับงานนี้
\ 
\ 
\
:::info ผู้เขียน:
(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);
(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);
(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);
(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).
:::
:::info บทความนี้ มีอยู่บน arxiv ภายใต้สิทธิ์ใช้งาน CC by 4.0 Deed (Attribution 4.0 International)
:::
\


