Resumo e 1. Introdução
Trabalhos Relacionados
MaGGIe
3.1. Masked Guided Instance Matting Eficiente
3.2. Consistência Temporal Feature-Matte
Conjuntos de Dados de Instance Matting
4.1. Image Instance Matting e 4.2. Video Instance Matting
Experiências
5.1. Pré-treino em dados de imagem
5.2. Treino em dados de vídeo
Discussão e Referências
\ Material Suplementar
Detalhes da arquitetura
Image matting
8.1. Geração e preparação do conjunto de dados
8.2. Detalhes de treino
8.3. Detalhes quantitativos
8.4. Mais resultados qualitativos em imagens naturais
Video matting
9.1. Geração do conjunto de dados
9.2. Detalhes de treino
9.3. Detalhes quantitativos
9.4. Mais resultados qualitativos
Esta secção expande o processo de image matting, fornecendo informações adicionais sobre a geração de conjuntos de dados e comparações abrangentes com métodos existentes. Aprofundamos a criação dos conjuntos de dados I-HIM50K e M-HIM2K, oferecemos análises quantitativas detalhadas e apresentamos mais resultados qualitativos para sublinhar a eficácia da nossa abordagem.
O conjunto de dados I-HIM50K foi sintetizado a partir do conjunto de dados HHM50K [50], conhecido pela sua extensa coleção de mattes de imagens humanas. Utilizámos um modelo MaskRCNN [14] Resnet-50 FPN 3x, treinado no conjunto de dados COCO, para filtrar imagens de uma única pessoa, resultando num subconjunto de 35 053 imagens. Seguindo a metodologia InstMatt [49], estas imagens foram compostas contra fundos diversos do conjunto de dados BG20K [29], criando cenários multi-instância com 2-5 sujeitos por imagem. Os sujeitos foram redimensionados e posicionados para manter uma escala realista e evitar sobreposição excessiva, conforme indicado pelos IoUs de instância não superiores a 30%. Este processo gerou 49 737 imagens, com uma média de 2,28 instâncias por imagem. Durante o treino, as máscaras de orientação foram geradas através da binarização dos alpha mattes e da aplicação de operações aleatórias de dropout, dilatação e erosão. Exemplos de imagens do I-HIM50K são apresentados na Fig. 10.
\ O conjunto de dados M-HIM2K foi concebido para testar a robustez do modelo contra qualidades de máscara variadas. Compreende dez máscaras por instância, geradas usando vários modelos MaskRCNN. Mais informações sobre os modelos utilizados neste processo de geração são apresentadas na Tabela 8. As máscaras foram correspondidas às instâncias com base no IoU mais elevado com os alpha mattes de referência, garantindo um limiar mínimo de IoU de 70%. As máscaras que não cumpriram este limiar foram geradas artificialmente a partir da referência. Este processo resultou num conjunto abrangente de 134 240 máscaras, com 117 660 para composição e 16 600 para imagens naturais, fornecendo um benchmark robusto para avaliar masked guided instance matting. O conjunto de dados completo I-HIM50K e M-HIM2K será divulgado após a aceitação deste trabalho.
\ 
\ 
\
:::info Autores:
(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);
(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);
(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);
(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).
:::
:::info Este artigo está disponível no arxiv sob licença CC by 4.0 Deed (Attribution 4.0 International).
:::
\


