O MaGGIe apresenta os conjuntos de dados I-HIM50K e M-HIM2K, com mais de 180.000 máscaras humanas sintetizadas para avaliar a robustez da extração de instâncias.O MaGGIe apresenta os conjuntos de dados I-HIM50K e M-HIM2K, com mais de 180.000 máscaras humanas sintetizadas para avaliar a robustez da extração de instâncias.

Sintetizar dados de matting humano com múltiplas instâncias com MaskRCNN e BG20K

2025/12/20 02:30

Resumo e 1. Introdução

  1. Trabalhos Relacionados

  2. MaGGIe

    3.1. Masked Guided Instance Matting Eficiente

    3.2. Consistência Temporal Feature-Matte

  3. Conjuntos de Dados de Instance Matting

    4.1. Image Instance Matting e 4.2. Video Instance Matting

  4. Experiências

    5.1. Pré-treino em dados de imagem

    5.2. Treino em dados de vídeo

  5. Discussão e Referências

\ Material Suplementar

  1. Detalhes da arquitetura

  2. Image matting

    8.1. Geração e preparação do conjunto de dados

    8.2. Detalhes de treino

    8.3. Detalhes quantitativos

    8.4. Mais resultados qualitativos em imagens naturais

  3. Video matting

    9.1. Geração do conjunto de dados

    9.2. Detalhes de treino

    9.3. Detalhes quantitativos

    9.4. Mais resultados qualitativos

8. Image matting

Esta secção expande o processo de image matting, fornecendo informações adicionais sobre a geração de conjuntos de dados e comparações abrangentes com métodos existentes. Aprofundamos a criação dos conjuntos de dados I-HIM50K e M-HIM2K, oferecemos análises quantitativas detalhadas e apresentamos mais resultados qualitativos para sublinhar a eficácia da nossa abordagem.

8.1. Geração e preparação do conjunto de dados

O conjunto de dados I-HIM50K foi sintetizado a partir do conjunto de dados HHM50K [50], conhecido pela sua extensa coleção de mattes de imagens humanas. Utilizámos um modelo MaskRCNN [14] Resnet-50 FPN 3x, treinado no conjunto de dados COCO, para filtrar imagens de uma única pessoa, resultando num subconjunto de 35 053 imagens. Seguindo a metodologia InstMatt [49], estas imagens foram compostas contra fundos diversos do conjunto de dados BG20K [29], criando cenários multi-instância com 2-5 sujeitos por imagem. Os sujeitos foram redimensionados e posicionados para manter uma escala realista e evitar sobreposição excessiva, conforme indicado pelos IoUs de instância não superiores a 30%. Este processo gerou 49 737 imagens, com uma média de 2,28 instâncias por imagem. Durante o treino, as máscaras de orientação foram geradas através da binarização dos alpha mattes e da aplicação de operações aleatórias de dropout, dilatação e erosão. Exemplos de imagens do I-HIM50K são apresentados na Fig. 10.

\ O conjunto de dados M-HIM2K foi concebido para testar a robustez do modelo contra qualidades de máscara variadas. Compreende dez máscaras por instância, geradas usando vários modelos MaskRCNN. Mais informações sobre os modelos utilizados neste processo de geração são apresentadas na Tabela 8. As máscaras foram correspondidas às instâncias com base no IoU mais elevado com os alpha mattes de referência, garantindo um limiar mínimo de IoU de 70%. As máscaras que não cumpriram este limiar foram geradas artificialmente a partir da referência. Este processo resultou num conjunto abrangente de 134 240 máscaras, com 117 660 para composição e 16 600 para imagens naturais, fornecendo um benchmark robusto para avaliar masked guided instance matting. O conjunto de dados completo I-HIM50K e M-HIM2K será divulgado após a aceitação deste trabalho.

\ Figura 10. Exemplos do conjunto de dados I-HIM50K. (Melhor visualizado a cores).

\ Tabela 8. Dez modelos com qualidade de máscara variada são utilizados no MHIM2K. Os modelos MaskRCNN são do detectron2 treinados no COCO com diferentes configurações.

\

:::info Autores:

(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Este artigo está disponível no arxiv sob licença CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Oportunidade de mercado
Logo de Multichain
Cotação Multichain (MULTI)
$0.03848
$0.03848$0.03848
+3.38%
USD
Gráfico de preço em tempo real de Multichain (MULTI)
Isenção de responsabilidade: Os artigos republicados neste site são provenientes de plataformas públicas e são fornecidos apenas para fins informativos. Eles não refletem necessariamente a opinião da MEXC. Todos os direitos permanecem com os autores originais. Se você acredita que algum conteúdo infringe direitos de terceiros, entre em contato pelo e-mail service@support.mexc.com para solicitar a remoção. A MEXC não oferece garantias quanto à precisão, integridade ou atualidade das informações e não se responsabiliza por quaisquer ações tomadas com base no conteúdo fornecido. O conteúdo não constitui aconselhamento financeiro, jurídico ou profissional, nem deve ser considerado uma recomendação ou endosso por parte da MEXC.