MaGGIe превосходно справляется с визуализацией волос и разделением экземпляров на естественных изображениях, превосходя MGM и InstMatt в сложных многоэкземплярных сценариях.MaGGIe превосходно справляется с визуализацией волос и разделением экземпляров на естественных изображениях, превосходя MGM и InstMatt в сложных многоэкземплярных сценариях.

Устойчивое маскированное матирование: управление зашумленными входными данными и универсальностью объектов

2025/12/21 02:00

Резюме и 1. Введение

  1. Связанные работы

  2. MaGGIe

    3.1. Эффективное маскированное управляемое извлечение экземпляров

    3.2. Временная согласованность функций и матов

  3. Наборы данных для извлечения экземпляров

    4.1. Извлечение экземпляров изображений и 4.2. Извлечение экземпляров видео

  4. Эксперименты

    5.1. Предварительное обучение на данных изображений

    5.2. Обучение на видеоданных

  5. Обсуждение и ссылки

\ Дополнительные материалы

  1. Детали архитектуры

  2. Извлечение изображений

    8.1. Генерация и подготовка набора данных

    8.2. Детали обучения

    8.3. Количественные детали

    8.4. Больше качественных результатов на естественных изображениях

  3. Извлечение видео

    9.1. Генерация набора данных

    9.2. Детали обучения

    9.3. Количественные детали

    9.4. Больше качественных результатов

8.4. Больше качественных результатов на естественных изображениях

Рис. 13 демонстрирует производительность нашей модели в сложных сценариях, особенно в точной визуализации областей волос. Наш фреймворк постоянно превосходит MGM⋆ в сохранении деталей, особенно при сложных взаимодействиях экземпляров. По сравнению с InstMatt наша модель демонстрирует превосходное разделение экземпляров и точность деталей в неоднозначных областях.

\ Рис. 14 и рис. 15 иллюстрируют производительность нашей модели и предыдущих работ в экстремальных случаях с множественными экземплярами. В то время как MGM⋆ испытывает трудности с шумом и точностью в плотных сценариях с экземплярами, наша модель сохраняет высокую точность. InstMatt без дополнительных обучающих данных показывает ограничения в этих сложных условиях.

\ Надежность нашего подхода с масочным управлением дополнительно продемонстрирована на рис. 16. Здесь мы выделяем проблемы, с которыми сталкиваются варианты MGM и SparseMat при прогнозировании отсутствующих частей в масочных входных данных, которые решает наша модель. Однако важно отметить, что наша модель не предназначена для работы в качестве сети сегментации человеческих экземпляров. Как показано на рис. 17, наш фреймворк следует входному руководству, обеспечивая точное прогнозирование альфа-мата даже при наличии нескольких экземпляров в одной маске.

\ Наконец, рис. 12 и рис. 11 подчеркивают возможности обобщения нашей модели. Модель точно извлекает как человеческие объекты, так и другие объекты с фона, демонстрируя свою универсальность в различных сценариях и типах объектов.

\ Все примеры представляют собой интернет-изображения без эталонных данных, и маска из r101fpn400e используется в качестве руководства.

\ Рисунок 13. Наша модель создает высокодетализированный альфа-мат на естественных изображениях. Наши результаты показывают, что она точна и сопоставима с предыдущими методами, не зависящими от экземпляров и учитывающими экземпляры, без дорогостоящих вычислительных затрат. Красные квадраты увеличивают области деталей для каждого экземпляра. (Лучше всего просматривать в цвете и с цифровым увеличением).

\ Рисунок 14. Наш фреймворк точно разделяет экземпляры в экстремальном случае со многими экземплярами. В то время как MGM часто вызывает перекрытие между экземплярами, а MGM⋆ содержит шумы, наша модель дает сопоставимые результаты с InstMatt, обученным на внешнем наборе данных. Красная стрелка указывает на ошибки. (Лучше всего просматривать в цвете и с цифровым увеличением).

\ Рисунок 15. Наш фреймворк точно разделяет экземпляры за один проход. Предлагаемое решение показывает сопоставимые результаты с InstMatt и MGM без выполнения прогнозирования/уточнения пять раз. Красная стрелка указывает на ошибки. (Лучше всего просматривать в цвете и с цифровым увеличением).

\ Рисунок 16. В отличие от MGM и SparseMat, наша модель устойчива к входной маске руководства. С головкой внимания наша модель дает более стабильные результаты для масочных входных данных без сложного уточнения между экземплярами, как у InstMatt. Красная стрелка указывает на ошибки. (Лучше всего просматривать в цвете и с цифровым увеличением).

\ Рисунок 17. Наше решение правильно работает с многоэкземплярными масочными руководствами. Когда в одной маске руководства существует несколько экземпляров, мы все равно создаем правильный объединенный альфа-мат для этих экземпляров. Красная стрелка указывает на ошибки или область увеличения в красной рамке. (Лучше всего просматривать в цвете и с цифровым увеличением).

\ Таблица 12. Детали количественных результатов на HIM2K+M-HIM2K (расширение таблицы 5). Серым цветом обозначен общедоступный вес без переобучения.

\ Таблица 12. Детали количественных результатов на HIM2K+M-HIM2K (расширение таблицы 5). Серым цветом обозначен общедоступный вес без переобучения. (Продолжение)

\ Таблица 12. Детали количественных результатов на HIM2K+M-HIM2K (расширение таблицы 5). Серым цветом обозначен общедоступный вес без переобучения. (Продолжение)

\ Таблица 12. Детали количественных результатов на HIM2K+M-HIM2K (расширение таблицы 5). Серым цветом обозначен общедоступный вес без переобучения. (Продолжение)

\ Таблица 13. Эффективность предложенных модулей временной согласованности на V-HIM60 (расширение таблицы 6). Комбинация двунаправленного Conv-GRU и прямо-обратного слияния достигает наилучшей общей производительности на трех тестовых наборах. Жирным шрифтом выделено лучшее для каждого уровня.

\

:::info Авторы:

(1) Chuong Huynh, Университет Мэриленда, Колледж-Парк (chuonghm@cs.umd.edu);

(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);

(3) Abhinav Shrivastava, Университет Мэриленда, Колледж-Парк (abhinav@cs.umd.edu);

(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).

:::


:::info Эта статья доступна на arxiv под лицензией CC by 4.0 Deed (Attribution 4.0 International).

:::

\

Возможности рынка
Логотип Mask Network
Mask Network Курс (MASK)
$0.5749
$0.5749$0.5749
+0.26%
USD
График цены Mask Network (MASK) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно