Купить крипто Рынки Спот ФьючерсыCXMT Сбережения Центр событий

Еще

Подробности реализации BSGAL на наборе данных LVIS с использованием CenterNet2 с базовыми моделями ResNet-50/Swin-L.Подробности реализации BSGAL на наборе данных LVIS с использованием CenterNet2 с базовыми моделями ResNet-50/Swin-L.

Технические детали: обучение BSGAL, основа Swin-L и стратегия динамического порога

Источник: Hackernoon

2025/12/07 02:00

6м. чтение

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Таблица ссылок

Резюме и 1 Введение

Связанные работы

2.1. Генеративное расширение данных

2.2. Активное обучение и анализ данных
Предварительная информация
Наш метод

4.1. Оценка вклада в идеальном сценарии

4.2. Пакетное потоковое генеративное активное обучение
Эксперименты и 5.1. Офлайн-настройка

5.2. Онлайн-настройка
Заключение, более широкое влияние и ссылки

\

A. Детали реализации

B. Дополнительные исследования

C. Обсуждение

D. Визуализация

A. Детали реализации

A.1. Набор данных

Мы выбрали LVIS (Gupta et al., 2019) в качестве набора данных для наших экспериментов. LVIS - это масштабный набор данных сегментации экземпляров, включающий примерно 160 000 изображений с более чем 2 миллионами высококачественных аннотаций сегментации экземпляров по 1203 категориям реального мира. Набор данных дополнительно разделен на три категории: редкие, обычные и частые, в зависимости от их встречаемости на изображениях. Экземпляры, помеченные как "редкие", встречаются в 1-10 изображениях, "обычные" экземпляры встречаются в 11-100 изображениях, тогда как "частые" экземпляры встречаются более чем в 100 изображениях. Общий набор данных демонстрирует распределение с длинным хвостом, близко напоминающее распределение данных в реальном мире, и широко применяется в различных условиях, включая сегментацию с малым количеством примеров (Liu et al., 2023) и сегментацию открытого мира (Wang et al., 2022; Zhu et al., 2023). Поэтому мы считаем, что выбор LVIS позволяет лучше отразить производительность модели в реальных сценариях. Мы используем официальное разделение набора данных LVIS, с примерно 100 000 изображений в обучающем наборе и 20 000 изображений в валидационном наборе.

A.2. Генерация данных

Наш процесс генерации данных и аннотирования соответствует Zhao et al. (2023), и мы кратко представляем его здесь. Сначала мы используем StableDiffusion V1.5 (Rombach et al., 2022a) (SD) в качестве генеративной модели. Для 1203 категорий в LVIS (Gupta et al., 2019) мы генерируем 1000 изображений на категорию с разрешением изображения 512 × 512. Шаблон запроса для генерации - "a photo of a single {CATEGORY NAME}". Мы используем U2Net (Qin et al., 2020), SelfReformer (Yun and Lin, 2022), UFO (Su et al., 2023) и CLIPseg (Luddecke and Ecker, 2022) соответственно для аннотирования сырых генеративных изображений и выбираем маску с наивысшим показателем CLIP в качестве окончательной аннотации. Для обеспечения качества данных изображения с показателями CLIP ниже 0.21 отфильтровываются как изображения низкого качества. Во время обучения мы также используем стратегию вставки экземпляров, предоставленную Zhao et al. (2023) для расширения данных. Для каждого экземпляра мы случайным образом изменяем его размер, чтобы соответствовать распределению его категории в обучающем наборе. Максимальное количество вставленных экземпляров на изображение установлено на 20.

\ Кроме того, чтобы дополнительно расширить разнообразие сгенерированных данных и сделать наше исследование более универсальным, мы также используем другие генеративные модели, включая DeepFloyd-IF (Shonenkov et al., 2023) (IF) и Perfusion (Tewel et al., 2023) (PER), с 500 изображениями на категорию на модель. Для IF мы используем предварительно обученную модель, предоставленную автором, и сгенерированные изображения являются выходом Stage II с разрешением 256×256. Для PER базовая модель, которую мы используем, - это StableDiffusion V1.5. Для каждой категории мы дообучаем модель, используя изображения, вырезанные из обучающего набора, с 400 шагами дообучения. Мы используем дообученную модель для генерации изображений.

\ Таблица 7. Сравнение различных сгенерированных данных.

\ Мы также исследуем влияние использования различных сгенерированных данных на производительность модели (см. Таблицу 7). Мы видим, что на основе оригинального StableDiffusion V1.5 использование других генеративных моделей может принести некоторое улучшение производительности, но это улучшение не очевидно. В частности, для конкретных категорий частоты мы обнаружили, что IF имеет более значительное улучшение для редких категорий, в то время как PER имеет более значительное улучшение для обычных категорий. Это, вероятно, потому что данные IF более разнообразны, в то время как данные PER более соответствуют распределению обучающего набора. Учитывая, что общая производительность была улучшена до определенной степени, мы в итоге принимаем сгенерированные данные SD + IF + PER для последующих экспериментов.

A.3. Обучение модели

Следуя Zhao et al. (2023), мы используем CenterNet2 (Zhou et al., 2021) в качестве нашей модели сегментации, с ResNet-50 (He et al., 2016) или Swin-L (Liu et al., 2022) в качестве основы. Для ResNet-50 максимальное количество итераций обучения установлено на 90 000, и модель инициализируется весами, сначала предварительно обученными на ImageNet-22k, а затем дообученными на LVIS (Gupta et al., 2019), как это сделали Zhao

\ Рисунок 5. Производительность модели при использовании различного количества сгенерированных данных.

\ et al. (2023). И мы используем 4 GPU Nvidia 4090 с размером пакета 16 во время обучения. Что касается Swin-L, максимальное количество итераций обучения установлено на 180 000, и модель инициализируется весами, предварительно обученными на ImageNet-22k, поскольку наши ранние эксперименты показывают, что эта инициализация может принести небольшое улучшение по сравнению с весами, обученными с LVIS. И мы используем 4 GPU Nvidia A100 с размером пакета 16 для обучения. Кроме того, из-за большого количества параметров Swin-L дополнительная память, занимаемая сохранением градиента, велика, поэтому мы фактически используем алгоритм в Алгоритме 2.

\ Другие неуказанные параметры также следуют тем же настройкам, что и X-Paste (Zhao et al., 2023), таким как оптимизатор AdamW (Loshchilov and Hutter, 2017) с начальной скоростью обучения 1e−4.

A.4. Количество данных

В этой работе мы сгенерировали более 2 миллионов изображений. Рисунок 5 показывает производительность модели при использовании различного количества сгенерированных данных (1%, 10%, 40%, 70%, 100%). В целом, по мере увеличения количества сгенерированных данных производительность модели также улучшается, но также наблюдаются некоторые колебания. Наш метод всегда лучше базового, что доказывает эффективность и надежность нашего метода.

A.5. Оценка вклада

\ Таким образом, мы по существу вычисляем косинусное сходство. Затем мы провели экспериментальное сравнение, как показано в Таблице 8,

\ Таблица 8. Сравнение использования нормализации градиента или нет.

\ Рисунок 6. Иллюстрация шумных изображений, демонстрирующих различные масштабы шума и категории. Каждый ряд, сверху вниз, обозначает различные уровни шума, конкретно 0, 40, 100, 200 и 400 соответственно. Все изображения взяты из набора данных CIFAR-10.

\ мы можем видеть, что если мы нормализуем градиент, наш метод будет иметь определенное улучшение. Кроме того, поскольку нам нужно поддерживать два разных порога, трудно обеспечить согласованность коэффициента принятия. Поэтому мы принимаем стратегию динамического порога, предварительно устанавливаем коэффициент принятия, поддерживаем очередь для сохранения вклада предыдущей итерации, а затем динамически корректируем порог в соответствии с очередью, так что коэффициент принятия остается на предварительно установленном уровне.

A.6. Игрушечный эксперимент

Ниже приведены конкретные экспериментальные настройки, реализованные на CIFAR-10: мы использовали простой ResNet18 в качестве базовой модели и провели обучение в течение 200 эпох, и точность после обучения на оригинальном обучающем наборе составляет 93.02%. Скорость обучения установлена на 0.1, используя оптимизатор SGD. Действует момент 0.9 с весовым распадом 5e-4. Мы используем планировщик скорости обучения с косинусным затуханием. Сконструированные шумные изображения изображены на Рисунке 6. Наблюдается снижение качества изображения по мере увеличения уровня шума. Примечательно, что когда уровень шума достигает 200, изображения становятся значительно сложными для идентификации. Для Таблицы 1 мы используем Split1 как R, в то время как G состоит из 'Split2 + Noise40', 'Split3 + Noise100', 'Split4 + Noise200',

A.7. Упрощение только один раз вперед

:::info Авторы:

(1) Muzhi Zhu, с равным вкладом из Чжэцзянского университета, Китай;

(2) Chengxiang Fan, с равным вкладом из Чжэцзянского университета, Китай;

(3) Hao Chen, Чжэцзянский университет, Китай (haochen.cad@zju.edu.cn);

(4) Yang Liu, Чжэцзянский университет, Китай;

(5) Weian Mao, Чжэцзянский университет, Китай и Университет Аделаиды, Австралия;

(6) Xiaogang Xu, Чжэцзянский университет, Китай;

(7) Chunhua Shen, Чжэцзянский университет, Китай (chunhuashen@zju.edu.cn).

:::

:::info Эта статья доступна на arxiv под лицензией CC BY-NC-ND 4.0 Deed (Attribution-Noncommercial-Noderivs 4.0 International).

:::

Комбо Кубка мира: Цель на 200x

До 20 комбо в матчах Кубка мира за 1 ордер

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Новости 24/7 в прямом эфире

Еще

Падение акций SK Hynix отмечено как потенциальный позитивный рыночный фактор

Автор: Dr.Hash“Wesley”14:46

Артур Хейс приобрёл ETH, что свидетельствует о заметной активности участников рынка и интересе к накоплению

Автор: Lookonchain08:17

Настроения спекулятивного пузыря в полупроводниковом секторе отражают тенденции на рынке недвижимости, влияющие на динамику рынка NVDAON

Автор: DEG07:00

Короткие позиции по Kioxia остаются стабильными, но убыточными, что свидетельствует о сопротивлении рынка медвежьим настроениям

Автор: DEG06:26

Наблюдаемое накопление значительной ликвидности ETH после длительного спада рынка указывает на потенциальный драйвер рыночного движения

Автор: 𝗖𝗛𝗔𝗜𝗡 𝗠𝗜𝗡𝗗 ⛓🧠04:10

Быстрое чтение

Еще

Цены на криптовалюту

Биткоин

BTC

$64,060.85

$64,060.85$64,060.85

-2.09%

Эфириум

ETH

$1,894.64

$1,894.64$1,894.64

-1.93%

USDCoin

USDC

$1.00064

$1.00064$1.00064

0.00%

Солана

SOL

$76.10

$76.10$76.10

-2.52%

Рипл

XRP

$1.1032

$1.1032$1.1032

-2.04%

Активируйте для привилегий

0 комиссий, премиум-поддержка и покрытие убытков.

Технические детали: обучение BSGAL, основа Swin-L и стратегия динамического порога

Таблица ссылок

A. Детали реализации

A.1. Набор данных

A.2. Генерация данных

A.3. Обучение модели

A.4. Количество данных

A.5. Оценка вклада

A.6. Игрушечный эксперимент

A.7. Упрощение только один раз вперед

Вам также может быть интересно

Меняющееся лицо ухода за пожилыми людьми в Малайзии — Сайед Мохаммад Реза Ямани Сайед Умар

Не лазейка: экспортный контроль Сингапура в сфере ИИ позволяет Китаю легально использовать американский ИИ

По ценным бумагам KZOSP проводится дискретный аукцион

Популярные новости

10.07.2026, 10-27 (мск) изменены значения верхней границы ценового коридора и диапазона оценки рыночных рисков ценной бумаги RU000A0JS4Z7 (ВЭБ.РФ 21).

Утреннее обновление NordFX — 10 июля 2026 г.

Торговый баланс Германии в мае вырос до 19,1 млрд евро, значительно превысив прогнозы

Arbitrum объявляет о десяти инновационных командах — и почему это не просто шумиха

ARK Invest Кэти Вуд покупает акции Circle на $13,7 млн, продавая акции Robinhood

Новости 24/7 в прямом эфире

Быстрое чтение

Эффект первой недели MiCA после полной реализации меняет европейский крипторынок

AMD Q2 2026 Earnings Preview ИИ-чипы и бизнес-ожидания ПК

Лучшие проекты сети Robinhood, за которыми стоит следить в 2026 году: от Arcus до CASHCAT

Robinhood не строит еще одну цепочку, а восстанавливает брокерскую деятельность

Мир между США и Ираном рушится, поскольку атаки танкеров повышают риски цен на нефть

Цены на криптовалюту