Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекстЭтот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст

Сколько VRAM нужно для нейросетей?

2025/12/21 21:16
7м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Этот пост будет полезен людям, кто хочет разобраться в локальных моделях, особенно использующим их, как инструмент в создании контента, арта и дизайна (контекст нейросетей - image и video). Так же поговорим о выборе видеокарты и параметрах влияющих на генеративные workflow.

Telegram

VRAM requirements

Для начала - график с оптимальными и минимальными значениями VRAM для image и video моделей.

69101d701b7204b656f86dc5692da413.png

Почему упор на обьем VRAM? При недостатке памяти вы либо не запустите модель, либо одна генерация будет длиться 1-2+ минуты (для image), что делает модель абсолютно не юзабельной. И да - с 8 gb можно запустить, например FLUX fp8, но это будет похоже на общение по почте - долго и муторно.

До минимальных значений модель либо выдаст ошибку, либо будет часто забирать global memory, что замедлит ее в разы. Оптимальное значение - это либо официальное требование VRAM, либо максимальное число по комьюнити тестам, выше которого обьем уже не даст приемущества в скорости.

Что влияет на размер нейросети?

Почти все веса модели - это матрицы и вектора (ну или weights and biases), которые еще называют "параметрами", вы могли видеть, что одна модель имеет размер 32B, у GPT-5 вообще 2 триллиона параметров и т.п. Они имеют precision или quantization level и отличаются по количеству байт.

a82b00989ab8e4179faedbd85fa759a4.png95c80e97b10c1cbc21a2cdaf8d1f90c8.png

Самые популярные форматы:

  • FP16 - (16-bit floating point) 2 байта на параметр

  • BF16 - (16-bit floating point) 2 байта - разница в Exponent и Fraction битах

  • FP32 - (32-bit floating point) 4 байта

  • FP8 - здесь начинается квантизация - это самый популярный формат, требует 1 байт на параметр

  • GGUF - уже немного другой формат, но включим его сюда, квантизация начинается от Q2 до Q8, gguf - самый оптимизированный вариант

Соответственно, можно радикально сжать модель, если параметр будет весить не 4 байта, а один.

Quantization

Если у вас недостаточно VRAM, или базовая модель огромна - ищите quantized версии (fp8, GGUF, lightning).

dd7bf89d32ce5f6f7f2d20db341f4491.png

Quantization снижает битность параметра (FP32 --> FP16) и может поменять float на int (FP32 --> INT8), что сильнее оптимизирует нейросеть, снизит computational и memory costs. Говорят даже о снижении потребления энергии, но это в теории.

Да, за оптимизацию нужно платить качеством, но это не столь критично, когда стоит вопрос между использованием и не использованием нейросети.

(По правде, в личных тестах я почти не заметил отличий FLUX.1-Dev и fp8 версии, они становятся видны при снижении количества параметров (WAN 2.2 (14B) и (WAN 2.2 (5B)) или с изменением workflow (FLUX-Dev и FLUX.Schnell))

Зачем вам GPU?

86770e2917b0d4ff63df79bf57b53768.png

Нейросети нагружают железо матричными операциями, сами матрицы большие, нейронов и слоев бывает много - значит нам важен обьем памяти и скорость вычислений.

bf55e3a6d7c5951aa8f6b5cf202923df.png096a2ca162915b6d0d62fa8598f9c067.gif

За вычисления отвечают ядра, у GPU их больше, чем у CPU, плюс отличия в архитектуре дают многократное приемущество в паралельных задачах. Тензорные ядра могут складывать и умножать матрицы за одну операцию. Все это важно для нейросетей, 3D, мат. анализа и любой big data.

6887eb1a413d0b2f24035341ec3b9a1c.png

При работе с нейросетями приходится делать много итераций: править промт, конфиг, делать тесты и чинить сломанные моменты. Чем короче каждая итерация - тем быстрее дорога к нужному результату.

Основа скорости - тензорные ядра. Они настолько быстрые, что основной проблемой становится скорость VRAM.

Memory bandwidth

0ad7f11aade10a917cda9e41cba14c8a.png

GPU имеет собственную память (VRAM), она разделяется по блокам:

  • Streaming Multiprocessors (SM):

    • Registers

    • Shared Memory

    • L1 Cache

  • L2 Cache

  • Global Memory

L1, Shared Memory, L2, Registers - отличаются по размеру и скорости, не будем останавливаться на них.

Global Memory - самая большая, но наиболее труднодоступная и медленная.

Напомню, что нам важны тензорные ядра, они складывают все наши матрицы и делают это настолько быстро, что могут спокойно простаивать 50% времени, потому что не успели получить новые операции из памяти - здесь возникает bottleneck.

Memory bandwidth (MB) - это скорость перемещения даты между GPU ядрами и блоками памяти. MB и количество тензоров должны быть в балансе. Если у GPU много тензоров, но низкая пропускная способность - толку от них мало. Далее я покажу хорошие примеры потребительских GPU, а сейчас наконец-то переходим к нейросетям!

Нейросети и VRAM

Напомню, что на графике минимальный (до него модель не будет работать) и оптимальный обьем VRAM. Я разбил данные на отрезки по 8, 12, 16, 24-32 gb - они наиболее популярны.

В списке:

Image-models:

  • Stable Diffusion (SD)

  • FLUX

  • Qwen-Image & Qwen-Edit

Video-models:

  • Wan

  • Hunuyan-Video

  • LTX-Video

Желтым цветом отмечены "разблокированные" модели, доступные с увеличением VRAM.

8 gb

7aec736001342716e4a404c4137ff0a5.png

8 gb критически не достаточно для локальных моделей, я сам обновил свою 3070, чтобы плотнее заняться ими. На 8 gb не доступны:

  • Wan 2.2 (14B) - топовая видео модель с комьюнити и различными workflow

  • FLUX.1-Dev будет работать в fp8 версии, но - это самая низкая граница, генерации могут занимать несколько минут

  • по опыту - не доступен любой ControlNet workflow

Здесь находится минимальная граница, вы как бы можете запустить модель, но она будет работать не оптимально, будет залазить в global memory, все будет медленно и доооолго.

12 gb

a27c543ee115fa72dd2d0c07e519ed89.png

Свою RTX 3070 я обновил сразу на 5090, но перед этим пользовался различными VDS серверами и Colab'ом с Runpod'ом. Чаще пользовался A2 на 16 gb или той же 5090 на 32 gb. Не могу поделиться опытом работы на 12 gb.

Тут открываются:

  • FLUX.1 Kontext GGUF (но это нижняя граница)

  • FLUX.2 fp8

Stable Diffusion (SD) не буду даже упоминать - мое мнение вы можете прочесть в ТГ.

16 gb

7b74312f98f7f5d18486354fae968da8.png

Самый оптимальный (на данный момент) обьем, здесь варятся локальные SOTA модели:

  • WAN 2.2 (14B)

  • FLUX.1-Dev и FLUX.2-Dev

  • Qwen-Image

Но на Qwen-Edit памяти уже не хватит, со временем требования вырастут и на актульные модели (чего стоит FLUX.1 и FLUX.2). Для самых жирных моделей потребуется отключить все программы, кроме ComfyUI, чтобы получить полную производительность.

24-32 gb

4b7e6f71cbb2bc68951b5f052d8110ba.png

Территория Control-Net'ов, сложных workflow, файнтюнинга и 90-го семейства RTX.

Разблокирываются:

  • FLUX.1 Kontext

  • Qwen-Image-Edit

Control-Net и сложные workflow применяют технику MoE (Mixture of experts), когда задача распределяется между "экспертными" моделями, из-за этого количество LoRA и даты которую нужно подгружать - возрастает вместе с требованиями к обьему и скорости VRAM.

Для файн-тюнинга нужно прогонять датасет по множеству раз, от размера, количества эпох и отдельных параметров (например Learning Rate'а и длины токена) зависит качество, с бюджетными видеокартами трудно удержать все параметры на приемлемом уровне.

Видеокарты

По аналогии с моделями, для вашего удобства я собрал все популярные RTX карты в одной таблице и сделал анализ, но без цены, потому что не все GPU бывают в наличии, люди живут в разных местах, ситуация с дефицитом постоянно меняется. Решение по цене вы можете сделать самостоятельно, а сейчас посмотрим на 3 ключевых параметра:

  • обьем VRAM

  • Memory bandwidth (gb/s)

  • Количество Tensor Cores

ec33142360117182e534886c9582c489.png

Данные отдельно по каждому параметру:

6cf9c26a14f0c21d0b69ad6a74ad4cbc.pngcdf4d4a44d7e95ad6f611d8385581f6e.png4b8fc93ee34517c61f8d341f5a5c419a.png

VRAM разделены по цвету:

  • красный - недостаточно

  • желтый - терпимо

  • синий - оптимально

  • зеленый - top-pick

  • фиолетовый - особенный случай

  • (Черным отмечен мой выбор GPU)

RTX tier 50

430389b7c0aa7d4089b01f2d4eb156fa.png

Я уже отмечал, что 8 gb недостаточно для локальных нейросетей, поэтому 50-ое семейство - не лучший выбор.

RTX tier 60

5776778cc3f5ce257d4fbc6337c40a59.png

Если вам нужен дешевый и сердитый вариант - это RTX 3060 с 12 gb. Для 16 gb лучше выглядит 5060 Ti, потому что 4060 Ti имеет почти в 2 раза меньший Memory Bandwidth, что может создать ощутимый bottleneck.

RTX tier 70

0b69c0b782a037bc41cd961d310d7f8e.png

Смотрим на версии с 16gb VRAM, между 5070 Super и Ti появляется выбор:

  • Super - 2gb VRAM

  • Ti - 25% Memory Bandwidth

Мое мнение на стороне Super, 2 gb позволят комфортнее пользоваться ПК во время генерации, но вы можете выбрать скорость Ti версии.

RTX tier 80

492bf2f039b35461d0121fe129b66f41.png

Для меня фаворит - 5080 Super из-за 24gb VRAM. Среди других я бы не стал выбирать обычную 5080, а посмотрел в сторону 4080, потому что у 50 серии нет особого прироста в тензорных ядрах, а цена заметно выше.

RTX tier 90

2bec00c64f382d7980d5d1b14aa1a2c5.png

Топ-пик и мой пик - RTX 5090. Сила, мощь и явный отрыв среди вообще всех других видеокарт. Но вы можете взять и 40 серию, и 30.

3090 - особый случай, топ за свои деньги, Xeon среди видеокарт (шутка). Мощный и сердитый вариант, кто хочет отдачи от каждого вложенного рубля.

На этом все, мы рассмотрели нейросети и видеокарты. Кому было интересно и полезно - можете подписаться на мой ТГ-канал. Я пишу про нейросети (в основном локальные), тех арт и иногда про 3D. Спасибо за внимание!

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Главные криптоновости на среду, 15 апреля: крайний срок CLARITY Act, тупик в Сенате

Главные криптоновости на среду, 15 апреля: крайний срок CLARITY Act, тупик в Сенате

Главные новости крипто на среду, 15 апреля: двухнедельный дедлайн по закону CLARITY, тупик в Сенате и более широкие рыночные и политические темы, формирующие криптоиндустрию.
Поделиться
coinlineup2026/04/16 01:18
Разработчики Bitcoin предлагают план квантовой миграции Bitcoin, который заморозит устаревшие монеты

Разработчики Bitcoin предлагают план квантовой миграции Bitcoin, который заморозит устаревшие монеты

Bitcoin Magazine Разработчики Bitcoin предлагают план квантовой миграции Bitcoin, который заморозит устаревшие монеты BIP-361 предлагает перевести Bitcoin с устаревшей криптографии
Поделиться
bitcoinmagazine2026/04/16 00:56
Прорыв цены XRP на следующей неделе? Фрактальный анализ указывает на целевой уровень $40 до конца мая

Прорыв цены XRP на следующей неделе? Фрактальный анализ указывает на целевой уровень $40 до конца мая

Статья «Пробой цены XRP на следующей неделе? Фрактальный анализ указывает на цель в $40 до конца мая» впервые появилась на Coinpedia Fintech News. Аналитик вызвал дискуссию
Поделиться
CoinPedia2026/04/16 00:18

Генезис USD1: 0% + 12% APR

Генезис USD1: 0% + 12% APRГенезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR