NVIDIA запускает DynoSim для эффективной оптимизации обслуживания ИИ

Felix Pinkston
29 мая 2026 23:09

DynoSim от NVIDIA ускоряет развёртывание моделей ИИ, симулируя границу Парето для рабочих нагрузок, снижая затраты на GPU и повышая эффективность.

NVIDIA представила DynoSim — инструмент симуляции, разработанный для оптимизации развёртывания больших языковых моделей (LLM) путём построения границы Парето для конфигураций рабочих нагрузок. Инструмент, анонсированный 29 мая 2026 года, призван снизить затраты на GPU и упростить планирование инфраструктуры для обслуживания ИИ в масштабе.

Современное обслуживание LLM отличается высокой сложностью и включает взаимозависимые переменные, такие как конфигурации тензорного параллелизма, поведение кэша, настройки планировщика и пороги автомасштабирования. Тестирование этих конфигураций в реальных условиях требует много времени и средств. Именно здесь на помощь приходит DynoSim — дискретно-событийный симулятор, воспроизводящий стек обслуживания ИИ Dynamo от NVIDIA с атомарной детализацией. Моделируя тайминги прямого прохода, поведение планировщика и взаимодействия с кэшем, DynoSim обеспечивает быстрое экспериментирование без расходования дорогостоящих ресурсов GPU.

Например, в тесте, симулирующем 23 608 запросов с использованием трассировки Mooncake от NVIDIA, DynoSim завершил рабочую нагрузку всего за 2,41 секунды на скромном Apple M4 MacBook Air — что в 1 500 раз быстрее обработки в реальном времени. Это позволяет разработчикам тестировать тысячи сценариев развёртывания за считанные минуты, избегая трудоёмких циклов «тест-и-проверка», типичных для крупномасштабной инфраструктуры ИИ.

Как работает DynoSim

DynoSim работает на виртуальной временной шкале, основанной на дискретно-событийном моделировании (DES). Вместо выполнения операций в реальном времени он планирует будущие события — такие как поступление запросов, перемещение кэша или рабочие нагрузки GPU — и сразу переходит к следующей временной метке. Этот метод позволяет системе эффективно моделировать решения и их каскадные последствия.

Ключевые функции включают:

Воспроизведение трассировок: симулирует трассировки рабочих нагрузок и собирает метрики, такие как пропускная способность, задержка и повторное использование кэша.
Атомарная точность: моделирует эффекты конкретных серверных компонентов, обеспечивая детальный анализ производительности.
Многодвижковая симуляция: фиксирует сложные петли обратной связи между политиками маршрутизации, состоянием кэша и решениями планировщика.

Например, KV-маршрутизация с учётом кэша в DynoSim улучшила повторное использование префиксного кэша с 38% до 44%, сократив время до первого токена (TTFT) и увеличив пропускную способность в симулированных тестах. Аналогично, включение кэширования на уровне хост-памяти G2 сократило задержки повторного вычисления prefill на 19,3%, что подчёркивает его полезность для настройки иерархий кэша.

Значение для инфраструктуры ИИ

Появление DynoSim имеет большое значение для предприятий, развёртывающих LLM или другие ресурсоёмкие модели ИИ. Он делает крупномасштабные эксперименты практичными, помогая командам определять оптимальные конфигурации до выделения циклов GPU. NVIDIA видит DynoSim как подход «симуляция прежде всего» для проектирования развёртывания, при котором симуляции формируют краткий список конфигураций для валидации на реальных кластерах.

Помимо оптимизации, DynoSim открывает возможности для открытий. NVIDIA протестировала инструмент для оценки политик автомасштабирования, алгоритмов маршрутизатора и стратегий кэширования. Ранние результаты, такие как настройка интервалов масштабирования до оптимального диапазона 5–10 секунд, демонстрируют, как инструмент может выявлять практически применимые выводы, которые часто упускаются в статических тестах.

Взгляд в будущее

NVIDIA планирует интегрировать DynoSim с производственными рабочими процессами, обеспечивая непрерывную повторную оптимизацию на основе данных о живом трафике. По мере эволюции трафика — смещения рабочих нагрузок, изменения паттернов всплесков — симулятор сможет рекомендовать или напрямую применять обновлённые конфигурации, поддерживая работу систем на пиковой эффективности.

Благодаря скорости, точности и гибкости DynoSim имеет потенциал стать ключевым инструментом для управления растущей сложностью инфраструктуры обслуживания ИИ. Для команд, сталкивающихся с задачами масштабирования современного ИИ, это убедительный шаг вперёд в снижении затрат и повышении производительности.

Источник изображения: Shutterstock

Source: https://blockchain.news/news/nvidia-dynosim-ai-serving-optimization