Timothy Morano
10 ноя, 2025 06:48
GB200 NVL72 от NVIDIA представляет ComputeDomains для эффективного управления рабочими нагрузками ИИ в Kubernetes, обеспечивая безопасное высокоскоростное соединение GPU между узлами.
NVIDIA представила значительный прогресс в инфраструктуре ИИ с введением GB200 NVL72, который улучшает развертывание и масштабирование рабочих нагрузок ИИ в Kubernetes. По словам NVIDIA, эта инновация должна переопределить способ обучения крупных языковых моделей и управления масштабируемыми рабочими нагрузками с низкой задержкой.
ComputeDomains: Новая абстракция
Основа этой разработки заключается в новой абстракции Kubernetes, называемой ComputeDomains. Эта абстракция предназначена для упрощения сложности обеспечения безопасных операций с памятью GPU-GPU между узлами с использованием многоузловой структуры NVLink. ComputeDomains интегрированы в драйвер NVIDIA DRA для GPU, соединяя низкоуровневые конструкции GPU, такие как NVIDIA NVLink и IMEX, с концепциями планирования, присущими Kubernetes.
ComputeDomains решают ограничения статических, вручную определенных настроек NVLink путем динамического создания и управления доменами IMEX по мере планирования рабочих нагрузок. Эта гибкость повышает изоляцию безопасности, отказоустойчивость и экономическую эффективность, делая ее надежным решением для современной инфраструктуры ИИ.
Достижения в дизайне GPU-систем
Эволюция от одноузловых к многоузловым вычислениям GPU была ключевой. Ранние системы NVIDIA DGX были ограничены внутриузловым масштабированием. Однако с многоузловым NVLink (MNNVL) от NVIDIA, GPU на разных серверах могут обмениваться данными на полной пропускной способности NVLink, превращая целую стойку в единую структуру GPU. Это обеспечивает плавное масштабирование производительности и формирует основу для сверхбыстрого распределенного обучения и вывода.
ComputeDomains используют это достижение, предоставляя нативный для Kubernetes способ поддержки многоузлового NVLink, уже формируя основу для нескольких компонентов более высокого уровня в стеке Kubernetes от NVIDIA.
Реализация и преимущества
Драйвер NVIDIA DRA для GPU теперь предлагает ComputeDomains, которые динамически управляют доменами IMEX по мере планирования и завершения рабочих нагрузок. Это динамическое управление гарантирует, что каждая рабочая нагрузка получает свой собственный изолированный домен IMEX, обеспечивая безопасную связь GPU-GPU при сохранении высокого уровня использования ресурсов.
ComputeDomains обеспечивают беспрепятственную интеграцию и управление между узлами, динамически адаптируясь по мере роста или сокращения рабочих нагрузок. Это не только повышает безопасность и изоляцию отказов, но и максимизирует использование ресурсов, особенно в мультитенантных средах.
Перспективы на будущее
Последний выпуск драйвера NVIDIA DRA для GPU, версия 25.8.0, включает значительные улучшения для ComputeDomains. Эти улучшения направлены на обеспечение более гибкого планирования и простоты использования, решая текущие ограничения, такие как ограничения одного пода на узел, и увеличивая использование ресурсов.
Поскольку NVIDIA продолжает расширять границы инфраструктуры ИИ, ComputeDomains готовы стать краеугольным камнем для масштабируемой, топологически-осознанной оркестрации ИИ на таких платформах, как GB200 NVL72. Эти инновации обещают упростить многоузловое обучение и вывод, делая распределенные рабочие нагрузки проще для развертывания и управления в Kubernetes.
Источник изображения: Shutterstock
Источник: https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads








