Timothy Morano
2025年11月10日 06:48 (UTC +8)
NVIDIA 的 GB200 NVL72 引入了 ComputeDomains,用於在 Kubernetes 上高效管理 AI 工作負載,促進節點間安全、高頻寬的 GPU 連接。
NVIDIA 推出了 GB200 NVL72,這是 AI 基礎設施的重大進步,增強了在 Kubernetes 上部署和擴展 AI 工作負載的能力。根據 NVIDIA 表示,這項創新將重新定義大型語言模型的訓練方式以及可擴展、低延遲推論工作負載的管理方式。
ComputeDomains:全新抽象概念
這項開發的核心在於一種名為 ComputeDomains 的新型 Kubernetes 抽象概念。這種抽象概念旨在簡化使用多節點 NVLink 架構確保節點間安全 GPU 到 GPU 記憶體操作的複雜性。ComputeDomains 已整合到 NVIDIA 的 GPU DRA 驅動程式中,將 NVIDIA NVLink 和 IMEX 等低階 GPU 結構與 Kubernetes 原生排程概念連接起來。
ComputeDomains 通過動態創建和管理工作負載排程時的 IMEX 域,解決了靜態、手動定義 NVLink 設置的限制。這種靈活性增強了安全隔離、容錯能力和成本效益,使其成為現代 AI 基礎設施的強大解決方案。
GPU 系統設計的進步
從單節點到多節點 GPU 計算的演進至關重要。早期的 NVIDIA DGX 系統僅限於節點內擴展。然而,藉助 NVIDIA 的多節點 NVLink (MNNVL),不同伺服器上的 GPU 可以以完整的 NVLink 頻寬進行通信,將整個機架轉變為統一的 GPU 架構。這實現了無縫的性能擴展,並為超快速分佈式訓練和推論奠定了基礎。
ComputeDomains 利用這一進步,提供了支持多節點 NVLink 的 Kubernetes 原生方式,已經成為 NVIDIA Kubernetes 堆疊中幾個更高級別組件的基礎。
實施和優勢
NVIDIA 的 GPU DRA 驅動程式現在提供 ComputeDomains,可在工作負載排程和完成時動態管理 IMEX 域。這種動態管理確保每個工作負載都有自己獨立的 IMEX 域,促進安全的 GPU 到 GPU 通信,同時保持高資源利用率。
ComputeDomains 允許節點間的無縫整合和管理,隨著工作負載的增長或縮減動態調整。這不僅增強了安全性和故障隔離,還最大化了資源利用率,特別是在多租戶環境中。
未來展望
NVIDIA GPU DRA 驅動程式的最新版本 25.8.0 包含了對 ComputeDomains 的重大改進。這些增強旨在提供更靈活的排程和易用性,解決當前的限制,如每個節點單一 Pod 的約束,並增加資源利用率。
隨著 NVIDIA 繼續推動 AI 基礎設施的界限,ComputeDomains 有望成為 GB200 NVL72 等平台上可擴展、拓撲感知 AI 編排的基石。這些創新承諾簡化多節點訓練和推論,使分佈式工作負載在 Kubernetes 上更容易部署和管理。
圖片來源:Shutterstock
來源:https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads








