這篇文章《Kubernetes 擁抱多節點 NVLink 以增強 AI 工作負載》發表於 BitcoinEthereumNews.com。 Timothy Morano 2025年11月10日 14:48 (UTC +8) NVIDIA 的 GB200 NVL72 引入 ComputeDomains 用於在 Kubernetes 上高效管理 AI 工作負載,促進跨節點安全、高頻寬的 GPU 連接。 NVIDIA 隨著 GB200 NVL72 的推出,揭示了 AI 基礎設施的重大進步,增強了 Kubernetes 上 AI 工作負載的部署和擴展。根據 NVIDIA 表示,這項創新將重新定義大型語言模型的訓練方式和可擴展、低延遲推理工作負載的管理方式。ComputeDomains:一種新的抽象概念 這項開發的核心在於一種名為 ComputeDomains 的新 Kubernetes 抽象概念。這種抽象旨在簡化使用多節點 NVLink 結構確保跨節點安全 GPU 到 GPU 記憶體操作的複雜性。ComputeDomains 整合到 NVIDIA DRA GPU 驅動程式中,將 NVIDIA NVLink 和 IMEX 等低級 GPU 結構與 Kubernetes 原生調度概念連接起來。ComputeDomains 通過動態創建和管理工作負載調度時的 IMEX 域,解決了靜態、手動定義 NVLink 設置的限制。這種靈活性增強了安全隔離、容錯能力和成本效益,使其成為現代 AI 基礎設施的強大解決方案。GPU 系統設計的進步 從單節點到多節點 GPU 計算的演變至關重要。早期的 NVIDIA DGX 系統僅限於節點內擴展。然而,使用 NVIDIA 的多節點 NVLink (MNNVL),不同伺服器上的 GPU 可以以完整的 NVLink 頻寬進行通信,將整個機架轉變為統一的 GPU 結構。這實現了無縫性能擴展,並為超快速分佈式訓練和推理奠定了基礎。ComputeDomains 利用這一進步提供了支持多節點 NVLink 的 Kubernetes 原生方式,已經成為 NVIDIA Kubernetes 堆疊中幾個高級組件的基礎。實施和優勢 NVIDIA DRA GPU 驅動程式現在提供 ComputeDomains,可在工作負載調度和完成時動態管理 IMEX 域。這種動態管理確保...這篇文章《Kubernetes 擁抱多節點 NVLink 以增強 AI 工作負載》發表於 BitcoinEthereumNews.com。 Timothy Morano 2025年11月10日 14:48 (UTC +8) NVIDIA 的 GB200 NVL72 引入 ComputeDomains 用於在 Kubernetes 上高效管理 AI 工作負載,促進跨節點安全、高頻寬的 GPU 連接。 NVIDIA 隨著 GB200 NVL72 的推出,揭示了 AI 基礎設施的重大進步,增強了 Kubernetes 上 AI 工作負載的部署和擴展。根據 NVIDIA 表示,這項創新將重新定義大型語言模型的訓練方式和可擴展、低延遲推理工作負載的管理方式。ComputeDomains:一種新的抽象概念 這項開發的核心在於一種名為 ComputeDomains 的新 Kubernetes 抽象概念。這種抽象旨在簡化使用多節點 NVLink 結構確保跨節點安全 GPU 到 GPU 記憶體操作的複雜性。ComputeDomains 整合到 NVIDIA DRA GPU 驅動程式中,將 NVIDIA NVLink 和 IMEX 等低級 GPU 結構與 Kubernetes 原生調度概念連接起來。ComputeDomains 通過動態創建和管理工作負載調度時的 IMEX 域,解決了靜態、手動定義 NVLink 設置的限制。這種靈活性增強了安全隔離、容錯能力和成本效益,使其成為現代 AI 基礎設施的強大解決方案。GPU 系統設計的進步 從單節點到多節點 GPU 計算的演變至關重要。早期的 NVIDIA DGX 系統僅限於節點內擴展。然而,使用 NVIDIA 的多節點 NVLink (MNNVL),不同伺服器上的 GPU 可以以完整的 NVLink 頻寬進行通信,將整個機架轉變為統一的 GPU 結構。這實現了無縫性能擴展,並為超快速分佈式訓練和推理奠定了基礎。ComputeDomains 利用這一進步提供了支持多節點 NVLink 的 Kubernetes 原生方式,已經成為 NVIDIA Kubernetes 堆疊中幾個高級組件的基礎。實施和優勢 NVIDIA DRA GPU 驅動程式現在提供 ComputeDomains,可在工作負載調度和完成時動態管理 IMEX 域。這種動態管理確保...

Kubernetes 擁抱多節點 NVLink 以增強 AI 工作負載

2025/11/11 16:28
閱讀時長 5 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。


Timothy Morano
2025年11月10日 06:48 (UTC +8)

NVIDIA 的 GB200 NVL72 引入了 ComputeDomains,用於在 Kubernetes 上高效管理 AI 工作負載,促進節點間安全、高頻寬的 GPU 連接。

NVIDIA 推出了 GB200 NVL72,這是 AI 基礎設施的重大進步,增強了在 Kubernetes 上部署和擴展 AI 工作負載的能力。根據 NVIDIA 表示,這項創新將重新定義大型語言模型的訓練方式以及可擴展、低延遲推論工作負載的管理方式。

ComputeDomains:全新抽象概念

這項開發的核心在於一種名為 ComputeDomains 的新型 Kubernetes 抽象概念。這種抽象概念旨在簡化使用多節點 NVLink 架構確保節點間安全 GPU 到 GPU 記憶體操作的複雜性。ComputeDomains 已整合到 NVIDIA 的 GPU DRA 驅動程式中,將 NVIDIA NVLink 和 IMEX 等低階 GPU 結構與 Kubernetes 原生排程概念連接起來。

ComputeDomains 通過動態創建和管理工作負載排程時的 IMEX 域,解決了靜態、手動定義 NVLink 設置的限制。這種靈活性增強了安全隔離、容錯能力和成本效益,使其成為現代 AI 基礎設施的強大解決方案。

GPU 系統設計的進步

從單節點到多節點 GPU 計算的演進至關重要。早期的 NVIDIA DGX 系統僅限於節點內擴展。然而,藉助 NVIDIA 的多節點 NVLink (MNNVL),不同伺服器上的 GPU 可以以完整的 NVLink 頻寬進行通信,將整個機架轉變為統一的 GPU 架構。這實現了無縫的性能擴展,並為超快速分佈式訓練和推論奠定了基礎。

ComputeDomains 利用這一進步,提供了支持多節點 NVLink 的 Kubernetes 原生方式,已經成為 NVIDIA Kubernetes 堆疊中幾個更高級別組件的基礎。

實施和優勢

NVIDIA 的 GPU DRA 驅動程式現在提供 ComputeDomains,可在工作負載排程和完成時動態管理 IMEX 域。這種動態管理確保每個工作負載都有自己獨立的 IMEX 域,促進安全的 GPU 到 GPU 通信,同時保持高資源利用率。

ComputeDomains 允許節點間的無縫整合和管理,隨著工作負載的增長或縮減動態調整。這不僅增強了安全性和故障隔離,還最大化了資源利用率,特別是在多租戶環境中。

未來展望

NVIDIA GPU DRA 驅動程式的最新版本 25.8.0 包含了對 ComputeDomains 的重大改進。這些增強旨在提供更靈活的排程和易用性,解決當前的限制,如每個節點單一 Pod 的約束,並增加資源利用率。

隨著 NVIDIA 繼續推動 AI 基礎設施的界限,ComputeDomains 有望成為 GB200 NVL72 等平台上可擴展、拓撲感知 AI 編排的基石。這些創新承諾簡化多節點訓練和推論,使分佈式工作負載在 Kubernetes 上更容易部署和管理。

圖片來源:Shutterstock

來源:https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

USD1 Genesis:0 費率 + 12% APR

USD1 Genesis:0 費率 + 12% APRUSD1 Genesis:0 費率 + 12% APR

新用戶:質押最高享 600% APR。限時福利!