L'article Kubernetes adopte le NVLink multi-nœuds pour des charges de travail IA améliorées est apparu sur BitcoinEthereumNews.com. Timothy Morano 10 nov. 2025 06:48 Le GB200 NVL72 de NVIDIA introduit les ComputeDomains pour une gestion efficace des charges de travail IA sur Kubernetes, facilitant une connectivité GPU sécurisée et à haut débit entre les nœuds. NVIDIA a dévoilé une avancée significative dans l'infrastructure IA avec l'introduction du GB200 NVL72, qui améliore le déploiement et la mise à l'échelle des charges de travail IA sur Kubernetes. Cette innovation est destinée à redéfinir la façon dont les modèles de langage de grande taille sont entraînés et dont les charges de travail d'inférence évolutives à faible latence sont gérées, selon NVIDIA. ComputeDomains : Une nouvelle abstraction Le cœur de ce développement réside dans une nouvelle abstraction Kubernetes appelée ComputeDomains. Cette abstraction est conçue pour simplifier la complexité d'assurer des opérations mémoire GPU-à-GPU sécurisées entre les nœuds en utilisant un tissu NVLink multi-nœuds. Les ComputeDomains sont intégrés dans le pilote NVIDIA DRA pour GPU, reliant les constructions GPU de bas niveau comme NVIDIA NVLink et IMEX avec les concepts de planification natifs de Kubernetes. Les ComputeDomains répondent aux limitations des configurations NVLink statiques, définies manuellement, en créant et gérant dynamiquement les domaines IMEX au fur et à mesure que les charges de travail sont planifiées. Cette flexibilité améliore l'isolation de sécurité, la tolérance aux pannes et l'efficacité des coûts, en faisant une solution robuste pour l'infrastructure IA moderne. Avancées dans la conception des systèmes GPU L'évolution du calcul GPU d'un seul nœud à plusieurs nœuds a été cruciale. Les systèmes NVIDIA DGX antérieurs étaient limités à la mise à l'échelle intra-nœud. Cependant, avec le Multi-Node NVLink (MNNVL) de NVIDIA, les GPU sur différents serveurs peuvent communiquer à pleine bande passante NVLink, transformant un rack entier en un tissu GPU unifié. Cela permet une mise à l'échelle des performances sans faille et constitue la base pour l'entraînement et l'inférence distribués ultra-rapides. Les ComputeDomains capitalisent sur cette avancée en fournissant une méthode native Kubernetes pour prendre en charge le NVLink multi-nœuds, formant déjà la base de plusieurs composants de niveau supérieur dans la pile Kubernetes de NVIDIA. Implémentation et avantages Le pilote NVIDIA DRA pour GPU offre maintenant les ComputeDomains, qui gèrent dynamiquement les domaines IMEX au fur et à mesure que les charges de travail sont planifiées et terminées. Cette gestion dynamique assure...L'article Kubernetes adopte le NVLink multi-nœuds pour des charges de travail IA améliorées est apparu sur BitcoinEthereumNews.com. Timothy Morano 10 nov. 2025 06:48 Le GB200 NVL72 de NVIDIA introduit les ComputeDomains pour une gestion efficace des charges de travail IA sur Kubernetes, facilitant une connectivité GPU sécurisée et à haut débit entre les nœuds. NVIDIA a dévoilé une avancée significative dans l'infrastructure IA avec l'introduction du GB200 NVL72, qui améliore le déploiement et la mise à l'échelle des charges de travail IA sur Kubernetes. Cette innovation est destinée à redéfinir la façon dont les modèles de langage de grande taille sont entraînés et dont les charges de travail d'inférence évolutives à faible latence sont gérées, selon NVIDIA. ComputeDomains : Une nouvelle abstraction Le cœur de ce développement réside dans une nouvelle abstraction Kubernetes appelée ComputeDomains. Cette abstraction est conçue pour simplifier la complexité d'assurer des opérations mémoire GPU-à-GPU sécurisées entre les nœuds en utilisant un tissu NVLink multi-nœuds. Les ComputeDomains sont intégrés dans le pilote NVIDIA DRA pour GPU, reliant les constructions GPU de bas niveau comme NVIDIA NVLink et IMEX avec les concepts de planification natifs de Kubernetes. Les ComputeDomains répondent aux limitations des configurations NVLink statiques, définies manuellement, en créant et gérant dynamiquement les domaines IMEX au fur et à mesure que les charges de travail sont planifiées. Cette flexibilité améliore l'isolation de sécurité, la tolérance aux pannes et l'efficacité des coûts, en faisant une solution robuste pour l'infrastructure IA moderne. Avancées dans la conception des systèmes GPU L'évolution du calcul GPU d'un seul nœud à plusieurs nœuds a été cruciale. Les systèmes NVIDIA DGX antérieurs étaient limités à la mise à l'échelle intra-nœud. Cependant, avec le Multi-Node NVLink (MNNVL) de NVIDIA, les GPU sur différents serveurs peuvent communiquer à pleine bande passante NVLink, transformant un rack entier en un tissu GPU unifié. Cela permet une mise à l'échelle des performances sans faille et constitue la base pour l'entraînement et l'inférence distribués ultra-rapides. Les ComputeDomains capitalisent sur cette avancée en fournissant une méthode native Kubernetes pour prendre en charge le NVLink multi-nœuds, formant déjà la base de plusieurs composants de niveau supérieur dans la pile Kubernetes de NVIDIA. Implémentation et avantages Le pilote NVIDIA DRA pour GPU offre maintenant les ComputeDomains, qui gèrent dynamiquement les domaines IMEX au fur et à mesure que les charges de travail sont planifiées et terminées. Cette gestion dynamique assure...

Kubernetes adopte le NVLink multi-nœuds pour des charges de travail IA améliorées



Timothy Morano
10 nov. 2025 06:48

Le GB200 NVL72 de NVIDIA introduit les ComputeDomains pour une gestion efficace des charges de travail d'IA sur Kubernetes, facilitant une connectivité GPU sécurisée et à haute bande passante entre les nœuds.

NVIDIA a dévoilé une avancée significative dans l'infrastructure d'IA avec l'introduction du GB200 NVL72, qui améliore le déploiement et la mise à l'échelle des charges de travail d'IA sur Kubernetes. Cette innovation est destinée à redéfinir la façon dont les modèles de langage de grande taille sont entraînés et dont les charges de travail d'inférence évolutives à faible latence sont gérées, selon NVIDIA.

ComputeDomains : Une nouvelle abstraction

Le cœur de ce développement réside dans une nouvelle abstraction Kubernetes appelée ComputeDomains. Cette abstraction est conçue pour simplifier la complexité d'assurer des opérations de mémoire GPU à GPU sécurisées entre les nœuds en utilisant un tissu NVLink multi-nœuds. Les ComputeDomains sont intégrés dans le pilote NVIDIA DRA pour GPU, reliant les constructions GPU de bas niveau comme NVIDIA NVLink et IMEX avec les concepts de planification natifs de Kubernetes.

Les ComputeDomains répondent aux limitations des configurations NVLink statiques, définies manuellement, en créant et gérant dynamiquement les domaines IMEX au fur et à mesure que les charges de travail sont planifiées. Cette flexibilité améliore l'isolation de sécurité, la tolérance aux pannes et l'efficacité des coûts, en faisant une solution robuste pour l'infrastructure d'IA moderne.

Avancées dans la conception des systèmes GPU

L'évolution du calcul GPU de nœud unique à multi-nœuds a été cruciale. Les systèmes NVIDIA DGX antérieurs étaient limités à la mise à l'échelle intra-nœud. Cependant, avec le Multi-Node NVLink (MNNVL) de NVIDIA, les GPU sur différents serveurs peuvent communiquer à pleine bande passante NVLink, transformant un rack entier en un tissu GPU unifié. Cela permet une mise à l'échelle des performances sans faille et constitue la base pour l'entraînement et l'inférence distribués ultra-rapides.

Les ComputeDomains capitalisent sur cette avancée en fournissant une méthode native à Kubernetes pour prendre en charge le NVLink multi-nœuds, formant déjà la base de plusieurs composants de niveau supérieur dans la pile Kubernetes de NVIDIA.

Implémentation et avantages

Le pilote NVIDIA DRA pour GPU offre maintenant les ComputeDomains, qui gèrent dynamiquement les domaines IMEX au fur et à mesure que les charges de travail sont planifiées et terminées. Cette gestion dynamique garantit que chaque charge de travail obtient son propre domaine IMEX isolé, facilitant la communication GPU à GPU sécurisée tout en maintenant une utilisation élevée des ressources.

Les ComputeDomains permettent une intégration et une gestion transparentes entre les nœuds, s'ajustant dynamiquement à mesure que les charges de travail augmentent ou diminuent. Cela améliore non seulement la sécurité et l'isolation des pannes, mais maximise également l'utilisation des ressources, particulièrement dans les environnements multi-locataires.

Perspectives d'avenir

La dernière version du pilote NVIDIA DRA pour GPU, version 25.8.0, comprend des améliorations significatives pour les ComputeDomains. Ces améliorations visent à fournir une planification plus flexible et une facilité d'utilisation, répondant aux limitations actuelles telles que les contraintes de pod unique par nœud et augmentant l'utilisation des ressources.

Alors que NVIDIA continue de repousser les limites de l'infrastructure d'IA, les ComputeDomains sont sur le point de devenir une pierre angulaire pour l'orchestration d'IA évolutive et consciente de la topologie sur des plateformes comme le GB200 NVL72. Ces innovations promettent de rationaliser l'entraînement et l'inférence multi-nœuds, rendant les charges de travail distribuées plus simples à déployer et à gérer sur Kubernetes.

Source de l'image : Shutterstock

Source : https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.