Timothy Morano
10 de Nov de 2025 06:48
O GB200 NVL72 da NVIDIA introduz ComputeDomains para gestão eficiente de cargas de trabalho de IA no Kubernetes, facilitando conectividade GPU segura e de alta largura de banda entre nós.
A NVIDIA revelou um avanço significativo na infraestrutura de IA com a introdução do GB200 NVL72, que melhora a implementação e escalabilidade de cargas de trabalho de IA no Kubernetes. Esta inovação irá redefinir como os modelos de linguagem grandes são treinados e como as cargas de trabalho de inferência escaláveis e de baixa latência são geridas, segundo a NVIDIA.
ComputeDomains: Uma Nova Abstração
O núcleo deste desenvolvimento reside numa nova abstração do Kubernetes chamada ComputeDomains. Esta abstração foi projetada para simplificar a complexidade de garantir operações seguras de memória GPU-para-GPU entre nós usando um tecido NVLink multi-nó. Os ComputeDomains são integrados no driver NVIDIA DRA para GPUs, conectando construções GPU de baixo nível como NVIDIA NVLink e IMEX com conceitos de agendamento nativos do Kubernetes.
Os ComputeDomains abordam as limitações das configurações NVLink estáticas e definidas manualmente, criando e gerindo dinamicamente domínios IMEX à medida que as cargas de trabalho são agendadas. Esta flexibilidade melhora o isolamento de segurança, a tolerância a falhas e a eficiência de custos, tornando-se uma solução robusta para infraestrutura de IA moderna.
Avanços no Design de Sistemas GPU
A evolução da computação GPU de nó único para multi-nó tem sido fundamental. Os sistemas NVIDIA DGX anteriores eram limitados à escalabilidade intra-nó. No entanto, com o Multi-Node NVLink (MNNVL) da NVIDIA, as GPUs em diferentes servidores podem comunicar com largura de banda NVLink completa, transformando um rack inteiro num tecido GPU unificado. Isto permite uma escalabilidade de desempenho perfeita e forma a base para treinamento e inferência distribuídos ultra-rápidos.
Os ComputeDomains capitalizam este avanço fornecendo uma maneira nativa do Kubernetes para suportar NVLink multi-nó, já formando a base para vários componentes de nível superior na pilha Kubernetes da NVIDIA.
Implementação e Benefícios
O driver NVIDIA DRA para GPUs agora oferece ComputeDomains, que gerem dinamicamente domínios IMEX à medida que as cargas de trabalho são agendadas e concluídas. Esta gestão dinâmica garante que cada carga de trabalho obtenha seu próprio domínio IMEX isolado, facilitando a comunicação segura GPU-para-GPU enquanto mantém alta utilização de recursos.
Os ComputeDomains permitem integração e gestão perfeitas entre nós, ajustando-se dinamicamente à medida que as cargas de trabalho crescem ou diminuem. Isto não só melhora a segurança e o isolamento de falhas, mas também maximiza a utilização de recursos, particularmente em ambientes multi-inquilino.
Perspectivas Futuras
A última versão do driver NVIDIA DRA para GPUs, versão 25.8.0, inclui melhorias significativas para ComputeDomains. Estes aprimoramentos visam proporcionar agendamento mais flexível e facilidade de uso, abordando limitações atuais como restrições de pod único por nó e aumentando a utilização de recursos.
À medida que a NVIDIA continua a ultrapassar os limites da infraestrutura de IA, os ComputeDomains estão posicionados para se tornarem uma pedra angular para orquestração de IA escalável e consciente da topologia em plataformas como o GB200 NVL72. Estas inovações prometem simplificar o treinamento e inferência multi-nó, tornando as cargas de trabalho distribuídas mais simples de implementar e gerir no Kubernetes.
Fonte da imagem: Shutterstock
Fonte: https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads








