Desempenho de inferência de IA do NVIDIA NVLink e Fusion Drive

Rongchai Wang
22 de agosto de 2025 05:13

As tecnologias NVLink e NVLink Fusion da NVIDIA estão redefinindo o desempenho de inferência de IA com escalabilidade e flexibilidade aprimoradas para atender ao crescimento exponencial na complexidade dos modelos de IA.

O rápido avanço na complexidade dos modelos de inteligência artificial (IA) aumentou significativamente a contagem de parâmetros de milhões para trilhões, necessitando de recursos computacionais sem precedentes. Esta evolução exige clusters de GPUs para gerenciar a carga, como destacado por Joe DeLaere em uma publicação recente no blog da NVIDIA.

Evolução e Impacto do NVLink

A NVIDIA introduziu o NVLink em 2016 para superar as limitações do PCIe em computação de alto desempenho e cargas de trabalho de IA, facilitando comunicação mais rápida entre GPUs e espaço de memória unificado. A tecnologia NVLink evoluiu significativamente, com a introdução do NVLink Switch em 2018 alcançando 300 GB/s de largura de banda total em uma topologia de 8 GPUs, abrindo caminho para tecidos de computação escaláveis.

O NVLink de quinta geração, lançado em 2024, suporta 72 GPUs com comunicação total a 1.800 GB/s, oferecendo uma largura de banda agregada de 130 TB/s—800 vezes mais que a primeira geração. Este avanço contínuo alinha-se com a crescente complexidade dos modelos de IA e suas demandas computacionais.

NVLink Fusion: Personalização e Flexibilidade

O NVLink Fusion foi projetado para fornecer aos hyperscalers acesso às tecnologias de escala do NVLink, permitindo integração de silício personalizado com a arquitetura da NVIDIA para implantação de infraestrutura de IA semi-personalizada. A tecnologia abrange SERDES NVLink, chiplets, switches e arquitetura em escala de rack, oferecendo uma solução modular de rack MGX do Open Compute Project (OCP) para flexibilidade de integração.

O NVLink Fusion suporta configurações personalizadas de CPU e XPU usando IP e interface Universal Chiplet Interconnect Express (UCIe), proporcionando aos clientes flexibilidade para suas necessidades de integração XPU em várias plataformas. Para configurações de CPU personalizadas, a integração do IP NVIDIA NVLink-C2C é recomendada para conectividade e desempenho ideais de GPU.

Maximizando a Receita da Fábrica de IA

O tecido de escala NVLink melhora significativamente a produtividade da fábrica de IA, otimizando o equilíbrio entre throughput por watt e latência. A arquitetura de rack de 72 GPUs da NVIDIA desempenha um papel crucial no atendimento às necessidades de computação de IA, permitindo desempenho de inferência ideal em vários casos de uso. A capacidade da tecnologia de escalar configurações maximiza receita e desempenho, mesmo quando a velocidade do NVLink é constante.

Um Ecossistema de Parceiros Robusto

O NVLink Fusion beneficia-se de um extenso ecossistema de silício, incluindo parceiros para silício personalizado, CPUs e tecnologia IP, garantindo amplo suporte e capacidades rápidas de design-in. A rede de parceiros de sistema e fornecedores de componentes de infraestrutura de data center já estão construindo sistemas NVIDIA GB200 NVL72 e GB300 NVL72, acelerando o tempo de entrada no mercado dos adotantes.

Avanços no Raciocínio de IA

O NVLink representa um salto significativo no atendimento à demanda de computação na era do raciocínio de IA. Ao aproveitar uma década de expertise em tecnologias NVLink e os padrões abertos da arquitetura de rack OCP MGX, o NVLink Fusion capacita hyperscalers com desempenho excepcional e opções de personalização.

Fonte da imagem: Shutterstock

Fonte: https://blockchain.news/news/nvidia-nvlink-fusion-ai-inference-performance