Rongchai Wang
22.08.2025 05:13
NVIDIAs NVLink- und NVLink Fusion-Technologien definieren die KI-Inferenzleistung mit verbesserter Skalierbarkeit und Flexibilität neu, um dem exponentiellen Wachstum der KI-Modellkomplexität gerecht zu werden.
Der schnelle Fortschritt in der Komplexität von künstlicher Intelligenz (KI)-Modellen hat die Parameteranzahl von Millionen auf Billionen erheblich erhöht, was beispiellose Rechenressourcen erfordert. Diese Entwicklung verlangt nach Clustern von GPUs zur Bewältigung der Last, wie Joe DeLaere in einem kürzlichen NVIDIA-Blogbeitrag hervorhob.
NVLinks Entwicklung und Auswirkung
NVIDIA führte NVLink 2016 ein, um die Einschränkungen von PCIe im Hochleistungsrechnen und bei KI-Workloads zu überwinden, was eine schnellere GPU-zu-GPU-Kommunikation und einen einheitlichen Speicherraum ermöglicht. Die NVLink-Technologie hat sich erheblich weiterentwickelt, wobei die Einführung des NVLink Switch im Jahr 2018 eine All-to-All-Bandbreite von 300 GB/s in einer 8-GPU-Topologie erreichte und den Weg für skalierbare Rechenstrukturen ebnete.
Die fünfte Generation von NVLink, die 2024 veröffentlicht wurde, unterstützt 72 GPUs mit All-to-All-Kommunikation bei 1.800 GB/s und bietet eine Gesamtbandbreite von 130 TB/s – 800-mal mehr als die erste Generation. Dieser kontinuierliche Fortschritt entspricht der wachsenden Komplexität von KI-Modellen und deren Rechenanforderungen.
NVLink Fusion: Anpassung und Flexibilität
NVLink Fusion wurde entwickelt, um Hyperscalern Zugang zu NVLinks Skalierungstechnologien zu bieten und die Integration von kundenspezifischem Silizium mit NVIDIAs Architektur für den Einsatz halbindividueller KI-Infrastruktur zu ermöglichen. Die Technologie umfasst NVLink SERDES, Chiplets, Switches und Rack-Scale-Architektur und bietet eine modulare Open Compute Project (OCP) MGX-Rack-Lösung für Integrationsflexibilität.
NVLink Fusion unterstützt benutzerdefinierte CPU- und XPU-Konfigurationen mit Universal Chiplet Interconnect Express (UCIe) IP und Schnittstelle und bietet Kunden Flexibilität für ihre XPU-Integrationsanforderungen über Plattformen hinweg. Für benutzerdefinierte CPU-Setups wird die Integration von NVIDIA NVLink-C2C IP für optimale GPU-Konnektivität und -Leistung empfohlen.
Maximierung des KI-Fabrik-Umsatzes
Die NVLink-Skalierungsstruktur verbessert die Produktivität von KI-Fabriken erheblich, indem sie das Gleichgewicht zwischen Durchsatz pro Watt und Latenz optimiert. NVIDIAs 72-GPU-Rack-Architektur spielt eine entscheidende Rolle bei der Erfüllung von KI-Rechenanforderungen und ermöglicht optimale Inferenzleistung in verschiedenen Anwendungsfällen. Die Fähigkeit der Technologie, Konfigurationen zu skalieren, maximiert Umsatz und Leistung, selbst wenn die NVLink-Geschwindigkeit konstant bleibt.
Ein robustes Partner-Ökosystem
NVLink Fusion profitiert von einem umfangreichen Silizium-Ökosystem, einschließlich Partnern für kundenspezifisches Silizium, CPUs und IP-Technologie, was breite Unterstützung und schnelle Design-In-Fähigkeiten gewährleistet. Das Systempartnernetzwerk und Anbieter von Rechenzentrumsinfrastrukturkomponenten bauen bereits NVIDIA GB200 NVL72- und GB300 NVL72-Systeme und beschleunigen so die Markteinführungszeit für Anwender.
Fortschritte im KI-Reasoning
NVLink stellt einen bedeutenden Sprung bei der Bewältigung des Rechenbedarfs im Zeitalter des KI-Reasonings dar. Durch die Nutzung eines Jahrzehnts an Expertise in NVLink-Technologien und der offenen Standards der OCP MGX-Rack-Architektur stattet NVLink Fusion Hyperscaler mit außergewöhnlicher Leistung und Anpassungsoptionen aus.
Bildquelle: Shutterstock
Quelle: https://blockchain.news/news/nvidia-nvlink-fusion-ai-inference-performance


