NVIDIA onthult Vera Rubin POD 40-Rack AI-supercomputer voor agentische workloads
Iris Coleman 16 mrt 2026 19:48
NVIDIA kondigt Vera Rubin POD aan met 1.152 GPU's verspreid over 40 racks, die 60 exaflops leveren en 10x betere inferentieprestaties per watt dan Blackwell.
NVIDIA heeft zojuist de specificaties vrijgegeven van zijn meest ambitieuze AI-infrastructuurproject tot nu toe. De Vera Rubin POD bevat 1.152 Rubin GPU's verspreid over 40 racks, die 60 exaflops rekenkracht leveren en 10 petabytes per seconde aan totale scale-up bandbreedte. Productie-eenheden worden in de tweede helft van 2026 verzonden.
De cijfers zijn verbluffend: 1,2 biljard transistors, bijna 20.000 NVIDIA-dies, allemaal ontworpen om als een enkele coherente supercomputer te functioneren. NVIDIA claimt 4x betere trainingsprestaties en 10x betere inferentieprestaties per watt vergeleken met zijn huidige Blackwell-architectuur—waarbij de tokenkosten dalen tot een tiende van het huidige niveau.
Vijf speciaal gebouwde racksystemen
De POD combineert vijf verschillende rack-schaal systemen, elk gericht op specifieke knelpunten in moderne AI-workloads:
Vera Rubin NVL72 dient als de kern rekenmotor. Elke rack integreert 72 Rubin GPU's en 36 Vera CPU's verbonden via NVLink 6, die 3,6 TB/s bandbreedte per GPU levert—meer totale bandbreedte dan het hele wereldwijde internet, volgens NVIDIA. Het systeem richt zich op alle vier AI-schaalwetten: pre-training, post-training, test-time scaling en agentische scaling.
Groq 3 LPX racks pakken het latentieprobleem aan. Met 256 taalverwerkingseenheden per rack met een SRAM-only architectuur, combineren deze met NVL72 om wat NVIDIA claimt 35x meer tokens en 10x meer omzetmogelijkheden te leveren voor biljoen-parameter modellen versus Blackwell.
Vera CPU racks bieden sandboxomgevingen voor het testen van agents. Een enkele rack ondersteunt meer dan 22.500 gelijktijdige reinforcement learning-omgevingen—cruciaal voor het valideren van agentische AI-outputs vóór implementatie.
BlueField-4 STX racks introduceren wat NVIDIA "AI-native opslag" noemt via het CMX context memory platform. Door KV-cache naar toegewijde hogesnelheidsopslag te offloaden, claimt het systeem 5x hogere tokens-per-seconde en 5x betere energie-efficiëntie dan traditionele benaderingen.
Spectrum-6 SPX networking racks verbinden alles met 102,4 Tb/s switches met co-packaged optics.
Het tokeneconomie-argument
NVIDIA kadert dit rond een specifieke marktrealiteit: tokenconsumptie overschrijdt nu jaarlijks 10 biljard, en de verschuiving van mens-AI naar AI-AI-interacties zal die groei dramatisch versnellen. Moderne agentische systemen genereren massale redeneertokenvolumes terwijl ze KV-cache-vereisten uitbreiden—precies het knelpunt dat deze architectuur aanpakt.
Third-party SemiAnalysis InferenceMax benchmarks aangehaald door NVIDIA tonen aan dat huidige Blackwell-systemen al 50x betere prestaties per watt en 35x lagere kosten per token leveren vergeleken met H200. Vera Rubin beoogt die voorsprong uit te breiden.
Thermische en energietechniek
De derde generatie MGX rack-architectuur introduceert Intelligent Power Smoothing met 6x meer energieopslag op rackniveau (400 joule per GPU) dan vorige generaties. Dit vermindert piekstroomvraag met maximaal 25% en elimineert de noodzaak voor enorme batterijpakketten.
Alle racks werken bij 45°C warm-water inlaattemperaturen, waardoor datacenters in veel klimaten omgevingsluchtkoeling kunnen gebruiken. NVIDIA claimt dat dit genoeg energie vrijmaakt om 10% meer racks toe te voegen binnen hetzelfde energiebudget van de faciliteit.
Vooruitkijken
Naast de initiële POD-configuratie, heeft NVIDIA een voorproefje gegeven van Vera Rubin Ultra NVL576 die schaalt naar 576 GPU's verspreid over acht racks, en de volgende generatie Kyber-architectuur gericht op NVL1152 met 144 GPU's per rack. De roadmap suggereert dat NVIDIA multi-rack NVLink-domeinen ziet als de toekomst van AI-infrastructuur—niet alleen grotere GPU's, maar fundamenteel andere systeemarchitecturen.
Voor ondernemingen die AI-infrastructuurinvesteringen plannen, is de boodschap duidelijk: de economie van AI-rekenkracht verschuift van chip-niveau naar faciliteit-niveau optimalisatie. Degenen die nu datacenters uitbouwen, staan voor een keuze tussen huidige generatie systemen en wachten op Vera Rubin beschikbaarheid eind 2026.
Afbeeldingsbron: Shutterstock- nvidia
- ai-infrastructuur
- vera rubin
- datacenters
- enterprise ai


