NVIDIA Nemotron 3 Super Lanceert op Together AI met 1M Token Contextvenster
Jessie A Ellis 11 mrt 2026 21:43
NVIDIA's 120B-parameter Nemotron 3 Super model nu beschikbaar op Together AI, met 5x doorvoerwinst voor multi-agent AI-systemen en zakelijke workloads.
Together AI kondigde op 11 maart de beschikbaarheid aan van NVIDIA's Nemotron 3 Super op zijn Dedicated Inference-platform, waardoor zakelijke ontwikkelaars toegang krijgen tot een 120-miljard-parameter redeneermodel geoptimaliseerd voor multi-agent AI-systemen. NVIDIA-aandelen werden verhandeld op $186,03, met een stijging van 0,66% op het nieuws.
De timing is belangrijk. Nemotron 3 Super vertegenwoordigt NVIDIA's tweede open-weight model in de Nemotron 3-familie, na de Nano-release in december, en richt zich op een specifiek pijnpunt in productie-AI: de computationele overhead van het uitvoeren van complexe agent-workflows op schaal.
Waarom de Architectuur Belangrijk Is
Dit is wat dit model anders maakt dan de typische parameter-count wapenwedloop. Ondanks zijn 120B totale parameters, zijn slechts 12B actief tijdens inferentie. Het hybride ontwerp—dat Transformer-attention combineert met Mamba-sequentieverwerking—levert wat NVIDIA claimt een 5x hogere doorvoer te zijn dan het vorige Nemotron Super-model.
Het 1-miljoen-token contextvenster pakt aan wat ontwikkelaars "context explosie" noemen. Multi-agent applicaties kunnen 15x meer tokens verbruiken dan standaard chat-interacties, en de meeste modellen stikken in die belasting. Nemotron 3 Super verwerkt volledige codebases, lange documentopslag en uitgebreide agent-trajecten zonder prestatieverlies.
Multi-Token Prediction-training stelt het model in staat om meerdere tokens tegelijkertijd te genereren per forward pass. Voor codegeneratie of gestructureerde outputs rapporteert NVIDIA 50% snellere tokengeneratie vergeleken met toonaangevende open modellen.
Together AI's Strategie
Het uitvoeren van een 120B hybride model met miljoen-token context vereist doorgaans gedistribueerde berekeningen over meerdere nodes. Together AI's Dedicated Inference-aanbod vereenvoudigt implementatie naar enkele NVIDIA H200 of H100 GPU's—zonder GPU-provisioning vereist aan de kant van de ontwikkelaar.
Het platform belooft 99,9% uptime SLA en SOC 2-compliance, wat dit positioneert als enterprise-ready infrastructuur in plaats van experimentatie op onderzoeksniveau.
Productietoepassingen
Doelgebruikscases omvatten ontwikkelaarassistenten die codebases analyseren, zakelijke documentverwerkingssystemen, cybersecurity kwetsbaarheidstriage en orchestratielagen die taken routeren tussen gespecialiseerde agents.
De open-weights benadering—vrijgegeven onder NVIDIA's Nemotron Open Model License—stelt teams in staat om fine-tuning uit te voeren voor specifieke omgevingen en on-premise te implementeren, een kritieke overweging voor bedrijven met vereisten voor gegevenssoevereiniteit.
NVIDIA kondigde op 10 maart ook NemoClaw aan, een open-source platform voor AI-agents dat Nemotron 3 Super-implementaties zou kunnen aanvullen. Ontwikkelaars kunnen het model onmiddellijk openen via Together AI's dedicated inference-tier.
Afbeeldingsbron: Shutterstock- nvidia
- ai-infrastructuur
- nemotron
- together ai
- enterprise ai








