NVIDIA Nemotron 3 Super arrive sur Together AI avec une fenêtre de contexte de 1M de tokens
Jessie A Ellis 11 mars 2026 21h43
Le modèle Nemotron 3 Super de NVIDIA avec 120 milliards de paramètres est désormais disponible sur Together AI, offrant des gains de débit 5x supérieurs pour les systèmes d'IA multi-agents et les charges de travail d'entreprise.
Together AI a annoncé le 11 mars la disponibilité du Nemotron 3 Super de NVIDIA sur sa plateforme Dedicated Inference, donnant aux développeurs d'entreprise l'accès à un modèle de raisonnement de 120 milliards de paramètres optimisé pour les systèmes d'IA multi-agents. L'action NVIDIA s'échangeait à 186,03 $, en hausse de 0,66 % suite à cette annonce.
Le timing est important. Nemotron 3 Super représente le deuxième modèle à poids ouverts de NVIDIA dans la famille Nemotron 3, après la sortie de Nano en décembre, et cible un point de douleur spécifique dans l'IA de production : la surcharge de calcul liée à l'exécution de flux de travail d'agents complexes à grande échelle.
Pourquoi l'architecture est importante
Voici ce qui rend ce modèle différent de la course typique au nombre de paramètres. Malgré ses 120 milliards de paramètres au total, seulement 12 milliards sont actifs pendant l'inférence. La conception hybride — combinant l'attention Transformer avec le traitement de séquence Mamba — offre ce que NVIDIA prétend être un débit 5x supérieur au modèle Nemotron Super précédent.
La fenêtre de contexte de 1 million de tokens répond à ce que les développeurs appellent « l'explosion du contexte ». Les applications multi-agents peuvent consommer 15x plus de tokens que les interactions de chat standard, et la plupart des modèles s'effondrent sous cette charge. Nemotron 3 Super gère des bases de code entières, de longs référentiels de documents et des trajectoires d'agents étendues sans chute de performance.
L'entraînement Multi-Token Prediction permet au modèle de générer plusieurs tokens simultanément par passe avant. Pour la génération de code ou les sorties structurées, NVIDIA rapporte une génération de tokens 50 % plus rapide par rapport aux principaux modèles ouverts.
La stratégie de Together AI
L'exécution d'un modèle hybride de 120 milliards avec un contexte d'un million de tokens exige généralement un calcul distribué sur plusieurs nœuds. L'offre Dedicated Inference de Together AI simplifie le déploiement sur un seul GPU NVIDIA H200 ou H100 — aucun approvisionnement de GPU requis du côté du développeur.
La plateforme promet un SLA de disponibilité de 99,9 % et la conformité SOC 2, positionnant ceci comme une infrastructure prête pour l'entreprise plutôt qu'une expérimentation de niveau recherche.
Applications de production
Les cas d'usage cibles incluent les assistants de développeurs analysant des bases de code, les systèmes de traitement de documents d'entreprise, le triage des vulnérabilités de cybersécurité et les couches d'orchestration acheminant des tâches entre des agents spécialisés.
L'approche à poids ouverts — publiée sous la licence NVIDIA Nemotron Open Model License — permet aux équipes d'affiner pour des environnements spécifiques et de déployer sur site, une considération critique pour les entreprises ayant des exigences de souveraineté des données.
NVIDIA a également annoncé NemoClaw le 10 mars, une plateforme open-source pour les agents d'IA qui pourrait compléter les déploiements de Nemotron 3 Super. Les développeurs peuvent accéder au modèle via le niveau d'inférence dédié de Together AI immédiatement.
Source de l'image : Shutterstock- nvidia
- infrastructure d'IA
- nemotron
- together ai
- IA d'entreprise








