NVIDIA Nemotron 3 Super arrive sur Together AI avec une fenêtre de contexte de 1M de tokens

Jessie A Ellis 11 mars 2026 21h43

Le modèle Nemotron 3 Super de NVIDIA avec 120 milliards de paramètres est désormais disponible sur Together AI, offrant des gains de débit 5x supérieurs pour les systèmes d'IA multi-agents et les charges de travail d'entreprise.

NVIDIA Nemotron 3 Super arrive sur Together AI avec une fenêtre de contexte de 1M de tokens

Together AI a annoncé le 11 mars la disponibilité du Nemotron 3 Super de NVIDIA sur sa plateforme Dedicated Inference, donnant aux développeurs d'entreprise l'accès à un modèle de raisonnement de 120 milliards de paramètres optimisé pour les systèmes d'IA multi-agents. L'action NVIDIA s'échangeait à 186,03 $, en hausse de 0,66 % suite à cette annonce.

Le timing est important. Nemotron 3 Super représente le deuxième modèle à poids ouverts de NVIDIA dans la famille Nemotron 3, après la sortie de Nano en décembre, et cible un point de douleur spécifique dans l'IA de production : la surcharge de calcul liée à l'exécution de flux de travail d'agents complexes à grande échelle.

Pourquoi l'architecture est importante

Voici ce qui rend ce modèle différent de la course typique au nombre de paramètres. Malgré ses 120 milliards de paramètres au total, seulement 12 milliards sont actifs pendant l'inférence. La conception hybride — combinant l'attention Transformer avec le traitement de séquence Mamba — offre ce que NVIDIA prétend être un débit 5x supérieur au modèle Nemotron Super précédent.

La fenêtre de contexte de 1 million de tokens répond à ce que les développeurs appellent « l'explosion du contexte ». Les applications multi-agents peuvent consommer 15x plus de tokens que les interactions de chat standard, et la plupart des modèles s'effondrent sous cette charge. Nemotron 3 Super gère des bases de code entières, de longs référentiels de documents et des trajectoires d'agents étendues sans chute de performance.

L'entraînement Multi-Token Prediction permet au modèle de générer plusieurs tokens simultanément par passe avant. Pour la génération de code ou les sorties structurées, NVIDIA rapporte une génération de tokens 50 % plus rapide par rapport aux principaux modèles ouverts.

La stratégie de Together AI

L'exécution d'un modèle hybride de 120 milliards avec un contexte d'un million de tokens exige généralement un calcul distribué sur plusieurs nœuds. L'offre Dedicated Inference de Together AI simplifie le déploiement sur un seul GPU NVIDIA H200 ou H100 — aucun approvisionnement de GPU requis du côté du développeur.

La plateforme promet un SLA de disponibilité de 99,9 % et la conformité SOC 2, positionnant ceci comme une infrastructure prête pour l'entreprise plutôt qu'une expérimentation de niveau recherche.

Applications de production

Les cas d'usage cibles incluent les assistants de développeurs analysant des bases de code, les systèmes de traitement de documents d'entreprise, le triage des vulnérabilités de cybersécurité et les couches d'orchestration acheminant des tâches entre des agents spécialisés.

L'approche à poids ouverts — publiée sous la licence NVIDIA Nemotron Open Model License — permet aux équipes d'affiner pour des environnements spécifiques et de déployer sur site, une considération critique pour les entreprises ayant des exigences de souveraineté des données.

NVIDIA a également annoncé NemoClaw le 10 mars, une plateforme open-source pour les agents d'IA qui pourrait compléter les déploiements de Nemotron 3 Super. Les développeurs peuvent accéder au modèle via le niveau d'inférence dédié de Together AI immédiatement.

Source de l'image : Shutterstock

nvidia
infrastructure d'IA
nemotron
together ai
IA d'entreprise

NVIDIA Nemotron 3 Super Frappe Together AI Avec Une Fenêtre de Contexte de 1M Tokens

NVIDIA Nemotron 3 Super arrive sur Together AI avec une fenêtre de contexte de 1M de tokens

Pourquoi l'architecture est importante

La stratégie de Together AI

Applications de production

Vous aimerez peut-être aussi

Le Bitcoin tiendra-t-il les 70 000 $ pour la troisième fois ? La deuxième vague d'Elliott haussière d'Hyperliquid (HYPE), bataille cruciale de résistance pour Ethereum (ETH) : Revue du marché crypto

L'Indice Crypto Fear & Greed chute à 11 alors qu'une peur extrême paralysante s'empare des marchés des actifs numériques

La résistance critique de 211,50 reste ferme alors que la demande de valeurs refuges s'intensifie

Actualités tendance

Historien de premier plan : les messages de guerre obscènes de Trump brisent toutes les normes présidentielles

Le prix de Worldcoin établira-t-il un nouveau plus bas historique malgré le pari de 326M$ d'Eightco ?

Solo Bitcoin Miner atteint une récompense de bloc de 210 000 $ dans une rare victoire de CKpool

La mise à niveau de l'exchange Polymarket introduit CTF Exchange V2 et une garantie adossée à l'USDC

Les législateurs républicains se précipitent pour sauver les stations de radio rurales après avoir voté leur suppression de financement : rapport

Actualités en direct 24h/24 et 7j/7

Prix des cryptomonnaies