NVIDIA Dynamo améliore le streaming pour les workflows agentiques
Luisa Crawford 08 mai 2026 16:34
NVIDIA Dynamo introduit de nouveaux outils pour des workflows agentiques plus rapides et plus précis, améliorant le streaming de tokens et la gestion des appels d'outils.
NVIDIA a dévoilé des mises à jour significatives de sa plateforme Dynamo, visant à optimiser les workflows agentiques grâce à un streaming amélioré, un meilleur parsing et une gestion perfectionnée des appels d'outils. Ces mises à jour visent à améliorer la réactivité et la précision des applications reposant sur des interactions multi-tours, telles que les assistants de codage et autres outils pilotés par l'IA.
L'un des points forts est l'introduction du dispatch en streaming des appels d'outils. Cette nouvelle fonctionnalité permet aux appels d'outils de s'exécuter dès qu'ils sont décodés, sans attendre la fin du tour de réponse complet. Cette amélioration accélère non seulement le time-to-first-token (TTFT) pour les utilisateurs, mais supprime également les inefficacités dans les workflows d'agents où le raisonnement et les réponses des outils sont entrelacés.
Gains de performance grâce à la stabilité des prompts
Une amélioration centrale porte sur la stabilité des prompts et la réutilisation du cache KV. En éliminant les préambules spécifiques aux sessions, comme les en-têtes de facturation Anthropic, Dynamo garantit des préfixes de tokens cohérents entre les sessions. Ce changement a réduit le TTFT de près de cinq fois lors des tests de NVIDIA, passant de 912 ms à 169 ms, sur un système utilisant un prompt de 52 000 tokens.
Pour les développeurs, le maintien de préfixes stables est crucial lors du traitement de prompts volumineux et complexes sur plusieurs sessions utilisateur. Ces optimisations sont particulièrement précieuses pour les modèles agentiques comme Claude Code et Codex, qui nécessitent des interactions précises et reproductibles pour fonctionner efficacement.
Parsing amélioré pour les interactions complexes
Dynamo a également refondu ses parsers de raisonnement et d'appels d'outils, en les extrayant dans des modules réutilisables. Cela permet aux développeurs d'obtenir un meilleur alignement entre les sorties parsées et les exigences du harness. Les mises à jour résolvent un problème persistant où le raisonnement antérieur était soit supprimé, soit mal formé lors des interactions multi-tours. Dans les workflows agentiques où le raisonnement explique les séquences d'appels d'outils, la conservation d'un raisonnement structuré est essentielle.
Par exemple, NVIDIA a démontré comment son modèle Nemotron-3-Super-120B peut désormais traiter plus efficacement le raisonnement entrelacé et les appels d'outils, garantissant que chaque segment de raisonnement reste correctement attaché à l'action d'outil correspondante. Cela évite les problèmes où le raisonnement était précédemment regroupé de manière incorrecte, entraînant une perte de contexte.
Comportement de streaming et dispatch des outils
Une autre amélioration majeure est la capacité de diffuser des réponses tokenisées tout en envoyant des appels d'outils via un canal secondaire. Auparavant, les appels d'outils étaient mis en mémoire tampon jusqu'à la fin d'une réponse, retardant leur exécution. Grâce aux nouvelles capacités de streaming inline et de dispatch, les appels d'outils deviennent actionnables dès qu'ils sont parsés, améliorant considérablement la réactivité pour les applications en temps réel.
NVIDIA l'a illustré avec une comparaison chronologique montrant comment Dynamo parse et diffuse désormais les appels d'outils en cours de réponse, permettant une exécution immédiate. Cette refonte minimise la complexité côté harness et assure une intégration transparente avec les systèmes personnalisés.
Conformité API améliorée
Les mises à jour améliorent également la compatibilité de Dynamo avec l'API Anthropic Messages, une interface critique pour des outils comme Claude Code et OpenClaw. Les correctifs incluent un comptage correct des tokens au début des flux et la capacité à servir les endpoints de métadonnées des modèles, ce qui rapproche Dynamo d'une parité native avec le backend.
Pour les utilisateurs de Codex, la compatibilité avec l'API Responses d'OpenAI a également été améliorée. NVIDIA a résolu des problèmes de préservation des champs survenant lors du traitement interne des requêtes, garantissant que les fonctionnalités spécifiques à Codex, comme les résumés de raisonnement et la troncature des appels d'outils, sont prises en charge sans dégrader les performances.
Et ensuite ?
Dans la perspective d'avenir, NVIDIA rend disponibles certaines parties de la pile de service de Dynamo en tant que composants modulaires, incluant des crates de protocole, de parser et de tokenizer. Cette modularité permet aux développeurs de créer des harnesses personnalisés ou d'étendre les existants sans dupliquer les fonctionnalités principales de Dynamo.
Ces mises à jour positionnent Dynamo comme une solution de premier plan pour les charges de travail agentiques, permettant des interactions multi-tours plus efficaces et plus précises dans une large gamme d'applications. Pour les développeurs et les entreprises s'appuyant sur des outils pilotés par l'IA, ces améliorations offrent une infrastructure plus fiable et haute performance pour des tâches telles que le codage, l'analyse de données, et bien plus encore.
Source de l'image : Shutterstock- nvidia
- outils ia
- workflows agentiques
- streaming de tokens






