NVIDIA Dynamo एजेंटिक वर्कफ़्लो के लिए स्ट्रीमिंग को बेहतर बनाता है
Luisa Crawford May 08, 2026 16:34
NVIDIA Dynamo तेज़ और अधिक सटीक एजेंटिक वर्कफ़्लो के लिए नए टूल पेश करता है, जो टोकन स्ट्रीमिंग और टूल-कॉल हैंडलिंग को बेहतर बनाता है।
NVIDIA ने अपने Dynamo प्लेटफ़ॉर्म में महत्वपूर्ण अपडेट का खुलासा किया है, जो उन्नत स्ट्रीमिंग, पार्सिंग और टूल-कॉल हैंडलिंग के साथ एजेंटिक वर्कफ़्लो को अनुकूलित करने के उद्देश्य से बनाए गए हैं। ये अपडेट उन एप्लिकेशन की प्रतिक्रियाशीलता और सटीकता में सुधार पर ध्यान केंद्रित करते हैं जो मल्टी-टर्न इंटरैक्शन पर निर्भर करते हैं, जैसे कि कोडिंग असिस्टेंट और अन्य AI-संचालित टूल।
प्रमुख विशेषताओं में से एक स्ट्रीमिंग टूल-कॉल डिस्पैच की शुरूआत है। यह नई सुविधा टूल कॉल को डीकोड होते ही निष्पादित करने में सक्षम बनाती है, जिससे पूर्ण रिस्पॉन्स टर्न के पूरा होने का इंतज़ार करने की आवश्यकता समाप्त हो जाती है। यह समायोजन न केवल उपयोगकर्ताओं के लिए टाइम-टू-फर्स्ट-टोकन (TTFT) को तेज़ करता है, बल्कि एजेंट वर्कफ़्लो में उन अक्षमताओं को भी दूर करता है जहाँ रीज़निंग और टूल रिस्पॉन्स आपस में जुड़े होते हैं।
प्रॉम्प्ट स्थिरता के माध्यम से प्रदर्शन लाभ
एक मुख्य सुधार प्रॉम्प्ट स्थिरता और KV-कैश पुनः उपयोग पर केंद्रित है। Anthropic बिलिंग हेडर जैसे सेशन-विशिष्ट प्रीएम्बल को समाप्त करके, Dynamo सेशन के दौरान सुसंगत टोकन प्रीफ़िक्स सुनिश्चित करता है। इस बदलाव ने NVIDIA के परीक्षणों में 52K-टोकन प्रॉम्प्ट का उपयोग करने वाले सिस्टम पर TTFT को लगभग पांच गुना कम कर दिया, 912ms से 169ms तक।
डेवलपर्स के लिए, कई उपयोगकर्ता सेशन में बड़े, जटिल प्रॉम्प्ट को संभालते समय स्थिर प्रीफ़िक्स बनाए रखना महत्वपूर्ण है। ये अनुकूलन विशेष रूप से Claude Code और Codex जैसे एजेंटिक मॉडल के लिए मूल्यवान हैं, जिन्हें प्रभावी ढंग से कार्य करने के लिए सटीक और दोहराने योग्य इंटरैक्शन की आवश्यकता होती है।
जटिल इंटरैक्शन के लिए उन्नत पार्सिंग
Dynamo ने अपने रीज़निंग और टूल-कॉल पार्सर्स को भी नया रूप दिया है, उन्हें पुनः उपयोग योग्य मॉड्यूल में निकाला है। इससे डेवलपर्स को पार्स किए गए आउटपुट और हार्नेस आवश्यकताओं के बीच बेहतर संरेखण प्राप्त करने की अनुमति मिलती है। अपडेट एक लंबे समय से चली आ रही समस्या को संबोधित करते हैं जहाँ मल्टी-टर्न इंटरैक्शन के दौरान पूर्व रीज़निंग या तो छोड़ दी जाती थी या विकृत हो जाती थी। एजेंटिक वर्कफ़्लो में जहाँ रीज़निंग टूल-कॉल अनुक्रमों की व्याख्या करती है, संरचित रीज़निंग को बनाए रखना महत्वपूर्ण है।
उदाहरण के लिए, NVIDIA ने दिखाया कि उसका Nemotron-3-Super-120B मॉडल अब इंटरलीव्ड रीज़निंग और टूल कॉल को अधिक प्रभावी ढंग से प्रोसेस कर सकता है, यह सुनिश्चित करते हुए कि प्रत्येक रीज़निंग सेगमेंट अपने संबंधित टूल एक्शन से सही ढंग से जुड़ा रहे। इससे उन समस्याओं को रोका जा सकता है जहाँ रीज़निंग को पहले गलत तरीके से समूहीकृत किया जाता था, जिससे संदर्भ खो जाता था।
स्ट्रीमिंग व्यवहार और टूल डिस्पैच
एक अन्य प्रमुख सुधार साइड चैनल के माध्यम से टूल कॉल डिस्पैच करते समय टोकनाइज़्ड रिस्पॉन्स स्ट्रीम करने की क्षमता है। पहले, टूल कॉल को रिस्पॉन्स के अंत तक बफ़र किया जाता था, जिससे निष्पादन में देरी होती थी। नई इनलाइन स्ट्रीमिंग और डिस्पैच क्षमताओं के साथ, टूल कॉल पार्स होते ही क्रियाशील हो जाते हैं, जिससे रियल-टाइम एप्लिकेशन की प्रतिक्रियाशीलता में उल्लेखनीय सुधार होता है।
NVIDIA ने इसे एक टाइमलाइन तुलना के साथ स्पष्ट किया जो दिखाती है कि Dynamo अब मिड-रिस्पॉन्स में टूल कॉल को कैसे पार्स और स्ट्रीम करता है, जिससे तत्काल निष्पादन संभव हो जाता है। यह पुनर्डिज़ाइन हार्नेस-साइड जटिलता को कम करता है और कस्टम सिस्टम के साथ निर्बाध एकीकरण सुनिश्चित करता है।
बेहतर API अनुपालन
अपडेट Anthropic Messages API के साथ Dynamo की संगतता को भी बढ़ाते हैं, जो Claude Code और OpenClaw जैसे टूल के लिए एक महत्वपूर्ण इंटरफ़ेस है। फ़िक्स में स्ट्रीम की शुरुआत में उचित टोकन काउंटिंग और मॉडल मेटाडेटा एंडपॉइंट सर्व करने की क्षमता शामिल है, जो दोनों Dynamo को नेटिव बैकएंड समानता के करीब लाते हैं।
Codex उपयोगकर्ताओं के लिए, OpenAI के Responses API के साथ संगतता में भी सुधार किया गया है। NVIDIA ने आंतरिक अनुरोध प्रोसेसिंग के दौरान हुई फ़ील्ड संरक्षण समस्याओं को संबोधित किया है, यह सुनिश्चित करते हुए कि Codex-विशिष्ट सुविधाएँ जैसे रीज़निंग सारांश और टूल-कॉल ट्रंकेशन प्रदर्शन को कम किए बिना समर्थित हैं।
आगे क्या है
आगे देखते हुए, NVIDIA Dynamo के सर्विंग स्टैक के हिस्सों को मॉड्यूलर घटकों के रूप में उपलब्ध करा रहा है, जिसमें प्रोटोकॉल, पार्सर और टोकनाइज़र क्रेट्स शामिल हैं। यह मॉड्यूलरिटी डेवलपर्स को Dynamo की मुख्य कार्यक्षमता को डुप्लिकेट किए बिना कस्टम हार्नेस बनाने या मौजूदा को विस्तारित करने की अनुमति देती है।
ये अपडेट Dynamo को एजेंटिक वर्कलोड के लिए एक अग्रणी समाधान के रूप में स्थापित करते हैं, जो अनुप्रयोगों की एक श्रृंखला में अधिक कुशल और सटीक मल्टी-टर्न इंटरैक्शन को सक्षम बनाते हैं। AI-संचालित टूल पर निर्भर डेवलपर्स और उद्यमों के लिए, ये सुधार कोडिंग, डेटा विश्लेषण और इससे परे जैसे कार्यों के लिए अधिक विश्वसनीय और उच्च-प्रदर्शन वाला बुनियादी ढांचा प्रदान करते हैं।
Image source: Shutterstock- nvidia
- ai tools
- agentic workflows
- token streaming








