NVIDIA Nemotron 3 Super, Together AI पर 1M टोकन कॉन्टेक्स्ट विंडो के साथ उपलब्ध

Jessie A Ellis 11 मार्च, 2026 21:43

NVIDIA का 120B-पैरामीटर Nemotron 3 Super मॉडल अब Together AI पर उपलब्ध है, जो मल्टी-एजेंट AI सिस्टम और एंटरप्राइज वर्कलोड के लिए 5x थ्रूपुट लाभ प्रदान करता है।

NVIDIA Nemotron 3 Super, Together AI पर 1M टोकन कॉन्टेक्स्ट विंडो के साथ उपलब्ध

Together AI ने 11 मार्च को अपने डेडिकेटेड इन्फरेंस प्लेटफॉर्म पर NVIDIA के Nemotron 3 Super की उपलब्धता की घोषणा की, जिससे एंटरप्राइज डेवलपर्स को मल्टी-एजेंट AI सिस्टम के लिए ऑप्टिमाइज़ किए गए 120-बिलियन-पैरामीटर रीज़निंग मॉडल तक पहुंच मिली। इस खबर पर NVIDIA का स्टॉक $186.03 पर कारोबार कर रहा था, जो 0.66% बढ़ा।

समय महत्वपूर्ण है। Nemotron 3 Super, दिसंबर में Nano रिलीज़ के बाद, Nemotron 3 परिवार में NVIDIA का दूसरा ओपन-वेट मॉडल है, और प्रोडक्शन AI में एक विशिष्ट समस्या को लक्षित करता है: पैमाने पर जटिल एजेंट वर्कफ़्लो चलाने का कम्प्यूटेशनल ओवरहेड।

आर्किटेक्चर क्यों महत्वपूर्ण है

यही बात इस मॉडल को सामान्य पैरामीटर-काउंट प्रतिस्पर्धा से अलग बनाती है। इसके कुल 120B पैरामीटर होने के बावजूद, इन्फरेंस के दौरान केवल 12B सक्रिय होते हैं। हाइब्रिड डिज़ाइन—जो Transformer अटेंशन को Mamba सीक्वेंस प्रोसेसिंग के साथ जोड़ता है—NVIDIA के दावे के अनुसार पिछले Nemotron Super मॉडल की तुलना में 5x अधिक थ्रूपुट प्रदान करता है।

1-मिलियन-टोकन कॉन्टेक्स्ट विंडो उस समस्या का समाधान करती है जिसे डेवलपर्स "कॉन्टेक्स्ट एक्सप्लोज़न" कहते हैं। मल्टी-एजेंट एप्लिकेशन मानक चैट इंटरैक्शन की तुलना में 15x अधिक टोकन का उपभोग कर सकते हैं, और अधिकांश मॉडल उस लोड पर फेल हो जाते हैं। Nemotron 3 Super बिना परफ़ॉर्मेंस गिरावट के संपूर्ण कोडबेस, लंबे डॉक्यूमेंट स्टोर और विस्तारित एजेंट ट्रैजेक्टरीज़ को हैंडल करता है।

मल्टी-टोकन प्रेडिक्शन ट्रेनिंग मॉडल को प्रत्येक फॉरवर्ड पास में एक साथ कई टोकन जनरेट करने की अनुमति देती है। कोड जेनरेशन या स्ट्रक्चर्ड आउटपुट के लिए, NVIDIA की रिपोर्ट है कि अग्रणी ओपन मॉडल की तुलना में टोकन जेनरेशन 50% तेज़ है।

Together AI की रणनीति

मिलियन-टोकन कॉन्टेक्स्ट के साथ 120B हाइब्रिड मॉडल चलाने के लिए आमतौर पर कई नोड्स पर डिस्ट्रिब्यूटेड कंप्यूट की आवश्यकता होती है। Together AI की डेडिकेटेड इन्फरेंस पेशकश एकल NVIDIA H200 या H100 GPU पर डिप्लॉयमेंट को सरल बनाती है—डेवलपर की ओर से किसी GPU प्रोविज़निंग की आवश्यकता नहीं।

प्लेटफ़ॉर्म 99.9% अपटाइम SLA और SOC 2 अनुपालन का वादा करता है, जो इसे रिसर्च-ग्रेड प्रयोग के बजाय एंटरप्राइज-रेडी इंफ्रास्ट्रक्चर के रूप में स्थापित करता है।

प्रोडक्शन एप्लिकेशन

लक्षित उपयोग केस में कोडबेस का विश्लेषण करने वाले डेवलपर असिस्टेंट, एंटरप्राइज डॉक्यूमेंट प्रोसेसिंग सिस्टम, साइबरसिक्योरिटी वल्नरेबिलिटी ट्राइएज, और विशेषीकृत एजेंटों के बीच कार्यों को रूट करने वाली ऑर्केस्ट्रेशन लेयर शामिल हैं।

ओपन-वेट दृष्टिकोण—NVIDIA के Nemotron Open Model License के तहत जारी—टीमों को विशिष्ट वातावरण के लिए फाइन-ट्यून करने और ऑन-प्रिमाइस डिप्लॉय करने की अनुमति देता है, जो डेटा संप्रभुता आवश्यकताओं वाले एंटरप्राइज़ेज़ के लिए एक महत्वपूर्ण विचार है।

NVIDIA ने 10 मार्च को NemoClaw की भी घोषणा की, जो AI एजेंट के लिए एक ओपन-सोर्स प्लेटफ़ॉर्म है जो Nemotron 3 Super डिप्लॉयमेंट को पूरक बना सकता है। डेवलपर्स तुरंत Together AI के डेडिकेटेड इन्फरेंस टियर के माध्यम से मॉडल तक पहुंच सकते हैं।

Image source: Shutterstock