Amazon Web Services ने शुक्रवार को कहा कि वह AI इन्फरेंस पर केंद्रित बहुवर्षीय साझेदारी के तहत अपने डेटा सेंटर में Cerebras के प्रोसेसर लगाएगी।
यह सौदा Amazon को AI मॉडल के प्रॉम्प्ट का जवाब देने, कोड लिखने और लाइव यूज़र रिक्वेस्ट को संभालने की गति बढ़ाने का एक नया तरीका देता है। AWS ने कहा कि वह इन्फरेंस कार्यों के लिए Wafer-Scale Engine सहित Cerebras तकनीक का उपयोग करेगी।
कंपनियों ने वित्तीय शर्तों को साझा नहीं किया। यह सेटअप AWS डेटा सेंटर के अंदर Amazon Bedrock के लिए योजनाबद्ध है, जो साझेदारी को Amazon के मुख्य AI उत्पादों में से एक के अंदर रखता है।
AWS ने कहा कि सिस्टम Amazon Trainium-संचालित सर्वर, Cerebras CS-3 सिस्टम और Amazon के Elastic Fabric Adapter नेटवर्किंग को संयोजित करेगा।
इस वर्ष बाद में, AWS प्रमुख ओपन-सोर्स लार्ज लैंग्वेज मॉडल और Cerebras हार्डवेयर पर Amazon Nova की पेशकश करने की भी योजना बना रहा है। AWS में Compute और ML Services के उपाध्यक्ष David Brown ने कहा कि AI इन्फरेंस में गति अभी भी एक बड़ी समस्या है, खासकर रीयल-टाइम कोडिंग मदद और इंटरैक्टिव ऐप्स के लिए।
David ने कहा, "इन्फरेंस वह जगह है जहां AI ग्राहकों को वास्तविक मूल्य प्रदान करता है, लेकिन रीयल-टाइम कोडिंग सहायता और इंटरैक्टिव एप्लिकेशन जैसे demanding workloads के लिए गति एक महत्वपूर्ण बाधा बनी हुई है।"
AWS ने कहा कि डिज़ाइन inference disaggregation नामक एक विधि का उपयोग करता है। इसका मतलब है AI इन्फरेंस को दो भागों में विभाजित करना। पहला भाग प्रॉम्प्ट प्रोसेसिंग है, जिसे prefill भी कहा जाता है। दूसरा भाग आउटपुट जनरेशन है, जिसे decode भी कहा जाता है।
AWS ने कहा कि दोनों कार्य बहुत अलग तरह से व्यवहार करते हैं। Prefill समानांतर है, compute भारी है, और मध्यम मेमोरी बैंडविड्थ की आवश्यकता होती है। Decode क्रमिक है, compute पर हल्का है, और मेमोरी बैंडविड्थ पर बहुत अधिक निर्भर है। Decode इन मामलों में अधिकांश समय भी लेता है क्योंकि हर आउटपुट टोकन को एक-एक करके उत्पादित करना होता है।
यही कारण है कि AWS प्रत्येक चरण के लिए अलग-अलग हार्डवेयर आवंटित कर रहा है। Trainium prefill को संभालेगा। Cerebras CS-3 decode को संभालेगा।
AWS ने कहा कि कम-विलंबता, उच्च-बैंडविड्थ EFA नेटवर्किंग दोनों पक्षों को जोड़ेगी ताकि सिस्टम एक सेवा के रूप में काम कर सके जबकि प्रत्येक प्रोसेसर एक अलग कार्य पर ध्यान केंद्रित करता है।
David ने कहा, "हम Cerebras के साथ जो बना रहे हैं वह इसे हल करता है: Trainium और CS-3 में इन्फरेंस वर्कलोड को विभाजित करके, और उन्हें Amazon के Elastic Fabric Adapter से जोड़कर, प्रत्येक सिस्टम वही करता है जिसमें वह सबसे अच्छा है। परिणाम ऐसा इन्फरेंस होगा जो आज उपलब्ध की तुलना में एक परिमाण तेज़ और उच्च प्रदर्शन वाला होगा।"
AWS ने यह भी कहा कि सेवा AWS Nitro System पर चलेगी, जो इसके क्लाउड इंफ्रास्ट्रक्चर की आधार परत है।
इसका मतलब है कि Cerebras CS-3 सिस्टम और Trainium-संचालित इंस्टेंस उसी सुरक्षा, अलगाव और स्थिरता के साथ संचालित होने की उम्मीद है जो AWS ग्राहक पहले से उपयोग करते हैं।
यह घोषणा Amazon को Nvidia, AMD और अन्य बड़ी चिप कंपनियों की चिप्स के खिलाफ Trainium को आगे बढ़ाने का एक और अवसर भी देती है। AWS Trainium को अपनी इन-हाउस AI चिप के रूप में वर्णित करता है जो ट्रेनिंग और इन्फरेंस में स्केलेबल प्रदर्शन और लागत दक्षता के लिए बनाई गई है।
AWS ने कहा कि दो प्रमुख AI लैब पहले से ही इसके लिए प्रतिबद्ध हैं। Anthropic ने AWS को अपना प्राथमिक ट्रेनिंग पार्टनर नामित किया है और मॉडल को प्रशिक्षित और तैनात करने के लिए Trainium का उपयोग करता है। OpenAI Stateful Runtime Environment, frontier models और अन्य उन्नत workloads के लिए AWS इंफ्रास्ट्रक्चर के माध्यम से 2 गीगावाट Trainium क्षमता का उपभोग करेगा।
AWS ने कहा कि Trainium3 ने अपनी हालिया रिलीज़ के बाद से मजबूत अपनाव देखा है, उद्योगों में ग्राहकों ने प्रमुख क्षमता के लिए प्रतिबद्धता जताई है।
Cerebras सेटअप के decode पक्ष को संभाल रहा है। AWS ने कहा कि CS-3 decoding acceleration के लिए समर्पित है, जो इसे तेज़ आउटपुट टोकन के लिए अधिक जगह देता है। Cerebras का कहना है कि CS-3 दुनिया की सबसे तेज़ AI इन्फरेंस सिस्टम है और सबसे तेज़ GPU की तुलना में हज़ारों गुना अधिक मेमोरी बैंडविड्थ प्रदान करता है।
कंपनी ने कहा कि reasoning models अब इन्फरेंस कार्य का एक बड़ा हिस्सा बनाते हैं और समस्याओं के माध्यम से काम करते समय प्रति अनुरोध अधिक टोकन उत्पन्न करते हैं। Cerebras ने यह भी कहा कि OpenAI, Cognition, Mistral और अन्य demanding workloads, विशेष रूप से agentic coding के लिए इसके सिस्टम का उपयोग करते हैं।
Cerebras Systems के संस्थापक और मुख्य कार्यकारी Andrew Feldman ने कहा, "disaggregated inference समाधान बनाने के लिए AWS के साथ साझेदारी करना वैश्विक ग्राहक आधार के लिए सबसे तेज़ इन्फरेंस लाएगा।"
Andrew ने कहा, "दुनिया भर के हर एंटरप्राइज़ को अपने मौजूदा AWS वातावरण के भीतर अत्यंत तेज़ इन्फरेंस से लाभ मिल सकेगा।"
यह सौदा Nvidia पर और दबाव डालता है, जिसने दिसंबर में Groq के साथ $20 बिलियन का लाइसेंसिंग समझौता किया था और अगले सप्ताह Groq तकनीक का उपयोग करके एक नया इन्फरेंस सिस्टम का अनावरण करने की योजना है।
यदि आप यह पढ़ रहे हैं, तो आप पहले से ही आगे हैं। हमारे न्यूज़लेटर के साथ वहीं रहें।


