एंटरप्राइजेज ने पिछले दो साल कस्टमर सपोर्ट और बैक-ऑफिस ऑपरेशंस से लेकर फाइनेंस और कम्प्लायंस में निर्णय-भारी प्रक्रियाओं तक, वास्तविक वर्कफ्लो में AI एजेंट्स को लागू करने की दौड़ में बिताए हैं। अब जब ये सिस्टम वास्तविक वर्कफ्लो में तेजी से एकीकृत हो रहे हैं, तो एक नई समस्या उभर रही है: एजेंट जानकारी प्राप्त कर सकते हैं, लेकिन जब काम जटिल, बहु-चरणीय, या उच्च-जोखिम वाला होता है, तो वे अक्सर सुसंगत, व्याख्यात्मक तर्क प्रदान करने में संघर्ष करते हैं।
आज, ओपन-सोर्स AI लैब सेंटिएंट ने एरिना लॉन्च किया है, एक लाइव, प्रोडक्शन-ग्रेड वातावरण जहां हजारों AI डेवलपर्स एंटरप्राइज की सबसे कठिन तर्क समस्याओं के लिए प्रतिस्पर्धी दृष्टिकोणों का स्ट्रेस टेस्ट करते हैं। एरिना के प्रारंभिक चरण में भाग लेने वाले पहले समूह में फाउंडर्स फंड, पैंटेरा और फ्रैंकलिन टेम्पलटन ($1.5T+ AUM) शामिल हैं — जो प्रोडक्शन डिप्लॉयमेंट से पहले AI एजेंट्स के संरचित मूल्यांकन में प्रारंभिक संस्थागत रुचि का संकेत देता है।
"जैसे-जैसे कंपनियां रिसर्च, ऑपरेशंस और क्लाइंट-फेसिंग वर्कफ्लो में AI एजेंट्स को लागू करना चाहती हैं, सवाल अब यह नहीं है कि क्या ये सिस्टम शक्तिशाली हैं... बल्कि यह है कि क्या वे वास्तविक वर्कफ्लो में विश्वसनीय हैं," जूलियन लव, मैनेजिंग प्रिंसिपल, फ्रैंकलिन टेम्पलटन डिजिटल एसेट्स ने कहा।
लव ने कहा कि एरिना जैसे संरचित वातावरण आशाजनक विचारों को प्रोडक्शन-रेडी क्षमताओं से अलग करने में मदद करेंगे।
"AI एजेंट अब एंटरप्राइज के भीतर एक प्रयोग नहीं रह गए हैं; उन्हें उन वर्कफ्लो में डाला जा रहा है जो ग्राहकों, धन और परिचालन परिणामों को छूते हैं," हिमांशु त्यागी, सेंटिएंट के सह-संस्थापक ने कहा। "वह बदलाव इस बात को बदल देता है कि क्या मायने रखता है। किसी सिस्टम का डेमो में प्रभावशाली होना काफी नहीं है। एंटरप्राइजेज को यह जानना आवश्यक है कि क्या एजेंट प्रोडक्शन में विश्वसनीय रूप से तर्क कर सकते हैं, जहां विफलताएं महंगी होती हैं, और विश्वास नाजुक होता है। उन्हें तुलनात्मकता, दोहराव और समय के साथ विश्वसनीयता में सुधार को ट्रैक करने का एक तरीका चाहिए - भले ही वे किन मॉडल या टूलिंग का उपयोग कर रहे हों।"
एरिना एंटरप्राइज वर्कफ्लो की जटिल वास्तविकता को दोहराता है: अपूर्ण जानकारी, लंबा संदर्भ, अस्पष्ट निर्देश और परस्पर विरोधी स्रोत। एजेंट को "सही उत्तर" मिला या नहीं, यह स्कोर करने के बजाय, एरिना पूर्ण तर्क ट्रेस रिकॉर्ड करता है ताकि इंजीनियरिंग टीमें विफलताओं को डिबग कर सकें और समय के साथ सुधारों को सत्यापित कर सकें।
यह मॉडल और स्टैक में तर्क का मूल्यांकन करने के लिए एक तटस्थ, वेंडर-अज्ञेयवादी बेंचमार्क प्रदान करता है। डेमो के बजाय प्रोडक्शन-ग्रेड प्रदर्शन पर ध्यान केंद्रित करके, एरिना सत्यापन योग्य, उच्च-जोखिम एजेंट क्षमताएं बनाता है जिन्हें एंटरप्राइजेज अपने स्वयं के निजी डेटा और आंतरिक उपकरणों के अनुकूल बना सकते हैं।
अपनी पहली चुनौती में, एरिना में शामिल होने वाले डेवलपर्स एक बुनियादी एंटरप्राइज बाधा पर ध्यान केंद्रित करेंगे: दस्तावेज़ तर्क। AI एजेंट्स को जटिल, असंरचित डेटा पर तर्क और गणना करने का कार्य सौंपा जाएगा - ऐसा काम जो वित्तीय विश्लेषण, मूल-कारण जांच, निवेश ज्ञापन और ग्राहक सेवा को आधार देता है।
प्रारंभिक चरण में अतिरिक्त प्रतिभागियों में alphaXiv, Fireworks, Openhands और OpenRouter शामिल हैं, जिनमें से अधिक की उम्मीद है क्योंकि एरिना कार्यों, उद्योगों और मॉडल एकीकरण में विस्तारित होता है।
हाल के सर्वेक्षण उस अंतर को रेखांकित करते हैं जिसे एरिना लक्षित कर रहा है। 85% व्यवसाय कहते हैं कि वे "एजेंटिक एंटरप्राइज" बनना चाहते हैं और लगभग चार में से तीन स्वायत्त एजेंटों को तैनात करने की योजना बना रहे हैं, फिर भी एक चौथाई से भी कम परिपक्व शासन की रिपोर्ट करते हैं, और कई पायलट से बड़े पैमाने पर प्रोडक्शन में जाने के लिए संघर्ष करते हैं। एंटरप्राइजेज पहले से ही औसतन एक दर्जन एजेंट चलाते हैं, अक्सर साइलो में, और कई का कहना है कि बेहतर ऑर्केस्ट्रेशन के बिना अधिक एजेंट जोड़ने से मूल्य की तुलना में अधिक जटिलता पैदा होगी।
"OpenHands में, हम हमेशा व्यावहारिक समस्याओं को हल करने के लिए एजेंटों का उपयोग करने वाले बिल्डरों का समर्थन करने के लिए उत्साहित रहते हैं," ग्राहम न्यूबिग, चीफ साइंटिस्ट और OpenHands के सह-संस्थापक ने कहा। "हम इन जटिल चुनौतियों को नेविगेट करने के लिए OpenHands Software Agent SDK का उपयोग करने वाले प्रतिभागियों का समर्थन करने में खुश हैं।"
"एरिना ठीक उस तरह की पहल है जो ओपन-सोर्स AI को आगे बढ़ाती है - वे शोधकर्ताओं को सार्वजनिक रूप से प्रतिस्पर्धा करने, पुनरावृत्ति करने और नवाचार करने की अनुमति देते हैं। हम सेंटिएंट के साथ अपनी साझेदारी को गहरा करने और वह बुनियादी ढांचा प्रदान करने के लिए उत्साहित हैं जो प्रयोग को तेज और पैमाने पर आसान बनाता है," एलेक्स अताल्लाह, सह-संस्थापक और CEO, OpenRouter ने कहा।
एरिना वैश्विक स्तर पर लॉन्च होगा, हजारों AI डेवलपर्स को पहले विशेष समूह के लिए आवेदन करने के लिए आमंत्रित करेगा, मार्च 2026 से सैन फ्रांसिस्को पर केंद्रित व्यक्तिगत कार्यक्रमों के साथ।
पोस्ट Founders Fund, Pantera, And Franklin Templeton Join Sentient's 'Arena' To Pressure Test Enterprise AI Agents सबसे पहले Metaverse Post पर प्रकाशित हुई।