कंपनियाँ यह खोज रही हैं कि AI एजेंट बनाना उन प्रणालियों को बनाने की तुलना में आसान है जो उन एजेंटों को प्रोडक्शन में भरोसेमंद बनाती हैं।
एंटरप्राइज़ AI टीमों ने पिछले दो साल एजेंट बनाने की दौड़ में बिताए। अब वे एक अलग समस्या का सामना कर रही हैं: उन एजेंटों में से बहुत कम पर वास्तव में बड़े पैमाने पर भरोसा किया जा सकता है।

यह अंतर सार्वजनिक आंकड़ों में दिखने लगा है। बताया जाता है कि Prosus ने आंतरिक रूप से 50,000 एजेंट बनाए, लेकिन केवल लगभग 5,000 ही रोज़ाना चल रहे हैं। यह 10-से-1 का अनुपात एंटरप्राइज़ AI प्रोडक्शन की वर्तमान स्थिति का एक खुलासा करने वाला मेट्रिक बन गया है। मुद्दा यह नहीं है कि कंपनियाँ एजेंट बना सकती हैं या नहीं। मुद्दा यह है कि क्या वे विश्वसनीय रूप से यह निर्धारित कर सकती हैं कि कौन से एजेंट तैनात करने के लिए सुरक्षित हैं, कौन से आउटपुट भरोसेमंद हैं, और सिस्टम विफल होने पर क्या होता है।
यह अंतर इसलिए मायने रखता है क्योंकि स्वायत्त प्रणालियों की वादा की गई दक्षता यह मानती है कि प्रणालियाँ पहले सही निर्णय ले रही हैं।
प्रयोग-से-प्रोडक्शन का अंतर
कई इंजीनियरिंग टीमों के लिए, AI एजेंट तैनाती की शुरुआती लहर तेज़ी से आगे बढ़ी। आंतरिक कोपायलट, वर्कफ़्लो ऑटोमेटर और मल्टी-एजेंट सिस्टम विभिन्न विभागों में दिखाई दिए। डेमो काम किए। पायलट कार्यक्रम आशाजनक लगे।
प्रोडक्शन वातावरण ने एक अलग कहानी बताई।
Antonio Bustamante, bem के CEO, ने बीमा, वित्त और स्वास्थ्य सेवा सहित विनियमित उद्योगों के लिए AI इंफ्रास्ट्रक्चर पर काम करते हुए वर्षों बिताए हैं। उनके दृष्टिकोण से, उद्योग की सबसे बड़ी बाधा जवाबदेही है।
वे Upstream से जुड़ी एक व्यापक रूप से चर्चित घटना की ओर इशारा करते हैं, जिसमें एक AI एजेंट एक Slack चैनल से जुड़ा, और बताया जाता है कि मानव टीम 24 घंटों के लिए चुप हो गई क्योंकि किसी को नहीं पता था कि इसके साथ कैसे इंटरैक्ट करें। Bustamante का तर्क है कि इस चुप्पी ने कुछ गहरा उजागर किया: कंपनियों ने एजेंटों के साथ काम करने के लिए परिचालन मॉडल डिज़ाइन नहीं किए हैं।
यही पैटर्न बड़े पैमाने के एंटरप्राइज़ तैनाती के अंदर भी दिखता है। टीमें हज़ारों एजेंट जल्दी से तैयार कर सकती हैं, लेकिन उपयोग तब कम हो जाता है जब ये सिस्टम अव्यवस्थित प्रोडक्शन डेटा, अस्पष्ट स्वामित्व, या अनिश्चित आउटपुट का सामना करते हैं।
इसीलिए कई कंपनियाँ अब खुद को व्यापक AI एजेंट तैनाती प्रयासों के साथ पाती हैं लेकिन वास्तविक एंटरप्राइज़ AI प्रोडक्शन अपेक्षाकृत कम है।
मल्टी-एजेंट सिस्टम क्यों रुकते रहते हैं
समस्या का एक हिस्सा इस बात से आता है कि एंटरप्राइज़ वातावरण वास्तव में कैसे काम करते हैं।
नियंत्रित डेमो में, डेटा साफ होता है और वर्कफ़्लो पूर्वानुमानित होते हैं। वास्तविक संगठन शायद ही कभी उस तरह काम करते हैं। अधिकांश एंटरप्राइज़ सिस्टम में खंडित रिकॉर्ड, असंगत प्रारूप, लापता संदर्भ और वर्षों के संचित परिचालन वर्कअराउंड होते हैं।
Bustamante इस स्थिति की तुलना असेंबली लाइन से करते हैं। Henry Ford के निर्माण मॉडल ने इसलिए सफलता पाई क्योंकि उत्पादन को स्केल करने से पहले इनपुट मानकीकृत किए गए थे। मल्टी-एजेंट सिस्टम विपरीत स्थिति का सामना करते हैं। उनसे गैर-मानकीकृत एंटरप्राइज़ डेटा पर काम करने की अपेक्षा की जाती है, जो अधिकांश एंटरप्राइज़ वातावरण की विशेषता है।
कुछ कंपनियों ने पहले से ही परिचालन बोझ को सार्वजनिक रूप से स्वीकार किया है। कई तैनाती में, संगठनों ने खुद को एजेंट आउटपुट की लगातार समीक्षा करने के लिए मानव समीक्षक नियुक्त करते हुए पाया। उद्योग में प्रचलित एक उदाहरण में, एक मल्टी-एजेंट सिस्टम को पर्दे के पीछे परिणामों को मान्य करने के लिए कथित रूप से 20 लोगों की आवश्यकता थी।
यह अर्थशास्त्र को पूरी तरह बदल देता है। स्वायत्त एजेंटों की तैनाती से होने वाले वादा किए गए लाभ गायब हो जाते हैं यदि मनुष्यों को फिर भी हर निर्णय को मैन्युअल रूप से सत्यापित करने की आवश्यकता है।
कॉन्फिडेंस स्कोरिंग और गायब जवाबदेही परत
Bustamante का तर्क है कि कॉन्फिडेंस स्कोरिंग AI गवर्नेंस और AI इंफ्रास्ट्रक्चर के प्रोडक्शन में सबसे अधिक अनदेखे घटकों में से एक बन गई है। बिना उन प्रणालियों के जो अनिश्चितता को माप सकें, ऑपरेटरों के पास यह निर्धारित करने का कोई विश्वसनीय तरीका नहीं है कि कौन से एजेंट प्रोडक्शन-रेडी हैं और किन्हें हस्तक्षेप की आवश्यकता है।
व्यवहार में, कॉन्फिडेंस स्कोरिंग का अर्थ किसी उत्तर को एक प्रतिशत निर्दिष्ट करने से अधिक है। इसके लिए ऐसी प्रणालियों की आवश्यकता है जो अनिश्चितता को समझा सकें, निर्णयों को स्रोत डेटा तक वापस ट्रेस कर सकें, और वर्कफ़्लो में त्रुटियाँ जमा होने से पहले ह्यूमन-इन-द-लूप चेकपॉइंट बना सकें।
AI जवाबदेही की यह परत उन उद्योगों में विशेष रूप से महत्वपूर्ण हो जाती है जहाँ गलतियाँ वित्तीय या कानूनी परिणाम ले सकती हैं। एक विफल बीमा दावा समीक्षा, स्वास्थ्य सेवा निष्कर्षण त्रुटि, या वित्तीय प्रसंस्करण गलती एक देयता घटना बन सकती है।
Bustamante bem की व्यापक थीसिस को "उन चीज़ों के लिए एजेंट ऑर्केस्ट्रेशन प्लेटफ़ॉर्म जो विफल नहीं हो सकतीं" के रूप में वर्णित करते हैं। यह वाक्यांश उद्योग में बढ़ती जागरूकता को दर्शाता है: AI एजेंट की विश्वसनीयता इस पर कम निर्भर करती है कि आप कितने एजेंट तैनात करते हैं और इस पर अधिक कि क्या आप कुछ गलत होने पर निर्णयों को ट्रेस, ऑडिट और सही कर सकते हैं।
प्रोडक्शन-रेडी इंफ्रास्ट्रक्चर कैसा दिखता है
एंटरप्राइज़ AI का अगला चरण अधिक एजेंट बनाने से कम और उनके आसपास प्रणालियाँ बनाने से अधिक संबंधित हो सकता है।
दीर्घकालिक AI एजेंट उपयोग पर केंद्रित कंपनियाँ तेज़ी से ऐसे इंफ्रास्ट्रक्चर की तलाश कर रही हैं जो निष्पादन के दौरान लचीला रहे, परिणामों में कठोर हो, और विफलता की स्थितियों में ट्रेस करने योग्य हो। इसमें कॉन्फिडेंस स्कोरिंग, ऑडिट ट्रेल, हस्तक्षेप बिंदु, डेटा मानकीकरण, और प्रोडक्शन के लिए डिज़ाइन की गई गवर्नेंस प्रणालियाँ शामिल हैं, न कि डेमो के लिए।
जो कंपनियाँ मल्टी-एजेंट सिस्टम प्रयोग और वास्तविक दुनिया की तैनाती के बीच के अंतर को पाटती हैं, वे सबसे अधिक एजेंटों वाली कंपनियाँ नहीं हो सकतीं। वे वे हो सकती हैं जो अंततः वह जवाबदेही इंफ्रास्ट्रक्चर बनाती हैं जिसे एंटरप्राइज़ ने पहली बार में छोड़ दिया था।







