भाषा मॉडल सिर्फ गलतियाँ नहीं करते—वे पूर्ण आत्मविश्वास के साथ वास्तविकता गढ़ते हैं। एक AI एजेंट दावा कर सकता है कि उसने डेटाबेस रिकॉर्ड बनाए हैं जो वास्तव में मौजूद ही नहीं हैं,भाषा मॉडल सिर्फ गलतियाँ नहीं करते—वे पूर्ण आत्मविश्वास के साथ वास्तविकता गढ़ते हैं। एक AI एजेंट दावा कर सकता है कि उसने डेटाबेस रिकॉर्ड बनाए हैं जो वास्तव में मौजूद ही नहीं हैं,

एलएलएम व्यवहार की ऑडिटिंग: क्या हम हैलुसिनेशन के लिए टेस्ट कर सकते हैं? AI-उन्मुख सॉफ्टवेयर डेवलपर इन टेस्ट Dmytro Kyiashko द्वारा विशेषज्ञ अंतर्दृष्टि

2025/12/23 01:31
<div id="content-main" class="left relative">
 <div class="facebook-share">
  <span class="fb-but1"><i class="fa-brands fa-facebook-f"></i></span><span class="social-text">शेयर करें</span>
 </div>
 <div class="twitter-share">
  <span class="twitter-but1"><i class="fa-brands fa-x-twitter"></i></span><span class="social-text">शेयर करें</span>
 </div>
 <div class="whatsapp-share">
  <span class="whatsapp-but1"><i class="fa-brands fa-whatsapp fa-2x"></i></span><span class="social-text">शेयर करें</span>
 </div>
 <div class="pinterest-share">
  <span class="pinterest-but1"><i class="fa-brands fa-pinterest-p"></i></span><span class="social-text">शेयर करें</span>
 </div>
 <div class="email-share">
  <span class="email-but"><i class="fa fa-envelope fa-2"></i></span><span class="social-text">ईमेल</span>
 </div>
 <p>भाषा मॉडल सिर्फ गलतियां नहीं करते—वे पूर्ण आत्मविश्वास के साथ वास्तविकता गढ़ते हैं। एक AI एजेंट दावा कर सकता है कि उसने डेटाबेस रिकॉर्ड बनाए जो मौजूद ही नहीं हैं, या जिद कर सकता है कि उसने ऐसी क्रियाएं की जो उसने कभी प्रयास ही नहीं कीं। प्रोडक्शन में इन सिस्टम को तैनात करने वाली टीमों के लिए, यह भेद निर्धारित करता है कि आप समस्या को कैसे ठीक करते हैं।</p>
 <div id="textareaTextHtml" class="js_xss_html_filter">
  <p>Dmytro Kyiashko AI सिस्टम की जांच में विशेषज्ञता रखते हैं। उनका काम एक सवाल पर केंद्रित है: आप व्यवस्थित रूप से कैसे पकड़ते हैं जब एक मॉडल झूठ बोलता है?</p>
  <h2><strong>आत्मविश्वासी बकवास की जांच की समस्या</strong></h2>
  <p>पारंपरिक सॉफ्टवेयर अनुमानित रूप से विफल होता है। एक टूटा हुआ फ़ंक्शन एक त्रुटि लौटाता है। एक गलत कॉन्फ़िगर किया गया API एक निर्धारणात्मक विफलता संकेत प्रदान करता है—आमतौर पर एक मानक HTTP स्टेटस कोड और एक पठनीय त्रुटि संदेश जो बताता है कि क्या गलत हुआ।</p>
  <p>भाषा मॉडल अलग तरीके से टूटते हैं। वे उन कार्यों को पूर्ण करने की रिपोर्ट करेंगे जो उन्होंने कभी शुरू ही नहीं किए, उन डेटाबेस से जानकारी प्राप्त करेंगे जिन्हें उन्होंने कभी क्वेरी नहीं किया, और ऐसी क्रियाओं का वर्णन करेंगे जो केवल उनके प्रशिक्षण डेटा में मौजूद हैं। प्रतिक्रियाएं सही दिखती हैं। सामग्री गढ़ी गई है।</p>
  <p>"प्रत्येक AI एजेंट इंजीनियरों द्वारा तैयार निर्देशों के अनुसार संचालित होता है," Kyiashko बताते हैं। "हम ठीक-ठीक जानते हैं कि हमारा एजेंट क्या कर सकता है और क्या नहीं कर सकता।" वह ज्ञान भ्रम को त्रुटियों से अलग करने की नींव बन जाता है।</p>
  <p>यदि डेटाबेस क्वेरी करने के लिए प्रशिक्षित एक एजेंट चुपचाप विफल हो जाता है, तो वह एक बग है। लेकिन अगर यह डेटाबेस को छुए बिना विस्तृत क्वेरी परिणाम लौटाता है? वह एक भ्रम है। मॉडल ने प्रशिक्षण पैटर्न के आधार पर प्रशंसनीय आउटपुट का आविष्कार किया।</p>
  <h2><strong>वास्तविक सत्य के विरुद्ध सत्यापन</strong></h2>
  <p>Kyiashko का दृष्टिकोण वास्तविक सिस्टम स्थिति के विरुद्ध सत्यापन पर केंद्रित है। जब एक एजेंट दावा करता है कि उसने रिकॉर्ड बनाए हैं, तो उनके परीक्षण जांचते हैं कि क्या वे रिकॉर्ड मौजूद हैं। एजेंट की प्रतिक्रिया मायने नहीं रखती यदि सिस्टम उसका खंडन करता है।</p>
  <p>"मैं आमतौर पर विभिन्न प्रकार के नकारात्मक परीक्षणों का उपयोग करता हूं—यूनिट और इंटीग्रेशन दोनों—LLM भ्रम की जांच के लिए," वे नोट करते हैं। ये परीक्षण जानबूझकर ऐसी क्रियाओं का अनुरोध करते हैं जिन्हें करने की अनुमति एजेंट के पास नहीं है, फिर सत्यापित करते हैं कि एजेंट गलत तरीके से सफलता की पुष्टि नहीं करता है और सिस्टम स्थिति अपरिवर्तित रहती है।</p>
  <p>एक तकनीक ज्ञात बाधाओं के विरुद्ध परीक्षण करती है। डेटाबेस राइट अनुमतियों के बिना एक एजेंट को रिकॉर्ड बनाने के लिए प्रेरित किया जाता है। परीक्षण सत्यापित करता है कि कोई अनधिकृत डेटा प्रकट नहीं हुआ और प्रतिक्रिया सफलता का दावा नहीं करती है।</p>
  <p>सबसे प्रभावी तरीका प्रोडक्शन डेटा का उपयोग करता है। "मैं ग्राहक वार्तालापों के इतिहास का उपयोग करता हूं, सब कुछ JSON प्रारूप में परिवर्तित करता हूं, और इस JSON फ़ाइल का उपयोग करके अपने परीक्षण चलाता हूं।" प्रत्येक वार्तालाप एक परीक्षण केस बन जाता है जो विश्लेषण करता है कि क्या एजेंटों ने सिस्टम लॉग का खंडन करने वाले दावे किए।</p>
  <p>यह उन पैटर्न को पकड़ता है जो सिंथेटिक परीक्षण चूक जाते हैं। वास्तविक उपयोगकर्ता ऐसी स्थितियां बनाते हैं जो एज केस को उजागर करती हैं। प्रोडक्शन लॉग प्रकट करते हैं कि मॉडल वास्तविक उपयोग के तहत कहां भ्रमित होते हैं।</p>
  <h2><strong>दो मूल्यांकन रणनीतियां</strong></h2>
  <p><strong>Kyiashko AI सिस्टम का मूल्यांकन करने के लिए दो पूरक दृष्टिकोणों का उपयोग करते हैं।</strong></p>
  <p>कोड-आधारित मूल्यांकनकर्ता वस्तुनिष्ठ सत्यापन को संभालते हैं। "कोड-आधारित मूल्यांकनकर्ता आदर्श होते हैं जब विफलता की परिभाषा वस्तुनिष्ठ होती है और नियमों के साथ जांची जा सकती है। उदाहरण के लिए: संरचना को पार्स करना, JSON वैधता या SQL सिंटैक्स की जांच करना," वे बताते हैं।</p>
  <p>लेकिन कुछ विफलताएं बाइनरी वर्गीकरण का विरोध करती हैं। क्या स्वर उपयुक्त था? क्या सारांश विश्वसनीय है? क्या प्रतिक्रिया सहायक है? "LLM-as-Judge मूल्यांकनकर्ताओं का उपयोग तब किया जाता है जब विफलता मोड में व्याख्या या सूक्ष्मता शामिल होती है जिसे कोड कैप्चर नहीं कर सकता।"</p>
  <p>LLM-as-Judge दृष्टिकोण के लिए, Kyiashko LangGraph पर निर्भर करते हैं। कोई भी दृष्टिकोण अकेले काम नहीं करता। प्रभावी फ्रेमवर्क दोनों का उपयोग करते हैं।</p>
  <h2><strong>क्लासिक QA प्रशिक्षण में क्या कमी है</strong></h2>
  <p>अनुभवी गुणवत्ता इंजीनियर संघर्ष करते हैं जब वे पहली बार AI सिस्टम का परीक्षण करते हैं। जिन धारणाओं ने उन्हें प्रभावी बनाया, वे स्थानांतरित नहीं होती हैं।</p>
  <p>"क्लासिक QA में, हम सिस्टम के प्रतिक्रिया प्रारूप को ठीक-ठीक जानते हैं, हम इनपुट और आउटपुट डेटा के प्रारूप को ठीक-ठीक जानते हैं," Kyiashko बताते हैं। "AI सिस्टम टेस्टिंग में, ऐसा कोई चीज़ नहीं है।" इनपुट डेटा एक प्रॉम्प्ट है—और ग्राहक अनुरोधों को कैसे व्यक्त करते हैं इसमें भिन्नताएं अनंत हैं।</p>
  <p>इसके लिए निरंतर निगरानी की आवश्यकता है। Kyiashko इसे "निरंतर त्रुटि विश्लेषण" कहते हैं—नियमित रूप से समीक्षा करना कि एजेंट वास्तविक उपयोगकर्ताओं को कैसे प्रतिक्रिया देते हैं, पहचानना कि वे जानकारी कहां गढ़ते हैं, और तदनुसार परीक्षण सुइट्स को अपडेट करना।</p>
  <p>निर्देश मात्रा के साथ चुनौती बढ़ती है। AI सिस्टम को व्यवहार और बाधाओं को परिभाषित करने वाले व्यापक प्रॉम्प्ट की आवश्यकता होती है। प्रत्येक निर्देश दूसरों के साथ अप्रत्याशित रूप से इंटरैक्ट कर सकता है। "AI सिस्टम की समस्याओं में से एक निर्देशों की विशाल संख्या है जिन्हें लगातार अपडेट और परीक्षण किया जाना चाहिए," वे नोट करते हैं।</p>
  <p>ज्ञान अंतर महत्वपूर्ण है। अधिकांश इंजीनियरों के पास उपयुक्त मेट्रिक्स, प्रभावी डेटासेट तैयारी, या प्रत्येक रन के साथ बदलने वाले आउटपुट को मान्य करने के विश्वसनीय तरीकों की स्पष्ट समझ की कमी है। "एक AI एजेंट बनाना मुश्किल नहीं है," Kyiashko देखते हैं। "उस एजेंट के परीक्षण को स्वचालित करना मुख्य चुनौती है। मेरे अवलोकनों और अनुभव से, AI सिस्टम बनाने की तुलना में उन्हें परीक्षण और अनुकूलित करने में अधिक समय लगता है।"</p>
  <h2><strong>विश्वसनीय साप्ताहिक रिलीज़</strong></h2>
  <p>भ्रम बग्स की तुलना में तेजी से विश्वास को नष्ट करते हैं। एक टूटी हुई सुविधा उपयोगकर्ताओं को निराश करती है। एक एजेंट आत्मविश्वास से झूठी जानकारी प्रदान करना विश्वसनीयता को नष्ट कर देता है।</p>
  <p>Kyiashko की परीक्षण पद्धति विश्वसनीय साप्ताहिक रिलीज़ सक्षम करती है। स्वचालित सत्यापन तैनाती से पहले रिग्रेशन को पकड़ता है। वास्तविक डेटा के साथ प्रशिक्षित और परीक्षण किए गए सिस्टम अधिकांश ग्राहक अनुरोधों को सही ढंग से संभालते हैं।</p>
  <p>साप्ताहिक पुनरावृत्ति प्रतिस्पर्धी लाभ को संचालित करती है। AI सिस्टम क्षमताओं को जोड़ने, प्रतिक्रियाओं को परिष्कृत करने, डोमेन का विस्तार करने के माध्यम से सुधरते हैं।</p>
  <h2><strong>यह गुणवत्ता इंजीनियरिंग के लिए क्यों महत्वपूर्ण है</strong></h2>
  <p>AI को एकीकृत करने वाली कंपनियां दैनिक रूप से बढ़ती हैं। "दुनिया ने पहले ही AI के उपयोग के लाभ देख लिए हैं, इसलिए कोई वापसी नहीं है," Kyiashko तर्क देते हैं। AI अपनाना उद्योगों में तेज़ होता है—अधिक स्टार्टअप लॉन्च हो रहे हैं, अधिक उद्यम मुख्य उत्पादों में बुद्धिमत्ता को एकीकृत कर रहे हैं।</p>
  <p>यदि इंजीनियर AI सिस्टम बनाते हैं, तो उन्हें यह समझना चाहिए कि उन्हें कैसे परीक्षण करना है। "आज भी, हमें यह समझने की आवश्यकता है कि LLM कैसे काम करते हैं, AI एजेंट कैसे बनाए जाते हैं, इन एजेंटों का परीक्षण कैसे किया जाता है, और इन जांचों को कैसे स्वचालित करना है।"</p>
  <p>प्रॉम्प्ट इंजीनियरिंग गुणवत्ता इंजीनियरों के लिए अनिवार्य हो रही है। डेटा परीक्षण और डायनामिक डेटा सत्यापन समान प्रक्षेपवक्र का पालन करते हैं। "ये पहले से ही परीक्षण इंजीनियरों के बुनियादी कौशल होने चाहिए।"</p>
  <p>Kyiashko उद्योग में जो पैटर्न देखते हैं वे इस बदलाव की पुष्टि करते हैं। AI मूल्यांकन पर तकनीकी पेपर की समीक्षा करने और तकनीकी मंचों पर स्टार्टअप आर्किटेक्चर का आकलन करने के उनके काम के माध्यम से, समान मुद्दे बार-बार प्रकट होते हैं: हर जगह टीमें समान समस्याओं का सामना करती हैं। वर्षों पहले उन्होंने प्रोडक्शन में जिन सत्यापन चुनौतियों को हल किया, वे अब सार्वभौमिक चिंताएं बन रही हैं क्योंकि AI तैनाती का पैमाना बढ़ता है।</p>
  <h2><strong>परीक्षण इन्फ्रास्ट्रक्चर जो स्केल करता है</strong></h2>
  <p>Kyiashko की पद्धति मूल्यांकन सिद्धांतों, मल्टी-टर्न वार्तालाप आकलन, और विभिन्न विफलता मोड के लिए मेट्रिक्स को संबोधित करती है।</p>
  <p>मुख्य अवधारणा: विविध परीक्षण। कोड-स्तर सत्यापन संरचनात्मक त्रुटियों को पकड़ता है। LLM-as-Judge मूल्यांकन AI सिस्टम प्रभावशीलता और सटीकता के आकलन को सक्षम करता है जो इस पर निर्भर करता है कि कौन सा LLM संस्करण उपयोग किया जा रहा है। मैनुअल त्रुटि विश्लेषण पैटर्न की पहचान करता है। RAG परीक्षण सत्यापित करता है कि एजेंट विवरण का आविष्कार करने के बजाय प्रदान किए गए संदर्भ का उपयोग करते हैं।</p>
  <p>"मैं जिस फ्रेमवर्क का वर्णन करता हूं वह AI सिस्टम के परीक्षण के लिए विविध दृष्टिकोण की अवधारणा पर आधारित है। हम कोड-स्तर कवरेज, LLM-as-Judge मूल्यांकनकर्ताओं, मैनुअल त्रुटि विश्लेषण, और Retrieval-Augmented Generation का मूल्यांकन करते हैं।" एक साथ काम करने वाली कई सत्यापन विधियां विभिन्न भ्रम प्रकारों को पकड़ती हैं जो एकल दृष्टिकोण चूक जाते हैं।</p>
  <h2><strong>आगे क्या आता है</strong></h2>
  <p>क्षेत्र प्रोडक्शन विफलताओं और पुनरावृत्त परिष्करण के माध्यम से वास्तविक समय में सर्वोत्तम प्रथाओं को परिभाषित करता है। अधिक कंपनियां जनरेटिव AI तैनात करती हैं। अधिक मॉडल स्वायत्त निर्णय लेते हैं। सिस्टम अधिक सक्षम हो जाते हैं, जिसका अर्थ है कि भ्रम अधिक प्रशंसनीय हो जाते हैं।</p>
  <p>लेकिन व्यवस्थित परीक्षण उपयोगकर्ताओं के सामने आने से पहले गढ़ंत को पकड़ता है। भ्रम के लिए परीक्षण पूर्णता के बारे में नहीं है—मॉडल में हमेशा एज केस होंगे जहां वे गढ़ते हैं। यह व्यवस्थित रूप से गढ़ंत को पकड़ने और उन्हें प्रोडक्शन तक पहुंचने से रोकने के बारे में है।</p>
  <p>तकनीकें काम करती हैं जब सही ढंग से लागू की जाती हैं। जो कमी है वह यह है कि प्रोडक्शन वातावरण में उन्हें कैसे कार्यान्वित किया जाए जहां विश्वसनीयता मायने रखती है, इसकी व्यापक समझ।</p>
  <p><em>Dmytro Kyiashko एक Software Developer in Test हैं जो AI सिस्टम परीक्षण में विशेषज्ञता रखते हैं, जिनके पास conversational AI और autonomous agents के लिए टेस्ट फ्रेमवर्क बनाने का अनुभव है। उनका काम मल्टीमॉडल AI सिस्टम में विश्वसनीयता और सत्यापन चुनौतियों की जांच करता है।</em></p>
 </div><span class="et_social_bottom_trigger"></span>
 <div class="post-tags">
  <span class="post-tags-header">संबंधित आइटम:</span>AI, AI Governance, AI Safety, auditing, Behavior, Bias Detection, Dmytro Kyiashko, Hallucinations, Large Language Models, LLM, LLM Auditing, machine learning, Model Behaviour, Responsible AI, software developer
 </div>
 <div class="social-sharing-bot">
  <div class="facebook-share">
   <span class="fb-but1"><i class="fa-brands fa-facebook-f"></i></span><span class="social-text">शेयर करें</span>
  </div>
  <div class="twitter-share">
   <span class="twitter-but1"><i class="fa-brands fa-x-twitter"></i></span><span class="social-text">शेयर करें</span>
  </div>
  <div class="whatsapp-share">
   <span class="whatsapp-but1"><i class="fa-brands fa-whatsapp fa-2x"></i></span><span class="social-text">शेयर करें</span>
  </div>
  <div class="pinterest-share">
   <span class="pinterest-but1"><i class="fa-brands fa-pinterest-p"></i></span><span class="social-text">शेयर करें</span>
  </div>
  <div class="email-share">
   <span class="email-but"><i class="fa fa-envelope fa-2"></i></span><span class="social-text">ईमेल</span>
  </div>
 </div>
 <div class="mvp-related-posts left relative">
  <h4 class="post-header"><span class="post-header">आपके लिए अनुशंसित</span></h4>
  <ul>
   <li>
    <div class="mvp-related-text left relative">
     AI-संचालित क्रेडिट रणनीति: Surbhi Gupta प्रेडिक्टिव एनालिटिक्स पर
    </div></li>
   <li>
    <div class="mvp-related-text left relative">
     AI इन्फ्रास्ट्रक्चर बहुत महंगा नहीं है। हम इसे बस गलत चला रहे हैं – Lior Koriat, Quali के CEO
    </div></li>
   <li>
    <div class="mvp-related-text left relative">
     अपनी छवियों को रूपांतरित करें: AIEnhancer वॉटरमार्क हटाना आसान बनाता है
    </div></li>
  </ul>
 </div>
 <div id="comments-button" class="left relative comment-click-667025 com-but-667025">
  <span class="comment-but-text">कमेंट्स</span>
 </div>
</div>
मार्केट अवसर
Large Language Model लोगो
Large Language Model मूल्य(LLM)
$0.0003346
$0.0003346$0.0003346
+0.39%
USD
Large Language Model (LLM) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए service@support.mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

CFTC और SEC चेयर्स ने क्रिप्टो रेगुलेशन ड्रीम टीम का गठन किया

CFTC और SEC चेयर्स ने क्रिप्टो रेगुलेशन ड्रीम टीम का गठन किया

व्हाइट हाउस ने डिजिटल एसेट रेगुलेशन पर प्रगति का संकेत दिया क्योंकि प्रमुख नामांकन आकार ले रहे हैं बाइडन प्रशासन क्रिप्टो रेगुलेशन के प्रति अपने दृष्टिकोण को आगे बढ़ा रहा है
शेयर करें
Crypto Breaking News2025/12/23 02:28
अमेरिकी प्रतिबंधों के कारण रूस का यूराल क्रूड लगभग $34 प्रति बैरल तक गिर गया है

अमेरिकी प्रतिबंधों के कारण रूस का यूराल क्रूड लगभग $34 प्रति बैरल तक गिर गया है

रूस का प्रमुख यूराल्स क्रूड लगभग $34 प्रति बैरल तक गिर गया, जो तेल बाजार में एक स्पष्ट मूल्य संकेत भेज रहा है कि अमेरिकी प्रतिबंध असर दिखाना शुरू कर रहे हैं।
शेयर करें
Cryptopolitan2025/12/23 02:20
यू.एस. क्रिप्टो फंड्स में $952M की गिरावट क्लैरिटी एक्ट की देरी से घबराहट बढ़ी – लेकिन ये 2 अल्टकॉइन्स बचे रहे

यू.एस. क्रिप्टो फंड्स में $952M की गिरावट क्लैरिटी एक्ट की देरी से घबराहट बढ़ी – लेकिन ये 2 अल्टकॉइन्स बचे रहे

अमेरिकी-केंद्रित डिजिटल एसेट निवेश फंडों ने एक महीने में पहली बार साप्ताहिक निकासी दर्ज की, लंबे समय से विलंबित CLARITY से जुड़ी देरी के बाद $952 मिलियन का नुकसान हुआ
शेयर करें
CryptoNews2025/12/23 02:09