DeepSeek-R1, DeepSeek लैब का प्रमुख reasoning मॉडल, Vectara के HHEM 2.1 बेंचमार्क के अनुसार 14.3% पर hallucinates करता है। यह उसके non-reasoning पुराने वर्ज़न DeepSeek-V3 (जिसका स्कोर 3.9% है) से लगभग चार गुना अधिक है।
यह अंतर क्रिप्टो सेक्टर के लिए गंभीर सवाल उठाता है। तेजी से बढ़ते AI एजेंट टोकन अब autonomous ट्रेडिंग, signals, और ऑन-चेन execution के लिए reasoning-स्टाइल LLMs पर निर्भर हैं।
Vectara ने दोनों DeepSeek मॉडल्स को HHEM 2.1 के जरिए टेस्ट किया, जो इसका dedicated hallucination evaluation framework है। टीम ने Google के FACTS methodology से रिजल्ट्स को cross-check भी किया। हर टेस्ट configuration में R1 ने V3 के मुकाबले ज्यादा गलत या unsupported statements जनरेट किए।
इसका कारण सिर्फ reasoning depth नहीं था। Vectara के analysts ने पाया कि R1 अक्सर ‘overhelp’ करता है। यह मॉडल सोर्स टेक्स्ट में नहीं दिखने वाली जानकारी भी जोड़ देता है।
यह जो extra detail है, वह अपने आप में factually सही हो सकती है, फिर भी hallucination मानी जाती है। यह व्यवहार otherwise सही जवाबों में fabricated context ले आता है।
Vectara ने यह बात सीधे तौर पर X (पहले Twitter) पर एक पब्लिक पोस्ट में कही।
यह पैटर्न सिर्फ DeepSeek तक सीमित नहीं है। इंडस्ट्री ट्रैकर्स ने इसी तरह के ट्रेंड अन्य लैब्स के reasoning-trained मॉडल्स में भी देखे हैं। Reinforcement learning जो chain-of-thought को तेज करता है, वह अक्सर bold और ज्यादा confident जनरेशन को भी बढ़ावा देता है।
अब क्रिप्टो मार्केट में सैकड़ों AI एजेंट टोकन हैं, जिसमें Virtuals Protocol (VIRTUAL), ai16z (AI16Z), और aixbt (AIXBT) सबसे आगे हैं।
इस कैटेगरी ने हाल ही में 30 दिन की विंडो में लगभग 39.4% की ग्रोथ दिखाई है। Virtuals अकेले ने $576 मिलियन से ज्यादा का मार्केट कैप पार कर लिया है।
इनमें से ज्यादातर agents एक बड़े language model को टूलिंग से जोड़ते हैं। यह टूलिंग एजेंट को सोशल मीडिया पर पोस्ट करने, ट्रेड्स रूट करने, टोकन मिंट करने या मार्केट कमेंट्री जनरेट करने की सुविधा देती है।
जब underlying मॉडल किसी प्राइस लेवल, पार्टनरशिप या कॉन्ट्रैक्ट एड्रेस को fabricate कर देता है, तो उसका असर ऑन-चेन पड़ता है।
BeInCrypto के एक analysis में AIXBT एजेंट ने 416 टोकन्स को शिल किया था, जिसका औसत रिटर्न 19% रहा। लेकिन यही मैकेनिज्म, जब मॉडल fail हो जाता है, फॉलोअर्स को गलत कॉल्स के रिस्क में डाल देता है।
रिस्क सरफेस autonomy के साथ स्केल होता है। Read-only एजेंट्स जो सिर्फ़ सेंटीमेंट समरी करते हैं, उनका स्टेक्स अलग होता है, उनके मुकाबले जो एजेंट्स ट्रेजरी keys रखते हैं।
Reasoning मॉडल खास करके उन एजेंट्स के लिए आकर्षक हैं जो कई स्टेप्स में प्लान करते हैं। यही वह यूज़ केस है जिसमें Vectara का 14.3% आंकड़ा सबसे ज्यादा असर डालता है।
अगर शुरू में ही कोई गलत तथ्य सोच की चेन में आ जाए, तो वह हर आगे की एक्शन में फैला जा सकता है।
Yann LeCun, Meta के चिफ AI scientist, लंबे समय से यह तर्क दे रहे हैं कि autoregressive LLMs पूरी तरह से hallucination से नहीं बच सकते। उनके नजरिए में, आर्किटेक्चर खुद किसी grounded वर्ल्ड मॉडल की कमी है।
Chain-of-thought पर reinforcement learning मैथ और कोडिंग जैसे छोटे डोमेन्स में दिक्कत को छुपा सकता है। लेकिन root cause वहीं का वहीं रहता है।
दूसरी frontier labs इससे सहमत नहीं हैं। वे retrieval augmentation, post-training fine-tune और verifier मॉडल्स के ज़रिए benchmark hallucination रेट्स में लगातार सुधार को दिखाते हैं। हालांकि, डिवेलपर्स की रिपोर्ट्स अक्सर लीडरबोर्ड डाटा से मेल खाती है।
AI रिसर्चर xlr8harder ने X पर R1 के साथ एक डिबगिंग सेशन को लेकर अपनी रोजमर्रा की अनुभव को साझा किया।
क्रिप्टो एजेंट डिवेलपर्स के लिए असली सवाल risk management है, न कि सिर्फ आर्किटेक्चरल फिलॉसफी। ऐसे डिजाइन जो हर मॉडल के दावे को वेरिफिकेशन स्टेप से गुजारते हैं, वो ज्यादा अच्छा कर सकते हैं।
यही बात उन एजेंट्स पर भी लागू होती है जो फाइनेंशियल एक्शन्स के लिए छोटे और ज्यादा कंज़र्वेटिव मॉडल्स पर निर्भर करते हैं।
आने वाले लीडरबोर्ड साइकिल्स और R1 के अगले सक्सेसर्स दिखाएंगे कि रीजनिंग vs एक्युरेसी का ट्रेंड-ऑफ कितना कंसीड किया जा रहा है या नहीं।
फिलहाल, 14.3% और 3.9% के बीच का यह गैप एक ऐसा ऑपरेशनल डिटेल है जिस पर नजर रखना जरूरी है। यह फर्क उन AI एजेंट टोकन को अलग कर सकता है जो वर्किंग प्रोडक्ट्स डिलीवर कर रहे हैं, उनसे जो सिर्फ प्रॉमिस कर रहे हैं।
The post DeepSeek-R1 V3 से 4 गुना ज्यादा hallucinate करता है, Crypto AI Agent टोकन के लिए खतरे का संकेत appeared first on BeInCrypto Hindi.
