DeepSeek-R1 Vectara के अनुसार 14.3% तक hallucinate करता है, जो V3 से 4 गुना ज्यादा है। ये डेटा क्रिप्टो AI एजेंट टोकन्स के लिए जोखिम का संकेत देता है। The postDeepSeek-R1 Vectara के अनुसार 14.3% तक hallucinate करता है, जो V3 से 4 गुना ज्यादा है। ये डेटा क्रिप्टो AI एजेंट टोकन्स के लिए जोखिम का संकेत देता है। The post

DeepSeek-R1 V3 से 4 गुना ज्यादा hallucinate करता है, Crypto AI Agent टोकन के लिए खतरे का संकेत

2026/05/12 04:03
4 मिनट पढ़ें
इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

DeepSeek-R1, DeepSeek लैब का प्रमुख reasoning मॉडल, Vectara के HHEM 2.1 बेंचमार्क के अनुसार 14.3% पर hallucinates करता है। यह उसके non-reasoning पुराने वर्ज़न DeepSeek-V3 (जिसका स्कोर 3.9% है) से लगभग चार गुना अधिक है।

यह अंतर क्रिप्टो सेक्टर के लिए गंभीर सवाल उठाता है। तेजी से बढ़ते AI एजेंट टोकन अब autonomous ट्रेडिंग, signals, और ऑन-चेन execution के लिए reasoning-स्टाइल LLMs पर निर्भर हैं।

Vectara डेटा दिखाता है R1 ‘Overhelps’ गलत तथ्यों के साथ

Vectara ने दोनों DeepSeek मॉडल्स को HHEM 2.1 के जरिए टेस्ट किया, जो इसका dedicated hallucination evaluation framework है। टीम ने Google के FACTS methodology से रिजल्ट्स को cross-check भी किया। हर टेस्ट configuration में R1 ने V3 के मुकाबले ज्यादा गलत या unsupported statements जनरेट किए।

इसका कारण सिर्फ reasoning depth नहीं था। Vectara के analysts ने पाया कि R1 अक्सर ‘overhelp’ करता है। यह मॉडल सोर्स टेक्स्ट में नहीं दिखने वाली जानकारी भी जोड़ देता है।

यह जो extra detail है, वह अपने आप में factually सही हो सकती है, फिर भी hallucination मानी जाती है। यह व्यवहार otherwise सही जवाबों में fabricated context ले आता है।

Vectara ने यह बात सीधे तौर पर X (पहले Twitter) पर एक पब्लिक पोस्ट में कही।

यह पैटर्न सिर्फ DeepSeek तक सीमित नहीं है। इंडस्ट्री ट्रैकर्स ने इसी तरह के ट्रेंड अन्य लैब्स के reasoning-trained मॉडल्स में भी देखे हैं। Reinforcement learning जो chain-of-thought को तेज करता है, वह अक्सर bold और ज्यादा confident जनरेशन को भी बढ़ावा देता है।

क्यों क्रिप्टो AI टोकन इस Trade-Off पर टिके हैं?

अब क्रिप्टो मार्केट में सैकड़ों AI एजेंट टोकन हैं, जिसमें Virtuals Protocol (VIRTUAL), ai16z (AI16Z), और aixbt (AIXBT) सबसे आगे हैं।

इस कैटेगरी ने हाल ही में 30 दिन की विंडो में लगभग 39.4% की ग्रोथ दिखाई है। Virtuals अकेले ने $576 मिलियन से ज्यादा का मार्केट कैप पार कर लिया है।

Virtuals Protocol (VIRTUAL) प्राइस परफॉर्मेंसVirtuals Protocol (VIRTUAL) प्राइस परफॉर्मेंस। स्रोत: Coingecko

इनमें से ज्यादातर agents एक बड़े language model को टूलिंग से जोड़ते हैं। यह टूलिंग एजेंट को सोशल मीडिया पर पोस्ट करने, ट्रेड्स रूट करने, टोकन मिंट करने या मार्केट कमेंट्री जनरेट करने की सुविधा देती है।

जब underlying मॉडल किसी प्राइस लेवल, पार्टनरशिप या कॉन्ट्रैक्ट एड्रेस को fabricate कर देता है, तो उसका असर ऑन-चेन पड़ता है।

BeInCrypto के एक analysis में AIXBT एजेंट ने 416 टोकन्स को शिल किया था, जिसका औसत रिटर्न 19% रहा। लेकिन यही मैकेनिज्म, जब मॉडल fail हो जाता है, फॉलोअर्स को गलत कॉल्स के रिस्क में डाल देता है।

रिस्क सरफेस autonomy के साथ स्केल होता है। Read-only एजेंट्स जो सिर्फ़ सेंटीमेंट समरी करते हैं, उनका स्टेक्स अलग होता है, उनके मुकाबले जो एजेंट्स ट्रेजरी keys रखते हैं।

Reasoning मॉडल खास करके उन एजेंट्स के लिए आकर्षक हैं जो कई स्टेप्स में प्लान करते हैं। यही वह यूज़ केस है जिसमें Vectara का 14.3% आंकड़ा सबसे ज्यादा असर डालता है।

अगर शुरू में ही कोई गलत तथ्य सोच की चेन में आ जाए, तो वह हर आगे की एक्शन में फैला जा सकता है।

LeCun का तर्क है कि दिक्कत आर्किटेक्चरल है

Yann LeCun, Meta के चिफ AI scientist, लंबे समय से यह तर्क दे रहे हैं कि autoregressive LLMs पूरी तरह से hallucination से नहीं बच सकते। उनके नजरिए में, आर्किटेक्चर खुद किसी grounded वर्ल्ड मॉडल की कमी है।

Chain-of-thought पर reinforcement learning मैथ और कोडिंग जैसे छोटे डोमेन्स में दिक्कत को छुपा सकता है। लेकिन root cause वहीं का वहीं रहता है।

दूसरी frontier labs इससे सहमत नहीं हैं। वे retrieval augmentation, post-training fine-tune और verifier मॉडल्स के ज़रिए benchmark hallucination रेट्स में लगातार सुधार को दिखाते हैं। हालांकि, डिवेलपर्स की रिपोर्ट्स अक्सर लीडरबोर्ड डाटा से मेल खाती है।

AI रिसर्चर xlr8harder ने X पर R1 के साथ एक डिबगिंग सेशन को लेकर अपनी रोजमर्रा की अनुभव को साझा किया।

क्रिप्टो एजेंट डिवेलपर्स के लिए असली सवाल risk management है, न कि सिर्फ आर्किटेक्चरल फिलॉसफी। ऐसे डिजाइन जो हर मॉडल के दावे को वेरिफिकेशन स्टेप से गुजारते हैं, वो ज्यादा अच्छा कर सकते हैं।

यही बात उन एजेंट्स पर भी लागू होती है जो फाइनेंशियल एक्शन्स के लिए छोटे और ज्यादा कंज़र्वेटिव मॉडल्स पर निर्भर करते हैं।

आने वाले लीडरबोर्ड साइकिल्स और R1 के अगले सक्सेसर्स दिखाएंगे कि रीजनिंग vs एक्युरेसी का ट्रेंड-ऑफ कितना कंसीड किया जा रहा है या नहीं।

फिलहाल, 14.3% और 3.9% के बीच का यह गैप एक ऐसा ऑपरेशनल डिटेल है जिस पर नजर रखना जरूरी है। यह फर्क उन AI एजेंट टोकन को अलग कर सकता है जो वर्किंग प्रोडक्ट्स डिलीवर कर रहे हैं, उनसे जो सिर्फ प्रॉमिस कर रहे हैं।

The post DeepSeek-R1 V3 से 4 गुना ज्यादा hallucinate करता है, Crypto AI Agent टोकन के लिए खतरे का संकेत appeared first on BeInCrypto Hindi.

मार्केट अवसर
4 लोगो
4 मूल्य(4)
$0.012884
$0.012884$0.012884
+0.82%
USD
4 (4) मूल्य का लाइव चार्ट
अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.

आपको यह भी पसंद आ सकता है

इस हफ्ते नज़र रखें ये 3 बुलिश Altcoins

इस हफ्ते नज़र रखें ये 3 बुलिश Altcoins

Venice (VVV), Toncoin (TON), और Internet Computer (ICP) ने पिछले हफ्ते की altcoin रैली का नेतृत्व किया और इस हफ्ते और अपवर्ड की संभावना देख रहे हैं। The post इस
शेयर करें
Beincrypto HI2026/05/12 03:33
Ondo Finance Global Markets का TVL $1B से अधिक हुआ

Ondo Finance Global Markets का TVL $1B से अधिक हुआ

Ondo Finance ग्लोबल मार्केट्स ने $1 बिलियन TVL पार किया Ondo Finance ने कथित तौर पर अपने Global Markets प्लेटफ़ॉर्म के माध्यम से कुल लॉक्ड वैल्यू में $1 बिलियन से अधिक को पार कर लिया है
शेयर करें
Hokanews2026/05/12 03:12
ट्रंप ने मुख्य नीति से तेजी से पीछे कदम खींचे जब बीफ की कीमतें रिकॉर्ड ऊंचाई पर पहुंचीं

ट्रंप ने मुख्य नीति से तेजी से पीछे कदम खींचे जब बीफ की कीमतें रिकॉर्ड ऊंचाई पर पहुंचीं

राष्ट्रपति डोनाल्ड ट्रम्प का प्रशासन रिकॉर्ड-उच्च कीमतों के बीच बीफ पर कुछ टैरिफ निलंबित करेगा। सोमवार को, द वॉल स्ट्रीट जर्नल ने बताया कि
शेयर करें
Rawstory2026/05/12 02:41

KAIO Global Debut

KAIO Global DebutKAIO Global Debut

Enjoy 0-fee KAIO trading and tap into the RWA boom