क्रिप्टो खरीदें मार्केट स्पॉट फ़्यूचर्सGOLD कमाएँ इवेंट सेंटर

अधिक

DeepSeek-R1 Vectara के अनुसार 14.3% तक hallucinate करता है, जो V3 से 4 गुना ज्यादा है। ये डेटा क्रिप्टो AI एजेंट टोकन्स के लिए जोखिम का संकेत देता है। The postDeepSeek-R1 Vectara के अनुसार 14.3% तक hallucinate करता है, जो V3 से 4 गुना ज्यादा है। ये डेटा क्रिप्टो AI एजेंट टोकन्स के लिए जोखिम का संकेत देता है। The post

DeepSeek-R1 V3 से 4 गुना ज्यादा hallucinate करता है, Crypto AI Agent टोकन के लिए खतरे का संकेत

सोर्स: Beincrypto HI

2026/05/12 04:03

4 मिनट पढ़ें

शेयर करें

4$0.012884-5.43%

AI$0.03444-12.69%

इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

DeepSeek-R1, DeepSeek लैब का प्रमुख reasoning मॉडल, Vectara के HHEM 2.1 बेंचमार्क के अनुसार 14.3% पर hallucinates करता है। यह उसके non-reasoning पुराने वर्ज़न DeepSeek-V3 (जिसका स्कोर 3.9% है) से लगभग चार गुना अधिक है।

यह अंतर क्रिप्टो सेक्टर के लिए गंभीर सवाल उठाता है। तेजी से बढ़ते AI एजेंट टोकन अब autonomous ट्रेडिंग, signals, और ऑन-चेन execution के लिए reasoning-स्टाइल LLMs पर निर्भर हैं।

Vectara डेटा दिखाता है R1 ‘Overhelps’ गलत तथ्यों के साथ

Vectara ने दोनों DeepSeek मॉडल्स को HHEM 2.1 के जरिए टेस्ट किया, जो इसका dedicated hallucination evaluation framework है। टीम ने Google के FACTS methodology से रिजल्ट्स को cross-check भी किया। हर टेस्ट configuration में R1 ने V3 के मुकाबले ज्यादा गलत या unsupported statements जनरेट किए।

इसका कारण सिर्फ reasoning depth नहीं था। Vectara के analysts ने पाया कि R1 अक्सर ‘overhelp’ करता है। यह मॉडल सोर्स टेक्स्ट में नहीं दिखने वाली जानकारी भी जोड़ देता है।

यह जो extra detail है, वह अपने आप में factually सही हो सकती है, फिर भी hallucination मानी जाती है। यह व्यवहार otherwise सही जवाबों में fabricated context ले आता है।

Vectara ने यह बात सीधे तौर पर X (पहले Twitter) पर एक पब्लिक पोस्ट में कही।

यह पैटर्न सिर्फ DeepSeek तक सीमित नहीं है। इंडस्ट्री ट्रैकर्स ने इसी तरह के ट्रेंड अन्य लैब्स के reasoning-trained मॉडल्स में भी देखे हैं। Reinforcement learning जो chain-of-thought को तेज करता है, वह अक्सर bold और ज्यादा confident जनरेशन को भी बढ़ावा देता है।

क्यों क्रिप्टो AI टोकन इस Trade-Off पर टिके हैं?

अब क्रिप्टो मार्केट में सैकड़ों AI एजेंट टोकन हैं, जिसमें Virtuals Protocol (VIRTUAL), ai16z (AI16Z), और aixbt (AIXBT) सबसे आगे हैं।

इस कैटेगरी ने हाल ही में 30 दिन की विंडो में लगभग 39.4% की ग्रोथ दिखाई है। Virtuals अकेले ने $576 मिलियन से ज्यादा का मार्केट कैप पार कर लिया है।

Virtuals Protocol (VIRTUAL) प्राइस परफॉर्मेंस। स्रोत: Coingecko

इनमें से ज्यादातर agents एक बड़े language model को टूलिंग से जोड़ते हैं। यह टूलिंग एजेंट को सोशल मीडिया पर पोस्ट करने, ट्रेड्स रूट करने, टोकन मिंट करने या मार्केट कमेंट्री जनरेट करने की सुविधा देती है।

जब underlying मॉडल किसी प्राइस लेवल, पार्टनरशिप या कॉन्ट्रैक्ट एड्रेस को fabricate कर देता है, तो उसका असर ऑन-चेन पड़ता है।

BeInCrypto के एक analysis में AIXBT एजेंट ने 416 टोकन्स को शिल किया था, जिसका औसत रिटर्न 19% रहा। लेकिन यही मैकेनिज्म, जब मॉडल fail हो जाता है, फॉलोअर्स को गलत कॉल्स के रिस्क में डाल देता है।

रिस्क सरफेस autonomy के साथ स्केल होता है। Read-only एजेंट्स जो सिर्फ़ सेंटीमेंट समरी करते हैं, उनका स्टेक्स अलग होता है, उनके मुकाबले जो एजेंट्स ट्रेजरी keys रखते हैं।

Reasoning मॉडल खास करके उन एजेंट्स के लिए आकर्षक हैं जो कई स्टेप्स में प्लान करते हैं। यही वह यूज़ केस है जिसमें Vectara का 14.3% आंकड़ा सबसे ज्यादा असर डालता है।

अगर शुरू में ही कोई गलत तथ्य सोच की चेन में आ जाए, तो वह हर आगे की एक्शन में फैला जा सकता है।

LeCun का तर्क है कि दिक्कत आर्किटेक्चरल है

Yann LeCun, Meta के चिफ AI scientist, लंबे समय से यह तर्क दे रहे हैं कि autoregressive LLMs पूरी तरह से hallucination से नहीं बच सकते। उनके नजरिए में, आर्किटेक्चर खुद किसी grounded वर्ल्ड मॉडल की कमी है।

Chain-of-thought पर reinforcement learning मैथ और कोडिंग जैसे छोटे डोमेन्स में दिक्कत को छुपा सकता है। लेकिन root cause वहीं का वहीं रहता है।

दूसरी frontier labs इससे सहमत नहीं हैं। वे retrieval augmentation, post-training fine-tune और verifier मॉडल्स के ज़रिए benchmark hallucination रेट्स में लगातार सुधार को दिखाते हैं। हालांकि, डिवेलपर्स की रिपोर्ट्स अक्सर लीडरबोर्ड डाटा से मेल खाती है।

AI रिसर्चर xlr8harder ने X पर R1 के साथ एक डिबगिंग सेशन को लेकर अपनी रोजमर्रा की अनुभव को साझा किया।

क्रिप्टो एजेंट डिवेलपर्स के लिए असली सवाल risk management है, न कि सिर्फ आर्किटेक्चरल फिलॉसफी। ऐसे डिजाइन जो हर मॉडल के दावे को वेरिफिकेशन स्टेप से गुजारते हैं, वो ज्यादा अच्छा कर सकते हैं।

यही बात उन एजेंट्स पर भी लागू होती है जो फाइनेंशियल एक्शन्स के लिए छोटे और ज्यादा कंज़र्वेटिव मॉडल्स पर निर्भर करते हैं।

आने वाले लीडरबोर्ड साइकिल्स और R1 के अगले सक्सेसर्स दिखाएंगे कि रीजनिंग vs एक्युरेसी का ट्रेंड-ऑफ कितना कंसीड किया जा रहा है या नहीं।

फिलहाल, 14.3% और 3.9% के बीच का यह गैप एक ऐसा ऑपरेशनल डिटेल है जिस पर नजर रखना जरूरी है। यह फर्क उन AI एजेंट टोकन को अलग कर सकता है जो वर्किंग प्रोडक्ट्स डिलीवर कर रहे हैं, उनसे जो सिर्फ प्रॉमिस कर रहे हैं।

The post DeepSeek-R1 V3 से 4 गुना ज्यादा hallucinate करता है, Crypto AI Agent टोकन के लिए खतरे का संकेत appeared first on BeInCrypto Hindi.

मार्केट अवसर

4 मूल्य(4)

$0.012884

$0.012884$0.012884

+0.82%

USD

4 (4) मूल्य का लाइव चार्ट

200,000 USDT Prize Pool

Trade gold, silver & oil. Everyone wins.

अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.