क्रिप्टो खरीदें मार्केट स्पॉट फ़्यूचर्सGOLD कमाएँ इवेंट सेंटर

अधिक

एक वायरल BridgeBench पोस्ट का दावा है कि Claude Opus 4.6 को nerf किया गया था। आलोचकों का कहना है कि डेटा तुलना त्रुटिपूर्ण और भ्रामक है। The post वायरल BridgeBeएक वायरल BridgeBench पोस्ट का दावा है कि Claude Opus 4.6 को nerf किया गया था। आलोचकों का कहना है कि डेटा तुलना त्रुटिपूर्ण और भ्रामक है। The post वायरल BridgeBe

वायरल BridgeBench पोस्ट में दावा, Claude Opus 4.6 ‘नर्फ़’ हुआ, आलोचकों ने बताया ये Bad Science

सोर्स: Beincrypto HI

2026/04/13 21:13

4 मिनट पढ़ें

शेयर करें

4$0,013079-11,11%

इस कॉन्टेंट के संबंध में प्रतिक्रिया या चिंताओं के लिए, कृपया crypto.news@mexc.com पर हमसे संपर्क करें

BridgeMind AI ने दावा किया है कि Anthropic के Claude Opus 4.6 को गुप्त रूप से डाउनग्रेड किया गया है, जब एक hallucination बेंचमार्क रीटेस्ट हुआ। यह वायरल पोस्ट अब गलत मेथडोलॉजी को लेकर भारी आलोचना का शिकार हो रही है।

इस दावे ने बड़ी बहस को जन्म दे दिया है कि क्या AI कंपनियां चुपचाप पेड मॉडल्स को डाउनग्रेड करके अपना खर्चा कम कर रही हैं।

BridgeMind ने hallucinations में 98% की तेज़ी का दावा किया

BridgeMind, जो कि BridgeBench कोडिंग बेंचमार्क के पीछे की टीम है, ने पोस्ट किया कि Claude Opus 4.6 उनकी hallucination लीडरबोर्ड में दूसरे स्थान से दसवें स्थान पर आ गया है। इसके accuracy स्कोर में भी गिरावट आई, 83.3% से घटकर 68.3% हो गया।

पोस्ट में इसे “reduced reasoning levels” का सबूत बताते हुए पेश किया गया। लेकिन, अगर आंकड़ों को गहराई से देखें तो एक अलग सच्चाई सामने आती है।

आलोचकों का कहना है कि तुलना पूरी तरह से गलत है

कंप्यूटर साइंटिस्ट Paul Calcraft के अनुसार, यह दावा “incredibly bad science” है और उन्होंने मेथडोलॉजी में गंभीर समस्या बताई।

पहला हाई स्कोर सिर्फ छह बेंचमार्क tasks से आया था। अब नए रीटेस्ट में बेंचमार्क को 30 tasks तक बढ़ा दिया गया।

छह ओवरलैपिंग tasks में, प्रदर्शन लगभग एक जैसा ही रहा, सिर्फ 87.6% से घटकर 85.4% रह गया।

ये छोटा सा फर्क भी सिर्फ एक extra fabrication के कारण आया, वो भी एक ही task में। क्योंकि कोई भी टेस्ट दोहराया नहीं गया, इसलिए ये फर्क AI मॉडल्स में सामान्य statistical variance के दायरे में आता है।

Large language models deterministic नहीं होते, यानी छोटी सी sample में एक खराब आउटपुट भी पूरी रिपोर्ट को काफी हद तक बदल सकता है।

बड़ी नाराज़गियां चर्चा को हवा दे रही हैं

फिर भी, इस पोस्ट ने लोगों की नाराजगी को छू लिया। फरवरी 2026 में लॉन्च होने के बाद से, Claude Opus 4.6 को लगातार क्वालिटी में गिरावट को लेकर शिकायतों का सामना करना पड़ा है।

डेवलपर्स ने रिपोर्ट किया है कि पीक आवर्स के दौरान रिस्पॉन्स छोटे होते हैं, इंस्ट्रक्शन फॉलो करना कमजोर हो जाता है, और रीजनिंग की गहराई भी कम हो गई है।

इसका कुछ कारण जानबूझकर किए गए प्रोडक्ट बदलाव भी हैं। Anthropic ने adaptive thinking controls पेश किए जिससे मॉडल खुद ही अपनी रीजनिंग बजट को एडजस्ट कर सकता है। बाद में इसका डिफॉल्ट लेवल ‘मीडियम’ सेट किया गया, जिसमें efficiency को maximum गहराई से ऊपर रखा गया।

एक स्वतंत्र एनालिसिस में 6,800 से ज्यादा Claude Code सेशन्स का डेटा देखने पर सामने आया कि फरवरी के आखिर तक रीजनिंग गहराई लगभग 67% गिर चुकी थी।

कोड एडिट करने से पहले मॉडल का फाइल-रीड अनुपात 6.6 से घटकर 2.0 हो गया। इसका मतलब है कि मॉडल ने कई बार कोड को ठीक करने की कोशिश की, जबकि उसने उसे सही से समीक्षा भी नहीं की थी।

AI यूज़र्स के लिए इसका क्या मतलब है

यह AI इंडस्ट्री के भीतर बढ़ती तनाव को दर्शाता है। कंपनियां लॉन्च के बाद मॉडल्स को कॉस्ट और स्केल के लिए ऑप्टिमाइज़ करती हैं, जबकि हेवी यूज़र्स लगातार बेस्ट परफॉर्मेंस की उम्मीद करते हैं। इन प्राथमिकताओं के बीच अंतर भरोसे को कम करता है।

मौजूदा सबूतों के आधार पर, BridgeBench डेटा जानबूझकर डाउंग्रेड किए जाने को साबित नहीं करता। बेंचमार्क तुलना एक जैसी नहीं थी, और जहां डेटा ओवरलैप हो रहा था, वहां रिजल्ट्स लगभग एक जैसे थे।

हालांकि, यूज़र्स की निराशा पूरी तरह ग़लत भी नहीं है। adaptive compute controls और सर्विस-लेवल ऑप्टिमाइजेशन की वजह से अब Claude Opus 4.6 का व्यवहार वाकई बदल गया है। उन डेवलपर्स के लिए, जो लगातार रिजल्ट्स पर डिपेंड रहते हैं, ये बदलाव मायने रखते हैं।

Anthropic ने 13 अप्रैल तक BridgeBench के खास आरोपों पर कोई पब्लिक स्टेटमेंट जारी नहीं किया है।

The post वायरल BridgeBench पोस्ट में दावा, Claude Opus 4.6 ‘नर्फ़’ हुआ, आलोचकों ने बताया ये Bad Science appeared first on BeInCrypto Hindi.

मार्केट अवसर

4 मूल्य(4)

$0,013079

$0,013079$0,013079

+0,14%

USD

4 (4) मूल्य का लाइव चार्ट

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

अस्वीकरण: इस साइट पर बाहर से पोस्ट किए गए लेख, सार्वजनिक प्लेटफार्म से लिए गए हैं और केवल सूचना देने के उद्देश्यों के लिए उपलब्ध कराए गए हैं. वे निश्चित तौर पर MEXC के विचारों को नहीं दिखाते. सभी संबंधित अधिकार मूल लेखकों के पास ही हैं. अगर आपको लगता है कि कोई कॉन्टेंट तीसरे पक्ष के अधिकारों का उल्लंघन करता है, तो कृपया उसे हटाने के लिए crypto.news@mexc.com से संपर्क करें. MEXC किसी कॉन्टेंट की सटीकता, पूर्णता या समयबद्धता के संबंध में कोई गारंटी नहीं देता है और प्रदान की गई जानकारी के आधार पर की गई किसी भी कार्रवाई के लिए जिम्मेदार नहीं है. यह कॉन्टेंट वित्तीय, कानूनी या अन्य प्रोफ़ेशनल सलाह नहीं है, न ही इसे MEXC द्वारा अनुशंसा या समर्थन माना जाना चाहिए.