BridgeMind AI ने दावा किया है कि Anthropic के Claude Opus 4.6 को गुप्त रूप से डाउनग्रेड किया गया है, जब एक hallucination बेंचमार्क रीटेस्ट हुआ। यह वायरल पोस्ट अब गलत मेथडोलॉजी को लेकर भारी आलोचना का शिकार हो रही है।
इस दावे ने बड़ी बहस को जन्म दे दिया है कि क्या AI कंपनियां चुपचाप पेड मॉडल्स को डाउनग्रेड करके अपना खर्चा कम कर रही हैं।
BridgeMind, जो कि BridgeBench कोडिंग बेंचमार्क के पीछे की टीम है, ने पोस्ट किया कि Claude Opus 4.6 उनकी hallucination लीडरबोर्ड में दूसरे स्थान से दसवें स्थान पर आ गया है। इसके accuracy स्कोर में भी गिरावट आई, 83.3% से घटकर 68.3% हो गया।
पोस्ट में इसे “reduced reasoning levels” का सबूत बताते हुए पेश किया गया। लेकिन, अगर आंकड़ों को गहराई से देखें तो एक अलग सच्चाई सामने आती है।
कंप्यूटर साइंटिस्ट Paul Calcraft के अनुसार, यह दावा “incredibly bad science” है और उन्होंने मेथडोलॉजी में गंभीर समस्या बताई।
पहला हाई स्कोर सिर्फ छह बेंचमार्क tasks से आया था। अब नए रीटेस्ट में बेंचमार्क को 30 tasks तक बढ़ा दिया गया।
छह ओवरलैपिंग tasks में, प्रदर्शन लगभग एक जैसा ही रहा, सिर्फ 87.6% से घटकर 85.4% रह गया।
ये छोटा सा फर्क भी सिर्फ एक extra fabrication के कारण आया, वो भी एक ही task में। क्योंकि कोई भी टेस्ट दोहराया नहीं गया, इसलिए ये फर्क AI मॉडल्स में सामान्य statistical variance के दायरे में आता है।
Large language models deterministic नहीं होते, यानी छोटी सी sample में एक खराब आउटपुट भी पूरी रिपोर्ट को काफी हद तक बदल सकता है।
फिर भी, इस पोस्ट ने लोगों की नाराजगी को छू लिया। फरवरी 2026 में लॉन्च होने के बाद से, Claude Opus 4.6 को लगातार क्वालिटी में गिरावट को लेकर शिकायतों का सामना करना पड़ा है।
डेवलपर्स ने रिपोर्ट किया है कि पीक आवर्स के दौरान रिस्पॉन्स छोटे होते हैं, इंस्ट्रक्शन फॉलो करना कमजोर हो जाता है, और रीजनिंग की गहराई भी कम हो गई है।
इसका कुछ कारण जानबूझकर किए गए प्रोडक्ट बदलाव भी हैं। Anthropic ने adaptive thinking controls पेश किए जिससे मॉडल खुद ही अपनी रीजनिंग बजट को एडजस्ट कर सकता है। बाद में इसका डिफॉल्ट लेवल ‘मीडियम’ सेट किया गया, जिसमें efficiency को maximum गहराई से ऊपर रखा गया।
एक स्वतंत्र एनालिसिस में 6,800 से ज्यादा Claude Code सेशन्स का डेटा देखने पर सामने आया कि फरवरी के आखिर तक रीजनिंग गहराई लगभग 67% गिर चुकी थी।
कोड एडिट करने से पहले मॉडल का फाइल-रीड अनुपात 6.6 से घटकर 2.0 हो गया। इसका मतलब है कि मॉडल ने कई बार कोड को ठीक करने की कोशिश की, जबकि उसने उसे सही से समीक्षा भी नहीं की थी।
यह AI इंडस्ट्री के भीतर बढ़ती तनाव को दर्शाता है। कंपनियां लॉन्च के बाद मॉडल्स को कॉस्ट और स्केल के लिए ऑप्टिमाइज़ करती हैं, जबकि हेवी यूज़र्स लगातार बेस्ट परफॉर्मेंस की उम्मीद करते हैं। इन प्राथमिकताओं के बीच अंतर भरोसे को कम करता है।
मौजूदा सबूतों के आधार पर, BridgeBench डेटा जानबूझकर डाउंग्रेड किए जाने को साबित नहीं करता। बेंचमार्क तुलना एक जैसी नहीं थी, और जहां डेटा ओवरलैप हो रहा था, वहां रिजल्ट्स लगभग एक जैसे थे।
हालांकि, यूज़र्स की निराशा पूरी तरह ग़लत भी नहीं है। adaptive compute controls और सर्विस-लेवल ऑप्टिमाइजेशन की वजह से अब Claude Opus 4.6 का व्यवहार वाकई बदल गया है। उन डेवलपर्स के लिए, जो लगातार रिजल्ट्स पर डिपेंड रहते हैं, ये बदलाव मायने रखते हैं।
Anthropic ने 13 अप्रैल तक BridgeBench के खास आरोपों पर कोई पब्लिक स्टेटमेंट जारी नहीं किया है।
The post वायरल BridgeBench पोस्ट में दावा, Claude Opus 4.6 ‘नर्फ़’ हुआ, आलोचकों ने बताया ये Bad Science appeared first on BeInCrypto Hindi.

