DeepSeek V4 की लंबे संदर्भ वाली कोडिंग में ChatGPT और Claude से बेहतर प्रदर्शन करने की अफवाह है, जो उच्च स्तरीय कोडिंग कार्यों को लक्षित कर रहा है। अंदरूनी सूत्रों का दावा है कि सिलिकॉन वैली के AI परिदृश्य को चिंतित होना चाहिए यदि आंतरिक परीक्षण फरवरी के मध्य में रोलआउट के बाद इसके अपेक्षित प्रदर्शन का संकेत देते हैं।
चीन स्थित AI स्टार्ट-अप DeepSeek कथित तौर पर 17 फरवरी को अपना नवीनतम बड़ा भाषा मॉडल DeepSeek V4 जारी करने की योजना बना रहा है। इस मामले से परिचित लोगों का दावा है कि यह मॉडल लंबे संदर्भ वाले कोड प्रॉम्प्ट और कार्यों को संभालते समय मौजूदा बड़े भाषा मॉडल, जैसे OpenAI के ChatGPT और Anthropic के Claude पर छाया डालने के लिए तैयार है।
डेवलपर्स DeepSeek V4 रिलीज़ के लिए गहरी प्रत्याशा व्यक्त करते हैं
चीनी कंपनी ने लेखन के समय तक आसन्न रिलीज़ के बारे में कोई जानकारी सार्वजनिक रूप से प्रकट नहीं की है या अफवाहों की पुष्टि नहीं की है। विभिन्न सोशल नेटवर्क पर डेवलपर्स ने रिलीज़ के लिए गहरी प्रत्याशा व्यक्त की है। Yuchen Jin, एक AI डेवलपर और Hyperbolic Labs के सह-संस्थापक ने X पर लिखा कि "DeepSeek V4 के जल्द ही आने की अफवाह है, Claude और GPT की तुलना में मजबूत कोडिंग के साथ।"
Subreddit r/DeepSeek भी गरम हो गया, एक उपयोगकर्ता ने समझाया कि DeepSeek के आसन्न V4 मॉडल के प्रति उनका जुनून सामान्य नहीं था। उपयोगकर्ता ने कहा कि वे अक्सर "समाचार, संभावित अफवाहें जांचते हैं, और मैं DS वेबसाइट पर Docs को पढ़ने भी जाता हूं ताकि किसी अपडेट का संकेत देने वाले किसी भी बदलाव या संकेत को देख सकूं।"
DeepSeek की पिछली रिलीज़ों का वैश्विक बाजारों पर महत्वपूर्ण प्रभाव पड़ा है। चीनी AI स्टार्ट-अप ने जनवरी 2025 में अपना R1 रीजनिंग मॉडल जारी किया, जिससे ट्रिलियन-डॉलर की बिकवाली हुई। यह रिलीज़ गणित और रीजनिंग बेंचमार्क पर OpenAI के 01 मॉडल से मेल खाती थी, इसके बावजूद कि US AI स्टार्टअप ने अपने 01 मॉडल पर जितना खर्च किया उससे काफी कम खर्च हुआ।
चीनी कंपनी ने कथित तौर पर मॉडल रिलीज़ पर केवल $6 मिलियन खर्च किए। इस बीच, वैश्विक प्रतिस्पर्धी समान आउटपुट के लिए लगभग 70 गुना अधिक खर्च करते हैं। इसके V3 मॉडल ने MATH-500 बेंचमार्क पर 90.2% स्कोर भी दर्ज किया, Claude के 78.3% की तुलना में। DeepSeek के अधिक हालिया V3 अपग्रेड (V3.2 Speciale) ने इसकी उत्पादकता में और सुधार किया।
इसके V4 मॉडल का विक्रय बिंदु V3 के शुद्ध रीजनिंग, औपचारिक प्रमाण और तार्किक गणित पर जोर से विकसित हुआ है। नई रिलीज़ एक हाइब्रिड मॉडल होने की उम्मीद है जो रीजनिंग और गैर-रीजनिंग दोनों कार्यों को जोड़ती है। मॉडल का लक्ष्य उच्च सटीकता और लंबे संदर्भ वाले कोड निर्माण की मांग करने वाली मौजूदा खाई को भरकर डेवलपर बाजार पर कब्जा करना है।
Claude Opus 4.5 वर्तमान में SWE बेंचमार्क में प्रभुत्व का दावा करता है, 80.9% की सटीकता प्राप्त करता है। Claude Opus 4.5 को पलटने के लिए V4 को इसे हराने की जरूरत है। पिछली सफलताओं के आधार पर, आने वाला मॉडल इस सीमा को पार कर सकता है और बेंचमार्क में प्रभुत्व का दावा कर सकता है।
DeepSeek LLM को प्रशिक्षित करने के लिए mHC का अग्रणी है
DeepSeek की सफलता ने कई लोगों को गहरे पेशेवर अविश्वास में छोड़ दिया है। इतनी छोटी कंपनी इस तरह की उपलब्धियां कैसे हासिल कर सकती है? रहस्य 1 जनवरी को प्रकाशित इसके शोध पत्र में गहराई से निहित हो सकता है। कंपनी ने एक नई प्रशिक्षण विधि की पहचान की जो डेवलपर्स को बड़े भाषा मॉडल को आसानी से स्केल करने की अनुमति देती है। Liang Wenfeng, DeepSeek के संस्थापक और CEO ने शोध में लिखा कि कंपनी अपने AI मॉडल को प्रशिक्षित करने के लिए Manifold-Constrained Hyper-Connections (mHC) का उपयोग कर रही है।
कार्यकारी ने डेवलपर्स द्वारा बड़े भाषा मॉडल को प्रशिक्षित करते समय आने वाली समस्याओं को हल करने के लिए mHC का उपयोग करने का प्रस्ताव रखा। Wenfeng के अनुसार, mHC Hyper-Connections (HC) का एक अपग्रेड है, एक ढांचा जिसका उपयोग अन्य AI डेवलपर्स अपने बड़े भाषा मॉडल को प्रशिक्षित करने के लिए करते हैं। उन्होंने समझाया कि HC और अन्य पारंपरिक AI आर्किटेक्चर सभी डेटा को एक एकल, संकीर्ण चैनल के माध्यम से मजबूर करते हैं। उसी समय, mHC उस मार्ग को कई चैनलों में विस्तृत करता है, प्रशिक्षण पतन के बिना डेटा और सूचना के हस्तांतरण की सुविधा प्रदान करता है।
Lian Jye Su, Omdia में मुख्य विश्लेषक ने CEO Wenfeng को उनके शोध प्रकाशित करने के लिए सराहना की। Su ने जोर देकर कहा कि DeepSeek का अपनी प्रशिक्षण विधियों को प्रकाशित करने का निर्णय चीनी AI क्षेत्र में नवीनीकृत विश्वास को निर्देशित करता है। DeepSeek ने विकासशील दुनिया पर प्रभुत्व जमा लिया है। Microsoft ने गुरुवार को एक रिपोर्ट प्रकाशित की, जिसमें दिखाया गया कि DeepSeek चीन के AI बाजार का 89% हिस्सा रखता है और विकासशील देशों में गति प्राप्त कर रहा है।
क्या आप चाहते हैं कि आपका प्रोजेक्ट क्रिप्टो के शीर्ष दिमागों के सामने हो? इसे हमारी अगली उद्योग रिपोर्ट में शामिल करें, जहां डेटा प्रभाव से मिलता है।
स्रोत: https://www.cryptopolitan.com/deepseek-v4-chatgpt-and-claude/


