यदि आप स्थानीय AI दृश्य का अनुसरण कर रहे हैं, तो आप शायद Qwopus को जानते होंगे—वह ओपन-सोर्स मॉडल जिसने Claude Opus 4.6 के तर्क को Alibaba के Qwen में समाहित करने की कोशिश की, ताकि आप अपने हार्डवेयर पर मुफ्त में Opus जैसा कुछ चला सकें। यह आश्चर्यजनक रूप से अच्छा काम करता है। स्पष्ट पकड़: Qwen एक चीनी मॉडल है, और हर कोई इससे सहज नहीं है।
Jackrong, उसी परियोजना के पीछे वही छद्म नाम वाला डेवलपर, ने प्रतिक्रिया सुनी। उनका जवाब है Gemopus—Claude Opus-शैली के फाइन-ट्यून का एक नया परिवार जो पूरी तरह से Google के ओपन-सोर्स Gemma 4 पर बना है। पूरी तरह से अमेरिकी DNA, वही विचार: अत्याधुनिक स्तर का तर्क, जो आपके पास पहले से मौजूद हार्डवेयर पर स्थानीय रूप से चल रहा है।
परिवार दो प्रकारों में आता है। Gemopus-4-26B-A4B भारी विकल्प है—एक मिक्सचर ऑफ एक्सपर्ट्स मॉडल जिसमें कुल 26 बिलियन पैरामीटर हैं लेकिन इंफरेंस के दौरान केवल लगभग 4 बिलियन सक्रिय होते हैं, जिसका अर्थ है कि यह सीमित हार्डवेयर पर अपने वजन से कहीं ऊपर प्रहार करता है।
पैरामीटर वे हैं जो AI की सीखने, तर्क करने और जानकारी संग्रहीत करने की क्षमता निर्धारित करते हैं। 26 बिलियन कुल पैरामीटर होने से मॉडल को ज्ञान की विशाल व्यापकता मिलती है। लेकिन आपके विशिष्ट प्रॉम्प्ट से संबंधित केवल 4 बिलियन पैरामीटर को "जगाकर", यह एक विशाल AI के उच्च-गुणवत्ता परिणाम प्रदान करता है जबकि रोजमर्रा के हार्डवेयर पर सुचारू रूप से चलने के लिए पर्याप्त हल्का रहता है।
दूसरा है Gemopus-4-E4B, एक 4-बिलियन पैरामीटर एज मॉडल जो एक आधुनिक iPhone या पतले-और-हल्के MacBook पर आराम से चलने के लिए इंजीनियर किया गया है—कोई GPU की आवश्यकता नहीं।
बेस मॉडल चयन यहाँ मायने रखता है। Google का Gemma 4, 2 अप्रैल को जारी किया गया, सीधे Gemini 3 के समान शोध और तकनीक से बनाया गया है—कंपनी ने लॉन्च पर स्पष्ट रूप से ऐसा कहा। इसका मतलब है कि Gemopus वह कुछ ले जाता है जो कोई Qwen-आधारित फाइन-ट्यून दावा नहीं कर सकता: Google के अपने अत्याधुनिक बंद मॉडल का DNA हुड के तहत, ऊपर Anthropic की सोच शैली में लपेटा गया। दोनों दुनियाओं का सर्वश्रेष्ठ, कमोबेश।
Gemopus को अभी Hugging Face पर बाढ़ आ रहे अन्य Gemma फाइन-ट्यून की लहर से जो अलग बनाता है वह इसके पीछे का दर्शन है। Jackrong ने जानबूझकर Claude के चेन-ऑफ-थॉट तर्क ट्रेस को Gemma के वेट में जबरन डालने से इनकार कर दिया—एक शॉर्टकट जो अधिकांश प्रतिस्पर्धी रिलीज लेते हैं।
उनका तर्क, हाल के शोध द्वारा समर्थित, यह है कि एक छात्र मॉडल को शिक्षक के सतही-स्तर के तर्क पाठ से भरना वास्तव में वास्तविक तर्क क्षमता स्थानांतरित नहीं करता है। यह नकल सिखाता है, तर्क नहीं। "Claude-शैली के चेन-ऑफ-थॉट की अत्यधिक कल्पना या अंधविश्वासी प्रतिकृति की कोई आवश्यकता नहीं है," मॉडल कार्ड पढ़ता है। इसके बजाय, उन्होंने उत्तर गुणवत्ता, संरचनात्मक स्पष्टता, और संवादात्मक स्वाभाविकता पर ध्यान केंद्रित किया—Gemma के कठोर विकिपीडिया टोन और उन चीजों के बारे में व्याख्यान देने की प्रवृत्ति को ठीक करना जो आपने नहीं पूछा।
AI इंफ्रास्ट्रक्चर इंजीनियर Kyle Hessling ने स्वतंत्र बेंचमार्क चलाए और परिणाम सीधे मॉडल कार्ड पर प्रकाशित किए। 26B वेरिएंट पर उनका फैसला काफी अनुकूल था। "इस एक को काफी कठिन बेंच करने में खुशी हुई और यह पहले से ही असाधारण मॉडल का एक उत्कृष्ट फाइन-ट्यून है," उन्होंने X पर लिखा। "यह लंबे संदर्भों पर वन-शॉट अनुरोधों में शानदार है, और MOE (मिक्सचर ऑफ एक्सपर्ट्स) आर्किटेक्चर के लिए धन्यवाद अविश्वसनीय रूप से तेजी से चलता है।"
छोटे E4B वेरिएंट ने सभी 14 मुख्य योग्यता परीक्षणों को पास किया—निर्देश अनुसरण, कोडिंग, गणित, बहु-चरण तर्क, अनुवाद, सुरक्षा, कैशिंग—और 30K और 60K टोकन पर सभी 12 लंबे-संदर्भ परीक्षणों को पास किया। नीडल-इन-हेस्टैक रिट्रीवल पर, इसने YaRN 8× RoPE स्केलिंग के साथ एक मिलियन टोकन पर एक स्ट्रेच टेस्ट सहित 13 में से 13 जांच पास कीं।
26B मूल रूप से 131K संदर्भ तक विस्तारित होता है और YaRN के साथ 524K तक पूरे रास्ते तक, जिसे Hessling ने भी तनाव-परीक्षण किया: "इसने 524k के विस्तारित संदर्भ तक मेरे सरल नीडल-इन-द-हेस्टैक परीक्षणों को भी कुचल दिया!"
एज हार्डवेयर पर, E4B वास्तव में तेज है। Jackrong iPhone 17 Pro Max पर 45–60 टोकन प्रति सेकंड, और MLX के माध्यम से MacBook Air M3/M4 पर 90–120 टोकन प्रति सेकंड की रिपोर्ट करता है। 26B MoE आर्किटेक्चर का मतलब है कि यह यूनिफाइड मेमोरी सिस्टम या 10GB से कम VRAM वाले GPU पर सुंदरता से ऑफलोड करता है। Hessling ने इसे VRAM-भूखे सेटअप के लिए अपनी दैनिक ड्राइवर सिफारिश कहा।
दोनों मॉडल GGUF प्रारूप में उपलब्ध हैं, जिसका अर्थ है कि आप उन्हें बिना कॉन्फ़िगरेशन के सीधे LM Studio या llama.cpp में डाल सकते हैं। पूर्ण प्रशिक्षण कोड और एक चरण-दर-चरण फाइन-ट्यूनिंग गाइड Jackrong के GitHub पर हैं—वही पाइपलाइन जो उन्होंने Qwopus के लिए उपयोग की, वही Unsloth और LoRA सेटअप, Colab पर पुनरुत्पादन योग्य।
Gemopus अपने खुरदरे किनारों के बिना नहीं है। टूल कॉलिंग llama.cpp और LM Studio में पूरी Gemma 4 श्रृंखला में टूटी हुई रहती है—कॉल विफलताएं, प्रारूप बेमेल, लूप—इसलिए यदि आपका वर्कफ़्लो बाहरी उपकरणों का उपयोग करने वाले एजेंटों पर निर्भर करता है, तो यह अभी तक आपका मॉडल नहीं है। Jackrong खुद इसे "एक इंजीनियरिंग अन्वेषण संदर्भ के बजाय एक पूरी तरह से उत्पादन-तैयार समाधान" कहते हैं, और वास्तविक वर्कलोड के लिए कुछ अधिक स्थिर की आवश्यकता वाले किसी के लिए अपनी Qwopus 3.5 श्रृंखला की सिफारिश करते हैं।
और क्योंकि Jackrong ने जानबूझकर आक्रामक Claude-शैली चेन-ऑफ-थॉट डिस्टिलेशन से बचा, इसकी अपेक्षा न करें कि यह Qwopus के रूप में गहराई से Opus-दिमाग वाला महसूस हो—यह स्थिरता के लिए एक सचेत ट्रेडऑफ़ था, एक चूक नहीं।
विशेष रूप से तर्क के लिए Gemma फाइन-ट्यूनिंग में गहराई से जाने की इच्छा रखने वालों के लिए, एक अलग सामुदायिक परियोजना भी देखने लायक है: छद्म नाम वाले डेवलपर DJLougen द्वारा Ornstein, जो उसी 26B Gemma 4 आधार को लेता है और विशेष रूप से किसी विशिष्ट तृतीय पक्ष मॉडल के तर्क या शैली पर निर्भर किए बिना अपनी तर्क श्रृंखलाओं को सुधारने पर केंद्रित है।
एक ईमानदार चेतावनी: फाइन-ट्यूनर्स के लिए Gemma की प्रशिक्षण गतिशीलता Qwen की तुलना में अधिक गन्दी है—व्यापक नुकसान उतार-चढ़ाव, अधिक हाइपरपैरामीटर संवेदनशीलता। Jackrong खुद ऐसा कहते हैं। यदि आपको उत्पादन वर्कफ़्लो के लिए अधिक युद्ध-परीक्षित स्थानीय मॉडल की आवश्यकता है, तो उनकी Qwopus 3.5 श्रृंखला अधिक मजबूती से मान्य रहती है। लेकिन यदि आप Opus-शैली की पॉलिश के साथ एक अमेरिकी मॉडल चाहते हैं, तो Gemopus वर्तमान में आपका सबसे अच्छा उपलब्ध विकल्प है। एक सघन 31B Gemopus वेरिएंट भी पाइपलाइन में है, Hessling ने इसे "निश्चित रूप से एक धमाकेदार" के रूप में चिढ़ाया।
यदि आप अपने हार्डवेयर पर स्थानीय मॉडल चलाने का प्रयास करना चाहते हैं, तो स्थानीय AI के साथ कैसे शुरुआत करें, इस पर हमारी गाइड देखें।
Daily Debrief Newsletter
अभी शीर्ष समाचार कहानियों के साथ हर दिन शुरू करें, साथ ही मूल सुविधाएं, एक पॉडकास्ट, वीडियो और अधिक।
स्रोत: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai





