หากคุณติดตามวงการ AI ในเครื่องมาสักระยะ คุณคงรู้จัก Qwopus—โมเดลโอเพนซอร์สที่พยายามกลั่นความสามารถในการใช้เหตุผลของ Claude Opus 4.6 ลงใน Qwen ของ Alibaba เพื่อให้คุณสามารถรันสิ่งที่คล้ายกับ Opus บนฮาร์ดแวร์ของคุณเองได้ฟรี มันใช้งานได้ดีอย่างน่าประหลาดใจ แต่ข้อจำกัดที่ชัดเจน: Qwen เป็นโมเดลจีน และไม่ใช่ทุกคนจะสบายใจกับเรื่องนี้
Jackrong นักพัฒนานามแฝงคนเดียวกันที่อยู่เบื้องหลังโปรเจกต์นั้น ได้รับฟังคำติชม คำตอบของเขาคือ Gemopus—ตระกูลใหม่ของโมเดลที่ปรับแต่งตามสไตล์ Claude Opus ซึ่งสร้างขึ้นทั้งหมดบน Gemma 4 โอเพนซอร์สของ Google DNA แบบอเมริกันล้วนๆ แนวคิดเดียวกัน: การใช้เหตุผลระดับแนวหน้า รันในเครื่องบนฮาร์ดแวร์ที่คุณมีอยู่แล้ว
ตระกูลนี้มีสองรุ่น Gemopus-4-26B-A4B เป็นตัวเลือกที่หนักกว่า—เป็นโมเดล Mixture of Experts ที่มีพารามิเตอร์ทั้งหมด 26 พันล้านตัว แต่เปิดใช้งานเพียงประมาณ 4 พันล้านตัวระหว่างการ inference ซึ่งหมายความว่ามันทำงานได้ดีเกินน้ำหนักบนฮาร์ดแวร์ที่มีข้อจำกัด
พารามิเตอร์คือสิ่งที่กำหนดความสามารถของ AI ในการเรียนรู้ ใช้เหตุผล และจัดเก็บข้อมูล การมีพารามิเตอร์ทั้งหมด 26 พันล้านตัวทำให้โมเดลมีความรู้ที่กว้างขวางมาก แต่ด้วยการ "ปลุก" เพียง 4 พันล้านพารามิเตอร์ที่เกี่ยวข้องกับคำสั่งเฉพาะของคุณ มันให้ผลลัพธ์คุณภาพสูงของ AI ขนาดใหญ่ ในขณะที่ยังเบาพอที่จะรันได้อย่างราบรื่นบนฮาร์ดแวร์ทั่วไป
อีกรุ่นหนึ่งคือ Gemopus-4-E4B โมเดล edge ที่มีพารามิเตอร์ 4 พันล้านตัว ออกแบบมาเพื่อรันได้อย่างสบายบน iPhone สมัยใหม่หรือ MacBook บางเบา—ไม่ต้องใช้ GPU
การเลือกโมเดลพื้นฐานมีความสำคัญที่นี่ Gemma 4 ของ Google ที่เปิดตัวเมื่อวันที่ 2 เมษายน สร้างขึ้นโดยตรงจากงานวิจัยและเทคโนโลยีเดียวกันกับ Gemini 3—บริษัทกล่าวชัดเจนตอนเปิดตัว นั่นหมายความว่า Gemopus มีสิ่งที่ไม่มีโมเดลปรับแต่งที่ใช้ Qwen เป็นฐานจะอ้างได้: DNA ของโมเดลปิดที่ล้ำสมัยของ Google เองอยู่ภายใต้ประทุน ห่อหุ้มด้วยสไตล์การคิดของ Anthropic อยู่ด้านบน สิ่งที่ดีที่สุดของทั้งสองโลก มากหรือน้อย
สิ่งที่ทำให้ Gemopus แตกต่างจากคลื่นของโมเดล Gemma ปรับแต่งอื่นๆ ที่กำลังท่วมท้น Hugging Face ตอนนี้คือปรัชญาที่อยู่เบื้องหลัง Jackrong เลือกโดยเจตนาที่จะไม่บังคับร่องรอยการใช้เหตุผลแบบ chain-of-thought ของ Claude เข้าไปใน weights ของ Gemma—ทางลัดที่การเปิดตัวแข่งขันส่วนใหญ่ใช้
ข้อโต้แย้งของเขา ซึ่งได้รับการสนับสนุนจากงานวิจัยล่าสุด คือการยัดข้อความการใช้เหตุผลระดับผิวเผินของครูเข้าไปในโมเดลนักเรียนไม่ได้ถ่ายทอดความสามารถในการใช้เหตุผลที่แท้จริง มันสอนการเลียนแบบ ไม่ใช่ตรรกะ "ไม่จำเป็นต้องมีจินตนาการมากเกินไปหรือการจำลองแบบอย่างงมงายของ chain of thought สไตล์ Claude" โมเดลการ์ดระบุ แทนที่จะเป็นเช่นนั้น เขามุ่งเน้นไปที่คุณภาพของคำตอบ ความชัดเจนของโครงสร้าง และความเป็นธรรมชาติในการสนทนา—แก้ไขโทนสไตล์วิกิพีเดียที่แข็งทื่อของ Gemma และแนวโน้มที่จะบรรยายเกี่ยวกับสิ่งที่คุณไม่ได้ถาม
Kyle Hessling วิศวกรโครงสร้างพื้นฐาน AI รันการเปรียบเทียบอิสระและเผยแพร่ผลลัพธ์โดยตรงบนโมเดลการ์ด คำตัดสินของเขาต่อรุ่น 26B ค่อนข้างดี "ดีใจที่ได้ทดสอบตัวนี้อย่างหนักและมันเป็นการปรับแต่งที่ยอดเยี่ยมของโมเดลที่โดดเด่นอยู่แล้ว" เขาเขียนบน X "มันเจ๋งมากสำหรับคำขอ one-shot ในบริบทที่ยาว และรันเร็วอย่างไม่น่าเชื่อด้วยสถาปัตยกรรม MOE (mixture of experts)"
รุ่น E4B ที่เล็กกว่าผ่านการทดสอบความสามารถหลักทั้ง 14 ข้อ—การทำตามคำสั่ง การเขียนโค้ด คณิตศาสตร์ การใช้เหตุผลหลายขั้นตอน การแปล ความปลอดภัย การแคช—และผ่านการทดสอบบริบทยาวทั้ง 12 ข้อที่ 30K และ 60K โทเค็น ในการดึงข้อมูล needle-in-haystack มันผ่าน 13 จาก 13 การตรวจสอบ รวมถึงการทดสอบแบบยืดหยุ่นที่หนึ่งล้านโทเค็นด้วย YaRN 8× RoPE scaling
รุ่น 26B ขยายโดยธรรมชาติไปถึงบริบท 131K และไปถึง 524K ด้วย YaRN ซึ่ง Hessling ก็ทดสอบความเครียดเช่นกัน: "มันก็บดการทดสอบ needle-in-the-haystack แบบง่ายๆ ของฉันไปจนถึงบริบทขยายที่ 524k!"
บนฮาร์ดแวร์ edge รุ่น E4B เร็วจริงๆ Jackrong รายงาน 45–60 โทเค็นต่อวินาทีบน iPhone 17 Pro Max และ 90–120 โทเค็นต่อวินาทีบน MacBook Air M3/M4 ผ่าน MLX สถาปัตยกรรม 26B MoE หมายความว่ามันถ่ายโอนได้อย่างราบรื่นบนระบบ unified memory หรือ GPU ที่มี VRAM ต่ำกว่า 10GB Hessling เรียกมันว่าคำแนะนำตัวขับเคลื่อนประจำวันของเขาสำหรับการตั้งค่าที่ขาด VRAM
โมเดลทั้งสองมีในรูปแบบ GGUF ซึ่งหมายความว่าคุณสามารถวางมันลงใน LM Studio หรือ llama.cpp โดยตรงโดยไม่ต้องกำหนดค่า โค้ดการฝึกอบรมทั้งหมดและคู่มือการปรับแต่งทีละขั้นตอนอยู่ใน GitHub ของ Jackrong—pipeline เดียวกันที่เขาใช้สำหรับ Qwopus การตั้งค่า Unsloth และ LoRA เดียวกัน ทำซ้ำได้บน Colab
Gemopus ไม่ได้ปราศจากจุดที่ยังไม่เรียบ การเรียกใช้เครื่องมือยังคงเสียอยู่ในทั้งซีรีส์ Gemma 4 ใน llama.cpp และ LM Studio—การเรียกล้มเหลว รูปแบบไม่ตรงกัน วนซ้ำ—ดังนั้นหากเวิร์กโฟลว์ของคุณพึ่งพาเอเจนต์ที่ใช้เครื่องมือภายนอก นี่ยังไม่ใช่โมเดลของคุณ Jackrong เองเรียกมันว่า "การอ้างอิงการสำรวจทางวิศวกรรมมากกว่าโซลูชันที่พร้อมใช้งานจริงอย่างเต็มที่" และแนะนำซีรีส์ Qwopus 3.5 ของเขาเองสำหรับใครก็ตามที่ต้องการสิ่งที่เสถียรกว่าสำหรับปริมาณงานจริง
และเนื่องจาก Jackrong หลีกเลี่ยงการกลั่นแบบ chain-of-thought สไตล์ Claude อย่างจงใจ อย่าคาดหวังว่ามันจะรู้สึกเหมือน Opus-brained อย่างลึกซึ้งเท่ากับ Qwopus—นั่นเป็นการแลกเปลี่ยนโดยรู้เท่าทันเพื่อความเสถียร ไม่ใช่ความผิดพลาด
สำหรับผู้ที่ต้องการเจาะลึกการปรับแต่ง Gemma สำหรับการใช้เหตุผลโดยเฉพาะ ยังมีโปรเจกต์ชุมชนแยกต่างหากที่น่าติดตาม: Ornstein โดยนักพัฒนานามแฝง DJLougen ซึ่งใช้ฐาน Gemma 4 26B เดียวกันและมุ่งเน้นโดยเฉพาะในการปรับปรุงลูกโซ่การใช้เหตุผลโดยไม่พึ่งพาตรรกะหรือสไตล์ของโมเดลบุคคลที่สามใดๆ โดยเฉพาะ
คำเตือนที่ซื่อสัตย์ประการหนึ่ง: พลวัตการฝึกอบรมของ Gemma ยุ่งเหยิงกว่า Qwen สำหรับผู้ปรับแต่ง—การผันผวนของการสูญเสียกว้างขึ้น ความไวของไฮเปอร์พารามิเตอร์มากขึ้น Jackrong พูดเองเช่นกัน หากคุณต้องการโมเดลในเครื่องที่ผ่านการทดสอบมากกว่าสำหรับเวิร์กโฟลว์การผลิต ซีรีส์ Qwopus 3.5 ของเขายังคงได้รับการตรวจสอบอย่างแข็งแกร่งกว่า แต่ถ้าคุณต้องการโมเดลอเมริกันที่มีความเรียบเนียนสไตล์ Opus Gemopus เป็นตัวเลือกที่ดีที่สุดของคุณในปัจจุบัน รุ่น Gemopus 31B ที่หนาแน่นกว่าก็อยู่ในระหว่างดำเนินการ โดย Hessling แซวว่ามัน "เป็นสิ่งที่ยอดเยี่ยมแน่นอน"
หากคุณต้องการลองรันโมเดลในเครื่องบนฮาร์ดแวร์ของคุณเอง ตรวจสอบคู่มือของเราเกี่ยวกับวิธีการเริ่มต้นกับ AI ในเครื่อง
Daily Debrief Newsletter
เริ่มต้นทุกวันด้วยข่าวสารสำคัญตอนนี้ พร้อมฟีเจอร์ต้นฉบับ พอดแคสต์ วิดีโอ และอื่นๆ อีกมากมาย
แหล่งที่มา: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai







