Als je de lokale AI-scene hebt gevolgd, ken je waarschijnlijk Qwopus—het open-source model dat probeerde de redenering van Claude Opus 4.6 te destilleren in Alibaba's Qwen, zodat je gratis iets vergelijkbaars met Opus op je eigen hardware kon draaien. Het werkte verrassend goed. De voor de hand liggende vangst: Qwen is een Chinees model, en niet iedereen voelt zich daar prettig bij.
Jackrong, dezelfde pseudonieme ontwikkelaar achter dat project, hoorde de feedback. Zijn antwoord is Gemopus—een nieuwe familie van Claude Opus-stijl fine-tunes gebouwd volledig op Google's open-source Gemma 4. All-American DNA, hetzelfde idee: redenering op grensniveau, lokaal draaiend op hardware die je al bezit.
De familie komt in twee varianten. Gemopus-4-26B-A4B is de zwaardere optie—een Mixture of Experts model met in totaal 26 miljard parameters maar activeert slechts ongeveer 4 miljard tijdens inferentie, wat betekent dat het ver boven zijn gewicht presteert op beperkte hardware.
Parameters bepalen het vermogen van een AI om te leren, redeneren en informatie op te slaan. Met in totaal 26 miljard parameters heeft het model een enorme breedte aan kennis. Maar door alleen de 4 miljard parameters relevant voor je specifieke prompt "wakker te maken", levert het de hoogwaardige resultaten van een massieve AI terwijl het licht genoeg blijft om soepel te draaien op alledaagse hardware.
De andere is Gemopus-4-E4B, een edge model met 4 miljard parameters ontworpen om comfortabel te draaien op een moderne iPhone of een dunne en lichte MacBook—geen GPU vereist.
De keuze van het basismodel is hier belangrijk. Google's Gemma 4, uitgebracht op 2 april, is rechtstreeks gebouwd op basis van hetzelfde onderzoek en technologie als Gemini 3—het bedrijf zei dit expliciet bij de lancering. Dat betekent dat Gemopus iets draagt wat geen op Qwen gebaseerde fine-tune kan claimen: Het DNA van Google's eigen state-of-the-art gesloten model onder de motorkap, verpakt in Anthropic's denkstijl bovenop. Het beste van twee werelden, min of meer.
Wat Gemopus anders maakt dan de golf van andere Gemma fine-tunes die momenteel Hugging Face overspoelen, is de filosofie erachter. Jackrong koos er bewust voor om Claude's chain-of-thought redenatiesporen niet in Gemma's gewichten te forceren—een kortere weg die de meeste concurrerende releases nemen.
Zijn argument, ondersteund door recent onderzoek, is dat het volproppen van een studentmodel met de oppervlakkige redeneertekst van een leraar niet echt redeneervaardigheden overdraagt. Het leert imitatie, geen logica. "Er is geen behoefte aan buitensporige verbeelding of bijgelovige replicatie van de Claude-stijl chain of thought," staat op de modelkaart. In plaats daarvan richtte hij zich op antwoordkwaliteit, structurele helderheid en conversationele natuurlijkheid—het repareren van Gemma's stijve Wikipedia-toon en zijn neiging om je de les te lezen over dingen die je niet vroeg.
AI-infrastructuuringenieur Kyle Hessling voerde onafhankelijke benchmarks uit en publiceerde de resultaten rechtstreeks op de modelkaart. Zijn oordeel over de 26B-variant was behoorlijk gunstig. "Blij om deze behoorlijk hard te hebben getest en het is een uitstekende finetune van een toch al uitzonderlijk model," schreef hij op X. "Het is geweldig bij one-shot verzoeken over lange contexten, en draait ongelooflijk snel dankzij de MOE (mixture of experts) architectuur."
De kleinere E4B-variant slaagde voor alle 14 kerncompetenties—instructievolging, coderen, wiskunde, meerstapsredenering, vertaling, veiligheid, caching—en doorstond alle 12 lange-contexttesten bij 30K en 60K tokens. Bij needle-in-haystack retrieval slaagde het voor 13 van de 13 proeven, inclusief een stresstest bij één miljoen tokens met YaRN 8× RoPE scaling.
De 26B breidt zich van nature uit tot 131K context en helemaal tot 524K met YaRN, wat Hessling ook stress-testte: "Het verpletterde ook mijn eenvoudige needle-in-the-haystack tests helemaal tot een uitgebreide context van 524k!"
Op edge hardware is de E4B echt snel. Jackrong meldt 45–60 tokens per seconde op iPhone 17 Pro Max, en 90–120 tokens per seconde op MacBook Air M3/M4 via MLX. De 26B MoE-architectuur betekent dat het soepel offloadt op unified memory-systemen of GPU's met minder dan 10GB VRAM. Hessling noemde het zijn daily driver aanbeveling voor VRAM-arme setups.
Beide modellen zijn beschikbaar in GGUF-formaat, wat betekent dat je ze rechtstreeks in LM Studio of llama.cpp kunt zetten zonder configuratie. De volledige trainingscode en een stapsgewijze fine-tuning gids staan op Jackrong's GitHub—dezelfde pipeline die hij gebruikte voor Qwopus, dezelfde Unsloth en LoRA setup, reproduceerbaar op Colab.
Gemopus is niet zonder ruwere kantjes. Tool calling blijft defect in de gehele Gemma 4-serie in llama.cpp en LM Studio—call failures, format mismatches, loops—dus als je workflow afhankelijk is van agents die externe tools gebruiken, is dit nog niet je model. Jackrong zelf noemt het "een technische verkenningsreferentie in plaats van een volledig productie-klare oplossing," en beveelt zijn eigen Qwopus 3.5-serie aan voor iedereen die iets stabielers nodig heeft voor echte workloads.
En omdat Jackrong bewust agressieve Claude-stijl chain-of-thought destillatie vermeed, verwacht niet dat het zo diep Opus-brained aanvoelt als Qwopus—dat was een bewuste afweging voor stabiliteit, geen omissie.
Voor degenen die dieper willen gaan in Gemma fine-tuning specifiek voor redenering, is er ook een apart communityproject dat het bekijken waard is: Ornstein van pseudonieme ontwikkelaar DJLougen, die dezelfde 26B Gemma 4-basis neemt en zich specifiek richt op het verbeteren van de redeneerketens zonder te vertrouwen op de logica of stijl van een specifiek third party model.
Één eerlijke waarschuwing: Gemma's trainingsdynamiek is rommeliger dan die van Qwen voor fine-tuners—bredere verliesfluctuaties, meer hyperparameter gevoeligheid. Jackrong zegt het zelf. Als je een meer beproefd lokaal model nodig hebt voor productie workflows, blijft zijn Qwopus 3.5-serie robuuster gevalideerd. Maar als je een Amerikaans model met Opus-stijl polish wilt, is Gemopus momenteel je beste beschikbare optie. Een dichtere 31B Gemopus-variant is ook in de pijplijn, waarbij Hessling het aankondigt als "zeker een knaller."
Als je lokale modellen op je eigen hardware wilt proberen te draaien, bekijk onze gids over hoe je kunt beginnen met lokale AI.
Daily Debrief Nieuwsbrief
Begin elke dag met de belangrijkste nieuwsverhalen van nu, plus originele features, een podcast, video's en meer.
Bron: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai





