Gemma de Google se comporte déjà comme Gemini—quelqu'un l'a fait penser comme Claude Opus aussi

Si vous suivez la scène de l'IA locale, vous connaissez probablement Qwopus—le modèle open-source qui a tenté de distiller le raisonnement de Claude Opus 4.6 dans le Qwen d'Alibaba, afin que vous puissiez exécuter quelque chose ressemblant à Opus sur votre propre matériel gratuitement. Cela a remarquablement bien fonctionné. Le hic évident : Qwen est un modèle chinois, et tout le monde n'est pas à l'aise avec cela.

Jackrong, le même développeur pseudonyme derrière ce projet, a entendu les retours. Sa réponse est Gemopus—une nouvelle famille d'ajustements fins de style Claude Opus construite entièrement sur le Gemma 4 open-source de Google. ADN entièrement américain, même idée : raisonnement de niveau frontier, s'exécutant localement sur le matériel que vous possédez déjà.

La famille se décline en deux versions. Gemopus-4-26B-A4B est l'option la plus lourde—un modèle Mixture of Experts qui possède 26 milliards de paramètres au total mais n'en active qu'environ 4 milliards pendant l'inférence, ce qui signifie qu'il performe bien au-dessus de son poids sur du matériel limité.

Les paramètres sont ce qui détermine la capacité d'une IA à apprendre, raisonner et stocker des informations. Avoir 26 milliards de paramètres au total donne au modèle une immense étendue de connaissances. Mais en ne "réveillant" que les 4 milliards de paramètres pertinents pour votre prompt spécifique, il offre les résultats de haute qualité d'une IA massive tout en restant suffisamment léger pour fonctionner en douceur sur du matériel quotidien.

L'autre est Gemopus-4-E4B, un modèle edge de 4 milliards de paramètres conçu pour fonctionner confortablement sur un iPhone moderne ou un MacBook fin et léger—aucun GPU requis.

Le choix du modèle de base compte ici. Le Gemma 4 de Google, publié le 2 avril, est construit directement à partir de la même recherche et technologie que Gemini 3—l'entreprise l'a dit explicitement au lancement. Cela signifie que Gemopus porte quelque chose qu'aucun ajustement fin basé sur Qwen ne peut revendiquer : L'ADN du propre modèle fermé de pointe de Google sous le capot, enveloppé dans le style de pensée d'Anthropic par-dessus. Le meilleur des deux mondes, plus ou moins.

Ce qui rend Gemopus différent de la vague d'autres ajustements fins de Gemma inondant Hugging Face en ce moment, c'est la philosophie qui le sous-tend. Jackrong a délibérément choisi de ne pas forcer les traces de raisonnement en chaîne de pensée de Claude dans les poids de Gemma—un raccourci que prennent la plupart des versions concurrentes.

Son argument, soutenu par des recherches récentes, est que bourrer un modèle étudiant avec le texte de raisonnement superficiel d'un enseignant ne transfère pas réellement une véritable capacité de raisonnement. Cela enseigne l'imitation, pas la logique. "Il n'y a pas besoin d'imagination excessive ou de réplication superstitieuse de la chaîne de pensée de style Claude," lit-on sur la carte du modèle. Au lieu de cela, il s'est concentré sur la qualité de la réponse, la clarté structurelle et le naturel conversationnel—corrigeant le ton rigide de Wikipédia de Gemma et sa tendance à vous faire la leçon sur des choses que vous n'avez pas demandées.

L'ingénieur en infrastructure IA Kyle Hessling a effectué des benchmarks indépendants et publié les résultats directement sur la carte du modèle. Son verdict sur la variante 26B était plutôt favorable. "Heureux d'avoir testé celui-ci assez durement et c'est un excellent ajustement fin d'un modèle déjà exceptionnel," a-t-il écrit sur X. "Il excelle dans les requêtes one-shot sur de longs contextes, et fonctionne incroyablement rapidement grâce à l'architecture MOE (mixture of experts)."

La variante E4B plus petite a réussi les 14 tests de compétence de base—suivi d'instructions, codage, mathématiques, raisonnement en plusieurs étapes, traduction, sécurité, mise en cache—et a passé les 12 tests de contexte long à 30K et 60K tokens. Sur la récupération needle-in-haystack, elle a réussi 13 sondes sur 13, y compris un test d'étirement à un million de tokens avec mise à l'échelle YaRN 8× RoPE.

Le 26B s'étend nativement à un contexte de 131K et jusqu'à 524K avec YaRN, ce que Hessling a également testé sous contrainte : "Il a également écrasé mes tests simples needle-in-the-haystack jusqu'à un contexte étendu de 524k !"

Sur du matériel edge, le E4B est vraiment rapide. Jackrong rapporte 45–60 tokens par seconde sur iPhone 17 Pro Max, et 90–120 tokens par seconde sur MacBook Air M3/M4 via MLX. L'architecture MoE 26B signifie qu'elle se décharge gracieusement sur des systèmes de mémoire unifiée ou des GPU avec moins de 10 Go de VRAM. Hessling l'a appelé sa recommandation quotidienne pour les configurations affamées de VRAM.

Les deux modèles sont disponibles au format GGUF, ce qui signifie que vous pouvez les déposer directement dans LM Studio ou llama.cpp sans configuration. Le code d'entraînement complet et un guide d'ajustement fin étape par étape sont sur le GitHub de Jackrong—même pipeline qu'il a utilisé pour Qwopus, même configuration Unsloth et LoRA, reproductible sur Colab.

Gemopus n'est pas sans ses aspérités. L'appel d'outils reste cassé sur toute la série Gemma 4 dans llama.cpp et LM Studio—échecs d'appel, incompatibilités de format, boucles—donc si votre flux de travail dépend d'agents utilisant des outils externes, ce n'est pas encore votre modèle. Jackrong lui-même l'appelle "une référence d'exploration d'ingénierie plutôt qu'une solution entièrement prête pour la production," et recommande sa propre série Qwopus 3.5 pour quiconque a besoin de quelque chose de plus stable pour des charges de travail réelles.

Et parce que Jackrong a délibérément évité une distillation agressive de la chaîne de pensée de style Claude, ne vous attendez pas à ce qu'il se sente aussi profondément Opus-brained que Qwopus—c'était un compromis conscient pour la stabilité, pas une omission.

Pour ceux qui veulent approfondir l'ajustement fin de Gemma pour le raisonnement spécifiquement, il y a aussi un projet communautaire distinct qui vaut la peine d'être surveillé : Ornstein par le développeur pseudonyme DJLougen, qui prend la même base Gemma 4 26B et se concentre spécifiquement sur l'amélioration de ses chaînes de raisonnement sans s'appuyer sur la logique ou le style d'un modèle tiers spécifique.

Une mise en garde honnête : les dynamiques d'entraînement de Gemma sont plus désordonnées que celles de Qwen pour les ajusteurs fins—fluctuations de perte plus larges, plus de sensibilité aux hyperparamètres. Jackrong le dit lui-même. Si vous avez besoin d'un modèle local plus éprouvé pour des flux de travail de production, sa série Qwopus 3.5 reste plus solidement validée. Mais si vous voulez un modèle américain avec un polissage de style Opus, Gemopus est actuellement votre meilleure option disponible. Une variante Gemopus 31B plus dense est également en préparation, Hessling la taquinant comme "un succès assuré."

Si vous voulez essayer d'exécuter des modèles locaux sur votre propre matériel, consultez notre guide sur comment démarrer avec l'IA locale.

Newsletter Daily Debrief

Commencez chaque journée avec les principales actualités du moment, plus des contenus originaux, un podcast, des vidéos et plus encore.

Source : https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Gemma de Google se comporte déjà comme Gemini—quelqu'un l'a fait penser comme Claude Opus aussi

Newsletter Daily Debrief

Vous aimerez peut-être aussi

Mise à jour de la mise à niveau du nœud Pi Network confirmant des progrès constants vers l'évolution du Mainnet

Monte sur scène à Consensus 2026 : Une nouvelle ère pour la Crypto, l'IA et l'utilité dans le monde réel

La SEC supprime la règle des 25 000 $ pour les day traders dans la refonte du trading de détail

Actualités tendance

Santiment révèle : la vente massive d'ETH par les particuliers signale une puissante dynamique haussière pour Ethereum

« Extrêmement bonne nouvelle » – La dynamique DeFi de XRP se renforce alors que la SEC assouplit sa position sur les interfaces

Prix de l'or en Inde : Taux au 15 avril

L'Indice du Dollar américain se maintient au-dessus de 98,00 malgré l'optimisme croissant du marché

Le Président américain Trump : Ne pense pas à prolonger le cessez-le-feu

Actualités en direct 24h/24 et 7j/7

Prix des cryptomonnaies