Gemma от Google уже работает как Gemini — кто-то заставил её думать как Claude Opus тоже

Если вы следите за локальной ИИ-сценой, вы, вероятно, знаете Qwopus — модель с открытым исходным кодом, которая попыталась дистиллировать рассуждения Claude Opus 4.6 в Qwen от Alibaba, чтобы вы могли бесплатно запускать что-то похожее на Opus на собственном оборудовании. Это работало удивительно хорошо. Очевидный нюанс: Qwen — это китайская модель, и не всем это комфортно.

Jackrong, тот же самый псевдонимный разработчик, стоящий за этим проектом, услышал отзывы. Его ответ — Gemopus — новое семейство тонких настроек в стиле Claude Opus, построенных полностью на открытом исходном коде Google Gemma 4. Полностью американская ДНК, та же идея: рассуждения передового уровня, работающие локально на оборудовании, которое у вас уже есть.

Семейство представлено в двух вариантах. Gemopus-4-26B-A4B — более тяжёлый вариант — модель Mixture of Experts, которая имеет 26 миллиардов общих параметров, но активирует только около 4 миллиардов во время вывода, что означает, что она работает значительно выше своего веса на ограниченном оборудовании.

Параметры определяют способность ИИ учиться, рассуждать и хранить информацию. Наличие 26 миллиардов общих параметров даёт модели огромный объём знаний. Но, "пробуждая" только 4 миллиарда параметров, релевантных вашему конкретному запросу, она предоставляет высококачественные результаты массивного ИИ, оставаясь при этом достаточно лёгкой для плавной работы на повседневном оборудовании.

Другой вариант — Gemopus-4-E4B, граничная модель с 4 миллиардами параметров, созданная для комфортной работы на современном iPhone или тонком и лёгком MacBook — GPU не требуется.

Выбор базовой модели здесь имеет значение. Google Gemma 4, выпущенная 2 апреля, построена непосредственно на тех же исследованиях и технологиях, что и Gemini 3 — компания прямо заявила об этом при запуске. Это означает, что Gemopus несёт в себе то, на что не может претендовать ни одна тонкая настройка на основе Qwen: ДНК собственной передовой закрытой модели Google под капотом, обёрнутой в стиль мышления Anthropic сверху. Лучшее из обоих миров, более или менее.

Что отличает Gemopus от волны других тонких настроек Gemma, заполняющих Hugging Face прямо сейчас, так это философия, стоящая за ним. Jackrong намеренно решил не форсировать следы рассуждений chain-of-thought Claude в веса Gemma — короткий путь, который выбирает большинство конкурирующих релизов.

Его аргумент, подкреплённый недавними исследованиями, заключается в том, что наполнение студенческой модели поверхностным текстом рассуждений учителя фактически не передаёт реальную способность к рассуждению. Это учит имитации, а не логике. "Нет необходимости в чрезмерном воображении или суеверном копировании цепочки мыслей в стиле Claude", — гласит карточка модели. Вместо этого он сосредоточился на качестве ответов, структурной ясности и естественности разговора — исправляя жёсткий тон Wikipedia у Gemma и её склонность читать вам лекции о вещах, о которых вы не спрашивали.

Инженер по инфраструктуре ИИ Kyle Hessling провёл независимые тесты производительности и опубликовал результаты непосредственно на карточке модели. Его вердикт по варианту 26B был довольно благоприятным. "Рад, что протестировал эту модель довольно серьёзно, и это отличная тонкая настройка уже исключительной модели", — написал он в X. "Она прекрасно справляется с одноразовыми запросами в длинных контекстах и работает невероятно быстро благодаря архитектуре MOE (mixture of experts)".

Меньший вариант E4B прошёл все 14 тестов основных компетенций — следование инструкциям, кодирование, математика, многоступенчатые рассуждения, перевод, безопасность, кэширование — и прошёл все 12 тестов длинного контекста на 30K и 60K токенов. При извлечении "иголки в стоге сена" он прошёл 13 из 13 проб, включая растянутый тест на один миллион токенов с масштабированием YaRN 8× RoPE.

Вариант 26B изначально расширяется до контекста 131K и полностью до 524K с YaRN, что Hessling также подверг стресс-тестированию: "Он также разгромил мои простые тесты "иголки в стоге сена" вплоть до расширенного контекста в 524k!"

На граничном оборудовании E4B действительно быстрый. Jackrong сообщает о 45–60 токенах в секунду на iPhone 17 Pro Max и 90–120 токенах в секунду на MacBook Air M3/M4 через MLX. Архитектура 26B MoE означает, что она изящно выгружается на системы с унифицированной памятью или GPU с менее чем 10GB VRAM. Hessling назвал её своей ежедневной рекомендацией для установок с ограниченным VRAM.

Обе модели доступны в формате GGUF, что означает, что вы можете напрямую поместить их в LM Studio или llama.cpp без конфигурации. Полный код обучения и пошаговое руководство по тонкой настройке находятся на GitHub Jackrong — тот же конвейер, который он использовал для Qwopus, та же настройка Unsloth и LoRA, воспроизводимая на Colab.

Gemopus не лишён недостатков. Вызов инструментов остаётся сломанным во всей серии Gemma 4 в llama.cpp и LM Studio — сбои вызовов, несоответствия форматов, циклы — поэтому, если ваш рабочий процесс зависит от агентов, использующих внешние инструменты, это пока не ваша модель. Сам Jackrong называет её "эталоном инженерного исследования, а не полностью готовым к производству решением", и рекомендует свою собственную серию Qwopus 3.5 для всех, кому нужно что-то более стабильное для реальных рабочих нагрузок.

И поскольку Jackrong намеренно избегал агрессивной дистилляции цепочки мыслей в стиле Claude, не ожидайте, что она будет ощущаться так же глубоко ориентированной на Opus, как Qwopus — это был сознательный компромисс ради стабильности, а не упущение.

Для тех, кто хочет углубиться в тонкую настройку Gemma специально для рассуждений, есть также отдельный общественный проект, за которым стоит следить: Ornstein от псевдонимного разработчика DJLougen, который берёт ту же базу 26B Gemma 4 и специально фокусируется на улучшении её цепочек рассуждений без опоры на логику или стиль какой-либо конкретной сторонней модели.

Одно честное предостережение: динамика обучения Gemma более беспорядочная, чем у Qwen, для тонких настройщиков — более широкие колебания потерь, большая чувствительность к гиперпараметрам. Сам Jackrong так говорит. Если вам нужна более проверенная локальная модель для производственных рабочих процессов, его серия Qwopus 3.5 остаётся более надёжно проверенной. Но если вам нужна американская модель с полировкой в стиле Opus, Gemopus в настоящее время является вашим лучшим доступным вариантом. Более плотный вариант Gemopus 31B также находится в разработке, при этом Hessling дразнит его как "точно крутой".

Если вы хотите попробовать запустить локальные модели на своём собственном оборудовании, ознакомьтесь с нашим руководством о том, как начать работу с локальным ИИ.

Ежедневный информационный бюллетень

Начинайте каждый день с главных новостных сюжетов прямо сейчас, а также оригинальных материалов, подкаста, видео и многого другого.

Источник: https://decrypt.co/364344/gemopus-gemma-4-claude-opus-style-local-ai

Gemma от Google уже работает как Gemini — кто-то заставил её думать как Claude Opus тоже

Ежедневный информационный бюллетень

Вам также может быть интересно

Объявлено о крупном партнерстве между XRP и японским гигантом электронной коммерции Rakuten – «Потенциал на миллиарды долларов»

Президент США Трамп: Не думаю о продлении перемирия

Обновление узла Pi Network подтверждает стабильный прогресс в развитии основной сети

Популярные новости

Aptos снижает снижает стейкинг и повышает комиссию

Прогноз цены XRP: Сенат возобновил заседания с законом CLARITY на повестке дня, но предпродажа Pepeto может показать лучший результат

Трейдеры XRP в среднем потеряли 41% – почему некоторые переходят на криптопресейл BMIC

Word 2 Kindle Обзор: Является ли этот сервис форматирования легитимным?

Индекс доллара США держится выше 98,00 несмотря на растущий рыночный оптимизм

Новости 24/7 в прямом эфире

Быстрое чтение

Является ли Jable.tv бесплатным или платным? (и почему криптовалюта меняет онлайн-платежи за конфиденциальность)

Является ли Jable.tv безопасным? Честный ответ перед кликом

BNB (BNB) Последняя Цена: Свежие Обновления Рынка

XRP (Ripple) Оптимистичный прогноз цены

Что такое PORN COIN (PORN)? Объяснение токена развлечений для взрослых

Цены на криптовалюту