Если вы следите за местной сценой ИИ, вы, вероятно, знаете Qwopus — модель с открытым исходным кодом, которая пыталась сжать рассуждения Claude Opus 4.6 в Alibaba’s Qwen, чтобы вы могли бесплатно запускать что-то похожее на Opus на собственном оборудовании. Это работало удивительно хорошо. Очевидный недостаток: Qwen — китайская модель, и не все чувствуют себя комфортно с этим. Джекронг, тот же псевдонимный разработчик, стоящий за этим проектом, услышал отзывы. Его ответ — Gemopus — новое семейство доработок в стиле Claude Opus, полностью основанных на открытом исходном коде Gemma 4 от Google. Американская ДНК, та же идея: передовой уровень рассуждений, работающих локально на уже имеющемся у вас оборудовании. Семейство представлено в двух вариантах. Gemopus-4-26B-A4B — более тяжелый вариант — модель с миксом экспертов, которая имеет 26 миллиардов параметров, но активирует примерно 4 миллиарда во время вывода, что означает, что она показывает результаты гораздо выше своего веса на ограниченном оборудовании.

Параметры — это то, что определяет способность ИИ учиться, рассуждать и хранить информацию. Наличие 26 миллиардов параметров дает модели огромную широту знаний. Но активируя только «пробуждая» 4 миллиарда параметров, релевантных вашему конкретному запросу, она обеспечивает высокое качество результатов огромного ИИ, оставаясь достаточно легкой для плавной работы на обычном оборудовании. Другой вариант — Gemopus-4-E4B, модель с 4 миллиардами параметров, разработанная для комфортной работы на современном iPhone или тонком MacBook — без необходимости в GPU. Выбор базовой модели важен. Gemma 4 от Google, выпущенная 2 апреля, создана прямо на базе тех же исследований и технологий, что и Gemini 3 — об этом явно заявлялось при запуске. Это означает, что Gemopus несет в себе то, чего не может заявить ни одна доработанная модель на базе Qwen: ДНК собственной передовой закрытой модели Google, обернутая в стиль мышления Anthropic. Лучшее из обоих миров, более или менее.

Что отличает Gemopus от волны других доработок Gemma, заполняющих Hugging Face прямо сейчас, — это философия. Джекронг сознательно решил не внедрять цепочки рассуждений Claude в веса Gemma — обходной путь, который используют большинство конкурентов. Его аргумент, подкрепленный недавними исследованиями, заключается в том, что засовывать поверхностные рассуждения учителя в модель-ученика не передает настоящих способностей к рассуждению. Это учит имитации, а не логике. «Нет необходимости в чрезмерном воображении или суеверном копировании цепочек мыслей в стиле Claude», — говорится в карточке модели. Вместо этого он сосредоточился на качестве ответов, структурной ясности и естественности диалога — исправляя жесткий тон Gemma, похожий на Википедию, и его склонность лекционировать о вещах, которые вы не спрашивали. Инженер AI-инфраструктуры Кайл Хесслинг провел независимые бенчмарки и опубликовал результаты прямо в карточке модели. Его вердикт по варианту 26B был довольно положительным. «Рад, что протестировал эту модель очень тщательно, и это отличная доработка уже исключительной модели», — написал он в X. «Она отлично справляется с запросами в один шаг на длинных контекстах и работает невероятно быстро благодаря архитектуре MOE (микса экспертов).»

Gemopus-4-26B-A4B от Джекронга — В ПРОДАЖЕ!

Рад, что протестировал эту модель очень тщательно (смотрите мои бенчмарки в карточке модели), и это отличная доработка уже исключительной модели! Мой друг Джекронг всегда создает лучшие модели!

Она отлично справляется с запросами в один шаг на длинных…

— Кайл Хесслинг (@KyleHessling1) 10 апреля 2026

Меньший вариант E4B прошел все 14 основных тестов компетентности — выполнение инструкций, кодирование, математика, многошаговые рассуждения, перевод, безопасность, кэширование — и прошел все 12 тестов на длинный контекст с 30K и 60K токенами. В тестах поиска иголки в стоге сена он прошел 13 из 13 проб, включая тест на миллион токенов с масштабированием YaRN 8× RoPE.

26B нативно расширяется до 131K контекста и до 524K с YaRN, что Хесслинг также подверг стресс-тестированию: «Он также полностью прошел мои простые тесты поиска иголки в стоге сена на расширенном контексте до 524k!» На edge-оборудовании E4B действительно быстр. Джекронг сообщает о 45–60 токенах в секунду на iPhone 17 Pro Max и 90–120 токенах в секунду на MacBook Air M3/M4 через MLX. Архитектура MoE 26B означает, что он плавно разгружает работу на системах с объединенной памятью или GPU с менее чем 10 ГБ VRAM. Хесслинг назвал его своим рекомендуемым вариантом для систем с ограниченной видеопамятью.

Оба варианта доступны в формате GGUF, что позволяет сразу вставлять их в LM Studio или llama.cpp без настройки. Полный код обучения и пошаговое руководство по доработке есть на GitHub Джекронга — такой же пайплайн, как и для Qwopus, с настройками Unsloth и LoRA, воспроизводимыми на Colab. Gemopus не лишен своих шероховатостей. Вызовы инструментов остаются сломанными во всей серии Gemma 4 в llama.cpp и LM Studio — сбои вызовов, несоответствия форматов, циклы — так что если ваш рабочий процесс зависит от использования внешних инструментов агентами, это еще не ваш модель. Сам Джекронг называет его «инженерным исследованием, а не полностью готовым к производству решением», и рекомендует свою серию Qwopus 3.5 для тех, кому нужна более стабильная работа. И поскольку Джекронг сознательно избегал агрессивной дистилляции цепочек мыслей в стиле Claude, не ожидайте, что он будет так же глубоко «опусовским» — это сознательный компромисс ради стабильности, а не упущение.

Да, философия этого проекта — стабильность в первую очередь, я понимаю, что модели Gemma склонны становиться нестабильными, если в них принудительно вставлять много цепочек рассуждений Claude, что видно при тестировании многих других доработок Opus на Hugging Face.

Джекронг попробовал…

— Кайл Хесслинг (@KyleHessling1) 10 апреля 2026

Для тех, кто хочет углубиться в доработку Gemma специально для рассуждений, есть отдельный проект сообщества — Ornstein от псевдонимного разработчика DJLougen, который использует ту же базу Gemma 4 с 26B и фокусируется на улучшении цепочек рассуждений без опоры на логику или стиль какого-либо стороннего модели. Один честный нюанс: динамика обучения Gemma сложнее, чем у Qwen, для доработчиков — более широкие колебания потерь, большая чувствительность к гиперпараметрам. Сам Джекронг говорит об этом. Если вам нужна более проверенная модель для локальных рабочих процессов, его серия Qwopus 3.5 остается более надежной. Но если вы хотите американскую модель с полировкой в стиле Opus, Gemopus — лучший доступный вариант. В разработке также находится более плотный вариант Gemopus с 31B, и Хесслинг намекает, что это «один из лучших вариантов, точно». Если хотите попробовать запускать локальные модели на собственном оборудовании, ознакомьтесь с нашим руководством по началу работы с локальным ИИ.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GatePreIPOsLaunchesWithSpaceX
141.13K Популярность
#
Gate13thAnniversaryLive
224.4K Популярность
#
IsraelStrikesIranBTCPlunges
29.92K Популярность
#
US-IranTalksVSTroopBuildup
766.68K Популярность
#
CryptoMarketRecovery
94.66K Популярность

Закрепить

Карта сайта

Гемма от Google уже ведет себя как Gemini — кто-то заставил её думать как Claude Opus тоже

Популярные темы

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

Закрепить