A Gemma do Google já age como a Gemini—alguém fez-na pensar também como o Claude Opus

Se tem acompanhado o cenário local de IA, provavelmente conhece o Qwopus—o modelo de código aberto que tentou destilar o raciocínio do Claude Opus 4.6 para o Qwen da Alibaba, para que pudesse rodar algo semelhante ao Opus no seu próprio hardware de forma gratuita. Funcionou surpreendentemente bem. A vantagem óbvia: o Qwen é um modelo chinês, e nem todos se sentem confortáveis com isso. Jackrong, o mesmo desenvolvedor pseudônimo por trás desse projeto, ouviu o feedback. Sua resposta é o Gemopus—uma nova família de fine-tunes ao estilo Claude Opus, construídos inteiramente com o Gemma 4, de código aberto do Google. DNA totalmente americano, mesma ideia: raciocínio de nível de fronteira, rodando localmente em hardware que você já possui. A família vem em duas versões. Gemopus-4-26B-A4B é a opção mais pesada—um modelo de Mistura de Especialistas que possui 26 bilhões de parâmetros no total, mas ativa cerca de 4 bilhões durante a inferência, o que significa que entrega um desempenho muito superior ao esperado em hardware com restrições.

Parâmetros são o que determinam a capacidade de uma IA de aprender, raciocinar e armazenar informações. Ter 26 bilhões de parâmetros no total dá ao modelo uma vasta gama de conhecimentos. Mas, ao “acordar” apenas os 4 bilhões de parâmetros relevantes para o seu prompt específico, ele oferece resultados de alta qualidade de uma IA massiva, mantendo-se leve o suficiente para rodar suavemente em hardware cotidiano. A outra é a Gemopus-4-E4B, um modelo de 4 bilhões de parâmetros projetado para rodar confortavelmente em um iPhone moderno ou um MacBook leve—sem necessidade de GPU.  A escolha do modelo base é importante aqui. O Gemma 4 do Google, lançado em 2 de abril, é construído diretamente a partir da mesma pesquisa e tecnologia do Gemini 3—disse a própria empresa na apresentação. Isso significa que o Gemopus carrega algo que nenhuma fine-tune baseada em Qwen pode reivindicar: o DNA do próprio modelo fechado de ponta do Google, envolto no estilo de pensamento da Anthropic. O melhor de ambos os mundos, mais ou menos.

O que diferencia o Gemopus da onda de outros fine-tunes do Gemma que estão inundando o Hugging Face agora é a filosofia por trás dele. Jackrong deliberadamente optou por não forçar as trilhas de raciocínio em cadeia do Claude nos pesos do Gemma—uma solução rápida que a maioria das versões concorrentes adota. Seu argumento, apoiado por pesquisas recentes, é que encher um modelo estudante com textos de raciocínio superficial de um professor não transfere realmente a habilidade de raciocínio. Ensina imitação, não lógica. “Não há necessidade de imaginação excessiva ou replicação supersticiosa da cadeia de pensamento ao estilo Claude,” diz a ficha do modelo. Em vez disso, ele focou na qualidade das respostas, clareza estrutural e naturalidade na conversa—corrigindo o tom rígido de Wikipedia do Gemma e sua tendência a dar aulas sobre assuntos que você não pediu. O engenheiro de infraestrutura de IA Kyle Hessling realizou benchmarks independentes e publicou os resultados diretamente na ficha do modelo. Sua avaliação da variante de 26B foi bastante favorável. “Fico feliz por ter testado bastante este modelo e ele é uma excelente fine-tune de um modelo já excepcional,” escreveu no X. “Ele se sai muito bem em solicitações de uma única vez com contextos longos, e roda incrivelmente rápido graças à arquitetura MOE (mistura de especialistas).”

Gemopus-4-26B-A4B de Jackrong ESTÁ NO AR!

Feliz por ter testado bastante este modelo (veja meus testes na ficha do modelo) e é uma excelente fine-tune de um modelo já excepcional! Meu amigo Jackrong está sempre criando o melhor!

Ele se sai muito bem em solicitações de uma única vez com contextos longos…

— Kyle Hessling (@KyleHessling1) 10 de abril de 2026

A variante menor E4B passou em todos os 14 testes de competência central—seguimento de instruções, codificação, matemática, raciocínio em múltiplas etapas, tradução, segurança, cache—e passou em todos os 12 testes de contexto longo com 30K e 60K tokens. Em buscas de agulha no palheiro, passou em 13 de 13 sondagens, incluindo um teste de resistência com um milhão de tokens usando YaRN 8× RoPE.

O 26B estende-se nativamente até 131K de contexto e até 524K com YaRN, que Hessling também testou sob estresse: “Ele também destruiu meus testes simples de agulha no palheiro até um contexto estendido de 524k!” Em hardware de borda, o E4B é realmente rápido. Jackrong relata 45–60 tokens por segundo no iPhone 17 Pro Max, e 90–120 tokens por segundo no MacBook Air M3/M4 via MLX. A arquitetura MoE de 26B significa que ele descarrega de forma eficiente em sistemas de memória unificada ou GPUs com menos de 10GB de VRAM. Hessling recomendou como seu modelo diário para setups com VRAM limitada.

Ambos os modelos estão disponíveis em formato GGUF, o que significa que você pode inseri-los diretamente no LM Studio ou llama.cpp sem configuração adicional. O código completo de treinamento e um guia passo a passo de fine-tuning estão no GitHub do Jackrong—mesmo pipeline usado para o Qwopus, mesma configuração de Unsloth e LoRA, reproduzível no Colab. O Gemopus não está sem suas arestas. A chamada a ferramentas ainda está quebrada em toda a série Gemma 4 no llama.cpp e no LM Studio—falhas na chamada, incompatibilidades de formato, loops—então, se seu fluxo de trabalho depende de agentes usando ferramentas externas, este ainda não é seu modelo. Jackrong mesmo chama isso de “uma referência de exploração de engenharia, mais do que uma solução pronta para produção,” e recomenda sua própria série Qwopus 3.5 para quem precisa de algo mais estável para cargas de trabalho reais. E, como Jackrong deliberadamente evitou a distilação agressiva do raciocínio em cadeia ao estilo Claude, não espere que ele seja tão profundamente Opus quanto o Qwopus—foi uma troca consciente por estabilidade, não uma falha.

Sim, a filosofia deste foi prioridade na estabilidade, entendo que os modelos Gemma tendem a ficar instáveis se você força muitas trilhas de raciocínio do Claude neles, como pode ver ao testar várias outras fine-tunes Opus Gemma no hugging face.

Jackrong tentou uma…

— Kyle Hessling (@KyleHessling1) 10 de abril de 2026

Para quem deseja aprofundar na fine-tuning do Gemma especificamente para raciocínio, há também um projeto comunitário separado que vale a pena acompanhar: Ornstein, do desenvolvedor pseudônimo DJLougen, que usa a mesma base Gemma 4 de 26B e foca especificamente em melhorar suas cadeias de raciocínio sem depender da lógica ou estilo de qualquer modelo de terceiros. Uma advertência honesta: as dinâmicas de treinamento do Gemma são mais caóticas do que as do Qwen para os fine-tuners—flutuações de perda mais amplas, maior sensibilidade a hiperparâmetros. Jackrong admite isso. Se precisar de um modelo local mais testado para produção, sua série Qwopus 3.5 continua mais robusta e validada. Mas, se quer um modelo americano com acabamento ao estilo Opus, o Gemopus é atualmente sua melhor opção disponível. Uma variante mais densa de 31B do Gemopus também está em desenvolvimento, com Hessling sugerindo que será “uma bomba, com certeza.” Se quer experimentar rodar modelos locais no seu próprio hardware, confira nosso guia de como começar com IA local.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar