Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
A Gemma do Google já age como a Gemini—alguém fez-na pensar também como o Claude Opus
Se tem acompanhado o cenário local de IA, provavelmente conhece o Qwopus—o modelo de código aberto que tentou destilar o raciocínio do Claude Opus 4.6 para o Qwen da Alibaba, para que pudesse rodar algo semelhante ao Opus no seu próprio hardware de forma gratuita. Funcionou surpreendentemente bem. A vantagem óbvia: o Qwen é um modelo chinês, e nem todos se sentem confortáveis com isso. Jackrong, o mesmo desenvolvedor pseudônimo por trás desse projeto, ouviu o feedback. Sua resposta é o Gemopus—uma nova família de fine-tunes ao estilo Claude Opus, construídos inteiramente com o Gemma 4, de código aberto do Google. DNA totalmente americano, mesma ideia: raciocínio de nível de fronteira, rodando localmente em hardware que você já possui. A família vem em duas versões. Gemopus-4-26B-A4B é a opção mais pesada—um modelo de Mistura de Especialistas que possui 26 bilhões de parâmetros no total, mas ativa cerca de 4 bilhões durante a inferência, o que significa que entrega um desempenho muito superior ao esperado em hardware com restrições.
Parâmetros são o que determinam a capacidade de uma IA de aprender, raciocinar e armazenar informações. Ter 26 bilhões de parâmetros no total dá ao modelo uma vasta gama de conhecimentos. Mas, ao “acordar” apenas os 4 bilhões de parâmetros relevantes para o seu prompt específico, ele oferece resultados de alta qualidade de uma IA massiva, mantendo-se leve o suficiente para rodar suavemente em hardware cotidiano. A outra é a Gemopus-4-E4B, um modelo de 4 bilhões de parâmetros projetado para rodar confortavelmente em um iPhone moderno ou um MacBook leve—sem necessidade de GPU. A escolha do modelo base é importante aqui. O Gemma 4 do Google, lançado em 2 de abril, é construído diretamente a partir da mesma pesquisa e tecnologia do Gemini 3—disse a própria empresa na apresentação. Isso significa que o Gemopus carrega algo que nenhuma fine-tune baseada em Qwen pode reivindicar: o DNA do próprio modelo fechado de ponta do Google, envolto no estilo de pensamento da Anthropic. O melhor de ambos os mundos, mais ou menos.
O que diferencia o Gemopus da onda de outros fine-tunes do Gemma que estão inundando o Hugging Face agora é a filosofia por trás dele. Jackrong deliberadamente optou por não forçar as trilhas de raciocínio em cadeia do Claude nos pesos do Gemma—uma solução rápida que a maioria das versões concorrentes adota. Seu argumento, apoiado por pesquisas recentes, é que encher um modelo estudante com textos de raciocínio superficial de um professor não transfere realmente a habilidade de raciocínio. Ensina imitação, não lógica. “Não há necessidade de imaginação excessiva ou replicação supersticiosa da cadeia de pensamento ao estilo Claude,” diz a ficha do modelo. Em vez disso, ele focou na qualidade das respostas, clareza estrutural e naturalidade na conversa—corrigindo o tom rígido de Wikipedia do Gemma e sua tendência a dar aulas sobre assuntos que você não pediu. O engenheiro de infraestrutura de IA Kyle Hessling realizou benchmarks independentes e publicou os resultados diretamente na ficha do modelo. Sua avaliação da variante de 26B foi bastante favorável. “Fico feliz por ter testado bastante este modelo e ele é uma excelente fine-tune de um modelo já excepcional,” escreveu no X. “Ele se sai muito bem em solicitações de uma única vez com contextos longos, e roda incrivelmente rápido graças à arquitetura MOE (mistura de especialistas).”
A variante menor E4B passou em todos os 14 testes de competência central—seguimento de instruções, codificação, matemática, raciocínio em múltiplas etapas, tradução, segurança, cache—e passou em todos os 12 testes de contexto longo com 30K e 60K tokens. Em buscas de agulha no palheiro, passou em 13 de 13 sondagens, incluindo um teste de resistência com um milhão de tokens usando YaRN 8× RoPE.
O 26B estende-se nativamente até 131K de contexto e até 524K com YaRN, que Hessling também testou sob estresse: “Ele também destruiu meus testes simples de agulha no palheiro até um contexto estendido de 524k!” Em hardware de borda, o E4B é realmente rápido. Jackrong relata 45–60 tokens por segundo no iPhone 17 Pro Max, e 90–120 tokens por segundo no MacBook Air M3/M4 via MLX. A arquitetura MoE de 26B significa que ele descarrega de forma eficiente em sistemas de memória unificada ou GPUs com menos de 10GB de VRAM. Hessling recomendou como seu modelo diário para setups com VRAM limitada.
Ambos os modelos estão disponíveis em formato GGUF, o que significa que você pode inseri-los diretamente no LM Studio ou llama.cpp sem configuração adicional. O código completo de treinamento e um guia passo a passo de fine-tuning estão no GitHub do Jackrong—mesmo pipeline usado para o Qwopus, mesma configuração de Unsloth e LoRA, reproduzível no Colab. O Gemopus não está sem suas arestas. A chamada a ferramentas ainda está quebrada em toda a série Gemma 4 no llama.cpp e no LM Studio—falhas na chamada, incompatibilidades de formato, loops—então, se seu fluxo de trabalho depende de agentes usando ferramentas externas, este ainda não é seu modelo. Jackrong mesmo chama isso de “uma referência de exploração de engenharia, mais do que uma solução pronta para produção,” e recomenda sua própria série Qwopus 3.5 para quem precisa de algo mais estável para cargas de trabalho reais. E, como Jackrong deliberadamente evitou a distilação agressiva do raciocínio em cadeia ao estilo Claude, não espere que ele seja tão profundamente Opus quanto o Qwopus—foi uma troca consciente por estabilidade, não uma falha.
Para quem deseja aprofundar na fine-tuning do Gemma especificamente para raciocínio, há também um projeto comunitário separado que vale a pena acompanhar: Ornstein, do desenvolvedor pseudônimo DJLougen, que usa a mesma base Gemma 4 de 26B e foca especificamente em melhorar suas cadeias de raciocínio sem depender da lógica ou estilo de qualquer modelo de terceiros. Uma advertência honesta: as dinâmicas de treinamento do Gemma são mais caóticas do que as do Qwen para os fine-tuners—flutuações de perda mais amplas, maior sensibilidade a hiperparâmetros. Jackrong admite isso. Se precisar de um modelo local mais testado para produção, sua série Qwopus 3.5 continua mais robusta e validada. Mas, se quer um modelo americano com acabamento ao estilo Opus, o Gemopus é atualmente sua melhor opção disponível. Uma variante mais densa de 31B do Gemopus também está em desenvolvimento, com Hessling sugerindo que será “uma bomba, com certeza.” Se quer experimentar rodar modelos locais no seu próprio hardware, confira nosso guia de como começar com IA local.