🚨 CONJUNTOS ANTROPICOS ESTABELECEM UMA NOVA BASE COM CLAUDE OPUS 4.7


Este é um passo mensurável à frente no desempenho agentico.
64,3% no SWE-bench, de 53,4%
87,6% em codificação agentica verificada
77,3% no uso de ferramentas escaladas
78,0% em tarefas de computador do mundo real
Também melhora onde os modelos normalmente degradam:
79,3% na busca agentica
64,4% na análise financeira
91,5% em perguntas e respostas multilíngues
E, criticamente, o raciocínio de longo contexto se mantém:
Mais de 90% de raciocínio visual com ferramentas
94,2% em benchmarks de nível de graduação
AQUI ESTÁ A CONCLUSÃO:
Não se trata de pontuações máximas.
Trata-se de consistência em todos os domínios.
O opus 4.7 não domina todas as categorias.
Mas ele funciona de forma confiável em todas elas.
Isso é o que os sistemas de produção precisam.
A fronteira não é mais apenas inteligência.
É estabilidade sob cargas de trabalho reais.
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar