🚨 CONJUNTO ANTHROPIC ESTABELECE UMA NOVA BASE COM CLAUDE OPUS 4.7


Este é um passo mensurável em frente no desempenho agentico.
64,3% no SWE-bench, acima de 53,4%
87,6% em codificação agentica verificada
77,3% no uso de ferramentas escaladas
78,0% em tarefas de computador do mundo real
Também melhora onde os modelos normalmente degradam-se:
79,3% na pesquisa agentica
64,4% na análise financeira
91,5% em perguntas e respostas multilíngues
E, criticamente, o raciocínio de contexto longo mantém-se:
Mais de 90% de raciocínio visual com ferramentas
94,2% em benchmarks de nível de graduação
AQUI ESTÁ A CONCLUSÃO:
Não se trata de pontuações máximas.
Trata-se de consistência em todos os domínios.
O opus 4.7 não domina todas as categorias.
Mas desempenha de forma confiável em todas elas.
Isso é o que os sistemas de produção precisam.
A fronteira não é mais apenas inteligência.
É estabilidade sob cargas de trabalho reais.
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar