🚨 ANTHROPIC ÉTABLIT UNE NOUVELLE BASELINE AVEC CLAUDE OPUS 4.7


C'est une étape mesurable en avant dans la performance agentique.
64,3 % sur SWE-bench, contre 53,4 %
87,6 % sur la programmation agentique vérifiée
77,3 % sur l'utilisation d'outils à l'échelle
78,0 % sur les tâches informatiques du monde réel
Cela améliore également là où les modèles se dégradent généralement :
79,3 % sur la recherche agentique
64,4 % sur l'analyse financière
91,5 % sur les questions-réponses multilingues
Et de manière critique, le raisonnement à long terme reste solide :
Plus de 90 % de raisonnement visuel avec des outils
94,2 % aux benchmarks de niveau universitaire
VOICI LA CONCLUSION :
Il ne s'agit pas de scores de pointe.
Il s'agit de cohérence dans tous les domaines.
Opus 4.7 ne domine pas dans toutes les catégories.
Mais il fonctionne de manière fiable dans toutes.
C'est ce dont les systèmes de production ont besoin.
La frontière n'est plus seulement l'intelligence.
C'est la stabilité sous de véritables charges de travail.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler