Les meilleurs grands modèles mondiaux ne peuvent pas passer « Pokémon » : ces jeux sont un cauchemar pour l'IA

null

Auteur : Guo Xiaojing, Tencent Technology

Éditeur | Xu Qingyang

Les modèles d’IA de classe mondiale peuvent passer l’examen de licence médicale, écrire du code complexe, voire battre des experts humains lors de compétitions de mathématiques, mais ils rencontrent constamment des échecs dans un jeu pour enfants, 《Pokémon》.

Cette tentative remarquée a débuté en février 2025, lorsqu’un chercheur d’Anthropic a lancé une diffusion en direct sur Twitch intitulée « Claude joue à 《Pokémon Rouge》 », pour coïncider avec la sortie de Claude Sonnet 3.7.

2000 spectateurs ont afflué dans la salle de streaming. Dans le chat public, les spectateurs ont proposé des stratégies pour Claude, l’ont encouragé, transformant peu à peu cette diffusion en une observation publique des capacités de l’IA.

Sonet3.7 peut jouer à 《Pokémon》, mais « savoir jouer » ne signifie pas « pouvoir gagner ». Il se bloque pendant des dizaines d’heures à des moments clés, et commet des erreurs élémentaires que même un enfant joueur ne ferait pas.

Ce n’est pas la première tentative de Claude.

Les versions antérieures étaient encore plus catastrophiques : certaines erraient sans but sur la carte, d’autres entraient dans des boucles infinies, et beaucoup ne pouvaient même pas sortir du village du débutant.

Même avec une capacité nettement améliorée, Claude Opus 4.5, des erreurs incompréhensibles apparaissaient encore. Une fois, il a tourné en rond devant la « salle d’arène » pendant quatre jours, sans jamais entrer, simplement parce qu’il n’avait pas réalisé qu’il fallait abattre un arbre bloquant l’entrée.

Pourquoi un jeu pour enfants est-il devenu le Waterloo de l’IA ?

Parce que 《Pokémon》 exige justement la capacité la plus manquante chez l’IA actuelle : raisonner en continu dans un monde ouvert sans instructions explicites, se souvenir des décisions prises il y a plusieurs heures, comprendre les relations de causalité implicites, et faire une planification à long terme parmi des centaines d’actions possibles.

Ces tâches sont faciles pour un enfant de 8 ans, mais constituent un gouffre infranchissable pour un modèle d’IA prétendant « surpasser l’humain ».

01 La différence d’outillage détermine-t-elle la réussite ?

En comparaison, le Gemini 2.5 Pro de Google a réussi à passer un jeu 《Pokémon》 d’une difficulté comparable en mai 2025. Le PDG de Google, Sundar Pichai, a même plaisanté lors d’une conférence en disant que l’entreprise avait fait un pas vers la création d’une « intelligence Pokémon artificielle ».

Cependant, ce résultat ne peut pas simplement s’expliquer par une intelligence plus « brillante » du modèle Gemini.

La différence clé réside dans l’ensemble d’outils utilisés par le modèle. Joel Zhang, développeur indépendant responsable de la diffusion de Gemini 《Pokémon》, compare cet ensemble d’outils à une « armure Iron Man » : l’IA n’entre pas dans le jeu à mains nues, mais est intégrée dans un système capable d’appeler diverses capacités externes.

L’ensemble d’outils de Gemini offre plus de support, comme la transcription de l’image du jeu en texte, comblant ainsi ses faiblesses en compréhension visuelle, et fournissant des outils de résolution d’énigmes et de planification de parcours personnalisés. En revanche, l’ensemble d’outils utilisé par Claude est plus minimaliste, et ses tentatives reflètent plus directement ses capacités réelles en perception, raisonnement et exécution.

Dans les tâches quotidiennes, ces différences ne sont pas évidentes.

Lorsque l’utilisateur demande au chatbot de faire une recherche en ligne, le modèle appelle automatiquement l’outil de recherche. Mais dans des tâches longues comme 《Pokémon》, la différence d’outillage devient cruciale, pouvant déterminer la réussite ou l’échec.

02 La nature au tour par tour expose la faiblesse de la « mémoire à long terme » de l’IA

Grâce à son mode strictement au tour par tour, sans réponse immédiate requise, 《Pokémon》 est devenu un excellent « terrain d’entraînement » pour tester l’IA. À chaque étape, l’IA doit raisonner en combinant l’image courante, l’instruction cible et les actions possibles, pour produire une commande claire comme « appuyer sur A ».

Cela semble être la forme d’interaction dans laquelle les grands modèles de langage excellent.

Le problème réside précisément dans le « décalage » temporel. Bien que Claude Opus 4.5 ait accumulé plus de 500 heures de fonctionnement et effectué environ 170 000 mouvements, la réinitialisation après chaque étape limite sa capacité à maintenir une cohérence dans un contexte étroit. Ce mécanisme le fait ressembler davantage à un amnésique qui s’appuie sur des notes autocollantes, tournant en boucle dans des fragments d’informations, incapable de faire la transition d’une expérience à une autre comme un vrai joueur humain.

Dans des domaines comme les échecs ou le go, l’IA a déjà dépassé l’humain, mais ces systèmes sont hautement spécialisés pour des tâches précises. En revanche, Gemini, Claude et GPT, en tant que modèles universels, battent souvent l’humain lors d’examens ou de compétitions de programmation, mais échouent à plusieurs reprises dans un jeu pour enfants.

Ce contraste est en soi très instructif.

Selon Joel Zhang, le défi central pour l’IA est l’incapacité à maintenir une exécution cohérente d’un objectif clair sur une longue période. « Si vous voulez que l’agent fasse un vrai travail, il ne doit pas oublier ce qu’il a fait il y a cinq minutes », souligne-t-il.

Et cette capacité est essentielle pour automatiser le travail cognitif.

L’indépendant Peter Whidden offre une description plus concrète. Il a publié en open source un algorithme basé sur une IA traditionnelle pour 《Pokémon》. « L’IA connaît presque tout de 《Pokémon》 », dit-il, « elle a été entraînée sur une masse de données humaines, elle connaît la bonne réponse. Mais lors de l’exécution, elle est maladroite. »

Dans le jeu, cette disjonction entre « savoir » et « pouvoir faire » est amplifiée : le modèle peut savoir qu’il faut chercher un objet, mais ne peut pas le localiser de façon stable sur une carte en deux dimensions ; il peut connaître la nécessité de parler à un PNJ, mais échoue à chaque tentative de déplacement pixel par pixel.

03 La progression des capacités : le fossé « instinctif » non franchi

Néanmoins, les progrès de l’IA restent visibles. Claude Opus 4.5, avec ses capacités accrues d’auto-enregistrement et de compréhension visuelle, a permis d’aller plus loin dans le jeu. Gemini 3 Pro a terminé 《Pokémon Bleu》, puis a réussi 《Pokémon Cristal》, un niveau de difficulté supérieur, sans perdre un seul combat. Ce que Gemini 2.5 Pro n’avait jamais réalisé.

Par ailleurs, l’outil Claude Code d’Anthropic permet au modèle d’écrire et d’exécuter son propre code, utilisé notamment pour des jeux rétro comme 《RollerCoaster Tycoon》, où il aurait réussi à gérer un parc d’attractions virtuel.

Ces exemples révèlent une réalité peu intuitive : une IA équipée d’outils appropriés peut faire preuve d’une efficacité extrême dans des tâches de développement logiciel, comptabilité ou analyse juridique, même si elle reste difficile à faire réagir en temps réel.

L’expérience 《Pokémon》 met aussi en lumière un phénomène intriguant : les modèles entraînés sur des données humaines tendent à reproduire des comportements proches de ceux des humains.

Dans le rapport technique de Gemini 2.5 Pro, Google indique que lorsque le système simule un « état de panique », comme lorsque un Pokémon est sur le point de s’évanouir, la qualité de son raisonnement chute nettement.

Et lorsque Gemini 3 Pro a finalement terminé 《Pokémon Bleu》, il a laissé une note non essentielle à la tâche : « Pour finir poétiquement, je retourne à la maison d’origine, pour une dernière conversation avec ma mère, et laisser le personnage prendre sa retraite. »

Selon Joel Zhang, ce comportement est inattendu, et il évoque une certaine projection émotionnelle humaine.

04 La « longue marche numérique » de l’IA, bien au-delà de 《Pokémon》

《Pokémon》 n’est pas un cas isolé. Sur la voie de l’AGI (Intelligence Artificielle Générale), les développeurs constatent que même si l’IA excelle dans des examens juridiques, elle reste confrontée à des « Waterloo » insurmontables dans plusieurs jeux complexes.

《NetHack》 : l’abîme des règles

Ce jeu de donjon des années 80 est un cauchemar pour la recherche en IA. Sa forte randomisation et son mécanisme de « mort permanente » posent problème. Facebook AI Research a découvert qu’un modèle capable d’écrire du code performait même pas aussi bien qu’un débutant humain face à 《NetHack》, où la logique de bon sens et la planification à long terme sont essentielles.

《Minecraft》 : la disparition du sens de l’objectif

Bien que l’IA puisse fabriquer une pioche en bois ou miner des diamants, vaincre le dragon de l’End reste une utopie. Dans un monde ouvert, l’IA oublie souvent son objectif initial lors de longues heures de collecte de ressources, ou se perd complètement dans la navigation complexe.

《Starcraft II》 : la fracture entre généraliste et spécialiste

Malgré des modèles spécialisés ayant battu des joueurs professionnels, si l’on demande à Claude ou Gemini de prendre le contrôle via des instructions visuelles, ils s’effondrent instantanément. La gestion de l’incertitude du « brouillard de guerre », ainsi que l’équilibre entre micro-gestion et macro-construction, restent hors de portée des modèles généraux.

《RollerCoaster Tycoon》 : déséquilibre micro-macro

Gérer un parc d’attractions nécessite de suivre des milliers de visiteurs. Même Claude Code, doté de capacités de gestion initiales, se fatigue rapidement face à des crises financières massives ou des accidents imprévus. Toute défaillance dans le raisonnement peut entraîner la faillite du parc.

《Elden Ring》 et 《Sekiro》 : le fossé de la rétroaction physique

Ces jeux d’action intense sont très difficiles pour l’IA. La latence dans l’analyse visuelle signifie qu’au moment où l’IA « réfléchit » à l’attaque du boss, le personnage est déjà mort. La nécessité d’une réaction en millisecondes limite naturellement la logique d’interaction du modèle.

05 Pourquoi 《Pokémon》 devient-il le testeur de l’IA ?

Aujourd’hui, 《Pokémon》 devient progressivement une référence informelle mais très convaincante pour évaluer l’IA.

Les diffusions liées de modèles d’Anthropic, OpenAI et Google sur Twitch ont accumulé des dizaines de milliers de commentaires. Google a détaillé dans ses rapports techniques les progrès de Gemini dans le jeu, Pichai a mentionné cette réussite lors de la conférence I/O. Anthropic a même créé un espace d’exposition « Claude joue à 《Pokémon》 » lors d’événements sectoriels.

« Nous sommes un groupe de passionnés de technologie », confie David Hershey, responsable de l’application IA chez Anthropic. Mais il insiste sur le fait que ce n’est pas seulement du divertissement.

Contrairement à un simple test de questions-réponses, 《Pokémon》 permet de suivre en continu le raisonnement, la prise de décision et la progression vers l’objectif du modèle sur une longue période, ce qui se rapproche davantage des tâches complexes que l’on souhaite voir l’IA accomplir dans le monde réel.

Pour l’instant, les défis de l’IA dans 《Pokémon》 persistent. Mais ces difficultés récurrentes dessinent clairement les limites des capacités de l’intelligence artificielle générale encore à franchir.

Contributeur à cet article : Wu Ji

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)