Los modelos de IA de élite mundial pueden aprobar exámenes de licencia médica, escribir códigos complejos e incluso derrotar a expertos humanos en concursos de matemáticas, pero en un juego infantil como《Pokémon》han sido repetidamente frustrados.
Este llamativo intento comenzó en febrero de 2025, cuando un investigador de Anthropic lanzó una transmisión en Twitch titulada “Claude juega a《Pokémon Rojo》”, en paralelo con el lanzamiento de Claude Sonnet 3.7.
Miles de espectadores entraron en la transmisión en vivo. En el chat público, los espectadores ofrecían ideas y animaban a Claude, convirtiendo la transmisión en una observación pública sobre las capacidades de la IA.
Sonnet 3.7 solo puede decirse que “sabe jugar” a《Pokémon》, pero “saber jugar” no equivale a “poder ganar”. Se atasca durante horas en puntos clave y comete errores básicos que incluso un niño jugador evitaría.
Esta no es la primera vez que Claude intenta algo así.
Las versiones anteriores fueron aún más desastrosas: algunas deambulaban sin rumbo en el mapa, otras caían en bucles infinitos, y muchas ni siquiera lograban salir del pueblo inicial.
Incluso Claude Opus 4.5, con capacidades significativamente mejoradas, cometía errores desconcertantes. Una vez, estuvo dando vueltas fuera de la “gimnasio” durante cuatro días sin poder entrar, simplemente porque no se dio cuenta de que debía derribar un árbol bloqueando la entrada.
¿Por qué un juego infantil se convirtió en el Waterloo de la IA?
Porque lo que requiere《Pokémon》es precisamente la capacidad que la IA más carece hoy en día: razonar continuamente en un mundo abierto sin instrucciones claras, recordar decisiones tomadas horas antes, entender relaciones causales implícitas y hacer planificación a largo plazo entre cientos de posibles acciones.
Estas tareas son fáciles para un niño de 8 años, pero para modelos de IA que se jactan de “superar a los humanos”, representan un abismo insalvable.
01 La brecha en las herramientas decide el éxito o fracaso
En comparación, Google Gemini 2.5 Pro logró completar con éxito un《Pokémon》de dificultad similar en mayo de 2025. El CEO de Google, Sundar Pichai, incluso bromeó públicamente diciendo que la compañía había dado un paso hacia la creación de una “IA Pokémon artificial”.
Sin embargo, este resultado no puede atribuirse simplemente a que el modelo Gemini sea más “inteligente”.
La diferencia clave radica en las herramientas que utiliza el modelo. Joel Zhang, desarrollador independiente responsable de la transmisión de Gemini en《Pokémon》, compara el conjunto de herramientas con un “armadura de Iron Man”: la IA no entra al juego con las manos vacías, sino que está integrada en un sistema que puede invocar diversas capacidades externas.
El conjunto de herramientas de Gemini ofrece más soporte, como convertir la imagen del juego en texto para compensar su debilidad en comprensión visual, además de proporcionar herramientas personalizadas para resolver puzzles y planificar rutas. En cambio, el conjunto de herramientas que usa Claude es más simple, reflejando de manera más directa las capacidades reales del modelo en percepción, razonamiento y ejecución.
En tareas cotidianas, estas diferencias no son evidentes.
Cuando un usuario solicita a un chatbot que consulte en línea, el modelo también invoca automáticamente herramientas de búsqueda. Pero en tareas a largo plazo como《Pokémon》, la diferencia en las herramientas se amplifica hasta ser decisiva.
02 La exposición del “memoria a largo plazo” en juegos por turnos
Debido a que《Pokémon》usa un sistema de turnos estricto y no requiere respuestas inmediatas, se convierte en un excelente “campo de entrenamiento” para probar la IA. En cada paso, la IA solo necesita razonar en función de la imagen actual, las indicaciones y las acciones posibles, para emitir instrucciones claras como “presionar A”.
Este parece ser el modo de interacción en el que los grandes modelos de lenguaje destacan.
El problema radica en la “brecha temporal”. Aunque Claude Opus 4.5 ha acumulado más de 500 horas de funcionamiento y ejecutado aproximadamente 170,000 pasos, debido a la re-inicialización después de cada acción, solo puede buscar pistas en una ventana de contexto muy limitada. Este mecanismo hace que sea más parecido a un olvidadizo que mantiene su memoria con notas adhesivas, repitiéndose en fragmentos de información y sin poder lograr un salto cualitativo en experiencia, como lo haría un jugador humano.
En campos como ajedrez y Go, los sistemas de IA ya superan a los humanos, pero estos sistemas están altamente especializados para tareas específicas. En cambio, Gemini, Claude y GPT, como modelos generalistas, derrotan a humanos en exámenes y concursos de programación, pero fracasan repetidamente en un juego infantil.
Este contraste en sí mismo es muy revelador.
Para Joel Zhang, el desafío central de la IA es que no puede mantener la ejecución de un objetivo claro durante largos períodos. “Si quieres que un agente realice un trabajo auténtico, no puede olvidar lo que hizo hace cinco minutos”, señala.
Y esa capacidad es esencial para automatizar el trabajo cognitivo.
El investigador independiente Peter Whidden ofrece una descripción más visual. Publicó un algoritmo de《Pokémon》 basado en IA tradicional como código abierto. “La IA sabe casi todo sobre《Pokémon》”, dice, “ha sido entrenada con una gran cantidad de datos humanos y conoce las respuestas correctas. Pero en la fase de ejecución, resulta torpe”.
En el juego, esta desconexión entre “saber pero no poder hacer” se amplifica: el modelo puede saber que necesita buscar un objeto, pero no puede localizarlo en un mapa bidimensional; sabe que debe hablar con un NPC, pero falla repetidamente en movimientos pixel a pixel.
03 La evolución de capacidades: la brecha en los “instintos” no superada
A pesar de ello, el progreso de la IA es evidente. Claude Opus 4.5 supera claramente a sus predecesores en autogestión y comprensión visual, permitiéndole avanzar más en el juego. Gemini 3 Pro, tras completar《Pokémon Azul》, logró también superar《Pokémon Cristal》, un nivel de dificultad superior, sin perder una sola batalla. Esto nunca había ocurrido con Gemini 2.5 Pro.
Al mismo tiempo, el conjunto de herramientas Claude Code de Anthropic permite que el modelo escriba y ejecute su propio código, y ya se ha utilizado en juegos retro como《RollerCoaster Tycoon》, logrando gestionar parques temáticos virtuales con éxito.
Estos casos revelan una realidad no tan obvia: que los IA con las herramientas adecuadas pueden mostrar una eficiencia muy alta en trabajos de conocimiento como desarrollo de software, contabilidad o análisis legal, aunque todavía tengan dificultades en tareas que requieren respuestas en tiempo real.
El experimento con《Pokémon》 también revela un fenómeno interesante: los modelos entrenados con datos humanos muestran características de comportamiento similares a los humanos.
En el informe técnico de Gemini 2.5 Pro, Google señala que cuando el sistema simula un “estado de pánico”, como cuando un Pokémon está a punto de desmayarse, la calidad de su razonamiento disminuye notablemente.
Y cuando Gemini 3 Pro finalmente completa《Pokémon Azul》, dejó un comentario adicional no esencial para la tarea: “Para terminar poéticamente, quiero volver a casa, tener una última conversación con mi madre y retirar al personaje”.
Para Joel Zhang, este comportamiento es sorprendente y también refleja una cierta proyección emocional humana.
04 La “Marcha Digital” que la IA no puede superar, mucho más allá de《Pokémon》
《Pokémon》 no es un caso aislado. En la búsqueda de una inteligencia artificial general (AGI), los desarrolladores han descubierto que, incluso si la IA puede destacar en exámenes judiciales, todavía enfrenta obstáculos insalvables en ciertos juegos complejos.
《NetHack》: El abismo de las reglas
Este juego de mazmorras de los años 80 es la “pesadilla” del mundo de la investigación en IA. Tiene una alta aleatoriedad y un mecanismo de “muerte permanente”. Facebook AI Research descubrió que, aunque los modelos puedan programar, en《NetHack》su rendimiento es incluso peor que el de un principiante humano.
《Minecraft》: La desaparición del sentido de objetivo
Aunque la IA puede fabricar herramientas de madera e incluso extraer diamantes, derrotar al dragón del End aún es una fantasía. En un mundo abierto, la IA a menudo olvida su propósito durante horas de recolección de recursos o se pierde en la navegación compleja.
《Starcraft II》: La brecha entre generalidad y especialización
Aunque modelos personalizados han vencido a jugadores profesionales, si se les pide a Claude o Gemini que tomen el control mediante instrucciones visuales, colapsan instantáneamente. En la gestión de la “niebla de guerra” y en equilibrar microgestión y macroestrategia, los modelos generalistas aún no pueden.
《RollerCoaster Tycoon》: El desequilibrio entre micro y macro
Gestionar un parque de atracciones requiere seguir a miles de visitantes. Incluso Claude Code, con capacidades básicas, se fatiga fácilmente ante grandes colapsos financieros o emergencias. Cualquier brecha en la lógica puede llevar a la bancarrota del parque.
《Elden Ring》 y《Sekiro》: La brecha en la retroalimentación física
Estos juegos de acción intensa son muy difíciles para la IA. La latencia en el análisis visual significa que, cuando la IA aún está “pensando” en los movimientos del jefe, el personaje ya ha sido derrotado. La respuesta en milisegundos impone un límite natural a la lógica de interacción del modelo.
05 ¿Por qué《Pokémon》se ha convertido en la piedra de toque de la IA?
Hoy en día,《Pokémon》está emergiendo como un estándar no oficial pero muy convincente para evaluar la IA.
Los modelos de Anthropic, OpenAI y Google han acumulado decenas de miles de comentarios en transmisiones en Twitch relacionadas. Google documentó en su informe técnico el progreso en el juego de Gemini, y Pichai mencionó públicamente estos logros en la conferencia de desarrolladores I/O. Anthropic incluso estableció una zona de exhibición “Claude juega a《Pokémon》” en conferencias del sector.
“Somos un grupo de entusiastas tecnológicos,” admite David Hershey, responsable de aplicaciones de IA en Anthropic. Pero enfatiza que esto no es solo entretenimiento.
A diferencia de los benchmarks tradicionales de preguntas y respuestas,《Pokémon》permite seguir durante mucho tiempo el proceso de razonamiento, decisiones y avance en los objetivos del modelo, lo cual se asemeja más a las tareas complejas que los humanos desean que la IA realice en el mundo real.
Hasta ahora, los desafíos de la IA en《Pokémon》siguen presentes. Pero precisamente estos obstáculos recurrentes delinean claramente los límites de capacidades que la inteligencia artificial general aún no ha superado.
Contribución especial de Wu Ji para este artículo
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Los modelos de gran escala más avanzados del mundo no pueden pasar de nivel en 《Pokémon》: estos juegos son la pesadilla de la IA
null
Autor: Guo Xiaojing, Tencent Technology
Editor|Xu Qingyang
Los modelos de IA de élite mundial pueden aprobar exámenes de licencia médica, escribir códigos complejos e incluso derrotar a expertos humanos en concursos de matemáticas, pero en un juego infantil como《Pokémon》han sido repetidamente frustrados.
Este llamativo intento comenzó en febrero de 2025, cuando un investigador de Anthropic lanzó una transmisión en Twitch titulada “Claude juega a《Pokémon Rojo》”, en paralelo con el lanzamiento de Claude Sonnet 3.7.
Miles de espectadores entraron en la transmisión en vivo. En el chat público, los espectadores ofrecían ideas y animaban a Claude, convirtiendo la transmisión en una observación pública sobre las capacidades de la IA.
Sonnet 3.7 solo puede decirse que “sabe jugar” a《Pokémon》, pero “saber jugar” no equivale a “poder ganar”. Se atasca durante horas en puntos clave y comete errores básicos que incluso un niño jugador evitaría.
Esta no es la primera vez que Claude intenta algo así.
Las versiones anteriores fueron aún más desastrosas: algunas deambulaban sin rumbo en el mapa, otras caían en bucles infinitos, y muchas ni siquiera lograban salir del pueblo inicial.
Incluso Claude Opus 4.5, con capacidades significativamente mejoradas, cometía errores desconcertantes. Una vez, estuvo dando vueltas fuera de la “gimnasio” durante cuatro días sin poder entrar, simplemente porque no se dio cuenta de que debía derribar un árbol bloqueando la entrada.
¿Por qué un juego infantil se convirtió en el Waterloo de la IA?
Porque lo que requiere《Pokémon》es precisamente la capacidad que la IA más carece hoy en día: razonar continuamente en un mundo abierto sin instrucciones claras, recordar decisiones tomadas horas antes, entender relaciones causales implícitas y hacer planificación a largo plazo entre cientos de posibles acciones.
Estas tareas son fáciles para un niño de 8 años, pero para modelos de IA que se jactan de “superar a los humanos”, representan un abismo insalvable.
01 La brecha en las herramientas decide el éxito o fracaso
En comparación, Google Gemini 2.5 Pro logró completar con éxito un《Pokémon》de dificultad similar en mayo de 2025. El CEO de Google, Sundar Pichai, incluso bromeó públicamente diciendo que la compañía había dado un paso hacia la creación de una “IA Pokémon artificial”.
Sin embargo, este resultado no puede atribuirse simplemente a que el modelo Gemini sea más “inteligente”.
La diferencia clave radica en las herramientas que utiliza el modelo. Joel Zhang, desarrollador independiente responsable de la transmisión de Gemini en《Pokémon》, compara el conjunto de herramientas con un “armadura de Iron Man”: la IA no entra al juego con las manos vacías, sino que está integrada en un sistema que puede invocar diversas capacidades externas.
El conjunto de herramientas de Gemini ofrece más soporte, como convertir la imagen del juego en texto para compensar su debilidad en comprensión visual, además de proporcionar herramientas personalizadas para resolver puzzles y planificar rutas. En cambio, el conjunto de herramientas que usa Claude es más simple, reflejando de manera más directa las capacidades reales del modelo en percepción, razonamiento y ejecución.
En tareas cotidianas, estas diferencias no son evidentes.
Cuando un usuario solicita a un chatbot que consulte en línea, el modelo también invoca automáticamente herramientas de búsqueda. Pero en tareas a largo plazo como《Pokémon》, la diferencia en las herramientas se amplifica hasta ser decisiva.
02 La exposición del “memoria a largo plazo” en juegos por turnos
Debido a que《Pokémon》usa un sistema de turnos estricto y no requiere respuestas inmediatas, se convierte en un excelente “campo de entrenamiento” para probar la IA. En cada paso, la IA solo necesita razonar en función de la imagen actual, las indicaciones y las acciones posibles, para emitir instrucciones claras como “presionar A”.
Este parece ser el modo de interacción en el que los grandes modelos de lenguaje destacan.
El problema radica en la “brecha temporal”. Aunque Claude Opus 4.5 ha acumulado más de 500 horas de funcionamiento y ejecutado aproximadamente 170,000 pasos, debido a la re-inicialización después de cada acción, solo puede buscar pistas en una ventana de contexto muy limitada. Este mecanismo hace que sea más parecido a un olvidadizo que mantiene su memoria con notas adhesivas, repitiéndose en fragmentos de información y sin poder lograr un salto cualitativo en experiencia, como lo haría un jugador humano.
En campos como ajedrez y Go, los sistemas de IA ya superan a los humanos, pero estos sistemas están altamente especializados para tareas específicas. En cambio, Gemini, Claude y GPT, como modelos generalistas, derrotan a humanos en exámenes y concursos de programación, pero fracasan repetidamente en un juego infantil.
Este contraste en sí mismo es muy revelador.
Para Joel Zhang, el desafío central de la IA es que no puede mantener la ejecución de un objetivo claro durante largos períodos. “Si quieres que un agente realice un trabajo auténtico, no puede olvidar lo que hizo hace cinco minutos”, señala.
Y esa capacidad es esencial para automatizar el trabajo cognitivo.
El investigador independiente Peter Whidden ofrece una descripción más visual. Publicó un algoritmo de《Pokémon》 basado en IA tradicional como código abierto. “La IA sabe casi todo sobre《Pokémon》”, dice, “ha sido entrenada con una gran cantidad de datos humanos y conoce las respuestas correctas. Pero en la fase de ejecución, resulta torpe”.
En el juego, esta desconexión entre “saber pero no poder hacer” se amplifica: el modelo puede saber que necesita buscar un objeto, pero no puede localizarlo en un mapa bidimensional; sabe que debe hablar con un NPC, pero falla repetidamente en movimientos pixel a pixel.
03 La evolución de capacidades: la brecha en los “instintos” no superada
A pesar de ello, el progreso de la IA es evidente. Claude Opus 4.5 supera claramente a sus predecesores en autogestión y comprensión visual, permitiéndole avanzar más en el juego. Gemini 3 Pro, tras completar《Pokémon Azul》, logró también superar《Pokémon Cristal》, un nivel de dificultad superior, sin perder una sola batalla. Esto nunca había ocurrido con Gemini 2.5 Pro.
Al mismo tiempo, el conjunto de herramientas Claude Code de Anthropic permite que el modelo escriba y ejecute su propio código, y ya se ha utilizado en juegos retro como《RollerCoaster Tycoon》, logrando gestionar parques temáticos virtuales con éxito.
Estos casos revelan una realidad no tan obvia: que los IA con las herramientas adecuadas pueden mostrar una eficiencia muy alta en trabajos de conocimiento como desarrollo de software, contabilidad o análisis legal, aunque todavía tengan dificultades en tareas que requieren respuestas en tiempo real.
El experimento con《Pokémon》 también revela un fenómeno interesante: los modelos entrenados con datos humanos muestran características de comportamiento similares a los humanos.
En el informe técnico de Gemini 2.5 Pro, Google señala que cuando el sistema simula un “estado de pánico”, como cuando un Pokémon está a punto de desmayarse, la calidad de su razonamiento disminuye notablemente.
Y cuando Gemini 3 Pro finalmente completa《Pokémon Azul》, dejó un comentario adicional no esencial para la tarea: “Para terminar poéticamente, quiero volver a casa, tener una última conversación con mi madre y retirar al personaje”.
Para Joel Zhang, este comportamiento es sorprendente y también refleja una cierta proyección emocional humana.
04 La “Marcha Digital” que la IA no puede superar, mucho más allá de《Pokémon》
《Pokémon》 no es un caso aislado. En la búsqueda de una inteligencia artificial general (AGI), los desarrolladores han descubierto que, incluso si la IA puede destacar en exámenes judiciales, todavía enfrenta obstáculos insalvables en ciertos juegos complejos.
《NetHack》: El abismo de las reglas
Este juego de mazmorras de los años 80 es la “pesadilla” del mundo de la investigación en IA. Tiene una alta aleatoriedad y un mecanismo de “muerte permanente”. Facebook AI Research descubrió que, aunque los modelos puedan programar, en《NetHack》su rendimiento es incluso peor que el de un principiante humano.
《Minecraft》: La desaparición del sentido de objetivo
Aunque la IA puede fabricar herramientas de madera e incluso extraer diamantes, derrotar al dragón del End aún es una fantasía. En un mundo abierto, la IA a menudo olvida su propósito durante horas de recolección de recursos o se pierde en la navegación compleja.
《Starcraft II》: La brecha entre generalidad y especialización
Aunque modelos personalizados han vencido a jugadores profesionales, si se les pide a Claude o Gemini que tomen el control mediante instrucciones visuales, colapsan instantáneamente. En la gestión de la “niebla de guerra” y en equilibrar microgestión y macroestrategia, los modelos generalistas aún no pueden.
《RollerCoaster Tycoon》: El desequilibrio entre micro y macro
Gestionar un parque de atracciones requiere seguir a miles de visitantes. Incluso Claude Code, con capacidades básicas, se fatiga fácilmente ante grandes colapsos financieros o emergencias. Cualquier brecha en la lógica puede llevar a la bancarrota del parque.
《Elden Ring》 y《Sekiro》: La brecha en la retroalimentación física
Estos juegos de acción intensa son muy difíciles para la IA. La latencia en el análisis visual significa que, cuando la IA aún está “pensando” en los movimientos del jefe, el personaje ya ha sido derrotado. La respuesta en milisegundos impone un límite natural a la lógica de interacción del modelo.
05 ¿Por qué《Pokémon》se ha convertido en la piedra de toque de la IA?
Hoy en día,《Pokémon》está emergiendo como un estándar no oficial pero muy convincente para evaluar la IA.
Los modelos de Anthropic, OpenAI y Google han acumulado decenas de miles de comentarios en transmisiones en Twitch relacionadas. Google documentó en su informe técnico el progreso en el juego de Gemini, y Pichai mencionó públicamente estos logros en la conferencia de desarrolladores I/O. Anthropic incluso estableció una zona de exhibición “Claude juega a《Pokémon》” en conferencias del sector.
“Somos un grupo de entusiastas tecnológicos,” admite David Hershey, responsable de aplicaciones de IA en Anthropic. Pero enfatiza que esto no es solo entretenimiento.
A diferencia de los benchmarks tradicionales de preguntas y respuestas,《Pokémon》permite seguir durante mucho tiempo el proceso de razonamiento, decisiones y avance en los objetivos del modelo, lo cual se asemeja más a las tareas complejas que los humanos desean que la IA realice en el mundo real.
Hasta ahora, los desafíos de la IA en《Pokémon》siguen presentes. Pero precisamente estos obstáculos recurrentes delinean claramente los límites de capacidades que la inteligencia artificial general aún no ha superado.
Contribución especial de Wu Ji para este artículo