Modelos de grande escala de topo mundial, não conseguem passar em 《Pokémon》: estes jogos são o pesadelo da IA

null

Autor: Guo Xiaojing, Tencent Technology

Editor|Xu Qingyang

Os modelos de IA de topo mundial podem passar no exame de licença médica, escrever códigos complexos e até derrotar especialistas humanos em competições de matemática, mas enfrentam repetidos obstáculos no jogo infantil 《Pokémon》.

Esta tentativa notável começou em fevereiro de 2025, quando um pesquisador da Anthropic lançou uma transmissão ao vivo no Twitch intitulada “Claude joga 《Pokémon Vermelho》”, em comemoração ao lançamento do Claude Sonnet 3.7.

Milhares de espectadores entraram na transmissão. Na área de chat público, os espectadores davam dicas, incentivavam Claude, e a transmissão evoluiu para uma observação pública das capacidades de IA.

Sonnet 3.7 consegue jogar 《Pokémon》, mas “saber jogar” não significa “conseguir vencer”. Ele fica preso em pontos críticos por dezenas de horas e comete erros básicos que até crianças jogadores evitariam.

Esta não é a primeira tentativa do Claude.

Versões anteriores tiveram desempenho ainda mais desastroso: alguns vagavam sem objetivo pelo mapa, outros entravam em loops infinitos, e muitos sequer conseguiam sair da vila iniciante.

Mesmo o Claude Opus 4.5, com melhorias significativas, comete erros inexplicáveis. Uma vez, ele rodou em círculos fora da “academia” por quatro dias seguidos, sem conseguir entrar, simplesmente por não perceber que precisava derrubar uma árvore bloqueando a entrada.

Por que um jogo infantil se tornou o Waterloo da IA?

Porque 《Pokémon》 exige exatamente as habilidades que a IA mais carece atualmente: raciocínio contínuo em um mundo aberto sem instruções claras, lembrar decisões tomadas horas atrás, entender relações de causa e efeito implícitas, e fazer planos de longo prazo entre centenas de ações possíveis.

Essas tarefas são fáceis para uma criança de 8 anos, mas representam uma barreira intransponível para modelos de IA que se autoproclamam “superiores à humanidade”.

01 A lacuna de ferramentas decide o sucesso ou fracasso?

Em comparação, o Gemini 2.5 Pro do Google conseguiu passar em um jogo de dificuldade semelhante em maio de 2025. O CEO do Google, Sundar Pichai, brincou publicamente que a empresa deu um passo na criação de uma “IA de Pokémon artificial”.

No entanto, esse resultado não pode ser atribuído simplesmente ao fato de o modelo Gemini ser mais “inteligente”.

A diferença crucial está no conjunto de ferramentas que o modelo usa. Joel Zhang, desenvolvedor independente responsável pela transmissão de 《Pokémon》 do Gemini, compara o conjunto de ferramentas a uma “armadura de Homem de Ferro”: a IA não entra no jogo de mãos vazias, mas é colocada em um sistema que pode invocar várias capacidades externas.

O conjunto de ferramentas do Gemini oferece suporte adicional, como transformar a imagem do jogo em texto, compensando suas fraquezas na compreensão visual, além de fornecer ferramentas personalizadas para resolução de enigmas e planejamento de rotas. Em contraste, o conjunto de ferramentas usado pelo Claude é mais simples, refletindo de forma mais direta as capacidades reais do modelo em percepção, raciocínio e execução.

Em tarefas cotidianas, essas diferenças não são tão evidentes.

Quando o usuário solicita uma consulta online ao chatbot, o modelo também invoca automaticamente ferramentas de busca. Mas em tarefas de longo prazo, como 《Pokémon》, a diferença no conjunto de ferramentas é ampliada a ponto de decidir o sucesso ou fracasso.

02 O modo por turnos expõe a limitação da “memória de longo prazo” da IA

Por usar um sistema de turnos rigoroso, sem necessidade de resposta instantânea, 《Pokémon》 tornou-se um excelente “campo de treinamento” para testar IA. Em cada passo, a IA precisa raciocinar com base na imagem atual, na dica de objetivo e nas ações disponíveis, e emitir comandos claros como “pressionar A”.

Essa parece ser a forma de interação em que os grandes modelos de linguagem se destacam.

O problema está na “lacuna” temporal. Apesar de o Claude Opus 4.5 ter acumulado mais de 500 horas de jogo e cerca de 170 mil passos, sua reinicialização após cada ação limita sua capacidade de manter contexto. Essa mecânica faz com que ele funcione mais como uma pessoa com memória fraca, que usa notas adesivas para manter a consciência, repetindo-se em fragmentos de informação e nunca alcançando uma experiência de mudança qualitativa, como um jogador humano.

Nos campos de xadrez e Go, a IA já superou humanos, mas esses sistemas são altamente especializados para tarefas específicas. Em contraste, modelos gerais como Gemini, Claude e GPT, embora frequentemente derrotarem humanos em exames e competições de programação, enfrentam obstáculos repetidos em um jogo infantil.

Essa contradição é altamente reveladora.

Para Joel Zhang, o desafio central da IA é a incapacidade de manter uma execução contínua de um objetivo claro ao longo de longos períodos. “Se você quer que um agente faça um trabalho real, ele não pode esquecer o que fez cinco minutos atrás”, afirma.

Essa habilidade é fundamental para a automação do trabalho cognitivo.

O pesquisador independente Peter Whidden oferece uma descrição mais direta. Ele open-soube um algoritmo de 《Pokémon》 baseado em IA tradicional. “A IA quase sabe tudo sobre 《Pokémon》,” ele diz, “treinada em uma vasta quantidade de dados humanos, conhece as respostas corretas. Mas, na fase de execução, ela é desajeitada.”

No jogo, essa lacuna entre “saber” e “fazer” é ampliada: o modelo pode saber que precisa procurar um item, mas não consegue se localizar de forma estável no mapa 2D; sabe que deve conversar com NPCs, mas falha repetidamente na movimentação pixel a pixel.

03 O avanço das capacidades: a “falha” que ainda não foi superada

Apesar disso, o progresso da IA é evidente. O Claude Opus 4.5, com melhor compreensão visual e capacidade de auto-registro, consegue avançar mais no jogo. O Gemini 3 Pro, após passar em 《Pokémon Azul》, completou também 《Pokémon Cristal》, de dificuldade maior, sem perder uma única batalha — algo que o Gemini 2.5 Pro nunca conseguiu.

Ao mesmo tempo, o Claude Code da Anthropic, que permite ao modelo escrever e executar seu próprio código, já foi usado em jogos retrô como 《Theme Park Tycoon》, supostamente gerenciando parques temáticos virtuais com sucesso.

Esses exemplos revelam uma realidade não tão óbvia: IA equipada com ferramentas adequadas pode mostrar alta eficiência em tarefas de desenvolvimento de software, contabilidade, análise jurídica e outros trabalhos de conhecimento, mesmo que ainda tenha dificuldades em tarefas que exijam resposta em tempo real.

O experimento com 《Pokémon》 também revela um fenômeno intrigante: modelos treinados com dados humanos tendem a exibir características comportamentais semelhantes às humanas.

No relatório técnico do Gemini 2.5 Pro, o Google aponta que, quando o sistema simula “estado de pânico”, como quando um Pokémon está prestes a desmaiar, a qualidade do raciocínio do modelo diminui significativamente.

Quando o Gemini 3 Pro finalmente passou em 《Pokémon Azul》, deixou uma nota não essencial à tarefa: “Para terminar poeticamente, quero voltar à minha casa original, conversar com minha mãe uma última vez e fazer o personagem se aposentar.”

Para Joel Zhang, esse comportamento foi inesperado e carrega uma certa projeção emocional humana.

04 A “longa marcha digital” da IA, muito além de 《Pokémon》

《Pokémon》 não é um caso isolado. No caminho para a inteligência artificial geral (AGI), os desenvolvedores descobriram que, mesmo com IA que se destaca em exames jurídicos, ainda há “Waterloos” intransponíveis em jogos complexos como:

《NetHack》: o abismo das regras

Este jogo de masmorras dos anos 80 é um “pesadelo” para a pesquisa em IA. Sua aleatoriedade extrema e a mecânica de “morte permanente” desafiam os modelos. O Facebook AI Research descobriu que, mesmo capazes de escrever código, eles se saem pior do que iniciantes humanos em 《NetHack》, que exige lógica de senso comum e planejamento de longo prazo.

《Minecraft》: a perda do senso de objetivo

Embora a IA possa fazer picaretas de madeira e até minerar diamantes, derrotar o dragão do End ainda é uma fantasia. Em um mundo aberto, a IA frequentemente esquece seu objetivo durante horas de coleta de recursos ou se perde completamente na navegação complexa.

《Starcraft II》: a lacuna entre generalidade e especialização

Embora modelos personalizados tenham derrotado jogadores profissionais, se Claude ou Gemini forem controlados por comandos visuais, eles colapsam instantaneamente. Na gestão da “névoa de guerra” e no equilíbrio entre micro e macro, os modelos gerais ainda não conseguem competir.

《Theme Park Tycoon》: o desequilíbrio entre micro e macro

Gerenciar um parque de diversões exige monitorar milhares de visitantes. Mesmo o Claude Code, com capacidades iniciais de gestão, fica facilmente sobrecarregado ao lidar com falhas financeiras ou emergências. Uma única falha de raciocínio pode levar à falência do parque.

《Elden Ring》 e 《Sekiro》: a lacuna na resposta física

Jogos de ação intensa, esses títulos são extremamente desafiadores para a IA. A latência na análise visual significa que, enquanto o AI ainda “reflete” sobre os movimentos do chefe, o personagem já morreu. Reações em milissegundos representam o limite natural da lógica de interação do modelo.

05 Por que 《Pokémon》 se tornou a pedra de toque da IA?

Hoje, 《Pokémon》 está se tornando uma referência não oficial, mas altamente convincente, na avaliação de IA.

Modelos da Anthropic, OpenAI e Google, com transmissões ao vivo no Twitch, atraíram dezenas de milhares de comentários. O Google detalhou o progresso no jogo em seu relatório técnico, e Pichai mencionou publicamente essa conquista na conferência I/O. A Anthropic criou uma área de demonstração “Claude joga Pokémon” em eventos do setor.

“Somos um grupo de entusiastas de tecnologia,” admite David Hershey, chefe de aplicação de IA na Anthropic. “Mas isso não é só entretenimento.”

Diferente de testes pontuais tradicionais, 《Pokémon》 permite acompanhar continuamente o raciocínio, as decisões e o progresso de objetivos do modelo por longos períodos, mais próximo das tarefas complexas que os humanos desejam que a IA execute na vida real.

Até o momento, os desafios da IA em 《Pokémon》 continuam. Mas esses obstáculos recorrentes delineiam claramente as fronteiras de capacidades que a inteligência artificial geral ainda não conseguiu ultrapassar.

Contribuição especial de 无忌 na tradução deste artigo

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)