Ведущие мировые модели ИИ могут сдавать медицинские экзамены, писать сложный код и даже побеждать экспертов-человеков на математических олимпиадах, но при этом неоднократно терпят неудачу в детской игре «Покемон».
Этот яркий эксперимент начался в феврале 2025 года, когда один из исследователей Anthropic запустил трансляцию на Twitch под названием «Claude играет в《Покемон Красный》», приуроченную к выпуску Claude Sonnet 3.7.
2000 зрителей одновременно присоединились к трансляции. В общем чате зрители предлагали идеи, поддерживали и подбадривали Claude, превращая этот стрим в публичное наблюдение за возможностями ИИ.
Sonnet 3.7 умеет играть в «Покемон», но «уметь играть» — не значит «мочь выиграть». Он застревал на ключевых этапах на десятки часов и допускал элементарные ошибки, которые даже дети-игроки не совершили бы.
Это не первый опыт Claude.
Ранние версии показывали еще более катастрофичные результаты: одни бродили по карте без цели, другие попадали в бесконечные циклы, а некоторые даже не могли выйти из начальной деревни.
Даже Claude Opus 4.5 с заметным улучшением все равно допускал непонятные ошибки. Однажды он целых четыре дня кружил вокруг «дома-стены» у «дома-стены», так и не войдя внутрь, потому что не заметил, что нужно сбить дерево, мешающее проходу.
Почему детская игра стала для ИИ «падением»?
Потому что «Покемон» требует именно тех навыков, которых сегодня ИИ наиболее недостает: постоянного рассуждения в открытом мире без четких указаний, запоминания решений нескольких часов назад, понимания скрытых причинно-следственных связей, долгосрочного планирования среди сотен возможных действий.
Эти задачи легко решаются восьмилетним детям, но для моделей ИИ, заявляющих о «превзойдении человека», — это непреодолимый разрыв.
01 Разрыв инструментов определяет успех или провал?
В то время как Google Gemini 2.5 Pro успешно прошел сложную игру «Покемон» в мае 2025 года. Генеральный директор Google Сундар Пичаи в шутку отметил, что компания сделала шаг к созданию «искусственного интеллекта-покемона».
Однако этот результат нельзя объяснить только тем, что модель Gemini «умнее».
Ключевое отличие — в используемых инструментах. Независимый разработчик Джоэл Чжан, отвечающий за трансляцию «Покемон» с Gemini, сравнил инструментарий с «панцирем Железного человека»: ИИ не входит в игру голым, а находится в системе, которая может вызывать различные внешние возможности.
Инструментарий Gemini предоставляет больше поддержки, например, преобразует игровой экран в текст, что компенсирует слабость модели в визуальном восприятии, а также включает инструменты для решения головоломок и планирования маршрутов. В отличие от этого, инструменты Claude более просты, и его попытки более прямо отражают реальные возможности модели в восприятии, рассуждении и выполнении.
В повседневных задачах такие различия незаметны.
Когда пользователь обращается к чат-боту с запросом, требующим поиска в интернете, модель автоматически вызывает поисковый инструмент. Но в долгосрочных задачах, таких как «Покемон», разница в инструментах становится решающей.
02 Поэтапная игра выявляет слабость ИИ в «долгосрочной памяти»
Поскольку «Покемон» — это строго поэтапная игра без необходимости мгновенной реакции, она стала отличной «площадкой для тренировок» для тестирования ИИ. В каждом ходе ИИ нужно учитывать текущий экран, подсказки и возможные действия, чтобы вывести команду вроде «нажать A».
Это кажется именно той формой взаимодействия, в которой большие языковые модели особенно сильны.
Проблема в «разрыве» по времени. Несмотря на то, что Claude Opus 4.5 уже работает более 500 часов и совершил около 170 тысяч шагов, из-за перезагрузки после каждого действия модель может искать подсказки только в очень узком контекстном окне. Эта механика делает ее похожей на забывчивого человека, который держит информацию на стикерах, циклично просматривая фрагменты, и не способен перейти к качественно новым знаниям, как это делают настоящие игроки.
В таких областях, как шахматы и го, ИИ давно превосходит человека, но эти системы специально адаптированы под конкретные задачи. В отличие от них, модели Gemini, Claude и GPT — универсальные, и хотя они часто побеждают человека в экзаменах и конкурсах программирования, в детских играх терпят неудачи.
Этот контраст очень поучителен.
Джоэл Чжан считает, что основная проблема ИИ — неспособность долгое время выполнять одну четкую задачу. «Если вы хотите, чтобы агент реально что-то делал, он не должен забывать, что делал пять минут назад», — говорит он.
Эта способность — необходимое условие автоматизации когнитивной работы.
Самостоятельный исследователь Питер Виден дал более наглядное описание. Он опубликовал открытый алгоритм «Покемона» на базе традиционного ИИ. «ИИ почти всё знает о «Покемоне», — говорит он, — он обучен на огромных данных о людях и знает правильные ответы. Но при выполнении он оказывается неуклюжим».
В игре эта «знание, но неспособность действовать» проявляется особенно ярко: модель может знать, что нужно искать предмет, но не может стабильно определить его местоположение на двумерной карте; знает, что нужно общаться с NPC, но при движении по пикселям постоянно ошибается.
03 За пределами возможностей: непреодолимый «инстинкт» и «врожденные» барьеры
Тем не менее, прогресс ИИ очевиден. Claude Opus 4.5 заметно лучше в саморегистрации и визуальном понимании, что позволяет ему проходить дальше в игре. Gemini 3 Pro после прохождения «Покемона синим» успешно завершил более сложную «Покемон кристалл», не проиграв ни одной битвы — такого не было у Gemini 2.5 Pro.
Также Anthropic выпустила инструментарий Claude Code, позволяющий модели писать и запускать собственный код, и он уже используется в таких ретро-играх, как «Тираннозавр», — сообщают, что он успешно управляет виртуальным парком развлечений.
Эти случаи показывают непрямую, но важную истину: модели с правильным набором инструментов могут показывать очень высокую эффективность в разработке программного обеспечения, бухгалтерии, юридическом анализе и других знаниях, даже если они не справляются с задачами, требующими мгновенной реакции.
Эксперименты с «Покемоном» также выявили интересный феномен: модели, обученные на данных человека, проявляют поведенческие черты, близкие к человеческим.
В техническом отчете Gemini 2.5 Pro Google отмечает, что при моделировании «паники», например, когда покемон почти падает в обморок, качество рассуждений резко снижается.
Когда Gemini 3 Pro прошел «Покемон синим», он оставил себе заметку, не являющуюся частью задачи: «Чтобы закончить поэтично, я вернусь в свой дом, чтобы последний раз поговорить с мамой и вывести персонажа на пенсию».
Джоэл Чжан считает, что это поведение неожиданное и даже содержит элемент человеческой эмоциональной проекции.
04 Невыполнимый «длинный марш» ИИ — это не только «Покемон»
«Покемон» — не единственный пример. В пути к созданию общего искусственного интеллекта (AGI) разработчики обнаружили, что даже если ИИ показывает отличные результаты на юридических экзаменах, он все равно сталкивается с непреодолимыми «падениями» в сложных играх.
«NetHack»: бездны правил
Эта игра 80-х годов — настоящий кошмар для исследований ИИ. Ее высокая случайность и механизм «вечной смерти» делают ее очень сложной. Facebook AI Research обнаружил, что даже умея писать код, модель в «NetHack» показывает результаты значительно хуже, чем начинающие люди.
«Minecraft»: исчезновение цели
Хотя ИИ уже умеет делать деревянные кирки и добывать алмазы, «победить» Вечное Зелье — пока фантазия. В открытом мире ИИ часто забывает о первоначальной цели в процессе долгого сбора ресурсов или теряется в сложных навигациях.
«Starcraft II»: разрыв между универсальностью и специализацией
Несмотря на то, что специально обученные модели побеждали профессиональных игроков, если дать Claude или Gemini управлять игрой по визуальным указаниям, они мгновенно провалятся. В условиях «тумана войны» и необходимости балансировать микро- и макро-управление, универсальные модели пока не справляются.
«Theme Park Tycoon»: дисбаланс микро- и макроуправления
Управление парком развлечений требует отслеживания состояния тысяч посетителей. Даже Claude Code, обладающий начальными навыками управления, при столкновении с крупными финансовыми кризисами или авариями быстро утомляется. Любая ошибка в рассуждениях может привести к банкротству парка.
«Elden Ring» и «Sekiro»: пропасть физической обратной связи
Эти игры с интенсивными физическими действиями крайне сложны для ИИ. Задержки в визуальной обработке означают, что пока ИИ «думает» о движениях босса, персонаж уже погиб. Требование реакции за миллисекунды — естественный предел взаимодействия модели.
05 Почему «Покемон» стал тестом для ИИ?
Сегодня «Покемон» постепенно превращается в неофициальный, но очень убедительный критерий оценки ИИ.
Модели Anthropic, OpenAI и Google собирают сотни тысяч комментариев на Twitch по этим трансляциям. В техническом отчете Google подробно описывает прогресс Gemini в игре, а Пичаи на конференции I/O публично упомянул об этом достижении. Anthropic даже создала демонстрационный стенд «Claude играет в Покемон» на отраслевых конференциях.
«Мы — группа энтузиастов технологий», — признается руководитель отдела AI в Anthropic Дэвид Хершей. — «Но это не только развлечение».
В отличие от традиционных тестов с разовыми вопросами, «Покемон» позволяет долгое время отслеживать рассуждения, решения и продвижение целей модели, что ближе к реальным задачам, которые люди хотят поручить ИИ.
Пока что вызовы в «Покемоне» продолжаются. Но именно эти повторяющиеся трудности ясно показывают границы возможностей общего искусственного интеллекта, которые еще предстоит преодолеть.
Авторский перевод и редакция: 无忌
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Мировые ведущие большие модели не справляются с «Покемоном»: эти игры — кошмар для ИИ
null
Автор: Го Сяоцзин, Tencent Technology
Редактор|Сюй Циньян
Ведущие мировые модели ИИ могут сдавать медицинские экзамены, писать сложный код и даже побеждать экспертов-человеков на математических олимпиадах, но при этом неоднократно терпят неудачу в детской игре «Покемон».
Этот яркий эксперимент начался в феврале 2025 года, когда один из исследователей Anthropic запустил трансляцию на Twitch под названием «Claude играет в《Покемон Красный》», приуроченную к выпуску Claude Sonnet 3.7.
2000 зрителей одновременно присоединились к трансляции. В общем чате зрители предлагали идеи, поддерживали и подбадривали Claude, превращая этот стрим в публичное наблюдение за возможностями ИИ.
Sonnet 3.7 умеет играть в «Покемон», но «уметь играть» — не значит «мочь выиграть». Он застревал на ключевых этапах на десятки часов и допускал элементарные ошибки, которые даже дети-игроки не совершили бы.
Это не первый опыт Claude.
Ранние версии показывали еще более катастрофичные результаты: одни бродили по карте без цели, другие попадали в бесконечные циклы, а некоторые даже не могли выйти из начальной деревни.
Даже Claude Opus 4.5 с заметным улучшением все равно допускал непонятные ошибки. Однажды он целых четыре дня кружил вокруг «дома-стены» у «дома-стены», так и не войдя внутрь, потому что не заметил, что нужно сбить дерево, мешающее проходу.
Почему детская игра стала для ИИ «падением»?
Потому что «Покемон» требует именно тех навыков, которых сегодня ИИ наиболее недостает: постоянного рассуждения в открытом мире без четких указаний, запоминания решений нескольких часов назад, понимания скрытых причинно-следственных связей, долгосрочного планирования среди сотен возможных действий.
Эти задачи легко решаются восьмилетним детям, но для моделей ИИ, заявляющих о «превзойдении человека», — это непреодолимый разрыв.
01 Разрыв инструментов определяет успех или провал?
В то время как Google Gemini 2.5 Pro успешно прошел сложную игру «Покемон» в мае 2025 года. Генеральный директор Google Сундар Пичаи в шутку отметил, что компания сделала шаг к созданию «искусственного интеллекта-покемона».
Однако этот результат нельзя объяснить только тем, что модель Gemini «умнее».
Ключевое отличие — в используемых инструментах. Независимый разработчик Джоэл Чжан, отвечающий за трансляцию «Покемон» с Gemini, сравнил инструментарий с «панцирем Железного человека»: ИИ не входит в игру голым, а находится в системе, которая может вызывать различные внешние возможности.
Инструментарий Gemini предоставляет больше поддержки, например, преобразует игровой экран в текст, что компенсирует слабость модели в визуальном восприятии, а также включает инструменты для решения головоломок и планирования маршрутов. В отличие от этого, инструменты Claude более просты, и его попытки более прямо отражают реальные возможности модели в восприятии, рассуждении и выполнении.
В повседневных задачах такие различия незаметны.
Когда пользователь обращается к чат-боту с запросом, требующим поиска в интернете, модель автоматически вызывает поисковый инструмент. Но в долгосрочных задачах, таких как «Покемон», разница в инструментах становится решающей.
02 Поэтапная игра выявляет слабость ИИ в «долгосрочной памяти»
Поскольку «Покемон» — это строго поэтапная игра без необходимости мгновенной реакции, она стала отличной «площадкой для тренировок» для тестирования ИИ. В каждом ходе ИИ нужно учитывать текущий экран, подсказки и возможные действия, чтобы вывести команду вроде «нажать A».
Это кажется именно той формой взаимодействия, в которой большие языковые модели особенно сильны.
Проблема в «разрыве» по времени. Несмотря на то, что Claude Opus 4.5 уже работает более 500 часов и совершил около 170 тысяч шагов, из-за перезагрузки после каждого действия модель может искать подсказки только в очень узком контекстном окне. Эта механика делает ее похожей на забывчивого человека, который держит информацию на стикерах, циклично просматривая фрагменты, и не способен перейти к качественно новым знаниям, как это делают настоящие игроки.
В таких областях, как шахматы и го, ИИ давно превосходит человека, но эти системы специально адаптированы под конкретные задачи. В отличие от них, модели Gemini, Claude и GPT — универсальные, и хотя они часто побеждают человека в экзаменах и конкурсах программирования, в детских играх терпят неудачи.
Этот контраст очень поучителен.
Джоэл Чжан считает, что основная проблема ИИ — неспособность долгое время выполнять одну четкую задачу. «Если вы хотите, чтобы агент реально что-то делал, он не должен забывать, что делал пять минут назад», — говорит он.
Эта способность — необходимое условие автоматизации когнитивной работы.
Самостоятельный исследователь Питер Виден дал более наглядное описание. Он опубликовал открытый алгоритм «Покемона» на базе традиционного ИИ. «ИИ почти всё знает о «Покемоне», — говорит он, — он обучен на огромных данных о людях и знает правильные ответы. Но при выполнении он оказывается неуклюжим».
В игре эта «знание, но неспособность действовать» проявляется особенно ярко: модель может знать, что нужно искать предмет, но не может стабильно определить его местоположение на двумерной карте; знает, что нужно общаться с NPC, но при движении по пикселям постоянно ошибается.
03 За пределами возможностей: непреодолимый «инстинкт» и «врожденные» барьеры
Тем не менее, прогресс ИИ очевиден. Claude Opus 4.5 заметно лучше в саморегистрации и визуальном понимании, что позволяет ему проходить дальше в игре. Gemini 3 Pro после прохождения «Покемона синим» успешно завершил более сложную «Покемон кристалл», не проиграв ни одной битвы — такого не было у Gemini 2.5 Pro.
Также Anthropic выпустила инструментарий Claude Code, позволяющий модели писать и запускать собственный код, и он уже используется в таких ретро-играх, как «Тираннозавр», — сообщают, что он успешно управляет виртуальным парком развлечений.
Эти случаи показывают непрямую, но важную истину: модели с правильным набором инструментов могут показывать очень высокую эффективность в разработке программного обеспечения, бухгалтерии, юридическом анализе и других знаниях, даже если они не справляются с задачами, требующими мгновенной реакции.
Эксперименты с «Покемоном» также выявили интересный феномен: модели, обученные на данных человека, проявляют поведенческие черты, близкие к человеческим.
В техническом отчете Gemini 2.5 Pro Google отмечает, что при моделировании «паники», например, когда покемон почти падает в обморок, качество рассуждений резко снижается.
Когда Gemini 3 Pro прошел «Покемон синим», он оставил себе заметку, не являющуюся частью задачи: «Чтобы закончить поэтично, я вернусь в свой дом, чтобы последний раз поговорить с мамой и вывести персонажа на пенсию».
Джоэл Чжан считает, что это поведение неожиданное и даже содержит элемент человеческой эмоциональной проекции.
04 Невыполнимый «длинный марш» ИИ — это не только «Покемон»
«Покемон» — не единственный пример. В пути к созданию общего искусственного интеллекта (AGI) разработчики обнаружили, что даже если ИИ показывает отличные результаты на юридических экзаменах, он все равно сталкивается с непреодолимыми «падениями» в сложных играх.
«NetHack»: бездны правил
Эта игра 80-х годов — настоящий кошмар для исследований ИИ. Ее высокая случайность и механизм «вечной смерти» делают ее очень сложной. Facebook AI Research обнаружил, что даже умея писать код, модель в «NetHack» показывает результаты значительно хуже, чем начинающие люди.
«Minecraft»: исчезновение цели
Хотя ИИ уже умеет делать деревянные кирки и добывать алмазы, «победить» Вечное Зелье — пока фантазия. В открытом мире ИИ часто забывает о первоначальной цели в процессе долгого сбора ресурсов или теряется в сложных навигациях.
«Starcraft II»: разрыв между универсальностью и специализацией
Несмотря на то, что специально обученные модели побеждали профессиональных игроков, если дать Claude или Gemini управлять игрой по визуальным указаниям, они мгновенно провалятся. В условиях «тумана войны» и необходимости балансировать микро- и макро-управление, универсальные модели пока не справляются.
«Theme Park Tycoon»: дисбаланс микро- и макроуправления
Управление парком развлечений требует отслеживания состояния тысяч посетителей. Даже Claude Code, обладающий начальными навыками управления, при столкновении с крупными финансовыми кризисами или авариями быстро утомляется. Любая ошибка в рассуждениях может привести к банкротству парка.
«Elden Ring» и «Sekiro»: пропасть физической обратной связи
Эти игры с интенсивными физическими действиями крайне сложны для ИИ. Задержки в визуальной обработке означают, что пока ИИ «думает» о движениях босса, персонаж уже погиб. Требование реакции за миллисекунды — естественный предел взаимодействия модели.
05 Почему «Покемон» стал тестом для ИИ?
Сегодня «Покемон» постепенно превращается в неофициальный, но очень убедительный критерий оценки ИИ.
Модели Anthropic, OpenAI и Google собирают сотни тысяч комментариев на Twitch по этим трансляциям. В техническом отчете Google подробно описывает прогресс Gemini в игре, а Пичаи на конференции I/O публично упомянул об этом достижении. Anthropic даже создала демонстрационный стенд «Claude играет в Покемон» на отраслевых конференциях.
«Мы — группа энтузиастов технологий», — признается руководитель отдела AI в Anthropic Дэвид Хершей. — «Но это не только развлечение».
В отличие от традиционных тестов с разовыми вопросами, «Покемон» позволяет долгое время отслеживать рассуждения, решения и продвижение целей модели, что ближе к реальным задачам, которые люди хотят поручить ИИ.
Пока что вызовы в «Покемоне» продолжаются. Но именно эти повторяющиеся трудности ясно показывают границы возможностей общего искусственного интеллекта, которые еще предстоит преодолеть.
Авторский перевод и редакция: 无忌