null\n\n作者:郭晓静,腾讯科技\n\n編集|徐青陽\n\n世界トップクラスのAIモデルは医師免許試験に合格でき、複雑なコードも書き、数学コンテストで人間の専門家を打ち負かすことさえできるが、子供向けゲーム『ポケモン』では何度も挫折している。\n\nこの注目すべき試みは2025年2月に始まった。当時、Anthropicの研究者が「Claudeが『ポケモン赤』をプレイする」Twitchライブ配信を行い、Claude Sonnet 3.7のリリースに合わせたものだ。\n\n2000人の視聴者がライブに殺到し、公共チャットでは観客たちがClaudeに助言や応援を送り、この配信は次第にAIの能力を巡る公開観察へと変貌した。\n\nSonet3.7は『ポケモン』を遊べるレベルには達しているが、「遊べる」=「勝てる」わけではない。重要な局面で数十時間立ち止まり、子供プレイヤーも犯さないような低レベルのミスを繰り返すこともある。\n\nこれはClaudeの初めての挑戦ではない。\n\n初期バージョンのパフォーマンスはさらに悲惨だった。地図上を目的もなく徘徊したり、無限ループに陥ったり、初心者村から出られないケースも多かった。\n\n能力が著しく向上したClaude Opus 4.5でさえ、理解し難いミスを犯すことがある。一例として、「道場の外」をぐるぐる回り続けて4日間も入り口にたどり着けなかったこともあり、その原因は単に交差点の木を倒す必要性に気づかなかっただけだった。\n\nなぜ子供向けゲームがAIの挫折の舞台となったのか?\n\nそれは『ポケモン』が求める能力が、まさに現代AIに最も欠如しているものだからだ。明確な指示がなくてもオープンワールドを推理し続け、数時間前の決定を記憶し、暗黙の因果関係を理解し、数百の行動候補の中から長期的な計画を立てることだ。\n\nこれらは8歳の子供にとっては容易なことだが、「人類を超越する」と謳うAIモデルにとっては越えられない壁である。\n\n01ツールセットの差が勝敗を決める?\n\nそれに比べて、GoogleのGemini 2.5 Proは2025年5月に、難易度の高い『ポケモン』ゲームをクリアした。GoogleのCEOサンダー・ピチャイは公開の場で冗談交じりに、「人工ポケモン知能」の開発に一歩踏み出したと述べた。\n\nしかし、この結果は単にGeminiモデルがより「賢い」からだけでは説明できない。\n\n重要な違いは、モデルが使用するツールセットにある。Geminiの『ポケモン』ライブ配信を担当した独立開発者ジョエル・チャンは、ツールセットを「アイアンマンのアーマー」に例えた。AIは素手でゲームに入るのではなく、多様な外部能力を呼び出せるシステムに置かれているのだ。\n\nGeminiのツールセットは、ゲーム画面をテキストに変換するなど、多くのサポートを提供し、視覚理解の弱点を補い、カスタマイズ可能なパズル解決やルート計画ツールも備えている。一方、Claudeが使うツールセットはよりシンプルであり、その試みはモデル自身の感知、推論、実行の実力をより直接的に反映している。\n\n日常的なタスクでは、この差はあまり目立たない。\n\nユーザーがチャットボットにネット検索を要するリクエストを出すときも、モデルは自動的に検索ツールを呼び出す。しかし、『ポケモン』のような長期的なタスクでは、ツールセットの差が勝敗を左右するほど拡大する。\n\n02ターン制が露呈させるAIの「長期記憶」短所\n\n『ポケモン』は厳格なターン制を採用し、即時反応を必要としないため、AIの「訓練場」として最適だ。AIは各ターンで、現在の画面、目標のヒント、選択可能な操作を組み合わせて推理し、「Aボタンを押す」といった明確な指示を出すだけでよい。\n\nこれは大規模言語モデルが最も得意とするインタラクション形式の一つだ。\n\n問題は時間軸の「断絶」にある。Claude Opus 4.5は累計で500時間以上稼働し、約17万歩を実行しているが、各操作後の再初期化により、モデルは狭いコンテキストウィンドウ内でしか手掛かりを見つけられない。この仕組みは、まるで付箋紙で記憶を維持する忘れっぽい人のようで、断片化した情報の中を循環し続け、真の人間のように経験の質的飛躍を実現できない。\n\nチェスや囲碁などの分野では、AIはすでに人間を超えているが、これらは特定のタスクに高度にカスタマイズされたシステムだ。対して、Gemini、Claude、GPTは汎用モデルであり、試験やプログラミングコンテストでは人間を何度も打ち負かすが、子供向けゲームでは何度も挫折している。\n\nこのギャップ自体が非常に示唆に富む。\n\nジョエル・チャンは、AIの核心的な課題は、長時間にわたり単一の明確な目標を持続的に実行できないことだと考えている。「もしAIに本当の仕事をさせたいなら、5分前に何をしたかを忘れさせてはいけない」と指摘する。\n\nこの能力こそ、認知労働の自動化を実現するために不可欠な前提条件だ。\n\n独立研究者のピーター・ウィデンは、より直感的な説明を行っている。彼は従来のAIを用いた『ポケモン』アルゴリズムをオープンソース化したことがある。「AIは『ポケモン』についてほとんど何でも知っている」と彼は述べる。「大量の人間データで訓練されており、正解も理解している。しかし、実行段階になると、非常に不器用になる。」\n\nゲーム内では、「知っているができない」という断絶が絶えず拡大している。モデルはアイテムを探す必要があることは知っているが、2次元マップ上で安定して位置を特定できない。NPCと会話すべきだと知っているが、ピクセル単位の動きで何度も失敗するのだ。\n\n03能力進化の背後にある:越えられない「本能」ギャップ\n\nそれでも、AIの進歩は明らかだ。Claude Opus 4.5は自己記録と視覚理解において前世代より著しく向上し、ゲーム内でより遠くまで進めるようになった。Gemini 3 Proは『ポケモン青』をクリアした後、より難易度の高い『ポケモン金』もクリアし、全戦闘未敗北を達成した。これはGemini 2.5 Proでは実現し得なかったことだ。\n\nまた、AnthropicがリリースしたClaude Codeツールセットは、モデルが自らコードを書き、実行できるようにし、『シムシティ』などのレトロゲームに利用されている。これにより、仮想テーマパークの管理も成功しているとされる。\n\nこれらの事例は、直感的でない現実を明らかにしている。適切なツールセットを備えたAIは、ソフトウェア開発、会計、法律分析などの知識作業において非常に高い効率を示す可能性があるが、リアルタイム反応を必要とするタスクには依然として難しさが残る。\n\n『ポケモン』実験は、もう一つの興味深い現象も明らかにしている。人間のデータで訓練されたモデルは、人間に近い行動特性を示すことだ。\n\nGoogleの技術報告によると、Gemini 2.5 Proは、「パニック状態」を模倣したとき、例えばポケモンが倒れそうになると、推論の質が著しく低下するという。\n\nまた、Gemini 3 Proが最終的に『ポケモン青』をクリアした際には、自己メモとして「詩的に終わるために、最初の家に戻り、母親と最後の会話をし、キャラクターを引退させる」との一文を残した。これは任務には不要な余談だ。\n\nジョエル・チャンは、この行動は予想外であり、ある種の人間的な感情投影も含んでいると考えている。\n\n04、AIが越えられない「デジタル長征」は『ポケモン』だけにあらず\n\n『ポケモン』は例外ではない。汎用人工知能(AGI)を追求する道のりにおいて、開発者たちは、AIが司法試験でトップに立てても、以下のような複雑なゲームに直面すると、依然として越えられない「滑り台」に直面していることを発見している。\n\n『NetHack』:ルールの深淵\n\n80年代のダンジョンゲームであるこのゲームは、AI研究界の「悪夢」だ。ランダム性が非常に高く、「永久死」メカニズムもある。Facebook AI Researchは、モデルがコードを書けても、『NetHack』のように常識的な論理や長期計画を必要とする場面では、初心者よりも劣ることを発見した。\n\n『マインクラフト』:消えた目的意識\n\n木の斧を作り、ダイヤモンドを掘ることはできても、「エンドラを倒す」ことは幻想にすぎない。オープンワールドでは、AIは長時間の資源収集中に「目的」を忘れたり、複雑なナビゲーションで迷子になったりすることが多い。\n\n『スタークラフト II』:汎用性と専門性の断絶\n\nカスタムモデルはプロプレイヤーに勝ったこともあるが、ClaudeやGeminiに視覚指示を直接与えると、瞬時に崩壊する。戦争の霧の不確実性や、微操作とマクロのバランスを取ることにおいて、汎用モデルは未だに苦戦している。\n\n『シムシティ』:マイクロとマクロの不均衡\n\nテーマパークの管理には、何千人もの来園者の状態を追跡する必要がある。Claude Codeのような初歩的な管理能力を持つモデルでも、大規模な財務崩壊や突発事故に対応する際には疲弊しやすい。推論の断絶が一度でも起これば、テーマパークは破綻する。\n\n『エルデンリング』や『仁王』:物理フィードバックのギャップ\n\nこうした激しいアクションゲームは、AIにとって非常に難しい。現在の視覚解析の遅延により、AIがボスの動作を「考えている」間に、キャラクターはすでに倒れていることもある。ミリ秒単位の反応速度が、モデルのインタラクションロジックの自然な上限を形成している。\n\n05なぜ『ポケモン』がAIの試金石となったのか?\n\n今や、『ポケモン』はAI評価の分野で非公式ながらも非常に説得力のあるテスト基準となりつつある。 \n\nAnthropic、OpenAI、Googleのモデルは、Twitch上の関連ライブ配信で数十万のコメントを集めている。Googleは技術報告でGeminiのゲーム進展を詳細に記録し、ピチャイはI/O開発者会議でこの成果に言及した。Anthropicは業界会議で「Claudeがポケモンをプレイする」展示コーナーも設置している。\n\n「我々は超技術愛好者の集まりだ」と、AnthropicのAI担当者デイビッド・ハーシーは率直に語る。しかし、彼は強調する、「これは単なる娯楽ではない」。\n\n従来の一問一答型の基準とは異なり、『ポケモン』は長時間にわたりモデルの推論、意思決定、目標推進の過程を追跡できる点で、現実世界の人間がAIに求める複雑なタスクにより近い。\n\n現時点でも、AIの『ポケモン』における挑戦は続いているが、これらの繰り返される困難は、汎用人工知能が未だ越えられていない能力の境界を明確に描き出している。\n\n特約翻訳:無忌による寄稿
世界最高峰の大規模モデルでも「ポケモン」をクリアできない:これらのゲームはAIの悪夢
null\n\n作者:郭晓静,腾讯科技\n\n編集|徐青陽\n\n世界トップクラスのAIモデルは医師免許試験に合格でき、複雑なコードも書き、数学コンテストで人間の専門家を打ち負かすことさえできるが、子供向けゲーム『ポケモン』では何度も挫折している。\n\nこの注目すべき試みは2025年2月に始まった。当時、Anthropicの研究者が「Claudeが『ポケモン赤』をプレイする」Twitchライブ配信を行い、Claude Sonnet 3.7のリリースに合わせたものだ。\n\n2000人の視聴者がライブに殺到し、公共チャットでは観客たちがClaudeに助言や応援を送り、この配信は次第にAIの能力を巡る公開観察へと変貌した。\n\nSonet3.7は『ポケモン』を遊べるレベルには達しているが、「遊べる」=「勝てる」わけではない。重要な局面で数十時間立ち止まり、子供プレイヤーも犯さないような低レベルのミスを繰り返すこともある。\n\nこれはClaudeの初めての挑戦ではない。\n\n初期バージョンのパフォーマンスはさらに悲惨だった。地図上を目的もなく徘徊したり、無限ループに陥ったり、初心者村から出られないケースも多かった。\n\n能力が著しく向上したClaude Opus 4.5でさえ、理解し難いミスを犯すことがある。一例として、「道場の外」をぐるぐる回り続けて4日間も入り口にたどり着けなかったこともあり、その原因は単に交差点の木を倒す必要性に気づかなかっただけだった。\n\nなぜ子供向けゲームがAIの挫折の舞台となったのか?\n\nそれは『ポケモン』が求める能力が、まさに現代AIに最も欠如しているものだからだ。明確な指示がなくてもオープンワールドを推理し続け、数時間前の決定を記憶し、暗黙の因果関係を理解し、数百の行動候補の中から長期的な計画を立てることだ。\n\nこれらは8歳の子供にとっては容易なことだが、「人類を超越する」と謳うAIモデルにとっては越えられない壁である。\n\n01ツールセットの差が勝敗を決める?\n\nそれに比べて、GoogleのGemini 2.5 Proは2025年5月に、難易度の高い『ポケモン』ゲームをクリアした。GoogleのCEOサンダー・ピチャイは公開の場で冗談交じりに、「人工ポケモン知能」の開発に一歩踏み出したと述べた。\n\nしかし、この結果は単にGeminiモデルがより「賢い」からだけでは説明できない。\n\n重要な違いは、モデルが使用するツールセットにある。Geminiの『ポケモン』ライブ配信を担当した独立開発者ジョエル・チャンは、ツールセットを「アイアンマンのアーマー」に例えた。AIは素手でゲームに入るのではなく、多様な外部能力を呼び出せるシステムに置かれているのだ。\n\nGeminiのツールセットは、ゲーム画面をテキストに変換するなど、多くのサポートを提供し、視覚理解の弱点を補い、カスタマイズ可能なパズル解決やルート計画ツールも備えている。一方、Claudeが使うツールセットはよりシンプルであり、その試みはモデル自身の感知、推論、実行の実力をより直接的に反映している。\n\n日常的なタスクでは、この差はあまり目立たない。\n\nユーザーがチャットボットにネット検索を要するリクエストを出すときも、モデルは自動的に検索ツールを呼び出す。しかし、『ポケモン』のような長期的なタスクでは、ツールセットの差が勝敗を左右するほど拡大する。\n\n02ターン制が露呈させるAIの「長期記憶」短所\n\n『ポケモン』は厳格なターン制を採用し、即時反応を必要としないため、AIの「訓練場」として最適だ。AIは各ターンで、現在の画面、目標のヒント、選択可能な操作を組み合わせて推理し、「Aボタンを押す」といった明確な指示を出すだけでよい。\n\nこれは大規模言語モデルが最も得意とするインタラクション形式の一つだ。\n\n問題は時間軸の「断絶」にある。Claude Opus 4.5は累計で500時間以上稼働し、約17万歩を実行しているが、各操作後の再初期化により、モデルは狭いコンテキストウィンドウ内でしか手掛かりを見つけられない。この仕組みは、まるで付箋紙で記憶を維持する忘れっぽい人のようで、断片化した情報の中を循環し続け、真の人間のように経験の質的飛躍を実現できない。\n\nチェスや囲碁などの分野では、AIはすでに人間を超えているが、これらは特定のタスクに高度にカスタマイズされたシステムだ。対して、Gemini、Claude、GPTは汎用モデルであり、試験やプログラミングコンテストでは人間を何度も打ち負かすが、子供向けゲームでは何度も挫折している。\n\nこのギャップ自体が非常に示唆に富む。\n\nジョエル・チャンは、AIの核心的な課題は、長時間にわたり単一の明確な目標を持続的に実行できないことだと考えている。「もしAIに本当の仕事をさせたいなら、5分前に何をしたかを忘れさせてはいけない」と指摘する。\n\nこの能力こそ、認知労働の自動化を実現するために不可欠な前提条件だ。\n\n独立研究者のピーター・ウィデンは、より直感的な説明を行っている。彼は従来のAIを用いた『ポケモン』アルゴリズムをオープンソース化したことがある。「AIは『ポケモン』についてほとんど何でも知っている」と彼は述べる。「大量の人間データで訓練されており、正解も理解している。しかし、実行段階になると、非常に不器用になる。」\n\nゲーム内では、「知っているができない」という断絶が絶えず拡大している。モデルはアイテムを探す必要があることは知っているが、2次元マップ上で安定して位置を特定できない。NPCと会話すべきだと知っているが、ピクセル単位の動きで何度も失敗するのだ。\n\n03能力進化の背後にある:越えられない「本能」ギャップ\n\nそれでも、AIの進歩は明らかだ。Claude Opus 4.5は自己記録と視覚理解において前世代より著しく向上し、ゲーム内でより遠くまで進めるようになった。Gemini 3 Proは『ポケモン青』をクリアした後、より難易度の高い『ポケモン金』もクリアし、全戦闘未敗北を達成した。これはGemini 2.5 Proでは実現し得なかったことだ。\n\nまた、AnthropicがリリースしたClaude Codeツールセットは、モデルが自らコードを書き、実行できるようにし、『シムシティ』などのレトロゲームに利用されている。これにより、仮想テーマパークの管理も成功しているとされる。\n\nこれらの事例は、直感的でない現実を明らかにしている。適切なツールセットを備えたAIは、ソフトウェア開発、会計、法律分析などの知識作業において非常に高い効率を示す可能性があるが、リアルタイム反応を必要とするタスクには依然として難しさが残る。\n\n『ポケモン』実験は、もう一つの興味深い現象も明らかにしている。人間のデータで訓練されたモデルは、人間に近い行動特性を示すことだ。\n\nGoogleの技術報告によると、Gemini 2.5 Proは、「パニック状態」を模倣したとき、例えばポケモンが倒れそうになると、推論の質が著しく低下するという。\n\nまた、Gemini 3 Proが最終的に『ポケモン青』をクリアした際には、自己メモとして「詩的に終わるために、最初の家に戻り、母親と最後の会話をし、キャラクターを引退させる」との一文を残した。これは任務には不要な余談だ。\n\nジョエル・チャンは、この行動は予想外であり、ある種の人間的な感情投影も含んでいると考えている。\n\n04、AIが越えられない「デジタル長征」は『ポケモン』だけにあらず\n\n『ポケモン』は例外ではない。汎用人工知能(AGI)を追求する道のりにおいて、開発者たちは、AIが司法試験でトップに立てても、以下のような複雑なゲームに直面すると、依然として越えられない「滑り台」に直面していることを発見している。\n\n『NetHack』:ルールの深淵\n\n80年代のダンジョンゲームであるこのゲームは、AI研究界の「悪夢」だ。ランダム性が非常に高く、「永久死」メカニズムもある。Facebook AI Researchは、モデルがコードを書けても、『NetHack』のように常識的な論理や長期計画を必要とする場面では、初心者よりも劣ることを発見した。\n\n『マインクラフト』:消えた目的意識\n\n木の斧を作り、ダイヤモンドを掘ることはできても、「エンドラを倒す」ことは幻想にすぎない。オープンワールドでは、AIは長時間の資源収集中に「目的」を忘れたり、複雑なナビゲーションで迷子になったりすることが多い。\n\n『スタークラフト II』:汎用性と専門性の断絶\n\nカスタムモデルはプロプレイヤーに勝ったこともあるが、ClaudeやGeminiに視覚指示を直接与えると、瞬時に崩壊する。戦争の霧の不確実性や、微操作とマクロのバランスを取ることにおいて、汎用モデルは未だに苦戦している。\n\n『シムシティ』:マイクロとマクロの不均衡\n\nテーマパークの管理には、何千人もの来園者の状態を追跡する必要がある。Claude Codeのような初歩的な管理能力を持つモデルでも、大規模な財務崩壊や突発事故に対応する際には疲弊しやすい。推論の断絶が一度でも起これば、テーマパークは破綻する。\n\n『エルデンリング』や『仁王』:物理フィードバックのギャップ\n\nこうした激しいアクションゲームは、AIにとって非常に難しい。現在の視覚解析の遅延により、AIがボスの動作を「考えている」間に、キャラクターはすでに倒れていることもある。ミリ秒単位の反応速度が、モデルのインタラクションロジックの自然な上限を形成している。\n\n05なぜ『ポケモン』がAIの試金石となったのか?\n\n今や、『ポケモン』はAI評価の分野で非公式ながらも非常に説得力のあるテスト基準となりつつある。 \n\nAnthropic、OpenAI、Googleのモデルは、Twitch上の関連ライブ配信で数十万のコメントを集めている。Googleは技術報告でGeminiのゲーム進展を詳細に記録し、ピチャイはI/O開発者会議でこの成果に言及した。Anthropicは業界会議で「Claudeがポケモンをプレイする」展示コーナーも設置している。\n\n「我々は超技術愛好者の集まりだ」と、AnthropicのAI担当者デイビッド・ハーシーは率直に語る。しかし、彼は強調する、「これは単なる娯楽ではない」。\n\n従来の一問一答型の基準とは異なり、『ポケモン』は長時間にわたりモデルの推論、意思決定、目標推進の過程を追跡できる点で、現実世界の人間がAIに求める複雑なタスクにより近い。\n\n現時点でも、AIの『ポケモン』における挑戦は続いているが、これらの繰り返される困難は、汎用人工知能が未だ越えられていない能力の境界を明確に描き出している。\n\n特約翻訳:無忌による寄稿