Світові провідні великі моделі не можуть пройти «Покемон»: ці ігри — кошмар для ШІ

null\n\nАвтор: Го Сяоцін, Tencent Technology\n\nРедактор|Сюй Ціньян\n\nСвітові провідні моделі штучного інтелекту можуть скласти іспит на медичну ліцензію, писати складний код і навіть перемагати людських експертів у математичних змаганнях, але у дитячій грі «Покемон» вони неодноразово зазнавали поразки.\n\nЦя яскрава спроба розпочалася у лютому 2025 року, коли один із дослідників Anthropic провів трансляцію на Twitch під назвою «Claude грає у «Покемон Червоний»», щоб відзначити випуск Claude Sonnet 3.7.\n\nУ трансляції взяли участь 2000 глядачів. У спільному чаті вони радили та підтримували Claude, і ця трансляція поступово перетворилася на публічне спостереження за можливостями ШІ.\n\nSonnet 3.7 може «грати» у «Покемон», але «грати» не означає «перемагати». Він застрягає на ключових етапах на десятки годин і робить низькоякісні помилки, яких навіть дитячі гравці не допустили б.\n\nЦе не перша спроба Claude.\n\nРанні версії показували ще гірші результати: одні блукали без цілі по карті, інші потрапляли у нескінченні цикли, а деякі навіть не могли покинути новачківську селище.\n\nНавіть з покращеними можливостями Claude Opus 4.5 іноді допускала дивні помилки. Один раз вона крутилася навколо «зовнішнього тренажерного залу» цілих чотири дні, так і не зайшовши всередину, бо просто не усвідомлювала, що потрібно зрубати дерево, яке заважає на перехресті.\n\nЧому дитяча гра стала «провалом» для ШІ?\n\nБо «Покемон» вимагає саме тих навичок, яких сучасний ШІ найсильніше бракує: постійного аналізу у відкритому світі без чітких інструкцій, запам’ятовування рішень кілька годин тому, розуміння прихованих причинно-наслідкових зв’язків, довгострокового планування серед сотень можливих дій.\n\nЦі завдання легко виконати восьмирічній дитині, але для моделей ШІ, що позиціонують себе як «перевершують людину», це — неподоланна прірва.\n\n01 Різниця у наборах інструментів визначає успіх?\n\nУ порівнянні з цим, Google Gemini 2.5 Pro у травні 2025 року успішно пройшла схожу складність у «Покемон». Генеральний директор Google Сундар Пічаї навіть у публічних виступах жартома зазначив, що компанія зробила крок у створенні «штучного інтелекту для Покемонів».\n\nОднак цей результат не можна пояснити лише тим, що модель Gemini «розумніша».\n\nКлючова різниця — у наборах інструментів, які використовуються моделлю. Незалежний розробник Джоел Чжан, відповідальний за трансляцію «Покемон» від Gemini, порівняв ці інструменти з «бронею Железного Людини»: ШІ не входить у гру голим, а знаходиться у системі, що може викликати різні зовнішні можливості.\n\nНабір інструментів Gemini пропонує більше підтримки, наприклад, перетворює ігровий знімок у текст, щоб компенсувати слабкість моделі у візуальному розумінні, і надає інструменти для розв’язання головоломок і планування маршрутів. У порівнянні, набір інструментів Claude є більш мінімалістичним, і його спроби більш безпосередньо відображають реальні можливості моделі у сприйнятті, логіці та виконанні.\n\nУ повсякденних завданнях ці різниці майже не помітні.\n\nКоли користувачі звертаються до чат-бота з запитами, що вимагають підключення до інтернету, модель автоматично використовує пошукові інструменти. Але у довготривалих завданнях, таких як «Покемон», різниця у наборах інструментів стає вирішальною.\n\n02 Покрокова гра виявляє «довгострокову пам’ять» ШІ\n\nОскільки «Покемон» використовує строгий покроковий режим і не вимагає миттєвої реакції, вона стала ідеальним «полем для тренувань» для тестування ШІ. На кожному кроці ШІ потрібно поєднати поточне зображення, цільовий запит і доступні дії для логічного висновку, наприклад, натиснути «A».\n\nЦе — саме той тип взаємодії, у якому найкращі мовні моделі проявляють себе.\n\nПроблема у «пробілі» у часі. Хоча Claude Opus 4.5 уже працює понад 500 годин і виконує близько 170 000 кроків, через перезавантаження після кожної дії модель може шукати підказки лише у дуже вузькому контексті. Це робить її схожою на людину, що пам’ятає лише короткий відрізок інформації, і не здатну зробити якісний перехід від кількісних змін до якісних у досвіді.\n\nУ сферах шахів і го ШІ давно перевершив людину, але ці системи — високоточно налаштовані під конкретні завдання. У порівнянні, Gemini, Claude і GPT — універсальні моделі, які часто перемагають людину у тестах і змаганнях з програмування, але у дитячих іграх зазнають поразки.\n\nЦя контрастність сама по собі дуже повчальна.\n\nЗа словами Джоела Чжана, головна проблема ШІ — у неспроможності довго виконувати одну чітку ціль. «Якщо ви хочете, щоб агент виконав справжню роботу, він не повинен забувати, що робив п’ять хвилин тому», — зазначає він.\n\nЦя здатність — необхідна передумова для автоматизації когнітивної праці.\n\nСамотужки дослідник Пітер Відден дав більш наочне пояснення. Він відкрив вихідний код алгоритму для «Покемон» на основі традиційного ШІ. «ШІ майже все знає про «Покемон», — каже він, — він тренувався на масивних даних людства і знає правильні відповіді. Але при виконанні він стає незграбним.»\n\nУ грі ця «знає, але не може зробити» різниця постійно посилюється: модель може знати, що потрібно знайти певний предмет, але не може стабільно визначити його на двовимірній карті; знає, що потрібно поговорити з NPC, але у процесі руху по піксель-місту постійно зазнає невдач.\n\n03 Розвиток можливостей: нездоланна «інстинктивна» прірва\n\nПопри це, прогрес ШІ очевидний. Claude Opus 4.5 значно покращилася у самозаписі та візуальному розумінні, що дозволило їй просуватися у грі далі. Gemini 3 Pro після проходження «Покемон Синій» успішно завершила «Покемон Кристал», не програвши жодної битви. Це — те, чого не досягала Gemini 2.5 Pro.\n\nТакож Anthropic випустила набір інструментів Claude Code, що дозволяє моделі писати і запускати власний код, і вже використовує його у таких класичних іграх, як «Тисячоліття», і, за повідомленнями, успішно керує віртуальним парком розваг.\n\nЦі приклади демонструють несподівану реальність: ШІ з правильним набором інструментів може бути надзвичайно ефективним у сферах розробки програмного забезпечення, бухгалтерії, юридичного аналізу, хоча й залишатися слабким у завданнях, що вимагають миттєвої реакції.\n\nЕксперименти з «Покемоном» також виявили ще один цікавий факт: моделі, навчені на людських даних, проявляють поведінку, близьку до людської.\n\nУ технічному звіті Gemini 2.5 Pro Google зазначає, що коли система імітує «стан паніки», наприклад, коли покемон майже знепритомніє, якість її логіки суттєво знижується.\n\nКоли Gemini 3 Pro у кінцевому підсумку пройшла «Покемон Синій», вона залишила собі невелкий коментар, що не є обов’язковим для задачі: «Щоб поетично завершити, я повернуся до свого початкового дому, щоб останній раз поспілкуватися з мамою і «зробити перерву» у ролі.»\n\nЗа словами Джоела Чжана, ця поведінка була несподіваною і навіть містила елементи людської емоційної проекції.\n\n04 «Цифровий довгий шлях» ШІ: не лише «Покемон»\n\n«Покемон» — не єдиний приклад. У прагненні створити загальний штучний інтелект (AGI) розробники виявили, що навіть якщо ШІ успішно проходить судові іспити, він все одно стикається з непереборними «провалами» у таких складних іграх, як:\n\n«NetHack»: безодня правил\n\nЦя гра 80-х років — справжній кошмар для дослідників ШІ. Вона має сильну випадковість і механізм «постійної смерті». Facebook AI Research виявили, що навіть якщо модель може писати код, у грі «NetHack», що вимагає логіки і довгострокового планування, вона працює гірше за початківця.\n\n«Мій світ»: зникнення цілі\n\nХоча ШІ вже може робити дерев’яні кирки і навіть добувати діаманти, «знищити кінця світу» — ще фантазія. У відкритому світі ШІ часто забуває свою початкову мету під час довгих годин збору ресурсів або заблукає у складних навігаціях.\n\n«Starcraft II»: розрив між універсальністю і спеціалізацією\n\nХоча моделі, натреновані для змагань з професіоналами, перемагали їх, але якщо дати Claude або Gemini керувати через візуальні команди, вони швидко зазнають краху. У боротьбі з «туманом війни» і балансом мікро- і макро-управління, універсальні моделі ще слабкі.\n\n«Тисячоліття»: дисбаланс між мікро- і макро-управлінням\n\nУправління парком розваг вимагає слідкувати за тисячами відвідувачів. Навіть Claude Code з базовими навичками управління легко втомлюється при великих фінансових кризах або раптових аваріях. Кожна помилка у логіці може призвести до банкрутства парку.\n\n«Elden Ring» і «Sekiro»: розрив у фізичній реакції\n\nЦі ігри з високою фізичною активністю дуже складні для ШІ. Затримки у візуальній обробці означають, що коли ШІ ще «розмірковує» про рух босса, персонаж уже може бути вбитий. Вимоги до реакції у мілісекундах створюють природний обмежувач для логіки взаємодії моделі.\n\n05 Чому «Покемон» став тестовим майданчиком для ШІ?\n\nЗараз «Покемон» поступово стає неофіційним, але дуже переконливим тестом для оцінки можливостей ШІ.\n\nМоделі Anthropic, OpenAI і Google у трансляціях на Twitch зібрали сотні тисяч коментарів. У технічних звітах Google детально описує прогрес Gemini у грі, а Пічаї на конференції I/O відкрито говорив про цей успіх. Anthropic навіть створила демонстраційний майданчик «Claude грає у Покемон».\n\n«Ми — група ентузіастів високих технологій», — зізнається керівник відділу AI Anthropic Дейвід Херші. — «Але це не лише розвага». \n\nНа відміну від традиційних тестів з короткими питаннями, «Покемон» дозволяє довго відстежувати логіку, рішення та цілі моделі, що наближає його до реальних складних завдань, які ставлять перед ШІ у світі.\n\nПоки що виклики у «Покемоні» тривають. Але саме ці повторювані труднощі чітко окреслюють межі здатностей загального штучного інтелекту.\n\nАвторський переклад 無忌 також зробив внесок у цю статтю

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити