Các mô hình lớn hàng đầu thế giới, không thể vượt qua 《Bảo Bảo Vương》: Những trò chơi này đều là cơn ác mộng của AI

null\n\nTác giả: Guo Xiaojing, Tencent Technology\n\nBiên tập|Xu Qingyang\n\nCác mô hình AI hàng đầu thế giới có thể vượt qua kỳ thi cấp phép y tế, viết mã phức tạp, thậm chí đánh bại các chuyên gia nhân loại trong các cuộc thi toán học, nhưng lại liên tục thất bại trong một trò chơi trẻ em 《Pokémon》.\n\nNỗ lực gây chú ý này bắt đầu từ tháng 2 năm 2025, khi một nhà nghiên cứu của Anthropic phát sóng trực tiếp trên Twitch với tên gọi “Claude chơi 《Pokémon đỏ》”, nhằm kỷ niệm ra mắt Claude Sonnet 3.7.\n\nHàng nghìn khán giả đổ vào phòng phát sóng. Trong khu vực trò chuyện công khai, khán giả góp ý, cổ vũ Claude, khiến buổi phát sóng dần biến thành một cuộc quan sát công khai về khả năng AI.\n\nSonnet 3.7 chỉ có thể nói là “chơi” 《Pokémon》, nhưng “chơi” không đồng nghĩa với “thắng”. Nó sẽ bị mắc kẹt hàng chục giờ tại các điểm then chốt, thậm chí mắc các lỗi sơ đẳng mà cả trẻ em chơi game cũng không phạm phải.\n\nĐây không phải là lần đầu Claude thử sức.\n\nPhiên bản ban đầu thể hiện còn tệ hơn nhiều: có cái đi lang thang vô mục đích trên bản đồ, có cái rơi vào vòng lặp vô hạn, thậm chí còn không thể thoát khỏi làng mới.\n\nNgay cả Claude Opus 4.5, với khả năng được nâng cấp rõ rệt, vẫn mắc những sai lầm khó hiểu. Có lần, nó đã đi vòng quanh ngoài “đội huấn luyện viên” suốt bốn ngày mà vẫn không thể vào trong, nguyên nhân chỉ đơn giản là không nhận ra cần phải chặt đổ một cây chắn đường.\n\nTại sao một trò chơi dành cho trẻ em lại trở thành thất bại của AI?\n\nBởi vì 《Pokémon》 đòi hỏi chính xác những khả năng mà AI hiện nay thiếu nhất: liên tục suy luận trong thế giới mở không rõ ràng, ghi nhớ các quyết định từ vài giờ trước, hiểu các mối quan hệ nhân quả ngầm, và lập kế hoạch dài hạn trong hàng trăm hành động có thể.\n\nNhững điều này dễ dàng đối với trẻ 8 tuổi, nhưng lại là một rào cản không thể vượt qua đối với các mô hình AI tự xưng “vượt trội hơn con người”.\n\n01 Khoảng cách bộ công cụ quyết định thành bại?\n\nSo sánh, Gemini 2.5 Pro của Google đã thành công vượt qua một trò chơi 《Pokémon》 có độ khó tương đương vào tháng 5 năm 2025. CEO Sundar Pichai của Google còn đùa rằng công ty đã tiến một bước trong việc xây dựng “trí tuệ Pokémon nhân tạo”.\n\nTuy nhiên, kết quả này không thể đơn giản quy cho việc mô hình Gemini “thông minh hơn”.\n\nĐiểm khác biệt chính nằm ở bộ công cụ mà mô hình sử dụng. Nhà phát triển độc lập Joel Zhang, người vận hành livestream 《Pokémon》 của Gemini, ví bộ công cụ như một bộ “giáp Iron Man”: AI không vào game trong trạng thái trần trụi, mà được đặt trong một hệ thống có thể gọi các khả năng bên ngoài.\n\nBộ công cụ của Gemini cung cấp nhiều hỗ trợ hơn, ví dụ như chuyển đổi hình ảnh trò chơi thành văn bản để bù đắp điểm yếu về hiểu biết thị giác của mô hình, và cung cấp các công cụ giải đố, lập kế hoạch đường đi tùy chỉnh. Trong khi đó, bộ công cụ của Claude đơn giản hơn nhiều, phản ánh trực tiếp khả năng cảm nhận, suy luận và thực thi của mô hình.\n\nTrong các nhiệm vụ hàng ngày, sự khác biệt này không rõ ràng.\n\nKhi người dùng yêu cầu chatbot truy vấn qua mạng, mô hình cũng tự động gọi công cụ tìm kiếm. Nhưng trong các nhiệm vụ dài hạn như 《Pokémon》, sự khác biệt về bộ công cụ lại được phóng đại đến mức quyết định thắng thua.\n\n02 Trò chơi theo lượt phơi bày điểm yếu “ghi nhớ dài hạn” của AI\n\nVì 《Pokémon》 theo lượt nghiêm ngặt và không yêu cầu phản ứng tức thì, nó trở thành “sân chơi” lý tưởng để thử nghiệm AI. Trong mỗi bước, AI chỉ cần kết hợp hình ảnh hiện tại, gợi ý mục tiêu và các hành động có thể để suy luận, rồi xuất ra lệnh rõ ràng như “nhấn A”.\n\nĐiều này dường như là dạng tương tác mà các mô hình ngôn ngữ lớn rất giỏi.\n\nVấn đề nằm ở “khoảng cách” theo chiều thời gian. Dù Claude Opus 4.5 đã chạy hơn 500 giờ, thực hiện khoảng 170.000 bước, nhưng do mỗi bước đều phải khởi động lại, mô hình chỉ có thể tìm kiếm manh mối trong một khung ngữ cảnh rất hẹp. Cơ chế này khiến nó giống như một người mất trí nhớ, dựa vào ghi chú để duy trì nhận thức, lặp đi lặp lại trong các mảnh thông tin rời rạc, không thể đạt được bước nhảy từ lượng sang chất như con người thật sự.\n\nTrong các lĩnh vực như cờ vua, cờ vây, AI đã vượt qua con người, nhưng các hệ thống này đều được tùy chỉnh cho nhiệm vụ cụ thể. Ngược lại, Gemini, Claude và GPT là các mô hình tổng quát, thường xuyên đánh bại con người trong thi cử, thi lập trình, nhưng lại liên tục thất bại trong một trò chơi dành cho trẻ em.\n\nSự đối lập này chính là một bài học sâu sắc.\n\nTheo Joel Zhang, thách thức cốt lõi của AI là không thể duy trì thực hiện một mục tiêu rõ ràng trong thời gian dài. “Nếu bạn muốn trí tuệ nhân tạo hoàn thành công việc thực sự, nó không thể quên những gì đã làm cách đây năm phút,” ông nhấn mạnh.\n\nVà khả năng này chính là tiền đề không thể thiếu để tự động hóa các công việc nhận thức.\n\nNhà nghiên cứu độc lập Peter Whidden mô tả rõ hơn: ông đã mở mã nguồn một thuật toán 《Pokémon》 dựa trên AI truyền thống. “AI gần như biết tất cả về 《Pokémon》,” ông nói, “Nó được huấn luyện trên lượng dữ liệu khổng lồ của con người, rõ ràng biết đáp án đúng. Nhưng khi đến giai đoạn thực thi, lại tỏ ra vụng về.”\n\nTrong game, khoảng cách giữa “biết nhưng không làm được” này ngày càng rõ rệt: mô hình có thể biết cần tìm một vật phẩm nào đó, nhưng không thể định vị ổn định trên bản đồ hai chiều; biết phải nói chuyện với NPC, nhưng trong các di chuyển pixel chính xác lại thất bại liên tục.\n\n03 Tiến trình khả năng: khoảng cách “bản năng” chưa vượt qua\n\nDù vậy, tiến bộ của AI vẫn rõ rệt. Claude Opus 4.5 rõ ràng vượt trội hơn các thế hệ trước về khả năng tự ghi chép và hiểu hình ảnh, giúp tiến xa hơn trong trò chơi. Gemini 3 Pro sau khi vượt qua 《Pokémon xanh》 còn hoàn thành 《Pokémon Crystal》 với độ khó cao hơn, và không thua trận nào trong toàn bộ quá trình. Đây là điều Gemini 2.5 Pro chưa từng làm được.\n\nCùng lúc đó, Claude Code của Anthropic cho phép mô hình viết và chạy mã của chính nó, đã được dùng để chơi các trò chơi cổ điển như 《RollerCoaster Tycoon》, và được cho là có thể quản lý thành công các công viên giải trí ảo.\n\nNhững ví dụ này tiết lộ một thực tế không trực quan: AI được trang bị bộ công cụ phù hợp có thể thể hiện hiệu quả cao trong các công việc kiến thức như phát triển phần mềm, kế toán, phân tích pháp lý, dù vẫn còn gặp khó khăn trong các nhiệm vụ đòi hỏi phản ứng thời gian thực.\n\nCác thử nghiệm 《Pokémon》 còn hé lộ một hiện tượng thú vị khác: các mô hình huấn luyện dựa trên dữ liệu con người sẽ thể hiện đặc điểm hành xử gần như con người.\n\nTrong báo cáo kỹ thuật của Gemini 2.5 Pro, Google chỉ ra rằng khi hệ thống mô phỏng trạng thái “hoảng loạn”, như Pokémon sắp ngất xỉu, khả năng suy luận của mô hình giảm rõ rệt.\n\nKhi Gemini 3 Pro cuối cùng vượt qua 《Pokémon xanh》, nó để lại một ghi chú không bắt buộc cho nhiệm vụ: “Để kết thúc một cách thơ mộng, tôi sẽ trở về nhà ban đầu, nói chuyện lần cuối với mẹ, để nhân vật nghỉ hưu.”\n\nTheo Joel Zhang, hành động này khiến ông bất ngờ, còn mang đậm nét cảm xúc kiểu con người.\n\n04 “Chặng đường dài số” của AI còn xa mới vượt qua, không chỉ là 《Pokémon》\n\n《Pokémon》 không phải là trường hợp duy nhất. Trên con đường hướng tới trí tuệ nhân tạo tổng quát (AGI), các nhà phát triển nhận thấy rằng, ngay cả khi AI có thể đứng đầu trong kỳ thi pháp lý, trong các trò chơi phức tạp sau đây, vẫn còn những “thất bại” không thể vượt qua.\n\n《NetHack》: Vực sâu của quy tắc\n\nTrò chơi mê cung thập niên 80 này là “ác mộng” của giới nghiên cứu AI. Nó có tính ngẫu nhiên cao và cơ chế “chết vĩnh viễn”. Facebook AI Research phát hiện rằng, dù mô hình có thể viết mã, nhưng trong 《NetHack》 đòi hỏi kiến thức thông thường và lập kế hoạch dài hạn, nó còn kém xa người mới bắt đầu.\n\n《Minecraft》: Mất cảm giác mục tiêu\n\nDù AI đã có thể chế tạo rìu gỗ, thậm chí khai thác kim cương, nhưng “đánh bại Ender Dragon” vẫn còn là điều viễn tưởng. Trong thế giới mở, AI thường quên mục tiêu ban đầu trong quá trình thu thập tài nguyên kéo dài hàng chục giờ, hoặc bị lạc trong các đường đi phức tạp.\n\n《Starcraft II》: Khoảng cách giữa tổng quát và chuyên môn\n\nDù các mô hình tùy chỉnh từng thắng các tuyển thủ chuyên nghiệp, nhưng nếu để Claude hoặc Gemini điều khiển bằng lệnh thị giác, chúng sẽ ngay lập tức sụp đổ. Trong xử lý “mây chiến tranh” và cân bằng giữa thao tác nhỏ và xây dựng chiến lược, các mô hình tổng quát vẫn còn hạn chế.\n\n《RollerCoaster Tycoon》: Mất cân bằng giữa vi mô và vĩ mô\n\nQuản lý công viên giải trí đòi hỏi theo dõi hàng nghìn khách tham quan. Ngay cả Claude Code có khả năng quản lý sơ bộ, cũng dễ bị quá tải khi xử lý các sự cố tài chính lớn hoặc tai nạn đột xuất. Mỗi lần mất tập trung suy luận, sẽ dẫn đến phá sản công viên.\n\n《Elden Ring》 và 《Sekiro》: Khoảng cách phản hồi vật lý\n\nCác trò chơi hành động mạnh này cực kỳ không thân thiện với AI. Hiện tại, độ trễ phân tích hình ảnh khiến khi AI còn đang “suy nghĩ” về hành động của Boss, nhân vật đã chết từ lâu. Yêu cầu phản ứng trong mili giây tạo thành giới hạn tự nhiên cho logic tương tác của mô hình.\n\n05 Tại sao 《Pokémon》 trở thành thước đo thử nghiệm AI?\n\nHiện nay, 《Pokémon》 dần trở thành một tiêu chuẩn thử nghiệm không chính thức nhưng rất thuyết phục trong lĩnh vực đánh giá AI.\n\nCác mô hình của Anthropic, OpenAI và Google đã thu hút hàng trăm nghìn bình luận qua các buổi phát trực tiếp trên Twitch. Google ghi lại chi tiết tiến trình chơi game của Gemini trong báo cáo kỹ thuật, và Pichai đã đề cập công khai tại hội nghị nhà phát triển I/O. Anthropic còn thiết lập khu trưng bày “Claude chơi Pokémon” tại các hội nghị ngành.\n\n“Chúng tôi là một nhóm những người đam mê công nghệ cực kỳ,” Giám đốc ứng dụng AI của Anthropic, David Hershey, thừa nhận. Nhưng ông nhấn mạnh, đây không chỉ là giải trí.\n\nKhác với các tiêu chuẩn đánh giá dựa trên câu hỏi đáp một lần, 《Pokémon》 có thể liên tục theo dõi quá trình suy luận, quyết định và tiến trình mục tiêu của mô hình trong thời gian dài, gần hơn với các nhiệm vụ phức tạp mà con người mong muốn AI thực hiện trong thế giới thực.\n\nCho đến nay, thử thách của AI trong 《Pokémon》 vẫn còn tiếp diễn. Nhưng chính những khó khăn này đã rõ ràng vạch ra các giới hạn khả năng chưa được vượt qua của trí tuệ nhân tạo tổng quát.\n\nBài viết có sự đóng góp của biên tập viên Vô Khi.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim