null\n\nPenulis: Guo Xiaojing, Tencent Technology\n\nEditor | Xu Qingyang\n\nModel AI terbaik di dunia dapat mengikuti ujian lisensi medis, menulis kode kompleks, bahkan mengalahkan ahli manusia dalam kompetisi matematika, tetapi sering mengalami kegagalan dalam permainan anak-anak 《Pokémon》.\n\nPercobaan yang menarik perhatian ini dimulai pada Februari 2025, ketika seorang peneliti dari Anthropic melakukan siaran Twitch berjudul “Claude bermain 《Pokémon Merah》”, bersamaan dengan peluncuran Claude Sonnet 3.7.\n\n2000 penonton memadati ruang siaran. Di ruang obrolan umum, penonton memberi saran dan semangat kepada Claude, sehingga siaran ini perlahan berubah menjadi observasi terbuka tentang kemampuan AI.\n\nSonnet 3.7 hanya mampu “bermain” 《Pokémon》, tetapi “bermain” tidak sama dengan “menang”. Ia sering terjebak di titik kritis selama puluhan jam, dan membuat kesalahan tingkat dasar yang bahkan anak-anak pemain pun tidak akan lakukan.\n\nIni bukan kali pertama Claude mencoba.\n\nVersi awalnya jauh dari memuaskan: ada yang berkeliaran tanpa tujuan di peta, ada yang terjebak dalam loop tak berujung, dan lebih parah lagi, ada yang bahkan tidak bisa keluar dari desa pemula.\n\nBahkan Claude Opus 4.5 yang kemampuan meningkat pesat pun masih membuat kesalahan yang membingungkan. Suatu kali, ia berputar-putar di luar “gym” selama empat hari, tetapi tidak pernah masuk, hanya karena tidak menyadari harus menebang pohon yang menghalangi jalan.\n\nMengapa permainan anak-anak ini menjadi batu sandungan AI?\n\nKarena 《Pokémon》 menuntut kemampuan yang saat ini paling kurang dari AI: melakukan penalaran berkelanjutan di dunia terbuka tanpa instruksi jelas, mengingat keputusan beberapa jam sebelumnya, memahami hubungan sebab-akibat tersirat, dan membuat rencana jangka panjang dari ratusan kemungkinan tindakan.\n\nHal-hal ini mudah dilakukan oleh anak berusia 8 tahun, tetapi menjadi jurang tak terlintasi bagi model AI yang mengklaim “melampaui manusia”.\n\n01 Perbedaan alat bantu menentukan keberhasilan?\n\nSebaliknya, Gemini 2.5 Pro dari Google berhasil menyelesaikan 《Pokémon》 yang tingkat kesulitannya setara pada Mei 2025. CEO Google Sundar Pichai bahkan bercanda di depan umum bahwa perusahaan telah melangkah lebih jauh dalam membangun “kecerdasan Pokémon buatan”.\n\nNamun, hasil ini tidak bisa disimpulkan hanya karena model Gemini lebih “cerdas”.\n\nPerbedaan utama terletak pada alat yang digunakan oleh model tersebut. Pengembang independen yang mengelola siaran 《Pokémon》 Gemini, Joel Zhang, menyamakan alat ini seperti “armor Iron Man”: AI tidak masuk ke permainan dengan tangan kosong, melainkan ditempatkan dalam sistem yang dapat memanggil berbagai kemampuan eksternal.\n\nAlat Gemini menyediakan lebih banyak dukungan, seperti mengubah tampilan game menjadi teks untuk mengatasi kelemahan pemahaman visual model, serta menyediakan alat pemecahan teka-teki dan perencanaan jalur yang disesuaikan. Sebaliknya, alat yang digunakan Claude lebih sederhana, dan percobaannya lebih langsung mencerminkan kemampuan nyata model dalam persepsi, penalaran, dan eksekusi.\n\nDalam tugas sehari-hari, perbedaan ini tidak terlalu kentara.\n\nKetika pengguna meminta chatbot untuk melakukan pencarian online, model secara otomatis akan memanggil alat pencarian. Tetapi dalam tugas jangka panjang seperti 《Pokémon》, perbedaan alat ini menjadi sangat penting hingga bisa menentukan keberhasilan.\n\n02 Pertarungan giliran mengungkap kekurangan “memori jangka panjang” AI\n\nKarena 《Pokémon》 menggunakan sistem giliran yang ketat dan tidak memerlukan respons langsung, ini menjadi arena latihan yang sangat baik untuk menguji AI. Dalam setiap langkah, AI cukup menggabungkan tampilan saat ini, petunjuk target, dan opsi yang tersedia untuk melakukan penalaran, lalu mengeluarkan instruksi seperti ‘tekan A’.\n\nIni tampaknya adalah bentuk interaksi yang paling dikuasai oleh model bahasa besar.\n\nMasalahnya terletak pada “kesenjangan” waktu. Meskipun Claude Opus 4.5 telah berjalan lebih dari 500 jam dan melakukan sekitar 170.000 langkah, karena setiap langkah harus diinisialisasi ulang, model hanya dapat mencari petunjuk dalam jendela konteks yang sangat terbatas. Mekanisme ini membuatnya lebih mirip orang yang lupa karena ditempelkan catatan kecil, yang terus-menerus mengulang-ulang informasi fragmentaris, dan tidak pernah mampu melakukan lompatan pengalaman dari kuantitas ke kualitas seperti pemain manusia.\n\nDalam bidang catur dan go, AI sudah melampaui manusia, tetapi sistem ini dirancang khusus untuk tugas tertentu. Sebaliknya, Gemini, Claude, dan GPT sebagai model umum, meskipun sering mengalahkan manusia dalam ujian dan kompetisi pemrograman, sering mengalami kegagalan dalam permainan anak-anak.\n\nPerbedaan ini sendiri sangat menginspirasi.\n\nMenurut Joel Zhang, tantangan utama AI adalah ketidakmampuannya untuk mempertahankan fokus pada satu tujuan yang jelas dalam jangka waktu yang panjang. “Jika kamu ingin agen menyelesaikan pekerjaan nyata, ia tidak boleh lupa apa yang dilakukan lima menit yang lalu,” katanya.\n\nKemampuan ini adalah prasyarat penting untuk otomatisasi pekerjaan kognitif.\n\nPeneliti independen Peter Whidden memberikan gambaran yang lebih langsung. Ia merilis algoritma 《Pokémon》 berbasis AI tradisional secara open source. “AI hampir tahu segalanya tentang 《Pokémon》,” katanya, “Ia dilatih di atas data manusia yang sangat besar, tahu jawaban yang benar. Tapi saat eksekusi, ia tampak sangat canggung.”\n\nDalam permainan, kesenjangan “tahu tapi tidak bisa melakukan” ini semakin diperbesar: model mungkin tahu harus mencari item tertentu, tetapi tidak mampu menempatkan diri secara stabil di peta dua dimensi; tahu harus berbicara dengan NPC, tetapi gagal berulang kali dalam gerakan pixel-level.\n\n03 Perkembangan kemampuan: jurang “insting” yang belum teratasi\n\nMeski demikian, kemajuan AI tetap terlihat jelas. Claude Opus 4.5 secara signifikan lebih baik dalam pencatatan diri dan pemahaman visual dibanding pendahulunya, sehingga mampu melangkah lebih jauh dalam permainan. Gemini 3 Pro setelah menyelesaikan 《Pokémon Biru》, juga menyelesaikan 《Pokémon Kristal》 yang tingkat kesulitannya lebih tinggi, dan tidak pernah kalah dalam satu pertandingan pun. Ini adalah pencapaian yang belum pernah diraih Gemini 2.5 Pro.\n\nSelain itu, Claude yang dirilis oleh Anthropic dengan alat Claude Code memungkinkan model menulis dan menjalankan kode sendiri, dan telah digunakan dalam game klasik seperti 《RollerCoaster Tycoon》, yang diklaim mampu mengelola taman hiburan virtual dengan sukses.\n\nKasus-kasus ini mengungkapkan sebuah kenyataan yang tidak langsung: AI yang dilengkapi alat yang tepat mungkin menunjukkan efisiensi tinggi dalam pekerjaan berbasis pengetahuan seperti pengembangan perangkat lunak, akuntansi, dan analisis hukum, meskipun mereka tetap kesulitan dalam tugas yang memerlukan respons waktu nyata.\n\nEksperimen 《Pokémon》 juga mengungkap fenomena menarik lainnya: model yang dilatih berdasarkan data manusia cenderung menunjukkan karakteristik perilaku manusia.\n\nDalam laporan teknologi Gemini 2.5 Pro, Google menunjukkan bahwa ketika sistem mensimulasikan “kondisi panik”, seperti 《Pokémon》 yang hampir pingsan, kualitas penalaran model menurun secara signifikan.\n\nKetika Gemini 3 Pro akhirnya menyelesaikan 《Pokémon Biru》, ia meninggalkan catatan yang tidak esensial untuk tugas: “Untuk mengakhiri secara puitis, aku akan kembali ke rumah awal, berbicara terakhir dengan ibuku, dan pensiun dari peran ini.”\n\nMenurut Joel Zhang, perilaku ini mengejutkan dan mengandung semacam proyeksi emosi manusia.\n\n04 Perjalanan panjang “digital” yang tak terlampaui AI, jauh lebih dari 《Pokémon》\n\n《Pokémon》 bukan satu-satunya contoh. Dalam upaya mencapai kecerdasan buatan umum (AGI), pengembang menemukan bahwa meskipun AI mampu meraih peringkat teratas dalam ujian hukum, mereka tetap menghadapi “kegagalan” yang sulit dilampaui saat menghadapi berbagai permainan kompleks berikut:\n\n《NetHack》: Jurang aturan\n\nGame dungeon tahun 80-an ini adalah mimpi buruk bagi penelitian AI. Dengan tingkat acak yang tinggi dan mekanisme “kematian permanen”, Facebook AI Research menemukan bahwa meskipun model mampu menulis kode, dalam 《NetHack》 yang membutuhkan logika pengetahuan umum dan perencanaan jangka panjang, performanya jauh di bawah pemula manusia.\n\n《Minecraft》: Hilangnya rasa tujuan\n\nMeskipun AI mampu membuat kapak kayu dan menambang berlian, mengalahkan Ender Dragon secara mandiri masih sebatas angan-angan. Dalam dunia terbuka, AI sering lupa tujuan awal selama proses pengumpulan sumber daya yang berlangsung puluhan jam, atau tersesat total dalam navigasi yang kompleks.\n\n《Starcraft II》: Jurang antara umum dan khusus\n\nMeskipun model yang disesuaikan pernah mengalahkan pemain profesional, jika Claude atau Gemini langsung mengendalikan melalui instruksi visual, mereka akan langsung gagal. Dalam mengatasi ketidakpastian “fog of war”, serta menyeimbangkan mikro dan makro, model umum masih belum mampu.\n\n《RollerCoaster Tycoon》: Ketidakseimbangan mikro dan makro\n\nMengelola taman hiburan membutuhkan pelacakan ribuan pengunjung. Bahkan Claude Code yang memiliki kemampuan manajemen dasar pun mudah kelelahan saat menghadapi keruntuhan keuangan besar atau insiden mendadak. Setiap kesalahan penalaran bisa menyebabkan taman bangkrut.\n\n《Elden Ring》 dan 《Sekiro》: Jurang feedback fisik\n\nGame aksi intensif ini sangat tidak ramah terhadap AI. Delay dalam analisis visual saat ini berarti saat AI masih “berpikir” tentang gerakan bos, karakter sudah mati. Respon dalam hitungan milidetik menjadi batas alami dari logika interaksi model.\n\n05 Mengapa 《Pokémon》 menjadi batu uji AI?\n\nSaat ini, 《Pokémon》 secara perlahan menjadi standar pengujian tidak resmi namun sangat meyakinkan dalam bidang evaluasi AI.\n\nModel dari Anthropic, OpenAI, dan Google dalam siaran Twitch terkait telah menarik ratusan ribu komentar. Laporan teknis Google secara rinci mencatat perkembangan permainan Gemini, dan Pichai menyebutkan pencapaian ini di konferensi pengembang I/O. Anthropic bahkan mengadakan area demonstrasi “Claude bermain Pokémon” di konferensi industri.\n\n“Kami adalah sekelompok penggemar teknologi super,” ungkap David Hershey dari Anthropic. Tapi dia menekankan bahwa ini bukan sekadar hiburan.\n\nBerbeda dari standar pengujian tradisional berbasis tanya jawab, 《Pokémon》 mampu secara berkelanjutan melacak proses penalaran, pengambilan keputusan, dan pencapaian tujuan model dalam waktu yang sangat panjang, yang lebih mendekati tugas kompleks yang diharapkan manusia dari AI di dunia nyata.\n\nHingga saat ini, tantangan AI dalam 《Pokémon》 masih berlanjut. Tetapi, melalui kesulitan yang berulang ini, secara jelas tergambar batas kemampuan yang belum bisa dilampaui oleh kecerdasan buatan umum.\n\nKontributor khusus: Wu Ji, dalam penerjemahan artikel ini juga turut berkontribusi
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model besar terkemuka di dunia, tidak bisa menyelesaikan 《Pokémon》: Game ini adalah mimpi buruk bagi AI
null\n\nPenulis: Guo Xiaojing, Tencent Technology\n\nEditor | Xu Qingyang\n\nModel AI terbaik di dunia dapat mengikuti ujian lisensi medis, menulis kode kompleks, bahkan mengalahkan ahli manusia dalam kompetisi matematika, tetapi sering mengalami kegagalan dalam permainan anak-anak 《Pokémon》.\n\nPercobaan yang menarik perhatian ini dimulai pada Februari 2025, ketika seorang peneliti dari Anthropic melakukan siaran Twitch berjudul “Claude bermain 《Pokémon Merah》”, bersamaan dengan peluncuran Claude Sonnet 3.7.\n\n2000 penonton memadati ruang siaran. Di ruang obrolan umum, penonton memberi saran dan semangat kepada Claude, sehingga siaran ini perlahan berubah menjadi observasi terbuka tentang kemampuan AI.\n\nSonnet 3.7 hanya mampu “bermain” 《Pokémon》, tetapi “bermain” tidak sama dengan “menang”. Ia sering terjebak di titik kritis selama puluhan jam, dan membuat kesalahan tingkat dasar yang bahkan anak-anak pemain pun tidak akan lakukan.\n\nIni bukan kali pertama Claude mencoba.\n\nVersi awalnya jauh dari memuaskan: ada yang berkeliaran tanpa tujuan di peta, ada yang terjebak dalam loop tak berujung, dan lebih parah lagi, ada yang bahkan tidak bisa keluar dari desa pemula.\n\nBahkan Claude Opus 4.5 yang kemampuan meningkat pesat pun masih membuat kesalahan yang membingungkan. Suatu kali, ia berputar-putar di luar “gym” selama empat hari, tetapi tidak pernah masuk, hanya karena tidak menyadari harus menebang pohon yang menghalangi jalan.\n\nMengapa permainan anak-anak ini menjadi batu sandungan AI?\n\nKarena 《Pokémon》 menuntut kemampuan yang saat ini paling kurang dari AI: melakukan penalaran berkelanjutan di dunia terbuka tanpa instruksi jelas, mengingat keputusan beberapa jam sebelumnya, memahami hubungan sebab-akibat tersirat, dan membuat rencana jangka panjang dari ratusan kemungkinan tindakan.\n\nHal-hal ini mudah dilakukan oleh anak berusia 8 tahun, tetapi menjadi jurang tak terlintasi bagi model AI yang mengklaim “melampaui manusia”.\n\n01 Perbedaan alat bantu menentukan keberhasilan?\n\nSebaliknya, Gemini 2.5 Pro dari Google berhasil menyelesaikan 《Pokémon》 yang tingkat kesulitannya setara pada Mei 2025. CEO Google Sundar Pichai bahkan bercanda di depan umum bahwa perusahaan telah melangkah lebih jauh dalam membangun “kecerdasan Pokémon buatan”.\n\nNamun, hasil ini tidak bisa disimpulkan hanya karena model Gemini lebih “cerdas”.\n\nPerbedaan utama terletak pada alat yang digunakan oleh model tersebut. Pengembang independen yang mengelola siaran 《Pokémon》 Gemini, Joel Zhang, menyamakan alat ini seperti “armor Iron Man”: AI tidak masuk ke permainan dengan tangan kosong, melainkan ditempatkan dalam sistem yang dapat memanggil berbagai kemampuan eksternal.\n\nAlat Gemini menyediakan lebih banyak dukungan, seperti mengubah tampilan game menjadi teks untuk mengatasi kelemahan pemahaman visual model, serta menyediakan alat pemecahan teka-teki dan perencanaan jalur yang disesuaikan. Sebaliknya, alat yang digunakan Claude lebih sederhana, dan percobaannya lebih langsung mencerminkan kemampuan nyata model dalam persepsi, penalaran, dan eksekusi.\n\nDalam tugas sehari-hari, perbedaan ini tidak terlalu kentara.\n\nKetika pengguna meminta chatbot untuk melakukan pencarian online, model secara otomatis akan memanggil alat pencarian. Tetapi dalam tugas jangka panjang seperti 《Pokémon》, perbedaan alat ini menjadi sangat penting hingga bisa menentukan keberhasilan.\n\n02 Pertarungan giliran mengungkap kekurangan “memori jangka panjang” AI\n\nKarena 《Pokémon》 menggunakan sistem giliran yang ketat dan tidak memerlukan respons langsung, ini menjadi arena latihan yang sangat baik untuk menguji AI. Dalam setiap langkah, AI cukup menggabungkan tampilan saat ini, petunjuk target, dan opsi yang tersedia untuk melakukan penalaran, lalu mengeluarkan instruksi seperti ‘tekan A’.\n\nIni tampaknya adalah bentuk interaksi yang paling dikuasai oleh model bahasa besar.\n\nMasalahnya terletak pada “kesenjangan” waktu. Meskipun Claude Opus 4.5 telah berjalan lebih dari 500 jam dan melakukan sekitar 170.000 langkah, karena setiap langkah harus diinisialisasi ulang, model hanya dapat mencari petunjuk dalam jendela konteks yang sangat terbatas. Mekanisme ini membuatnya lebih mirip orang yang lupa karena ditempelkan catatan kecil, yang terus-menerus mengulang-ulang informasi fragmentaris, dan tidak pernah mampu melakukan lompatan pengalaman dari kuantitas ke kualitas seperti pemain manusia.\n\nDalam bidang catur dan go, AI sudah melampaui manusia, tetapi sistem ini dirancang khusus untuk tugas tertentu. Sebaliknya, Gemini, Claude, dan GPT sebagai model umum, meskipun sering mengalahkan manusia dalam ujian dan kompetisi pemrograman, sering mengalami kegagalan dalam permainan anak-anak.\n\nPerbedaan ini sendiri sangat menginspirasi.\n\nMenurut Joel Zhang, tantangan utama AI adalah ketidakmampuannya untuk mempertahankan fokus pada satu tujuan yang jelas dalam jangka waktu yang panjang. “Jika kamu ingin agen menyelesaikan pekerjaan nyata, ia tidak boleh lupa apa yang dilakukan lima menit yang lalu,” katanya.\n\nKemampuan ini adalah prasyarat penting untuk otomatisasi pekerjaan kognitif.\n\nPeneliti independen Peter Whidden memberikan gambaran yang lebih langsung. Ia merilis algoritma 《Pokémon》 berbasis AI tradisional secara open source. “AI hampir tahu segalanya tentang 《Pokémon》,” katanya, “Ia dilatih di atas data manusia yang sangat besar, tahu jawaban yang benar. Tapi saat eksekusi, ia tampak sangat canggung.”\n\nDalam permainan, kesenjangan “tahu tapi tidak bisa melakukan” ini semakin diperbesar: model mungkin tahu harus mencari item tertentu, tetapi tidak mampu menempatkan diri secara stabil di peta dua dimensi; tahu harus berbicara dengan NPC, tetapi gagal berulang kali dalam gerakan pixel-level.\n\n03 Perkembangan kemampuan: jurang “insting” yang belum teratasi\n\nMeski demikian, kemajuan AI tetap terlihat jelas. Claude Opus 4.5 secara signifikan lebih baik dalam pencatatan diri dan pemahaman visual dibanding pendahulunya, sehingga mampu melangkah lebih jauh dalam permainan. Gemini 3 Pro setelah menyelesaikan 《Pokémon Biru》, juga menyelesaikan 《Pokémon Kristal》 yang tingkat kesulitannya lebih tinggi, dan tidak pernah kalah dalam satu pertandingan pun. Ini adalah pencapaian yang belum pernah diraih Gemini 2.5 Pro.\n\nSelain itu, Claude yang dirilis oleh Anthropic dengan alat Claude Code memungkinkan model menulis dan menjalankan kode sendiri, dan telah digunakan dalam game klasik seperti 《RollerCoaster Tycoon》, yang diklaim mampu mengelola taman hiburan virtual dengan sukses.\n\nKasus-kasus ini mengungkapkan sebuah kenyataan yang tidak langsung: AI yang dilengkapi alat yang tepat mungkin menunjukkan efisiensi tinggi dalam pekerjaan berbasis pengetahuan seperti pengembangan perangkat lunak, akuntansi, dan analisis hukum, meskipun mereka tetap kesulitan dalam tugas yang memerlukan respons waktu nyata.\n\nEksperimen 《Pokémon》 juga mengungkap fenomena menarik lainnya: model yang dilatih berdasarkan data manusia cenderung menunjukkan karakteristik perilaku manusia.\n\nDalam laporan teknologi Gemini 2.5 Pro, Google menunjukkan bahwa ketika sistem mensimulasikan “kondisi panik”, seperti 《Pokémon》 yang hampir pingsan, kualitas penalaran model menurun secara signifikan.\n\nKetika Gemini 3 Pro akhirnya menyelesaikan 《Pokémon Biru》, ia meninggalkan catatan yang tidak esensial untuk tugas: “Untuk mengakhiri secara puitis, aku akan kembali ke rumah awal, berbicara terakhir dengan ibuku, dan pensiun dari peran ini.”\n\nMenurut Joel Zhang, perilaku ini mengejutkan dan mengandung semacam proyeksi emosi manusia.\n\n04 Perjalanan panjang “digital” yang tak terlampaui AI, jauh lebih dari 《Pokémon》\n\n《Pokémon》 bukan satu-satunya contoh. Dalam upaya mencapai kecerdasan buatan umum (AGI), pengembang menemukan bahwa meskipun AI mampu meraih peringkat teratas dalam ujian hukum, mereka tetap menghadapi “kegagalan” yang sulit dilampaui saat menghadapi berbagai permainan kompleks berikut:\n\n《NetHack》: Jurang aturan\n\nGame dungeon tahun 80-an ini adalah mimpi buruk bagi penelitian AI. Dengan tingkat acak yang tinggi dan mekanisme “kematian permanen”, Facebook AI Research menemukan bahwa meskipun model mampu menulis kode, dalam 《NetHack》 yang membutuhkan logika pengetahuan umum dan perencanaan jangka panjang, performanya jauh di bawah pemula manusia.\n\n《Minecraft》: Hilangnya rasa tujuan\n\nMeskipun AI mampu membuat kapak kayu dan menambang berlian, mengalahkan Ender Dragon secara mandiri masih sebatas angan-angan. Dalam dunia terbuka, AI sering lupa tujuan awal selama proses pengumpulan sumber daya yang berlangsung puluhan jam, atau tersesat total dalam navigasi yang kompleks.\n\n《Starcraft II》: Jurang antara umum dan khusus\n\nMeskipun model yang disesuaikan pernah mengalahkan pemain profesional, jika Claude atau Gemini langsung mengendalikan melalui instruksi visual, mereka akan langsung gagal. Dalam mengatasi ketidakpastian “fog of war”, serta menyeimbangkan mikro dan makro, model umum masih belum mampu.\n\n《RollerCoaster Tycoon》: Ketidakseimbangan mikro dan makro\n\nMengelola taman hiburan membutuhkan pelacakan ribuan pengunjung. Bahkan Claude Code yang memiliki kemampuan manajemen dasar pun mudah kelelahan saat menghadapi keruntuhan keuangan besar atau insiden mendadak. Setiap kesalahan penalaran bisa menyebabkan taman bangkrut.\n\n《Elden Ring》 dan 《Sekiro》: Jurang feedback fisik\n\nGame aksi intensif ini sangat tidak ramah terhadap AI. Delay dalam analisis visual saat ini berarti saat AI masih “berpikir” tentang gerakan bos, karakter sudah mati. Respon dalam hitungan milidetik menjadi batas alami dari logika interaksi model.\n\n05 Mengapa 《Pokémon》 menjadi batu uji AI?\n\nSaat ini, 《Pokémon》 secara perlahan menjadi standar pengujian tidak resmi namun sangat meyakinkan dalam bidang evaluasi AI.\n\nModel dari Anthropic, OpenAI, dan Google dalam siaran Twitch terkait telah menarik ratusan ribu komentar. Laporan teknis Google secara rinci mencatat perkembangan permainan Gemini, dan Pichai menyebutkan pencapaian ini di konferensi pengembang I/O. Anthropic bahkan mengadakan area demonstrasi “Claude bermain Pokémon” di konferensi industri.\n\n“Kami adalah sekelompok penggemar teknologi super,” ungkap David Hershey dari Anthropic. Tapi dia menekankan bahwa ini bukan sekadar hiburan.\n\nBerbeda dari standar pengujian tradisional berbasis tanya jawab, 《Pokémon》 mampu secara berkelanjutan melacak proses penalaran, pengambilan keputusan, dan pencapaian tujuan model dalam waktu yang sangat panjang, yang lebih mendekati tugas kompleks yang diharapkan manusia dari AI di dunia nyata.\n\nHingga saat ini, tantangan AI dalam 《Pokémon》 masih berlanjut. Tetapi, melalui kesulitan yang berulang ini, secara jelas tergambar batas kemampuan yang belum bisa dilampaui oleh kecerdasan buatan umum.\n\nKontributor khusus: Wu Ji, dalam penerjemahan artikel ini juga turut berkontribusi