يمكن لأفضل نماذج الذكاء الاصطناعي في العالم اجتياز امتحان الترخيص الطبي، وكتابة رموز معقدة، وحتى التفوق على خبراء البشر في المسابقات الرياضية، لكنها تتعرض مرارًا وتكرارًا للفشل في لعبة الأطفال “بوكيمون”.
بدأت هذه المحاولة المثيرة في فبراير 2025، عندما أطلق أحد باحثي شركة أنثروبيك بثًا مباشرًا على تويتش بعنوان “كلود يلعب بوكيمون الأحمر”، تزامنًا مع إصدار كلود سونيت 3.7.
تدفق 2000 مشاهد إلى غرفة البث. في قسم الدردشة العامة، كان الجمهور يمدّ يد العون لكلود، ويشجع، مما حول البث تدريجيًا إلى مراقبة علنية لقدرات الذكاء الاصطناعي.
كلود 3.7 يمكنه أن يلعب “بوكيمون”، لكن “القدرة على اللعب” لا تعني “القدرة على الفوز”. فهو يتوقف عند النقاط الحاسمة لساعات، ويقع في أخطاء بسيطة حتى الأطفال لا يرتكبونها.
هذه ليست المرة الأولى التي يحاول فيها كلود.
كانت النسخ المبكرة أسوأ بكثير: بعض النسخ تتجول بلا هدف على الخريطة، وأخرى تدخل في حلقات لا نهائية، وأكثرها لا يستطيع حتى الخروج من قرية المبتدئين.
حتى مع تحسين قدراته بشكل ملحوظ، مثل كلود أوبس 4.5، لا يخلو الأمر من أخطاء غامضة. مرة واحدة، دار حول خارج “صالة التدريب” لأربعة أيام كاملة، ولم يتمكن من الدخول، فقط لأنه لم يدرك أنه يجب قطع شجرة تعيق الطريق.
لماذا أصبحت لعبة الأطفال هذه ساحة هزيمة للذكاء الاصطناعي؟
لأن “بوكيمون” يتطلب بالضبط القدرة التي يفتقر إليها الذكاء الاصطناعي اليوم: الاستنتاج المستمر في عالم مفتوح بدون تعليمات واضحة، تذكر القرارات قبل ساعات، فهم العلاقات السببية الضمنية، ووضع خطط طويلة الأمد بين مئات الخيارات.
هذه الأمور سهلة على طفل يبلغ من العمر 8 سنوات، لكنها تمثل فجوة لا يمكن تجاوزها لنماذج الذكاء الاصطناعي التي تدعي “تجاوز البشر”.
01 فجوة الأدوات تحدد النجاح أو الفشل؟
بالمقارنة، نجح نموذج جيميني 2.5 برو من جوجل في اجتياز لعبة “بوكيمون” ذات مستوى صعوبة مماثل في مايو 2025. حتى أن المدير التنفيذي لجوجل، سوندار بيتشاي، قال بشكل هزلي علنًا إن الشركة أحرزت خطوة في تطوير “ذكاء بوكيمون الاصطناعي”.
لكن، لا يمكن نسب هذا النجاح ببساطة إلى أن نموذج جيميني أكثر “ذكاءً”.
الفرق الرئيسي يكمن في مجموعة الأدوات التي يستخدمها النموذج. المطور المستقل الذي يدير بث جيميني على “بوكيمون”، جويل تشانغ، شبه أدواته بـ"درع توني ستارك": فالذكاء الاصطناعي لا يدخل اللعبة عاريًا، بل يُوضع في نظام يمكنه استدعاء قدرات خارجية متعددة.
توفر أدوات جيميني دعمًا أكبر، مثل تحويل مشاهد اللعبة إلى نصوص، لتعويض ضعف النموذج في الفهم البصري، وتقديم أدوات مخصصة لحل الألغاز وتخطيط المسارات. بالمقابل، أدوات كلود أبسط، وتجربته تعكس بشكل مباشر قدرات النموذج الحقيقية في الإدراك، والاستنتاج، والتنفيذ.
في المهام اليومية، لا تظهر هذه الاختلافات بشكل واضح.
عندما يطلب المستخدم من روبوت الدردشة استعلامات تتطلب اتصالًا بالإنترنت، فإنه يستدعي أدوات البحث تلقائيًا. لكن في مهام طويلة الأمد مثل “بوكيمون”، تتضخم الفروقات بين الأدوات إلى درجة تؤثر على النجاح أو الفشل.
02 جولات المعركة تكشف عن ضعف “الذاكرة طويلة المدى” للذكاء الاصطناعي
نظرًا لأن “بوكيمون” تعتمد على نظام جولات صارم ولا تتطلب رد فعل فوري، فهي تعتبر ساحة تدريب مثالية لاختبار الذكاء الاصطناعي. في كل خطوة، يحتاج الذكاء الاصطناعي إلى الجمع بين المشهد الحالي، والتعليمات المستهدفة، والخيارات المتاحة، لاستنتاج الإجراء المناسب، مثل الضغط على زر A.
يبدو أن هذا هو الشكل التفاعلي الذي تتقنه نماذج اللغة الكبيرة.
لكن المشكلة تكمن في فجوة الزمن. على الرغم من أن كلود أوبس 4.5 عمل لأكثر من 500 ساعة، وأدى حوالي 170,000 خطوة، إلا أن إعادة التهيئة بعد كل خطوة تقيّد النموذج في سياق ضيق جدًا، مما يجعله يبحث عن أدلة في ذاكرة قصيرة المدى، ويكرر نفسه، ويعجز عن تحقيق قفزات نوعية من التجربة إلى الحكمة، كما يفعل اللاعب البشري.
في مجالات الشطرنج والجو، تجاوزت أنظمة الذكاء الاصطناعي البشر منذ زمن، لكن هذه الأنظمة مخصصة لمهام محددة جدًا. بالمقابل، فإن نماذج جيميني، وكلود، وGPT، كأنها نماذج عامة، تتفوق على البشر في الامتحانات والمسابقات البرمجية، لكنها تتعرض للفشل مرارًا وتكرارًا في لعبة أطفال.
هذا التباين بحد ذاته يحمل دروسًا مهمة.
في رأي جويل تشانغ، التحدي الرئيسي أمام الذكاء الاصطناعي هو عدم القدرة على الاستمرار في تنفيذ هدف واضح على مدى فترات زمنية طويلة. قال: “إذا كنت تريد من الذكاء الاصطناعي أن يؤدي عملًا حقيقيًا، فلا يمكنه أن ينسى ما فعله قبل خمس دقائق”.
هذه القدرة ضرورية لتحقيق أتمتة العمل الإدراكي.
المطور المستقل بيتر ويدن قدم وصفًا أكثر وضوحًا. فقد أطلق خوارزمية “بوكيمون” تعتمد على الذكاء الاصطناعي التقليدي كمصدر مفتوح. قال: “الذكاء الاصطناعي يعرف تقريبًا كل شيء عن بوكيمون”، وأضاف: “يدرب على كميات هائلة من البيانات البشرية، ويعرف الإجابة الصحيحة، لكنه عند التنفيذ يصبح أخرقًا”.
في اللعبة، تتضخم فجوة “المعرفة ولكن عدم القدرة على التنفيذ”: قد يعرف النموذج أنه يجب أن يبحث عن أداة معينة، لكنه يعجز عن تحديد موقعها بثبات على الخريطة ثنائية الأبعاد؛ يعرف أنه يجب أن يتحدث مع NPC، لكنه يفشل مرارًا في التنقل بدقة بكسل.
03 تطور القدرات: فجوة “الفطرة” غير المجتازة
على الرغم من ذلك، فإن تقدم الذكاء الاصطناعي واضح. فقد تفوق كلود أوبس 4.5 في تسجيل الذات وفهم الصور على الأجيال السابقة، مما مكنه من التقدم في اللعبة. كما أن جيميني 3 برو أكمل “بوكيمون الأزرق” ثم أنهى “بوكيمون الكريستال” بصعوبة أعلى، ولم يخسر مباراة واحدة طوال الرحلة، وهو إنجاز لم يتحقق من قبل في جيميني 2.5 برو.
وفي الوقت نفسه، أطلقت أنثروبيك مجموعة أدوات كلود كود التي تسمح للنموذج بكتابة وتشغيل أكواد خاصة به، واستخدمت في ألعاب قديمة مثل “ديزني ترافيلز”، ويقال إنها تمكن من إدارة متنزه ترفيهي افتراضي بنجاح.
تكشف هذه الحالات عن حقيقة غير مباشرة: أن الذكاء الاصطناعي المجهز بالأدوات المناسبة قد يظهر كفاءة عالية جدًا في مجالات تطوير البرمجيات، والمحاسبة، والتحليل القانوني، رغم أنه لا يزال يواجه صعوبة في المهام التي تتطلب ردود فعل فورية.
كما أظهرت تجارب “بوكيمون” ظاهرة مثيرة للاهتمام: أن النماذج المدربة على بيانات بشرية تظهر سلوكيات تشبه البشر.
في تقرير تقنية جيميني 2.5 برو، أشارت جوجل إلى أن عندما يحاكي النظام “حالة ذعر”، مثل اقتراب بوكيمون من الإغماء، تتدهور جودة استنتاجاته بشكل ملحوظ.
وعندما أكمل جيميني 3 برو “بوكيمون الأزرق”، ترك لنفسه ملاحظة غير ضرورية: “للنهاية الشعرية، سأعود إلى المنزل الأصلي، وأجري آخر محادثة مع والدتي، وأترك الشخصية تتقاعد”.
في رأي جويل تشانغ، أن هذا السلوك غير متوقع، ويحمل نوعًا من الإسقاط العاطفي البشري.
04 “المسيرة الرقمية” التي يصعب على الذكاء الاصطناعي تجاوزها، ليست مجرد “بوكيمون”
ليست “بوكيمون” الحالة الوحيدة. في سعيهم نحو الذكاء الاصطناعي العام (AGI)، اكتشف المطورون أن حتى النماذج التي تتفوق في الامتحانات القضائية، لا تزال تواجه هزائم لا يمكن تجاوزها في ألعاب معقدة أخرى.
“ناثاك” (NetHack): هاوية القواعد
هذه اللعبة من الثمانينيات، وهي عبارة عن زنزانة، تعتبر كابوسًا لبحوث الذكاء الاصطناعي. عشوائيتها الشديدة ووجود آلية “الموت الأبدي” تجعلها تحديًا كبيرًا. اكتشفت أبحاث فيسبوك أن النموذج، رغم قدرته على كتابة الكود، يتفوق على المبتدئين البشريين في “ناثاك” بشكل كبير، لأنه يفتقر إلى المنطق العام والمعرفة الطويلة الأمد.
“ماين كرافت”: فقدان الهدف
على الرغم من أن الذكاء الاصطناعي يمكنه صنع أدوات خشبية أو تعدين الماس، إلا أن “هزيمة التنين النهائي” لا تزال حلمًا بعيد المنال. في عالم مفتوح، غالبًا ما ينسى الذكاء الاصطناعي هدفه بعد ساعات من جمع الموارد، أو يضل الطريق تمامًا أثناء التنقل المعقد.
“ستاركرافت 2”: فجوة التخصص والعموم
رغم أن نماذج مخصصة هزمت لاعبي محترفين، إلا أن جعل كلود أو جيميني يتولى القيادة عبر أوامر بصرية يؤدي إلى انهيارهما فورًا. في التعامل مع غموض “ضباب الحرب”، والتوازن بين التحكم الدقيق والبناء الاستراتيجي، لا تزال النماذج العامة غير قادرة على المنافسة.
“ديزني ترافيلز”: التوازن بين الصغير والكبير
إدارة متنزه يتطلب تتبع حالة الآلاف من الزوار. حتى مع قدرات إدارة مبدئية، فإن كلود كود ينهار بسرعة عند التعامل مع أزمات مالية كبيرة أو حوادث مفاجئة. أي فجوة في الاستنتاج قد تؤدي إلى إفلاس المنتزه.
هذه الألعاب ذات الحركة السريعة، تتطلب ردود فعل فورية. حاليًا، تأخير التحليل البصري يعني أن شخصية الذكاء الاصطناعي غالبًا ما تكون قد ماتت قبل أن يقرر “التفكير” في حركة الزعيم. استجابة ميلي ثانية تشكل الحد الأقصى الطبيعي لآليات التفاعل.
05 لماذا أصبحت “بوكيمون” معيار اختبار للذكاء الاصطناعي؟
اليوم، أصبحت “بوكيمون” بشكل غير رسمي، ومع ذلك بشكل مقنع، معيارًا لتقييم قدرات الذكاء الاصطناعي.
حصلت نماذج أنثروبيك، أوبن إيه آي، وجوجل على مئات الآلاف من التعليقات على بثوثها على تويتش. سجلت جوجل في تقاريرها تقدم جيميني في اللعبة، وذكر بيتشاي ذلك علنًا في مؤتمر مطوري I/O. حتى أن أنثروبيك خصصت منطقة عرض “كلود يلعب بوكيمون” في مؤتمرات الصناعة.
قال ديفيد هيرشي، مسؤول تطبيقات الذكاء الاصطناعي في أنثروبيك: “نحن مجموعة من عشاق التقنية”، لكنه أكد أن الأمر لا يقتصر على الترفيه.
على عكس الاختبارات التقليدية التي تعتمد على أسئلة وأجوبة لمرة واحدة، فإن “بوكيمون” تسمح بمراقبة مستمرة لعملية استنتاج النموذج، واتخاذ القرارات، وتقدم الأهداف، مما يقترب أكثر من المهام المعقدة التي يأمل البشر أن ينفذها الذكاء الاصطناعي في العالم الحقيقي.
حتى الآن، لا تزال تحديات الذكاء الاصطناعي في “بوكيمون” مستمرة. لكن، تكرار هذه الصعوبات يوضح بجلاء الحدود التي لم يتجاوزها الذكاء الاصطناعي العام بعد.
الترجمة الخاصة: دونجي أيضًا ساهم في إعداد هذا المقال
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أكبر النماذج الكبيرة على مستوى العالم، لا يمكنها اجتياز 《بوكيمون》: هذه الألعاب كلها كابوس للذكاء الاصطناعي
null
المؤلف: غو Xiao Jing، تينسنت تكنولوجي
تحرير | شو تشينغ يانغ
يمكن لأفضل نماذج الذكاء الاصطناعي في العالم اجتياز امتحان الترخيص الطبي، وكتابة رموز معقدة، وحتى التفوق على خبراء البشر في المسابقات الرياضية، لكنها تتعرض مرارًا وتكرارًا للفشل في لعبة الأطفال “بوكيمون”.
بدأت هذه المحاولة المثيرة في فبراير 2025، عندما أطلق أحد باحثي شركة أنثروبيك بثًا مباشرًا على تويتش بعنوان “كلود يلعب بوكيمون الأحمر”، تزامنًا مع إصدار كلود سونيت 3.7.
تدفق 2000 مشاهد إلى غرفة البث. في قسم الدردشة العامة، كان الجمهور يمدّ يد العون لكلود، ويشجع، مما حول البث تدريجيًا إلى مراقبة علنية لقدرات الذكاء الاصطناعي.
كلود 3.7 يمكنه أن يلعب “بوكيمون”، لكن “القدرة على اللعب” لا تعني “القدرة على الفوز”. فهو يتوقف عند النقاط الحاسمة لساعات، ويقع في أخطاء بسيطة حتى الأطفال لا يرتكبونها.
هذه ليست المرة الأولى التي يحاول فيها كلود.
كانت النسخ المبكرة أسوأ بكثير: بعض النسخ تتجول بلا هدف على الخريطة، وأخرى تدخل في حلقات لا نهائية، وأكثرها لا يستطيع حتى الخروج من قرية المبتدئين.
حتى مع تحسين قدراته بشكل ملحوظ، مثل كلود أوبس 4.5، لا يخلو الأمر من أخطاء غامضة. مرة واحدة، دار حول خارج “صالة التدريب” لأربعة أيام كاملة، ولم يتمكن من الدخول، فقط لأنه لم يدرك أنه يجب قطع شجرة تعيق الطريق.
لماذا أصبحت لعبة الأطفال هذه ساحة هزيمة للذكاء الاصطناعي؟
لأن “بوكيمون” يتطلب بالضبط القدرة التي يفتقر إليها الذكاء الاصطناعي اليوم: الاستنتاج المستمر في عالم مفتوح بدون تعليمات واضحة، تذكر القرارات قبل ساعات، فهم العلاقات السببية الضمنية، ووضع خطط طويلة الأمد بين مئات الخيارات.
هذه الأمور سهلة على طفل يبلغ من العمر 8 سنوات، لكنها تمثل فجوة لا يمكن تجاوزها لنماذج الذكاء الاصطناعي التي تدعي “تجاوز البشر”.
01 فجوة الأدوات تحدد النجاح أو الفشل؟
بالمقارنة، نجح نموذج جيميني 2.5 برو من جوجل في اجتياز لعبة “بوكيمون” ذات مستوى صعوبة مماثل في مايو 2025. حتى أن المدير التنفيذي لجوجل، سوندار بيتشاي، قال بشكل هزلي علنًا إن الشركة أحرزت خطوة في تطوير “ذكاء بوكيمون الاصطناعي”.
لكن، لا يمكن نسب هذا النجاح ببساطة إلى أن نموذج جيميني أكثر “ذكاءً”.
الفرق الرئيسي يكمن في مجموعة الأدوات التي يستخدمها النموذج. المطور المستقل الذي يدير بث جيميني على “بوكيمون”، جويل تشانغ، شبه أدواته بـ"درع توني ستارك": فالذكاء الاصطناعي لا يدخل اللعبة عاريًا، بل يُوضع في نظام يمكنه استدعاء قدرات خارجية متعددة.
توفر أدوات جيميني دعمًا أكبر، مثل تحويل مشاهد اللعبة إلى نصوص، لتعويض ضعف النموذج في الفهم البصري، وتقديم أدوات مخصصة لحل الألغاز وتخطيط المسارات. بالمقابل، أدوات كلود أبسط، وتجربته تعكس بشكل مباشر قدرات النموذج الحقيقية في الإدراك، والاستنتاج، والتنفيذ.
في المهام اليومية، لا تظهر هذه الاختلافات بشكل واضح.
عندما يطلب المستخدم من روبوت الدردشة استعلامات تتطلب اتصالًا بالإنترنت، فإنه يستدعي أدوات البحث تلقائيًا. لكن في مهام طويلة الأمد مثل “بوكيمون”، تتضخم الفروقات بين الأدوات إلى درجة تؤثر على النجاح أو الفشل.
02 جولات المعركة تكشف عن ضعف “الذاكرة طويلة المدى” للذكاء الاصطناعي
نظرًا لأن “بوكيمون” تعتمد على نظام جولات صارم ولا تتطلب رد فعل فوري، فهي تعتبر ساحة تدريب مثالية لاختبار الذكاء الاصطناعي. في كل خطوة، يحتاج الذكاء الاصطناعي إلى الجمع بين المشهد الحالي، والتعليمات المستهدفة، والخيارات المتاحة، لاستنتاج الإجراء المناسب، مثل الضغط على زر A.
يبدو أن هذا هو الشكل التفاعلي الذي تتقنه نماذج اللغة الكبيرة.
لكن المشكلة تكمن في فجوة الزمن. على الرغم من أن كلود أوبس 4.5 عمل لأكثر من 500 ساعة، وأدى حوالي 170,000 خطوة، إلا أن إعادة التهيئة بعد كل خطوة تقيّد النموذج في سياق ضيق جدًا، مما يجعله يبحث عن أدلة في ذاكرة قصيرة المدى، ويكرر نفسه، ويعجز عن تحقيق قفزات نوعية من التجربة إلى الحكمة، كما يفعل اللاعب البشري.
في مجالات الشطرنج والجو، تجاوزت أنظمة الذكاء الاصطناعي البشر منذ زمن، لكن هذه الأنظمة مخصصة لمهام محددة جدًا. بالمقابل، فإن نماذج جيميني، وكلود، وGPT، كأنها نماذج عامة، تتفوق على البشر في الامتحانات والمسابقات البرمجية، لكنها تتعرض للفشل مرارًا وتكرارًا في لعبة أطفال.
هذا التباين بحد ذاته يحمل دروسًا مهمة.
في رأي جويل تشانغ، التحدي الرئيسي أمام الذكاء الاصطناعي هو عدم القدرة على الاستمرار في تنفيذ هدف واضح على مدى فترات زمنية طويلة. قال: “إذا كنت تريد من الذكاء الاصطناعي أن يؤدي عملًا حقيقيًا، فلا يمكنه أن ينسى ما فعله قبل خمس دقائق”.
هذه القدرة ضرورية لتحقيق أتمتة العمل الإدراكي.
المطور المستقل بيتر ويدن قدم وصفًا أكثر وضوحًا. فقد أطلق خوارزمية “بوكيمون” تعتمد على الذكاء الاصطناعي التقليدي كمصدر مفتوح. قال: “الذكاء الاصطناعي يعرف تقريبًا كل شيء عن بوكيمون”، وأضاف: “يدرب على كميات هائلة من البيانات البشرية، ويعرف الإجابة الصحيحة، لكنه عند التنفيذ يصبح أخرقًا”.
في اللعبة، تتضخم فجوة “المعرفة ولكن عدم القدرة على التنفيذ”: قد يعرف النموذج أنه يجب أن يبحث عن أداة معينة، لكنه يعجز عن تحديد موقعها بثبات على الخريطة ثنائية الأبعاد؛ يعرف أنه يجب أن يتحدث مع NPC، لكنه يفشل مرارًا في التنقل بدقة بكسل.
03 تطور القدرات: فجوة “الفطرة” غير المجتازة
على الرغم من ذلك، فإن تقدم الذكاء الاصطناعي واضح. فقد تفوق كلود أوبس 4.5 في تسجيل الذات وفهم الصور على الأجيال السابقة، مما مكنه من التقدم في اللعبة. كما أن جيميني 3 برو أكمل “بوكيمون الأزرق” ثم أنهى “بوكيمون الكريستال” بصعوبة أعلى، ولم يخسر مباراة واحدة طوال الرحلة، وهو إنجاز لم يتحقق من قبل في جيميني 2.5 برو.
وفي الوقت نفسه، أطلقت أنثروبيك مجموعة أدوات كلود كود التي تسمح للنموذج بكتابة وتشغيل أكواد خاصة به، واستخدمت في ألعاب قديمة مثل “ديزني ترافيلز”، ويقال إنها تمكن من إدارة متنزه ترفيهي افتراضي بنجاح.
تكشف هذه الحالات عن حقيقة غير مباشرة: أن الذكاء الاصطناعي المجهز بالأدوات المناسبة قد يظهر كفاءة عالية جدًا في مجالات تطوير البرمجيات، والمحاسبة، والتحليل القانوني، رغم أنه لا يزال يواجه صعوبة في المهام التي تتطلب ردود فعل فورية.
كما أظهرت تجارب “بوكيمون” ظاهرة مثيرة للاهتمام: أن النماذج المدربة على بيانات بشرية تظهر سلوكيات تشبه البشر.
في تقرير تقنية جيميني 2.5 برو، أشارت جوجل إلى أن عندما يحاكي النظام “حالة ذعر”، مثل اقتراب بوكيمون من الإغماء، تتدهور جودة استنتاجاته بشكل ملحوظ.
وعندما أكمل جيميني 3 برو “بوكيمون الأزرق”، ترك لنفسه ملاحظة غير ضرورية: “للنهاية الشعرية، سأعود إلى المنزل الأصلي، وأجري آخر محادثة مع والدتي، وأترك الشخصية تتقاعد”.
في رأي جويل تشانغ، أن هذا السلوك غير متوقع، ويحمل نوعًا من الإسقاط العاطفي البشري.
04 “المسيرة الرقمية” التي يصعب على الذكاء الاصطناعي تجاوزها، ليست مجرد “بوكيمون”
ليست “بوكيمون” الحالة الوحيدة. في سعيهم نحو الذكاء الاصطناعي العام (AGI)، اكتشف المطورون أن حتى النماذج التي تتفوق في الامتحانات القضائية، لا تزال تواجه هزائم لا يمكن تجاوزها في ألعاب معقدة أخرى.
“ناثاك” (NetHack): هاوية القواعد
هذه اللعبة من الثمانينيات، وهي عبارة عن زنزانة، تعتبر كابوسًا لبحوث الذكاء الاصطناعي. عشوائيتها الشديدة ووجود آلية “الموت الأبدي” تجعلها تحديًا كبيرًا. اكتشفت أبحاث فيسبوك أن النموذج، رغم قدرته على كتابة الكود، يتفوق على المبتدئين البشريين في “ناثاك” بشكل كبير، لأنه يفتقر إلى المنطق العام والمعرفة الطويلة الأمد.
“ماين كرافت”: فقدان الهدف
على الرغم من أن الذكاء الاصطناعي يمكنه صنع أدوات خشبية أو تعدين الماس، إلا أن “هزيمة التنين النهائي” لا تزال حلمًا بعيد المنال. في عالم مفتوح، غالبًا ما ينسى الذكاء الاصطناعي هدفه بعد ساعات من جمع الموارد، أو يضل الطريق تمامًا أثناء التنقل المعقد.
“ستاركرافت 2”: فجوة التخصص والعموم
رغم أن نماذج مخصصة هزمت لاعبي محترفين، إلا أن جعل كلود أو جيميني يتولى القيادة عبر أوامر بصرية يؤدي إلى انهيارهما فورًا. في التعامل مع غموض “ضباب الحرب”، والتوازن بين التحكم الدقيق والبناء الاستراتيجي، لا تزال النماذج العامة غير قادرة على المنافسة.
“ديزني ترافيلز”: التوازن بين الصغير والكبير
إدارة متنزه يتطلب تتبع حالة الآلاف من الزوار. حتى مع قدرات إدارة مبدئية، فإن كلود كود ينهار بسرعة عند التعامل مع أزمات مالية كبيرة أو حوادث مفاجئة. أي فجوة في الاستنتاج قد تؤدي إلى إفلاس المنتزه.
“إلدن رينغ” و"سولز وولكر": فجوة ردود الفعل الفيزيائية
هذه الألعاب ذات الحركة السريعة، تتطلب ردود فعل فورية. حاليًا، تأخير التحليل البصري يعني أن شخصية الذكاء الاصطناعي غالبًا ما تكون قد ماتت قبل أن يقرر “التفكير” في حركة الزعيم. استجابة ميلي ثانية تشكل الحد الأقصى الطبيعي لآليات التفاعل.
05 لماذا أصبحت “بوكيمون” معيار اختبار للذكاء الاصطناعي؟
اليوم، أصبحت “بوكيمون” بشكل غير رسمي، ومع ذلك بشكل مقنع، معيارًا لتقييم قدرات الذكاء الاصطناعي.
حصلت نماذج أنثروبيك، أوبن إيه آي، وجوجل على مئات الآلاف من التعليقات على بثوثها على تويتش. سجلت جوجل في تقاريرها تقدم جيميني في اللعبة، وذكر بيتشاي ذلك علنًا في مؤتمر مطوري I/O. حتى أن أنثروبيك خصصت منطقة عرض “كلود يلعب بوكيمون” في مؤتمرات الصناعة.
قال ديفيد هيرشي، مسؤول تطبيقات الذكاء الاصطناعي في أنثروبيك: “نحن مجموعة من عشاق التقنية”، لكنه أكد أن الأمر لا يقتصر على الترفيه.
على عكس الاختبارات التقليدية التي تعتمد على أسئلة وأجوبة لمرة واحدة، فإن “بوكيمون” تسمح بمراقبة مستمرة لعملية استنتاج النموذج، واتخاذ القرارات، وتقدم الأهداف، مما يقترب أكثر من المهام المعقدة التي يأمل البشر أن ينفذها الذكاء الاصطناعي في العالم الحقيقي.
حتى الآن، لا تزال تحديات الذكاء الاصطناعي في “بوكيمون” مستمرة. لكن، تكرار هذه الصعوبات يوضح بجلاء الحدود التي لم يتجاوزها الذكاء الاصطناعي العام بعد.
الترجمة الخاصة: دونجي أيضًا ساهم في إعداد هذا المقال