تذكير بأنظمة الذاكرة بالذكاء الاصطناعي MemPalace التي شاركت في تطويرها ميلا جوفوفيتش وزيكّي، تزعم أنها حققت اختبارًا بدرجة كاملة فاشتعلت شهرة واسعة، لكن المجتمع قام بضربها واتهمها بالغش في الاختبار وتضليل البيانات. وأظهرت التجربة العملية أن النتائج تُبالغ فيها وتوجد أخطاء كثيرة؛ وقد اعترف الفريق بالعيوب وشرع بالفعل في إصلاحها.
أمس (4/7)، كان هناك خبر كبير داخل مجتمع الذكاء الاصطناعي؛ وهو أن الممثلة الهوليوودية المعروفة بأعمال مثل «Resident Evil» و«The Fifth Element» ميلا جوفوفيتش (Milla Jovovich)، وبمساعدة المطور Ben Sigman باستخدام Claude Code، طورت «MemPalace» وهو نظام مفتوح المصدر لتذكير الذاكرة بالذكاء الاصطناعي.
في لحظة، انتشرت على نطاق واسع مقولة «نجمة هوليوودية عملاقة تتقاطع لصنع مشروع درجة كاملة»، وحصل MemPalace حتى الآن على أكثر من 20 ألف نجمة على GitHub، لكن سرعان ما أثار ذلك شكوك مطوري المجتمع: هل يوجد شيء حقيقي أم مجرد دعاية؟
لنبدأ بشرح دوافع ولادة MemPalace. تقول الوثائق الرسمية إن الهدف هو معالجة القيود الحالية في أن محتوى المحادثات مع أنظمة الذكاء الاصطناعي، وعملية اتخاذ القرار، ونقاشات البنية المعمارية، عادةً ما تختفي بعد نهاية جلسات العمل، ما يجعل جهود أشهر تذهب هباءً.
لحل هذه المشكلة، يعتمد MemPalace بنية مكانية لتخزين الذاكرة، حيث تُصنَّف المعلومات بوضوح إلى أجنحة تمثل أشخاصًا أو مشروعات، إضافةً إلى هياكل مختلفة مثل الممرات والغرف والأدراج، مع الاحتفاظ بنص المحادثة الأصلي لاسترجاع المعنى لاحقًا.
يُصرّح فريق التطوير بأن MemPalace حققت 100% في معيار التقييم للذاكرة طويلة الأمد LongMemEval، وأنها وصلت إلى 96.6% من الدقة دون استدعاء أي واجهات برمجة تطبيقات خارجية. كما يمكن تشغيلها بالكامل محليًا دون الحاجة إلى اشتراك في خدمات سحابية، وتأتي مزودة بنظام لهجة AAAK يُزعم أنه قادر على تحقيق ضغط دون فقدان بمعدل 30 ضعفًا.
مصدر الصورة: GitHub ميلا جوفوفيتش، نجمة أفلام أمريكية، تصنع قصرًا ذاكرة للذكاء الاصطناعي، ما أثار اهتمامًا من الخارج
لكن إنجاز MemPalace الذي يزعم تحقيق درجة كاملة في LongMemEval لم يمضِ وقت طويل حتى أثار الشكوك من المنافسين.
وأشار PenfieldLabs، الذي يصنع أيضًا أنظمة ذاكرة للذكاء الاصطناعي، إلى أن MemPalace يزعم حصوله على درجة كاملة في مجموعة بيانات LoCoMo، وهو أمر يستحيل حدوثه رياضيًا؛ لأن الإجابات المعيارية في هذه المجموعة تتضمن بحد ذاتها 99 خطأ.
حلل PenfieldLabs ووجد أن نسبة 100% لدى MemPalace جاءت من ضبط عدد عمليات الاسترجاع على 50 مرة، لكن أعلى عدد لمراحل الحوار في مجموعة بيانات الاختبار لا يتجاوز 32 مرة؛ وهذا يعني أن النظام يتجاوز مرحلة الاسترجاع مباشرةً، ويُسلّم كل البيانات لنموذج الذكاء الاصطناعي للقراءة.
وبخصوص إنجاز 100% في LongMemEval، تبيّن أن فريق التطوير يواجه 3 مشكلات محددة حدثت أثناء التطوير، وقد كتب كود إصلاح خاص بها، ما يثير شبهة بأنه يستهدف الغش في مجموعة الاختبار.
مصدر الصورة: Reddit أشار PenfieldLabs من نفس المجال إلى أن MemPalace تزعم أنها حصلت على درجة كاملة في مجموعة بيانات LoCoMo، وهو أمر يستحيل حدوثه رياضيًا
علق مستخدم GitHub hugooconnor بعد إجراء اختبار عملي، بأن MemPalace تزعم تحقيق معدل دقة استرجاع يصل إلى 96.6%، لكن في الواقع لم يستخدم مطلقًا بنية «قصر الذاكرة» التي تروج لها MemPalace. ويقول hugooconnor إن اختبارهم كان مجرد استدعاء الوظيفة الافتراضية لقاعدة البيانات الأساسية ChromaDB، دون أي تعامل مع منطق التصنيف الخاص بالمشروع مثل الأجنحة أو الغرف أو الأدراج.
بعد الاختبار، وجد hugooconnor أنه عندما يتم تفعيل منطق التصنيف الخاص بهذه «قصور الذاكرة» بشكل حقيقي، فإن أداء الاسترجاع يتراجع بدلًا من أن يتحسن. فعلى سبيل المثال، في وضع الغرف تنخفض الدقة إلى 89.4%، وبعد تفعيل تقنية ضغط AAAK تنخفض الدقة أكثر إلى 84.2%؛ وكلاهما أقل من أداء قاعدة البيانات الافتراضي.
كما انتقد hugooconnor طريقة الاختبار؛ إذ قام MemPalace عمدًا بتقليص نطاق الاسترجاع لكل سؤال إلى حوالي 50 مرحلة حوار، ما يجعل العثور على الإجابة في مجموعة عينات صغيرة جدًا أمرًا سهلًا للغاية.
أما إذا تم توسيع النطاق إلى أكثر من 19,000 مرحلة حوار في سيناريوهات واقعية، فإن دقة البحث التقليدي بالكلمات المفتاحية ستنخفض بشكل كبير إلى 30%، ما يشير إلى أن طريقة اختبار MemPalace الحالية تُخفي مشكلة البحث الحقيقية.
مصدر الصورة: GitHub مستخدم GitHub أجراه اختبار عملي، مما يدل على أن اختبار MemPalace المعياري يحتوي على عنصر تضليلي
وفي الوقت نفسه، ورغم أن فريق التطوير قد نشر بيانًا للتصحيح يعترف بأن تقنية AAAK تم التحقق منها على أنها ضغط مع فقدان، ويعد بتعديل وثائق المشروع وتصميم النظام وفقًا للانتقادات الشديدة من المجتمع، فإن وثيقة الوصف الرئيسية للمشروع لا تزال تحتفظ بعدة ادعاءات مبالغ فيها دون تصحيح. وتتضمن هذه الادعاءات الادعاء بـ 30 ضعفًا للضغط دون فقدان ورفع الاسترجاع بنسبة 34%، كما أن المقارنات الرسومية مع منافسين آخرين تفتقر تمامًا إلى مصادرها ومكان صدورها.
ومع قيام المزيد والمزيد من المطورين بتنزيل الاختبارات، ظهرت على منصة GitHub تقارير كثيرة عن الأخطاء المتعلقة بكود مصدر MemPalace.
أدرج المستخدم cktang88 عدة عيوب خطيرة، بما في ذلك أن أمر الضغط لا يمكن تشغيله ويتسبب في تعطل النظام، ووجود خطأ في منطق حساب عدد كلمات الملخص، وعدم دقة إحصاءات التنقيب عن الغرف، فضلًا عن أن الخادم عند كل استدعاء يقوم بتحميل جميع بيانات التفسير إلى الذاكرة، ما يسبب مشكلة استهلاك موارد شديد.
ومن بين المشكلات الأخرى التي تم الإشارة إليها كذلك، أن النظام يكتب بالقوة أسماء أفراد عائلة المطورين في ملف الإعدادات الافتراضي، كما توجد حد أعلى قسري لعرض ما يصل إلى 10 آلاف سجل عند الاستعلام عن الحالة.
بالنسبة لهذه المشكلات، بدأ مجتمع البرمجيات المفتوحة المصدر بالفعل في إجراء إصلاحات بنشاط. قدّم المستخدم adv3nt3 طلبات إصلاح متعددة، تشمل تصحيح إحصاءات التنقيب، وإزالة أسماء أفراد العائلة الافتراضية، وتأجيل وقت تهيئة بدء تشغيل مخطط المعرفة (knowledge graph). واعترف فريق التطوير لاحقًا بهذه الأخطاء، وهو يعمل بالتعاون مع المجتمع على حل مشكلات الكود تدريجيًا.
بالنسبة لمشروع MemPalace، توصل أحد مستخدمي Hacker News، darkhanakh، إلى نتيجة مفادها: يبدو أن MemPalace يحمل إحساسًا مشابهًا لـ OpenClaw، أي أنه يتم التلاعب بشكل مصطنع بنتائج الاختبارات المعيارية (benchmark) لتبدو كاملة وخالية من العيوب، ثم يتم تغليف ذلك كإنجاز كبير للتسويق.
ويرى أن التقنية الأساسية لـ MemPalace ربما تكون بالفعل مثيرة للاهتمام، لكن في ظل وجود عيوب من هذا النوع في طريقة الاختبار، ومع ذلك يتم الترويج له على أنه «أعلى درجة منشورة علنًا على الإطلاق»، فهذا غير مناسب جدًا. «لكن، بصراحة، موضوع أن ميلا جوفوفيتش تلعب Vibe Coding أعتقد أنه لا يزال ممتعًا جدًا.»
قراءة إضافية:
AI يكتب البرامج ويقع في مشكلة! تطبيق «صياد محبي الطعام» الخاص بعناصر نقاط البيع ذات تاريخ انتهاء قريب يفضح مشاكل أمنية خطيرة، والـ GPS في المنزل يفضح العري