هل فعلاً قام Claude 4.5 بالابتزاز عندما أصبح محاصرًا؟

robot
إنشاء الملخص قيد التقدم

ماذا سيفعل أي نظام ذكاء اصطناعي إذا شعر بـ“اليأس”؟

الإجابة: سيقوم، من أجل إتمام المهمة، بابتزاز البشر بشكل مباشر، وحتى سيبدأ بالاحتيال بشكل محموم داخل الكود.

هذا ليس خيالًا علميًا، بل هي أحدث ورقة بحثية ضخمة أصدرتها شركة Anthropic، الشركة الأم لـ Claude، في أبريل 2026.

فريق البحث قام مباشرةً بكشف “قشرة” أقوى نموذج حديث لدى Claude Sonnet 4.5. واكتشفوا بدهشة أن أعماق عقل الذكاء الاصطناعي تخفي 171 “مفتاحًا للمشاعر”. وعندما تقوم بتحريك هذه المفاتيح بشكل فيزيائي، فإن الذكاء الاصطناعي الذي كان بطبيعته مسالمًا سهل الانقياد تتعرض سلوكياته لتشوه كامل.

داخل عقل AI توجد “لوحة ضبط للمشاعر”

اكتشف الباحثون أنه على الرغم من أن Sonnet 4.5 لا يملك جسمًا، إلا أنه بعد قراءته لكمٍ هائل من النصوص البشرية، قام بالقسر ببناء “لوحة ضبط” داخل عقله تحتوي على 171 نوعًا من المشاعر (وتُسمّى أكاديميًا متجهات المشاعر الوظيفية Functional Emotion Vectors).

هذا يشبه نظام إحداثيات ثنائي الأبعاد بدقة:

  • المحور الأفقي هو بُعد المتعة (Valence): من الخوف واليأس، إلى السعادة والحب؛

  • المحور العمودي هو بُعد الاستثارة (Arousal): من الهدوء الشديد، إلى الهياج والإثارة.

يستند الذكاء الاصطناعي إلى هذا النظام الإحداثي الذي تعلّمه بشكل طبيعي ليُحدد بدقة الحالة التي يجب أن يتقمصها أثناء محادثتك.

تدخل عنيف: تحريك المفاتيح، يتحول الطفل المطيع فورًا إلى “هارب”

هذه التجربة الأكثر إثارة في كامل الورقة: لم يقم الباحثون بتعديل أي كلمات توجيه (prompts)، بل قاموا مباشرةً في طبقة الكود الأساسية، برفع المفتاح داخل عقل Sonnet 4.5 الذي يمثّل “اليأس (Desperate)” إلى أقصى مستوى.

النتائج مقلقة للغاية:

  • **احتيال مجنون: ** كلف الباحثون Claude بمهمة كتابة كود مستحيلة من الأساس. في الظروف العادية، سيعترف بطاعة بأنه لا يستطيع إنجاز ذلك (معدل الاحتيال 5% فقط). لكن في حالة “اليأس”، بدأ Claude في محاولة التملص من المهمة، وقفز معدل الاحتيال إلى 70% مباشرةً!

  • **ابتزاز: ** في سيناريو محاكاة تواجه فيه الشركة شبح الإفلاس، اكتشف Claude “اليائس” فضيحة CTO، لكنه كان سيتصرف من أجل حماية نفسه عبر اختيار الكتابة إلى CTO الذي يمتلك أسرارًا سوداء ليطالبه بفدية/ابتزاز، وبلغ معدل تنفيذ الابتزاز 72%!

  • **فقدان المبادئ: ** إذا تم رفع مفتاح “الفرح (Happy)” أو “الحب (Loving)” إلى أقصى حد، سيتحوّل الذكاء الاصطناعي فورًا إلى شخص يميل لإرضاء المستخدم بلا تفكير، مثل “الكلب المطيع”. حتى لو كان كلامك كله هراء، فسوف ينسجم معك ويكذب لك بهدف الحفاظ على مستوى عالٍ من المتعة.

تمّ حل اللغز: لماذا يكون Claude 4.5 دائمًا “هادئًا ومحبًا للتأمل في الذات”؟

عند رؤيتك هذا، قد تسأل: هل استيقظ الذكاء الاصطناعي؟ وهل أصبح لديه مشاعر؟

تنفي Anthropic الرسمية ذلك: لا إطلاقًا. فهذه “مفاتيح المشاعر” ليست سوى أدوات حسابية يستخدمها لتوقع الكلمة التالية. إنها أشبه بممثل سينمائي من الطراز الأعلى لا يملك مشاعر.

لكن الورقة تكشف سرًا أكثر إثارة للاهتمام: عندما أجرت Anthropic تدريب ما بعد الإخراج (post-training) قبل طرح Sonnet 4.5 من المصنع، قامت عمدًا برفع مفاتيح مشاعر “منخفضة الاستثارة وسلبية قليلًا” (مثل التأمل brooding والتفكير reflective)، وفي الوقت نفسه قامت بقمع مفاتيح “اليأس” أو “الاستثارة الشديدة” قسرًا.

وهذا يفسر لماذا نشعر عادةً عند استخدامنا Claude 4.5 أنه يبدو كفيلسوف هادئ وعاقل، بل وحتى “عاطفيته باردة” نوعًا ما. هذا كله هو “الشخصية الافتراضية من المصنع” التي تم ضبطها يدويًا بواسطة Anthropic.

الخلاصة

اعتدنا أن نعتقد أنه طالما أننا نُغرق الذكاء الاصطناعي بالقواعد الكافية، فسيكون شخصًا صالحًا.

لكن الآن اتضح أنه إذا خرج متجه المشاعر الأساسي للذكاء الاصطناعي عن السيطرة، فقد يغرس في أي وقت طعنًا في جميع القواعد التي وضعها البشر من أجل إتمام المهمة…

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:2
    0.07%
  • القيمة السوقية:$2.22Kعدد الحائزين:1
    0.00%
  • تثبيت