مؤخرًا رأينا استغلالًا بقيمة 1.78 مليون دولار ناجم عن ثغرة أُكتب بواسطة كلاود أوبوس 4.6.


تم تسعير cbETH عند $1 بدلاً من 2000 دولار.
ليس بعيدًا عن ذلك، أطلقت @OpenAI@ EVMbench. ببساطة، هو معيار يقيم قدرة وكلاء الذكاء الاصطناعي على التفاعل مع العقود الذكية.

لديه 3 أوضاع تقييم رئيسية:
> الكشف: يحلل قدرة الوكيل على اكتشاف الثغرات
> التصحيح: يحلل قدرة الوكيل على إصلاح تلك الثغرات
> الاستغلال: يحلل قدرة الوكيل على استغلال تلك الثغرات
أظهر تحليلهم أن النماذج الحديثة (أوبوس 4.6، GPT-5.3-Codex، وغيرها) جيدة جدًا في استغلال الثغرات، لكنها ضعيفة في اكتشافها وتصحيحها.
وهذا بالضبط ما لاحظته أثناء تشغيل وكلائي على أحدث النماذج. في فريق وكلائي، أضم دائمًا وكيل تدقيق يحصل على السياق الكامل، بهدف رئيسي هو العثور على الثغرات.
عندما يعثر على واحدة، يقوم وكيل المطور بإصلاحها بسهولة.
لكن المشكلة هي أنه من بين 10 ثغرات، قد يعثر على 3 فقط. حاليًا، لا يمكننا الاعتماد على الوكلاء بشكل كامل لاكتشاف الثغرات بشكل صحيح.
إطلاق هذا المعيار هو خطوة قوية جدًا. أنا متحمس لاختباره مع وكلائي.
للتوضيح، هذا ليس أداة فحص أمان أو أداة تدقيق جاهزة للإنتاج. الهدف الرئيسي منه هو قياس قدرات الذكاء الاصطناعي، ومقارنة النماذج، وتقديم مقاييس حول تقدم الذكاء الاصطناعي في هذا المجال.
بشكل أساسي، هو أداة تتيح تقييم وتحسين الذكاء الاصطناعي في هذا المجال، وبصراحة، نحن بحاجة ماسة لذلك.
شاهد النسخة الأصلية
post-image
post-image
post-image
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.48Kعدد الحائزين:2
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.46Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • تثبيت