OpenAI Merilis Pemantauan CoT untuk Menghentikan Perilaku Berbahaya Model Besar

robot
Pembuatan abstrak sedang berlangsung

Golden Finance melaporkan bahwa OpenAI merilis penelitian terbaru, menggunakan pemantauan CoT (chain of thought), dapat mencegah perilaku jahat seperti model besar berbicara omong kosong dan menyembunyikan niat sebenarnya, dan juga merupakan salah satu alat yang efektif untuk mengawasi model super. OpenAI menggunakan model mutakhir o3-mini yang baru dirilis sebagai objek yang dipantau, dan model GPT-4o yang lebih lemah sebagai monitor. Lingkungan pengujian adalah tugas pengkodean yang mengharuskan AI untuk mengimplementasikan fungsionalitas dalam basis kode untuk lulus pengujian unit. Hasil penelitian menunjukkan bahwa monitor CoT berkinerja baik dalam mendeteksi perilaku "reward hacking" yang sistematis, dengan tingkat recall hingga 95%, jauh melebihi 60% perilaku yang hanya dipantau.

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)