Claude meledak viral karena penelitian yang bocor dan menyorot hasil tim Tiongkok, yang sudah ditegur dan meminta maaf dengan sikap tegak lurus

BlockBeatNews

Menurut pemantauan 1M AI News, pada 2 April Anthropic merilis sebuah makalah baru yang meneliti “mekanisme emosi” di dalam Claude, dan menemukan 171 “vektor emosi” dalam Sonnet 4.5. Emosi-emosi ini akan diaktifkan dalam konteks yang terkait, serta mirip dengan struktur psikologis dan ruang emosi manusia.

Mahasiswa pascasarjana MBZUAI Chenxi Wang menemukan bahwa makalah timnya yang terbit pada Oktober 2025 (《LLMs Apakah “Merasakan”? Temuan dan Kontrol Sirkuit Emosi》) adalah studi pertama yang secara sistematis meneliti mekanisme internal terjadinya emosi pada model bahasa besar. Ketika ia membaca makalah Anthropic, respons pertamanya adalah “bukankah ini yang kami lakukan tahun lalu?” Perbedaan inti di antara keduanya adalah: sebelumnya sebagian besar penelitian berfokus pada kemampuan model mengenali emosi dalam teks (yaitu persepsi emosi), sedangkan yang dilakukan oleh keduanya adalah meneliti emosi yang dihasilkan oleh model itu sendiri (yaitu generasi emosi/mekanisme internal). Penulis korespondensi Anthropic, Jack Lindsey, awalnya mengira pekerjaan keduanya tumpang tindih dengan penelitian yang sudah ada, namun Chenxi Wang membaca satu per satu dan menunjuk perbedaannya; setelah itu, ia mengakui pembedaan tersebut. Saat ini, Anthropic telah memperbarui blog makalahnya, dan pada bagian “Pekerjaan Terkait” secara tegas menambahkan rujukan atas pekerjaan tersebut; peristiwa ini diselesaikan dengan cara yang relatif ramah.

Makalah tim berbahasa Tionghoa tersebut pernah menyebut tiga temuan inti:

Pertama, di dalam model besar memang terdapat representasi emosi yang stabil dan tidak bergantung pada semantik tertentu; kelompok emosi yang berbeda mulai terbentuk dengan jelas bahkan di lapisan dangkal jaringan saraf. Misalnya, amarah dan jijik berdekatan, sementara kesedihan dan ketakutan juga berdekatan, selaras dengan intuisi manusia.

Kedua, mekanisme emosi ini dipimpin oleh sedikit neuron inti dan attention heads. Melalui eksperimen ablation, ditemukan bahwa hanya dengan menonaktifkan 2-4 neuron atau 1-2 attention heads, kemampuan ekspresi emosi model akan turun secara signifikan.

Ketiga, tim mengintegrasikan komponen-komponen inti tersebut menjadi “sirkuit emosi” lintas-lapisan; mengatur sirkuit ini secara langsung membuat akurasi model dalam menghasilkan emosi tertentu mencapai 99.65%, jauh melampaui metode panduan prompt tradisional dan metode manipulasi vektor. Bahkan emosi “kejutan” yang sebelumnya paling sulit dikendalikan pun mencapai ekspresi akurat 100%.

Mekanisme ini telah terbukti pada beberapa model seperti LLaMA dan Qwen, yang membuktikan bahwa ini adalah aturan umum untuk model bahasa besar.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar