Menurut pemantauan 1M AI News, pada 2 April Anthropic merilis sebuah makalah baru yang meneliti “mekanisme emosi” di dalam Claude, dan menemukan 171 “vektor emosi” dalam Sonnet 4.5. Emosi-emosi ini akan diaktifkan dalam konteks yang terkait, serta mirip dengan struktur psikologis dan ruang emosi manusia.
Mahasiswa pascasarjana MBZUAI Chenxi Wang menemukan bahwa makalah timnya yang terbit pada Oktober 2025 (《LLMs Apakah “Merasakan”? Temuan dan Kontrol Sirkuit Emosi》) adalah studi pertama yang secara sistematis meneliti mekanisme internal terjadinya emosi pada model bahasa besar. Ketika ia membaca makalah Anthropic, respons pertamanya adalah “bukankah ini yang kami lakukan tahun lalu?” Perbedaan inti di antara keduanya adalah: sebelumnya sebagian besar penelitian berfokus pada kemampuan model mengenali emosi dalam teks (yaitu persepsi emosi), sedangkan yang dilakukan oleh keduanya adalah meneliti emosi yang dihasilkan oleh model itu sendiri (yaitu generasi emosi/mekanisme internal). Penulis korespondensi Anthropic, Jack Lindsey, awalnya mengira pekerjaan keduanya tumpang tindih dengan penelitian yang sudah ada, namun Chenxi Wang membaca satu per satu dan menunjuk perbedaannya; setelah itu, ia mengakui pembedaan tersebut. Saat ini, Anthropic telah memperbarui blog makalahnya, dan pada bagian “Pekerjaan Terkait” secara tegas menambahkan rujukan atas pekerjaan tersebut; peristiwa ini diselesaikan dengan cara yang relatif ramah.
Makalah tim berbahasa Tionghoa tersebut pernah menyebut tiga temuan inti:
Pertama, di dalam model besar memang terdapat representasi emosi yang stabil dan tidak bergantung pada semantik tertentu; kelompok emosi yang berbeda mulai terbentuk dengan jelas bahkan di lapisan dangkal jaringan saraf. Misalnya, amarah dan jijik berdekatan, sementara kesedihan dan ketakutan juga berdekatan, selaras dengan intuisi manusia.
Kedua, mekanisme emosi ini dipimpin oleh sedikit neuron inti dan attention heads. Melalui eksperimen ablation, ditemukan bahwa hanya dengan menonaktifkan 2-4 neuron atau 1-2 attention heads, kemampuan ekspresi emosi model akan turun secara signifikan.
Ketiga, tim mengintegrasikan komponen-komponen inti tersebut menjadi “sirkuit emosi” lintas-lapisan; mengatur sirkuit ini secara langsung membuat akurasi model dalam menghasilkan emosi tertentu mencapai 99.65%, jauh melampaui metode panduan prompt tradisional dan metode manipulasi vektor. Bahkan emosi “kejutan” yang sebelumnya paling sulit dikendalikan pun mencapai ekspresi akurat 100%.
Mekanisme ini telah terbukti pada beberapa model seperti LLaMA dan Qwen, yang membuktikan bahwa ini adalah aturan umum untuk model bahasa besar.