Apakah model bahasa besar memiliki kemampuan penalaran non-verbal?

Question

Sumber: Quantum NumberSebuah artikel utama dari Ars Technica hari ini membahas apakah model bahasa besar memiliki kemampuan penalaran non-linguistik, mengutip penemuan peneliti bahwa pemrosesan dalam "ruang laten" dapat membantu kecerdasan buatan menyelesaikan masalah logika yang sulit. Apa yang terjadi? Mari kita lanjutkan membaca.Sejauh ini, model bahasa berukuran besar telah mencapai kesuksesan besar dengan menggunakan arsitektur transformernya untuk secara efektif memprediksi kata berikutnya (yaitu tanda bahasa) yang diperlukan untuk merespon query. Namun, ketika menyangkut tugas penalaran kompleks yang membutuhkan pemikiran abstrak, beberapa peneliti menemukan bahwa mengartikan segalanya melalui 'ruang bahasa' ini dapat menyebabkan beberapa masalah, bahkan bagi model 'penalaran' modern.Saat ini, para peneliti sedang mencoba untuk memecahkan masalah-masalah ini dengan merancang model-model yang dapat menghitung solusi logis potensial di 'ruang laten' - yaitu lapisan komputasi tersembunyi sebelum generator bahasa menghasilkan. Meskipun pendekatan ini tidak akan mengubah kemampuan penalaran model bahasa besar secara drastis, namun ini secara signifikan meningkatkan akurasi dalam beberapa jenis masalah logis, dan mengindikasikan arah penelitian baru yang menarik.## **Tunggu sebentar, ruang apa ini?**Model penalaran modern (seperti o1 ChatGPT) cenderung bekerja dengan menghasilkan 'rantai pemikiran'. Dalam model-model ini, setiap langkah dalam proses logika diwakili oleh serangkaian tanda kata dalam bahasa alami dan disampaikan kembali melalui umpan balik model.Dalam makalah baru-baru ini, tim peneliti kecerdasan buatan dasar Meta dan Universitas California San Diego menganggap ketergantungan pada bahasa alami dan 'tanda kata' sebagai 'faktor pembatas dasar' dari model inferensi ini. Ini karena tugas inferensi yang sukses sering memerlukan perencanaan yang kompleks untuk tanda kunci tertentu, sehingga dapat menemukan jalur logika yang benar dari banyak pilihan.![](https://img.jinse.cn/7333100_image3.png)Gambar di atas menjelaskan bahwa setiap langkah dalam model standar harus melalui pengubah, berbeda dengan model COCONUT yang menggunakan status 'latent' tersembunyi. (Sumber gambar: Training Large Language Models to Reason in a Continuous Latent Space)Para peneliti menulis bahwa dalam model rantai pemikiran saat ini, penanda kata umumnya dibuat untuk 'kohesi teks' dan 'kelancaran', bukan 'kontribusi yang sangat kecil terhadap proses penalaran aktual'. Sebaliknya, mereka menyarankan, 'situasi ideal adalah model bahasa besar dapat bernalar bebas tanpa batasan bahasa apa pun, dan hanya mengubah temuannya menjadi bahasa jika diperlukan'.Untuk mewujudkan "idealis" ini, para peneliti menggambarkan metode untuk "melatih model bahasa skala besar dalam melakukan penalaran di ruang laten kontinu", seperti yang dijelaskan dalam judul makalah. "Ruang laten" ini pada dasarnya terdiri dari sekumpulan bobot tanda tengah yang "tersembunyi", yang merupakan versi bahasa alami yang dapat dibaca manusia dari status internal yang dihasilkan oleh model transformer sebelumnya.Dalam model COCONUT (Continuous Cognitive Chain) dari para peneliti, keadaan tersembunyi ini dienkripsi sebagai "pemikiran laten", yang menggantikan langkah-langkah tertulis tunggal dalam urutan logis saat pelatihan dan pemrosesan kueri. Para peneliti menulis bahwa ini menghindari konversi setiap langkah menjadi bahasa alami dan "membebaskan penalaran dari ruang bahasa", menghasilkan jalur penalaran yang dioptimalkan yang mereka sebut sebagai "pemikiran berkelanjutan".## **Pandangan Lebih Luas**Meskipun memproses logika di ruang potensial memiliki manfaat dalam meningkatkan efisiensi model, temuan yang lebih penting adalah bahwa model ini dapat "mengkodekan banyak langkah berikutnya yang mungkin" secara bersamaan. Memproses logika di "ruang potensial" memungkinkan pengembalian langsung, yang disamakan oleh para peneliti dengan mencari secara keseluruhan di grafik, bukan hanya dalam proses "serakah" untuk menemukan setiap opsi logika secara berurutan.Peneliti menyatakan bahwa bahkan jika model tidak dilatih secara eksplisit, fitur pemrosesan spontan dan sinkron ini akan tercermin dalam pengujian. 'Meskipun pada awalnya model mungkin tidak membuat keputusan yang benar, namun dapat mempertahankan banyak pilihan yang mungkin dalam pemikiran yang berkelanjutan, dan secara bertahap menghilangkan jalur yang salah melalui penalaran yang dipandu oleh beberapa fungsi nilai tersembunyi,' tulis mereka.![](https://img.jinse.cn/7333101_image3.png)Grafik ini menyoroti beberapa cara di mana model-model yang berbeda dapat gagal dalam beberapa jenis penalaran logis. (Sumber gambar: Training Large Language Models to Reason in a Continuous Latent Space)Dalam tes penalaran matematis yang relatif sederhana (GSM8K) atau tes penalaran umum (ProntoQA), model penalaran multipath ini tidak meningkatkan akurasi COCONUT secara signifikan dibandingkan dengan model rantai pemikiran tradisional. Namun, peneliti menemukan bahwa model ini lebih baik dalam sekelompok query ProntoQA yang dihasilkan secara acak yang melibatkan kumpulan kondisi logis yang kompleks dan rumit (misalnya, 'setiap apel adalah buah, setiap buah adalah makanan, dan sebagainya').Untuk tugas-tugas ini, model pemikiran rantai logika standar sering kali terjebak dalam kebuntuan penalaran saat mencoba menyelesaikan masalah logika rantai, bahkan menghasilkan aturan yang sepenuhnya fiktif. Penelitian sebelumnya juga menunjukkan bahwa "langkah-langkah logika" yang dihasilkan oleh model pemikiran rantai ini "sebenarnya mungkin menggunakan proses penalaran potensial yang berbeda dari proses penalaran bersama".Penelitian baru ini bergabung dengan semakin banyak penelitian yang bertujuan untuk memahami dan memanfaatkan bagaimana model bahasa besar bekerja pada tingkat jaringan saraf yang mendasarinya. Meskipun tidak ada terobosan besar yang dibuat dalam jenis penelitian ini, para peneliti percaya bahwa model pra-terlatih dengan "pemikiran berkelanjutan" ini sejak awal dapat "memungkinkan model untuk menggeneralisasi lebih efektif dalam berbagai skenario inferensi yang lebih luas."