Mitra Investasi Varian: Dilema dan Terobosan Sumber Terbuka AI, Mengapa teknologi enkripsi adalah potongan terakhir puzzle?

Penulis: Daniel Barabander

Kompilasi: TechFlow Deep Tide

Ringkasan singkat

Pengembangan AI dasar saat ini didominasi oleh beberapa perusahaan teknologi, yang menunjukkan karakteristik tertutup dan kurangnya persaingan.

Pengembangan perangkat lunak sumber terbuka, meskipun menjadi solusi potensial, namun AI dasar tidak dapat beroperasi seperti proyek sumber terbuka tradisional (seperti Linux) karena menghadapi 'masalah sumber daya': kontributor sumber terbuka tidak hanya perlu menghabiskan waktu tetapi juga perlu menanggung biaya komputasi dan data yang melebihi kemampuan pribadi.

Teknologi enkripsi dapat mendorong penyedia sumber daya untuk berpartisipasi dalam proyek AI sumber terbuka dasar, dengan harapan dapat mengatasi masalah sumber daya ini.

Menggabungkan AI open source dengan teknologi kripto dapat mendukung pengembangan model yang lebih besar dan mendorong lebih banyak inovasi untuk menciptakan sistem AI yang lebih canggih.

Pendahuluan

Menurut survei yang dilakukan oleh Pew Research Center pada tahun 2024, 64% orang Amerika percaya bahwa media sosial memiliki dampak negatif yang lebih besar daripada positif pada negara; 78% orang mengatakan bahwa perusahaan media sosial memiliki terlalu banyak kekuatan dan pengaruh dalam politik; 83% orang percaya bahwa platform-platform ini mungkin dengan sengaja menyensor pandangan politik yang tidak mereka setujui. Ketidakpuasan terhadap media sosial hampir menjadi konsensus yang jarang terjadi dalam masyarakat Amerika.

Melihat perkembangan media sosial selama 20 tahun terakhir, situasi ini tampaknya sudah ditentukan. Ceritanya tidak rumit: beberapa perusahaan teknologi besar menarik perhatian pengguna, yang lebih penting adalah menguasai data pengguna. Meskipun awalnya orang-orang memiliki harapan terhadap keterbukaan data, perusahaan-perusahaan ini dengan cepat mengubah strategi, menggunakan data untuk membangun efek jaringan yang tidak dapat dipecahkan, dan menutup akses dari pihak luar. Akhirnya, menciptakan situasi saat ini: kurang dari 10 perusahaan teknologi besar mendominasi industri media sosial, membentuk pola monopoli oligopoli. Karena situasi ini sangat menguntungkan bagi mereka, perusahaan-perusahaan ini hampir tidak memiliki motivasi untuk berubah. Model ini tertutup dan kurang persaingan.

Saat ini, perkembangan teknologi kecerdasan buatan (AI) tampaknya sedang mengulangi skenario ini, tetapi kali ini dampaknya lebih luas. Beberapa perusahaan teknologi mengendalikan sumber daya GPU dan data guna membangun model AI dasar, sambil menutup akses publik ke model-model tersebut. Bagi para pemain baru yang tidak memiliki miliaran dolar, mengembangkan model bersaing hampir tidak mungkin. Karena biaya komputasi hanya untuk melatih model dasar saja membutuhkan miliaran dolar, sementara perusahaan media sosial yang telah mendapat manfaat dari gelombang teknologi sebelumnya, sedang menggunakan kendali atas data pengguna eksklusif mereka untuk mengembangkan model-model yang sulit dikejar oleh pesaing. Kita sedang mengulangi kesalahan media sosial, menuju ke dunia AI yang tertutup dan kurang bersaing. Jika tren ini berlanjut, beberapa perusahaan teknologi akan memiliki kendali tak terbatas atas akses informasi dan peluang.

Open Source AI dan "Masalah Sumber Daya"

Jika kita tidak ingin melihat dunia AI yang tertutup, apa pilihannya? Jawabannya jelas adalah mengembangkan model dasar sebagai proyek perangkat lunak sumber terbuka. Dalam sejarah, kita telah memiliki banyak proyek sumber terbuka yang berhasil membangun perangkat lunak dasar yang kita andalkan sehari-hari. Misalnya, keberhasilan Linux membuktikan bahwa bahkan perangkat lunak inti seperti sistem operasi dapat dikembangkan melalui pendekatan sumber terbuka. Jadi, mengapa LLM (Large Language Models) tidak bisa?

Namun, keterbatasan khusus yang dihadapi oleh model AI dasar membuatnya berbeda dengan perangkat lunak tradisional, dan ini sangat melemahkan kelayakannya sebagai proyek sumber terbuka tradisional. Secara khusus, model AI dasar membutuhkan sumber daya komputasi dan data yang besar, yang jauh melampaui kemampuan individu. Berbeda dengan proyek sumber terbuka tradisional yang hanya mengandalkan sumbangan waktu dari orang-orang, AI sumber terbuka juga membutuhkan sumbangan kekuatan komputasi dan sumber daya data, inilah yang disebut sebagai 'masalah sumber daya'.

Contoh model LLaMa dari Meta memungkinkan kita untuk lebih memahami masalah sumber daya ini. Berbeda dengan pesaing seperti OpenAI dan Google, Meta tidak menyembunyikan model di balik API berbayar, tetapi secara terbuka memberikan bobot LLaMa untuk digunakan secara gratis oleh siapa pun (dengan beberapa batasan). Bobot ini mencakup pengetahuan yang dipelajari oleh model dalam proses pelatihan Meta, dan merupakan syarat yang diperlukan untuk menjalankan model. Dengan memiliki bobot ini, pengguna dapat melakukan penyesuaian model, atau menggunakan keluaran model sebagai input untuk model baru.

Meskipun rilis LLaMa Meta layak mendapat pengakuan, itu tidak dihitung sebagai proyek perangkat lunak sumber terbuka yang sebenarnya. Di belakang layar, Meta mengontrol proses pelatihan, mengandalkan sumber daya komputasi, data, dan keputusannya sendiri, dan secara sepihak memutuskan kapan harus membuat model tersedia untuk umum. Meta tidak mengundang peneliti atau pengembang independen untuk berpartisipasi dalam kolaborasi komunitas, karena sumber daya yang diperlukan untuk melatih atau melatih kembali model jauh melampaui kemampuan rata-rata individu. Sumber daya ini mencakup puluhan ribu GPU berkinerja tinggi, pusat data untuk menyimpan GPU tersebut, fasilitas pendinginan canggih, dan triliunan token (unit data teks yang diperlukan untuk pelatihan model) untuk pelatihan. Sebagaimana dicatat dalam laporan Indeks AI 2024 Stanford, "Kenaikan tajam dalam biaya pelatihan secara efektif mengecualikan universitas, yang secara tradisional merupakan pusat kekuatan penelitian AI, dari pengembangan model dasar tingkat atas." Misalnya, Sam Altman menyebutkan bahwa biayanya hingga $ 100 juta untuk melatih GPT-4, dan itu bahkan tidak termasuk pengeluaran modal untuk perangkat keras. Selain itu, belanja modal Meta meningkat sebesar $2,1 miliar pada Q2 2024 dibandingkan periode yang sama pada tahun 2023, terutama untuk server, pusat data, dan infrastruktur jaringan yang terkait dengan pelatihan model AI. Akibatnya, sementara kontributor komunitas LLaMa mungkin memiliki kemampuan teknis untuk meningkatkan arsitektur model, mereka kekurangan sumber daya untuk mengimplementasikan perbaikan tersebut.

Secara keseluruhan, berbeda dengan proyek perangkat lunak sumber terbuka tradisional, proyek AI sumber terbuka tidak hanya membutuhkan kontributor untuk menginvestasikan waktu, tetapi juga memerlukan mereka untuk menanggung biaya komputasi dan data yang tinggi. Mengandalkan kebaikan hati dan semangat sukarela untuk memotivasi penyedia sumber daya yang cukup tidak realistis. Mereka memerlukan mekanisme insentif lebih lanjut. Sebagai contoh, dalam model bahasa sumber terbuka BLOOM, model ini memiliki 176 miliar parameter dan mengumpulkan upaya dari 1000 peneliti sukarelawan dari lebih dari 70 negara dan 250 lembaga. Meskipun keberhasilan BLOOM patut diacungi jempol (saya sepenuhnya mendukung ini), namun memerlukan waktu satu tahun untuk mengkoordinasi satu kali pelatihan, dan bergantung pada dana bantuan 3 juta euro dari lembaga penelitian Prancis (belum termasuk pengeluaran modal untuk komputer super untuk melatih model). Bergantung pada putaran pendanaan baru untuk mengkoordinasikan dan mengembangkan BLOOM terlalu rumit dan tidak dapat dibandingkan dengan kecepatan pengembangan laboratorium teknologi besar. Sudah lebih dari dua tahun sejak BLOOM dirilis, dan saat ini belum ada kabar bahwa tim tersebut telah mengembangkan model lanjutan apa pun.

Untuk membuat AI sumber terbuka menjadi mungkin, kita perlu mencari cara untuk mendorong penyedia sumber daya untuk berkontribusi pada kemampuan komputasi dan sumber daya data mereka, bukan membiarkan kontributor sumber terbuka menanggung biaya ini sendiri.

Mengapa teknologi kriptografi dapat mengatasi 'masalah sumber daya' AI open source dasar

Terobosan inti dalam teknologi enkripsi adalah melalui mekanisme 'kepemilikan', membuat proyek perangkat lunak sumber terbuka yang membutuhkan sumber daya tinggi menjadi mungkin. Ini memecahkan masalah sumber daya AI sumber terbuka dengan mendorong penyedia sumber daya potensial untuk berpartisipasi dalam jaringan, bukan membuat kontributor sumber terbuka harus memikul biaya sumber daya tersebut.

Bitcoin adalah contoh yang sangat baik. Sebagai proyek kripto tertua, Bitcoin adalah proyek perangkat lunak open source sepenuhnya, dengan kode sumbernya tersedia untuk umum sejak awal. Namun, kode itu sendiri bukanlah kunci dari Bitcoin. Hanya mengunduh dan menjalankan perangkat lunak node Bitcoin, membuat blockchain lokal tidak memiliki arti praktis. Nilai sebenarnya dari perangkat lunak ini hanya terwujud ketika jumlah komputasi untuk menambang blok melebihi kemampuan komputasi individu apa pun: memelihara buku besar yang terdesentralisasi dan tidak terkendali. Sama seperti AI open source dasar, Bitcoin juga merupakan proyek open source yang membutuhkan sumber daya di luar jangkauan individu. Meskipun kedua hal ini memiliki alasan yang berbeda untuk membutuhkan sumber daya komputasi - Bitcoin membutuhkan sumber daya komputasi untuk memastikan jaringan tidak dapat dimanipulasi, sementara AI dasar membutuhkan sumber daya komputasi untuk mengoptimalkan dan mengulangi model - namun keduanya memiliki kesamaan bahwa keduanya membutuhkan sumber daya yang melampaui kemampuan individu.

Bitcoin, serta jaringan kripto lainnya, mampu mendorong peserta untuk menyediakan sumber daya untuk proyek perangkat lunak sumber terbuka melalui Token sebagai 'rahasia' utamanya. Seperti yang dijelaskan oleh Jesse dalam ide pendirian yang ditulisnya untuk Variant pada tahun 2020, kepemilikan memberikan dorongan yang kuat bagi penyedia sumber daya untuk bersedia menyumbangkan sumber daya mereka dengan imbalan potensi keuntungan dalam jaringan. Mekanisme ini mirip dengan perusahaan rintisan yang menggunakan 'Ekuitas Keringat' (Sweat Equity) untuk mengatasi kekurangan dana pada tahap awal - dengan membayar karyawan awal (misalnya pendiri) dalam bentuk kepemilikan perusahaan, perusahaan rintisan dapat menarik tenaga kerja yang sebenarnya tidak dapat mereka bayar sebelumnya. Teknologi kripto memperluas konsep 'Ekuitas Keringat' dari fokus pada kontributor waktu menjadi penyedia sumber daya. Oleh karena itu, Variant berfokus pada berinvestasi dalam proyek-proyek yang menggunakan mekanisme kepemilikan untuk membangun efek jaringan, seperti Uniswap, Morpho, dan World.

Jika kita ingin AI open source menjadi kenyataan, maka mekanisme kepemilikan yang diimplementasikan melalui teknologi enkripsi adalah solusi kunci untuk menyelesaikan masalah sumber daya. Mekanisme ini memungkinkan para peneliti untuk secara bebas menyumbangkan konsep desain model mereka ke proyek open source, karena sumber daya komputasi dan data yang dibutuhkan untuk mewujudkan ide-ide ini akan ditanggung oleh penyedia sumber daya, dan penyedia sumber daya akan memperoleh sebagian kepemilikan proyek sebagai imbalan, bukan menuntut peneliti untuk menanggung biaya awal yang mahal. Dalam AI open source, kepemilikan dapat berbentuk berbagai macam, tetapi yang paling diharapkan adalah kepemilikan atas model itu sendiri, yang juga merupakan solusi yang diusulkan oleh Pluralis.

Pendekatan yang diusulkan oleh Pluralis dikenal sebagai Model Protokol. Dalam model ini, penyedia sumber daya komputasi dapat menyumbangkan daya komputasi untuk melatih model sumber terbuka tertentu dan dengan demikian menerima kepemilikan sebagian dari pendapatan inferensi masa depan model tersebut. Karena kepemilikan ini terkait dengan model tertentu, dan nilainya didasarkan pada pendapatan inferensi model, penyedia sumber daya komputasi diberi insentif untuk memilih model optimal untuk dilatih tanpa memalsukan data pelatihan (karena memberikan pelatihan yang tidak berguna secara langsung mengurangi nilai yang diharapkan dari pendapatan inferensi di masa mendatang). Namun, pertanyaan kuncinya adalah: bagaimana Pluralis memastikan keamanan kepemilikan jika proses pelatihan mengharuskan bobot model dikirim ke penyedia komputasi? Jawabannya terletak pada penggunaan Model Parallelism untuk mendistribusikan pecahan model ke pekerja yang berbeda. Fitur penting dari jaringan saraf adalah bahwa bahkan jika hanya sebagian kecil dari bobot model yang diketahui, komputator masih dapat berpartisipasi dalam pelatihan, memastikan bahwa set bobot lengkap tidak dapat diekstraksi. Selain itu, karena banyak model yang berbeda dilatih pada saat yang sama pada platform Pluralis, pelatih akan dihadapkan dengan sejumlah besar set bobot yang berbeda, yang membuatnya sangat sulit untuk membangun kembali model penuh.

Prinsip inti dari Protocol Models adalah bahwa model-model ini dapat dilatih, dapat digunakan, tetapi tidak dapat diekstraksi sepenuhnya dari protokol (kecuali jika kekuatan komputasi yang digunakan melebihi sumber daya yang diperlukan untuk melatih model dari awal). Mekanisme ini mengatasi masalah yang sering dikeluhkan oleh para kritikus AI open-source, yaitu pesaing AI yang tertutup mungkin mencuri hasil kerja proyek open-source.

Mengapa Teknologi Enkripsi + Open Source = AI yang Lebih Baik

Di awal artikel, saya menjelaskan masalah etika dan standar AI yang terkait dengan kontrol perusahaan teknologi besar terhadap AI tertutup. Namun, dalam era jaringan yang penuh dengan keputusasaan, saya khawatir argumen semacam itu mungkin sulit untuk dipahami oleh sebagian besar pembaca. Oleh karena itu, saya ingin memberikan dua alasan dari sudut pandang efek nyata untuk menjelaskan mengapa AI sumber terbuka yang didukung oleh teknologi enkripsi dapat membawa AI yang lebih baik.

Pertama, gabungan teknologi enkripsi dan AI sumber terbuka dapat mengkoordinasikan lebih banyak sumber daya, sehingga mendorong perkembangan Model Dasar generasi berikutnya. Penelitian menunjukkan bahwa peningkatan dalam kapasitas komputasi maupun sumber daya data dapat meningkatkan kinerja model, inilah alasan mengapa skala Model Dasar terus berkembang. Bitcoin telah menunjukkan potensi perangkat lunak sumber terbuka yang dikombinasikan dengan teknologi enkripsi dalam kapasitas komputasi. Ia telah menjadi jaringan komputasi terbesar dan terkuat di dunia, jauh melebihi sumber daya komputasi cloud yang dimiliki oleh perusahaan teknologi besar. Keunikan teknologi enkripsi terletak pada kemampuannya untuk mengubah persaingan individual menjadi kolaborasi. Dengan mendorong penyedia sumber daya untuk berkontribusi dalam menyelesaikan masalah bersama, bukan bertarung sendiri-sendiri dan melakukan pekerjaan ganda, jaringan enkripsi berhasil memanfaatkan sumber daya dengan efisien. Dengan bantuan AI sumber terbuka yang menggunakan teknologi enkripsi, dapat memanfaatkan sumber daya komputasi dan data global, serta membangun model yang jauh lebih besar daripada AI tertutup. Sebagai contoh, perusahaan Hyperbolic telah menunjukkan potensi model ini. Melalui pasar terbuka, mereka memungkinkan siapa pun untuk menyewa GPU dengan biaya yang lebih rendah, sehingga memanfaatkan sumber daya komputasi terdistribusi secara maksimal.

Selanjutnya, gabungan teknologi enkripsi dan AI sumber terbuka akan mendorong percepatan inovasi. Hal ini karena begitu masalah sumber daya teratasi, penelitian pembelajaran mesin dapat kembali ke sifat dasar sumber terbuka yang sangat iteratif dan inovatif. Sebelum munculnya model bahasa besar (LLM), para peneliti pembelajaran mesin biasanya akan secara terbuka mempublikasikan model mereka beserta rancangan desain yang dapat direplikasi. Model-model ini biasanya menggunakan set data sumber terbuka, serta kebutuhan komputasi yang relatif rendah, sehingga para peneliti dapat terus mengoptimalkan dan berinovasi berdasarkan hal-hal tersebut. Proses iterasi terbuka inilah yang melahirkan banyak terobosan dalam bidang pemodelan urutan, seperti jaringan saraf rekurensi (RNN), jaringan memori jangka pendek dan panjang (LSTM), dan mekanisme perhatian (Attention Mechanisms), yang akhirnya membuat arsitektur model Transformer menjadi mungkin. Namun, cara penelitian terbuka ini mengalami perubahan setelah peluncuran GPT-3. Keberhasilan GPT-3 dan ChatGPT oleh OpenAI membuktikan bahwa asal ada sumber daya komputasi dan data yang cukup, dapat dilatih model bahasa besar yang memiliki kemampuan pemahaman bahasa. Trend ini menyebabkan ambang sumber daya melonjak tajam, mengakibatkan dunia akademis semakin terpinggirkan, sementara perusahaan teknologi besar untuk mempertahankan keunggulan kompetitif, tidak lagi membuka arsitektur model mereka. Situasi ini membatasi kemampuan kita dalam mendorong teknologi AI terdepan.

AI open-source yang diimplementasikan melalui teknologi enkripsi dapat mengubah situasi ini. Ini memungkinkan peneliti untuk iterasi kembali pada model-model terdepan dan menemukan "Transformer berikutnya". Kombinasi ini tidak hanya dapat mengatasi masalah sumber daya, tetapi juga dapat membangkitkan kembali inovasi di bidang pembelajaran mesin, membuka jalan yang lebih luas untuk perkembangan AI di masa depan.

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)