Meneruskan Judul Asli: Komputasi Terdesentralisasi
Artikel hari ini membahas sektor komputasi terdesentralisasi yang muncul namun sering kali disalahpahami dalam dunia kripto. Kami menyelami lanskap infrastruktur AI untuk memahami di mana alternatif terdesentralisasi dapat bersaing secara realistis.
Kami mengeksplorasi pertanyaan seperti: Bisakah ASI dilatih di jaringan terdistribusi? Apa keuntungan unik yang ditawarkan oleh jaringan kripto? Dan mengapa infrastruktur komputasi yang tanpa izin mungkin menjadi sama pentingnya bagi AI seperti Bitcoin bagi keuangan.
Polanya yang umum yang akan Anda perhatikan dalam artikel ini adalah pertumbuhan eksponensial dari segala sesuatu yang berhubungan dengan AI - investasi, komputasi, dan kemampuan. Ini bersamaan dengan kebangkitan kembali pasar kripto dan perhatian publik. Kami sangat bersemangat tentang persimpangan dari dua gelombang teknologi utama ini.
Halo!
Pada hari yang cerah di Memphis, Tennessee, pesawat mata-mata baling-baling berulang kali mengelilingi gedung industri, penumpangnya dengan panik memotret fasilitas di bawah. Ini bukanlah adegan dari mata-mata Perang Dingin tetapi dari tahun 2024. Targetnya bukan instalasi militer atau situs pengkayaan uranium tetapi pabrik peralatan bekas yang sekarang menjadi rumah salah satu superkomputer terkuat di dunia. Penumpangnya bukan agen asing tetapi karyawan dari perusahaan pusat data pesaing.
Setiap beberapa dekade, teknologi transformatif muncul dengan potensi untuk mengubah lintasan peradaban tanpa ragu. Apa yang terjadi selanjutnya adalah perlombaan antara entitas paling kuat di dunia untuk pertama kali mewujudkan teknologi ini. Hadiahnya begitu besar, dan konsekuensi kegagalan sangat menghancurkan, sehingga entitas-entitas ini dengan cepat menggerakkan seluruh sumber daya mereka—bakat manusia dan modal—untuk menguasai teknologi ini.
Di abad ke-20, dua teknologi unggulan sesuai definisi ini—senjata nuklir dan eksplorasi luar angkasa. Perlombaan untuk menguasai teknologi ini melibatkan negara-negara adidaya. Kemenangan Amerika Serikat dalam kedua hal tersebut memantapkan statusnya sebagai superpower dominan di dunia, membawa masuk era kemakmuran yang tak tertandingi. Bagi yang kalah—Jerman Nazi dan Uni Soviet—akibatnya sangat menghancurkan, bahkan fatal.
Pabrik K-25 seluas 44 hektar di Oak Ridge, Tennessee, AS, tempat uranium untuk senjata atom pertama diproduksi.sumber)
Kemenangan Amerika membawa harga yang sangat mahal. Proyek Manhattan menghabiskan hampir $2 miliar (sekitar $30 miliar setelah disesuaikan dengan inflasi) dan melibatkan lebih dari 120.000 orang - satu dari setiap seribu orang Amerika. Perlombaan antariksa menuntut sumber daya yang lebih besar lagi. Program Apollo menghabiskan $28 miliar pada tahun 1960-an (sekitar $300 miliar dalam uang saat ini) dan melibatkan lebih dari 400.000 orang - satu dari 490 orang Amerika. Pada puncaknya pada tahun 1966, NASA menguasai 4,4% dari seluruh anggaran federal AS.
Apollo 11, tepat sebelum lepas landas menuju misi ke bulan ( sumber)
Peluncuran ChatGPT pada tahun 2022 menandai dimulainya perlombaan baru dengan proporsi yang mengubah peradaban - pengejaran kecerdasan buatan super (ASI). Sementara AI sudah terjalin dalam kehidupan sehari-hari - mengelola umpan media sosial, rekomendasi Netflix, dan filter spam email - munculnya model bahasa besar (LLM) berjanji untuk mengubah segalanya: produktivitas manusia, kreasi media, penelitian ilmiah, dan inovasi itu sendiri.
Kali ini, para pesaing bukanlah negara-negara (setidaknya, belum) tetapi perusahaan-perusahaan terbesar di dunia (Microsoft, Google, Meta, Amazon), startup-startup terpanas (OpenAI, Anthropic), dan individu terkaya (Elon Musk). Sementara Big Tech mengalirkan modal yang belum pernah terjadi sebelumnya ke dalam membangun infrastruktur untuk melatih model-model yang lebih kuat, startup-startup sedang mengamankan pemecah rekorpendanaan modal ventura. Elon adalah, baiklah, melakukan hal-hal Elon(pusat data yang berada di bawah pengawasan milik perusahaannya, xAI).
Dan kemudian ada semua orang lain—perusahaan, perusahaan kecil, dan startup—yang mungkin tidak bercita-cita membangun ASI tetapi sangat ingin memanfaatkan kemampuan canggih yang dibuka oleh AI untuk mengoptimalkan bisnis mereka, mengganggu industri, atau menciptakan yang benar-benar baru. Potensi imbalan sangat besar sehingga semua orang berlomba-lomba untuk mengklaim bagian mereka dari ekonomi yang didorong mesin-intelijen baru ini.
Di tengah revolusi AI terletak komponen paling pentingnya: unit pemrosesan grafis (GPU). Awalnya dirancang untuk menggerakkan permainan video, chip komputer khusus ini telah menjadi komoditas paling diminati di dunia. Permintaan akan GPU sangat besar sehingga perusahaan sering kali mengalami kesulitandaftar tunggu berbulan-bulanhanya untuk memperoleh beberapa. Permintaan ini telah melonjakkan NVIDIA, pabrikan utama mereka, ke posisi perusahaan paling berharga di dunia.
Untuk bisnis yang tidak mampu atau tidak ingin membeli GPU secara langsung, menyewa daya komputasi telah menjadi pilihan terbaik berikutnya. Ini telah mendorong munculnya penyedia awan AI—perusahaan yang mengoperasikan pusat data canggih yang dirancang untuk memenuhi kebutuhan komputasi dari ledakan AI. Namun, lonjakan permintaan dan sifat yang tidak terduga berarti bahwa baik harga maupun ketersediaan tidak menjamin.
Saya berdebat bahwa crypto berfungsi sebagai teknologi "Coasian", yang dirancang untuk "melumasi roda, membuka jalan, dan memperkuat jembatan" agar inovasi mengganggu lainnya berkembang. Ketika AI muncul sebagai kekuatan transformatif di era kita, kelangkaan dan biaya akses GPU yang terlalu tinggi menghadirkan penghalang bagi inovasi. Beberapa perusahaan crypto melangkah masuk, bertujuan untuk mendobrak hambatan ini dengan insentif berbasis blockchain.
Dalam artikel hari ini, kita pertama-tama mundur dari crypto untuk memeriksa dasar-dasar infrastruktur AI modern - bagaimana jaringan saraf belajar, mengapa GPU menjadi penting, dan bagaimana pusat data hari ini berkembang untuk memenuhi permintaan komputasi yang belum pernah terjadi sebelumnya. Kemudian, kita menyelam ke dalam solusi komputasi terdesentralisasi, menjelajahi di mana mereka dapat bersaing secara realistis dengan penyedia tradisional, keuntungan unik yang ditawarkan oleh jaringan crypto, dan mengapa - meskipun mereka tidak akan memberi kita AGI - mereka masih akan menjadi penting untuk memastikan manfaat AI tetap dapat diakses oleh semua orang.
Mari kita mulai dengan mengapa GPU begitu penting dalam hal ini.
Ini adalah David, patung marmer setinggi 17 kaki dan berat 6 ton yang dibuat oleh master jenius Renaisans Italia, Michelangelo. Ini menggambarkan pahlawan biblikal dari kisah David dan Goliath dan dianggap sebagai mahakarya karena representasi anatomi manusia yang sempurna dan perhatian yang cermat terhadap perspektif dan detail.
Seperti semua patung marmer, David dimulai sebagai lempengan marmer Carrara yang besar dan kasar. Untuk mencapai bentuk akhirnya yang megah, Michelangelo harus dengan hati-hati mengikis batu tersebut. Dimulai dengan sapuan lebar dan tegas untuk menetapkan bentuk dasar manusia, ia kemudian melanjutkan ke detail yang semakin halus - lengkung otot, ketegangan di pembuluh darah, ekspresi halus ketekunan di mata. Michelangelo membutuhkan tiga tahun untuk membebaskan David dari batu.
Tapi mengapa membahas patung marmer yang berusia 500 tahun dalam artikel tentang AI?
Seperti David, setiap jaringan saraf dimulai sebagai potensi murni—sekelompok simpul yang diinisialisasi dengan angka acak (bobot), seformless blok marmer Carrara yang besar.
Model mentah ini secara berulang kali diberi data pelatihan—banyak contoh input dipasangkan dengan output yang benar. Setiap titik data yang melewati jaringan memicu ribuan perhitungan. Di setiap simpul (neuron), koneksi masuk mengalikan nilai input dengan bobot koneksi, menjumlahkan produk-produk ini, dan mentransformasikan hasilnya melalui sebuah “fungsi aktivasi” yang menentukan kekuatan pemantulan neuron.
Sama seperti Michelangelo yang akan mundur, menilai karyanya, dan mengoreksi jalannya, jaringan saraf mengalami proses penyempurnaan. Setelah setiap langkah maju, jaringan membandingkan outputnya dengan jawaban yang benar dan menghitung margin kesalahannya. Melalui proses yang disebut backpropagation, ia mengukur seberapa besar setiap koneksi berkontribusi terhadap kesalahan dan, seperti pukulan pahat Michelangelo, melakukan penyesuaian terhadap nilainya. Jika suatu koneksi menghasilkan prediksi yang salah, pengaruhnya berkurang. Jika membantu mencapai jawaban yang benar, pengaruhnya menjadi lebih kuat.
Ketika semua data melewati jaringan (menyelesaikan satu langkah propagasi maju dan mundur per titik data), itu menandai akhir dari satu “epok.” Proses ini diulang beberapa kali, dengan setiap kali melewati memperbaiki pemahaman jaringan. Selama epok awal, perubahan bobot dramatis karena jaringan melakukan penyesuaian yang luas—seperti pukulan pahat pertama yang tebal. Pada epok yang lebih akhir, perubahan menjadi lebih halus, menyetel koneksi untuk performa yang optimal—seperti sentuhan akhir yang halus membawa keluar detail-detail David.
Akhirnya, setelah ribuan atau jutaan iterasi, model yang terlatih muncul. Seperti David yang tegak dengan bentuknya yang selesai, jaringan saraf berubah dari noise acak menjadi sistem yang mampu mengenali pola, membuat prediksi, menghasilkan gambar kucing yang sedang naik skuter, atau memungkinkan komputer untuk memahami dan merespons bahasa manusia.
Michelangelo, yang bekerja sendiri pada patung David, hanya bisa melakukan satu kali pukulan pahat pada satu waktu, masing-masing membutuhkan perhitungan sudut, kekuatan, dan posisi yang tepat. Ketelitian yang memakan waktu ini adalah alasan mengapa ia membutuhkan tiga tahun yang tiada henti untuk menyelesaikan mahakaryanya. Namun bayangkan ribuan ahli pahat yang sama terampil bekerja pada David dengan koordinasi yang sempurna—satu tim pada keriting rambut, tim lain pada otot tubuh, dan ratusan orang lagi pada detail-detail rumit wajah, tangan, dan kaki. Upaya paralel seperti itu akan memampatkan tiga tahun itu menjadi beberapa hari saja.
Demikian juga, meskipun CPU kuat dan akurat, mereka hanya dapat melakukan satu perhitungan pada satu waktu. Pelatihan jaringan saraf tidak memerlukan satu perhitungan kompleks tetapi ratusan juta perhitungan sederhana-terutama perkalian dan penjumlahan pada setiap simpul. Misalnya, jaringan saraf sampel yang disebutkan sebelumnya, dengan hanya 18 simpul dan sekitar 100 koneksi (parameter), dapat dilatih pada CPU dalam waktu yang wajar.
Namun, model-model terkuat saat ini, seperti GPT-4 dari OpenAI, memiliki 1,8 triliun parameter! Bahkan model-model modern yang lebih kecil setidaknya mengandung miliaran parameter. Melatih model-model ini satu perhitungan per satu waktu akan memakan waktu berabad-abad. Di sinilah GPU unggul: mereka dapat melakukan sejumlah besar komputasi matematika sederhana secara bersamaan, sehingga ideal untuk memproses beberapa node jaringan saraf secara paralel.
GPU modern sangat kuat. GPU terbaru NVIDIA, misalnya, terdiri dari lebih dari 200 miliar transistor dan mendukung 2.250 triliun komputasi paralel per detik (2.250 TFLOPS). Satu GPU B200 dapat menangani model dengan hingga 740 miliar parameter. Mesin-mesin ini merupakan prestasi rekayasa modern, yang menjelaskan mengapa NVIDIA, menjual setiap unitnya seharga $40.000, telah melihat harga sahamnya melonjak lebih dari 2.500% dalam lima tahun.
Jensen Huang mempresentasikan NVIDIA B200
Namun bahkan mesin-mesin tangguh ini pun tidak dapat melatih model AI sendirian. Ingat bahwa selama pelatihan setiap contoh data harus melewati model dalam siklus maju dan mundur secara individu. Model bahasa besar modern (LLM) dilatih pada dataset yang mencakup seluruh internet. GPT-4, misalnya, memproses perkiraan 12 triliun token (sekitar 9 triliun kata), dan generasi model berikutnya diharapkan dapat menangani hingga 100 triliun token. Menggunakan satu GPU untuk volume data sebesar itu masih akan memakan waktu berabad-abad.
Solusinya terletak pada menambahkan lapisan paralelisme lain—menciptakan kluster GPU di mana tugas pelatihan didistribusikan di antara banyak GPU yang bekerja sebagai sistem yang terpadu. Beban kerja pelatihan model dapat diparalelkan dengan tiga cara:
Parallelisme Data: Beberapa GPU masing-masing mempertahankan salinan lengkap dari model jaringan saraf sambil memproses bagian-bagian yang berbeda dari data pelatihan. Setiap GPU memproses paket data yang ditugaskan secara independen sebelum secara berkala disinkronkan dengan semua GPU lainnya. Dalam periode sinkronisasi ini, GPU berkomunikasi satu sama lain untuk mencari rata-rata kolektif dari bobot mereka dan kemudian memperbarui bobot individu mereka sehingga semuanya identik. Akibatnya, mereka terus melatih paket data mereka secara individu sebelum waktunya untuk disinkronkan lagi.
Seiring dengan pertumbuhan model yang semakin besar, satu salinan dapat menjadi terlalu besar untuk muat di satu GPU. Misalnya, GPU B200 terbaru hanya dapat menampung 740 miliar parameter sedangkan GPT-4 merupakan model dengan 1,8 triliun parameter. Paralelisme data di antara GPU individu tidak berfungsi dalam kasus ini.
Parallelisme Tensor: Pendekatan ini mengatasi batasan memori dengan mendistribusikan pekerjaan dan bobot setiap layer model ke beberapa GPU. GPU bertukar perhitungan intermediate dengan seluruh klaster selama setiap langkah propagasi maju dan mundur. GPU ini biasanya dikelompokkan dalam server delapan unit, yang terhubung melalui NVLink—koneksi langsung GPU-to-GPU berkecepatan tinggi milik NVIDIA. Pengaturan ini membutuhkan koneksi berkecepatan tinggi (hingga 400 Gb/s) dan latensi rendah antar GPU. Klaster tensor berfungsi secara efektif sebagai satu GPU besar.
Pipeline Parallelism: Metode ini membagi model di beberapa GPU, dengan masing-masing GPU menangani lapisan tertentu. Data mengalir melalui GPU ini secara berurutan, seperti perlombaan relai di mana setiap pelari (GPU) mengelola porsi mereka sebelum meneruskan tongkat estafet. Paralelisme pipeline sangat efektif untuk menghubungkan server 8-GPU yang berbeda dalam pusat data, menggunakan jaringan InfiniBand berkecepatan tinggi untuk komunikasi antar-server. Meskipun persyaratan komunikasinya melebihi paralelisme data, mereka tetap lebih rendah daripada pertukaran GPU-ke-GPU intensif paralelisme tensor.
Skala klaster modern sangat luar biasa. GPT-4, dengan 1,8 triliun parameter dan 120 lapisan, memerlukan 25.000 GPU A100 untuk pelatihan. Proses ini memakan waktu tiga bulan dan biayanya lebih dari $60 juta. A100 adalah generasi yang lebih lama; menggunakan GPU B200 saat ini hanya memerlukan sekitar 8.000 unit dan 20 hari pelatihan. Hanya demonstrasi lain betapa cepatnya perkembangan AI.
Tapi kelas model GPT-4 sekarang adalah mainan lama. Pelatihan untuk generasi berikutnya dari model-model canggih sedang berlangsung di pusat data yang memuat klaster-kaster 100.000 B100 atau H100 GPU (yang terakhir merupakan satu generasi lebih tua). Klaster-klaster ini, mewakili lebih dari $4 miliar dalam biaya modal GPU saja, adalah superkomputer paling kuat umat manusia, memberikan setidaknya empat kali lipat kekuatan komputasi mentah dari milik pemerintah.
Selain mengamankan komputasi mentah, calon ASI menghadapi masalah lain saat mencoba menyiapkan cluster-cluster ini: listrik. Setiap GPU ini mengonsumsi 700W daya. Ketika Anda menggabungkan 100.000 unit, seluruh cluster (termasuk perangkat keras pendukung) mengonsumsi lebih dari 150MW daya. Untuk memberikan gambaran, konsumsi ini sama dengan sebuah kota dengan 300.000 orang—dibandingkan dengan New Orleans atau Zurich.
Kegilaan tidak berhenti di sini. Sebagian besar calon ASI percaya bahwa Hukum skala LLM—yang menunjukkan bahwa performa model meningkat secara dapat diprediksi dengan peningkatan ukuran model, ukuran himpunan data, dan komputasi pelatihan—akan terus berlaku. Rencana sudah bergerak untuk menjalankan pelatihan model yang bahkan lebih kuat. Pada tahun 2025, biaya setiap klaster pelatihan diproyeksikan melebihi $ 10 miliar. Pada tahun 2027, lebih dari $ 100 miliar. Ketika angka-angka ini mendekati investasi pemerintah AS dalam program Apollo, menjadi jelas mengapa mencapai ASI telah muncul sebagai ras yang menentukan di era kita.
Metrik untuk model-model yang dimulai GPT-5 adalah estimasi
Seiring dengan pertumbuhan konsumsi listrik yang sebanding dengan ukuran klaster, latihan tahun depan akan menuntut lebih dari 1GW daya. Tahun berikutnya, 10GW atau lebih. Tanpa indikasi perlambatan ekspansi ini, pusat data diperkirakan akan mengonsumsi sekitar 4,5% dari yang dihasilkan secara global pada tahun 2030. Jaringan listrik yang ada, sudah kesulitan dengan tuntutan model saat ini, tidak dapat menghasilkan energi yang cukup untuk klaster masa depan. Ini menimbulkan pertanyaan kritis: dari mana sumber daya ini akan datang? Big Tech mengambil pendekatan dua mata pisau.
Jangka panjang, satu-satunya solusi yang layak adalah bagi calon ASI untuk menghasilkan listrik sendiri. Mengingat komitmen mereka terhadap iklim, listrik ini harus berasal dari sumber energi terbarukan. Energi nuklir menjadi solusi utama. Amazon baru saja dibeli Kampus pusat data yang didukung oleh pembangkit listrik tenaga nuklir seharga $ 650 juta. Microsoft telah merekrut kepala teknologi nuklir dan memulihkan pabrik Three Mile Island yang bersejarah. Google memiliki mengakuisisi beberapa reaktor nuklir kecildari Kairos Power di California. Sam Altman dari OpenAI telah mendukung startup energi seperti Helion, Exowatt, dan Oklo.
Microsoft membuka kembali Three Mile Island Nuclear Plant (sumber gambar)
Sementara benih tenaga nuklir sedang ditaburkan sekarang, buahnya (atau tenaga) akan memakan waktu beberapa tahun untuk ditanggung. Bagaimana dengan kebutuhan energi untuk model generasi langsung? Solusi sementara melibatkan pelatihan terdistribusi di beberapa pusat data. Alih-alih memusatkan tuntutan daya besar-besaran di satu lokasi, perusahaan seperti Microsoft dan Google mendistribusikan kluster pelatihan mereka di beberapa lokasi.
Tantangannya, tentu saja, adalah membuat sistem terdistribusi ini bekerja sama secara efektif. Bahkan dengan kecepatan cahaya, data memerlukan waktu sekitar 43ms untuk perjalanan pulang-pergi dari Timur ke Barat Amerika Serikat—sebuah keabadian dalam istilah komputasi. Selain itu, jika bahkan satu chip tertinggal, misalnya, 10%, itu menyebabkan seluruh proses pelatihan menjadi melambat dengan margin yang sama.
Solusinya terletak pada menghubungkan pusat data di beberapa situs dengan jaringan serat optik berkecepatan tinggi dan menerapkan kombinasi teknik paralelisme yang dibahas sebelumnya untuk menyinkronkan operasi mereka. Paralelisme tensor diterapkan pada GPU dalam setiap server, memungkinkan mereka berfungsi sebagai satu unit. Paralelisme pipa, dengan tuntutan jaringannya yang lebih rendah, digunakan untuk menghubungkan server dalam pusat data yang sama. Akhirnya, pusat data di lokasi yang berbeda (disebut sebagai "pulau") menyinkronkan informasi mereka secara berkala menggunakan paralelisme data.
Sebelumnya, kami mencatat bahwa paralelisme data tidak efektif untuk GPU individu karena mereka tidak dapat menampung model yang besar secara independen. Namun, dinamika ini berubah ketika kita memparallelkan pulau-pulau - masing-masing mengandung ribuan GPU - daripada unit individu. Data pelatihan didistribusikan di setiap pulau, dan pulau-pulau ini disinkronkan secara berkala melalui koneksi serat optik yang relatif lebih lambat (dibandingkan dengan NVLink dan Infiniband).
Mari kita beralih dari pelatihan dan GPU ke pusat data itu sendiri.
Dua puluh tahun yang lalu, Amazon meluncurkan Amazon Web Services (AWS)—salah satu bisnis paling transformatif dalam sejarah—dan menciptakan industri baru yang dikenal sebagai komputasi awan. Para pemimpin cloud saat ini (Amazon, Microsoft, Google, dan Oracle) menikmati dominasi yang nyaman, menghasilkan pendapatan tahunan gabungan hampir $ 300 miliar dengan margin 30-40%. Sekarang, munculnya AI telah menciptakan peluang baru di pasar yang sebagian besar tetap oligopolistik selama bertahun-tahun.
Persyaratan fisik, kompleksitas teknis, dan ekonomi dari pusat data AI yang membutuhkan GPU sangat berbeda dengan pusat data tradisional mereka.
Kami telah membahas sebelumnya betapa GPU yang haus energi. Hal ini menyebabkan pusat data AI menjadi jauh lebih padat energi dan, akibatnya, menghasilkan lebih banyak panas. Sementara pusat data tradisional menggunakan kipas raksasa (pendinginan udara) untuk menghilangkan panas, pendekatan ini tidaklah cukup atau secara finansial memungkinkan untuk fasilitas AI. Sebaliknya, pusat data AI mengadopsi sistem pendinginan cair di mana blok air melekat langsung pada GPU dan komponen panas lainnya untuk menghilangkan panas dengan lebih efisien dan tenang. (GPU B200 dilengkapi dengan arsitektur ini yang sudah terintegrasi). Mendukung sistem pendinginan cair memerlukan penambahan menara pendingin besar, fasilitas sistem air terpusat, dan pipa untuk mengangkut air ke dan dari semua GPU—modifikasi mendasar terhadap infrastruktur pusat data.
Selain konsumsi energi absolut yang lebih tinggi, pusat data AI memiliki kebutuhan beban yang berbeda. Sementara pusat data tradisional menjaga konsumsi daya yang dapat diprediksi, pola penggunaan daya beban kerja AI jauh lebih fluktuatif. Volatilitas ini terjadi karena GPU secara periodik bergantian antara menjalankan kapasitas 100% dan melambat hingga hampir berhenti saat pelatihan mencapai titik kontrol, di mana bobot entah disimpan ke memori atau, seperti yang kita lihat sebelumnya, disinkronkan dengan pulau-pulau lainnya. Pusat data AI membutuhkan infrastruktur daya khusus untuk mengelola fluktuasi beban ini.
Membangun klaster GPU jauh lebih sulit daripada membangun awan komputer biasa. GPU perlu saling berkomunikasi dengan sangat cepat. Untuk membuat hal ini terjadi, mereka harus ditempatkan sangat dekat satu sama lain. Sebuah fasilitas AI tipikal membutuhkan lebih dari 200.000 kabel khusus yang disebut koneksi InfiniBand. Kabel-kabel ini memungkinkan GPU berkomunikasi. Jika hanya satu kabel berhenti berfungsi, seluruh sistem akan mati. Proses pelatihan tidak dapat dilanjutkan hingga kabel tersebut diperbaiki.
Persyaratan infrastruktur ini membuatnya hampir tidak mungkin untuk memasang GPU berkinerja tinggi pada pusat data tradisional agar siap digunakan untuk AI. Peningkatan seperti itu akan membutuhkan perombakan struktural yang hampir lengkap. Sebagai gantinya, perusahaan-perusahaan sedang membangun pusat data baru yang dirancang khusus untuk AI dari awal, dengan organisasi yang berbeda mengikutinya dengan berbagai skala.
Di garis depan, perusahaan teknologi terkemuka sedang berlomba-lomba membangun pusat data AI mereka sendiri. Meta sedang menginvestasikan banyak dana di fasilitas yang hanya untuk pengembangan AI mereka sendiri, menganggapnya sebagai investasi modal langsung karena mereka tidak menawarkan layanan cloud. Microsoft sedang membangun pusat-pusat yang sama besarnya untuk menggerakkan proyek AI mereka sendiri dan melayani klien penting seperti OpenAI. Oracle juga telah masuk ke ruang ini dengan agresif, dengan OpenAI sebagai pelanggan terkemuka. Amazon terus memperluas infrastruktur mereka, terutama untuk mendukung perusahaan-perusahaan AI baru seperti Anthropic. xAI milik Elon Musk, yang tidak ingin bergantung pada perusahaan lain, memilih untuk membangun kluster GPU sendiri dengan 100.000 unit.
Di dalam pusat data GPU 100.000 H100 xAI (sumber)
Di samping pemain lama, "neoclouds" muncul — penyedia cloud khusus yang berfokus secara eksklusif pada komputasi GPU untuk beban kerja AI. Neocloud ini dibagi menjadi dua kategori berbeda berdasarkan skala.
Penyedia nebulus besar, termasuk CoreWeave, Crusoe, dan LLama Labs, mengoperasikan kluster lebih dari 2.000 GPU. Mereka membedakan diri mereka dari layanan cloud tradisional dengan dua cara: menawarkan solusi infrastruktur yang disesuaikan daripada paket standar, dan membutuhkan komitmen pelanggan jangka panjang daripada pengaturan bayar-per-gunakan.
Model bisnis mereka memanfaatkan perjanjian jangka panjang dan kredit pelanggan untuk mendapatkan pembiayaan infrastruktur. Pendapatan berasal dari tarif premium yang dibebankan untuk layanan khusus, dan keuntungan dari selisih antara biaya pembiayaan rendah dan pembayaran pelanggan.
Begini biasanya kerja sama semacam ini berlangsung: penyedia neocloud mengamankan kontrak tiga tahun dengan startup AI yang didanai dengan baik untuk 10.000 GPU H100 seharga $40 juta per bulan. Dengan menggunakan aliran pendapatan yang dijamin sebesar $1,44 miliar ini, penyedia mengamankan pembiayaan bank yang menguntungkan (dengan bunga 6%) untuk membeli dan menginstal infrastruktur senilai $700 juta. Pendapatan bulanan sebesar $40 juta mencakup biaya operasional sebesar $10 juta dan pembayaran pinjaman sebesar $20 juta, menghasilkan keuntungan bulanan sebesar $10 juta sementara startup menerima kekuatan komputasi yang dibangun khusus dan didedikasikan.
Model ini memerlukan pemilihan pelanggan yang sangat hati-hati. Penyedia biasanya mencari perusahaan dengan cadangan kas besar atau dukungan ventura yang kuat—sering kali valuasi $500 juta atau lebih.
Neocloud kecil menawarkan klaster GPU dengan 2.000 atau kurang dan melayani segmen pasar AI yang berbeda - start-up kecil dan menengah. Perusahaan-perusahaan ini baik melatih model yang lebih kecil (hingga 70 miliar parameter) atau menyetel ulang yang bersumber terbuka. (Menyetel ulang adalah proses menyesuaikan model dasar untuk kasus penggunaan tertentu.) Kedua beban kerja ini memerlukan komputasi yang moderat tetapi didedikasikan untuk periode yang lebih singkat.
Para penyedia ini menawarkan komputasi on-demand dengan tarif per jam untuk akses klaster yang tidak terputus selama durasi tetap. Meskipun biayanya lebih tinggi daripada kontrak jangka panjang, ini memberikan fleksibilitas kepada startup untuk bereksperimen tanpa harus berkomitmen pada kesepakatan bernilai jutaan dolar.
Akhirnya, selain dari pemain besar di cloud dan penyedia neocloud, kita memiliki perantara dalam ruang infrastruktur AI: platform dan agregator. Perantara ini tidak memiliki infrastruktur GPU tetapi menghubungkan pemilik sumber daya komputasi dengan mereka yang membutuhkannya.
Platform penyedia seperti gate.ioHydraHostdanFluidstackmelayani sebagai Shopify dari komputasi GPU. Sama seperti Shopify memungkinkan pedagang untuk meluncurkan toko online tanpa membangun infrastruktur e-commerce, platform ini memungkinkan operator pusat data dan pemilik GPU untuk menawarkan layanan komputasi tanpa mengembangkan antarmuka pelanggan mereka sendiri. Mereka menyediakan paket teknis lengkap untuk menjalankan bisnis komputasi GPU, termasuk alat manajemen infrastruktur, sistem penyediaan pelanggan, dan solusi penagihan.
Aggregator pasar seperti Vast.aiberfungsi sebagai Amazon di dunia GPU. Mereka menciptakan pasar yang menggabungkan penawaran komputasi yang beragam dari berbagai penyedia - mulai dari kartu RTX untuk konsumen hingga GPU H100 profesional. Pemilik GPU mencantumkan sumber daya mereka dengan metrik kinerja dan peringkat keandalan yang terperinci, sementara pelanggan membeli waktu komputasi melalui platform self-service.
Sejauh ini, pembahasan kita telah difokuskan pada pelatihan (atau penyempurnaan) model. Namun, setelah dilatih, sebuah model harus didisahkan untuk melayani pengguna akhir—sebuah proses yang disebut inferensi. Setiap kali Anda sedang mengobrol dengan ChatGPT, Anda menggunakan GPU yang menjalankan beban kerja inferensi yang mengambil masukan Anda dan menghasilkan respons model. Mari kembali ke pembahasan patung marmer sejenak.
Ini juga David — bukan asli Michelangelo, tetapi gips yang ditugaskan oleh Ratu Victoria pada tahun 1857 untuk Museum Victoria dan Albert London. Sementara Michelangelo menghabiskan tiga tahun yang melelahkan dengan hati-hati memotong marmer untuk membuat yang asli di Florence, gips ini dibuat dari cetakan langsung patung — dengan sempurna mereproduksi setiap kurva, sudut, dan detail yang telah dibuat Michelangelo. Pekerjaan kreatif intensif terjadi sekali. Setelah itu, menjadi masalah mereplikasi fitur-fitur ini dengan setia. Hari ini, replika David muncul di mana-mana dari ruang museum ke halaman kasino Las Vegas.
Inilah persis bagaimana inferensi bekerja dalam AI. Melatih model bahasa besar seperti proses patung orisinal Michelangelo — komputasi intensif, memakan waktu, dan menggunakan sumber daya yang banyak saat model secara bertahap belajar tentang bentuk yang tepat dari bahasa melalui jutaan penyesuaian kecil. Tetapi menggunakan model yang telah dilatih — inferensi — lebih seperti menciptakan replika. Ketika Anda mengobrol dengan ChatGPT, Anda tidak mengajari bahasa dari awal tetapi menggunakan salinan dari model yang parameternya (seperti lengkungan dan sudut yang tepat pada patung David) telah disempurnakan.
Beban kerja inferensi berbeda secara mendasar dari pelatihan. Sementara pelatihan membutuhkan klaster GPU terbaru yang besar dan padat seperti H100s untuk menangani komputasi intensif, inferensi dapat berjalan pada server GPU tunggal menggunakan perangkat keras lama seperti A100s atau bahkan kartu konsumen, sehingga lebih hemat biaya secara signifikan. Dikatakan demikian, beban kerja inferensi memiliki tuntutan unik mereka sendiri:
Karakteristik ini membuat beban kerja inferensi menjadi ideal untuk model harga spot. Di bawah harga spot, sumber daya GPU tersedia dengan diskon signifikan—seringkali 30-50% di bawah tarif on-demand—dengan pemahaman bahwa layanan dapat dihentikan ketika pelanggan dengan prioritas lebih tinggi membutuhkan sumber daya. Model ini cocok untuk inferensi karena implementasi yang redundan memungkinkan beban kerja beralih dengan cepat ke GPU yang tersedia jika terganggu.
Dalam latar belakang GPU dan komputasi awan AI ini, kita sekarang berada pada posisi untuk mulai menjelajahi di mana kripto cocok dalam semua ini. Mari (akhirnya) kita mulai.
Proyek-proyek dan laporan sering mengutip pengamatan Peter Thiel bahwa "AI sentralisasi, kripto desentralisasi" ketika membahas peran kripto dalam pelatihan AI. Meskipun pernyataan Thiel tersebut tidak diragukan lagi benar, kita baru saja melihat bukti yang cukup jelas bahwa Big Tech memiliki keunggulan yang jelas dalam pelatihan AI yang kuat—seringkali disalahgunakan untuk menyiratkan bahwa kripto dan komputer terdesentralisasi menawarkan solusi utama untuk menyeimbangkan pengaruh Big Tech.
Klaim semacam itu menggemakan pernyataan berlebihan sebelumnya tentang potensi crypto untuk merevolusi media sosial, game, dan industri lain yang tak terhitung jumlahnya. Mereka tidak hanya kontraproduktif tetapi juga, seperti yang akan saya katakan sebentar lagi, tidak realistis — setidaknya dalam jangka pendek.
Sebagai gantinya, saya akan mengambil pendekatan yang lebih pragmatis. Saya akan mengasumsikan bahwa sebuah startup kecerdasan buatan (AI) yang mencari pemrosesan tidak peduli dengan prinsip-prinsip desentralisasi atau oposisi ideologis terhadap Teknologi Besar (Big Tech). Sebaliknya, mereka memiliki masalah - mereka ingin mengakses pemrosesan GPU yang dapat diandalkan dengan biaya yang paling rendah. Jika proyek kripto dapat memberikan solusi yang lebih baik untuk masalah ini daripada alternatif non-kripto, mereka akan menggunakannya.
Untuk itu, mari kita pertama-tama memahami dengan siapa proyek-proyek kripto bersaing. Sebelumnya, kita membahas berbagai kategori penyedia cloud AI - Big Tech dan hyperscalers, neocloud besar, neocloud kecil, penyedia platform, dan pasar.
Tesis mendasar di balik komputasi terdesentralisasi (seperti semua proyek DePIN) adalah bahwa pasar komputasi saat ini beroperasi secara tidak efisien. Permintaan GPU tetap sangat tinggi, sementara pasokannya terfragmentasi dan tidak digunakan sepenuhnya di pusat data global dan rumah-rumah individu. Sebagian besar proyek di sektor ini bersaing secara langsung dengan pasar dengan mengumpulkan pasokan yang tersebar ini untuk mengurangi ketidakefisienan.
Dengan itu ditetapkan, mari kita lihat bagaimana proyek-proyek ini (dan pasar komputasi secara umum) dapat membantu dengan beban kerja AI yang berbeda - pelatihan, penyesuaian halus, dan inferensi.
Hal pertama yang pertama. Tidak, ASI tidak akan dilatih pada jaringan global GPU terdesentralisasi. Setidaknya, tidak pada lintasan AI saat ini. Inilah alasannya.
Sebelumnya, kita membahas seberapa besar gugus model dasar menjadi. Anda memerlukan 100.000 GPU paling kuat di dunia untuk bahkan mulai bersaing. Angka ini hanya meningkat dengan setiap tahun yang berlalu. Pada tahun 2026, biaya pelatihan diharapkan mencapai lebih dari $100 miliar dolar, mungkin memerlukan jutaan GPU atau lebih.
Hanya perusahaan Big Tech, didukung oleh neoclouds besar dan mitra langsung Nvidia, yang dapat merakit kluster sebesar ini. Ingat, kita sedang berlomba untuk ASI, dan semua peserta sangat termotivasi dan memiliki modal yang cukup besar. Jika ada pasokan tambahan dari banyak GPU ini (sebenarnya tidak ada), maka mereka akan menjadi yang pertama untuk mengambilnya.
Bahkan jika sebuah proyek kripto secara tidak sengaja mengumpulkan komputasi yang diperlukan, dua halangan mendasar mencegah pengembangan ASI terdesentralisasi:
Pertama, GPU masih perlu terhubung dalam kluster besar untuk berfungsi secara efektif. Bahkan jika kluster ini dibagi di antara pulau-pulau di kota-kota, mereka harus terhubung oleh jalur serat optik yang didedikasikan. Kedua hal ini tidak mungkin dilakukan dalam pengaturan terdesentralisasi. Selain pengadaan GPU, pendirian pusat data siap AI membutuhkan perencanaan yang teliti - biasanya proses satu hingga dua tahun. (xAI melakukannya dalam hanya 122 hari, tetapi tidak mungkin Elon akan meluncurkan token dalam waktu dekat.)
Kedua, hanya menciptakan pusat data AI tidak cukup untuk melahirkan AI superintelejen. Seperti pendiri Anthropic, Dario Amodei baru-baru ini dijelaskan, skalabilitas dalam AI mirip dengan reaksi kimia. Seperti reaksi kimia yang membutuhkan beberapa reagen dalam proporsi yang tepat untuk berlangsung, skalabilitas AI yang sukses bergantung pada tiga bahan penting yang tumbuh bersama-sama: jaringan yang lebih besar, waktu pelatihan yang lebih lama, dan dataset yang lebih besar. Jika Anda memperbesar satu komponen tanpa yang lain, proses akan terhenti.
Bahkan jika kita berhasil mengumpulkan kedua komputasi dan mengatur cluster agar dapat bekerja sama, kita masih memerlukan terabytes data berkualitas tinggi agar model yang dilatih menjadi baik. Tanpa sumber data properti Big Tech, modal untuk menandatangani kesepakatan multi-juta dolar dengan forum online dan media, atau model-model yang ada untuk menghasilkan data sintetis, mendapatkan data latihan yang memadai adalah hal yang tidak mungkin.
Belakangan ini telah ada beberapa spekulasi bahwa hukum skalabilitas mungkin mencapai titik jenuh, dengan LLM mungkin menghantam batas kinerja. Beberapa menginterpretasikan ini sebagai peluang untuk pengembangan AI terdesentralisasi. Namun, ini mengabaikan faktor penting - konsentrasi bakat. Perusahaan Big Tech dan laboratorium AI hari ini menjadi tempat para peneliti terkemuka di dunia. Setiap terobosan alternatif menuju AGI kemungkinan besar akan muncul dari pusat-pusat ini. Mengingat lanskap kompetitif, penemuan-penemuan seperti itu akan tetap dijaga dengan ketat.
Mempertimbangkan semua argumen ini, saya 99,99% yakin bahwa pelatihan ASI - atau bahkan model terkuat di dunia - tidak akan dilatih pada proyek komputasi terdesentralisasi. Dalam hal itu, model apa yang sebenarnya dapat membantu melatih kripto?
Agar model-model dapat dilatih di cluster GPU yang terpisah yang ditempatkan di lokasi geografis yang berbeda, kita perlu mengimplementasikan paralelisme data di antara mereka. (Ingat bahwa paralelisme data adalah bagaimana pulau-pulau yang berbeda dari GPU, masing-masing bekerja pada potongan data pelatihan yang terpisah, disinkronkan satu sama lain). Semakin besar model yang dilatih, semakin besar jumlah data yang perlu ditukar antara pulau-pulau ini. Seperti yang kita bahas, untuk model-model frontier dengan lebih dari satu triliun parameter, bandwidth yang dibutuhkan cukup besar untuk membutuhkan koneksi serat optik yang didedikasikan.
Namun, untuk model yang lebih kecil, kebutuhan bandwidth berkurang secara proporsional. Terobosan baru-baru ini dalam algoritma pelatihan dengan komunikasi rendah, terutama dalam sinkronisasi tertunda, telah menciptakan peluang yang menjanjikan untuk melatih model berukuran kecil hingga menengah secara terdesentralisasi. Dua tim memimpin upaya eksperimental ini.
Nous Researchadalah perusahaan akselerator AI dan pemain utama dalam pengembangan AI sumber terbuka. Mereka terkenal dengan seri model bahasa Hermes mereka dan proyek inovatif seperti World Sim. Awal tahun ini, mereka mengoperasikan subnet BitTensor peringkat LLM selama beberapa bulan. Mereka telah mencoba perhitungan terdesentralisasi dengan merilis DisTrOproyek Distributed Training Over the Internet (Pelatihan Terdistribusi Melalui Internet), di mana mereka berhasil melatih model Llama-2 berparameter 1,2B sambil mencapai pengurangan kebutuhan bandwidth inter-GPU sebesar 857x.
Laporan DisTrO oleh Nous Research
Prime Intellect, sebuah startup yang mengembangkan infrastruktur untuk AI terdesentralisasi dalam skala besar, bertujuan untuk mengumpulkan sumber daya komputasi global dan memungkinkan pelatihan kolaboratif dari model-model terbaru melalui sistem terdistribusi. Mereka Kerangka kerja OpenDiLoCo (mengimplementasikan DeepMind's Metode Komunikasi Rendah Terdistribusi) berhasil melatih model dengan sejuta parameter di dua benua dan tiga negara sambil mempertahankan penggunaan komputasi sebesar 90-95%.
Namun bagaimana jalannya pelatihan terdesentralisasi ini?
Paralelisme data tradisional mengharuskan GPU untuk berbagi dan membuat rata-rata bobotnya setelah setiap langkah pelatihan—tidak mungkin dilakukan melalui koneksi internet. Sebaliknya, proyek-proyek ini memungkinkan setiap "pulau" GPU berlatih secara independen selama ratusan langkah sebelum sinkronisasi. Anggap saja seperti tim peneliti independen yang mengerjakan proyek yang sama: daripada terus-menerus memeriksa satu sama lain, mereka membuat kemajuan signifikan secara independen sebelum membagikan temuan mereka.
DisTrO dan OpenDiLoCo hanya menyinkronkan setiap 500 langkah, menggunakan pendekatan pengoptimal ganda:
Ketika mereka melakukan sinkronisasi, bukan berbagi semua bobot, mereka berbagi “pseudo-gradien”—secara mendasar perbedaan antara bobot saat ini dan bobot dari sinkronisasi terakhir. Ini sangat efisien, seperti berbagi hanya apa yang berubah dalam dokumen daripada mengirim seluruh dokumen setiap kali.
KECERDASAN-1, sebuah implementasi praktis dari OpenDiLoCo oleh Prime Intellect, mendorong pendekatan ini bahkan lebih jauh dengan melatih model parameter 10 miliar—upaya pelatihan terdesentralisasi terbesar hingga saat ini. Mereka telah menambahkan optimisasi kunci seperti:
INTELLECT-1, dilatih oleh lebih dari 20 klaster GPU yang tersebar di seluruh dunia, baru-baru ini selesai prapemrosesandan akan segera dirilis sebagai model open-source sepenuhnya.
Dasbor pelatihan INTELLECT-1
Tim seperti Makrokosmosmenggunakan algoritma serupa untukmelatih modeldi dalam ekosistem Bittensor.
Jika algoritma pelatihan terdesentralisasi ini terus menjadi lebih baik, mereka mungkin mampu mendukung model hingga 100 miliar parameter dengan generasi GPU berikutnya. Bahkan model sebesar ini dapat sangat membantu untuk berbagai kasus penggunaan:
Fein-tuning adalah proses mengambil model dasar yang telah dilatih sebelumnya (biasanya yang bersumber terbuka oleh Meta, Mistral, atau Alibaba) dan melatihnya lebih lanjut pada dataset tertentu untuk menyesuaikannya dengan tugas atau domain tertentu. Ini memerlukan perhitungan yang jauh lebih sedikit daripada pelatihan dari awal karena model tersebut telah mempelajari pola bahasa umum dan hanya perlu menyesuaikan bobotnya untuk domain baru.
Hitung persyaratan untuk penyetelan skala dengan ukuran model. Diasumsikan pelatihan pada H100:
Dengan spesifikasi ini, penyesuaian halus tidak memerlukan algoritma pelatihan terdistribusi kompleks yang sebelumnya dibahas. Model on-demand, di mana pengembang menyewa klaster GPU untuk periode singkat dan terkonsentrasi, memberikan dukungan yang memadai. Pasar komputasi terdesentralisasi dengan ketersediaan GPU yang kuat berada pada posisi yang ideal untuk menangani beban kerja ini.
Inferensi adalah tempat pasar komputasi terdesentralisasi memiliki jalur paling jelas menuju kesesuaian pasar produk. Ironisnya, ini adalah alur kerja yang paling sedikit dibahas dalam konteks pelatihan terdesentralisasi. Ini berasal dari dua faktor: inferensi tidak memiliki daya tarik dari 100.000 pelatihan "model dewa" GPU yang berjalan, dan sebagian karena fase revolusi AI saat ini.
Saat ini, sebagian besar komputasi memang digunakan untuk pelatihan. Perlombaan menuju ASI mengakibatkan investasi besar-besaran dalam infrastruktur pelatihan. Namun, keseimbangan ini tidak terelakkan akan bergeser ketika aplikasi AI beralih dari penelitian ke produksi. Untuk model bisnis seputar AI dapat berkelanjutan, pendapatan yang dihasilkan dari inferensi harus melebihi biaya gabungan pelatihan dan inferensi. Meskipun pelatihan GPT-4 sangat mahal, itu adalah biaya sekali pakai. Biaya komputasi yang berkelanjutan—dan jalur OpenAI menuju profitabilitas—didorong oleh pelayanan miliaran permintaan inferensi kepada pelanggan berbayar.
Marketplace komputasi, terdesentralisasi atau tidak, dengan sifat mengumpulkan berbagai model GPU (lama dan baru) dari seluruh dunia, menemukan diri mereka dalam posisi unik untuk melayani beban kerja inferensi.
Pasar komputasi, baik terdesentralisasi maupun tradisional, secara alami unggul dalam beban kerja inferensi dengan menggabungkan beragam model GPU (baik saat ini maupun lama) secara global. Keunggulan inherennya sangat selaras dengan persyaratan inferensi: distribusi geografis yang luas, waktu aktif yang konsisten, redundansi sistem, dan kompatibilitas di seluruh generasi GPU.
Kami telah membahas berbagai alur kerja yang dapat dan tidak dapat dibantu oleh komputasi terdesentralisasi. Sekarang, kita perlu menjawab pertanyaan penting lainnya: mengapa pengembang memilih untuk mengamankan komputasi dari penyedia terdesentralisasi daripada penyedia terpusat? Apa keuntungan menarik yang ditawarkan solusi terdesentralisasi?
Stablecoin mencapai kesesuaian pasar produk dengan menawarkan alternatif yang lebih unggul untuk pembayaran lintas negara yang tradisional. Faktor besar adalah stablecoin jauh lebih murah! Demikian pula, faktor terbesar yang mendorong pilihan pengembang AI terhadap penyedia awan adalah biaya. Untuk penyedia komputasi terdesentralisasi bersaing secara efektif, mereka harus terlebih dahulu memberikan penentuan harga yang lebih unggul.
Pasar komputasi, seperti semua pasar, adalah bisnis efek jaringan. Semakin banyak pasokan GPU di platform, semakin besar likuiditas dan ketersediaan bagi pelanggan, yang pada gilirannya menarik lebih banyak permintaan. Saat permintaan tumbuh, ini mendorong pemilik GPU lebih banyak bergabung dengan jaringan, menciptakan siklus yang baik. Peningkatan pasokan juga memungkinkan penetapan harga yang lebih kompetitif melalui pencocokan yang lebih baik dan mengurangi waktu tidak aktif. Ketika pelanggan secara konsisten dapat menemukan komputasi yang mereka butuhkan dengan tarif menarik, mereka lebih cenderung membangun ketergantungan teknis yang abadi pada platform, yang lebih memperkuat efek jaringan.
Dinamika ini sangat kuat terutama dalam inferensi, di mana distribusi geografis pasokan sebenarnya dapat meningkatkan penawaran produk dengan mengurangi laten bagi pengguna akhir. Marketplace pertama yang mencapai flywheel likuiditas ini secara besar-besaran akan memiliki keunggulan kompetitif yang signifikan, karena baik pemasok maupun pelanggan menghadapi biaya beralih setelah mereka terintegrasi dengan alat dan alur kerja platform.
Flywheel efek jaringan pasar GPU
Di pasar pemenang-mengambil-semua seperti itu, bootstrapping jaringandan mencapai kecepatan lepas adalah fase yang paling kritis. Di sini, crypto menyediakan proyek komputasi terdesentralisasi dengan alat yang sangat kuat yang tidak dimiliki pesaing terpusat mereka: insentif token.
Mekanisme dapat sederhana namun kuat. Protokol akan pertama kali meluncurkan token yang mencakup jadwal hadiah inflasi, mungkin mendistribusikan alokasi awal kepada kontributor awal melalui airdrop. Emisi token ini akan berfungsi sebagai alat utama untuk memulai kedua sisi pasar.
Untuk penyedia GPU, struktur imbalan harus dirancang dengan hati-hati untuk membentuk perilaku sisi pasokan. Penyedia akan mendapatkan token proporsional dengan komputasi yang mereka kontribusikan dan tingkat penggunaan, tetapi sistem harus melampaui imbalan linier yang sederhana. Protokol dapat menerapkan pengali imbalan dinamis untuk mengatasi ketidakseimbangan geografis atau jenis perangkat keras - mirip dengan cara Uber menggunakan harga lonjakan untuk memberi insentif kepada pengemudi di area dengan permintaan tinggi.
Seorang penyedia mungkin akan mendapatkan penghargaan 1,5 kali lipat untuk menawarkan komputasi di wilayah yang kurang dilayani atau penghargaan 2x untuk menyediakan jenis GPU yang sementara langka. Menambahkan sistem penghargaan berjenjang berdasarkan tingkat penggunaan yang konsisten akan mendorong penyedia untuk mempertahankan ketersediaan yang stabil daripada beralih secara oportunis antara platform.
Dari sisi permintaan, pelanggan akan menerima imbalan token yang secara efektif mensubsidi penggunaan mereka. Protokol mungkin menawarkan imbalan yang lebih tinggi untuk komitmen komputasi jangka panjang—mendorong pengguna untuk membangun ketergantungan teknis yang lebih dalam pada platform. Imbalan-imbalan ini dapat lebih lanjut disusun untuk sejalan dengan prioritas strategis platform, seperti menangkap permintaan di suatu wilayah tertentu.
Tarif dasar untuk komputasi dapat tetap sama atau sedikit di bawah tarif pasar, dengan protokol menggunakan orakel zkTLSuntuk terus-menerus memantau dan mencocokkan harga pesaing. Hadiah token kemudian akan menjadi lapisan insentif tambahan di atas tarif dasar yang kompetitif ini. Model penetapan harga ganda ini akan memungkinkan platform untuk mempertahankan daya saing harga sementara menggunakan insentif token untuk mendorong perilaku tertentu yang memperkuat jaringan.
Dengan mendistribusikan insentif token, baik penyedia maupun pelanggan akan mulai mengumpulkan saham dalam jaringan. Meskipun beberapa, mungkin kebanyakan, akan menjual saham-saham ini, yang lain akan menyimpannya, efektif menjadi pemangku kepentingan dan pengkhotbah bagi platform tersebut. Peserta yang terlibat ini akan memiliki kepentingan yang kuat dalam kesuksesan jaringan, berkontribusi pada pertumbuhan dan adopsi di luar penggunaan langsung atau penyediaan sumber daya komputasi mereka sendiri.
Seiring waktu, ketika jaringan mencapai kecepatan melarikan diri dan menetapkan efek jaringan yang kuat, insentif token ini dapat dikurangi secara bertahap. Manfaat alami menjadi pasar terbesar — pencocokan yang lebih baik, pemanfaatan yang lebih tinggi, cakupan geografis yang lebih luas — akan menjadi pendorong pertumbuhan yang mandiri.
Bagaimana insentif token dapat mempercepat roda pasar GPU
Sementara harga dan jangkauan adalah perbedaan kritis, jaringan komputasi terdesentralisasi menangani kekhawatiran yang semakin meningkat: pembatasan operasional dari penyedia terpusat. Penyedia awan tradisional telah menunjukkan kemauan mereka untuk menangguhkan atau menghentikan layanan berdasarkan kebijakan konten dan tekanan eksternalPreceden ini menimbulkan pertanyaan yang sah tentang bagaimana kebijakan serupa dapat diterapkan pada pengembangan dan penyebaran model AI.
Seiring dengan model AI yang semakin canggih dan menangani kasus penggunaan yang semakin beragam, ada kemungkinan nyata bahwa penyedia cloud dapat menerapkan pembatasan pada pelatihan dan penyajian model, mirip dengan pendekatan moderasi konten yang ada. Hal ini dapat mempengaruhi bukan hanya konten NSFW dan topik kontroversial, tetapi juga kasus penggunaan yang sah di bidang seperti pencitraan medis, penelitian ilmiah, atau seni kreatif yang mungkin memicu filter otomatis yang terlalu berhati-hati.
Jaringan terdesentralisasi menawarkan alternatif dengan memungkinkan peserta pasar membuat keputusan infrastruktur mereka sendiri, yang berpotensi menciptakan lingkungan inovasi yang lebih bebas dan tidak terbatas.
Sisi lain dari arsitektur tanpa izin adalah bahwa privasi menjadi lebih menantang. Ketika komputasi tersebar di seluruh jaringan penyedia daripada terkandung dalam pusat data entitas tepercaya tunggal, pengembang perlu memikirkan keamanan data. Meskipun enkripsi dan lingkungan eksekusi tepercaya dapat membantu, ada trade-off inheren antara resistensi sensor dan privasi yang harus dinavigasi oleh pengembang berdasarkan kebutuhan spesifik mereka.
Dengan permintaan komputasi kecerdasan buatan yang tinggi, penyedia GPU dapat memanfaatkan posisinya untuk mengeksploitasi pelanggan yang sukses.postingan dari tahun lalu, pengembang solo terkenal Pieter Levels berbagi pengalamannya dan pengembang lainnya mengalami kenaikan harga provider mereka secara tiba-tiba hingga lebih dari 600% setelah membagikan pendapatan aplikasi AI mereka secara publik.
Sistem desentralisasi dapat menawarkan solusi terhadap masalah ini - penegakan kontrak tanpa kepercayaan. Ketika perjanjian dienkripsi di rantai daripada terkubur dalam syarat layanan, mereka menjadi transparan dan tidak dapat diubah. Seorang penyedia tidak dapat sembarangan menaikkan harga atau mengubah syarat di tengah kontrak tanpa perubahan yang secara eksplisit disetujui melalui protokol.
Selain harga, jaringan terdesentralisasi dapat memanfaatkan lingkungan eksekusi terpercaya (TEEs)untuk menyediakan komputasi yang dapat diverifikasi. Hal ini memastikan para pengembang benar-benar mendapatkan sumber daya GPU yang mereka bayar—baik dari segi spesifikasi perangkat keras maupun akses yang didedikasikan. Sebagai contoh, ketika seorang pengembang membayar untuk akses yang didedikasikan untuk delapan GPU H100 untuk pelatihan model, bukti kriptografis dapat memverifikasi bahwa beban kerja mereka memang berjalan pada H100 dengan 80GB penuh memori per GPU, daripada diam-diam diturunkan ke kartu-kartu kelas bawah atau memiliki sumber daya yang dibagi dengan pengguna lain.
Jaringan komputer terdesentralisasi dapat memberikan pengembang alternatif yang benar-benar tanpa izin. Tidak seperti penyedia tradisional yang memerlukan proses KYC yang ekstensif dan pemeriksaan kredit, siapa pun bisa bergabung dengan jaringan ini dan mulai menggunakan atau menyediakan sumber daya komputasi. Hal ini secara dramatis menurunkan hambatan masuk, terutama bagi pengembang di pasar-pasar yang sedang berkembang atau yang bekerja pada proyek-proyek eksperimental.
Pentingnya sifat yang tidak terikat izin ini menjadi lebih kuat ketika kita mempertimbangkan masa depan agen AI. Agen AI baru saja mulai menemukan pijakannya, dengan agen terpadu secara vertikaldiharapkan melebihi ukuran industri SaaS. Dengan para seperti Truth TerminaldanZerebro, kami melihat tanda-tanda pertama agen yang mendapatkan otonomi dan belajar cara menggunakan alat eksternal seperti media sosial dan generator gambar.
Saat sistem otonom ini menjadi lebih canggih, mereka mungkin perlu secara dinamis menyediakan sumber daya komputasi mereka sendiri. Jaringan terdesentralisasi di mana kontrak dapat dieksekusi secara tepercaya oleh kode alih-alih perantara manusia adalah infrastruktur alami untuk masa depan ini. Agen bisa secara otonom bernegosiasi kontrak, memantau kinerja, dan menyesuaikan penggunaan komputasi mereka berdasarkan permintaan—semua tanpa memerlukan intervensi atau persetujuan manusia.
Konsep jaringan komputasi terdesentralisasi bukanlah hal baru — proyek-proyek telah mencoba untuk mendemokratisasi akses ke sumber daya komputasi yang langka jauh sebelum boom AI saat ini.Render Jaringantelah beroperasi sejak 2017, mengumpulkan sumber daya GPU untuk merender grafis komputer.Akashdiluncurkan pada tahun 2020 untuk menciptakan pasar terbuka untuk komputasi umum. Kedua proyek ini berhasil dalam bidangnya masing-masing namun sekarang fokus pada beban kerja AI.
Demikian pula, jaringan penyimpanan terdesentralisasi seperti FilecoindanArweavesedang berkembang menjadi komputasi. Mereka menyadari bahwa dengan AI menjadi konsumen utama penyimpanan dan komputasi, menawarkan solusi terintegrasi masuk akal.
Sama seperti pusat data tradisional yang kesulitan bersaing dengan fasilitas AI yang dibangun khusus, jaringan-jaringan mapan ini menghadapi pertempuran berat melawan solusi AI yang alami. Mereka kurang memiliki DNA untuk menjalankan orkestrasi kompleks yang dibutuhkan untuk beban kerja AI. Sebagai gantinya, mereka menemukan pijakan mereka dengan menjadi penyedia komputasi bagi jaringan AI khusus lainnya. Misalnya, baik Render maupun Akash kini menjadikan GPU mereka tersedia di pasar io.net.
Siapa pasar AI-native baru ini?io.netGate.io adalah salah satu pemimpin awal dalam mengumpulkan pasokan GPU kelas enterprise, dengan lebih dari 300.000 GPU yang terverifikasi dalam jaringannya. Mereka mengklaim menawarkan penghematan biaya hingga 90% dibandingkan dengan pesaing terpusat dan telah mencapai pendapatan harian lebih dari $25.000 ($9 juta per tahun). Demikian juga, Aethirmengumpulkan lebih dari 40.000 GPU (termasuk 4.000+ H100) untuk melayani kasus penggunaan AI dan komputasi awan.
Sebelumnya, kita membahas bagaimana Prime Intellect menciptakan kerangka kerja untuk pelatihan terdesentralisasi dalam skala besar. Selain upaya ini, mereka juga menyediakan sebuah gate Pasar GPUdi mana pengguna dapat menyewa H100 secara on-demand.Gensynadalah proyek lain yang bertaruh besar pada pelatihan terdesentralisasi dengan kerangka pelatihan yang serupa ditambah pendekatan pasar GPU.
Sementara ini semua adalah pasar beban kerja-agnostik (mereka mendukung baik pelatihan maupun inferensi), beberapa proyek fokus hanya untuk inferensi - beban kerja komputasi terdesentralisasi yang paling kami nantikan. Salah satu yang paling utama adalah Exo Labs, yang memungkinkan pengguna untuk menjalankan LLM tingkat depan di perangkat sehari-hari. Mereka telah mengembangkan platform sumber terbuka yang memungkinkan distribusi tugas inferensi AI di berbagai perangkat seperti iPhone, Android, dan Mac. Mereka baru-baru ini ditunjukkanmenjalankan model 70-B (dapat diskalakan hingga 400-B) yang terdistribusi di empat M4 Pro Mac Mini.
Ketika Satoshi meluncurkan Bitcoin pada tahun 2008, manfaatnya—emas digital dengan pasokan yang sulit dan uang tahan sensor—hanya bersifat teoritis. Sistem keuangan tradisional, meskipun memiliki kekurangan, berfungsi. Bank sentral belum melakukan pencetakan uang yang belum pernah terjadi sebelumnya. Sanksi internasional belum digunakan sebagai senjata terhadap seluruh ekonomi. Kebutuhan akan alternatif tampaknya lebih bersifat akademis daripada mendesak.
Dibutuhkan satu dekade pelonggaran kuantitatif, yang mencapai puncaknya dalam ekspansi moneter era COVID, bagi manfaat teoretis Bitcoin untuk menjadi nilai yang nyata. Hari ini, ketika inflasi mengikis tabungan dan ketegangan geopolitik mengancam dominasi dolar, peran Bitcoin sebagai 'emas digital' telah berkembang dari mimpi cypherpunk menjadi aset yang diadopsi oleh institusi dan negara-negara.
Pola ini berulang dengan stablecoin. Begitu blockchain umum yang berfungsi di Ethereum tersedia, stablecoin segera menjadi salah satu kasus penggunaan paling menjanjikan. Namun, dibutuhkan bertahun-tahun untuk perbaikan bertahap dalam teknologi dan ekonomi negara-negara seperti Argentina dan Turki yang dilanda inflasi agar stablecoin berkembang dari inovasi kripto niche menjadi infrastruktur keuangan kritis yang memindahkan triliunan dolar dalam volume tahunan.
Crypto pada dasarnya adalah teknologi defensif - inovasi yang tampak tidak perlu selama masa-masa baik tetapi menjadi penting selama krisis. Kebutuhan akan solusi-solusi ini hanya menjadi jelas ketika sistem-sistem pendahulu gagal atau memperlihatkan warna aslinya.
Hari ini, kita sedang menjalani zaman keemasan AI. Modal ventura mengalir dengan bebas, perusahaan bersaing untuk menawarkan harga terendah, dan batasan, jika ada, jarang terjadi. Di lingkungan ini, alternatif terdesentralisasi bisa terasa tidak perlu. Mengapa repot dengan kompleksitas ekonomi token dan sistem bukti ketika penyedia tradisional sudah berfungsi dengan baik?
Namun jika mengacu pada gelombang teknologi utama masa lalu, kebaikan ini bersifat sementara. Kita baru saja memasuki revolusi kecerdasan buatan selama dua tahun. Ketika teknologi tersebut semakin matang dan pemenang dari perlombaan kecerdasan buatan muncul, kekuatan sejati mereka akan muncul. Perusahaan yang saat ini menawarkan akses yang cukup akan akhirnya menegaskan kontrol—melalui penetapan harga, kebijakan, izin.
Ini bukan hanya siklus teknologi lain yang dipertaruhkan. Kecerdasan buatan (AI) menjadi substrat baru peradaban—lensa melalui mana kita akan memproses informasi, menciptakan seni, membuat keputusan, dan akhirnya berevolusi sebagai spesies. Komputasi lebih dari sekadar sumber daya; itu adalah mata uang kecerdasan itu sendiri. Mereka yang mengendalikan alirannya akan membentuk garis depan kognitif manusia.
Komputasi terdesentralisasi bukanlah tentang menawarkan GPU yang lebih murah atau opsi penyebaran yang lebih fleksibel (meskipun harus menyediakan keduanya untuk berhasil). Ini tentang memastikan bahwa akses ke kecerdasan buatan - teknologi paling transformatif umat manusia - tetap tidak dapat disensor dan berdaulat. Ini adalah perisai kita melawan masa depan yang tak terhindarkan di mana beberapa perusahaan menentukan tidak hanya siapa yang dapat menggunakan AI, tetapi bagaimana mereka dapat berpikir dengannya.
Kami membangun sistem ini hari ini bukan karena itu sangat diperlukan, tetapi karena itu akan sangat penting di masa depan. Ketika AI menjadi dasar masyarakat seperti halnya uang, komputasi tanpa izin tidak hanya akan menjadi alternatif - tetapi juga menjadi sangat penting untuk melawan hegemoni digital seperti halnya Bitcoin dan stablecoin yang digunakan untuk melawan kontrol keuangan.
Perlombaan menuju kecerdasan buatan super mungkin diluar jangkauan sistem terdesentralisasi. Tetapi memastikan bahwa buah dari kecerdasan ini tetap dapat diakses oleh semua orang? Itu adalah perlombaan yang layak untuk diikuti.
Meneruskan Judul Asli: Komputasi Terdesentralisasi
Artikel hari ini membahas sektor komputasi terdesentralisasi yang muncul namun sering kali disalahpahami dalam dunia kripto. Kami menyelami lanskap infrastruktur AI untuk memahami di mana alternatif terdesentralisasi dapat bersaing secara realistis.
Kami mengeksplorasi pertanyaan seperti: Bisakah ASI dilatih di jaringan terdistribusi? Apa keuntungan unik yang ditawarkan oleh jaringan kripto? Dan mengapa infrastruktur komputasi yang tanpa izin mungkin menjadi sama pentingnya bagi AI seperti Bitcoin bagi keuangan.
Polanya yang umum yang akan Anda perhatikan dalam artikel ini adalah pertumbuhan eksponensial dari segala sesuatu yang berhubungan dengan AI - investasi, komputasi, dan kemampuan. Ini bersamaan dengan kebangkitan kembali pasar kripto dan perhatian publik. Kami sangat bersemangat tentang persimpangan dari dua gelombang teknologi utama ini.
Halo!
Pada hari yang cerah di Memphis, Tennessee, pesawat mata-mata baling-baling berulang kali mengelilingi gedung industri, penumpangnya dengan panik memotret fasilitas di bawah. Ini bukanlah adegan dari mata-mata Perang Dingin tetapi dari tahun 2024. Targetnya bukan instalasi militer atau situs pengkayaan uranium tetapi pabrik peralatan bekas yang sekarang menjadi rumah salah satu superkomputer terkuat di dunia. Penumpangnya bukan agen asing tetapi karyawan dari perusahaan pusat data pesaing.
Setiap beberapa dekade, teknologi transformatif muncul dengan potensi untuk mengubah lintasan peradaban tanpa ragu. Apa yang terjadi selanjutnya adalah perlombaan antara entitas paling kuat di dunia untuk pertama kali mewujudkan teknologi ini. Hadiahnya begitu besar, dan konsekuensi kegagalan sangat menghancurkan, sehingga entitas-entitas ini dengan cepat menggerakkan seluruh sumber daya mereka—bakat manusia dan modal—untuk menguasai teknologi ini.
Di abad ke-20, dua teknologi unggulan sesuai definisi ini—senjata nuklir dan eksplorasi luar angkasa. Perlombaan untuk menguasai teknologi ini melibatkan negara-negara adidaya. Kemenangan Amerika Serikat dalam kedua hal tersebut memantapkan statusnya sebagai superpower dominan di dunia, membawa masuk era kemakmuran yang tak tertandingi. Bagi yang kalah—Jerman Nazi dan Uni Soviet—akibatnya sangat menghancurkan, bahkan fatal.
Pabrik K-25 seluas 44 hektar di Oak Ridge, Tennessee, AS, tempat uranium untuk senjata atom pertama diproduksi.sumber)
Kemenangan Amerika membawa harga yang sangat mahal. Proyek Manhattan menghabiskan hampir $2 miliar (sekitar $30 miliar setelah disesuaikan dengan inflasi) dan melibatkan lebih dari 120.000 orang - satu dari setiap seribu orang Amerika. Perlombaan antariksa menuntut sumber daya yang lebih besar lagi. Program Apollo menghabiskan $28 miliar pada tahun 1960-an (sekitar $300 miliar dalam uang saat ini) dan melibatkan lebih dari 400.000 orang - satu dari 490 orang Amerika. Pada puncaknya pada tahun 1966, NASA menguasai 4,4% dari seluruh anggaran federal AS.
Apollo 11, tepat sebelum lepas landas menuju misi ke bulan ( sumber)
Peluncuran ChatGPT pada tahun 2022 menandai dimulainya perlombaan baru dengan proporsi yang mengubah peradaban - pengejaran kecerdasan buatan super (ASI). Sementara AI sudah terjalin dalam kehidupan sehari-hari - mengelola umpan media sosial, rekomendasi Netflix, dan filter spam email - munculnya model bahasa besar (LLM) berjanji untuk mengubah segalanya: produktivitas manusia, kreasi media, penelitian ilmiah, dan inovasi itu sendiri.
Kali ini, para pesaing bukanlah negara-negara (setidaknya, belum) tetapi perusahaan-perusahaan terbesar di dunia (Microsoft, Google, Meta, Amazon), startup-startup terpanas (OpenAI, Anthropic), dan individu terkaya (Elon Musk). Sementara Big Tech mengalirkan modal yang belum pernah terjadi sebelumnya ke dalam membangun infrastruktur untuk melatih model-model yang lebih kuat, startup-startup sedang mengamankan pemecah rekorpendanaan modal ventura. Elon adalah, baiklah, melakukan hal-hal Elon(pusat data yang berada di bawah pengawasan milik perusahaannya, xAI).
Dan kemudian ada semua orang lain—perusahaan, perusahaan kecil, dan startup—yang mungkin tidak bercita-cita membangun ASI tetapi sangat ingin memanfaatkan kemampuan canggih yang dibuka oleh AI untuk mengoptimalkan bisnis mereka, mengganggu industri, atau menciptakan yang benar-benar baru. Potensi imbalan sangat besar sehingga semua orang berlomba-lomba untuk mengklaim bagian mereka dari ekonomi yang didorong mesin-intelijen baru ini.
Di tengah revolusi AI terletak komponen paling pentingnya: unit pemrosesan grafis (GPU). Awalnya dirancang untuk menggerakkan permainan video, chip komputer khusus ini telah menjadi komoditas paling diminati di dunia. Permintaan akan GPU sangat besar sehingga perusahaan sering kali mengalami kesulitandaftar tunggu berbulan-bulanhanya untuk memperoleh beberapa. Permintaan ini telah melonjakkan NVIDIA, pabrikan utama mereka, ke posisi perusahaan paling berharga di dunia.
Untuk bisnis yang tidak mampu atau tidak ingin membeli GPU secara langsung, menyewa daya komputasi telah menjadi pilihan terbaik berikutnya. Ini telah mendorong munculnya penyedia awan AI—perusahaan yang mengoperasikan pusat data canggih yang dirancang untuk memenuhi kebutuhan komputasi dari ledakan AI. Namun, lonjakan permintaan dan sifat yang tidak terduga berarti bahwa baik harga maupun ketersediaan tidak menjamin.
Saya berdebat bahwa crypto berfungsi sebagai teknologi "Coasian", yang dirancang untuk "melumasi roda, membuka jalan, dan memperkuat jembatan" agar inovasi mengganggu lainnya berkembang. Ketika AI muncul sebagai kekuatan transformatif di era kita, kelangkaan dan biaya akses GPU yang terlalu tinggi menghadirkan penghalang bagi inovasi. Beberapa perusahaan crypto melangkah masuk, bertujuan untuk mendobrak hambatan ini dengan insentif berbasis blockchain.
Dalam artikel hari ini, kita pertama-tama mundur dari crypto untuk memeriksa dasar-dasar infrastruktur AI modern - bagaimana jaringan saraf belajar, mengapa GPU menjadi penting, dan bagaimana pusat data hari ini berkembang untuk memenuhi permintaan komputasi yang belum pernah terjadi sebelumnya. Kemudian, kita menyelam ke dalam solusi komputasi terdesentralisasi, menjelajahi di mana mereka dapat bersaing secara realistis dengan penyedia tradisional, keuntungan unik yang ditawarkan oleh jaringan crypto, dan mengapa - meskipun mereka tidak akan memberi kita AGI - mereka masih akan menjadi penting untuk memastikan manfaat AI tetap dapat diakses oleh semua orang.
Mari kita mulai dengan mengapa GPU begitu penting dalam hal ini.
Ini adalah David, patung marmer setinggi 17 kaki dan berat 6 ton yang dibuat oleh master jenius Renaisans Italia, Michelangelo. Ini menggambarkan pahlawan biblikal dari kisah David dan Goliath dan dianggap sebagai mahakarya karena representasi anatomi manusia yang sempurna dan perhatian yang cermat terhadap perspektif dan detail.
Seperti semua patung marmer, David dimulai sebagai lempengan marmer Carrara yang besar dan kasar. Untuk mencapai bentuk akhirnya yang megah, Michelangelo harus dengan hati-hati mengikis batu tersebut. Dimulai dengan sapuan lebar dan tegas untuk menetapkan bentuk dasar manusia, ia kemudian melanjutkan ke detail yang semakin halus - lengkung otot, ketegangan di pembuluh darah, ekspresi halus ketekunan di mata. Michelangelo membutuhkan tiga tahun untuk membebaskan David dari batu.
Tapi mengapa membahas patung marmer yang berusia 500 tahun dalam artikel tentang AI?
Seperti David, setiap jaringan saraf dimulai sebagai potensi murni—sekelompok simpul yang diinisialisasi dengan angka acak (bobot), seformless blok marmer Carrara yang besar.
Model mentah ini secara berulang kali diberi data pelatihan—banyak contoh input dipasangkan dengan output yang benar. Setiap titik data yang melewati jaringan memicu ribuan perhitungan. Di setiap simpul (neuron), koneksi masuk mengalikan nilai input dengan bobot koneksi, menjumlahkan produk-produk ini, dan mentransformasikan hasilnya melalui sebuah “fungsi aktivasi” yang menentukan kekuatan pemantulan neuron.
Sama seperti Michelangelo yang akan mundur, menilai karyanya, dan mengoreksi jalannya, jaringan saraf mengalami proses penyempurnaan. Setelah setiap langkah maju, jaringan membandingkan outputnya dengan jawaban yang benar dan menghitung margin kesalahannya. Melalui proses yang disebut backpropagation, ia mengukur seberapa besar setiap koneksi berkontribusi terhadap kesalahan dan, seperti pukulan pahat Michelangelo, melakukan penyesuaian terhadap nilainya. Jika suatu koneksi menghasilkan prediksi yang salah, pengaruhnya berkurang. Jika membantu mencapai jawaban yang benar, pengaruhnya menjadi lebih kuat.
Ketika semua data melewati jaringan (menyelesaikan satu langkah propagasi maju dan mundur per titik data), itu menandai akhir dari satu “epok.” Proses ini diulang beberapa kali, dengan setiap kali melewati memperbaiki pemahaman jaringan. Selama epok awal, perubahan bobot dramatis karena jaringan melakukan penyesuaian yang luas—seperti pukulan pahat pertama yang tebal. Pada epok yang lebih akhir, perubahan menjadi lebih halus, menyetel koneksi untuk performa yang optimal—seperti sentuhan akhir yang halus membawa keluar detail-detail David.
Akhirnya, setelah ribuan atau jutaan iterasi, model yang terlatih muncul. Seperti David yang tegak dengan bentuknya yang selesai, jaringan saraf berubah dari noise acak menjadi sistem yang mampu mengenali pola, membuat prediksi, menghasilkan gambar kucing yang sedang naik skuter, atau memungkinkan komputer untuk memahami dan merespons bahasa manusia.
Michelangelo, yang bekerja sendiri pada patung David, hanya bisa melakukan satu kali pukulan pahat pada satu waktu, masing-masing membutuhkan perhitungan sudut, kekuatan, dan posisi yang tepat. Ketelitian yang memakan waktu ini adalah alasan mengapa ia membutuhkan tiga tahun yang tiada henti untuk menyelesaikan mahakaryanya. Namun bayangkan ribuan ahli pahat yang sama terampil bekerja pada David dengan koordinasi yang sempurna—satu tim pada keriting rambut, tim lain pada otot tubuh, dan ratusan orang lagi pada detail-detail rumit wajah, tangan, dan kaki. Upaya paralel seperti itu akan memampatkan tiga tahun itu menjadi beberapa hari saja.
Demikian juga, meskipun CPU kuat dan akurat, mereka hanya dapat melakukan satu perhitungan pada satu waktu. Pelatihan jaringan saraf tidak memerlukan satu perhitungan kompleks tetapi ratusan juta perhitungan sederhana-terutama perkalian dan penjumlahan pada setiap simpul. Misalnya, jaringan saraf sampel yang disebutkan sebelumnya, dengan hanya 18 simpul dan sekitar 100 koneksi (parameter), dapat dilatih pada CPU dalam waktu yang wajar.
Namun, model-model terkuat saat ini, seperti GPT-4 dari OpenAI, memiliki 1,8 triliun parameter! Bahkan model-model modern yang lebih kecil setidaknya mengandung miliaran parameter. Melatih model-model ini satu perhitungan per satu waktu akan memakan waktu berabad-abad. Di sinilah GPU unggul: mereka dapat melakukan sejumlah besar komputasi matematika sederhana secara bersamaan, sehingga ideal untuk memproses beberapa node jaringan saraf secara paralel.
GPU modern sangat kuat. GPU terbaru NVIDIA, misalnya, terdiri dari lebih dari 200 miliar transistor dan mendukung 2.250 triliun komputasi paralel per detik (2.250 TFLOPS). Satu GPU B200 dapat menangani model dengan hingga 740 miliar parameter. Mesin-mesin ini merupakan prestasi rekayasa modern, yang menjelaskan mengapa NVIDIA, menjual setiap unitnya seharga $40.000, telah melihat harga sahamnya melonjak lebih dari 2.500% dalam lima tahun.
Jensen Huang mempresentasikan NVIDIA B200
Namun bahkan mesin-mesin tangguh ini pun tidak dapat melatih model AI sendirian. Ingat bahwa selama pelatihan setiap contoh data harus melewati model dalam siklus maju dan mundur secara individu. Model bahasa besar modern (LLM) dilatih pada dataset yang mencakup seluruh internet. GPT-4, misalnya, memproses perkiraan 12 triliun token (sekitar 9 triliun kata), dan generasi model berikutnya diharapkan dapat menangani hingga 100 triliun token. Menggunakan satu GPU untuk volume data sebesar itu masih akan memakan waktu berabad-abad.
Solusinya terletak pada menambahkan lapisan paralelisme lain—menciptakan kluster GPU di mana tugas pelatihan didistribusikan di antara banyak GPU yang bekerja sebagai sistem yang terpadu. Beban kerja pelatihan model dapat diparalelkan dengan tiga cara:
Parallelisme Data: Beberapa GPU masing-masing mempertahankan salinan lengkap dari model jaringan saraf sambil memproses bagian-bagian yang berbeda dari data pelatihan. Setiap GPU memproses paket data yang ditugaskan secara independen sebelum secara berkala disinkronkan dengan semua GPU lainnya. Dalam periode sinkronisasi ini, GPU berkomunikasi satu sama lain untuk mencari rata-rata kolektif dari bobot mereka dan kemudian memperbarui bobot individu mereka sehingga semuanya identik. Akibatnya, mereka terus melatih paket data mereka secara individu sebelum waktunya untuk disinkronkan lagi.
Seiring dengan pertumbuhan model yang semakin besar, satu salinan dapat menjadi terlalu besar untuk muat di satu GPU. Misalnya, GPU B200 terbaru hanya dapat menampung 740 miliar parameter sedangkan GPT-4 merupakan model dengan 1,8 triliun parameter. Paralelisme data di antara GPU individu tidak berfungsi dalam kasus ini.
Parallelisme Tensor: Pendekatan ini mengatasi batasan memori dengan mendistribusikan pekerjaan dan bobot setiap layer model ke beberapa GPU. GPU bertukar perhitungan intermediate dengan seluruh klaster selama setiap langkah propagasi maju dan mundur. GPU ini biasanya dikelompokkan dalam server delapan unit, yang terhubung melalui NVLink—koneksi langsung GPU-to-GPU berkecepatan tinggi milik NVIDIA. Pengaturan ini membutuhkan koneksi berkecepatan tinggi (hingga 400 Gb/s) dan latensi rendah antar GPU. Klaster tensor berfungsi secara efektif sebagai satu GPU besar.
Pipeline Parallelism: Metode ini membagi model di beberapa GPU, dengan masing-masing GPU menangani lapisan tertentu. Data mengalir melalui GPU ini secara berurutan, seperti perlombaan relai di mana setiap pelari (GPU) mengelola porsi mereka sebelum meneruskan tongkat estafet. Paralelisme pipeline sangat efektif untuk menghubungkan server 8-GPU yang berbeda dalam pusat data, menggunakan jaringan InfiniBand berkecepatan tinggi untuk komunikasi antar-server. Meskipun persyaratan komunikasinya melebihi paralelisme data, mereka tetap lebih rendah daripada pertukaran GPU-ke-GPU intensif paralelisme tensor.
Skala klaster modern sangat luar biasa. GPT-4, dengan 1,8 triliun parameter dan 120 lapisan, memerlukan 25.000 GPU A100 untuk pelatihan. Proses ini memakan waktu tiga bulan dan biayanya lebih dari $60 juta. A100 adalah generasi yang lebih lama; menggunakan GPU B200 saat ini hanya memerlukan sekitar 8.000 unit dan 20 hari pelatihan. Hanya demonstrasi lain betapa cepatnya perkembangan AI.
Tapi kelas model GPT-4 sekarang adalah mainan lama. Pelatihan untuk generasi berikutnya dari model-model canggih sedang berlangsung di pusat data yang memuat klaster-kaster 100.000 B100 atau H100 GPU (yang terakhir merupakan satu generasi lebih tua). Klaster-klaster ini, mewakili lebih dari $4 miliar dalam biaya modal GPU saja, adalah superkomputer paling kuat umat manusia, memberikan setidaknya empat kali lipat kekuatan komputasi mentah dari milik pemerintah.
Selain mengamankan komputasi mentah, calon ASI menghadapi masalah lain saat mencoba menyiapkan cluster-cluster ini: listrik. Setiap GPU ini mengonsumsi 700W daya. Ketika Anda menggabungkan 100.000 unit, seluruh cluster (termasuk perangkat keras pendukung) mengonsumsi lebih dari 150MW daya. Untuk memberikan gambaran, konsumsi ini sama dengan sebuah kota dengan 300.000 orang—dibandingkan dengan New Orleans atau Zurich.
Kegilaan tidak berhenti di sini. Sebagian besar calon ASI percaya bahwa Hukum skala LLM—yang menunjukkan bahwa performa model meningkat secara dapat diprediksi dengan peningkatan ukuran model, ukuran himpunan data, dan komputasi pelatihan—akan terus berlaku. Rencana sudah bergerak untuk menjalankan pelatihan model yang bahkan lebih kuat. Pada tahun 2025, biaya setiap klaster pelatihan diproyeksikan melebihi $ 10 miliar. Pada tahun 2027, lebih dari $ 100 miliar. Ketika angka-angka ini mendekati investasi pemerintah AS dalam program Apollo, menjadi jelas mengapa mencapai ASI telah muncul sebagai ras yang menentukan di era kita.
Metrik untuk model-model yang dimulai GPT-5 adalah estimasi
Seiring dengan pertumbuhan konsumsi listrik yang sebanding dengan ukuran klaster, latihan tahun depan akan menuntut lebih dari 1GW daya. Tahun berikutnya, 10GW atau lebih. Tanpa indikasi perlambatan ekspansi ini, pusat data diperkirakan akan mengonsumsi sekitar 4,5% dari yang dihasilkan secara global pada tahun 2030. Jaringan listrik yang ada, sudah kesulitan dengan tuntutan model saat ini, tidak dapat menghasilkan energi yang cukup untuk klaster masa depan. Ini menimbulkan pertanyaan kritis: dari mana sumber daya ini akan datang? Big Tech mengambil pendekatan dua mata pisau.
Jangka panjang, satu-satunya solusi yang layak adalah bagi calon ASI untuk menghasilkan listrik sendiri. Mengingat komitmen mereka terhadap iklim, listrik ini harus berasal dari sumber energi terbarukan. Energi nuklir menjadi solusi utama. Amazon baru saja dibeli Kampus pusat data yang didukung oleh pembangkit listrik tenaga nuklir seharga $ 650 juta. Microsoft telah merekrut kepala teknologi nuklir dan memulihkan pabrik Three Mile Island yang bersejarah. Google memiliki mengakuisisi beberapa reaktor nuklir kecildari Kairos Power di California. Sam Altman dari OpenAI telah mendukung startup energi seperti Helion, Exowatt, dan Oklo.
Microsoft membuka kembali Three Mile Island Nuclear Plant (sumber gambar)
Sementara benih tenaga nuklir sedang ditaburkan sekarang, buahnya (atau tenaga) akan memakan waktu beberapa tahun untuk ditanggung. Bagaimana dengan kebutuhan energi untuk model generasi langsung? Solusi sementara melibatkan pelatihan terdistribusi di beberapa pusat data. Alih-alih memusatkan tuntutan daya besar-besaran di satu lokasi, perusahaan seperti Microsoft dan Google mendistribusikan kluster pelatihan mereka di beberapa lokasi.
Tantangannya, tentu saja, adalah membuat sistem terdistribusi ini bekerja sama secara efektif. Bahkan dengan kecepatan cahaya, data memerlukan waktu sekitar 43ms untuk perjalanan pulang-pergi dari Timur ke Barat Amerika Serikat—sebuah keabadian dalam istilah komputasi. Selain itu, jika bahkan satu chip tertinggal, misalnya, 10%, itu menyebabkan seluruh proses pelatihan menjadi melambat dengan margin yang sama.
Solusinya terletak pada menghubungkan pusat data di beberapa situs dengan jaringan serat optik berkecepatan tinggi dan menerapkan kombinasi teknik paralelisme yang dibahas sebelumnya untuk menyinkronkan operasi mereka. Paralelisme tensor diterapkan pada GPU dalam setiap server, memungkinkan mereka berfungsi sebagai satu unit. Paralelisme pipa, dengan tuntutan jaringannya yang lebih rendah, digunakan untuk menghubungkan server dalam pusat data yang sama. Akhirnya, pusat data di lokasi yang berbeda (disebut sebagai "pulau") menyinkronkan informasi mereka secara berkala menggunakan paralelisme data.
Sebelumnya, kami mencatat bahwa paralelisme data tidak efektif untuk GPU individu karena mereka tidak dapat menampung model yang besar secara independen. Namun, dinamika ini berubah ketika kita memparallelkan pulau-pulau - masing-masing mengandung ribuan GPU - daripada unit individu. Data pelatihan didistribusikan di setiap pulau, dan pulau-pulau ini disinkronkan secara berkala melalui koneksi serat optik yang relatif lebih lambat (dibandingkan dengan NVLink dan Infiniband).
Mari kita beralih dari pelatihan dan GPU ke pusat data itu sendiri.
Dua puluh tahun yang lalu, Amazon meluncurkan Amazon Web Services (AWS)—salah satu bisnis paling transformatif dalam sejarah—dan menciptakan industri baru yang dikenal sebagai komputasi awan. Para pemimpin cloud saat ini (Amazon, Microsoft, Google, dan Oracle) menikmati dominasi yang nyaman, menghasilkan pendapatan tahunan gabungan hampir $ 300 miliar dengan margin 30-40%. Sekarang, munculnya AI telah menciptakan peluang baru di pasar yang sebagian besar tetap oligopolistik selama bertahun-tahun.
Persyaratan fisik, kompleksitas teknis, dan ekonomi dari pusat data AI yang membutuhkan GPU sangat berbeda dengan pusat data tradisional mereka.
Kami telah membahas sebelumnya betapa GPU yang haus energi. Hal ini menyebabkan pusat data AI menjadi jauh lebih padat energi dan, akibatnya, menghasilkan lebih banyak panas. Sementara pusat data tradisional menggunakan kipas raksasa (pendinginan udara) untuk menghilangkan panas, pendekatan ini tidaklah cukup atau secara finansial memungkinkan untuk fasilitas AI. Sebaliknya, pusat data AI mengadopsi sistem pendinginan cair di mana blok air melekat langsung pada GPU dan komponen panas lainnya untuk menghilangkan panas dengan lebih efisien dan tenang. (GPU B200 dilengkapi dengan arsitektur ini yang sudah terintegrasi). Mendukung sistem pendinginan cair memerlukan penambahan menara pendingin besar, fasilitas sistem air terpusat, dan pipa untuk mengangkut air ke dan dari semua GPU—modifikasi mendasar terhadap infrastruktur pusat data.
Selain konsumsi energi absolut yang lebih tinggi, pusat data AI memiliki kebutuhan beban yang berbeda. Sementara pusat data tradisional menjaga konsumsi daya yang dapat diprediksi, pola penggunaan daya beban kerja AI jauh lebih fluktuatif. Volatilitas ini terjadi karena GPU secara periodik bergantian antara menjalankan kapasitas 100% dan melambat hingga hampir berhenti saat pelatihan mencapai titik kontrol, di mana bobot entah disimpan ke memori atau, seperti yang kita lihat sebelumnya, disinkronkan dengan pulau-pulau lainnya. Pusat data AI membutuhkan infrastruktur daya khusus untuk mengelola fluktuasi beban ini.
Membangun klaster GPU jauh lebih sulit daripada membangun awan komputer biasa. GPU perlu saling berkomunikasi dengan sangat cepat. Untuk membuat hal ini terjadi, mereka harus ditempatkan sangat dekat satu sama lain. Sebuah fasilitas AI tipikal membutuhkan lebih dari 200.000 kabel khusus yang disebut koneksi InfiniBand. Kabel-kabel ini memungkinkan GPU berkomunikasi. Jika hanya satu kabel berhenti berfungsi, seluruh sistem akan mati. Proses pelatihan tidak dapat dilanjutkan hingga kabel tersebut diperbaiki.
Persyaratan infrastruktur ini membuatnya hampir tidak mungkin untuk memasang GPU berkinerja tinggi pada pusat data tradisional agar siap digunakan untuk AI. Peningkatan seperti itu akan membutuhkan perombakan struktural yang hampir lengkap. Sebagai gantinya, perusahaan-perusahaan sedang membangun pusat data baru yang dirancang khusus untuk AI dari awal, dengan organisasi yang berbeda mengikutinya dengan berbagai skala.
Di garis depan, perusahaan teknologi terkemuka sedang berlomba-lomba membangun pusat data AI mereka sendiri. Meta sedang menginvestasikan banyak dana di fasilitas yang hanya untuk pengembangan AI mereka sendiri, menganggapnya sebagai investasi modal langsung karena mereka tidak menawarkan layanan cloud. Microsoft sedang membangun pusat-pusat yang sama besarnya untuk menggerakkan proyek AI mereka sendiri dan melayani klien penting seperti OpenAI. Oracle juga telah masuk ke ruang ini dengan agresif, dengan OpenAI sebagai pelanggan terkemuka. Amazon terus memperluas infrastruktur mereka, terutama untuk mendukung perusahaan-perusahaan AI baru seperti Anthropic. xAI milik Elon Musk, yang tidak ingin bergantung pada perusahaan lain, memilih untuk membangun kluster GPU sendiri dengan 100.000 unit.
Di dalam pusat data GPU 100.000 H100 xAI (sumber)
Di samping pemain lama, "neoclouds" muncul — penyedia cloud khusus yang berfokus secara eksklusif pada komputasi GPU untuk beban kerja AI. Neocloud ini dibagi menjadi dua kategori berbeda berdasarkan skala.
Penyedia nebulus besar, termasuk CoreWeave, Crusoe, dan LLama Labs, mengoperasikan kluster lebih dari 2.000 GPU. Mereka membedakan diri mereka dari layanan cloud tradisional dengan dua cara: menawarkan solusi infrastruktur yang disesuaikan daripada paket standar, dan membutuhkan komitmen pelanggan jangka panjang daripada pengaturan bayar-per-gunakan.
Model bisnis mereka memanfaatkan perjanjian jangka panjang dan kredit pelanggan untuk mendapatkan pembiayaan infrastruktur. Pendapatan berasal dari tarif premium yang dibebankan untuk layanan khusus, dan keuntungan dari selisih antara biaya pembiayaan rendah dan pembayaran pelanggan.
Begini biasanya kerja sama semacam ini berlangsung: penyedia neocloud mengamankan kontrak tiga tahun dengan startup AI yang didanai dengan baik untuk 10.000 GPU H100 seharga $40 juta per bulan. Dengan menggunakan aliran pendapatan yang dijamin sebesar $1,44 miliar ini, penyedia mengamankan pembiayaan bank yang menguntungkan (dengan bunga 6%) untuk membeli dan menginstal infrastruktur senilai $700 juta. Pendapatan bulanan sebesar $40 juta mencakup biaya operasional sebesar $10 juta dan pembayaran pinjaman sebesar $20 juta, menghasilkan keuntungan bulanan sebesar $10 juta sementara startup menerima kekuatan komputasi yang dibangun khusus dan didedikasikan.
Model ini memerlukan pemilihan pelanggan yang sangat hati-hati. Penyedia biasanya mencari perusahaan dengan cadangan kas besar atau dukungan ventura yang kuat—sering kali valuasi $500 juta atau lebih.
Neocloud kecil menawarkan klaster GPU dengan 2.000 atau kurang dan melayani segmen pasar AI yang berbeda - start-up kecil dan menengah. Perusahaan-perusahaan ini baik melatih model yang lebih kecil (hingga 70 miliar parameter) atau menyetel ulang yang bersumber terbuka. (Menyetel ulang adalah proses menyesuaikan model dasar untuk kasus penggunaan tertentu.) Kedua beban kerja ini memerlukan komputasi yang moderat tetapi didedikasikan untuk periode yang lebih singkat.
Para penyedia ini menawarkan komputasi on-demand dengan tarif per jam untuk akses klaster yang tidak terputus selama durasi tetap. Meskipun biayanya lebih tinggi daripada kontrak jangka panjang, ini memberikan fleksibilitas kepada startup untuk bereksperimen tanpa harus berkomitmen pada kesepakatan bernilai jutaan dolar.
Akhirnya, selain dari pemain besar di cloud dan penyedia neocloud, kita memiliki perantara dalam ruang infrastruktur AI: platform dan agregator. Perantara ini tidak memiliki infrastruktur GPU tetapi menghubungkan pemilik sumber daya komputasi dengan mereka yang membutuhkannya.
Platform penyedia seperti gate.ioHydraHostdanFluidstackmelayani sebagai Shopify dari komputasi GPU. Sama seperti Shopify memungkinkan pedagang untuk meluncurkan toko online tanpa membangun infrastruktur e-commerce, platform ini memungkinkan operator pusat data dan pemilik GPU untuk menawarkan layanan komputasi tanpa mengembangkan antarmuka pelanggan mereka sendiri. Mereka menyediakan paket teknis lengkap untuk menjalankan bisnis komputasi GPU, termasuk alat manajemen infrastruktur, sistem penyediaan pelanggan, dan solusi penagihan.
Aggregator pasar seperti Vast.aiberfungsi sebagai Amazon di dunia GPU. Mereka menciptakan pasar yang menggabungkan penawaran komputasi yang beragam dari berbagai penyedia - mulai dari kartu RTX untuk konsumen hingga GPU H100 profesional. Pemilik GPU mencantumkan sumber daya mereka dengan metrik kinerja dan peringkat keandalan yang terperinci, sementara pelanggan membeli waktu komputasi melalui platform self-service.
Sejauh ini, pembahasan kita telah difokuskan pada pelatihan (atau penyempurnaan) model. Namun, setelah dilatih, sebuah model harus didisahkan untuk melayani pengguna akhir—sebuah proses yang disebut inferensi. Setiap kali Anda sedang mengobrol dengan ChatGPT, Anda menggunakan GPU yang menjalankan beban kerja inferensi yang mengambil masukan Anda dan menghasilkan respons model. Mari kembali ke pembahasan patung marmer sejenak.
Ini juga David — bukan asli Michelangelo, tetapi gips yang ditugaskan oleh Ratu Victoria pada tahun 1857 untuk Museum Victoria dan Albert London. Sementara Michelangelo menghabiskan tiga tahun yang melelahkan dengan hati-hati memotong marmer untuk membuat yang asli di Florence, gips ini dibuat dari cetakan langsung patung — dengan sempurna mereproduksi setiap kurva, sudut, dan detail yang telah dibuat Michelangelo. Pekerjaan kreatif intensif terjadi sekali. Setelah itu, menjadi masalah mereplikasi fitur-fitur ini dengan setia. Hari ini, replika David muncul di mana-mana dari ruang museum ke halaman kasino Las Vegas.
Inilah persis bagaimana inferensi bekerja dalam AI. Melatih model bahasa besar seperti proses patung orisinal Michelangelo — komputasi intensif, memakan waktu, dan menggunakan sumber daya yang banyak saat model secara bertahap belajar tentang bentuk yang tepat dari bahasa melalui jutaan penyesuaian kecil. Tetapi menggunakan model yang telah dilatih — inferensi — lebih seperti menciptakan replika. Ketika Anda mengobrol dengan ChatGPT, Anda tidak mengajari bahasa dari awal tetapi menggunakan salinan dari model yang parameternya (seperti lengkungan dan sudut yang tepat pada patung David) telah disempurnakan.
Beban kerja inferensi berbeda secara mendasar dari pelatihan. Sementara pelatihan membutuhkan klaster GPU terbaru yang besar dan padat seperti H100s untuk menangani komputasi intensif, inferensi dapat berjalan pada server GPU tunggal menggunakan perangkat keras lama seperti A100s atau bahkan kartu konsumen, sehingga lebih hemat biaya secara signifikan. Dikatakan demikian, beban kerja inferensi memiliki tuntutan unik mereka sendiri:
Karakteristik ini membuat beban kerja inferensi menjadi ideal untuk model harga spot. Di bawah harga spot, sumber daya GPU tersedia dengan diskon signifikan—seringkali 30-50% di bawah tarif on-demand—dengan pemahaman bahwa layanan dapat dihentikan ketika pelanggan dengan prioritas lebih tinggi membutuhkan sumber daya. Model ini cocok untuk inferensi karena implementasi yang redundan memungkinkan beban kerja beralih dengan cepat ke GPU yang tersedia jika terganggu.
Dalam latar belakang GPU dan komputasi awan AI ini, kita sekarang berada pada posisi untuk mulai menjelajahi di mana kripto cocok dalam semua ini. Mari (akhirnya) kita mulai.
Proyek-proyek dan laporan sering mengutip pengamatan Peter Thiel bahwa "AI sentralisasi, kripto desentralisasi" ketika membahas peran kripto dalam pelatihan AI. Meskipun pernyataan Thiel tersebut tidak diragukan lagi benar, kita baru saja melihat bukti yang cukup jelas bahwa Big Tech memiliki keunggulan yang jelas dalam pelatihan AI yang kuat—seringkali disalahgunakan untuk menyiratkan bahwa kripto dan komputer terdesentralisasi menawarkan solusi utama untuk menyeimbangkan pengaruh Big Tech.
Klaim semacam itu menggemakan pernyataan berlebihan sebelumnya tentang potensi crypto untuk merevolusi media sosial, game, dan industri lain yang tak terhitung jumlahnya. Mereka tidak hanya kontraproduktif tetapi juga, seperti yang akan saya katakan sebentar lagi, tidak realistis — setidaknya dalam jangka pendek.
Sebagai gantinya, saya akan mengambil pendekatan yang lebih pragmatis. Saya akan mengasumsikan bahwa sebuah startup kecerdasan buatan (AI) yang mencari pemrosesan tidak peduli dengan prinsip-prinsip desentralisasi atau oposisi ideologis terhadap Teknologi Besar (Big Tech). Sebaliknya, mereka memiliki masalah - mereka ingin mengakses pemrosesan GPU yang dapat diandalkan dengan biaya yang paling rendah. Jika proyek kripto dapat memberikan solusi yang lebih baik untuk masalah ini daripada alternatif non-kripto, mereka akan menggunakannya.
Untuk itu, mari kita pertama-tama memahami dengan siapa proyek-proyek kripto bersaing. Sebelumnya, kita membahas berbagai kategori penyedia cloud AI - Big Tech dan hyperscalers, neocloud besar, neocloud kecil, penyedia platform, dan pasar.
Tesis mendasar di balik komputasi terdesentralisasi (seperti semua proyek DePIN) adalah bahwa pasar komputasi saat ini beroperasi secara tidak efisien. Permintaan GPU tetap sangat tinggi, sementara pasokannya terfragmentasi dan tidak digunakan sepenuhnya di pusat data global dan rumah-rumah individu. Sebagian besar proyek di sektor ini bersaing secara langsung dengan pasar dengan mengumpulkan pasokan yang tersebar ini untuk mengurangi ketidakefisienan.
Dengan itu ditetapkan, mari kita lihat bagaimana proyek-proyek ini (dan pasar komputasi secara umum) dapat membantu dengan beban kerja AI yang berbeda - pelatihan, penyesuaian halus, dan inferensi.
Hal pertama yang pertama. Tidak, ASI tidak akan dilatih pada jaringan global GPU terdesentralisasi. Setidaknya, tidak pada lintasan AI saat ini. Inilah alasannya.
Sebelumnya, kita membahas seberapa besar gugus model dasar menjadi. Anda memerlukan 100.000 GPU paling kuat di dunia untuk bahkan mulai bersaing. Angka ini hanya meningkat dengan setiap tahun yang berlalu. Pada tahun 2026, biaya pelatihan diharapkan mencapai lebih dari $100 miliar dolar, mungkin memerlukan jutaan GPU atau lebih.
Hanya perusahaan Big Tech, didukung oleh neoclouds besar dan mitra langsung Nvidia, yang dapat merakit kluster sebesar ini. Ingat, kita sedang berlomba untuk ASI, dan semua peserta sangat termotivasi dan memiliki modal yang cukup besar. Jika ada pasokan tambahan dari banyak GPU ini (sebenarnya tidak ada), maka mereka akan menjadi yang pertama untuk mengambilnya.
Bahkan jika sebuah proyek kripto secara tidak sengaja mengumpulkan komputasi yang diperlukan, dua halangan mendasar mencegah pengembangan ASI terdesentralisasi:
Pertama, GPU masih perlu terhubung dalam kluster besar untuk berfungsi secara efektif. Bahkan jika kluster ini dibagi di antara pulau-pulau di kota-kota, mereka harus terhubung oleh jalur serat optik yang didedikasikan. Kedua hal ini tidak mungkin dilakukan dalam pengaturan terdesentralisasi. Selain pengadaan GPU, pendirian pusat data siap AI membutuhkan perencanaan yang teliti - biasanya proses satu hingga dua tahun. (xAI melakukannya dalam hanya 122 hari, tetapi tidak mungkin Elon akan meluncurkan token dalam waktu dekat.)
Kedua, hanya menciptakan pusat data AI tidak cukup untuk melahirkan AI superintelejen. Seperti pendiri Anthropic, Dario Amodei baru-baru ini dijelaskan, skalabilitas dalam AI mirip dengan reaksi kimia. Seperti reaksi kimia yang membutuhkan beberapa reagen dalam proporsi yang tepat untuk berlangsung, skalabilitas AI yang sukses bergantung pada tiga bahan penting yang tumbuh bersama-sama: jaringan yang lebih besar, waktu pelatihan yang lebih lama, dan dataset yang lebih besar. Jika Anda memperbesar satu komponen tanpa yang lain, proses akan terhenti.
Bahkan jika kita berhasil mengumpulkan kedua komputasi dan mengatur cluster agar dapat bekerja sama, kita masih memerlukan terabytes data berkualitas tinggi agar model yang dilatih menjadi baik. Tanpa sumber data properti Big Tech, modal untuk menandatangani kesepakatan multi-juta dolar dengan forum online dan media, atau model-model yang ada untuk menghasilkan data sintetis, mendapatkan data latihan yang memadai adalah hal yang tidak mungkin.
Belakangan ini telah ada beberapa spekulasi bahwa hukum skalabilitas mungkin mencapai titik jenuh, dengan LLM mungkin menghantam batas kinerja. Beberapa menginterpretasikan ini sebagai peluang untuk pengembangan AI terdesentralisasi. Namun, ini mengabaikan faktor penting - konsentrasi bakat. Perusahaan Big Tech dan laboratorium AI hari ini menjadi tempat para peneliti terkemuka di dunia. Setiap terobosan alternatif menuju AGI kemungkinan besar akan muncul dari pusat-pusat ini. Mengingat lanskap kompetitif, penemuan-penemuan seperti itu akan tetap dijaga dengan ketat.
Mempertimbangkan semua argumen ini, saya 99,99% yakin bahwa pelatihan ASI - atau bahkan model terkuat di dunia - tidak akan dilatih pada proyek komputasi terdesentralisasi. Dalam hal itu, model apa yang sebenarnya dapat membantu melatih kripto?
Agar model-model dapat dilatih di cluster GPU yang terpisah yang ditempatkan di lokasi geografis yang berbeda, kita perlu mengimplementasikan paralelisme data di antara mereka. (Ingat bahwa paralelisme data adalah bagaimana pulau-pulau yang berbeda dari GPU, masing-masing bekerja pada potongan data pelatihan yang terpisah, disinkronkan satu sama lain). Semakin besar model yang dilatih, semakin besar jumlah data yang perlu ditukar antara pulau-pulau ini. Seperti yang kita bahas, untuk model-model frontier dengan lebih dari satu triliun parameter, bandwidth yang dibutuhkan cukup besar untuk membutuhkan koneksi serat optik yang didedikasikan.
Namun, untuk model yang lebih kecil, kebutuhan bandwidth berkurang secara proporsional. Terobosan baru-baru ini dalam algoritma pelatihan dengan komunikasi rendah, terutama dalam sinkronisasi tertunda, telah menciptakan peluang yang menjanjikan untuk melatih model berukuran kecil hingga menengah secara terdesentralisasi. Dua tim memimpin upaya eksperimental ini.
Nous Researchadalah perusahaan akselerator AI dan pemain utama dalam pengembangan AI sumber terbuka. Mereka terkenal dengan seri model bahasa Hermes mereka dan proyek inovatif seperti World Sim. Awal tahun ini, mereka mengoperasikan subnet BitTensor peringkat LLM selama beberapa bulan. Mereka telah mencoba perhitungan terdesentralisasi dengan merilis DisTrOproyek Distributed Training Over the Internet (Pelatihan Terdistribusi Melalui Internet), di mana mereka berhasil melatih model Llama-2 berparameter 1,2B sambil mencapai pengurangan kebutuhan bandwidth inter-GPU sebesar 857x.
Laporan DisTrO oleh Nous Research
Prime Intellect, sebuah startup yang mengembangkan infrastruktur untuk AI terdesentralisasi dalam skala besar, bertujuan untuk mengumpulkan sumber daya komputasi global dan memungkinkan pelatihan kolaboratif dari model-model terbaru melalui sistem terdistribusi. Mereka Kerangka kerja OpenDiLoCo (mengimplementasikan DeepMind's Metode Komunikasi Rendah Terdistribusi) berhasil melatih model dengan sejuta parameter di dua benua dan tiga negara sambil mempertahankan penggunaan komputasi sebesar 90-95%.
Namun bagaimana jalannya pelatihan terdesentralisasi ini?
Paralelisme data tradisional mengharuskan GPU untuk berbagi dan membuat rata-rata bobotnya setelah setiap langkah pelatihan—tidak mungkin dilakukan melalui koneksi internet. Sebaliknya, proyek-proyek ini memungkinkan setiap "pulau" GPU berlatih secara independen selama ratusan langkah sebelum sinkronisasi. Anggap saja seperti tim peneliti independen yang mengerjakan proyek yang sama: daripada terus-menerus memeriksa satu sama lain, mereka membuat kemajuan signifikan secara independen sebelum membagikan temuan mereka.
DisTrO dan OpenDiLoCo hanya menyinkronkan setiap 500 langkah, menggunakan pendekatan pengoptimal ganda:
Ketika mereka melakukan sinkronisasi, bukan berbagi semua bobot, mereka berbagi “pseudo-gradien”—secara mendasar perbedaan antara bobot saat ini dan bobot dari sinkronisasi terakhir. Ini sangat efisien, seperti berbagi hanya apa yang berubah dalam dokumen daripada mengirim seluruh dokumen setiap kali.
KECERDASAN-1, sebuah implementasi praktis dari OpenDiLoCo oleh Prime Intellect, mendorong pendekatan ini bahkan lebih jauh dengan melatih model parameter 10 miliar—upaya pelatihan terdesentralisasi terbesar hingga saat ini. Mereka telah menambahkan optimisasi kunci seperti:
INTELLECT-1, dilatih oleh lebih dari 20 klaster GPU yang tersebar di seluruh dunia, baru-baru ini selesai prapemrosesandan akan segera dirilis sebagai model open-source sepenuhnya.
Dasbor pelatihan INTELLECT-1
Tim seperti Makrokosmosmenggunakan algoritma serupa untukmelatih modeldi dalam ekosistem Bittensor.
Jika algoritma pelatihan terdesentralisasi ini terus menjadi lebih baik, mereka mungkin mampu mendukung model hingga 100 miliar parameter dengan generasi GPU berikutnya. Bahkan model sebesar ini dapat sangat membantu untuk berbagai kasus penggunaan:
Fein-tuning adalah proses mengambil model dasar yang telah dilatih sebelumnya (biasanya yang bersumber terbuka oleh Meta, Mistral, atau Alibaba) dan melatihnya lebih lanjut pada dataset tertentu untuk menyesuaikannya dengan tugas atau domain tertentu. Ini memerlukan perhitungan yang jauh lebih sedikit daripada pelatihan dari awal karena model tersebut telah mempelajari pola bahasa umum dan hanya perlu menyesuaikan bobotnya untuk domain baru.
Hitung persyaratan untuk penyetelan skala dengan ukuran model. Diasumsikan pelatihan pada H100:
Dengan spesifikasi ini, penyesuaian halus tidak memerlukan algoritma pelatihan terdistribusi kompleks yang sebelumnya dibahas. Model on-demand, di mana pengembang menyewa klaster GPU untuk periode singkat dan terkonsentrasi, memberikan dukungan yang memadai. Pasar komputasi terdesentralisasi dengan ketersediaan GPU yang kuat berada pada posisi yang ideal untuk menangani beban kerja ini.
Inferensi adalah tempat pasar komputasi terdesentralisasi memiliki jalur paling jelas menuju kesesuaian pasar produk. Ironisnya, ini adalah alur kerja yang paling sedikit dibahas dalam konteks pelatihan terdesentralisasi. Ini berasal dari dua faktor: inferensi tidak memiliki daya tarik dari 100.000 pelatihan "model dewa" GPU yang berjalan, dan sebagian karena fase revolusi AI saat ini.
Saat ini, sebagian besar komputasi memang digunakan untuk pelatihan. Perlombaan menuju ASI mengakibatkan investasi besar-besaran dalam infrastruktur pelatihan. Namun, keseimbangan ini tidak terelakkan akan bergeser ketika aplikasi AI beralih dari penelitian ke produksi. Untuk model bisnis seputar AI dapat berkelanjutan, pendapatan yang dihasilkan dari inferensi harus melebihi biaya gabungan pelatihan dan inferensi. Meskipun pelatihan GPT-4 sangat mahal, itu adalah biaya sekali pakai. Biaya komputasi yang berkelanjutan—dan jalur OpenAI menuju profitabilitas—didorong oleh pelayanan miliaran permintaan inferensi kepada pelanggan berbayar.
Marketplace komputasi, terdesentralisasi atau tidak, dengan sifat mengumpulkan berbagai model GPU (lama dan baru) dari seluruh dunia, menemukan diri mereka dalam posisi unik untuk melayani beban kerja inferensi.
Pasar komputasi, baik terdesentralisasi maupun tradisional, secara alami unggul dalam beban kerja inferensi dengan menggabungkan beragam model GPU (baik saat ini maupun lama) secara global. Keunggulan inherennya sangat selaras dengan persyaratan inferensi: distribusi geografis yang luas, waktu aktif yang konsisten, redundansi sistem, dan kompatibilitas di seluruh generasi GPU.
Kami telah membahas berbagai alur kerja yang dapat dan tidak dapat dibantu oleh komputasi terdesentralisasi. Sekarang, kita perlu menjawab pertanyaan penting lainnya: mengapa pengembang memilih untuk mengamankan komputasi dari penyedia terdesentralisasi daripada penyedia terpusat? Apa keuntungan menarik yang ditawarkan solusi terdesentralisasi?
Stablecoin mencapai kesesuaian pasar produk dengan menawarkan alternatif yang lebih unggul untuk pembayaran lintas negara yang tradisional. Faktor besar adalah stablecoin jauh lebih murah! Demikian pula, faktor terbesar yang mendorong pilihan pengembang AI terhadap penyedia awan adalah biaya. Untuk penyedia komputasi terdesentralisasi bersaing secara efektif, mereka harus terlebih dahulu memberikan penentuan harga yang lebih unggul.
Pasar komputasi, seperti semua pasar, adalah bisnis efek jaringan. Semakin banyak pasokan GPU di platform, semakin besar likuiditas dan ketersediaan bagi pelanggan, yang pada gilirannya menarik lebih banyak permintaan. Saat permintaan tumbuh, ini mendorong pemilik GPU lebih banyak bergabung dengan jaringan, menciptakan siklus yang baik. Peningkatan pasokan juga memungkinkan penetapan harga yang lebih kompetitif melalui pencocokan yang lebih baik dan mengurangi waktu tidak aktif. Ketika pelanggan secara konsisten dapat menemukan komputasi yang mereka butuhkan dengan tarif menarik, mereka lebih cenderung membangun ketergantungan teknis yang abadi pada platform, yang lebih memperkuat efek jaringan.
Dinamika ini sangat kuat terutama dalam inferensi, di mana distribusi geografis pasokan sebenarnya dapat meningkatkan penawaran produk dengan mengurangi laten bagi pengguna akhir. Marketplace pertama yang mencapai flywheel likuiditas ini secara besar-besaran akan memiliki keunggulan kompetitif yang signifikan, karena baik pemasok maupun pelanggan menghadapi biaya beralih setelah mereka terintegrasi dengan alat dan alur kerja platform.
Flywheel efek jaringan pasar GPU
Di pasar pemenang-mengambil-semua seperti itu, bootstrapping jaringandan mencapai kecepatan lepas adalah fase yang paling kritis. Di sini, crypto menyediakan proyek komputasi terdesentralisasi dengan alat yang sangat kuat yang tidak dimiliki pesaing terpusat mereka: insentif token.
Mekanisme dapat sederhana namun kuat. Protokol akan pertama kali meluncurkan token yang mencakup jadwal hadiah inflasi, mungkin mendistribusikan alokasi awal kepada kontributor awal melalui airdrop. Emisi token ini akan berfungsi sebagai alat utama untuk memulai kedua sisi pasar.
Untuk penyedia GPU, struktur imbalan harus dirancang dengan hati-hati untuk membentuk perilaku sisi pasokan. Penyedia akan mendapatkan token proporsional dengan komputasi yang mereka kontribusikan dan tingkat penggunaan, tetapi sistem harus melampaui imbalan linier yang sederhana. Protokol dapat menerapkan pengali imbalan dinamis untuk mengatasi ketidakseimbangan geografis atau jenis perangkat keras - mirip dengan cara Uber menggunakan harga lonjakan untuk memberi insentif kepada pengemudi di area dengan permintaan tinggi.
Seorang penyedia mungkin akan mendapatkan penghargaan 1,5 kali lipat untuk menawarkan komputasi di wilayah yang kurang dilayani atau penghargaan 2x untuk menyediakan jenis GPU yang sementara langka. Menambahkan sistem penghargaan berjenjang berdasarkan tingkat penggunaan yang konsisten akan mendorong penyedia untuk mempertahankan ketersediaan yang stabil daripada beralih secara oportunis antara platform.
Dari sisi permintaan, pelanggan akan menerima imbalan token yang secara efektif mensubsidi penggunaan mereka. Protokol mungkin menawarkan imbalan yang lebih tinggi untuk komitmen komputasi jangka panjang—mendorong pengguna untuk membangun ketergantungan teknis yang lebih dalam pada platform. Imbalan-imbalan ini dapat lebih lanjut disusun untuk sejalan dengan prioritas strategis platform, seperti menangkap permintaan di suatu wilayah tertentu.
Tarif dasar untuk komputasi dapat tetap sama atau sedikit di bawah tarif pasar, dengan protokol menggunakan orakel zkTLSuntuk terus-menerus memantau dan mencocokkan harga pesaing. Hadiah token kemudian akan menjadi lapisan insentif tambahan di atas tarif dasar yang kompetitif ini. Model penetapan harga ganda ini akan memungkinkan platform untuk mempertahankan daya saing harga sementara menggunakan insentif token untuk mendorong perilaku tertentu yang memperkuat jaringan.
Dengan mendistribusikan insentif token, baik penyedia maupun pelanggan akan mulai mengumpulkan saham dalam jaringan. Meskipun beberapa, mungkin kebanyakan, akan menjual saham-saham ini, yang lain akan menyimpannya, efektif menjadi pemangku kepentingan dan pengkhotbah bagi platform tersebut. Peserta yang terlibat ini akan memiliki kepentingan yang kuat dalam kesuksesan jaringan, berkontribusi pada pertumbuhan dan adopsi di luar penggunaan langsung atau penyediaan sumber daya komputasi mereka sendiri.
Seiring waktu, ketika jaringan mencapai kecepatan melarikan diri dan menetapkan efek jaringan yang kuat, insentif token ini dapat dikurangi secara bertahap. Manfaat alami menjadi pasar terbesar — pencocokan yang lebih baik, pemanfaatan yang lebih tinggi, cakupan geografis yang lebih luas — akan menjadi pendorong pertumbuhan yang mandiri.
Bagaimana insentif token dapat mempercepat roda pasar GPU
Sementara harga dan jangkauan adalah perbedaan kritis, jaringan komputasi terdesentralisasi menangani kekhawatiran yang semakin meningkat: pembatasan operasional dari penyedia terpusat. Penyedia awan tradisional telah menunjukkan kemauan mereka untuk menangguhkan atau menghentikan layanan berdasarkan kebijakan konten dan tekanan eksternalPreceden ini menimbulkan pertanyaan yang sah tentang bagaimana kebijakan serupa dapat diterapkan pada pengembangan dan penyebaran model AI.
Seiring dengan model AI yang semakin canggih dan menangani kasus penggunaan yang semakin beragam, ada kemungkinan nyata bahwa penyedia cloud dapat menerapkan pembatasan pada pelatihan dan penyajian model, mirip dengan pendekatan moderasi konten yang ada. Hal ini dapat mempengaruhi bukan hanya konten NSFW dan topik kontroversial, tetapi juga kasus penggunaan yang sah di bidang seperti pencitraan medis, penelitian ilmiah, atau seni kreatif yang mungkin memicu filter otomatis yang terlalu berhati-hati.
Jaringan terdesentralisasi menawarkan alternatif dengan memungkinkan peserta pasar membuat keputusan infrastruktur mereka sendiri, yang berpotensi menciptakan lingkungan inovasi yang lebih bebas dan tidak terbatas.
Sisi lain dari arsitektur tanpa izin adalah bahwa privasi menjadi lebih menantang. Ketika komputasi tersebar di seluruh jaringan penyedia daripada terkandung dalam pusat data entitas tepercaya tunggal, pengembang perlu memikirkan keamanan data. Meskipun enkripsi dan lingkungan eksekusi tepercaya dapat membantu, ada trade-off inheren antara resistensi sensor dan privasi yang harus dinavigasi oleh pengembang berdasarkan kebutuhan spesifik mereka.
Dengan permintaan komputasi kecerdasan buatan yang tinggi, penyedia GPU dapat memanfaatkan posisinya untuk mengeksploitasi pelanggan yang sukses.postingan dari tahun lalu, pengembang solo terkenal Pieter Levels berbagi pengalamannya dan pengembang lainnya mengalami kenaikan harga provider mereka secara tiba-tiba hingga lebih dari 600% setelah membagikan pendapatan aplikasi AI mereka secara publik.
Sistem desentralisasi dapat menawarkan solusi terhadap masalah ini - penegakan kontrak tanpa kepercayaan. Ketika perjanjian dienkripsi di rantai daripada terkubur dalam syarat layanan, mereka menjadi transparan dan tidak dapat diubah. Seorang penyedia tidak dapat sembarangan menaikkan harga atau mengubah syarat di tengah kontrak tanpa perubahan yang secara eksplisit disetujui melalui protokol.
Selain harga, jaringan terdesentralisasi dapat memanfaatkan lingkungan eksekusi terpercaya (TEEs)untuk menyediakan komputasi yang dapat diverifikasi. Hal ini memastikan para pengembang benar-benar mendapatkan sumber daya GPU yang mereka bayar—baik dari segi spesifikasi perangkat keras maupun akses yang didedikasikan. Sebagai contoh, ketika seorang pengembang membayar untuk akses yang didedikasikan untuk delapan GPU H100 untuk pelatihan model, bukti kriptografis dapat memverifikasi bahwa beban kerja mereka memang berjalan pada H100 dengan 80GB penuh memori per GPU, daripada diam-diam diturunkan ke kartu-kartu kelas bawah atau memiliki sumber daya yang dibagi dengan pengguna lain.
Jaringan komputer terdesentralisasi dapat memberikan pengembang alternatif yang benar-benar tanpa izin. Tidak seperti penyedia tradisional yang memerlukan proses KYC yang ekstensif dan pemeriksaan kredit, siapa pun bisa bergabung dengan jaringan ini dan mulai menggunakan atau menyediakan sumber daya komputasi. Hal ini secara dramatis menurunkan hambatan masuk, terutama bagi pengembang di pasar-pasar yang sedang berkembang atau yang bekerja pada proyek-proyek eksperimental.
Pentingnya sifat yang tidak terikat izin ini menjadi lebih kuat ketika kita mempertimbangkan masa depan agen AI. Agen AI baru saja mulai menemukan pijakannya, dengan agen terpadu secara vertikaldiharapkan melebihi ukuran industri SaaS. Dengan para seperti Truth TerminaldanZerebro, kami melihat tanda-tanda pertama agen yang mendapatkan otonomi dan belajar cara menggunakan alat eksternal seperti media sosial dan generator gambar.
Saat sistem otonom ini menjadi lebih canggih, mereka mungkin perlu secara dinamis menyediakan sumber daya komputasi mereka sendiri. Jaringan terdesentralisasi di mana kontrak dapat dieksekusi secara tepercaya oleh kode alih-alih perantara manusia adalah infrastruktur alami untuk masa depan ini. Agen bisa secara otonom bernegosiasi kontrak, memantau kinerja, dan menyesuaikan penggunaan komputasi mereka berdasarkan permintaan—semua tanpa memerlukan intervensi atau persetujuan manusia.
Konsep jaringan komputasi terdesentralisasi bukanlah hal baru — proyek-proyek telah mencoba untuk mendemokratisasi akses ke sumber daya komputasi yang langka jauh sebelum boom AI saat ini.Render Jaringantelah beroperasi sejak 2017, mengumpulkan sumber daya GPU untuk merender grafis komputer.Akashdiluncurkan pada tahun 2020 untuk menciptakan pasar terbuka untuk komputasi umum. Kedua proyek ini berhasil dalam bidangnya masing-masing namun sekarang fokus pada beban kerja AI.
Demikian pula, jaringan penyimpanan terdesentralisasi seperti FilecoindanArweavesedang berkembang menjadi komputasi. Mereka menyadari bahwa dengan AI menjadi konsumen utama penyimpanan dan komputasi, menawarkan solusi terintegrasi masuk akal.
Sama seperti pusat data tradisional yang kesulitan bersaing dengan fasilitas AI yang dibangun khusus, jaringan-jaringan mapan ini menghadapi pertempuran berat melawan solusi AI yang alami. Mereka kurang memiliki DNA untuk menjalankan orkestrasi kompleks yang dibutuhkan untuk beban kerja AI. Sebagai gantinya, mereka menemukan pijakan mereka dengan menjadi penyedia komputasi bagi jaringan AI khusus lainnya. Misalnya, baik Render maupun Akash kini menjadikan GPU mereka tersedia di pasar io.net.
Siapa pasar AI-native baru ini?io.netGate.io adalah salah satu pemimpin awal dalam mengumpulkan pasokan GPU kelas enterprise, dengan lebih dari 300.000 GPU yang terverifikasi dalam jaringannya. Mereka mengklaim menawarkan penghematan biaya hingga 90% dibandingkan dengan pesaing terpusat dan telah mencapai pendapatan harian lebih dari $25.000 ($9 juta per tahun). Demikian juga, Aethirmengumpulkan lebih dari 40.000 GPU (termasuk 4.000+ H100) untuk melayani kasus penggunaan AI dan komputasi awan.
Sebelumnya, kita membahas bagaimana Prime Intellect menciptakan kerangka kerja untuk pelatihan terdesentralisasi dalam skala besar. Selain upaya ini, mereka juga menyediakan sebuah gate Pasar GPUdi mana pengguna dapat menyewa H100 secara on-demand.Gensynadalah proyek lain yang bertaruh besar pada pelatihan terdesentralisasi dengan kerangka pelatihan yang serupa ditambah pendekatan pasar GPU.
Sementara ini semua adalah pasar beban kerja-agnostik (mereka mendukung baik pelatihan maupun inferensi), beberapa proyek fokus hanya untuk inferensi - beban kerja komputasi terdesentralisasi yang paling kami nantikan. Salah satu yang paling utama adalah Exo Labs, yang memungkinkan pengguna untuk menjalankan LLM tingkat depan di perangkat sehari-hari. Mereka telah mengembangkan platform sumber terbuka yang memungkinkan distribusi tugas inferensi AI di berbagai perangkat seperti iPhone, Android, dan Mac. Mereka baru-baru ini ditunjukkanmenjalankan model 70-B (dapat diskalakan hingga 400-B) yang terdistribusi di empat M4 Pro Mac Mini.
Ketika Satoshi meluncurkan Bitcoin pada tahun 2008, manfaatnya—emas digital dengan pasokan yang sulit dan uang tahan sensor—hanya bersifat teoritis. Sistem keuangan tradisional, meskipun memiliki kekurangan, berfungsi. Bank sentral belum melakukan pencetakan uang yang belum pernah terjadi sebelumnya. Sanksi internasional belum digunakan sebagai senjata terhadap seluruh ekonomi. Kebutuhan akan alternatif tampaknya lebih bersifat akademis daripada mendesak.
Dibutuhkan satu dekade pelonggaran kuantitatif, yang mencapai puncaknya dalam ekspansi moneter era COVID, bagi manfaat teoretis Bitcoin untuk menjadi nilai yang nyata. Hari ini, ketika inflasi mengikis tabungan dan ketegangan geopolitik mengancam dominasi dolar, peran Bitcoin sebagai 'emas digital' telah berkembang dari mimpi cypherpunk menjadi aset yang diadopsi oleh institusi dan negara-negara.
Pola ini berulang dengan stablecoin. Begitu blockchain umum yang berfungsi di Ethereum tersedia, stablecoin segera menjadi salah satu kasus penggunaan paling menjanjikan. Namun, dibutuhkan bertahun-tahun untuk perbaikan bertahap dalam teknologi dan ekonomi negara-negara seperti Argentina dan Turki yang dilanda inflasi agar stablecoin berkembang dari inovasi kripto niche menjadi infrastruktur keuangan kritis yang memindahkan triliunan dolar dalam volume tahunan.
Crypto pada dasarnya adalah teknologi defensif - inovasi yang tampak tidak perlu selama masa-masa baik tetapi menjadi penting selama krisis. Kebutuhan akan solusi-solusi ini hanya menjadi jelas ketika sistem-sistem pendahulu gagal atau memperlihatkan warna aslinya.
Hari ini, kita sedang menjalani zaman keemasan AI. Modal ventura mengalir dengan bebas, perusahaan bersaing untuk menawarkan harga terendah, dan batasan, jika ada, jarang terjadi. Di lingkungan ini, alternatif terdesentralisasi bisa terasa tidak perlu. Mengapa repot dengan kompleksitas ekonomi token dan sistem bukti ketika penyedia tradisional sudah berfungsi dengan baik?
Namun jika mengacu pada gelombang teknologi utama masa lalu, kebaikan ini bersifat sementara. Kita baru saja memasuki revolusi kecerdasan buatan selama dua tahun. Ketika teknologi tersebut semakin matang dan pemenang dari perlombaan kecerdasan buatan muncul, kekuatan sejati mereka akan muncul. Perusahaan yang saat ini menawarkan akses yang cukup akan akhirnya menegaskan kontrol—melalui penetapan harga, kebijakan, izin.
Ini bukan hanya siklus teknologi lain yang dipertaruhkan. Kecerdasan buatan (AI) menjadi substrat baru peradaban—lensa melalui mana kita akan memproses informasi, menciptakan seni, membuat keputusan, dan akhirnya berevolusi sebagai spesies. Komputasi lebih dari sekadar sumber daya; itu adalah mata uang kecerdasan itu sendiri. Mereka yang mengendalikan alirannya akan membentuk garis depan kognitif manusia.
Komputasi terdesentralisasi bukanlah tentang menawarkan GPU yang lebih murah atau opsi penyebaran yang lebih fleksibel (meskipun harus menyediakan keduanya untuk berhasil). Ini tentang memastikan bahwa akses ke kecerdasan buatan - teknologi paling transformatif umat manusia - tetap tidak dapat disensor dan berdaulat. Ini adalah perisai kita melawan masa depan yang tak terhindarkan di mana beberapa perusahaan menentukan tidak hanya siapa yang dapat menggunakan AI, tetapi bagaimana mereka dapat berpikir dengannya.
Kami membangun sistem ini hari ini bukan karena itu sangat diperlukan, tetapi karena itu akan sangat penting di masa depan. Ketika AI menjadi dasar masyarakat seperti halnya uang, komputasi tanpa izin tidak hanya akan menjadi alternatif - tetapi juga menjadi sangat penting untuk melawan hegemoni digital seperti halnya Bitcoin dan stablecoin yang digunakan untuk melawan kontrol keuangan.
Perlombaan menuju kecerdasan buatan super mungkin diluar jangkauan sistem terdesentralisasi. Tetapi memastikan bahwa buah dari kecerdasan ini tetap dapat diakses oleh semua orang? Itu adalah perlombaan yang layak untuk diikuti.