Setelah Daya Komputasi, kumpulan data korpus berkualitas tinggi atau menentukan batas kemampuan model besar

robot
Pembuatan abstrak sedang berlangsung

Pada tanggal 21 hingga 23 Februari, Kota Shanghai akan mengadakan Konferensi Pengembang Global 2025 (Global Developer Conference, selanjutnya disebut GDC). Komisi Ekonomi dan Informatika Shanghai memperkenalkan bahwa 100 komunitas pengembang, termasuk Hugging Face, Komunitas Pengembang Microsoft, CSDN, Komunitas MoDabble Alibaba, Linux Foundation, ARPA Foundation, Komunitas Huawei, dan lainnya dari dalam dan luar negeri akan berpartisipasi dalam GDC kali ini; fokus pada teknologi inti seperti model besar, Daya Komputasi, korpus, alat, platform perangkat lunak, dan lainnya, dengan kelompok pengembang yang terlibat meliputi pengembangan perangkat keras, komputasi awan, big data, internet of things, kecerdasan buatan, robot, blockchain, dan Metaverse.

Perusahaan Shanghai Cupa Technology Co., Ltd. adalah salah satu dari perusahaan yang hadir dalam acara ini. Cupa didirikan khusus sesuai dengan persyaratan Pemerintah Kota Komite Partai Shanghai sebagai platform data korpus kecerdasan buatan, dengan posisi perusahaan sebagai platform layanan korpus fungsional yang terkhususkan, berkomitmen untuk menyediakan layanan data korpus berkualitas tinggi dengan biaya rendah untuk model dasar, model vertikal, dan inovator dan pengusaha skala kecil menengah.

"Seluruh tim kami tidak berhenti sejak Tahun Baru Imlek ke-4, terus melakukan penelitian dan pengembangan inovasi DeepSeek," kata CEO Kupas, Huang Haiqing kepada Interface News, kemunculan mendadak DeepSeek menimbulkan kegembiraan dan kegelisahan di seluruh industri kecerdasan buatan. Kekelisahan utamanya adalah mengapa investasi besar pada model-model besar yang ada tidak menghasilkan efek sebesar DeepSeek."

Dia berpikir bahwa inti keberhasilan DeepSeek tidak hanya terletak pada inovasi algoritma asli, tetapi juga pada penggunaan kumpulan data korpus berkualitas tinggi, yang dapat secara signifikan menghemat Daya Komputasi dan data, memberikan gagasan untuk 'memotong tikungan' bagi industri model besar China. Huang Haiqing menyatakan bahwa berdasarkan kondisi perkembangan model besar saat ini, kumpulan data korpus berkualitas tinggi akan menentukan batas kemampuan model besar, dan pasokan korpus berkualitas tinggi dapat secara signifikan mengurangi biaya pelatihan perusahaan model besar.

Dia menjelaskan bahwa Kupas telah sepenuhnya memulai pembangunan korpus industri dalam berbagai bidang seperti kecerdasan fisik, keuangan, manufaktur, pendidikan, kesehatan, hiburan, dan tata kelola kota. Platform operasi korpus 1.0 telah diluncurkan dan sedang mempercepat pengembangan platform sintesis data 2.0 dari dunia nyata hingga simulasi hingga. Saat ini, perusahaan tersebut telah terhubung dengan lebih dari 50 mitra ekologi korpus, dengan memberikan kumpulan data berkualitas tinggi kepada mitra ekologi untuk mengurangi biaya model besar.

Scaling Law masih berlaku, tetapi kecepatannya sudah melambat, menurut Huang Haiqing. Dia berpendapat bahwa di masa depan, di luar model besar berbasis bahasa, aplikasi model besar multimodal akan mulai meledak, sementara model bisnis ToB (bisnis ke bisnis) dan ToG (pemerintah ke pemerintah) akan menjadi arah utama pengembangan perusahaan model besar, saat ini banyak perusahaan model besar dasar sedang beralih ke industri vertikal, di masa depan, hanya akan ada kurang dari sepuluh perusahaan model besar dasar yang bisa bertahan di pasar China.

Dalam industri spesifik, ia berpendapat bahwa saat ini keuangan, pendidikan, kesehatan, dan industri telah lebih dulu merangkul model besar. Sedangkan di bidang-bidang kunci seperti kendaraan otonom, kecerdasan bertenaga, kecerdasan ilmiah, semuanya juga sedang aktif menerapkan model besar. Seiring berjalannya waktu, industri transportasi dan ritel di masa depan juga akan menerapkan model besar. Selain itu, permintaan untuk korpus vertikal juga semakin besar dan berkualitas tinggi. Menuju model penalaran, juga diperlukan untuk membangun proses penalaran berdasarkan data asli, ini juga menimbulkan tuntutan baru pada produksi korpus.

Dalam hal pengumpulan dan produksi data korpus, Huang Haiqing juga menyarankan bahwa undang-undang hak cipta harus mengikuti perkembangan zaman, dan membuat beberapa pembaruan pada definisi data korpus yang masuk akal untuk kecerdasan buatan dan pelatihan model besar.

"Ini bukan untuk mengubah masa lalu, tetapi untuk menambah dan memperbarui, saya pikir ini adalah jalur yang cukup sesuai dan dapat dioperasikan," kata Huang Haiqing, "Di bidang kecerdasan buatan, model besar, dan data korpus, hukum hak cipta sebelumnya hanya untuk manusia, model besar dalam pelatihan data korpus, jika menggunakan standar masa lalu untuk menilai standar pembelajaran mesin, mungkin tidak begitu tepat. Selain itu, masalah ini telah berdampak pada biaya akuisisi korpus perusahaan model besar dan risiko hukum."

Dia menyarankan, untuk mempercepat penentuan aturan penggunaan data korpus besar dalam model, mendorong aplikabilitas 'Pemrosesan Teks dan Data' di bidang pretraining; mempromosikan penggunaan data yang wajar untuk pembelajaran mesin di dalam negeri, seimbangkan hak pemilik hak cipta dan kebutuhan pengembangan teknologi, serta selesaikan masalah izin yang sulit; pemerintah harus mengeluarkan kebijakan dukungan, mendukung pengembangan platform rantai alat otomatisasi oleh perusahaan korpus data, menurunkan biaya data korpus; membangun platform rantai alat pembersihan dan penandaan otomatis AI, menurunkan biaya data korpus; mempercepat penelitian hukum mengenai cakupan perlindungan benda buatan kecerdasan buatan, dan menetapkan aturan yang jelas mengenai kepemilikan dan tanggung jawab benda buatan kecerdasan buatan.

Huang Haiqing juga menyatakan bahwa di masa depan, Kecerdasan Buatan akan memimpin pelabelan dan pembersihan data, dan pelabelan data akan beralih dari industri intensif tenaga kerja ke industri berbasis pengetahuan dan teknologi.

(Sumber artikel: Interface News)

Sumber: Eastmoney.com

Penulis: Berita Antarmuka

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • 1
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)