พลังคอมพิวเตอร์, the high-quality corpus dataset may determine the upper limit of the large model's capabilities

robot
ดำเนินการเจนเนเรชั่นบทคัดย่อ

ในวันที่ 21 ถึง 23 กุมภาพันธ์ จะจัดงาน Global Developer Conference 2025 (GDC) ในเซี่ยงไฮ้ คณะกรรมการเศรษฐกิจและเทคโนโลยีของเซี่ยงไฮ้ได้กล่าวถึงว่า มีการเข้าร่วม GDC ครั้งนี้จากชุมชนนักพัฒนาต่าง ๆ ทั้งในและนอกประเทศ เช่น Hugging Face, ชุมชนนักพัฒนาของ Microsoft, CSDN, ชุมชน Arima, มูลนิธิ Linux, มูลนิธิ ARPA, ชุมชน Huawei เป็นต้น ซึ่งมีผู้เข้าร่วมทั้งหมด 100 ชุมชน โดยให้ความสำคัญกับเทคโนโลยีหลัก เช่น โมเดลขนาดใหญ่, พลังคอมพิวเตอร์, ข้อมูลสำเร็จรูป, เครื่องมือ, แพลตฟอร์มซอฟต์แวร์ และอื่น ๆ ผู้เข้าร่วมจะเป็นกลุ่มนักพัฒนาที่เกี่ยวข้องกับการพัฒนาฮาร์ดแวร์, คลาวด์คอมพิวติ้ง, ข้อมูลใหญ่, อินเทอร์เน็ตของสรรพสิ่ง, ปัญญาประดิษฐ์, หุ่นยนต์, บล็อกเชนและ Metaverse

Shanghai Coopas Technology Co., Ltd. เป็นหนึ่งในบริษัทที่เข้าร่วมการประชุม บริษัท อยู่ในตําแหน่งแพลตฟอร์มการดําเนินงานบริการคอร์ปัสระดับมืออาชีพและมุ่งมั่นที่จะให้บริการข้อมูลคอร์ปัสต้นทุนต่ําและมีคุณภาพสูงสําหรับโมเดลพื้นฐานโมเดลแนวตั้งและผู้ประกอบการนวัตกรรมขนาดเล็กและขนาดกลาง

"ทีมของเราทั้งหมดตั้งแต่วันที่สี่ของตรุษจีนเริ่มต้นได้ไม่มีการพักผ่อนเลย ทุกคนกำลังทำการวิจัยและติดตามนวัตกรรมของ DeepSeek อยู่" ประธาน​บริษัท​คูปาสท่าน ฮวง​ไฮ​จิง กล่าวกับ Interface News ว่าการปรากฏตัวของ DeepSeek ทำให้วงการ AI ทั้งหมดรู้สึกทั้งตื่นเต้นและวุ่นวาย จุดที่ทำให้วุ่นวายคือทำไมโมเดลขนาดใหญ่ที่มีอยู่ในปัจจุบันใช้งบประมาณมากขนาดนี้แต่ไม่ได้ผลลัพธ์เท่ากับ DeepSeek"

เขาเชื่อว่าความสำเร็จของ DeepSeek อยู่ที่นวัตกรรมของอัลกอริทึมเชิงเดิมและการใช้ชุดข้อมูลคุณภาพสูงซึ่งสามารถประหยัดพลังคอมพิวเตอร์และข้อมูลได้มากนั้นเป็นแนวทางที่จะช่วยให้วงการโมเดลขนาดใหญ่ในประเทศจีนเร่งเคลื่อนตัวได้ นอกจากนี้ ฮวงไฮชิ่งกล่าวว่าตามสถานการณ์การพัฒนาของโมเดลขนาดใหญ่ในปัจจุบัน ชุดข้อมูลคุณภาพสูงจะกำหนดขีดจำกัดของความสามารถของโมเดลใหญ่ การจัดหาชุดข้อมูลคุณภาพสูงสามารถลดต้นทุนการฝึกอบรมของบริษัทโมเดลใหญ่ได้มาก

เขาได้กล่าวถึงว่า Kupas ได้เริ่มเต็มระบบการสร้างคลังข้อมูลอุตสาหกรรมในด้าน AI, การเงิน, การผลิต, การศึกษา, การแพทย์, ความบันเทิง, การบริหารเมือง และอื่นๆ แล้ว แพลตฟอร์มการดำเนินงานคลังข้อมูลเวอร์ชัน 1.0 ได้เริ่มทำงานแล้ว และกำลังเร่งการจัดแผนสำหรับการวางทีมงานในการวิจัยและพัฒนาเพื่อสร้างแพลตฟอร์มเวอร์ชัน 2.0 จากโลกจริงไปสู่การจำลองและการสร้างข้อมูล ปัจจุบัน บริษัทนี้ได้เชื่อมโยงกับพันธมิตรคลังข้อมูลมากกว่า 50 ราย เพื่อลดต้นทุนของโมเดลขนาดใหญ่ โดยให้ข้อมูลชุดคุณภาพสูงและมีประสิทธิภาพให้แก่พันธมิตร

Scaling Lawยังคงมีผล แต่ความเร็วได้ลดลงลงแล้ว Huang Haiqing ให้การประเมินว่า ในอนาคต นอกจากโมเดลขนาดใหญ่ในภาษา โมเดลหลายโหมดจะเริ่มมีการระเบิด และโมเดลธุรกิจ ToB (ธุรกิจ) และ ToG (รัฐบาล) จะเป็นทิศทางหลักของบริษัทโมเดลใหญ่ ๆ ตอนนี้ บริษัทโมเดลใหญ่ในฐาน มีการเปลี่ยนทิศทางไปสู่กลุ่มอุตสาหกรรม ในอนาคต โมเดลใหญ่ในฐานที่สามารถอยู่รอดในตลาดจีนจะมีไม่เกินสิบบริษัท

​​ในธุรกิจที่เฉพาะเจาะจง เขาเชื่อว่า ในปัจจุบัน การเอาดาวดรุยขนาดใหญ่ไปใช้งานเป็นลำดับแรกในธุรกิจการเงิน การศึกษา การแพทย์ และอุตสาหกรรม และในพื้นที่หลัก อย่างเช่น ระบบขับอัตโนมัติ อัจฉริยะทางร่างกาย และอัจฉริยะทางวิทยาศาสตร์ ก็มีการใช้งานขนาดใหญ่อย่างเต็มที่ ด้วยการผ่านเวลา อุตสาหกรรมการขนส่งในอนาคต ธุรกิจการค้าปลีก และอุตสาหกรรมอื่นๆ ก็จะใช้งานขนาดใหญ่เช่นกัน นอกจากนี้ ยังมีความต้องการที่มากขึ้น และคุณภาพที่ดีขึ้นสำหรับข้อมูลของภาคสุขภาพ สำหรับโมเดลการแยกแยะ ยังต้องสร้างกระบวนการแยกแยะบนข้อมูลเดิม ซึ่งยังเป็นความต้องการใหม่สำหรับการผลิตข้อมูล

ในการเก็บรวบรวมข้อมูลคอร์ปัสและการผลิต หวงไฮจิงยังแนะนำว่าในด้านกฎหมายเกี่ยวกับลิขสิทธิ์ควรทำให้ทันสมัย โดยการปรับปรุงขอบเขตที่เหมาะสมของข้อมูลภาษาการฝึกอบรมโมเดลขนาดใหญ่และปัญหาที่เกิดขึ้นบ้าง

"นี่ไม่ใช่การเปลี่ยนแปลงอดีต แต่เพียงเพิ่มเติมและอัปเดตเท่านั้น ฉันคิดว่านี่เป็นเส้นทางที่เหมาะสมและสามารถดำเนินการได้ มากขึ้น" กล่าวว่า "ในเขตข้อมูลเทคโนโลยีสมอัติ โมเดลขนาดใหญ่ และข้อมูลการใช้ภาษา กฎหมายลิขสิทธิ์ในอดีตเป็นเพียงสำหรับมนุษย์ ขณะที่โมเดลขนาดใหญ่การฝึกข้อมูลการใช้ภาษา หากใช้เกณฑ์ในอดีตเพื่อวัดมาตรฐานการเรียนรู้ของเครื่อง อาจไม่เหมาะสมอย่างแน่นอน และปัญหานี้ได้สร้างผลกระทบต่อต้นทุนการจัดซื้อข้อมูลการใช้ภาษาของบริษัทโมเดลขนาดใหญ่และมีผลต่อความเสี่ยงทางกฎหมาย"

เขาแนะนําว่าจําเป็นต้องเร่งชี้แจงกฎสําหรับการใช้ข้อมูลคอร์ปัสแบบจําลองขนาดใหญ่อย่างสมเหตุสมผลและส่งเสริมการประยุกต์ใช้ "การทําเหมืองข้อความและข้อมูล" ในด้านการฝึกอบรมล่วงหน้า ส่งเสริมการใช้ข้อมูลแมชชีนเลิร์นนิ่งอย่างเป็นธรรมในประเทศจีนสร้างสมดุลระหว่างสิทธิของเจ้าของลิขสิทธิ์และความต้องการของการพัฒนาทางวิทยาศาสตร์และเทคโนโลยีและแก้ปัญหาการอนุญาตที่ยาก รัฐบาลควรแนะนํานโยบายสนับสนุนเพื่อสนับสนุนองค์กรข้อมูลคอร์ปัสเพื่อเสริมสร้างการวิจัยและพัฒนาแพลตฟอร์มห่วงโซ่เครื่องมืออัตโนมัติและลดต้นทุนของข้อมูลคอร์ปัส สร้างแพลตฟอร์มห่วงโซ่เครื่องมือทําความสะอาดและคําอธิบายประกอบอัตโนมัติ AI เพื่อลดต้นทุนของคอร์ปัส เร่งการวิจัยทางกฎหมายเกี่ยวกับขอบเขตของการปกป้องวัตถุที่สร้างโดย AI และกําหนดกฎที่ชัดเจนเกี่ยวกับความเป็นเจ้าของและความรับผิดชอบของวัตถุที่สร้างโดย AI

นายฮวังไหยจิงกล่าวไว้ว่าในอนาคต AI จะเป็นผู้นำในการทำความสะอาดและทำเครื่องหมายข้อมูล การทำเครื่องหมายข้อมูลจะเปลี่ยนจากอุตสาหกรรมที่ใช้แรงงานมากเป็นอุตสาหกรรมที่ใช้ความรู้และเทคโนโลยี

(ข้อมูลจาก: ข่าวอินเตอร์เฟซ)

ที่มา: 东方财富网

ผู้เขียน:ข่าวอินเทอร์เฟซ

ดูต้นฉบับ
เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม
  • รางวัล
  • 1
  • แชร์
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น
  • ปักหมุด