Variant 投资合伙人：Mã nguồn mở AI 的困境与突破，为什么mã hóa技术是最后一块拼图？

Question

Tác giả: Daniel Barabander Trình biên dịch: Deep Tide Tóm tắt ngắn gọn về TechFlow Hiện tại, sự phát triển của AI cơ bản bị chi phối bởi một vài công ty công nghệ, được đặc trưng bởi sự khép kín và thiếu cạnh tranh. Trong khi Mã nguồn mở phát triển phần mềm là một giải pháp tiềm năng, AI nền tảng không hoạt động tốt như các dự án nguồn mở truyền thống (ví dụ: Linux) vì nó phải đối mặt với "vấn đề tài nguyên": Mã nguồn mở cộng tác viên không chỉ cần đầu tư thời gian mà còn phải chịu chi phí tính toán và dữ liệu vượt quá khả năng cá nhân của họ. Công nghệ mã hóa dự kiến sẽ giải quyết vấn đề tài nguyên này bằng cách khuyến khích các nhà cung cấp tài nguyên tham gia vào dự án Mã nguồn mở AI cơ bản. Kết hợp Mã nguồn mở AI với công nghệ mã hóa có thể hỗ trợ phát triển mô hình ở quy mô lớn hơn và thúc đẩy nhiều đổi mới hơn để tạo ra các hệ thống AI tiên tiến hơn. GIỚI THIỆU Theo một cuộc khảo sát được thực hiện bởi Trung tâm nghiên cứu Pew (Pew Center) vào năm 2024, 64% người Mỹ tin rằng tác động của mạng xã hội đối với quốc gia gây hại nhiều hơn lợi; 78% nói rằng các công ty truyền thông xã hội có quá nhiều quyền lực và ảnh hưởng trong chính trị; 83% tin rằng các nền tảng này có khả năng cố tình kiểm duyệt các quan điểm chính trị mà họ không đồng ý. Sự không hài lòng với mạng xã hội gần như đã trở thành một trong số ít nhận thức chung trong xã hội Mỹ. Nhìn lại sự phát triển của mạng xã hội trong 20 năm qua, tình trạng này dường như đã được định trước. Câu chuyện không phức tạp: một số ít các công ty công nghệ lớn đã thu hút sự chú ý của người dùng và quan trọng hơn là dữ liệu người dùng. Mặc dù hy vọng ban đầu cho dữ liệu mở, các công ty đã nhanh chóng thay đổi chiến lược của họ, sử dụng dữ liệu để xây dựng các hiệu ứng mạng không thể phá vỡ và tắt truy cập bên ngoài. Kết quả là tình hình ngày nay: ít hơn 10 công ty công nghệ lớn thống trị ngành truyền thông xã hội, tạo ra một bối cảnh "Độc quyền nhóm độc quyền". Vì hiện trạng cực kỳ thuận lợi cho họ, các công ty này có rất ít động lực để thay đổi. Mô hình này khép kín và thiếu cạnh tranh. Ngày nay, quỹ đạo của công nghệ AI dường như đang lặp lại, nhưng lần này tác động thậm chí còn sâu rộng hơn. Một số công ty công nghệ đã xây dựng các mô hình AI nền tảng bằng cách kiểm soát GPU và tài nguyên dữ liệu và đã tắt quyền truy cập vào các mô hình đó. Đối với những người mới tham gia không có hàng tỷ đô la tài trợ, gần như không thể phát triển một mô hình cạnh tranh. Bởi vì chi phí tính toán của việc đào tạo chỉ một mô hình cơ bản là hàng tỷ đô la, các công ty truyền thông xã hội đã được hưởng lợi từ làn sóng công nghệ cuối cùng đang sử dụng quyền kiểm soát của họ đối với dữ liệu người dùng độc quyền để phát triển các mô hình mà các đối thủ cạnh tranh khó có thể sánh kịp. Chúng ta đang lặp lại những sai lầm của phương tiện truyền thông xã hội và hướng tới một thế giới AI khép kín và không cạnh tranh. Nếu xu hướng này tiếp tục, một số ít các công ty công nghệ sẽ có quyền kiểm soát không bị cản trở đối với việc tiếp cận thông tin và cơ hội. Mã nguồn mở AI và "Vấn đề tài nguyên" Nếu chúng ta không muốn thấy một thế giới AI khép kín, thì lựa chọn của chúng ta là gì? Câu trả lời rõ ràng là phát triển mô hình cơ sở như một dự án phần mềm Mã nguồn mở. Trong lịch sử, chúng tôi đã có vô số dự án mở mã nguồn đã xây dựng thành công phần mềm cơ bản mà chúng tôi dựa vào hàng ngày. Ví dụ, sự thành công của Linux chứng minh rằng ngay cả phần mềm cốt lõi như một hệ điều hành cũng có thể được phát triển theo cách mở Mãsource. Vậy tại sao LLM (mô hình ngôn ngữ lớn) không thể? Tuy nhiên, những hạn chế đặc biệt mà các mô hình AI cơ bản phải đối mặt khiến chúng khác với phần mềm truyền thống, điều này cũng làm suy yếu đáng kể khả năng tồn tại của chúng như một dự án Mã nguồn mở truyền thống. Cụ thể, các mô hình AI nền tảng đòi hỏi tài nguyên dữ liệu và tính toán khổng lồ vượt xa khả năng của một cá nhân. Không giống như dự án Mã nguồn mở truyền thống, chỉ dựa vào những người quyên góp thời gian của họ, Mã nguồn mở AI cũng yêu cầu mọi người quyên góp sức mạnh tính toán và tài nguyên dữ liệu, được gọi là "vấn đề tài nguyên". Lấy mô hình LLaMa của Meta làm ví dụ, chúng ta có thể hiểu rõ hơn về vấn đề tài nguyên này. Không giống như các đối thủ cạnh tranh như OpenAI và Google, Meta không giấu các mô hình của mình đằng sau các API trả phí, mà thay vào đó công khai cung cấp trọng số LLaMa cho bất kỳ ai sử dụng miễn phí (với một số hạn chế nhất định). Các trọng số này chứa những gì mô hình học được trong quá trình đào tạo Meta và cần thiết để chạy mô hình. Với các trọng số này, người dùng có thể tinh chỉnh mô hình hoặc sử dụng đầu ra của mô hình làm đầu vào cho mô hình mới. Mặc dù việc Meta phát hành LLaMa đáng được công nhận, nhưng nó không được tính là một dự án phần mềm Mã nguồn mở thực sự. Đằng sau hậu trường, Meta kiểm soát quá trình đào tạo, dựa vào tài nguyên máy tính, dữ liệu và quyết định của riêng mình và đơn phương quyết định thời điểm cung cấp mô hình cho công chúng. Meta không mời các nhà nghiên cứu hoặc nhà phát triển độc lập tham gia vào các hoạt động cộng tác cộng đồng, vì các nguồn lực cần thiết để đào tạo hoặc đào tạo lại các mô hình vượt xa khả năng của một cá nhân bình thường. Các tài nguyên này bao gồm hàng chục nghìn GPU hiệu suất cao, trung tâm dữ liệu để lưu trữ các GPU đó, các cơ sở làm mát tinh vi và hàng nghìn tỷ mã thông báo (đơn vị dữ liệu văn bản cần thiết để đào tạo mô hình) để đào tạo. Như đã lưu ý trong báo cáo Chỉ số AI năm 2024 của Đại học Stanford, "Sự gia tăng đáng kể chi phí đào tạo loại trừ các trường đại học có truyền thống là cường quốc nghiên cứu AI khỏi sự phát triển mô hình nền tảng hàng đầu". Ví dụ, Sam Altman đã đề cập rằng chi phí lên tới 100 triệu đô la để đào tạo GPT-4 và điều đó thậm chí không bao gồm chi phí vốn cho phần cứng. Ngoài ra, chi phí vốn của Meta đã tăng 2,1 tỷ USD trong quý 2/2024 so với cùng kỳ năm 2023, chủ yếu dành cho máy chủ, trung tâm dữ liệu và cơ sở hạ tầng mạng liên quan đến đào tạo mô hình AI. Kết quả là, trong khi những người đóng góp cộng đồng của LLaMa có thể có khả năng kỹ thuật để cải thiện kiến trúc mô hình, họ thiếu nguồn lực để thực hiện những cải tiến đó. Tóm lại, không giống như các dự án phần mềm Mão nguồn mở truyền thống, Mã nguồn mở các dự án AI không chỉ yêu cầu người đóng góp đầu tư thời gian mà còn yêu cầu họ phải chịu chi phí tính toán và dữ liệu cao. Thật không thực tế khi chỉ dựa vào thiện chí và tình nguyện để thúc đẩy đủ các nhà cung cấp tài nguyên. Họ cần thêm ưu đãi. Lấy mô hình mã nguồn mở ngôn ngữ lớn BLOOM, một mô hình tham số 176 tỷ tập hợp nỗ lực của 1.000 nhà nghiên cứu tình nguyện từ hơn 250 tổ chức tại hơn 70 quốc gia. Trong khi thành công của BLOOM là đáng ngưỡng mộ (và tôi hoàn toàn ủng hộ nó), phải mất một năm để điều phối một buổi đào tạo và dựa vào 3 triệu euro tài trợ từ một viện nghiên cứu của Pháp (không bao gồm chi phí vốn của Siêu máy tính để đào tạo mô hình). Quá trình dựa vào một vòng tài trợ mới để phối hợp và lặp lại trên BLOOM quá cồng kềnh để phù hợp với tốc độ phát triển trong các phòng thí nghiệm công nghệ lớn. ĐÃ HƠN HAI NĂM KỂ TỪ KHI BLOOM ĐƯỢC PHÁT HÀNH VÀ NHÓM NGHIÊN CỨU VẪN CHƯA NGHE NÓI VỀ BẤT KỲ MÔ HÌNH TIẾP THEO NÀO. Để Mã nguồn mở AI có thể thực hiện được, chúng ta cần tìm cách khuyến khích các nhà cung cấp tài nguyên đóng góp sức mạnh tính toán và tài nguyên dữ liệu của họ, thay vì để những người đóng góp mã nguồn mở tự chịu các chi phí này. Tại sao công nghệ mã hóa có thể giải quyết "vấn đề tài nguyên" của Mã nguồn mở AI cơ bản Bước đột phá cốt lõi của công nghệ mã hóa là tạo ra các dự án phần mềm mở mã nguồn tài nguyên cao thông qua cơ chế "sở hữu". Nó giải quyết các vấn đề về tài nguyên của Mã nguồn mở AI bằng cách khuyến khích các nhà cung cấp tài nguyên tiềm năng tham gia vào mạng, thay vì để những người đóng góp mã nguồn mở chịu chi phí trả trước cho các tài nguyên này. BTC là một ví dụ điển hình về điều này. Là dự án mã hóa sớm nhất, BTC là một dự án phần mềm mở nguồn mão hoàn toàn có mã được công khai ngay từ đầu. Tuy nhiên, bản thân mã không phải là chìa khóa của BTC. Sẽ không có ý nghĩa gì nếu chỉ tải xuống và chạy phần mềm BTC Nút và tạo một chuỗi Khối cục bộ. Giá trị thực sự của phần mềm chỉ có thể được nhận ra nếu Khai thác Khối đủ chuyên sâu về mặt tính toán để vượt quá sức mạnh tính toán của bất kỳ người đóng góp đơn lẻ nào: duy trì một sổ cái Phi tập trung, không kiểm soát. Tương tự như Mã nguồn mở AI cơ bản, BTC cũng là một dự án Mã nguồn mở đòi hỏi các nguồn lực vượt quá phạm vi khả năng của một cá nhân. Mặc dù cả hai đều yêu cầu tài nguyên tính toán vì những lý do khác nhau – BTC cần tài nguyên tính toán để đảm bảo rằng mạng không thể bị giả mạo, trong khi AI cơ bản yêu cầu tài nguyên tính toán để tối ưu hóa và lặp lại trên các mô hình – tất cả đều có điểm chung là cả hai đều dựa vào tài nguyên vượt quá khả năng của các cá nhân. "Bí mật" của BTC, cũng như bất kỳ mạng mãization nào khác, để có thể khuyến khích người tham gia đóng góp tài nguyên cho dự án phần mềm Mã nguồn mở là cung cấp quyền sở hữu mạng thông qua token. Như đã nêu trong triết lý sáng lập của Jesse được viết cho Variant vào năm 2020, quyền sở hữu cung cấp động lực mạnh mẽ cho các nhà cung cấp tài nguyên sẵn sàng đóng góp tài nguyên để đổi lấy lợi ích tiềm năng trong mạng. Cơ chế này tương tự như cách các công ty khởi nghiệp giải quyết tình trạng thiếu vốn giai đoạn đầu thông qua (Sweat Equity) "vốn chủ sở hữu mồ hôi" - bằng cách trả lương cho nhân viên giai đoạn đầu (ví dụ: người sáng lập) chủ yếu dưới hình thức sở hữu công ty, các công ty khởi nghiệp có thể thu hút lao động mà nếu không họ sẽ không đủ khả năng chi trả. Công nghệ Mã Hóa mở rộng khái niệm "công bằng mồ hôi" từ việc tập trung vào những người đóng góp thời gian cho các nhà cung cấp tài nguyên. Do đó, Variant tập trung đầu tư vào các dự án tận dụng cơ chế sở hữu để xây dựng hiệu ứng mạng, chẳng hạn như Uniswap, Morpho và World. Nếu chúng ta muốn Mã nguồn mở AI trở thành hiện thực, thì cơ chế sở hữu được thực hiện thông qua công nghệ mã hóa là giải pháp chính cho vấn đề tài nguyên. Cơ chế này cho phép các nhà nghiên cứu tự do đóng góp ý tưởng thiết kế mô hình của họ cho dự án Mã nguồn mở, vì các tài nguyên tính toán và dữ liệu cần thiết để thực hiện các ý tưởng này sẽ do nhà cung cấp tài nguyên chịu, người sẽ quay trở lại bằng cách có được quyền sở hữu của dự án một phần, thay vì yêu cầu chính các nhà nghiên cứu chịu chi phí trả trước cao. Trong Mã nguồn mở AI, quyền sở hữu có thể có nhiều hình thức, nhưng một trong những hình thức được mong đợi nhất là quyền sở hữu chính mô hình, đây cũng là giải pháp được đề xuất bởi Pluralis. Cách tiếp cận được đề xuất bởi Pluralis được gọi là Mô hình giao thức. Trong mô hình này, nhà cung cấp tài nguyên máy tính có thể đào tạo một Mãền sở hữu một phần cụ thể bằng cách đóng góp sức mạnh tính toán và do đó nhận được quyền sở hữu một phần thu nhập suy luận trong tương lai của mô hình. Vì quyền sở hữu này gắn liền với một mô hình cụ thể và giá trị của nó dựa trên doanh thu suy luận của mô hình, các nhà cung cấp tài nguyên máy tính được khuyến khích chọn mô hình tối ưu để đào tạo mà không làm sai lệch dữ liệu đào tạo (vì việc cung cấp đào tạo vô ích trực tiếp đưa ra giá trị kỳ vọng của doanh thu suy luận trong tương lai). Tuy nhiên, một câu hỏi quan trọng là: làm thế nào để Pluralis đảm bảo an toàn cho quyền sở hữu nếu quá trình đào tạo yêu cầu trọng số của mô hình được gửi đến nhà cung cấp máy tính? Câu trả lời nằm ở việc sử dụng kỹ thuật (Model Parallelism) "song song mô hình" để phân phối mô hình Phân mảnh cho các công nhân khác nhau. Một tính năng quan trọng của mạng nơ-ron là ngay cả khi chỉ một phần nhỏ trọng lượng của mô hình được biết đến, máy tính vẫn có thể tham gia đào tạo, đảm bảo rằng toàn bộ trọng lượng không thể được trích xuất. Ngoài ra, do nhiều mẫu xe khác nhau được đào tạo cùng lúc trên nền tảng Pluralis, huấn luyện viên sẽ phải đối mặt với một số lượng lớn các bộ tạ khác nhau, điều này khiến việc xây dựng lại mô hình đầy đủ trở nên vô cùng khó khăn. Ý tưởng cốt lõi của Mô hình giao thức là các mô hình này có thể được đào tạo và sử dụng, nhưng chúng không thể được trích xuất toàn bộ từ giao thức (trừ khi sức mạnh tính toán được sử dụng vượt quá tài nguyên cần thiết để đào tạo mô hình từ đầu). Cơ chế này giải quyết một vấn đề thường được nêu ra bởi các nhà phê bình Mã nguồn mở AI rằng các đối thủ cạnh tranh AI khép kín có thể chiếm đoạt thành quả lao động của Mã nguồn mở. Tại sao mã hóa công nghệ + mã nguồn mở = AI tốt hơn Ở đầu bài viết, tôi đã minh họa các khía cạnh đạo đức và quy phạm của AI đóng bằng cách phân tích sự kiểm soát của Big Tech đối với AI. Nhưng trong thời đại bất lực, tôi sợ rằng một lập luận như vậy có thể không gây được tiếng vang với hầu hết độc giả. Do đó, tôi muốn bắt đầu từ hiệu quả thực tế và đưa ra hai lý do tại sao Mã nguồn mở AI, được hỗ trợ bởi công nghệ mã hóa, thực sự có thể dẫn đến AI tốt hơn. Đầu tiên, sự kết hợp giữa công nghệ mã hóa và Mã nguồn mở AI cho phép phối hợp nhiều nguồn lực hơn để thúc đẩy sự phát triển của thế hệ mô hình nền tảng tiếp theo, (Foundation Models). Các nghiên cứu đã chỉ ra rằng cả sự gia tăng sức mạnh tính toán và tài nguyên dữ liệu đều có thể giúp cải thiện hiệu suất của mô hình, đó là lý do tại sao kích thước của mô hình cơ sở đã được mở rộng. BTC cho chúng ta thấy tiềm năng của phần mềm Mã nguồn mở kết hợp với công nghệ mã hóa về sức mạnh tính toán. Nó đã trở thành mạng điện toán lớn nhất và mạnh nhất thế giới, lớn hơn nhiều so với tài nguyên điện toán đám mây thuộc sở hữu của Big Tech. Công nghệ của Mã Hóa độc đáo ở chỗ nó biến sự cạnh tranh im lặng thành sự hợp tác. Bằng cách khuyến khích các nhà cung cấp tài nguyên đóng góp tài nguyên để giải quyết các vấn đề chung, thay vì làm việc riêng biệt và sao chép các nỗ lực, mạng Mã Hóa cho phép sử dụng hiệu quả các nguồn lực. Mã nguồn mở AI với công nghệ mã hóa sẽ có thể tận dụng tài nguyên điện toán và dữ liệu của thế giới để xây dựng các mô hình ở quy mô vượt xa AI đóng. Ví dụ, công ty Hyperbolic đã chứng minh tiềm năng của mô hình này. Họ tận dụng tối đa tài nguyên máy tính phân tán bằng cách giúp mọi người có thể thuê GPU với chi phí thấp hơn thông qua một thị trường mở. Thứ hai, sự kết hợp giữa công nghệ mã hóa và Mã nguồn mở AI sẽ thúc đẩy sự tăng tốc của sự đổi mới. Điều này là do một khi vấn đề tài nguyên được giải quyết, nghiên cứu học máy có thể trở lại bản chất lặp đi lặp lại và sáng tạo cao của nó. Trước sự ra đời của các mô hình ngôn ngữ lớn nền tảng (LLM), các nhà nghiên cứu trong lĩnh vực học máy thường công khai phát hành các mô hình của họ và các bản thiết kế có thể tái tạo của họ. Các mô hình này thường sử dụng bộ dữ liệu Mã nguồn mở và có yêu cầu tính toán tương đối thấp, cho phép các nhà nghiên cứu liên tục tối ưu hóa và đổi mới trên các nền tảng này. Chính quá trình lặp đi lặp lại kết thúc mở này đã dẫn đến nhiều đột phá trong lĩnh vực mô hình hóa tuần tự, chẳng hạn như mạng thần kinh tái phát (RNN), mạng bộ nhớ ngắn hạn dài (LSTM) và cơ chế chú ý (Attention Mechanisms), điều này cuối cùng làm cho kiến trúc mô hình Transformer trở nên khả thi. Tuy nhiên, cách tiếp cận nghiên cứu mở này đã thay đổi kể từ khi ra mắt GPT-3. Thông qua sự thành công của GPT-3 và ChatGPT, OpenAI đã chứng minh rằng với đủ tài nguyên máy tính và dữ liệu, có thể đào tạo các mô hình ngôn ngữ lớn với khả năng hiểu ngôn ngữ. Xu hướng này đã dẫn đến sự thay đổi mạnh mẽ về ngưỡng tài nguyên, dẫn đến việc loại trừ dần các học viện và thực tế là các công ty Big Tech không còn tiết lộ kiến trúc mô hình của họ để duy trì lợi thế cạnh tranh. Tình trạng này hạn chế khả năng của chúng ta trong việc thúc đẩy sự tiên tiến của AI. Mã nguồn mở AI, được kích hoạt bởi công nghệ mã hóa, có thể thay đổi điều đó. Nó cho phép các nhà nghiên cứu lặp lại các mô hình tiên tiến một lần nữa để khám phá "Transformer tiếp theo". Sự kết hợp này không chỉ giải quyết vấn đề tài nguyên mà còn tiếp thêm sinh lực cho sự đổi mới trong lĩnh vực học máy, mở ra một con đường rộng lớn hơn cho tương lai của AI.