Chúng ta đã trước đó thảo luận về cách mà trí tuệ nhân tạo và Web3 có thể bổ sung cho nhau qua các ngành công nghiệp dọc theo các mạng tính toán, nền tảng trung gian và ứng dụng tiêu dùng. Khi tập trung vào tài nguyên dữ liệu như một lĩnh vực dọc, các dự án Web mới nổi mang đến những khả năng mới cho việc thu thập, chia sẻ và sử dụng dữ liệu.
Dữ liệu đã trở thành nguyên lực chủ chốt của sự đổi mới và quyết định trong các ngành công nghiệp. UBS dự đoán rằng khối lượng dữ liệu toàn cầu sẽ tăng gấp mười lần từ năm 2020 đến năm 2030, đạt 660 ZB. Đến năm 2025, dự kiến mỗi người dân trên toàn cầu sẽ tạo ra 463 EB (Exabytes, 1 EB = 1 tỷ GB) dữ liệu hàng ngày. Thị trường Dữ liệu dưới dạng Dịch vụ (DaaS) đang mở rộng mạnh mẽ. Theo Grand View Research, thị trường DaaS toàn cầu được định giá ở 14,36 tỷ đô la vào năm 2023 và dự kiến sẽ tăng trưởng với tỷ lệ tăng trưởng hàng năm hợp nhất (CAGR) là 28,1%, đạt 76,8 tỷ đô la vào năm 2030.
Đào tạo mô hình AI phụ thuộc rất nhiều vào các bộ dữ liệu lớn để xác định các mẫu và điều chỉnh các thông số. Sau khi đào tạo, các bộ dữ liệu cũng cần thiết để kiểm tra hiệu suất và khả năng khái quát hóa của các mô hình. Ngoài ra, các tác nhân AI, như các hình thức ứng dụng thông minh mới nổi, yêu cầu các nguồn dữ liệu đáng tin cậy và thời gian thực để đảm bảo ra quyết định và thực hiện nhiệm vụ chính xác.
(Nguồn: Leewayhertz)
Nhu cầu về phân tích kinh doanh cũng đang trở nên đa dạng và phổ biến hơn, đóng vai trò là công cụ cốt lõi thúc đẩy đổi mới doanh nghiệp. Ví dụ, các nền tảng truyền thông xã hội và các công ty nghiên cứu thị trường cần dữ liệu hành vi người dùng đáng tin cậy để xây dựng chiến lược và phân tích xu hướng, tích hợp dữ liệu đa dạng từ nhiều nền tảng xã hội để xây dựng một bức tranh toàn diện hơn.
Đối với hệ sinh thái Web3, dữ liệu đáng tin cậy và xác thực cũng cần được lưu trữ trên chuỗi để hỗ trợ các sản phẩm tài chính mới. Khi nhiều tài sản sáng tạo được mã hóa thành mã thông báo, các giao diện dữ liệu linh hoạt và đáng tin cậy cần được sử dụng để hỗ trợ phát triển sản phẩm và quản lý rủi ro, cho phép các hợp đồng thông minh thực thi dựa trên dữ liệu thời gian thực có thể xác minh được.
Ngoài ra, các trường hữu dẫn trong nghiên cứu khoa học, IoT và các lĩnh vực khác nhấn mạnh nhu cầu lượng dữ liệu đa dạng, chính xác và thực tế tăng vùng cháy. Hệ thộng truyền thộng có thể gặp khó khăn trong việc điều chỉnh với khối lượng dữ liệu đang tăng nhanh và nhu cầu thay đổi liên tục.
Một hệ sinh thái dữ liệu điển hình bao gồm việc thu thập, lưu trữ, xử lý, phân tích và ứng dụng dữ liệu. Các mô hình tập trung được đặc trưng bởi việc thu thập và lưu trữ dữ liệu tập trung, được quản lý bởi một nhóm IT trung tâm với kiểm soát truy cập nghiêm ngặt. Ví dụ, hệ sinh thái dữ liệu của Google bao gồm các nguồn dữ liệu khác nhau như công cụ tìm kiếm, Gmail và hệ điều hành Android. Các nền tảng này thu thập dữ liệu người dùng, lưu trữ nó trong các trung tâm dữ liệu phân tán toàn cầu và xử lý nó bằng thuật toán để hỗ trợ phát triển và tối ưu hóa các sản phẩm và dịch vụ khác nhau.
Trong thị trường tài chính, LSEG (trước đây là Refinitiv) thu thập dữ liệu thời gian thực và lịch sử từ các sàn giao dịch toàn cầu, ngân hàng và các tổ chức tài chính lớn, đồng thời sử dụng mạng tin tức Reuters News của riêng mình để thu thập tin tức liên quan đến thị trường. Họ xử lý thông tin này bằng các thuật toán và mô hình độc quyền để tạo ra sản phẩm phân tích và đánh giá rủi ro như dịch vụ gia tăng giá trị.
(Nguồn: kdnuggets.com)
Trong khi kiến trúc dữ liệu truyền thống hiệu quả trong các dịch vụ chuyên nghiệp, nhược điểm của các mô hình tập trung đang trở nên ngày càng rõ ràng, đặc biệt là trong việc bao phủ nguồn dữ liệu mới nổi, tính minh bạch và bảo vệ quyền riêng tư người dùng. Dưới đây là một số vấn đề chính:
Ví dụ, sự kiện GameStop năm 2021 đã cho thấy sự hạn chế của các nhà cung cấp dữ liệu tài chính truyền thống trong việc phân tích tâm trạng trên mạng xã hội. Tâm trạng của nhà đầu tư trên các nền tảng như Reddit nhanh chóng ảnh hưởng đến xu hướng thị trường, nhưng các hệ thống dữ liệu như Bloomberg và Reuters không thể nắm bắt được những động lực này kịp thời, dẫn đến dự báo thị trường bị trì hoãn.
Ngoài những vấn đề này, các nhà cung cấp dữ liệu truyền thống phải đối mặt với những thách thức liên quan đến hiệu quả chi phí và tính linh hoạt. Mặc dù họ đang tích cực giải quyết những vấn đề này, các công nghệ Web3 mới nổi cung cấp những quan điểm và khả năng mới để giải quyết chúng.
Từ khi ra mắt các giải pháp lưu trữ phi tập trung như IPFS (Hệ thống Tập tin Liên Hành Tinh) vào năm 2014, một loạt các dự án mới nổi đã nhằm mục tiêu giải quyết những hạn chế của hệ sinh thái dữ liệu truyền thống. Các giải pháp dữ liệu phi tập trung đã phát triển thành một hệ sinh thái đa tầng, liên kết bao phủ tất cả các giai đoạn trong vòng đời dữ liệu, bao gồm việc tạo dữ liệu, lưu trữ, trao đổi, xử lý và phân tích dữ liệu, xác minh và bảo mật, cũng như quyền riêng tư và sở hữu.
Khi việc trao đổi và sử dụng dữ liệu tăng lên, việc đảm bảo tính xác thực, uy tín và quyền riêng tư trở nên quan trọng hơn bao giờ hết. Điều này thúc đẩy hệ sinh thái Web3 đổi mới trong việc xác minh dữ liệu và bảo vệ quyền riêng tư, dẫn đến những giải pháp đột phá.
Nhiều công nghệ Web3 và các dự án bản địa tập trung vào việc giải quyết các vấn đề về tính xác thực dữ liệu và bảo vệ sự riêng tư. Vượt xa sự phổ biến của các công nghệ như Chứng minh không cần biết (ZK) và Tính toán Đa bên (MPC), TLS Notary đã trở thành một phương pháp xác minh mới đáng chú ý.
Giới thiệu về TLS Notary
Giao thức Bảo mật Lớp Vận chuyển (TLS) là một giao thức mã hóa phổ biến được sử dụng trong giao tiếp mạng. Mục đích chính của nó là đảm bảo an ninh, tính toàn vẹn và bảo mật của quá trình truyền dữ liệu giữa một máy khách và một máy chủ. TLS là một tiêu chuẩn mã hóa thông thường trong giao tiếp mạng hiện đại, được áp dụng trong các kịch bản như HTTPS, email và tin nhắn tức thì.
(Nguyên tắc Mã hóa TLS, Nguồn: TechTarget)
Khi TLS Notary được giới thiệu lần đầu cách đây một thập kỷ, mục tiêu của nó là xác minh tính xác thực của các phiên TLS bằng cách giới thiệu một bên thứ ba “notary” ngoài khách hàng (người chứng minh) và máy chủ.
Sử dụng công nghệ tách khóa, khóa chính của phiên TLS được chia thành hai phần, được giữ riêng bởi khách hàng và công chứng viên. Thiết kế này cho phép công chứng viên tham gia với tư cách là bên thứ ba đáng tin cậy trong quá trình xác minh mà không cần truy cập nội dung truyền thông thực tế. Cơ chế này nhằm mục đích phát hiện các cuộc tấn công trung gian, ngăn chặn các chứng chỉ gian lận và đảm bảo rằng dữ liệu truyền thông không bị giả mạo trong quá trình truyền. Nó cũng cho phép các bên thứ ba đáng tin cậy xác nhận tính hợp pháp của thông tin liên lạc trong khi bảo vệ quyền riêng tư.
Do đó, TLS Notary cung cấp xác minh dữ liệu an toàn và cân bằng hiệu quả giữa nhu cầu xác minh với bảo vệ quyền riêng tư.
Vào năm 2022, dự án TLS Notary đã được cải cách bởi phòng thí nghiệm nghiên cứu Bảo mật và Mở rộng (PSE) của Quỹ Ethereum. Phiên bản mới của giao thức TLS Notary đã được viết lại từ đầu bằng ngôn ngữ lập trình Rust và tích hợp với các giao thức mật mã tiên tiến hơn như MPC. Những cập nhật này cho phép người dùng chứng minh tính xác thực của dữ liệu nhận được từ máy chủ cho bên thứ ba mà không cần tiết lộ nội dung của dữ liệu. Trong khi vẫn giữ nguyên khả năng xác minh cốt lõi của mình, TLS Notary mới đáng kể cải thiện bảo vệ quyền riêng tư, khiến nó phù hợp hơn với yêu cầu bảo mật dữ liệu hiện tại và tương lai.
Trong những năm gần đây, công nghệ Công chứng TLS đã tiếp tục phát triển, dẫn đến các dẫn xuất khác nhau giúp tăng cường hơn nữa khả năng bảo mật và xác minh của nó:
Các dự án Web3 tận dụng các công nghệ mật mã này để tăng cường xác minh dữ liệu và bảo vệ quyền riêng tư, giải quyết các vấn đề như độc quyền dữ liệu, các kho dữ liệu và việc truyền thông đáng tin cậy. Người dùng có thể xác minh quyền sở hữu an toàn của tài khoản mạng xã hội, hồ sơ mua sắm cho các khoản vay tài chính, lịch sử tín dụng ngân hàng, lý lịch chuyên nghiệp và bằng cấp học vấn mà không đánh đổi quyền riêng tư của họ. Các ví dụ bao gồm:
(Các dự án đang làm việc trên các nhà tiên tri TLS, Nguồn: Bastian Wetzel)
Xác minh dữ liệu trong Web3 là một liên kết cần thiết trong hệ sinh thái dữ liệu, với triển vọng ứng dụng rộng lớn. Sự phát triển của hệ sinh thái này đang đưa nền kinh tế số vào một mô hình mở, linh hoạt và tập trung vào người dùng hơn. Tuy nhiên, việc phát triển các công nghệ xác thực độc lập chỉ là khởi đầu của việc xây dựng cơ sở hạ tầng dữ liệu thế hệ tiếp theo.
Một số dự án đã kết hợp các công nghệ xác minh dữ liệu đã nêu trên với việc khám phá sâu hơn về hệ sinh thái dữ liệu nguồn, như sự theo dõi dữ liệu, việc thu thập dữ liệu phân tán, và việc truyền dữ liệu đáng tin cậy. Dưới đây, chúng tôi nêu bật ba dự án đại diện - OpenLayer, Grass và Vana - có tiềm năng đặc biệt trong việc xây dựng cơ sở hạ tầng dữ liệu thế hệ tiếp theo.
OpenLayer, một trong những dự án từ a16z Crypto 2024 Spring Startup Accelerator, là lớp dữ liệu xác thực mô-đun đầu tiên. Nó nhằm mục đích cung cấp một giải pháp mô-đun sáng tạo để phối hợp thu thập, xác minh và chuyển đổi dữ liệu, giải quyết nhu cầu của cả công ty Web2 và Web3. OpenLayer đã thu hút được sự hỗ trợ từ các quỹ nổi tiếng và các nhà đầu tư thiên thần, bao gồm Geometry Ventures và LongHash Ventures.
Lớp dữ liệu truyền thống đối mặt với nhiều thách thức: thiếu cơ chế xác minh đáng tin cậy, phụ thuộc vào kiến trúc tập trung hạn chế khả năng truy cập, thiếu tính tương thích và luồng dữ liệu giữa các hệ thống khác nhau, và thiếu cơ chế phân phối giá trị dữ liệu công bằng.
Một vấn đề cụ thể hơn là sự khan hiếm ngày càng tăng của dữ liệu đào tạo cho AI. Trên internet công cộng, nhiều trang web hiện đang triển khai các biện pháp chống cạo để ngăn chặn việc thu thập dữ liệu quy mô lớn của các công ty AI. Trong dữ liệu độc quyền tư nhân, tình hình thậm chí còn phức tạp hơn. Dữ liệu có giá trị thường được lưu trữ theo cách bảo vệ quyền riêng tư do tính chất nhạy cảm của nó, thiếu cơ chế khuyến khích hiệu quả. Người dùng không thể kiếm tiền từ dữ liệu cá nhân của họ một cách an toàn và do đó không muốn chia sẻ thông tin nhạy cảm.
Để giải quyết những vấn đề này, OpenLayer kết hợp các công nghệ xác minh dữ liệu để xây dựng một Lớp Dữ liệu Chính Xác theo từng Module. Thông qua việc phi tập trung và kích thích kinh tế, nó điều phối quá trình thu thập dữ liệu, xác minh và biến đổi, cung cấp một cơ sở hạ tầng dữ liệu an toàn, hiệu quả và linh hoạt hơn cho các công ty Web2 và Web3.
OpenLayer cung cấp một nền tảng có tính module hóa giúp đơn giản hóa việc thu thập dữ liệu, xác minh đáng tin cậy và quá trình biến đổi.
a) Cổng Mở
OpenNodes là các thành phần cốt lõi chịu trách nhiệm thu thập dữ liệu phi tập trung trong hệ sinh thái OpenLayer. Thông qua các ứng dụng dành cho thiết bị di động, tiện ích mở rộng trình duyệt và các kênh khác, người dùng có thể thu thập dữ liệu. Các nhà khai thác / nút khác nhau có thể tối ưu hóa phần thưởng của họ bằng cách thực hiện các tác vụ phù hợp nhất với thông số kỹ thuật phần cứng của họ.
OpenNodes hỗ trợ ba loại dữ liệu chính:
Các nhà phát triển có thể dễ dàng thêm các loại dữ liệu mới, chỉ định nguồn dữ liệu và xác định yêu cầu và phương pháp truy xuất. Người dùng có thể cung cấp dữ liệu ẩn danh để đổi lấy phần thưởng. Thiết kế này cho phép hệ thống mở rộng liên tục để đáp ứng các yêu cầu dữ liệu mới. Các nguồn dữ liệu đa dạng khiến OpenLayer phù hợp với các kịch bản ứng dụng khác nhau và giảm ngưỡng cho việc cung cấp dữ liệu.
b) OpenValidators
OpenValidators xử lý việc xác minh dữ liệu đã thu thập, cho phép người tiêu dùng dữ liệu xác nhận tính chính xác của dữ liệu do người dùng cung cấp so với nguồn dữ liệu của nó. Các phương pháp xác minh sử dụng chứng minh mật mã, và kết quả có thể được xác nhận theo chiều hồi tưởng. Nhiều nhà cung cấp có thể cung cấp dịch vụ xác minh cho cùng loại chứng minh, cho phép các nhà phát triển lựa chọn nhà cung cấp phù hợp nhất cho nhu cầu của họ.
Trong các trường hợp sử dụng ban đầu, đặc biệt là đối với dữ liệu công cộng hoặc riêng từ các API internet, OpenLayer sử dụng TLS Notary như một giải pháp xác minh. Nó xuất dữ liệu từ bất kỳ ứng dụng web nào và xác minh tính xác thực mà không vi phạm quyền riêng tư.
Ngoài TLS Notary, nhờ thiết kế mô-đun, hệ thống xác minh có thể dễ dàng tích hợp các phương pháp khác để đáp ứng nhu cầu xác minh và dữ liệu đa dạng, bao gồm:
c) OpenConnect
OpenConnect là mô-đun chịu trách nhiệm về việc biến đổi dữ liệu và tính sử dụng trong hệ sinh thái OpenLayer. Nó xử lý dữ liệu từ các nguồn khác nhau, đảm bảo tính tương thích giữa các hệ thống khác nhau để đáp ứng các yêu cầu ứng dụng đa dạng. Ví dụ:
Cung cấp việc ẩn danh dữ liệu bảo vệ quyền riêng tư cho tài khoản cá nhân người dùng trong khi tăng cường bảo mật trong quá trình chia sẻ dữ liệu để giảm rò rỉ và lạm dụng.
Để đáp ứng nhu cầu dữ liệu thời gian thực của ứng dụng trí tuệ nhân tạo và blockchain, OpenConnect hỗ trợ việc biến đổi dữ liệu thời gian thực hiệu quả.
Hiện tại, thông qua tích hợp với EigenLayer, các nhà điều hành dịch vụ OpenLayer AVS (Active Validation Service) theo dõi các nhiệm vụ yêu cầu dữ liệu, thu thập dữ liệu, xác minh và báo cáo kết quả trở lại hệ thống. Các nhà điều hành đặt hoặc đặt cược lại tài sản trên EigenLayer để đảm bảo kinh tế cho các hoạt động của họ. Hành vi độc hại dẫn đến giảm tài sản. Là một trong những dự án AVS sớm nhất trên mạng chính EigenLayer, OpenLayer đã thu hút hơn 50 nhà điều hành và 4 tỷ đô la trong tài sản đặt cược lại.
Grass, dự án mẫu của Wynd Network, được thiết kế để tạo ra một mạng lưới crawler phi tập trung và nền tảng dữ liệu đào tạo trí tuệ nhân tạo. Đến cuối năm 2023, Grass đã hoàn thành vòng huy động vốn hạt giống 3.5 triệu đô la do Polychain Capital và Tribe Capital dẫn đầu. Vào tháng 9 năm 2024, nó đã bảo đảm vốn loại A, với 5 triệu đô la do HackVC dẫn đầu và sự tham gia bổ sung từ Polychain, Delphi, Lattice và Brevan Howard.
Khi đào tạo AI ngày càng dựa vào các nguồn dữ liệu đa dạng và mở rộng, Grass đáp ứng nhu cầu này bằng cách tạo ra một mạng lưới nút web crawler phân tán. Mạng lưới này tận dụng cơ sở hạ tầng vật lý phi tập trung và băng thông người dùng không hoạt động để thu thập và cung cấp các bộ dữ liệu xác minh cho việc đào tạo AI. Các nút định tuyến yêu cầu web thông qua kết nối Internet của người dùng, truy cập các trang web công cộng và biên soạn các bộ dữ liệu có cấu trúc. Công việc làm sạch và định dạng dữ liệu ban đầu được thực hiện bằng công nghệ edge computing, đảm bảo đầu ra chất lượng cao.
Grass sử dụng kiến trúc Solana Layer 2 Data Rollup để tăng cường hiệu suất xử lý. Người xác minh nhận, xác minh và xử lý theo lô giao dịch web từ các nút, tạo ra các chứng minh Zero-Knowledge (ZK) để xác nhận tính xác thực của dữ liệu. Dữ liệu đã được xác minh được lưu trữ trên Grass Data Ledger (L2), với các chứng minh tương ứng liên kết với blockchain Solana L1.
a) Các Nút Cỏ:
Người dùng cài đặt ứng dụng Grass hoặc tiện ích trình duyệt, cho phép băng thông không hoạt động của họ cung cấp năng lượng cho việc cào dữ liệu web phi tập trung. Các nút định tuyến yêu cầu web, truy cập các trang web công cộng và biên soạn các bộ dữ liệu có cấu trúc. Sử dụng tính toán viền, chúng thực hiện việc làm sạch và định dạng dữ liệu ban đầu. Người dùng kiếm được token GRASS như là phần thưởng dựa trên đóng góp băng thông của họ và khối lượng dữ liệu cung cấp.
b) Router:
Làm nhiệm vụ trung gian, routers kết nối các node Grass đến các validator. Chúng quản lý mạng node và băng thông truyền tải và được khuyến khích dựa trên tổng băng thông đã xác minh mà chúng tạo điều kiện cho.
c) Validators:
Các nhà xác thực nhận và xác minh các giao dịch web được truyền tải bởi các bộ định tuyến. Họ tạo ra các bằng chứng ZK để xác nhận tính hợp lệ của dữ liệu, tận dụng các bộ key độc đáo để thiết lập các kết nối TLS an toàn và các bộ mã hóa. Trong khi Grass hiện tại sử dụng các nhà xác thực tập trung, kế hoạch đã được đưa ra để chuyển sang một ủy ban xác thực phi tập trung.
d) Bộ xử lý ZK:
Những bộ xử lý này xác minh chứng minh dữ liệu phiên của nút và gom nhóm chứng minh yêu cầu web để gửi đến Lớp 1 Solana.
e) Bảng ghi Dữ liệu Cỏ (Cỏ L2):
Bảng ghi Dữ liệu Cỏ lưu trữ các bộ dữ liệu toàn diện và liên kết chúng với các chứng minh L1 tương ứng trên Solana, đảm bảo tính minh bạch và khả năng truy vấn.
f) Mô hình nhúng cạnh:
Những mô hình này biến đổi dữ liệu web không cấu trúc thành các bộ dữ liệu có cấu trúc phù hợp cho việc huấn luyện trí tuệ nhân tạo.
Nguồn: Cỏ
Grass và OpenLayer chia sẻ cam kết sử dụng mạng phân phối để cung cấp cho các công ty quyền truy cập vào dữ liệu Internet mở và dữ liệu riêng được xác thực. Cả hai đều sử dụng cơ chế động viên để thúc đẩy việc chia sẻ dữ liệu và sản xuất các tập dữ liệu chất lượng cao, nhưng kiến trúc kỹ thuật và mô hình kinh doanh của họ khác nhau.
Kiến trúc kỹ thuật:
Grass sử dụng kiến trúc Solana Layer 2 Data Rollup với xác thực tập trung, dựa trên một trình xác thực duy nhất. OpenLayer, với tư cách là người sớm áp dụng AVS (Dịch vụ xác thực hoạt động) của EigenLayer, sử dụng cơ chế xác thực phi tập trung sử dụng các ưu đãi kinh tế và cắt giảm hình phạt. Thiết kế mô-đun của nó nhấn mạnh khả năng mở rộng và tính linh hoạt trong các dịch vụ xác minh dữ liệu.
Trọng tâm sản phẩm:
Cả hai dự án cho phép người dùng kiếm tiền từ dữ liệu qua các nút, nhưng các trường hợp sử dụng kinh doanh của họ khác nhau:
Grass chủ yếu nhắm vào các công ty AI và các nhà khoa học dữ liệu cần các bộ dữ liệu có cấu trúc, quy mô lớn, cũng như các tổ chức nghiên cứu và doanh nghiệp yêu cầu dữ liệu dựa trên web. OpenLayer phục vụ cho các nhà phát triển Web3 cần nguồn dữ liệu ngoài chuỗi, các công ty AI yêu cầu các luồng thời gian thực, có thể kiểm chứng và các doanh nghiệp theo đuổi các chiến lược sáng tạo như xác minh việc sử dụng sản phẩm của đối thủ cạnh tranh.
Trong khi cả hai dự án hiện đang chiếm những chỗ đứng riêng biệt, chức năng của chúng có thể hội tụ khi ngành công nghiệp phát triển:
Cả hai dự án cũng có thể tích hợp ghi nhãn dữ liệu như một bước quan trọng để đào tạo bộ dữ liệu. Grass, với mạng lưới rộng lớn gồm hơn 2,2 triệu nút hoạt động, có thể nhanh chóng triển khai các dịch vụ Học tăng cường với Phản hồi của con người (RLHF) để tối ưu hóa các mô hình AI. OpenLayer, với chuyên môn về xác minh và xử lý dữ liệu thời gian thực, có thể duy trì lợi thế về độ tin cậy và chất lượng dữ liệu, đặc biệt là đối với các bộ dữ liệu riêng tư.
Mặc dù có thể có sự chồng chéo tiềm năng, nhưng sức mạnh độc đáo và phương pháp công nghệ của họ có thể cho phép họ thống trị các phân khúc khác nhau trong hệ sinh thái dữ liệu phi tập trung.
(Nguồn: IOSG, David)
Vana là một mạng lưới hồ dữ liệu tập trung vào người dùng được thiết kế để cung cấp dữ liệu chất lượng cao cho trí tuệ nhân tạo và các ứng dụng liên quan. So với OpenLayer và Grass, Vana có một cách tiếp cận công nghệ và kinh doanh riêng biệt. Vào tháng 9 năm 2024, Vana đã đảm bảo 5 triệu đô la vốn đầu tư do Coinbase Ventures dẫn đầu, theo sau là vòng gọi vốn Series A trị giá 18 triệu đô la vào đó Paradigm là nhà đầu tư chính, với sự tham gia của Polychain và Casey Caruso.
Ban đầu được ra mắt vào năm 2018 như một dự án nghiên cứu của MIT, Vana là một blockchain Lớp 1 dành riêng cho dữ liệu người dùng riêng tư. Những đổi mới của nó trong quyền sở hữu dữ liệu và phân phối giá trị cho phép người dùng kiếm lợi nhuận từ các mô hình AI được đào tạo trên dữ liệu của họ. Vana đạt được điều này thông qua các Nhóm thanh khoản dữ liệu (DLP) không đáng tin cậy, riêng tư và có thể quy kết và cơ chế Bằng chứng đóng góp sáng tạo tạo điều kiện thuận lợi cho luồng và kiếm tiền từ dữ liệu cá nhân.
Vana giới thiệu một khái niệm duy nhất về Hồ bơi Dữ liệu (DLPs), đó là trung tâm của mạng lưới Vana. Mỗi DLP là một mạng lưới ngang hàng độc lập tổng hợp các loại tài sản dữ liệu cụ thể. Người dùng có thể tải lên dữ liệu riêng của họ—như hồ sơ mua sắm, thói quen duyệt web và hoạt động trên mạng xã hội—và quyết định xem có ủy quyền việc sử dụng cụ thể của bên thứ ba hay không.
Dữ liệu trong những hồ bơi này trải qua quá trình vô danh để bảo vệ quyền riêng tư của người dùng trong khi vẫn có thể sử dụng cho các ứng dụng thương mại, như huấn luyện mô hình AI và nghiên cứu thị trường. Người dùng đóng góp dữ liệu vào một DLP sẽ được thưởng bằng các token DLP tương ứng. Những token này đại diện cho sự đóng góp của người dùng vào hồ bơi, cấp quyền quản trị và cho phép người dùng được chia sẻ một phần lợi nhuận trong tương lai.
Không giống như việc bán dữ liệu một lần theo cách truyền thống, Vana cho phép dữ liệu tham gia liên tục vào chu kỳ kinh tế, cho phép người dùng nhận được phần thưởng liên tục với việc theo dõi việc sử dụng minh bạch và trực quan.
Cơ chế Chứng minh Đóng góp (PoC) là một điểm mốc quan trọng của phương pháp đảm bảo chất lượng dữ liệu của Vana. Mỗi DLP có thể xác định một hàm PoC duy nhất được điều chỉnh theo đặc điểm của nó, xác minh tính xác thực và đầy đủ của dữ liệu được gửi và đánh giá đóng góp của nó đối với việc cải thiện hiệu suất mô hình AI. Cơ chế này định lượng đóng góp của người dùng, ghi chép chúng để phân bổ phần thưởng. Tương tự như khái niệm ‘Chứng minh công việc’ trong tiền điện tử, PoC thưởng người dùng dựa trên chất lượng, số lượng và tần suất sử dụng dữ liệu. Hợp đồng thông minh tự động hóa quá trình này, đảm bảo người đóng góp được bồi thường một cách công bằng và minh bạch.
Lớp dữ liệu này cho phép đóng góp, xác minh và ghi dữ liệu vào DLPs, biến dữ liệu thành tài sản kỹ thuật số có thể chuyển tiếp trên chuỗi. Người tạo DLP triển khai hợp đồng thông minh để đặt mục đích, phương pháp xác minh và tham số đóng góp. Người đóng góp dữ liệu gửi dữ liệu để xác minh, và mô-đun PoC đánh giá chất lượng dữ liệu và gán quyền quản trị và phần thưởng.
Là tầng ứng dụng của Vana, nền tảng này tạo điều kiện cho sự hợp tác giữa người đóng góp dữ liệu và nhà phát triển. Nó cung cấp cơ sở hạ tầng để xây dựng các mô hình đào tạo trí tuệ nhân tạo phân tán và ứng dụng trí tuệ nhân tạo dựa trên tính thanh khoản trong DLPs.
Connectome là một sổ cái phi tập trung làm nền tảng cho hệ sinh thái Vana, hoạt động như một bản đồ luồng dữ liệu thời gian thực. Nó ghi lại tất cả các giao dịch dữ liệu thời gian thực bằng cách sử dụng sự nhất trí Chứng cứ Chấp thuận, đảm bảo việc chuyển giao hiệu quả các mã thông báo DLP và cho phép truy cập dữ liệu chéo DLP. Hoàn toàn tương thích với EVM, nó cho phép tương tác với các mạng, giao thức và ứng dụng DeFi khác.
(Nguồn: Vana)
Vana cung cấp một cách tiếp cận mới bằng cách tập trung vào tính thanh khoản và trao quyền cho dữ liệu người dùng. Mô hình trao đổi dữ liệu phi tập trung này không chỉ hỗ trợ đào tạo AI và thị trường dữ liệu mà còn cho phép chia sẻ và sở hữu dữ liệu đa nền tảng liền mạch trong hệ sinh thái Web3. Cuối cùng, nó thúc đẩy một internet mở, nơi người dùng có thể sở hữu và quản lý dữ liệu của họ và các sản phẩm thông minh được tạo ra từ nó.
Năm 2006, nhà khoa học dữ liệu Clive Humby đã nổi tiếng nhận xét, “Dữ liệu là dầu mới.” Trong hai thập kỷ qua, chúng ta đã chứng kiến sự tiến hóa nhanh chóng của các công nghệ “tinh chế” tài nguyên này, chẳng hạn như phân tích dữ liệu lớn và học máy, đã mở khóa giá trị chưa từng có từ dữ liệu. Theo IDC, đến năm 2025, quả cầu dữ liệu toàn cầu sẽ mở rộng lên 163 ZB, với phần lớn đến từ cá nhân. Khi IoT, thiết bị đeo được, trí tuệ nhân tạo và dịch vụ cá nhân hóa trở nên phổ biến hơn, phần lớn dữ liệu cần thiết cho việc sử dụng thương mại sẽ xuất phát từ cá nhân.
Các giải pháp dữ liệu Web3 khắc phục những hạn chế của cơ sở hạ tầng truyền thống bằng cách tận dụng các mạng nút phân tán. Các mạng này cho phép thu thập dữ liệu rộng hơn, hiệu quả hơn đồng thời cải thiện khả năng truy cập thời gian thực và khả năng xác minh của các bộ dữ liệu cụ thể. Các công nghệ Web3 đảm bảo tính xác thực và toàn vẹn của dữ liệu đồng thời bảo vệ quyền riêng tư của người dùng, thúc đẩy mô hình sử dụng dữ liệu công bằng hơn. Kiến trúc phi tập trung này dân chủ hóa quyền truy cập dữ liệu và trao quyền cho người dùng chia sẻ lợi ích kinh tế của nền kinh tế dữ liệu.
Cả OpenLayer và Grass đều dựa vào các mô hình nút người dùng để tăng cường các quy trình thu thập dữ liệu cụ thể, trong khi Vana kiếm tiền từ dữ liệu người dùng riêng tư. Những cách tiếp cận này không chỉ nâng cao hiệu quả mà còn cho phép người dùng thông thường tham gia vào giá trị được tạo ra bởi nền kinh tế dữ liệu, tạo ra một kịch bản đôi bên cùng có lợi cho người dùng và nhà phát triển.
Thông qua tokenomics, các giải pháp dữ liệu Web3 tái thiết mô hình ưu đãi, thiết lập các mô hình phân phối giá trị công bố hơn. Những hệ thống này thu hút sự tham gia đông đảo, tài nguyên phần cửa, và đầu tư, tối ưu hóa hoạt động của toàn bộ mạng dữ liệu.
Các giải pháp Web3 cung cấp tính linh hoạt và khả năng mở rộng, cho phép sự biến đổi công nghệ và mở rộng hệ sinh thái. Ví dụ: Thiết kế modular của OpenLayer cung cấp tính linh hoạt cho các tiến bộ trong tương lai; Kiến trúc phân tán của Grass tối ưu hóa việc huấn luyện mô hình trí tuệ nhân tạo bằng cách cung cấp các bộ dữ liệu đa dạng và chất lượng cao.
Từ việc tạo, lưu trữ và xác minh dữ liệu đến trao đổi và phân tích, các giải pháp dựa trên Web3 giải quyết những thiếu sót của cơ sở hạ tầng truyền thống. Bằng cách cho phép người dùng kiếm tiền từ dữ liệu của họ, các giải pháp này về cơ bản chuyển đổi nền kinh tế dữ liệu.
Khi công nghệ phát triển và các kịch bản ứng dụng mở rộng, các lớp dữ liệu phi tập trung đã sẵn sàng trở thành nền tảng của cơ sở hạ tầng thế hệ tiếp theo. Họ sẽ hỗ trợ một loạt các ngành công nghiệp dựa trên dữ liệu đồng thời trao quyền cho người dùng kiểm soát dữ liệu và tiềm năng kinh tế của họ.
Chúng ta đã trước đó thảo luận về cách mà trí tuệ nhân tạo và Web3 có thể bổ sung cho nhau qua các ngành công nghiệp dọc theo các mạng tính toán, nền tảng trung gian và ứng dụng tiêu dùng. Khi tập trung vào tài nguyên dữ liệu như một lĩnh vực dọc, các dự án Web mới nổi mang đến những khả năng mới cho việc thu thập, chia sẻ và sử dụng dữ liệu.
Dữ liệu đã trở thành nguyên lực chủ chốt của sự đổi mới và quyết định trong các ngành công nghiệp. UBS dự đoán rằng khối lượng dữ liệu toàn cầu sẽ tăng gấp mười lần từ năm 2020 đến năm 2030, đạt 660 ZB. Đến năm 2025, dự kiến mỗi người dân trên toàn cầu sẽ tạo ra 463 EB (Exabytes, 1 EB = 1 tỷ GB) dữ liệu hàng ngày. Thị trường Dữ liệu dưới dạng Dịch vụ (DaaS) đang mở rộng mạnh mẽ. Theo Grand View Research, thị trường DaaS toàn cầu được định giá ở 14,36 tỷ đô la vào năm 2023 và dự kiến sẽ tăng trưởng với tỷ lệ tăng trưởng hàng năm hợp nhất (CAGR) là 28,1%, đạt 76,8 tỷ đô la vào năm 2030.
Đào tạo mô hình AI phụ thuộc rất nhiều vào các bộ dữ liệu lớn để xác định các mẫu và điều chỉnh các thông số. Sau khi đào tạo, các bộ dữ liệu cũng cần thiết để kiểm tra hiệu suất và khả năng khái quát hóa của các mô hình. Ngoài ra, các tác nhân AI, như các hình thức ứng dụng thông minh mới nổi, yêu cầu các nguồn dữ liệu đáng tin cậy và thời gian thực để đảm bảo ra quyết định và thực hiện nhiệm vụ chính xác.
(Nguồn: Leewayhertz)
Nhu cầu về phân tích kinh doanh cũng đang trở nên đa dạng và phổ biến hơn, đóng vai trò là công cụ cốt lõi thúc đẩy đổi mới doanh nghiệp. Ví dụ, các nền tảng truyền thông xã hội và các công ty nghiên cứu thị trường cần dữ liệu hành vi người dùng đáng tin cậy để xây dựng chiến lược và phân tích xu hướng, tích hợp dữ liệu đa dạng từ nhiều nền tảng xã hội để xây dựng một bức tranh toàn diện hơn.
Đối với hệ sinh thái Web3, dữ liệu đáng tin cậy và xác thực cũng cần được lưu trữ trên chuỗi để hỗ trợ các sản phẩm tài chính mới. Khi nhiều tài sản sáng tạo được mã hóa thành mã thông báo, các giao diện dữ liệu linh hoạt và đáng tin cậy cần được sử dụng để hỗ trợ phát triển sản phẩm và quản lý rủi ro, cho phép các hợp đồng thông minh thực thi dựa trên dữ liệu thời gian thực có thể xác minh được.
Ngoài ra, các trường hữu dẫn trong nghiên cứu khoa học, IoT và các lĩnh vực khác nhấn mạnh nhu cầu lượng dữ liệu đa dạng, chính xác và thực tế tăng vùng cháy. Hệ thộng truyền thộng có thể gặp khó khăn trong việc điều chỉnh với khối lượng dữ liệu đang tăng nhanh và nhu cầu thay đổi liên tục.
Một hệ sinh thái dữ liệu điển hình bao gồm việc thu thập, lưu trữ, xử lý, phân tích và ứng dụng dữ liệu. Các mô hình tập trung được đặc trưng bởi việc thu thập và lưu trữ dữ liệu tập trung, được quản lý bởi một nhóm IT trung tâm với kiểm soát truy cập nghiêm ngặt. Ví dụ, hệ sinh thái dữ liệu của Google bao gồm các nguồn dữ liệu khác nhau như công cụ tìm kiếm, Gmail và hệ điều hành Android. Các nền tảng này thu thập dữ liệu người dùng, lưu trữ nó trong các trung tâm dữ liệu phân tán toàn cầu và xử lý nó bằng thuật toán để hỗ trợ phát triển và tối ưu hóa các sản phẩm và dịch vụ khác nhau.
Trong thị trường tài chính, LSEG (trước đây là Refinitiv) thu thập dữ liệu thời gian thực và lịch sử từ các sàn giao dịch toàn cầu, ngân hàng và các tổ chức tài chính lớn, đồng thời sử dụng mạng tin tức Reuters News của riêng mình để thu thập tin tức liên quan đến thị trường. Họ xử lý thông tin này bằng các thuật toán và mô hình độc quyền để tạo ra sản phẩm phân tích và đánh giá rủi ro như dịch vụ gia tăng giá trị.
(Nguồn: kdnuggets.com)
Trong khi kiến trúc dữ liệu truyền thống hiệu quả trong các dịch vụ chuyên nghiệp, nhược điểm của các mô hình tập trung đang trở nên ngày càng rõ ràng, đặc biệt là trong việc bao phủ nguồn dữ liệu mới nổi, tính minh bạch và bảo vệ quyền riêng tư người dùng. Dưới đây là một số vấn đề chính:
Ví dụ, sự kiện GameStop năm 2021 đã cho thấy sự hạn chế của các nhà cung cấp dữ liệu tài chính truyền thống trong việc phân tích tâm trạng trên mạng xã hội. Tâm trạng của nhà đầu tư trên các nền tảng như Reddit nhanh chóng ảnh hưởng đến xu hướng thị trường, nhưng các hệ thống dữ liệu như Bloomberg và Reuters không thể nắm bắt được những động lực này kịp thời, dẫn đến dự báo thị trường bị trì hoãn.
Ngoài những vấn đề này, các nhà cung cấp dữ liệu truyền thống phải đối mặt với những thách thức liên quan đến hiệu quả chi phí và tính linh hoạt. Mặc dù họ đang tích cực giải quyết những vấn đề này, các công nghệ Web3 mới nổi cung cấp những quan điểm và khả năng mới để giải quyết chúng.
Từ khi ra mắt các giải pháp lưu trữ phi tập trung như IPFS (Hệ thống Tập tin Liên Hành Tinh) vào năm 2014, một loạt các dự án mới nổi đã nhằm mục tiêu giải quyết những hạn chế của hệ sinh thái dữ liệu truyền thống. Các giải pháp dữ liệu phi tập trung đã phát triển thành một hệ sinh thái đa tầng, liên kết bao phủ tất cả các giai đoạn trong vòng đời dữ liệu, bao gồm việc tạo dữ liệu, lưu trữ, trao đổi, xử lý và phân tích dữ liệu, xác minh và bảo mật, cũng như quyền riêng tư và sở hữu.
Khi việc trao đổi và sử dụng dữ liệu tăng lên, việc đảm bảo tính xác thực, uy tín và quyền riêng tư trở nên quan trọng hơn bao giờ hết. Điều này thúc đẩy hệ sinh thái Web3 đổi mới trong việc xác minh dữ liệu và bảo vệ quyền riêng tư, dẫn đến những giải pháp đột phá.
Nhiều công nghệ Web3 và các dự án bản địa tập trung vào việc giải quyết các vấn đề về tính xác thực dữ liệu và bảo vệ sự riêng tư. Vượt xa sự phổ biến của các công nghệ như Chứng minh không cần biết (ZK) và Tính toán Đa bên (MPC), TLS Notary đã trở thành một phương pháp xác minh mới đáng chú ý.
Giới thiệu về TLS Notary
Giao thức Bảo mật Lớp Vận chuyển (TLS) là một giao thức mã hóa phổ biến được sử dụng trong giao tiếp mạng. Mục đích chính của nó là đảm bảo an ninh, tính toàn vẹn và bảo mật của quá trình truyền dữ liệu giữa một máy khách và một máy chủ. TLS là một tiêu chuẩn mã hóa thông thường trong giao tiếp mạng hiện đại, được áp dụng trong các kịch bản như HTTPS, email và tin nhắn tức thì.
(Nguyên tắc Mã hóa TLS, Nguồn: TechTarget)
Khi TLS Notary được giới thiệu lần đầu cách đây một thập kỷ, mục tiêu của nó là xác minh tính xác thực của các phiên TLS bằng cách giới thiệu một bên thứ ba “notary” ngoài khách hàng (người chứng minh) và máy chủ.
Sử dụng công nghệ tách khóa, khóa chính của phiên TLS được chia thành hai phần, được giữ riêng bởi khách hàng và công chứng viên. Thiết kế này cho phép công chứng viên tham gia với tư cách là bên thứ ba đáng tin cậy trong quá trình xác minh mà không cần truy cập nội dung truyền thông thực tế. Cơ chế này nhằm mục đích phát hiện các cuộc tấn công trung gian, ngăn chặn các chứng chỉ gian lận và đảm bảo rằng dữ liệu truyền thông không bị giả mạo trong quá trình truyền. Nó cũng cho phép các bên thứ ba đáng tin cậy xác nhận tính hợp pháp của thông tin liên lạc trong khi bảo vệ quyền riêng tư.
Do đó, TLS Notary cung cấp xác minh dữ liệu an toàn và cân bằng hiệu quả giữa nhu cầu xác minh với bảo vệ quyền riêng tư.
Vào năm 2022, dự án TLS Notary đã được cải cách bởi phòng thí nghiệm nghiên cứu Bảo mật và Mở rộng (PSE) của Quỹ Ethereum. Phiên bản mới của giao thức TLS Notary đã được viết lại từ đầu bằng ngôn ngữ lập trình Rust và tích hợp với các giao thức mật mã tiên tiến hơn như MPC. Những cập nhật này cho phép người dùng chứng minh tính xác thực của dữ liệu nhận được từ máy chủ cho bên thứ ba mà không cần tiết lộ nội dung của dữ liệu. Trong khi vẫn giữ nguyên khả năng xác minh cốt lõi của mình, TLS Notary mới đáng kể cải thiện bảo vệ quyền riêng tư, khiến nó phù hợp hơn với yêu cầu bảo mật dữ liệu hiện tại và tương lai.
Trong những năm gần đây, công nghệ Công chứng TLS đã tiếp tục phát triển, dẫn đến các dẫn xuất khác nhau giúp tăng cường hơn nữa khả năng bảo mật và xác minh của nó:
Các dự án Web3 tận dụng các công nghệ mật mã này để tăng cường xác minh dữ liệu và bảo vệ quyền riêng tư, giải quyết các vấn đề như độc quyền dữ liệu, các kho dữ liệu và việc truyền thông đáng tin cậy. Người dùng có thể xác minh quyền sở hữu an toàn của tài khoản mạng xã hội, hồ sơ mua sắm cho các khoản vay tài chính, lịch sử tín dụng ngân hàng, lý lịch chuyên nghiệp và bằng cấp học vấn mà không đánh đổi quyền riêng tư của họ. Các ví dụ bao gồm:
(Các dự án đang làm việc trên các nhà tiên tri TLS, Nguồn: Bastian Wetzel)
Xác minh dữ liệu trong Web3 là một liên kết cần thiết trong hệ sinh thái dữ liệu, với triển vọng ứng dụng rộng lớn. Sự phát triển của hệ sinh thái này đang đưa nền kinh tế số vào một mô hình mở, linh hoạt và tập trung vào người dùng hơn. Tuy nhiên, việc phát triển các công nghệ xác thực độc lập chỉ là khởi đầu của việc xây dựng cơ sở hạ tầng dữ liệu thế hệ tiếp theo.
Một số dự án đã kết hợp các công nghệ xác minh dữ liệu đã nêu trên với việc khám phá sâu hơn về hệ sinh thái dữ liệu nguồn, như sự theo dõi dữ liệu, việc thu thập dữ liệu phân tán, và việc truyền dữ liệu đáng tin cậy. Dưới đây, chúng tôi nêu bật ba dự án đại diện - OpenLayer, Grass và Vana - có tiềm năng đặc biệt trong việc xây dựng cơ sở hạ tầng dữ liệu thế hệ tiếp theo.
OpenLayer, một trong những dự án từ a16z Crypto 2024 Spring Startup Accelerator, là lớp dữ liệu xác thực mô-đun đầu tiên. Nó nhằm mục đích cung cấp một giải pháp mô-đun sáng tạo để phối hợp thu thập, xác minh và chuyển đổi dữ liệu, giải quyết nhu cầu của cả công ty Web2 và Web3. OpenLayer đã thu hút được sự hỗ trợ từ các quỹ nổi tiếng và các nhà đầu tư thiên thần, bao gồm Geometry Ventures và LongHash Ventures.
Lớp dữ liệu truyền thống đối mặt với nhiều thách thức: thiếu cơ chế xác minh đáng tin cậy, phụ thuộc vào kiến trúc tập trung hạn chế khả năng truy cập, thiếu tính tương thích và luồng dữ liệu giữa các hệ thống khác nhau, và thiếu cơ chế phân phối giá trị dữ liệu công bằng.
Một vấn đề cụ thể hơn là sự khan hiếm ngày càng tăng của dữ liệu đào tạo cho AI. Trên internet công cộng, nhiều trang web hiện đang triển khai các biện pháp chống cạo để ngăn chặn việc thu thập dữ liệu quy mô lớn của các công ty AI. Trong dữ liệu độc quyền tư nhân, tình hình thậm chí còn phức tạp hơn. Dữ liệu có giá trị thường được lưu trữ theo cách bảo vệ quyền riêng tư do tính chất nhạy cảm của nó, thiếu cơ chế khuyến khích hiệu quả. Người dùng không thể kiếm tiền từ dữ liệu cá nhân của họ một cách an toàn và do đó không muốn chia sẻ thông tin nhạy cảm.
Để giải quyết những vấn đề này, OpenLayer kết hợp các công nghệ xác minh dữ liệu để xây dựng một Lớp Dữ liệu Chính Xác theo từng Module. Thông qua việc phi tập trung và kích thích kinh tế, nó điều phối quá trình thu thập dữ liệu, xác minh và biến đổi, cung cấp một cơ sở hạ tầng dữ liệu an toàn, hiệu quả và linh hoạt hơn cho các công ty Web2 và Web3.
OpenLayer cung cấp một nền tảng có tính module hóa giúp đơn giản hóa việc thu thập dữ liệu, xác minh đáng tin cậy và quá trình biến đổi.
a) Cổng Mở
OpenNodes là các thành phần cốt lõi chịu trách nhiệm thu thập dữ liệu phi tập trung trong hệ sinh thái OpenLayer. Thông qua các ứng dụng dành cho thiết bị di động, tiện ích mở rộng trình duyệt và các kênh khác, người dùng có thể thu thập dữ liệu. Các nhà khai thác / nút khác nhau có thể tối ưu hóa phần thưởng của họ bằng cách thực hiện các tác vụ phù hợp nhất với thông số kỹ thuật phần cứng của họ.
OpenNodes hỗ trợ ba loại dữ liệu chính:
Các nhà phát triển có thể dễ dàng thêm các loại dữ liệu mới, chỉ định nguồn dữ liệu và xác định yêu cầu và phương pháp truy xuất. Người dùng có thể cung cấp dữ liệu ẩn danh để đổi lấy phần thưởng. Thiết kế này cho phép hệ thống mở rộng liên tục để đáp ứng các yêu cầu dữ liệu mới. Các nguồn dữ liệu đa dạng khiến OpenLayer phù hợp với các kịch bản ứng dụng khác nhau và giảm ngưỡng cho việc cung cấp dữ liệu.
b) OpenValidators
OpenValidators xử lý việc xác minh dữ liệu đã thu thập, cho phép người tiêu dùng dữ liệu xác nhận tính chính xác của dữ liệu do người dùng cung cấp so với nguồn dữ liệu của nó. Các phương pháp xác minh sử dụng chứng minh mật mã, và kết quả có thể được xác nhận theo chiều hồi tưởng. Nhiều nhà cung cấp có thể cung cấp dịch vụ xác minh cho cùng loại chứng minh, cho phép các nhà phát triển lựa chọn nhà cung cấp phù hợp nhất cho nhu cầu của họ.
Trong các trường hợp sử dụng ban đầu, đặc biệt là đối với dữ liệu công cộng hoặc riêng từ các API internet, OpenLayer sử dụng TLS Notary như một giải pháp xác minh. Nó xuất dữ liệu từ bất kỳ ứng dụng web nào và xác minh tính xác thực mà không vi phạm quyền riêng tư.
Ngoài TLS Notary, nhờ thiết kế mô-đun, hệ thống xác minh có thể dễ dàng tích hợp các phương pháp khác để đáp ứng nhu cầu xác minh và dữ liệu đa dạng, bao gồm:
c) OpenConnect
OpenConnect là mô-đun chịu trách nhiệm về việc biến đổi dữ liệu và tính sử dụng trong hệ sinh thái OpenLayer. Nó xử lý dữ liệu từ các nguồn khác nhau, đảm bảo tính tương thích giữa các hệ thống khác nhau để đáp ứng các yêu cầu ứng dụng đa dạng. Ví dụ:
Cung cấp việc ẩn danh dữ liệu bảo vệ quyền riêng tư cho tài khoản cá nhân người dùng trong khi tăng cường bảo mật trong quá trình chia sẻ dữ liệu để giảm rò rỉ và lạm dụng.
Để đáp ứng nhu cầu dữ liệu thời gian thực của ứng dụng trí tuệ nhân tạo và blockchain, OpenConnect hỗ trợ việc biến đổi dữ liệu thời gian thực hiệu quả.
Hiện tại, thông qua tích hợp với EigenLayer, các nhà điều hành dịch vụ OpenLayer AVS (Active Validation Service) theo dõi các nhiệm vụ yêu cầu dữ liệu, thu thập dữ liệu, xác minh và báo cáo kết quả trở lại hệ thống. Các nhà điều hành đặt hoặc đặt cược lại tài sản trên EigenLayer để đảm bảo kinh tế cho các hoạt động của họ. Hành vi độc hại dẫn đến giảm tài sản. Là một trong những dự án AVS sớm nhất trên mạng chính EigenLayer, OpenLayer đã thu hút hơn 50 nhà điều hành và 4 tỷ đô la trong tài sản đặt cược lại.
Grass, dự án mẫu của Wynd Network, được thiết kế để tạo ra một mạng lưới crawler phi tập trung và nền tảng dữ liệu đào tạo trí tuệ nhân tạo. Đến cuối năm 2023, Grass đã hoàn thành vòng huy động vốn hạt giống 3.5 triệu đô la do Polychain Capital và Tribe Capital dẫn đầu. Vào tháng 9 năm 2024, nó đã bảo đảm vốn loại A, với 5 triệu đô la do HackVC dẫn đầu và sự tham gia bổ sung từ Polychain, Delphi, Lattice và Brevan Howard.
Khi đào tạo AI ngày càng dựa vào các nguồn dữ liệu đa dạng và mở rộng, Grass đáp ứng nhu cầu này bằng cách tạo ra một mạng lưới nút web crawler phân tán. Mạng lưới này tận dụng cơ sở hạ tầng vật lý phi tập trung và băng thông người dùng không hoạt động để thu thập và cung cấp các bộ dữ liệu xác minh cho việc đào tạo AI. Các nút định tuyến yêu cầu web thông qua kết nối Internet của người dùng, truy cập các trang web công cộng và biên soạn các bộ dữ liệu có cấu trúc. Công việc làm sạch và định dạng dữ liệu ban đầu được thực hiện bằng công nghệ edge computing, đảm bảo đầu ra chất lượng cao.
Grass sử dụng kiến trúc Solana Layer 2 Data Rollup để tăng cường hiệu suất xử lý. Người xác minh nhận, xác minh và xử lý theo lô giao dịch web từ các nút, tạo ra các chứng minh Zero-Knowledge (ZK) để xác nhận tính xác thực của dữ liệu. Dữ liệu đã được xác minh được lưu trữ trên Grass Data Ledger (L2), với các chứng minh tương ứng liên kết với blockchain Solana L1.
a) Các Nút Cỏ:
Người dùng cài đặt ứng dụng Grass hoặc tiện ích trình duyệt, cho phép băng thông không hoạt động của họ cung cấp năng lượng cho việc cào dữ liệu web phi tập trung. Các nút định tuyến yêu cầu web, truy cập các trang web công cộng và biên soạn các bộ dữ liệu có cấu trúc. Sử dụng tính toán viền, chúng thực hiện việc làm sạch và định dạng dữ liệu ban đầu. Người dùng kiếm được token GRASS như là phần thưởng dựa trên đóng góp băng thông của họ và khối lượng dữ liệu cung cấp.
b) Router:
Làm nhiệm vụ trung gian, routers kết nối các node Grass đến các validator. Chúng quản lý mạng node và băng thông truyền tải và được khuyến khích dựa trên tổng băng thông đã xác minh mà chúng tạo điều kiện cho.
c) Validators:
Các nhà xác thực nhận và xác minh các giao dịch web được truyền tải bởi các bộ định tuyến. Họ tạo ra các bằng chứng ZK để xác nhận tính hợp lệ của dữ liệu, tận dụng các bộ key độc đáo để thiết lập các kết nối TLS an toàn và các bộ mã hóa. Trong khi Grass hiện tại sử dụng các nhà xác thực tập trung, kế hoạch đã được đưa ra để chuyển sang một ủy ban xác thực phi tập trung.
d) Bộ xử lý ZK:
Những bộ xử lý này xác minh chứng minh dữ liệu phiên của nút và gom nhóm chứng minh yêu cầu web để gửi đến Lớp 1 Solana.
e) Bảng ghi Dữ liệu Cỏ (Cỏ L2):
Bảng ghi Dữ liệu Cỏ lưu trữ các bộ dữ liệu toàn diện và liên kết chúng với các chứng minh L1 tương ứng trên Solana, đảm bảo tính minh bạch và khả năng truy vấn.
f) Mô hình nhúng cạnh:
Những mô hình này biến đổi dữ liệu web không cấu trúc thành các bộ dữ liệu có cấu trúc phù hợp cho việc huấn luyện trí tuệ nhân tạo.
Nguồn: Cỏ
Grass và OpenLayer chia sẻ cam kết sử dụng mạng phân phối để cung cấp cho các công ty quyền truy cập vào dữ liệu Internet mở và dữ liệu riêng được xác thực. Cả hai đều sử dụng cơ chế động viên để thúc đẩy việc chia sẻ dữ liệu và sản xuất các tập dữ liệu chất lượng cao, nhưng kiến trúc kỹ thuật và mô hình kinh doanh của họ khác nhau.
Kiến trúc kỹ thuật:
Grass sử dụng kiến trúc Solana Layer 2 Data Rollup với xác thực tập trung, dựa trên một trình xác thực duy nhất. OpenLayer, với tư cách là người sớm áp dụng AVS (Dịch vụ xác thực hoạt động) của EigenLayer, sử dụng cơ chế xác thực phi tập trung sử dụng các ưu đãi kinh tế và cắt giảm hình phạt. Thiết kế mô-đun của nó nhấn mạnh khả năng mở rộng và tính linh hoạt trong các dịch vụ xác minh dữ liệu.
Trọng tâm sản phẩm:
Cả hai dự án cho phép người dùng kiếm tiền từ dữ liệu qua các nút, nhưng các trường hợp sử dụng kinh doanh của họ khác nhau:
Grass chủ yếu nhắm vào các công ty AI và các nhà khoa học dữ liệu cần các bộ dữ liệu có cấu trúc, quy mô lớn, cũng như các tổ chức nghiên cứu và doanh nghiệp yêu cầu dữ liệu dựa trên web. OpenLayer phục vụ cho các nhà phát triển Web3 cần nguồn dữ liệu ngoài chuỗi, các công ty AI yêu cầu các luồng thời gian thực, có thể kiểm chứng và các doanh nghiệp theo đuổi các chiến lược sáng tạo như xác minh việc sử dụng sản phẩm của đối thủ cạnh tranh.
Trong khi cả hai dự án hiện đang chiếm những chỗ đứng riêng biệt, chức năng của chúng có thể hội tụ khi ngành công nghiệp phát triển:
Cả hai dự án cũng có thể tích hợp ghi nhãn dữ liệu như một bước quan trọng để đào tạo bộ dữ liệu. Grass, với mạng lưới rộng lớn gồm hơn 2,2 triệu nút hoạt động, có thể nhanh chóng triển khai các dịch vụ Học tăng cường với Phản hồi của con người (RLHF) để tối ưu hóa các mô hình AI. OpenLayer, với chuyên môn về xác minh và xử lý dữ liệu thời gian thực, có thể duy trì lợi thế về độ tin cậy và chất lượng dữ liệu, đặc biệt là đối với các bộ dữ liệu riêng tư.
Mặc dù có thể có sự chồng chéo tiềm năng, nhưng sức mạnh độc đáo và phương pháp công nghệ của họ có thể cho phép họ thống trị các phân khúc khác nhau trong hệ sinh thái dữ liệu phi tập trung.
(Nguồn: IOSG, David)
Vana là một mạng lưới hồ dữ liệu tập trung vào người dùng được thiết kế để cung cấp dữ liệu chất lượng cao cho trí tuệ nhân tạo và các ứng dụng liên quan. So với OpenLayer và Grass, Vana có một cách tiếp cận công nghệ và kinh doanh riêng biệt. Vào tháng 9 năm 2024, Vana đã đảm bảo 5 triệu đô la vốn đầu tư do Coinbase Ventures dẫn đầu, theo sau là vòng gọi vốn Series A trị giá 18 triệu đô la vào đó Paradigm là nhà đầu tư chính, với sự tham gia của Polychain và Casey Caruso.
Ban đầu được ra mắt vào năm 2018 như một dự án nghiên cứu của MIT, Vana là một blockchain Lớp 1 dành riêng cho dữ liệu người dùng riêng tư. Những đổi mới của nó trong quyền sở hữu dữ liệu và phân phối giá trị cho phép người dùng kiếm lợi nhuận từ các mô hình AI được đào tạo trên dữ liệu của họ. Vana đạt được điều này thông qua các Nhóm thanh khoản dữ liệu (DLP) không đáng tin cậy, riêng tư và có thể quy kết và cơ chế Bằng chứng đóng góp sáng tạo tạo điều kiện thuận lợi cho luồng và kiếm tiền từ dữ liệu cá nhân.
Vana giới thiệu một khái niệm duy nhất về Hồ bơi Dữ liệu (DLPs), đó là trung tâm của mạng lưới Vana. Mỗi DLP là một mạng lưới ngang hàng độc lập tổng hợp các loại tài sản dữ liệu cụ thể. Người dùng có thể tải lên dữ liệu riêng của họ—như hồ sơ mua sắm, thói quen duyệt web và hoạt động trên mạng xã hội—và quyết định xem có ủy quyền việc sử dụng cụ thể của bên thứ ba hay không.
Dữ liệu trong những hồ bơi này trải qua quá trình vô danh để bảo vệ quyền riêng tư của người dùng trong khi vẫn có thể sử dụng cho các ứng dụng thương mại, như huấn luyện mô hình AI và nghiên cứu thị trường. Người dùng đóng góp dữ liệu vào một DLP sẽ được thưởng bằng các token DLP tương ứng. Những token này đại diện cho sự đóng góp của người dùng vào hồ bơi, cấp quyền quản trị và cho phép người dùng được chia sẻ một phần lợi nhuận trong tương lai.
Không giống như việc bán dữ liệu một lần theo cách truyền thống, Vana cho phép dữ liệu tham gia liên tục vào chu kỳ kinh tế, cho phép người dùng nhận được phần thưởng liên tục với việc theo dõi việc sử dụng minh bạch và trực quan.
Cơ chế Chứng minh Đóng góp (PoC) là một điểm mốc quan trọng của phương pháp đảm bảo chất lượng dữ liệu của Vana. Mỗi DLP có thể xác định một hàm PoC duy nhất được điều chỉnh theo đặc điểm của nó, xác minh tính xác thực và đầy đủ của dữ liệu được gửi và đánh giá đóng góp của nó đối với việc cải thiện hiệu suất mô hình AI. Cơ chế này định lượng đóng góp của người dùng, ghi chép chúng để phân bổ phần thưởng. Tương tự như khái niệm ‘Chứng minh công việc’ trong tiền điện tử, PoC thưởng người dùng dựa trên chất lượng, số lượng và tần suất sử dụng dữ liệu. Hợp đồng thông minh tự động hóa quá trình này, đảm bảo người đóng góp được bồi thường một cách công bằng và minh bạch.
Lớp dữ liệu này cho phép đóng góp, xác minh và ghi dữ liệu vào DLPs, biến dữ liệu thành tài sản kỹ thuật số có thể chuyển tiếp trên chuỗi. Người tạo DLP triển khai hợp đồng thông minh để đặt mục đích, phương pháp xác minh và tham số đóng góp. Người đóng góp dữ liệu gửi dữ liệu để xác minh, và mô-đun PoC đánh giá chất lượng dữ liệu và gán quyền quản trị và phần thưởng.
Là tầng ứng dụng của Vana, nền tảng này tạo điều kiện cho sự hợp tác giữa người đóng góp dữ liệu và nhà phát triển. Nó cung cấp cơ sở hạ tầng để xây dựng các mô hình đào tạo trí tuệ nhân tạo phân tán và ứng dụng trí tuệ nhân tạo dựa trên tính thanh khoản trong DLPs.
Connectome là một sổ cái phi tập trung làm nền tảng cho hệ sinh thái Vana, hoạt động như một bản đồ luồng dữ liệu thời gian thực. Nó ghi lại tất cả các giao dịch dữ liệu thời gian thực bằng cách sử dụng sự nhất trí Chứng cứ Chấp thuận, đảm bảo việc chuyển giao hiệu quả các mã thông báo DLP và cho phép truy cập dữ liệu chéo DLP. Hoàn toàn tương thích với EVM, nó cho phép tương tác với các mạng, giao thức và ứng dụng DeFi khác.
(Nguồn: Vana)
Vana cung cấp một cách tiếp cận mới bằng cách tập trung vào tính thanh khoản và trao quyền cho dữ liệu người dùng. Mô hình trao đổi dữ liệu phi tập trung này không chỉ hỗ trợ đào tạo AI và thị trường dữ liệu mà còn cho phép chia sẻ và sở hữu dữ liệu đa nền tảng liền mạch trong hệ sinh thái Web3. Cuối cùng, nó thúc đẩy một internet mở, nơi người dùng có thể sở hữu và quản lý dữ liệu của họ và các sản phẩm thông minh được tạo ra từ nó.
Năm 2006, nhà khoa học dữ liệu Clive Humby đã nổi tiếng nhận xét, “Dữ liệu là dầu mới.” Trong hai thập kỷ qua, chúng ta đã chứng kiến sự tiến hóa nhanh chóng của các công nghệ “tinh chế” tài nguyên này, chẳng hạn như phân tích dữ liệu lớn và học máy, đã mở khóa giá trị chưa từng có từ dữ liệu. Theo IDC, đến năm 2025, quả cầu dữ liệu toàn cầu sẽ mở rộng lên 163 ZB, với phần lớn đến từ cá nhân. Khi IoT, thiết bị đeo được, trí tuệ nhân tạo và dịch vụ cá nhân hóa trở nên phổ biến hơn, phần lớn dữ liệu cần thiết cho việc sử dụng thương mại sẽ xuất phát từ cá nhân.
Các giải pháp dữ liệu Web3 khắc phục những hạn chế của cơ sở hạ tầng truyền thống bằng cách tận dụng các mạng nút phân tán. Các mạng này cho phép thu thập dữ liệu rộng hơn, hiệu quả hơn đồng thời cải thiện khả năng truy cập thời gian thực và khả năng xác minh của các bộ dữ liệu cụ thể. Các công nghệ Web3 đảm bảo tính xác thực và toàn vẹn của dữ liệu đồng thời bảo vệ quyền riêng tư của người dùng, thúc đẩy mô hình sử dụng dữ liệu công bằng hơn. Kiến trúc phi tập trung này dân chủ hóa quyền truy cập dữ liệu và trao quyền cho người dùng chia sẻ lợi ích kinh tế của nền kinh tế dữ liệu.
Cả OpenLayer và Grass đều dựa vào các mô hình nút người dùng để tăng cường các quy trình thu thập dữ liệu cụ thể, trong khi Vana kiếm tiền từ dữ liệu người dùng riêng tư. Những cách tiếp cận này không chỉ nâng cao hiệu quả mà còn cho phép người dùng thông thường tham gia vào giá trị được tạo ra bởi nền kinh tế dữ liệu, tạo ra một kịch bản đôi bên cùng có lợi cho người dùng và nhà phát triển.
Thông qua tokenomics, các giải pháp dữ liệu Web3 tái thiết mô hình ưu đãi, thiết lập các mô hình phân phối giá trị công bố hơn. Những hệ thống này thu hút sự tham gia đông đảo, tài nguyên phần cửa, và đầu tư, tối ưu hóa hoạt động của toàn bộ mạng dữ liệu.
Các giải pháp Web3 cung cấp tính linh hoạt và khả năng mở rộng, cho phép sự biến đổi công nghệ và mở rộng hệ sinh thái. Ví dụ: Thiết kế modular của OpenLayer cung cấp tính linh hoạt cho các tiến bộ trong tương lai; Kiến trúc phân tán của Grass tối ưu hóa việc huấn luyện mô hình trí tuệ nhân tạo bằng cách cung cấp các bộ dữ liệu đa dạng và chất lượng cao.
Từ việc tạo, lưu trữ và xác minh dữ liệu đến trao đổi và phân tích, các giải pháp dựa trên Web3 giải quyết những thiếu sót của cơ sở hạ tầng truyền thống. Bằng cách cho phép người dùng kiếm tiền từ dữ liệu của họ, các giải pháp này về cơ bản chuyển đổi nền kinh tế dữ liệu.
Khi công nghệ phát triển và các kịch bản ứng dụng mở rộng, các lớp dữ liệu phi tập trung đã sẵn sàng trở thành nền tảng của cơ sở hạ tầng thế hệ tiếp theo. Họ sẽ hỗ trợ một loạt các ngành công nghiệp dựa trên dữ liệu đồng thời trao quyền cho người dùng kiểm soát dữ liệu và tiềm năng kinh tế của họ.