Децентралізований рівень даних: Нова інфраструктура для ери штучного інтелекту #247

Середній11/26/2024, 4:28:16 AM
Ми раніше обговорювали, як штучний інтелект та Web3 можуть доповнювати один одного у вертикальних галузях, таких як обчислювальні мережі, посередницькі платформи та споживчі застосування. Коли ми зосереджуємося на ресурсах даних як на вертикальному полі, нові веб-проекти відкривають нові можливості для отримання, обміну та використання даних.

TL/DR

Ми раніше обговорювали, як штучний інтелект та Web3 можуть доповнювати один одного у вертикальних галузях, таких як обчислювальні мережі, посередницькі платформи та споживчі застосунки. Коли ми зосереджуємося на ресурсах даних як на вертикальному полі, нові Web-проекти відкривають нові можливості для отримання, обміну та використання даних.

  • Традиційні постачальники даних мають проблеми з відповіданням вимогам щодо високоякісних, реального часу та перевірених даних в галузі штучного інтелекту та інших галузей, що працюють на основі даних, особливо щодо прозорості, контролю користувачів та захисту конфіденційності.
  • Web3-рішення змінюють екосистему даних. Такі технології, як MPC (Multi-Party Computation), докази з нульовим розголошенням і TLS Notary, забезпечують автентичність і конфіденційність даних під час потоку між кількома джерелами, тоді як розподілене сховище та периферійні обчислення пропонують вищу гнучкість та ефективність обробки даних у режимі реального часу.
  • Децентралізовані мережі даних як зароджується інфраструктура породила кілька представницьких проектів, таких як OpenLayer (модульний реальний рівень даних), Grass (використання невикористовуваної пропускної здатності користувача та децентралізованих мереж вузлів-павуків) та Vana (мережа рівня 1 з суверенітетом користувача), які відкривають нові перспективи для таких галузей, як навчання та застосування ШІ шляхом застосування різних технологічних шляхів.
  • Завдяки використанню масштабованого потенціалу спільноти, безпечних шарів абстракції та механізмів стимулювання на основі токенів, децентралізована інфраструктура даних може забезпечити більш приватні, безпечні, ефективні та вигідні рішення порівняно з веб-гігантами Web2. Вона також надає користувачам контроль над їхніми даними та пов'язаними ресурсами, будуючи більш відкриту, безпечну та взаємопов'язану цифрову екосистему.

1. Різке збільшення попиту на дані

Дані стали ключовим рушієм інновацій та прийняття рішень у різних галузях. UBS прогнозує, що з 2020 по 2030 рік глобальний обсяг даних зросте в десять разів, досягнувши 660 ZB. Очікується, що до 2025 року кожна людина в усьому світі генеруватиме 463 ЕБ (ексабайти, 1 ЕБ = 1 мільярд ГБ) даних щодня. Ринок Data-as-a-Service (DaaS) стрімко розширюється. За даними Grand View Research, у 2023 році світовий ринок DaaS оцінювався в $14,36 млрд і, як очікується, зростатиме із сукупним річним темпом зростання (CAGR) 28,1%, досягнувши $76,8 млрд до 2030 року.

Навчання моделей штучного інтелекту надзвичайно залежить від великих наборів даних для виявлення патернів та налаштування параметрів. Після навчання також необхідні набори даних для перевірки продуктивності та загальних можливостей моделей. Крім того, штучним інтелектом, як новим формам інтелектуальних додатків, потрібні джерела даних в реальному часі, які будуть надійними для забезпечення точного прийняття рішень та виконання завдань.

(Джерело: Leewayhertz)

Попит на бізнес-аналітику також стає все більш різноманітним і поширеним, слугуючи основним інструментом, що стимулює корпоративні інновації. Наприклад, платформам соціальних мереж і фірмам, що займаються дослідженням ринку, потрібні надійні дані про поведінку користувачів для формулювання стратегій та аналізу тенденцій, інтегруючи різноманітні дані з кількох соціальних платформ для створення більш повної картини.

Для екосистеми Web3 також потрібні надійні та автентичні дані on-chain для підтримки нових фінансових продуктів. При токенізації все більше інноваційних активів, для підтримки розробки продуктів та управління ризиками потрібні гнучкі та надійні інтерфейси даних, що дозволяють виконувати розумні контракти на основі перевірених реальних даних у реальному часі.

Крім того, використання в наукових дослідженнях, Інтернеті речей та інших галузях підкреслює стрімкий попит на різноманітні, аутентичні та в реальному часі дані. Традиційні системи можуть мати проблеми з впораннямся з швидко зростаючим обсягом даних та постійно змінюючимися вимогами.

2. Обмеження та виклики традиційних даних екосистем

Типова екосистема даних включає збір, зберігання, обробку, аналіз та застосування даних. Централізовані моделі характеризуються централізованим збором і зберіганням даних, керованими основною ІТ-командою з суворим контролем доступу. Наприклад, екосистема даних Google охоплює різні джерела даних, такі як пошукові системи, Gmail та операційна система Android. Ці платформи збирають дані користувачів, зберігають їх у глобально розподілених центрах обробки даних і обробляють за допомогою алгоритмів для підтримки розробки та оптимізації різних продуктів і послуг.

На фінансових ринках LSEG (раніше Refinitiv) збирає історичні дані в режимі реального часу від світових бірж, банків та великих фінансових установ, використовуючи власну мережу Reuters News для збору новин, пов'язаних з ринком. Вони обробляють цю інформацію за допомогою власних алгоритмів і моделей для створення продуктів аналізу та оцінки ризиків як послуг з доданою вартістю.

(Джерело: kdnuggets.com)

Хоча традиційна архітектура даних ефективна в професійних послугах, обмеження централізованих моделей стають все більш очевидними, особливо в охопленні нових джерел даних, прозорості та захисту конфіденційності користувачів. Нижче наведено деякі ключові питання:

  • Недостатнє охоплення даних: Традиційні постачальники даних мають проблеми з захопленням та аналізом нових джерел даних, таких як настрій соціальних медіа та дані пристроїв Інтернету речей, швидко. Централізовані системи зустрічають труднощі у ефективному здобутті та інтеграції "довгого хвоста" даних з численних невеликих або неосновних джерел.

Наприклад, подія GameStop 2021 року показала обмеження традиційних постачальників фінансових даних у аналізі соціального настрою в медіа. Настрій інвесторів на платформах, таких як Reddit, швидко впливав на ринкові тенденції, але термінали даних, такі як Bloomberg і Reuters, не встигли зафіксувати ці динаміку вчасно, що призвело до затриманих прогнозів ринку.

  • Обмежений доступ до даних: Монополія обмежує доступ. Багато традиційних постачальників відкривають частини своїх даних через API/хмарові сервіси, але високі плати за доступ та складні процеси авторизації ускладнюють інтеграцію даних. Розробники on-chain мають труднощі у швидкому доступі до надійних off-chain даних, які монополізуються декількома гігантами за високу ціну.
  • Проблеми прозорості та достовірності даних: Багато централізованих постачальників даних не мають прозорості у своїх методах збору та обробки даних. Також не вистачає ефективних механізмів для перевірки автентичності та повноти великомасштабних даних. Перевірка реальних даних в режимі реального часу на великій шкалі залишається складною, а централізований характер збільшує ризик порушення або маніпулювання даними.
  • Захист конфіденційності та власності даних: Великі технологічні компанії широко комерціалізували дані користувачів. Користувачі, як творці особистих даних, рідко отримують від них належну вартість. Вони часто не можуть зрозуміти, як їх дані збираються, обробляються або використовуються, а також не можуть визначити обсяг та спосіб їхнього використання. Перевищення обсягу збору та зловживання також призводять до серйозних ризиків для конфіденційності. Наприклад, скандал з Cambridge Analytica у Facebook розкрив значні недоліки у прозорості та захисті конфіденційності в традиційних екосистемах даних.
  • Розрізненість даних: Дані в режимі реального часу з різних джерел і форматів складно швидко інтегрувати, що перешкоджає всебічному аналізу. Значна частина цих даних залишається заблокованою в організаціях, обмежуючи міжгалузевий та міжорганізаційний обмін та інновації. Цей ефект «розрізненості даних» перешкоджає інтеграції та аналізу міждоменних даних. Наприклад, у споживчій індустрії брендам необхідно інтегрувати дані з платформ електронної комерції, фізичних магазинів, соціальних мереж та маркетингових досліджень, але ці набори даних можуть бути ізольовані через невідповідність платформи або сегрегацію. Аналогічним чином, компанії, що займаються спільними поїздками, такі як Uber і Lyft, збирають великі обсяги даних у режимі реального часу про трафік, попит пасажирів і географічне розташування, але динаміка конкуренції не дозволяє ділитися цими наборами даних або інтегрувати їх.

Поза цими проблемами, традиційні постачальники даних стикаються з проблемами, пов'язаними з ефективністю витрат та гнучкістю. Хоча вони активно вирішують ці проблеми, нові перспективи та можливості надають емерджингові технології Web3, щоб з ними впоратися.

3. Екосистема даних Web3

З моменту запуску децентралізованих засобів зберігання, таких як IPFS (InterPlanetary File System) у 2014 році, з'явилось безліч нових проектів, які мають на меті вирішити обмеження традиційних екосистем даних. Децентралізовані рішення щодо даних перетворилися на багаторівневу, взаємопов'язану екосистему, яка охоплює всі етапи життєвого циклу даних, включаючи генерацію, зберігання, обмін, обробку і аналіз даних, їх підтвердження та безпеку, а також приватність і власність.

  • Зберігання даних: Швидкий розвиток Filecoin та Arweave свідчить про те, що децентралізоване зберігання (DCS) стає парадигмальним зрушенням у галузі зберігання. DCS зменшує одинокі точки відмов за рахунок розподіленої архітектури, привертаючи учасників завдяки конкурентоспроможності вартості. Зі з'явом масштабних застосувань, вмістимість DCS зберігання зростає експоненційно (наприклад, загальна мережева вмістимість Filecoin досягла 22 екзабайтів до 2024 року).
  • Обробка та аналіз: Децентралізовані платформи обчислень даних, такі як Fluence, покращують продуктивність і ефективність обробки даних у реальному часі за допомогою периферійних обчислень, особливо для сценаріїв застосування в реальному часі, таких як IoT та висновок штучного інтелекту. Проєкти Web3 використовують такі технології, як федеративне навчання, диференціальна конфіденційність, довірені середовища виконання та повністю гомоморфне шифрування, щоб забезпечити гнучкий захист конфіденційності на обчислювальному рівні.
  • Ринки даних/Платформи обміну: Щоб сприяти оцінці та циркуляції даних, Ocean Protocol використовує токенізацію та механізми DEX для створення ефективних та відкритих каналів обміну даними. Наприклад, він співпрацює з Daimler (материнська компанія Mercedes-Benz) для розвитку ринків обміну даними для управління ланцюгом постачання. З іншого боку, Streamr розробив бездозвільну мережу підписки на дані, призначену для сценаріїв Інтернету речей та аналітики в реальному часі, що показує винятковий потенціал у проектах транспорту та логістики (наприклад, співпрацюючи зі смарт-міським проектом Фінляндії).

При збільшенні обміну та використання даних забезпечення автентичності, вірогідності та конфіденційності стає критичним. Це підштовхує екосистему Web3 до інновацій у верифікації даних та захисту конфіденційності, що призводить до революційних рішень.

3.1 Інновації в перевірці даних та захисті конфіденційності

Багато технологій Web3 та власних проектів спрямовані на вирішення питань автентичності даних та захисту конфіденційності. Поза широким поширенням технологій, таких як докази відсутності знань (ZK) та багатосторонні обчислення (MPC), TLS Notary виросло як важливий новий метод верифікації.

Вступ до TLS Notary

Протокол безпеки транспортного рівня (TLS) - це широко використовуваний протокол шифрування для мережевих комунікацій. Його основна мета - забезпечити безпеку, цілісність та конфіденційність передачі даних між клієнтом та сервером. TLS - це загальний стандарт шифрування в сучасних мережевих комунікаціях, застосовується у таких сценаріях, як HTTPS, електронна пошта і миттєві повідомлення.

(Принципи шифрування TLS, Джерело: TechTarget)

Коли TLS Notary було вперше введено десять років тому, його метою було перевірити автентичність сеансів TLS, введенням стороннього "нотаріуса" поза клієнтом (доводчиком) та сервером.

Використовуючи технологію розділення ключів, майстер-ключ сеансу TLS ділиться на дві частини, які зберігаються окремо клієнтом і нотаріусом. Така конструкція дозволяє нотаріусу брати участь як довірена третя сторона в процесі перевірки без доступу до фактичного змісту комунікації. Цей механізм спрямований на виявлення атак типу "людина посередині", запобігання підробленню сертифікатів і забезпечення того, щоб дані зв'язку не були підроблені під час передачі. Це також дозволяє довіреним третім сторонам підтверджувати легітимність комунікацій, захищаючи конфіденційність.

Отже, TLS Notary пропонує безпечну перевірку даних та ефективно забезпечує баланс потреб у верифікації та захисту приватності.

У 2022 році проєкт TLS Notary був реструктуризований дослідницькою лабораторією Privacy and Scaling Exploration (PSE) Ethereum Foundation. Нова версія протоколу TLS Notary була переписана з нуля на мові програмування Rust та інтегрована з більш просунутими криптографічними протоколами, такими як MPC. Ці оновлення дозволяють користувачам доводити достовірність даних, отриманих із сервера, третій стороні, не розкриваючи їх вміст. Зберігаючи свої основні можливості перевірки, новий нотаріус TLS значно покращує захист конфіденційності, роблячи його більш придатним для поточних і майбутніх вимог до конфіденційності даних.

3.2 Варіанти та Розширення TLS Notary

Останнім часом технологія TLS Notary продовжує розвиватися, що призводить до появи різноманітних похідних, які подальше підвищують її приватність та можливості перевірки:

  • zkTLS: Приватизована версія TLS Notary, яка інтегрує технологію ZKP, дозволяючи користувачам генерувати криптографічні докази даних веб-сторінки без викриття будь-якої чутливої інформації. Особливо підходить для сценаріїв зв'язку, які потребують високого захисту конфіденційності.
  • 3P-TLS (Three-Party TLS): Цей протокол представляє три сторони – клієнта, сервера та аудитора, що дозволяє аудитору перевіряти безпеку комунікацій без розголошення вмісту. Цей протокол корисний у сценаріях, які вимагають як прозорості, так і конфіденційності, таких як аудит відповідності або перевірка фінансових транзакцій.

Проекти Web3 використовують ці криптографічні технології для підвищення перевірки даних та захисту конфіденційності, борючись з проблемами, такими як монополія на дані, силося, та довірена передача. Користувачі можуть безпечно підтвердити власність соціальних медіа-акаунтів, записи покупок для фінансових кредитів, кредитну історію банків, професійний досвід та академічні кваліфікації, не порушуючи свою конфіденційність. Приклади включають:

  • Протокол Reclaim: Використовує zkTLS для генерації нуль-знання доказів HTTPS-трафіку, що дозволяє користувачам безпечно імпортувати дані про активність, репутацію та ідентифікацію з зовнішніх веб-сайтів, не розкриваючи конфіденційну інформацію.
  • zkPass: Об'єднує технології 3P-TLS для забезпечення можливості перевірки приватних даних реального світу з використанням захищеного з'єднання, застосуванням в KYC та кредитних сервісах. Також сумісний з мережею HTTPS.
  • Мережа непрозорості: Побудована на zkTLS, вона дозволяє користувачам безпечно доводити свою активність на платформах, таких як Uber, Spotify та Netflix, без прямого доступу до API цих платформ, що дозволяє підтвердження активності між платформами.

(Проекти, що працюють над оракулами TLS, джерело: Бастіан Ветцель)

Перевірка даних у Web3 є важливим елементом екосистеми даних з великими перспективами застосування. Розвиток цієї екосистеми керує цифровою економікою в більш відкриту, динамічну та користувацькоорієнтовану модель. Однак розробка технологій перевірки автентичності є лише початком будування інфраструктури наступного покоління даних.

4. Децентралізовані мережі даних

Деякі проекти поєднали вищезазначені технології перевірки даних з подальшим дослідженням даних у верхній екосистемі, таких як відстежування даних, розподілений збір даних та надійна передача. Нижче ми наводимо приклади трьох представницьких проектів - OpenLayer, Grass та Vana - які демонструють унікальний потенціал у створенні інфраструктури наступного покоління даних.

4.1 OpenLayer

OpenLayer, один з проектів у рамках прискорювача стартапів a16z Crypto 2024 весна, є першим модульним автентичним рівнем даних. Він має на меті надати інноваційне модульне рішення для координації збору, перевірки та перетворення даних, задовольняючи потреби як компаній Web2, так і Web3. OpenLayer отримав підтримку від відомих фондів і ангельських інвесторів, зокрема Geometry Ventures і LongHash Ventures.

Традиційні рівні даних стикаються з кількома викликами: відсутність надійних механізмів перевірки, залежність від централізованих архітектур, які обмежують доступність, відсутність взаємодії та потоку між різними системами, а також відсутність механізмів справедливого розподілу вартості даних.

Більш конкретною проблемою є зростаючий дефіцит навчальних даних для ШІ. У загальнодоступному Інтернеті багато веб-сайтів зараз застосовують заходи боротьби зі скрейпінгом, щоб запобігти великомасштабному скрейпінгу даних компаніями зі штучним інтелектом. У приватних пропрієтарних даних ситуація ще складніша. Цінні дані часто зберігаються в захищений від конфіденційності спосіб через їх конфіденційний характер і відсутність ефективних механізмів стимулювання. Користувачі не можуть безпечно монетизувати свої особисті дані і тому неохоче діляться конфіденційною інформацією.

Для вирішення цих проблем OpenLayer поєднує технології перевірки даних для побудови Модульного аутентифікаційного рівня даних. Шляхом децентралізації та економічних стимулів він координує процеси збору, перевірки та трансформації даних, надаючи безпечну, ефективну та гнучку інфраструктуру даних для компаній Web2 та Web3.

4.1.1 Основні компоненти модульного дизайну OpenLayer

OpenLayer надає модульну платформу, яка спрощує збір даних, надійну верифікацію та процеси трансформації.

a) OpenNodes

OpenNodes - це основні компоненти, відповідальні за децентралізовану збір даних в екосистемі OpenLayer. За допомогою мобільних додатків, розширень для браузерів та інших каналів користувачі можуть збирати дані. Різні оператори/вузли можуть оптимізувати свою винагороду, виконуючи завдання, найбільш підходящі для їх апаратних характеристик.

OpenNodes підтримують три основних типи даних:

  • Доступні в Інтернеті дані (наприклад, фінансові, погодні, спортивні та дані з соціальних мереж)
  • Приватні дані користувача (наприклад, історія перегляду Netflix, записи замовлень Amazon)
  • Дані, зібрані від вірних джерел (наприклад, дані, перевірені власниками або конкретними довіреними апаратними засобами).

Розробники можуть легко додавати нові типи даних, вказувати джерела даних і визначати вимоги та методи отримання. Користувачі можуть надавати анонімізовані дані в обмін на винагороди. Цей дизайн дозволяє системі постійно розширюватися, щоб задовольнити нові потреби в даних. Різноманітні джерела даних роблять OpenLayer підходящим для різних сценаріїв застосування та знижують поріг надання даних.

b) OpenValidators

OpenValidators обробляють перевірку зібраних даних, дозволяючи споживачам даних підтвердити точність даних, наданих користувачем, порівняно з їх джерелом. Методи перевірки використовують криптографічні докази, а результати можуть бути перевірені відсторонено. Кілька провайдерів можуть надавати послуги перевірки для одного типу доказу, що дозволяє розробникам вибрати найбільш підходящого провайдера для своїх потреб.

У початкових випадках, особливо для публічних чи приватних даних з інтернет-інтерфейсів, OpenLayer використовує TLS Notary як рішення для верифікації. Він експортує дані з будь-якої веб-додатки та перевіряє їх автентичність, не компрометуючи конфіденційність.

Поза TLS Notary, завдяки його модульному дизайну, система верифікації може легко інтегрувати інші методи для відповідності різноманітним потребам у даних та верифікації, включаючи:

  1. Сертифіковані з'єднання TLS: Використання надійних середовищ виконання (TEEs) для встановлення сертифікованих з'єднань TLS, забезпечуючи цілісність даних та автентичність під час передачі.
  2. Безпечні оболонки: Використання оболонок безпеки на рівні апаратного забезпечення (наприклад, Intel SGX) для обробки та перевірки чутливих даних, що надає більш високий рівень захисту даних.
  3. Генератори доказів ZK: Інтеграція доказів нульового знання для перевірки атрибутів даних або результатів обчислень без розкриття підлягаючих даних.

c) OpenConnect

OpenConnect - модуль, відповідальний за перетворення та використання даних в екосистемі OpenLayer. Він обробляє дані з різних джерел, забезпечуючи взаємодію між різними системами для задоволення різноманітних вимог застосування. Наприклад:

  • Перетворення даних в формат Oracle on-chain для безпосереднього використання у смарт-контрактах.
  • Підготовка неструктурованих сирових даних в структуровані дані для навчання штучного інтелекту.

Забезпечення анонімізації даних, яка зберігає конфіденційність особистих облікових записів користувачів, підвищення безпеки під час обміну даними для зменшення витоків та зловживань.

Для задоволення вимог до реального часу даних для застосувань штучного інтелекту та блокчейну OpenConnect підтримує ефективне перетворення даних у реальному часі.

Наразі, завдяки інтеграції з EigenLayer, оператори OpenLayer AVS (Active Validation Service) відстежують завдання запиту даних, збирають дані, перевіряють їх і повертають результати в систему. Оператори ставлять або переставляють активи на EigenLayer, щоб забезпечити економічні гарантії для своїх дій. Зловживання веде до зниження активів. Як один з перших проектів AVS на основній мережі EigenLayer, OpenLayer залучив понад 50 операторів та $4 мільярди активів, які були переставлені.

4.2 Трава

Grass, флагманський проект, розроблений компанією Wynd Network, призначений для створення децентралізованої мережі краулерів та платформи для навчання штучного інтелекту на основі даних. До кінця 2023 року Grass завершив раунд збору $3,5 мільйонів у формі насіннєвого фінансування, який очолили Polychain Capital і Tribe Capital. У вересні 2024 року він отримав фінансування серії A на суму $5 мільйонів, очолене HackVC та додатковою участю Polychain, Delphi, Lattice та Brevan Howard.

Оскільки навчання штучного інтелекту все більше ґрунтується на різноманітних та обширних джерелах даних, Grass вирішує цю потребу, створюючи розподілену мережу вузлів веб-павука. Ця мережа використовує децентралізовану фізичну інфраструктуру та вільну пропускну здатність користувачів для збору та надання перевірених наборів даних для навчання штучного інтелекту. Вузли маршрутизують веб-запити через Інтернет-з'єднання користувачів, отримуючи доступ до загальнодоступних веб-сайтів та компілюючи структуровані набори даних. Початкове очищення та форматування даних виконується за допомогою технології розподіленого обчислення на межі мережі, забезпечуючи високоякісний результат.

Grass використовує архітектуру Solana Layer 2 Data Rollup для підвищення ефективності обробки. Валідатори отримують, перевіряють та пакетно обробляють веб-транзакції від вузлів, генеруючи докази Zero-Knowledge (ZK) для підтвердження автентичності даних. Перевірені дані зберігаються на Grass Data Ledger (L2), а відповідні докази пов'язані з блокчейном Solana L1.

4.2.1 Ключові компоненти трави

a) Вузли трави:

Користувачі встановлюють додаток Grass або розширення для браузера, що дозволяє використовувати їхню неактивну пропускну здатність для розподіленого пошуку веб-сторінок. Вузли маршрутизують запити веб-сторінок, отримують доступ до загальнодоступних веб-сайтів та компілюють структуровані набори даних. Використовуючи розподілене обчислення, вони виконують початкове очищення та форматування даних. Користувачі заробляють токени GRASS у винагороду за їхній внесок у пропускну здатність та обсяг наданих даних.

b) Маршрутизатори:

Діючи як посередники, маршрутизатори з'єднують вузли Grass з валідаторами. Вони управляють мережею вузлів та ретранслюють пропускну здатність, отримуючи стимули в залежності від загальної перевіреної пропускної здатності, яку вони сприяють.

c) Валідатори:

Валідатори отримують та перевіряють веб-транзакції, передані роутерами. Вони генерують ZK-докази, щоб підтвердити достовірність даних, використовуючи унікальні набори ключів для встановлення безпечних з'єднань TLS та шифрувальних наборів. Хоча Grass наразі використовує централізовані валідатори, є плани щодо переходу до децентралізованого комітету валідаторів.

d) Процесори ZK:

Ці процесори перевіряють докази про сесію вузла та пакують усі докази веб-запитів для подання до рівня даних Solana Layer 1.

e) Реєстр даних Grass (Grass L2):

Хмарний реєстр даних зберігає вичерпні набори даних та посилається на відповідні докази L1 на Solana, що забезпечує прозорість та відстежуваність.

f) Моделі вбудування краю:

Ці моделі перетворюють неструктуровані веб-дані в структуровані набори даних, придатні для навчання штучного інтелекту.

Джерело: Трава

Порівняння: Grass проти OpenLayer

Grass та OpenLayer ділять зобов'язання використовувати розподілені мережі для забезпечення компаніям доступу до відкритих даних Інтернету та перевірених приватних даних. Обидва використовують стимулюючі механізми для сприяння обміну даними та виробництва високоякісних наборів даних, але їх технічні архітектури та бізнес-моделі відрізняються.

Технічна архітектура:

Grass використовує архітектуру Solana Layer 2 Data Rollup з централізованою перевіркою, покладаючись на одного перевіряючого. OpenLayer, як ранній прихильник AVS (Active Validation Service) EigenLayer, використовує децентралізований механізм перевірки з використанням економічних стимулів та штрафів за зменшення. Його модульний дизайн покладає акцент на масштабованість та гнучкість у послугах перевірки даних.

Фокус на продукті:

Обидва проекти дозволяють користувачам заробляти кошти на даних через вузли, але їх бізнес-сценарії відрізняються:

  • Grass використовує модель ринку даних з використанням L2 для зберігання структурованих, високоякісних наборів даних, які можна підтвердити. Ці набори даних призначені для компаній зі штучним інтелектом як ресурси для навчання.
  • OpenLayer зосереджується на перевірці потоку даних в реальному часі (VaaS) замість відведеного сховища даних. Він обслуговує динамічні сценарії, такі як оракули для RWA/DeFi/прогнозних ринків, дані соціальних мереж в реальному часі та застосунки штучного інтелекту, які потребують миттєвих вхідних даних.

Grass переважно націлене на компанії зі штучним інтелектом та дослідників даних, які потребують масштабних структурованих наборів даних, а також дослідницькі установи та підприємства, які потребують веб-орієнтованих даних. OpenLayer задовольняє потреби розробників Web3, які потребують джерел даних поза ланцюжком, компаній зі штучним інтелектом, які потребують потоків даних у реальному часі, які можна перевірити, а також підприємств, які переслідують інноваційні стратегії, такі як перевірка використання конкурентами продукту.

Майбутні змагання та синергії

Хоча обидва проекти наразі займають різні ніші, їх функціональні можливості можуть злитися, коли галузь розвивається:

  • Трава може розширитися, щоб надавати структуровані дані в реальному часі.
  • OpenLayer може розробити спеціальний рівень даних для управління наборами даних.

Обидва проекти також можуть інтегрувати маркування даних як критичний крок для навчання наборів даних. Grass, з його великою мережею більш ніж 2,2 мільйона активних вузлів, може швидко впровадити послуги навчання з підсиленням зворотного зв'язку людини (RLHF), щоб оптимізувати моделі ШІ. OpenLayer, завдяки своєму досвіду в перевірці та обробці даних в реальному часі, може зберігати перевагу в достовірності та якості даних, особливо для приватних наборів даних.

Незважаючи на потенційний перекриття, їхні унікальні сильні сторони та технологічні підходи можуть дозволити їм домінувати в різних нішах у децентралізованій екосистемі даних.

(Джерело: IOSG, Девід)

4.3 Vana: Мережа користувачів Data Pool

Vana - це мережа басейнів даних, орієнтована на користувачів, призначена для надання високоякісних даних для штучного інтелекту та пов'язаних застосувань. Порівняно з OpenLayer та Grass, Vana має відмінний технологічний та бізнес-підхід. У вересні 2024 року Vana забезпечила фінансування в розмірі 5 мільйонів доларів, очолюване Coinbase Ventures, внаслідок раунду серії A на суму 18 мільйонів доларів, в якому Paradigm виступив головним інвестором, з участю Polychain та Casey Caruso.

Започаткована в 2018 році як дослідницький проект МІТ, Vana є блокчейном рівня 1, присвяченим приватним користувацьким даним. Її інновації в володінні даними та розподілі вартості дозволяють користувачам отримувати прибуток від моделей штучного інтелекту, навчених на їх даних. Vana досягає цього за допомогою безпечних, приватних та атрибутних пулів рідинності даних (DLP) та інноваційного механізму доведення внеску, який сприяє потоку та монетизації приватних даних.

4.3.1. Резервуари рідинності даних (DLPs)

Vana представляє унікальну концепцію пулів ліквідності даних (DLPs), які є основою мережі Vana. Кожен DLP є незалежною пір-до-піра мережею, яка агрегує певні типи активів даних. Користувачі можуть завантажувати свої приватні дані, такі як записи покупок, звички перегляду та активність у соціальних мережах, до відведених DLPs і вирішувати, чи авторизувати конкретне використання третіми сторонами.

Дані в цих пулах проходять деідентифікацію, щоб захистити конфіденційність користувачів, залишаючись придатними для використання для комерційних застосувань, таких як навчання моделей штучного інтелекту та дослідження ринку. Користувачі, які вносять дані в DLP, отримують винагороду у вигляді відповідних токенів DLP. Ці токени представляють внесок користувача в пул, надають права на управління та дають право користувачеві на частку майбутнього прибутку.

На відміну від традиційної одноразової продажу даних, Vana дозволяє даним постійно брати участь у економічному циклі, дозволяючи користувачам отримувати постійну винагороду з прозорим, візуалізованим відстеженням використання.

4.3.2. Механізм підтвердження внеску

Механізм Proof of Contribution (PoC) є наріжним каменем підходу Vana до забезпечення якості даних. Кожен DLP може визначити унікальну функцію PoC, адаптовану до його характеристик, перевіряючи достовірність і повноту наданих даних і оцінюючи її внесок у підвищення продуктивності моделі штучного інтелекту. Цей механізм кількісно оцінює внески користувачів, записуючи їх для розподілу винагороди. Подібно до концепції «Proof of Work» у криптовалюті, PoC винагороджує користувачів на основі якості даних, кількості та частоти використання. Смарт-контракти автоматизують цей процес, забезпечуючи справедливу та прозору винагороду вкладникам.

Технічна архітектура Vana

  1. Рівень ліквідності даних:

Цей основний рівень дозволяє внесення, перевірку та запис даних у DLPs, перетворюючи дані в оборотні цифрові активи на ланцюжку. Творці DLP розгортають смарт-контракти для встановлення цілей, методів верифікації та параметрів внеску. Учасники вносять дані для перевірки, а модуль PoC оцінює якість даних та призначає права управління та винагороди.

  1. Рівень переносу даних:

Надаючи послуги як верхній рівень додатків Vana, ця платформа сприяє співпраці між учасниками, що надають дані, та розробниками. Вона надає інфраструктуру для створення розподілених моделей навчання штучного інтелекту та штучних додатків за допомогою ліквідності в DLP.

  1. Коннектом:

Децентралізований реєстр, що лежить в основі екосистеми Vana, Connectome виступає у вигляді картографії потоку даних у реальному часі. Він реєструє всі транзакції даних у реальному часі за допомогою консенсусу на основі Proof of Stake, забезпечуючи ефективний перехід токенів DLP та забезпечуючи доступ до перехресних даних DLP. Повністю сумісний з EVM, він дозволяє взаємодію з іншими мережами, протоколами та додатками DeFi.

(Джерело: Вана)

Vana надає свіжий підхід, фокусуючись на ліквідності та зміцненні користувацьких даних. Ця децентралізована модель обміну даними підтримує не лише навчання штучного інтелекту та ринки даних, але й забезпечує безперешкодний обмін та володіння даними на різних платформах в екосистемі Web3. В кінцевому підсумку, вона сприяє відкритому Інтернету, де користувачі можуть володіти та керувати своїми даними та розумними продуктами, що створені з них.

5. Пропозиція вартості децентралізованих мереж даних

У 2006 році відомий даний вчений Клайв Хамбі відомий заявив: "Дані - нова нафта". Протягом останніх двох десятиліть ми стали свідками швидкого розвитку технологій, які "очищають" цей ресурс, таких як аналітика великих даних та машинне навчання, що розблокували небачену цінність від даних. За даними IDC, до 2025 року глобальна сфера даних розшириться до 163 ЗБ, більшість з яких буде поступати від осіб. Оскільки Інтернет речей, носимі пристрої, штучний інтелект та персоналізовані послуги стають більш поширеними, більшість даних, необхідних для комерційного використання, буде походити від осіб.

Виклики традиційних рішень та Web3-інновацій

Рішення для даних Web3 долають обмеження традиційної інфраструктури, використовуючи розподілені мережі вузлів. Ці мережі забезпечують ширший та ефективніший збір даних, одночасно покращуючи доступність у режимі реального часу та перевірюваність конкретних наборів даних. Технології Web3 забезпечують автентичність і цілісність даних, одночасно захищаючи конфіденційність користувачів, сприяючи більш справедливій моделі використання даних. Ця децентралізована архітектура демократизує доступ до даних і дає користувачам можливість брати участь в економічних перевагах економіки даних.

Як OpenLayer, так і Grass покладаються на моделі користувача-вузла для покращення конкретних процесів збору даних, тоді як Vana монетизує приватні дані користувача. Ці підходи не тільки підвищують ефективність, але й дозволяють звичайним користувачам брати участь у створенні цінності, створеної економікою даних, створюючи виграшну ситуацію для користувачів та розробників.

Через токеноміку, рішення з даних Web3 перепроектовують моделі стимулювання, встановлюючи більш справедливий механізм розподілу вартості. Ці системи привертають значну участь користувачів, апаратні ресурси та капіталовкладення, оптимізуючи роботу всієї мережі даних.

Рішення Web3 пропонують модульність та масштабованість, що дозволяє для технологічних ітерацій та розширення екосистеми. Наприклад: модульний дизайн OpenLayer надає гнучкість для майбутніх вдосконалень; розподілена архітектура Grass оптимізує навчання моделей штучного інтелекту, надаючи різноманітні та високоякісні набори даних.

Від генерації, зберігання та верифікації даних до обміну та аналізу, рішення на основі Web3 усувають недоліки традиційних інфраструктур. Дозволяючи користувачам монетизувати свої дані, ці рішення докорінно змінюють економіку даних.

У міру розвитку технологій і розширення сценаріїв застосування децентралізовані шари даних готові стати наріжним каменем інфраструктури наступного покоління. Вони підтримуватимуть широкий спектр галузей, керованих даними, надаючи користувачам можливість контролювати свої дані та їх економічний потенціал.

Відмова від відповідальності:

  1. Ця стаття передрукована з [IOSG Ventures]. Усі авторські права належать оригінальному автору [IOSG Ventures]. Якщо є заперечення проти цього передруку, будь ласка, зв'яжіться з gate Навчаннякоманди, і вони оперативно вирішать це.
  2. Відповідальність за відмову: Погляди та думки, висловлені в цій статті, є виключно тими автора і не є інвестиційними porадами.
  3. Команда Gate Learn переклала статтю на інші мови. Копіювання, розповсюдження або плагіат перекладених статей заборонені, якщо не зазначено інше.

Децентралізований рівень даних: Нова інфраструктура для ери штучного інтелекту #247

Середній11/26/2024, 4:28:16 AM
Ми раніше обговорювали, як штучний інтелект та Web3 можуть доповнювати один одного у вертикальних галузях, таких як обчислювальні мережі, посередницькі платформи та споживчі застосування. Коли ми зосереджуємося на ресурсах даних як на вертикальному полі, нові веб-проекти відкривають нові можливості для отримання, обміну та використання даних.

TL/DR

Ми раніше обговорювали, як штучний інтелект та Web3 можуть доповнювати один одного у вертикальних галузях, таких як обчислювальні мережі, посередницькі платформи та споживчі застосунки. Коли ми зосереджуємося на ресурсах даних як на вертикальному полі, нові Web-проекти відкривають нові можливості для отримання, обміну та використання даних.

  • Традиційні постачальники даних мають проблеми з відповіданням вимогам щодо високоякісних, реального часу та перевірених даних в галузі штучного інтелекту та інших галузей, що працюють на основі даних, особливо щодо прозорості, контролю користувачів та захисту конфіденційності.
  • Web3-рішення змінюють екосистему даних. Такі технології, як MPC (Multi-Party Computation), докази з нульовим розголошенням і TLS Notary, забезпечують автентичність і конфіденційність даних під час потоку між кількома джерелами, тоді як розподілене сховище та периферійні обчислення пропонують вищу гнучкість та ефективність обробки даних у режимі реального часу.
  • Децентралізовані мережі даних як зароджується інфраструктура породила кілька представницьких проектів, таких як OpenLayer (модульний реальний рівень даних), Grass (використання невикористовуваної пропускної здатності користувача та децентралізованих мереж вузлів-павуків) та Vana (мережа рівня 1 з суверенітетом користувача), які відкривають нові перспективи для таких галузей, як навчання та застосування ШІ шляхом застосування різних технологічних шляхів.
  • Завдяки використанню масштабованого потенціалу спільноти, безпечних шарів абстракції та механізмів стимулювання на основі токенів, децентралізована інфраструктура даних може забезпечити більш приватні, безпечні, ефективні та вигідні рішення порівняно з веб-гігантами Web2. Вона також надає користувачам контроль над їхніми даними та пов'язаними ресурсами, будуючи більш відкриту, безпечну та взаємопов'язану цифрову екосистему.

1. Різке збільшення попиту на дані

Дані стали ключовим рушієм інновацій та прийняття рішень у різних галузях. UBS прогнозує, що з 2020 по 2030 рік глобальний обсяг даних зросте в десять разів, досягнувши 660 ZB. Очікується, що до 2025 року кожна людина в усьому світі генеруватиме 463 ЕБ (ексабайти, 1 ЕБ = 1 мільярд ГБ) даних щодня. Ринок Data-as-a-Service (DaaS) стрімко розширюється. За даними Grand View Research, у 2023 році світовий ринок DaaS оцінювався в $14,36 млрд і, як очікується, зростатиме із сукупним річним темпом зростання (CAGR) 28,1%, досягнувши $76,8 млрд до 2030 року.

Навчання моделей штучного інтелекту надзвичайно залежить від великих наборів даних для виявлення патернів та налаштування параметрів. Після навчання також необхідні набори даних для перевірки продуктивності та загальних можливостей моделей. Крім того, штучним інтелектом, як новим формам інтелектуальних додатків, потрібні джерела даних в реальному часі, які будуть надійними для забезпечення точного прийняття рішень та виконання завдань.

(Джерело: Leewayhertz)

Попит на бізнес-аналітику також стає все більш різноманітним і поширеним, слугуючи основним інструментом, що стимулює корпоративні інновації. Наприклад, платформам соціальних мереж і фірмам, що займаються дослідженням ринку, потрібні надійні дані про поведінку користувачів для формулювання стратегій та аналізу тенденцій, інтегруючи різноманітні дані з кількох соціальних платформ для створення більш повної картини.

Для екосистеми Web3 також потрібні надійні та автентичні дані on-chain для підтримки нових фінансових продуктів. При токенізації все більше інноваційних активів, для підтримки розробки продуктів та управління ризиками потрібні гнучкі та надійні інтерфейси даних, що дозволяють виконувати розумні контракти на основі перевірених реальних даних у реальному часі.

Крім того, використання в наукових дослідженнях, Інтернеті речей та інших галузях підкреслює стрімкий попит на різноманітні, аутентичні та в реальному часі дані. Традиційні системи можуть мати проблеми з впораннямся з швидко зростаючим обсягом даних та постійно змінюючимися вимогами.

2. Обмеження та виклики традиційних даних екосистем

Типова екосистема даних включає збір, зберігання, обробку, аналіз та застосування даних. Централізовані моделі характеризуються централізованим збором і зберіганням даних, керованими основною ІТ-командою з суворим контролем доступу. Наприклад, екосистема даних Google охоплює різні джерела даних, такі як пошукові системи, Gmail та операційна система Android. Ці платформи збирають дані користувачів, зберігають їх у глобально розподілених центрах обробки даних і обробляють за допомогою алгоритмів для підтримки розробки та оптимізації різних продуктів і послуг.

На фінансових ринках LSEG (раніше Refinitiv) збирає історичні дані в режимі реального часу від світових бірж, банків та великих фінансових установ, використовуючи власну мережу Reuters News для збору новин, пов'язаних з ринком. Вони обробляють цю інформацію за допомогою власних алгоритмів і моделей для створення продуктів аналізу та оцінки ризиків як послуг з доданою вартістю.

(Джерело: kdnuggets.com)

Хоча традиційна архітектура даних ефективна в професійних послугах, обмеження централізованих моделей стають все більш очевидними, особливо в охопленні нових джерел даних, прозорості та захисту конфіденційності користувачів. Нижче наведено деякі ключові питання:

  • Недостатнє охоплення даних: Традиційні постачальники даних мають проблеми з захопленням та аналізом нових джерел даних, таких як настрій соціальних медіа та дані пристроїв Інтернету речей, швидко. Централізовані системи зустрічають труднощі у ефективному здобутті та інтеграції "довгого хвоста" даних з численних невеликих або неосновних джерел.

Наприклад, подія GameStop 2021 року показала обмеження традиційних постачальників фінансових даних у аналізі соціального настрою в медіа. Настрій інвесторів на платформах, таких як Reddit, швидко впливав на ринкові тенденції, але термінали даних, такі як Bloomberg і Reuters, не встигли зафіксувати ці динаміку вчасно, що призвело до затриманих прогнозів ринку.

  • Обмежений доступ до даних: Монополія обмежує доступ. Багато традиційних постачальників відкривають частини своїх даних через API/хмарові сервіси, але високі плати за доступ та складні процеси авторизації ускладнюють інтеграцію даних. Розробники on-chain мають труднощі у швидкому доступі до надійних off-chain даних, які монополізуються декількома гігантами за високу ціну.
  • Проблеми прозорості та достовірності даних: Багато централізованих постачальників даних не мають прозорості у своїх методах збору та обробки даних. Також не вистачає ефективних механізмів для перевірки автентичності та повноти великомасштабних даних. Перевірка реальних даних в режимі реального часу на великій шкалі залишається складною, а централізований характер збільшує ризик порушення або маніпулювання даними.
  • Захист конфіденційності та власності даних: Великі технологічні компанії широко комерціалізували дані користувачів. Користувачі, як творці особистих даних, рідко отримують від них належну вартість. Вони часто не можуть зрозуміти, як їх дані збираються, обробляються або використовуються, а також не можуть визначити обсяг та спосіб їхнього використання. Перевищення обсягу збору та зловживання також призводять до серйозних ризиків для конфіденційності. Наприклад, скандал з Cambridge Analytica у Facebook розкрив значні недоліки у прозорості та захисті конфіденційності в традиційних екосистемах даних.
  • Розрізненість даних: Дані в режимі реального часу з різних джерел і форматів складно швидко інтегрувати, що перешкоджає всебічному аналізу. Значна частина цих даних залишається заблокованою в організаціях, обмежуючи міжгалузевий та міжорганізаційний обмін та інновації. Цей ефект «розрізненості даних» перешкоджає інтеграції та аналізу міждоменних даних. Наприклад, у споживчій індустрії брендам необхідно інтегрувати дані з платформ електронної комерції, фізичних магазинів, соціальних мереж та маркетингових досліджень, але ці набори даних можуть бути ізольовані через невідповідність платформи або сегрегацію. Аналогічним чином, компанії, що займаються спільними поїздками, такі як Uber і Lyft, збирають великі обсяги даних у режимі реального часу про трафік, попит пасажирів і географічне розташування, але динаміка конкуренції не дозволяє ділитися цими наборами даних або інтегрувати їх.

Поза цими проблемами, традиційні постачальники даних стикаються з проблемами, пов'язаними з ефективністю витрат та гнучкістю. Хоча вони активно вирішують ці проблеми, нові перспективи та можливості надають емерджингові технології Web3, щоб з ними впоратися.

3. Екосистема даних Web3

З моменту запуску децентралізованих засобів зберігання, таких як IPFS (InterPlanetary File System) у 2014 році, з'явилось безліч нових проектів, які мають на меті вирішити обмеження традиційних екосистем даних. Децентралізовані рішення щодо даних перетворилися на багаторівневу, взаємопов'язану екосистему, яка охоплює всі етапи життєвого циклу даних, включаючи генерацію, зберігання, обмін, обробку і аналіз даних, їх підтвердження та безпеку, а також приватність і власність.

  • Зберігання даних: Швидкий розвиток Filecoin та Arweave свідчить про те, що децентралізоване зберігання (DCS) стає парадигмальним зрушенням у галузі зберігання. DCS зменшує одинокі точки відмов за рахунок розподіленої архітектури, привертаючи учасників завдяки конкурентоспроможності вартості. Зі з'явом масштабних застосувань, вмістимість DCS зберігання зростає експоненційно (наприклад, загальна мережева вмістимість Filecoin досягла 22 екзабайтів до 2024 року).
  • Обробка та аналіз: Децентралізовані платформи обчислень даних, такі як Fluence, покращують продуктивність і ефективність обробки даних у реальному часі за допомогою периферійних обчислень, особливо для сценаріїв застосування в реальному часі, таких як IoT та висновок штучного інтелекту. Проєкти Web3 використовують такі технології, як федеративне навчання, диференціальна конфіденційність, довірені середовища виконання та повністю гомоморфне шифрування, щоб забезпечити гнучкий захист конфіденційності на обчислювальному рівні.
  • Ринки даних/Платформи обміну: Щоб сприяти оцінці та циркуляції даних, Ocean Protocol використовує токенізацію та механізми DEX для створення ефективних та відкритих каналів обміну даними. Наприклад, він співпрацює з Daimler (материнська компанія Mercedes-Benz) для розвитку ринків обміну даними для управління ланцюгом постачання. З іншого боку, Streamr розробив бездозвільну мережу підписки на дані, призначену для сценаріїв Інтернету речей та аналітики в реальному часі, що показує винятковий потенціал у проектах транспорту та логістики (наприклад, співпрацюючи зі смарт-міським проектом Фінляндії).

При збільшенні обміну та використання даних забезпечення автентичності, вірогідності та конфіденційності стає критичним. Це підштовхує екосистему Web3 до інновацій у верифікації даних та захисту конфіденційності, що призводить до революційних рішень.

3.1 Інновації в перевірці даних та захисті конфіденційності

Багато технологій Web3 та власних проектів спрямовані на вирішення питань автентичності даних та захисту конфіденційності. Поза широким поширенням технологій, таких як докази відсутності знань (ZK) та багатосторонні обчислення (MPC), TLS Notary виросло як важливий новий метод верифікації.

Вступ до TLS Notary

Протокол безпеки транспортного рівня (TLS) - це широко використовуваний протокол шифрування для мережевих комунікацій. Його основна мета - забезпечити безпеку, цілісність та конфіденційність передачі даних між клієнтом та сервером. TLS - це загальний стандарт шифрування в сучасних мережевих комунікаціях, застосовується у таких сценаріях, як HTTPS, електронна пошта і миттєві повідомлення.

(Принципи шифрування TLS, Джерело: TechTarget)

Коли TLS Notary було вперше введено десять років тому, його метою було перевірити автентичність сеансів TLS, введенням стороннього "нотаріуса" поза клієнтом (доводчиком) та сервером.

Використовуючи технологію розділення ключів, майстер-ключ сеансу TLS ділиться на дві частини, які зберігаються окремо клієнтом і нотаріусом. Така конструкція дозволяє нотаріусу брати участь як довірена третя сторона в процесі перевірки без доступу до фактичного змісту комунікації. Цей механізм спрямований на виявлення атак типу "людина посередині", запобігання підробленню сертифікатів і забезпечення того, щоб дані зв'язку не були підроблені під час передачі. Це також дозволяє довіреним третім сторонам підтверджувати легітимність комунікацій, захищаючи конфіденційність.

Отже, TLS Notary пропонує безпечну перевірку даних та ефективно забезпечує баланс потреб у верифікації та захисту приватності.

У 2022 році проєкт TLS Notary був реструктуризований дослідницькою лабораторією Privacy and Scaling Exploration (PSE) Ethereum Foundation. Нова версія протоколу TLS Notary була переписана з нуля на мові програмування Rust та інтегрована з більш просунутими криптографічними протоколами, такими як MPC. Ці оновлення дозволяють користувачам доводити достовірність даних, отриманих із сервера, третій стороні, не розкриваючи їх вміст. Зберігаючи свої основні можливості перевірки, новий нотаріус TLS значно покращує захист конфіденційності, роблячи його більш придатним для поточних і майбутніх вимог до конфіденційності даних.

3.2 Варіанти та Розширення TLS Notary

Останнім часом технологія TLS Notary продовжує розвиватися, що призводить до появи різноманітних похідних, які подальше підвищують її приватність та можливості перевірки:

  • zkTLS: Приватизована версія TLS Notary, яка інтегрує технологію ZKP, дозволяючи користувачам генерувати криптографічні докази даних веб-сторінки без викриття будь-якої чутливої інформації. Особливо підходить для сценаріїв зв'язку, які потребують високого захисту конфіденційності.
  • 3P-TLS (Three-Party TLS): Цей протокол представляє три сторони – клієнта, сервера та аудитора, що дозволяє аудитору перевіряти безпеку комунікацій без розголошення вмісту. Цей протокол корисний у сценаріях, які вимагають як прозорості, так і конфіденційності, таких як аудит відповідності або перевірка фінансових транзакцій.

Проекти Web3 використовують ці криптографічні технології для підвищення перевірки даних та захисту конфіденційності, борючись з проблемами, такими як монополія на дані, силося, та довірена передача. Користувачі можуть безпечно підтвердити власність соціальних медіа-акаунтів, записи покупок для фінансових кредитів, кредитну історію банків, професійний досвід та академічні кваліфікації, не порушуючи свою конфіденційність. Приклади включають:

  • Протокол Reclaim: Використовує zkTLS для генерації нуль-знання доказів HTTPS-трафіку, що дозволяє користувачам безпечно імпортувати дані про активність, репутацію та ідентифікацію з зовнішніх веб-сайтів, не розкриваючи конфіденційну інформацію.
  • zkPass: Об'єднує технології 3P-TLS для забезпечення можливості перевірки приватних даних реального світу з використанням захищеного з'єднання, застосуванням в KYC та кредитних сервісах. Також сумісний з мережею HTTPS.
  • Мережа непрозорості: Побудована на zkTLS, вона дозволяє користувачам безпечно доводити свою активність на платформах, таких як Uber, Spotify та Netflix, без прямого доступу до API цих платформ, що дозволяє підтвердження активності між платформами.

(Проекти, що працюють над оракулами TLS, джерело: Бастіан Ветцель)

Перевірка даних у Web3 є важливим елементом екосистеми даних з великими перспективами застосування. Розвиток цієї екосистеми керує цифровою економікою в більш відкриту, динамічну та користувацькоорієнтовану модель. Однак розробка технологій перевірки автентичності є лише початком будування інфраструктури наступного покоління даних.

4. Децентралізовані мережі даних

Деякі проекти поєднали вищезазначені технології перевірки даних з подальшим дослідженням даних у верхній екосистемі, таких як відстежування даних, розподілений збір даних та надійна передача. Нижче ми наводимо приклади трьох представницьких проектів - OpenLayer, Grass та Vana - які демонструють унікальний потенціал у створенні інфраструктури наступного покоління даних.

4.1 OpenLayer

OpenLayer, один з проектів у рамках прискорювача стартапів a16z Crypto 2024 весна, є першим модульним автентичним рівнем даних. Він має на меті надати інноваційне модульне рішення для координації збору, перевірки та перетворення даних, задовольняючи потреби як компаній Web2, так і Web3. OpenLayer отримав підтримку від відомих фондів і ангельських інвесторів, зокрема Geometry Ventures і LongHash Ventures.

Традиційні рівні даних стикаються з кількома викликами: відсутність надійних механізмів перевірки, залежність від централізованих архітектур, які обмежують доступність, відсутність взаємодії та потоку між різними системами, а також відсутність механізмів справедливого розподілу вартості даних.

Більш конкретною проблемою є зростаючий дефіцит навчальних даних для ШІ. У загальнодоступному Інтернеті багато веб-сайтів зараз застосовують заходи боротьби зі скрейпінгом, щоб запобігти великомасштабному скрейпінгу даних компаніями зі штучним інтелектом. У приватних пропрієтарних даних ситуація ще складніша. Цінні дані часто зберігаються в захищений від конфіденційності спосіб через їх конфіденційний характер і відсутність ефективних механізмів стимулювання. Користувачі не можуть безпечно монетизувати свої особисті дані і тому неохоче діляться конфіденційною інформацією.

Для вирішення цих проблем OpenLayer поєднує технології перевірки даних для побудови Модульного аутентифікаційного рівня даних. Шляхом децентралізації та економічних стимулів він координує процеси збору, перевірки та трансформації даних, надаючи безпечну, ефективну та гнучку інфраструктуру даних для компаній Web2 та Web3.

4.1.1 Основні компоненти модульного дизайну OpenLayer

OpenLayer надає модульну платформу, яка спрощує збір даних, надійну верифікацію та процеси трансформації.

a) OpenNodes

OpenNodes - це основні компоненти, відповідальні за децентралізовану збір даних в екосистемі OpenLayer. За допомогою мобільних додатків, розширень для браузерів та інших каналів користувачі можуть збирати дані. Різні оператори/вузли можуть оптимізувати свою винагороду, виконуючи завдання, найбільш підходящі для їх апаратних характеристик.

OpenNodes підтримують три основних типи даних:

  • Доступні в Інтернеті дані (наприклад, фінансові, погодні, спортивні та дані з соціальних мереж)
  • Приватні дані користувача (наприклад, історія перегляду Netflix, записи замовлень Amazon)
  • Дані, зібрані від вірних джерел (наприклад, дані, перевірені власниками або конкретними довіреними апаратними засобами).

Розробники можуть легко додавати нові типи даних, вказувати джерела даних і визначати вимоги та методи отримання. Користувачі можуть надавати анонімізовані дані в обмін на винагороди. Цей дизайн дозволяє системі постійно розширюватися, щоб задовольнити нові потреби в даних. Різноманітні джерела даних роблять OpenLayer підходящим для різних сценаріїв застосування та знижують поріг надання даних.

b) OpenValidators

OpenValidators обробляють перевірку зібраних даних, дозволяючи споживачам даних підтвердити точність даних, наданих користувачем, порівняно з їх джерелом. Методи перевірки використовують криптографічні докази, а результати можуть бути перевірені відсторонено. Кілька провайдерів можуть надавати послуги перевірки для одного типу доказу, що дозволяє розробникам вибрати найбільш підходящого провайдера для своїх потреб.

У початкових випадках, особливо для публічних чи приватних даних з інтернет-інтерфейсів, OpenLayer використовує TLS Notary як рішення для верифікації. Він експортує дані з будь-якої веб-додатки та перевіряє їх автентичність, не компрометуючи конфіденційність.

Поза TLS Notary, завдяки його модульному дизайну, система верифікації може легко інтегрувати інші методи для відповідності різноманітним потребам у даних та верифікації, включаючи:

  1. Сертифіковані з'єднання TLS: Використання надійних середовищ виконання (TEEs) для встановлення сертифікованих з'єднань TLS, забезпечуючи цілісність даних та автентичність під час передачі.
  2. Безпечні оболонки: Використання оболонок безпеки на рівні апаратного забезпечення (наприклад, Intel SGX) для обробки та перевірки чутливих даних, що надає більш високий рівень захисту даних.
  3. Генератори доказів ZK: Інтеграція доказів нульового знання для перевірки атрибутів даних або результатів обчислень без розкриття підлягаючих даних.

c) OpenConnect

OpenConnect - модуль, відповідальний за перетворення та використання даних в екосистемі OpenLayer. Він обробляє дані з різних джерел, забезпечуючи взаємодію між різними системами для задоволення різноманітних вимог застосування. Наприклад:

  • Перетворення даних в формат Oracle on-chain для безпосереднього використання у смарт-контрактах.
  • Підготовка неструктурованих сирових даних в структуровані дані для навчання штучного інтелекту.

Забезпечення анонімізації даних, яка зберігає конфіденційність особистих облікових записів користувачів, підвищення безпеки під час обміну даними для зменшення витоків та зловживань.

Для задоволення вимог до реального часу даних для застосувань штучного інтелекту та блокчейну OpenConnect підтримує ефективне перетворення даних у реальному часі.

Наразі, завдяки інтеграції з EigenLayer, оператори OpenLayer AVS (Active Validation Service) відстежують завдання запиту даних, збирають дані, перевіряють їх і повертають результати в систему. Оператори ставлять або переставляють активи на EigenLayer, щоб забезпечити економічні гарантії для своїх дій. Зловживання веде до зниження активів. Як один з перших проектів AVS на основній мережі EigenLayer, OpenLayer залучив понад 50 операторів та $4 мільярди активів, які були переставлені.

4.2 Трава

Grass, флагманський проект, розроблений компанією Wynd Network, призначений для створення децентралізованої мережі краулерів та платформи для навчання штучного інтелекту на основі даних. До кінця 2023 року Grass завершив раунд збору $3,5 мільйонів у формі насіннєвого фінансування, який очолили Polychain Capital і Tribe Capital. У вересні 2024 року він отримав фінансування серії A на суму $5 мільйонів, очолене HackVC та додатковою участю Polychain, Delphi, Lattice та Brevan Howard.

Оскільки навчання штучного інтелекту все більше ґрунтується на різноманітних та обширних джерелах даних, Grass вирішує цю потребу, створюючи розподілену мережу вузлів веб-павука. Ця мережа використовує децентралізовану фізичну інфраструктуру та вільну пропускну здатність користувачів для збору та надання перевірених наборів даних для навчання штучного інтелекту. Вузли маршрутизують веб-запити через Інтернет-з'єднання користувачів, отримуючи доступ до загальнодоступних веб-сайтів та компілюючи структуровані набори даних. Початкове очищення та форматування даних виконується за допомогою технології розподіленого обчислення на межі мережі, забезпечуючи високоякісний результат.

Grass використовує архітектуру Solana Layer 2 Data Rollup для підвищення ефективності обробки. Валідатори отримують, перевіряють та пакетно обробляють веб-транзакції від вузлів, генеруючи докази Zero-Knowledge (ZK) для підтвердження автентичності даних. Перевірені дані зберігаються на Grass Data Ledger (L2), а відповідні докази пов'язані з блокчейном Solana L1.

4.2.1 Ключові компоненти трави

a) Вузли трави:

Користувачі встановлюють додаток Grass або розширення для браузера, що дозволяє використовувати їхню неактивну пропускну здатність для розподіленого пошуку веб-сторінок. Вузли маршрутизують запити веб-сторінок, отримують доступ до загальнодоступних веб-сайтів та компілюють структуровані набори даних. Використовуючи розподілене обчислення, вони виконують початкове очищення та форматування даних. Користувачі заробляють токени GRASS у винагороду за їхній внесок у пропускну здатність та обсяг наданих даних.

b) Маршрутизатори:

Діючи як посередники, маршрутизатори з'єднують вузли Grass з валідаторами. Вони управляють мережею вузлів та ретранслюють пропускну здатність, отримуючи стимули в залежності від загальної перевіреної пропускної здатності, яку вони сприяють.

c) Валідатори:

Валідатори отримують та перевіряють веб-транзакції, передані роутерами. Вони генерують ZK-докази, щоб підтвердити достовірність даних, використовуючи унікальні набори ключів для встановлення безпечних з'єднань TLS та шифрувальних наборів. Хоча Grass наразі використовує централізовані валідатори, є плани щодо переходу до децентралізованого комітету валідаторів.

d) Процесори ZK:

Ці процесори перевіряють докази про сесію вузла та пакують усі докази веб-запитів для подання до рівня даних Solana Layer 1.

e) Реєстр даних Grass (Grass L2):

Хмарний реєстр даних зберігає вичерпні набори даних та посилається на відповідні докази L1 на Solana, що забезпечує прозорість та відстежуваність.

f) Моделі вбудування краю:

Ці моделі перетворюють неструктуровані веб-дані в структуровані набори даних, придатні для навчання штучного інтелекту.

Джерело: Трава

Порівняння: Grass проти OpenLayer

Grass та OpenLayer ділять зобов'язання використовувати розподілені мережі для забезпечення компаніям доступу до відкритих даних Інтернету та перевірених приватних даних. Обидва використовують стимулюючі механізми для сприяння обміну даними та виробництва високоякісних наборів даних, але їх технічні архітектури та бізнес-моделі відрізняються.

Технічна архітектура:

Grass використовує архітектуру Solana Layer 2 Data Rollup з централізованою перевіркою, покладаючись на одного перевіряючого. OpenLayer, як ранній прихильник AVS (Active Validation Service) EigenLayer, використовує децентралізований механізм перевірки з використанням економічних стимулів та штрафів за зменшення. Його модульний дизайн покладає акцент на масштабованість та гнучкість у послугах перевірки даних.

Фокус на продукті:

Обидва проекти дозволяють користувачам заробляти кошти на даних через вузли, але їх бізнес-сценарії відрізняються:

  • Grass використовує модель ринку даних з використанням L2 для зберігання структурованих, високоякісних наборів даних, які можна підтвердити. Ці набори даних призначені для компаній зі штучним інтелектом як ресурси для навчання.
  • OpenLayer зосереджується на перевірці потоку даних в реальному часі (VaaS) замість відведеного сховища даних. Він обслуговує динамічні сценарії, такі як оракули для RWA/DeFi/прогнозних ринків, дані соціальних мереж в реальному часі та застосунки штучного інтелекту, які потребують миттєвих вхідних даних.

Grass переважно націлене на компанії зі штучним інтелектом та дослідників даних, які потребують масштабних структурованих наборів даних, а також дослідницькі установи та підприємства, які потребують веб-орієнтованих даних. OpenLayer задовольняє потреби розробників Web3, які потребують джерел даних поза ланцюжком, компаній зі штучним інтелектом, які потребують потоків даних у реальному часі, які можна перевірити, а також підприємств, які переслідують інноваційні стратегії, такі як перевірка використання конкурентами продукту.

Майбутні змагання та синергії

Хоча обидва проекти наразі займають різні ніші, їх функціональні можливості можуть злитися, коли галузь розвивається:

  • Трава може розширитися, щоб надавати структуровані дані в реальному часі.
  • OpenLayer може розробити спеціальний рівень даних для управління наборами даних.

Обидва проекти також можуть інтегрувати маркування даних як критичний крок для навчання наборів даних. Grass, з його великою мережею більш ніж 2,2 мільйона активних вузлів, може швидко впровадити послуги навчання з підсиленням зворотного зв'язку людини (RLHF), щоб оптимізувати моделі ШІ. OpenLayer, завдяки своєму досвіду в перевірці та обробці даних в реальному часі, може зберігати перевагу в достовірності та якості даних, особливо для приватних наборів даних.

Незважаючи на потенційний перекриття, їхні унікальні сильні сторони та технологічні підходи можуть дозволити їм домінувати в різних нішах у децентралізованій екосистемі даних.

(Джерело: IOSG, Девід)

4.3 Vana: Мережа користувачів Data Pool

Vana - це мережа басейнів даних, орієнтована на користувачів, призначена для надання високоякісних даних для штучного інтелекту та пов'язаних застосувань. Порівняно з OpenLayer та Grass, Vana має відмінний технологічний та бізнес-підхід. У вересні 2024 року Vana забезпечила фінансування в розмірі 5 мільйонів доларів, очолюване Coinbase Ventures, внаслідок раунду серії A на суму 18 мільйонів доларів, в якому Paradigm виступив головним інвестором, з участю Polychain та Casey Caruso.

Започаткована в 2018 році як дослідницький проект МІТ, Vana є блокчейном рівня 1, присвяченим приватним користувацьким даним. Її інновації в володінні даними та розподілі вартості дозволяють користувачам отримувати прибуток від моделей штучного інтелекту, навчених на їх даних. Vana досягає цього за допомогою безпечних, приватних та атрибутних пулів рідинності даних (DLP) та інноваційного механізму доведення внеску, який сприяє потоку та монетизації приватних даних.

4.3.1. Резервуари рідинності даних (DLPs)

Vana представляє унікальну концепцію пулів ліквідності даних (DLPs), які є основою мережі Vana. Кожен DLP є незалежною пір-до-піра мережею, яка агрегує певні типи активів даних. Користувачі можуть завантажувати свої приватні дані, такі як записи покупок, звички перегляду та активність у соціальних мережах, до відведених DLPs і вирішувати, чи авторизувати конкретне використання третіми сторонами.

Дані в цих пулах проходять деідентифікацію, щоб захистити конфіденційність користувачів, залишаючись придатними для використання для комерційних застосувань, таких як навчання моделей штучного інтелекту та дослідження ринку. Користувачі, які вносять дані в DLP, отримують винагороду у вигляді відповідних токенів DLP. Ці токени представляють внесок користувача в пул, надають права на управління та дають право користувачеві на частку майбутнього прибутку.

На відміну від традиційної одноразової продажу даних, Vana дозволяє даним постійно брати участь у економічному циклі, дозволяючи користувачам отримувати постійну винагороду з прозорим, візуалізованим відстеженням використання.

4.3.2. Механізм підтвердження внеску

Механізм Proof of Contribution (PoC) є наріжним каменем підходу Vana до забезпечення якості даних. Кожен DLP може визначити унікальну функцію PoC, адаптовану до його характеристик, перевіряючи достовірність і повноту наданих даних і оцінюючи її внесок у підвищення продуктивності моделі штучного інтелекту. Цей механізм кількісно оцінює внески користувачів, записуючи їх для розподілу винагороди. Подібно до концепції «Proof of Work» у криптовалюті, PoC винагороджує користувачів на основі якості даних, кількості та частоти використання. Смарт-контракти автоматизують цей процес, забезпечуючи справедливу та прозору винагороду вкладникам.

Технічна архітектура Vana

  1. Рівень ліквідності даних:

Цей основний рівень дозволяє внесення, перевірку та запис даних у DLPs, перетворюючи дані в оборотні цифрові активи на ланцюжку. Творці DLP розгортають смарт-контракти для встановлення цілей, методів верифікації та параметрів внеску. Учасники вносять дані для перевірки, а модуль PoC оцінює якість даних та призначає права управління та винагороди.

  1. Рівень переносу даних:

Надаючи послуги як верхній рівень додатків Vana, ця платформа сприяє співпраці між учасниками, що надають дані, та розробниками. Вона надає інфраструктуру для створення розподілених моделей навчання штучного інтелекту та штучних додатків за допомогою ліквідності в DLP.

  1. Коннектом:

Децентралізований реєстр, що лежить в основі екосистеми Vana, Connectome виступає у вигляді картографії потоку даних у реальному часі. Він реєструє всі транзакції даних у реальному часі за допомогою консенсусу на основі Proof of Stake, забезпечуючи ефективний перехід токенів DLP та забезпечуючи доступ до перехресних даних DLP. Повністю сумісний з EVM, він дозволяє взаємодію з іншими мережами, протоколами та додатками DeFi.

(Джерело: Вана)

Vana надає свіжий підхід, фокусуючись на ліквідності та зміцненні користувацьких даних. Ця децентралізована модель обміну даними підтримує не лише навчання штучного інтелекту та ринки даних, але й забезпечує безперешкодний обмін та володіння даними на різних платформах в екосистемі Web3. В кінцевому підсумку, вона сприяє відкритому Інтернету, де користувачі можуть володіти та керувати своїми даними та розумними продуктами, що створені з них.

5. Пропозиція вартості децентралізованих мереж даних

У 2006 році відомий даний вчений Клайв Хамбі відомий заявив: "Дані - нова нафта". Протягом останніх двох десятиліть ми стали свідками швидкого розвитку технологій, які "очищають" цей ресурс, таких як аналітика великих даних та машинне навчання, що розблокували небачену цінність від даних. За даними IDC, до 2025 року глобальна сфера даних розшириться до 163 ЗБ, більшість з яких буде поступати від осіб. Оскільки Інтернет речей, носимі пристрої, штучний інтелект та персоналізовані послуги стають більш поширеними, більшість даних, необхідних для комерційного використання, буде походити від осіб.

Виклики традиційних рішень та Web3-інновацій

Рішення для даних Web3 долають обмеження традиційної інфраструктури, використовуючи розподілені мережі вузлів. Ці мережі забезпечують ширший та ефективніший збір даних, одночасно покращуючи доступність у режимі реального часу та перевірюваність конкретних наборів даних. Технології Web3 забезпечують автентичність і цілісність даних, одночасно захищаючи конфіденційність користувачів, сприяючи більш справедливій моделі використання даних. Ця децентралізована архітектура демократизує доступ до даних і дає користувачам можливість брати участь в економічних перевагах економіки даних.

Як OpenLayer, так і Grass покладаються на моделі користувача-вузла для покращення конкретних процесів збору даних, тоді як Vana монетизує приватні дані користувача. Ці підходи не тільки підвищують ефективність, але й дозволяють звичайним користувачам брати участь у створенні цінності, створеної економікою даних, створюючи виграшну ситуацію для користувачів та розробників.

Через токеноміку, рішення з даних Web3 перепроектовують моделі стимулювання, встановлюючи більш справедливий механізм розподілу вартості. Ці системи привертають значну участь користувачів, апаратні ресурси та капіталовкладення, оптимізуючи роботу всієї мережі даних.

Рішення Web3 пропонують модульність та масштабованість, що дозволяє для технологічних ітерацій та розширення екосистеми. Наприклад: модульний дизайн OpenLayer надає гнучкість для майбутніх вдосконалень; розподілена архітектура Grass оптимізує навчання моделей штучного інтелекту, надаючи різноманітні та високоякісні набори даних.

Від генерації, зберігання та верифікації даних до обміну та аналізу, рішення на основі Web3 усувають недоліки традиційних інфраструктур. Дозволяючи користувачам монетизувати свої дані, ці рішення докорінно змінюють економіку даних.

У міру розвитку технологій і розширення сценаріїв застосування децентралізовані шари даних готові стати наріжним каменем інфраструктури наступного покоління. Вони підтримуватимуть широкий спектр галузей, керованих даними, надаючи користувачам можливість контролювати свої дані та їх економічний потенціал.

Відмова від відповідальності:

  1. Ця стаття передрукована з [IOSG Ventures]. Усі авторські права належать оригінальному автору [IOSG Ventures]. Якщо є заперечення проти цього передруку, будь ласка, зв'яжіться з gate Навчаннякоманди, і вони оперативно вирішать це.
  2. Відповідальність за відмову: Погляди та думки, висловлені в цій статті, є виключно тими автора і не є інвестиційними porадами.
  3. Команда Gate Learn переклала статтю на інші мови. Копіювання, розповсюдження або плагіат перекладених статей заборонені, якщо не зазначено інше.
Comece agora
Registe-se e ganhe um cupão de
100 USD
!