元のタイトルを転送する:Mira:信頼できる検証済みAI
幻覚:何かが存在しないように見える経験。
Andrej KarpathyはAIを「夢の機械」と呼んでいます。彼は、AIが自信を持って非現実的なものを生成する瞬間、つまり幻覚をバグではなく特徴と考えています。それらを完全に排除しようとすることは無駄です。そして正直なところ、それには何か詩的なものがあります。
大規模言語モデル(LLM)はアーティストであり、創造者です。それはコードで夢を見て、空気からアイデアを生み出し、データから意味を作り出します。しかし、AIが美しい夢から実用的な日常のアプリケーションに移行するためには、それらの幻想を抑える必要があります。
LLMのエラーレートは、多くのタスクで高い水準を維持しています-しばしば30%程度です。そのレベルでは、LLMはまだ人間の介在を必要としており、使用可能な精度の基準に達するためには人間の手を借りる必要があります。
しかし、私たちが99.x%の正確さに達すると、出力が人の監視なしに信頼できるようになると、魔法が起こります。 それがAIが人間レベルの信頼性を達成し、以前手の届かなかった無限のユースケースを開くしきい値です。
しかし、そのレベルの精度に到達することは容易ではありません。それには、執拗なエンジニアリングの努力とイノベーションが求められます。
物語 @Mira_Networkここから始まります。しかし、私たちが飛び込む前に、LLM開発について話しましょう。そして、なぜ検証がAIにおいて次のビッグなことになっているのかについて考えてみましょう。
LLM開発は、過去50年以上にわたり磨き上げてきた従来のソフトウェア開発プラクティスとは異なる、ディープラーニングの旅の最新のイテレーションです。約3年しか存在していないLLMは、決定論的な考え方(XならばY)から確率的な推論(Xならば...おそらくY?)に完全にスクリプトを変えます。
つまり、AI主導の世界のインフラには、まったく新しいツールとワークフローのセットが必要です。しかし、これらのツールの多くは、LLMを作成した研究所内に閉じ込められたままです。
良いニュースは、これらのツールが徐々に公開され始め、どこでも開発者の可能性が広がっていることです。
この新しいワークフローの最後には、パズルの重要なピースがあります:評価および検証。今日、私たちの焦点はこれらに当たります。彼らは基本的な質問に答えます:AIはうまく機能していますか?
信頼は優れたAI製品の基盤です。
AIが私たちの生活のますます重要な部分になるにつれて、その技術自体はまだ脆弱な状態にあります。ミスは起こりますが、それが起こると信頼はすぐに失われます。ユーザーは、AIが正確で偏りがなく、本当に役立つものであることを期待していますが、それを保証する信頼できるシステムがない場合、失望が高まり、失望は転換につながります。
これは検証が重要になる場面です。
検証は保護機能として機能します。それらは開発者が出力を改良し、ユーザーが信頼できるシステムを構築するための品質保証レイヤーです。
Miraは、分散型ネットワークの検証ノードを活用することで、AIの出力が正確かつ独立して検証されることを保証しています。Miraは、信頼性のある暗号の透明性で、コアWeb2の問題に取り組んでいます。
例えば、パリの都市に関するLLMからの出力段落があるとします。それが正確であるかをどのように確認しますか?主張からコンテンツの構造、執筆スタイルまで、すべてに微妙なニュアンスがあるため、それは難しいです。
ここでミラが出てくる。
Miraのビジョンは大胆です:AIの出力の信頼性のない、スケーラブルで正確な検証を提供するレイヤー1ネットワークを作成することです。Miraは集合知を活用することで、偏見や幻想を減らし、公平性やコストなどの核心的な問題を解決し、ブロックチェーンがAIを本当に向上させる方法を証明しています。
ソース: Mira
初期結果は有望です。最近のArxivに掲載された研究Miraは、複数のモデルを使用して出力を生成し、コンセンサスを必要とすることで、精度を大幅に向上させることを示しました。3つのモデルで精度が95.6%に達し、単一のモデルの出力では73.1%でした。
Miraの取り組みを支える2つの重要なデザイン要素:
AI-generated outputs range from simple statements to sprawling essays, thanks to the near-zero cost of content generation. But this abundance of complexity creates a challenge: how do you ensure the accuracy of such diverse outputs?
Miraの解決策はシンプルです:それを分解する。
@Mira_Network複雑なAI生成コンテンツを小さな、理解しやすい部分に変換し、AIモデルが客観的にレビューできるようにするプロセスをシャーディングと呼びます。
標準化された出力を備え、それらを分割し、検証可能な主張にすることにより、Miraはすべての要素を一貫して評価できるようにし、しばしば評価を妨げる曖昧さを排除します。
例えば、この複合文を考えてみてください:
「光合成は植物で起こり、太陽光をエネルギーに変換し、蜜蜂は花の間で花粉を移動させることで、受粉に重要な役割を果たしています。」
表面的には、検証は簡単に思えます。しかし、複数のモデルに渡されると、解釈上の奇妙さが異なる回答につながる可能性があります。Miraのシャーディングによるコンテンツの変換は、この問題を2つの独立した主張に分割することで解決します。
シャーディングされたら、各クレームはバイナリゼーションを経て、複数選択問題に変換されます。これらの問題はAIモデルを実行するネットワークのノードに配布されます。Miraのアンサンブル検証方法を使用して、モデルは協力して各クレームの妥当性を評価し確認します。
現在、Miraのコンテンツのシャーディングとバイナリ化の機能は、テキスト入力に焦点を当てています。2025年初頭までに、これらのプロセスは画像や動画などのマルチモーダルな入力にも対応する予定です。
Miraは、複数のAIモデルの強みを結集して、AI出力の品質を評価する高度な検証システムを開発しました。
それを分解しましょう。
従来の自動評価は、GPT-4のような単一の大規模言語モデル(LLM)を品質の最終的な審判者として頼っていることがよくあります。機能的ではありますが、このアプローチには重大な欠点があります。コストがかかり、偏見があり、モデルに固有のクセや「個性」に制限されます。
Miraのブレークスルーは、単一の大規模なモデルへの依存から、多様なLLMのアンサンブル.このアンサンブルは、クリエイティブな才能よりも事実の正確さが重要なタスクに優れており、エラー率を減らし、より信頼性が高く一貫性のある検証を提供します。
アンサンブル技術は、分類などの機械学習タスクでよく研究されており、Miraはこれを検証にも取り入れています。
Miraのシステムの中心にあるのは、検証者のパネル(PoLL)です。これは、出力を検証するために協力するモデルのコラボレーションネットワークです。一つの、潜在的に偏った判断に任せるのではなく、多様な専門家のパネルが意見を述べることを考えてください。
これはただの願望だけではありません-それは研究に基づいています。以下のチャートをご覧ください:
コヒアの研究公開されました2024年4月には、GPT-3.5、Claude-3 Haiku、Command Rの3つの小型モデルのパネルが、GPT-4のみの場合よりも人間の判断に近いことを実証しました。驚くべきことに、このアンサンブル法も7倍安かったのです。
Miraはこの調査を実践に移し、アンサンブル検証手法を大規模に展開しています。これまでに共有された内部結果は説得力があります。
• 複雑な推論タスクのエラー率が80%から5%に低下しました。
• 人間の検証と比べて、速度とコストが5倍向上しました。
これは小さな偉業ではありません。コンセンサスメカニズムを利用することにより、Miraの多様なモデルのアンサンブルは効果的に幻覚を除外し、個々のモデルのバイアスをバランスさせます。彼らが共に提供するものは、その部分の合計以上のものです:より速く、より安価で、私たちのニーズにより合った検証です。
まとめると、ミラの検証システムは2つの基本的な設計原則に基づいて構築されています。
高品質のアウトプットには多様なモデルセットを維持することが不可欠であり、Miraの設計は分散型アーキテクチャにとって理想的です。単一障害点を排除することは、検証製品にとって非常に重要です。
Miraは、1つのエンティティが結果を操作できないようにするために、ブロックチェーンベースのアプローチを使用しています。前提はシンプルです:AIによって生成された出力は、ブロックチェーンの状態変化と同様に検証されるべきです。
検証は独立したノードのネットワークを介して行われ、オペレーターは正確な検証を行うことに経済的なインセンティブを与えられます。Miraのシステムは報酬を正直さと合わせることで、悪質な行為者を抑制し、信頼性のある結果を保証します。
こちらがその動作方法です:
Miraは、入力データを小さな部分に分割してデータの機密性を確保し、1つのノードも完全なデータセットにアクセスできないようにします。
追加のセキュリティのため、Miraは動的なプライバシーレベルをサポートしており、データの機密性に基づいてユーザーがシャードの数を調整することができます。より高いプライバシーレベルでは、より多くのシャーディング(およびそれに伴う高いコスト)が必要ですが、ユーザーが機密情報を取り扱う際に追加の機密性を提供します。
ノードが実行するすべての検証は、ブロックチェーン上に記録され、検証プロセスの透明性と監査可能性を作り出します。この不変の台帳は、従来のブロックチェーンを使用しないアプローチでは達成できない信頼性と説明責任を保証します。
これは安全で偏見のないAI検証の新しい基準を設定します。
Miraの分散ネットワークでは、正直な仕事には報酬が与えられます。
専門家は、ノードソフトウェアを介して専門化されたAIモデルを展開し、正確な検証に対してトークンを獲得することができます。一方、AI開発者は検証ごとに手数料を支払い、需要と供給の間で自己持続型の経済ループを作り出します。
このアプローチは、Web2のワークフローからWeb3のエコシステムに実際の価値をもたらし、推論プロバイダやモデル作成者などの参加者に直接報酬を与えます。
しかし、インセンティブには課題も存在します。分散型のシステムでは、悪意のあるユーザーがネットワークを悪用し、仕事をせずに報酬を得るために偽の結果を提出することがあります。
では、ノードが実際に正確かつ正直にタスクを実行していることをどのように確認しますか?
Miraは、AIのために設計されたBitcoinのproof-of-workに触発されたProof-of-Verificationを採用して、整合性を維持しています。ブロックを採掘する代わりに、ノードはコンセンサスプロセスに参加するために検証タスクを完了したことを証明しなければなりません。
ここにその動作方法が示されています:
Proof-of-Verificationは、ノードが高品質な検証を実行する経済的な動機づけを持つバランスの取れたシステムを作成します。このメカニズムにより、ネットワークは時間を経ても安全で信頼性が保たれます。
ここでの質問は、ミラのアプローチが非常に効果的なら、なぜ誰もがそれをしていないのかということですか?
答えは、現実世界でこのようなシステムを実装する際のトレードオフと複雑さにあります。高速で正確な評価と複数のモデルの複雑さを管理することの完全なバランスを実現することは容易ではありません。
ミラの最大の障壁の1つは遅延です。モデルのアンサンブルを使用すると、検証を並行して実行できますが、結果を同期し、合意に達することで遅延が発生します。プロセスは最も遅いノードと同じ速さです。
現在、これにより、リアルタイムの結果が必要ではない使用ケースで、MiraはAIの出力のバッチ処理に最適です。ネットワークがより多くのノードと計算可能性とともに成長するにつれ、長期的な目標はリアルタイムの確認を達成し、Miraの適用範囲をさらに広げることです。
レイテンシーを超えて、他の課題には次のようなものがあります:
エンジニアリングの複雑さ:複数のモデル間での評価を組織し、コンセンサスメカニズムがスムーズに動作することを確認するには、かなりのエンジニアリング作業が必要です。
高い計算要件:小さなモデルを使用していても、アンサンブルで実行すると計算要求が増えます。
優れたコンセンサスメカニズムの設計: 多数決、加重スコアリング、またはその他の方法を通じてコンセンサスを達成する方法は、システムの信頼性に重要な役割を果たします。曖昧なケースでは、アンサンブルの整列が困難になり、一貫性のない結果につながる可能性があります。
ソース:Mira
MiraのAPIは、OpenAIのGPT-4oに似た方法で、どんなアプリケーションにも簡単に統合できます。消費者向けとB2B向けのアプリケーションに対して不可知論的であり、さまざまなユースケースに対応できる多目的なソリューションです。現在、数十のアプリケーションがMiraのインフラストラクチャを使用しています。
コンシューマ統合
消費者側では、Miraはすでにいくつかの早期のAIアプリのAI検証を強化しています。
デルファイオラクル最新かつ最も高度な統合です。このAIパワードのリサーチアシスタントは許可します @Delphi_Digitalメンバーが研究コンテンツと直接やり取りし、質問したり、ポイントを明確にしたり、価格情報を統合したり、コンテンツをさまざまな複雑さのレベルに調整したりすることができます。
Delphi Oracleは、Mira Networkの検証技術を活用して、信頼性の高い正確な回答を提供しています。複数のモデルで回答を検証することで、Miraは幻覚率を約30%から5%未満に低減させ、強固な信頼の基盤を確保しています。
Delphi Oracleの核心には、高性能なクエリルーターがあります
このスマートルーティングシステムは、インテリジェントなキャッシュと組み合わせることで、遅延、コスト、品質のバランスを取りながら最適なパフォーマンスを確保します。
Miraのテストにより、より小型で費用効果の高いモデルでも大型モデルとほぼ同等のクエリを処理できることがわかりました。これにより、運用コストが90%削減され、ユーザーが期待する高品質な応答を維持しつついます。
これらの多くの消費者向けアプリの多くはまだ初期段階ですが、それらはMiraのシームレスな統合と大規模で活発なユーザーベースのサポート能力を強調しています。開発者のエクスペリエンスがシンプルであり、価値提案が明確である限り、数千のアプリケーションがMiraのエコシステムに組み込まれるのは難しくありません。
B2Bアプリケーション
B2Bフロントでは、Miraは、信頼性と精度が最も重要な産業に特化した統合に注力しており、最初の焦点を医療と教育に置いています。
主な利用方法は次のとおりです:
Miraの究極の目標は、ユーザーが単にAPI経由で接続し、OpenAIやAnthropicのように、返される前に事前に検証済みの出力を受け取ることができるネイティブに検証済みの世代を提供することです。
彼らは、既存のモデルAPIを置き換えることを目指しています。既存のモデル(例:Mira-Claude-3.5-SonnetまたはMira-OpenAI-GPT-4o)の高い信頼性バージョンを提供し、組み込みの合意に基づく信頼性を向上させます。
Generative AIはロケット船の上にあります。Bloomberg市場は、壮観な42%のCAGRで成長すると予測され、2030年までに収益が1兆ドルを超える見込みです。この巨大な波の中で、AIワークフローの速度、精度、信頼性を向上させるツールが重要な役割を果たすでしょう。
カスタマーサポートのチャットボットから複雑なリサーチアシスタントまで、LLMをワークフローに統合する企業が増えるにつれ、堅牢なモデル検証の必要性が高まっています。
組織は、(1)モデルの精度と信頼性を測定するツール、(2)プロンプトとパラメータの非効率性を診断するツール、(3)パフォーマンスとドリフトを継続的に監視するツール、および(4)AI安全性に関する新興の規制枠組みに準拠するツールを求めるでしょう。
お馴染みですか?これは以前にMLOps(「Machine Learning Operations」の略)で見た手法です。機械学習が2010年代に拡大するにつれて、モデルの展開、追跡、および維持のためのツールが不可欠となり、数十億ドル規模の市場を創出しました。生成AIの台頭とともに、LLMOpsも同じ軌跡をたどっています。
兆ドル市場のわずかな一部を獲得するだけでも、このサブセクターを2030年までに1000億ドル以上に押し上げる可能性があります。
いくつかのWeb2スタートアップは、データに注釈を付け、モデルを微調整し、パフォーマンスを評価するためのツールを提供し、すでに自社を位置づけています。
• Braintrust(調達額:$36M)
• Vellum AI($5M raised)
• Humanloop($2.8M調達)
これらの早期の動き手は基盤を築いていますが、この分野は流動的です。2025年には、このセクターで多くのスタートアップが生まれる可能性があります。一部はニッチな評価メトリクス(たとえば、バイアス検出や堅牢性テスト)に特化し、他の企業はAI開発ライフサイクル全体をカバーするようにサービスを拡大するかもしれません。
大手のテック企業—例えば主要なクラウドプロバイダーやAIプラットフォーム—はおそらく自社の提供物に評価機能をバンドルするでしょう。先月、OpenAI直接に評価を導入しました。競争力を維持するために、スタートアップ企業は専門化、使いやすさ、高度な分析による差別化が必要です。
Miraはこれらのスタートアップや既存企業と直接競合するものではありません。代わりに、APIを介して両方とシームレスに統合するインフラプロバイダです。その鍵は何ですか?それはただ動作するだけです。
ミラの初期市場規模はLLMOpsに関連していますが、全てのAIに拡大していく可能性があります。なぜなら、すべてのAIアプリケーションにはより信頼性の高い出力が必要だからです。
ゲーム理論の観点から、Miraはユニークな状況にあります。OpenAIのような他のモデルプロバイダーとは異なり、Miraは複数のモデルを統合することができます。これにより、MiraはAIの信頼レイヤーとしての立場を築き上げ、他のプロバイダーではマッチできない信頼性を提供しています。
Miraの2025年のロードマップは、完全な分散化への道で、信頼性、拡張性、およびコミュニティ参加をバランスさせることを目指しています:
フェーズ1:信頼のブートストラップ(現在の状況)
初期段階では、審査済みのノードオペレーターがネットワークの信頼性を確保します。よく知られたGPUコンピュートプロバイダーが最初の運用者として機能し、初期の運用を担当し、成長のための強固な基盤を築きます。
フェーズ2:プログレッシブな分散化
Mira では、同じ検証ツール モデルの複数のインスタンスが各要求を処理する設計重複が導入されています。これにより検証コストが増加しますが、悪意のあるオペレーターを特定して排除するために不可欠です。ノード間で出力を比較することで、悪意のあるアクターを早期に捕捉できます。
Miraは成熟した形態で、ランダムシャーディングを実装し、検証タスクを分散させます。これにより、合同が経済的に不可能になり、ネットワークのスケーリングに伴う強度とセキュリティが強化されます。
フェーズ3: 合成基礎モデル
ここでは、Miraはネイティブに検証された世代を提供します。ユーザーは、OpenAIまたはAnthropicと同様にAPIを介して接続し、事前に検証された出力を受け取ります。追加の検証なしで信頼性の高い、すぐに使用できる結果が得られます。
今後数ヶ月、ミラはいくつかの重要なマイルストーンに向けて準備をしています:
Miraは、そのを通じてコミュニティ参加の機会を拡大していますノードデリゲータープログラム. このイニシアチブにより、誰もがネットワークのサポートを手軽に行えるようになります。技術的な知識は必要ありません。
プロセスは簡単で、コンピュートリソースをレンタルし、キュレーションされたノードオペレーターのグループに委任することができます。寄付は35ドルから750ドルの範囲で、ネットワークをサポートすることで報酬が提供されます。Miraは複雑なインフラをすべて管理するため、ノードデリゲーターはネットワークの成長をじっくりと観察し、アップサイドを捉えることができます。
今日、ミラには、主にエンジニアリングに焦点を当てた小さながしっかりとしたチームがあります。
3人の共同創業者がいます:
彼らは投資の洞察力、技術革新、製品リーダーシップを結集し、Miraの分散型AI検証のビジョンに貢献しています。Miraは900万ドルを調達しました。シードラウンド2024年7月、BITKRAFTとFramework Venturesが主導。
Crypto AIチームが、仮想通貨のバブルの中で投機的なゲームをするのではなく、Web2 AIの根本的な問題、つまりAIをより良くすることに取り組んでいるのを見るのは新鮮です。
産業は検証の重要性に目覚めつつあります。“感覚”に頼ることだけではもはや不十分です。すべてのAIアプリケーションとワークフローは近い将来適切な検証プロセスが必要になるでしょう。将来の規制がこれらのプロセスを義務付けて安全性を確保することも考えられます。
Miraのアプローチは、複数のモデルを利用して出力を独立して検証し、単一の中央集権モデルに頼らないようにしています。この分散型フレームワークは信頼性を高め、バイアスや操作のリスクを減らします。
そして、もし数年以内にAGI(実際の可能性)に到達した場合、何が起こるか考えてみましょう。
としてアナンド・アイヤー (@AICanonicalの言葉によれば、AIが微妙に意思決定やコードを操作することができるなら、これらの振る舞いをテストするシステムを信頼することができるでしょうか?優れた人々は先を考えています。Anthropicの研究アンダースコアは緊急性を強調し、評価が潜在的に危険なAIの能力を問題に発展する前に特定するための重要なツールであることを強調しています。
過激な透明性を可能にすることで、ブロックチェーンは、ローグAIシステムに対する強力な保護層を追加します。信頼できないコンセンサスメカニズムにより、安全性評価がMiraのような数千の独立したノードによって検証され、シビル攻撃のリスクを劇的に低減します。
Miraは、明確な需要がある市場を追い求めていますが、課題もあります。レイテンシー、精度、コスト効率の改善には、執念深いエンジニアリングの努力と時間が必要です。チームは、既存の代替案よりも計測可能に優れたアプローチであることを一貫して示す必要があります。
Miraのコアイノベーションは、バイナリ化とシャーディングプロセスにあります。この「秘密のソース」は、スケーラビリティと信頼性の課題に対処することを約束しています。Miraが成功するためには、この技術がその約束を実現する必要があります。
どんな分散ネットワークでも、トークンとインセンティブのデザインは成功するかどうかの決め手となる要素です。Miraの成功は、これらのメカニズムが参加者の利益を調整しながらネットワークの完全性を維持するかどうかにかかっています。
Miraのトークン経済の詳細はまだ秘密になっていますが、トークンの発売が2025年初頭に近づくにつれて、チームがもっと明らかにすることを期待しています。
「優れた評価を実施するエンジニアリングチームは、本番で何が起こるかを見てから修正しようとするチームよりも、10倍速く動くことがわかりました。」- Ankur Goyal、Braintrust
AI駆動の世界では、信頼がすべてです。
モデルが複雑化するにつれて、信頼性のある検証がすべての優れたAI製品を支えるようになります。これらの検証は、私たちが幻覚に取り組み、偏見を排除し、AIの出力がユーザーの実際のニーズに合致することを確認するのに役立ちます。
Miraは検証を自動化し、コストを削減し、人間の介入に頼らなくても済むようにします。これにより、より速いイテレーション、リアルタイムの調整、およびボトルネックなしのスケーラブルなソリューションが可能になります。
最終的に、Miraは信頼のためのAPIであり、すべてのAI開発者やアプリケーションが検証済みの回答を頼りにできる分散型の検証フレームワークを目指しています。
それは大胆で野心的であり、AIの世界が必要としているものそのものです。
お読みいただきありがとうございます、Teng Yan
元のタイトルを転送する:Mira:信頼できる検証済みAI
幻覚:何かが存在しないように見える経験。
Andrej KarpathyはAIを「夢の機械」と呼んでいます。彼は、AIが自信を持って非現実的なものを生成する瞬間、つまり幻覚をバグではなく特徴と考えています。それらを完全に排除しようとすることは無駄です。そして正直なところ、それには何か詩的なものがあります。
大規模言語モデル(LLM)はアーティストであり、創造者です。それはコードで夢を見て、空気からアイデアを生み出し、データから意味を作り出します。しかし、AIが美しい夢から実用的な日常のアプリケーションに移行するためには、それらの幻想を抑える必要があります。
LLMのエラーレートは、多くのタスクで高い水準を維持しています-しばしば30%程度です。そのレベルでは、LLMはまだ人間の介在を必要としており、使用可能な精度の基準に達するためには人間の手を借りる必要があります。
しかし、私たちが99.x%の正確さに達すると、出力が人の監視なしに信頼できるようになると、魔法が起こります。 それがAIが人間レベルの信頼性を達成し、以前手の届かなかった無限のユースケースを開くしきい値です。
しかし、そのレベルの精度に到達することは容易ではありません。それには、執拗なエンジニアリングの努力とイノベーションが求められます。
物語 @Mira_Networkここから始まります。しかし、私たちが飛び込む前に、LLM開発について話しましょう。そして、なぜ検証がAIにおいて次のビッグなことになっているのかについて考えてみましょう。
LLM開発は、過去50年以上にわたり磨き上げてきた従来のソフトウェア開発プラクティスとは異なる、ディープラーニングの旅の最新のイテレーションです。約3年しか存在していないLLMは、決定論的な考え方(XならばY)から確率的な推論(Xならば...おそらくY?)に完全にスクリプトを変えます。
つまり、AI主導の世界のインフラには、まったく新しいツールとワークフローのセットが必要です。しかし、これらのツールの多くは、LLMを作成した研究所内に閉じ込められたままです。
良いニュースは、これらのツールが徐々に公開され始め、どこでも開発者の可能性が広がっていることです。
この新しいワークフローの最後には、パズルの重要なピースがあります:評価および検証。今日、私たちの焦点はこれらに当たります。彼らは基本的な質問に答えます:AIはうまく機能していますか?
信頼は優れたAI製品の基盤です。
AIが私たちの生活のますます重要な部分になるにつれて、その技術自体はまだ脆弱な状態にあります。ミスは起こりますが、それが起こると信頼はすぐに失われます。ユーザーは、AIが正確で偏りがなく、本当に役立つものであることを期待していますが、それを保証する信頼できるシステムがない場合、失望が高まり、失望は転換につながります。
これは検証が重要になる場面です。
検証は保護機能として機能します。それらは開発者が出力を改良し、ユーザーが信頼できるシステムを構築するための品質保証レイヤーです。
Miraは、分散型ネットワークの検証ノードを活用することで、AIの出力が正確かつ独立して検証されることを保証しています。Miraは、信頼性のある暗号の透明性で、コアWeb2の問題に取り組んでいます。
例えば、パリの都市に関するLLMからの出力段落があるとします。それが正確であるかをどのように確認しますか?主張からコンテンツの構造、執筆スタイルまで、すべてに微妙なニュアンスがあるため、それは難しいです。
ここでミラが出てくる。
Miraのビジョンは大胆です:AIの出力の信頼性のない、スケーラブルで正確な検証を提供するレイヤー1ネットワークを作成することです。Miraは集合知を活用することで、偏見や幻想を減らし、公平性やコストなどの核心的な問題を解決し、ブロックチェーンがAIを本当に向上させる方法を証明しています。
ソース: Mira
初期結果は有望です。最近のArxivに掲載された研究Miraは、複数のモデルを使用して出力を生成し、コンセンサスを必要とすることで、精度を大幅に向上させることを示しました。3つのモデルで精度が95.6%に達し、単一のモデルの出力では73.1%でした。
Miraの取り組みを支える2つの重要なデザイン要素:
AI-generated outputs range from simple statements to sprawling essays, thanks to the near-zero cost of content generation. But this abundance of complexity creates a challenge: how do you ensure the accuracy of such diverse outputs?
Miraの解決策はシンプルです:それを分解する。
@Mira_Network複雑なAI生成コンテンツを小さな、理解しやすい部分に変換し、AIモデルが客観的にレビューできるようにするプロセスをシャーディングと呼びます。
標準化された出力を備え、それらを分割し、検証可能な主張にすることにより、Miraはすべての要素を一貫して評価できるようにし、しばしば評価を妨げる曖昧さを排除します。
例えば、この複合文を考えてみてください:
「光合成は植物で起こり、太陽光をエネルギーに変換し、蜜蜂は花の間で花粉を移動させることで、受粉に重要な役割を果たしています。」
表面的には、検証は簡単に思えます。しかし、複数のモデルに渡されると、解釈上の奇妙さが異なる回答につながる可能性があります。Miraのシャーディングによるコンテンツの変換は、この問題を2つの独立した主張に分割することで解決します。
シャーディングされたら、各クレームはバイナリゼーションを経て、複数選択問題に変換されます。これらの問題はAIモデルを実行するネットワークのノードに配布されます。Miraのアンサンブル検証方法を使用して、モデルは協力して各クレームの妥当性を評価し確認します。
現在、Miraのコンテンツのシャーディングとバイナリ化の機能は、テキスト入力に焦点を当てています。2025年初頭までに、これらのプロセスは画像や動画などのマルチモーダルな入力にも対応する予定です。
Miraは、複数のAIモデルの強みを結集して、AI出力の品質を評価する高度な検証システムを開発しました。
それを分解しましょう。
従来の自動評価は、GPT-4のような単一の大規模言語モデル(LLM)を品質の最終的な審判者として頼っていることがよくあります。機能的ではありますが、このアプローチには重大な欠点があります。コストがかかり、偏見があり、モデルに固有のクセや「個性」に制限されます。
Miraのブレークスルーは、単一の大規模なモデルへの依存から、多様なLLMのアンサンブル.このアンサンブルは、クリエイティブな才能よりも事実の正確さが重要なタスクに優れており、エラー率を減らし、より信頼性が高く一貫性のある検証を提供します。
アンサンブル技術は、分類などの機械学習タスクでよく研究されており、Miraはこれを検証にも取り入れています。
Miraのシステムの中心にあるのは、検証者のパネル(PoLL)です。これは、出力を検証するために協力するモデルのコラボレーションネットワークです。一つの、潜在的に偏った判断に任せるのではなく、多様な専門家のパネルが意見を述べることを考えてください。
これはただの願望だけではありません-それは研究に基づいています。以下のチャートをご覧ください:
コヒアの研究公開されました2024年4月には、GPT-3.5、Claude-3 Haiku、Command Rの3つの小型モデルのパネルが、GPT-4のみの場合よりも人間の判断に近いことを実証しました。驚くべきことに、このアンサンブル法も7倍安かったのです。
Miraはこの調査を実践に移し、アンサンブル検証手法を大規模に展開しています。これまでに共有された内部結果は説得力があります。
• 複雑な推論タスクのエラー率が80%から5%に低下しました。
• 人間の検証と比べて、速度とコストが5倍向上しました。
これは小さな偉業ではありません。コンセンサスメカニズムを利用することにより、Miraの多様なモデルのアンサンブルは効果的に幻覚を除外し、個々のモデルのバイアスをバランスさせます。彼らが共に提供するものは、その部分の合計以上のものです:より速く、より安価で、私たちのニーズにより合った検証です。
まとめると、ミラの検証システムは2つの基本的な設計原則に基づいて構築されています。
高品質のアウトプットには多様なモデルセットを維持することが不可欠であり、Miraの設計は分散型アーキテクチャにとって理想的です。単一障害点を排除することは、検証製品にとって非常に重要です。
Miraは、1つのエンティティが結果を操作できないようにするために、ブロックチェーンベースのアプローチを使用しています。前提はシンプルです:AIによって生成された出力は、ブロックチェーンの状態変化と同様に検証されるべきです。
検証は独立したノードのネットワークを介して行われ、オペレーターは正確な検証を行うことに経済的なインセンティブを与えられます。Miraのシステムは報酬を正直さと合わせることで、悪質な行為者を抑制し、信頼性のある結果を保証します。
こちらがその動作方法です:
Miraは、入力データを小さな部分に分割してデータの機密性を確保し、1つのノードも完全なデータセットにアクセスできないようにします。
追加のセキュリティのため、Miraは動的なプライバシーレベルをサポートしており、データの機密性に基づいてユーザーがシャードの数を調整することができます。より高いプライバシーレベルでは、より多くのシャーディング(およびそれに伴う高いコスト)が必要ですが、ユーザーが機密情報を取り扱う際に追加の機密性を提供します。
ノードが実行するすべての検証は、ブロックチェーン上に記録され、検証プロセスの透明性と監査可能性を作り出します。この不変の台帳は、従来のブロックチェーンを使用しないアプローチでは達成できない信頼性と説明責任を保証します。
これは安全で偏見のないAI検証の新しい基準を設定します。
Miraの分散ネットワークでは、正直な仕事には報酬が与えられます。
専門家は、ノードソフトウェアを介して専門化されたAIモデルを展開し、正確な検証に対してトークンを獲得することができます。一方、AI開発者は検証ごとに手数料を支払い、需要と供給の間で自己持続型の経済ループを作り出します。
このアプローチは、Web2のワークフローからWeb3のエコシステムに実際の価値をもたらし、推論プロバイダやモデル作成者などの参加者に直接報酬を与えます。
しかし、インセンティブには課題も存在します。分散型のシステムでは、悪意のあるユーザーがネットワークを悪用し、仕事をせずに報酬を得るために偽の結果を提出することがあります。
では、ノードが実際に正確かつ正直にタスクを実行していることをどのように確認しますか?
Miraは、AIのために設計されたBitcoinのproof-of-workに触発されたProof-of-Verificationを採用して、整合性を維持しています。ブロックを採掘する代わりに、ノードはコンセンサスプロセスに参加するために検証タスクを完了したことを証明しなければなりません。
ここにその動作方法が示されています:
Proof-of-Verificationは、ノードが高品質な検証を実行する経済的な動機づけを持つバランスの取れたシステムを作成します。このメカニズムにより、ネットワークは時間を経ても安全で信頼性が保たれます。
ここでの質問は、ミラのアプローチが非常に効果的なら、なぜ誰もがそれをしていないのかということですか?
答えは、現実世界でこのようなシステムを実装する際のトレードオフと複雑さにあります。高速で正確な評価と複数のモデルの複雑さを管理することの完全なバランスを実現することは容易ではありません。
ミラの最大の障壁の1つは遅延です。モデルのアンサンブルを使用すると、検証を並行して実行できますが、結果を同期し、合意に達することで遅延が発生します。プロセスは最も遅いノードと同じ速さです。
現在、これにより、リアルタイムの結果が必要ではない使用ケースで、MiraはAIの出力のバッチ処理に最適です。ネットワークがより多くのノードと計算可能性とともに成長するにつれ、長期的な目標はリアルタイムの確認を達成し、Miraの適用範囲をさらに広げることです。
レイテンシーを超えて、他の課題には次のようなものがあります:
エンジニアリングの複雑さ:複数のモデル間での評価を組織し、コンセンサスメカニズムがスムーズに動作することを確認するには、かなりのエンジニアリング作業が必要です。
高い計算要件:小さなモデルを使用していても、アンサンブルで実行すると計算要求が増えます。
優れたコンセンサスメカニズムの設計: 多数決、加重スコアリング、またはその他の方法を通じてコンセンサスを達成する方法は、システムの信頼性に重要な役割を果たします。曖昧なケースでは、アンサンブルの整列が困難になり、一貫性のない結果につながる可能性があります。
ソース:Mira
MiraのAPIは、OpenAIのGPT-4oに似た方法で、どんなアプリケーションにも簡単に統合できます。消費者向けとB2B向けのアプリケーションに対して不可知論的であり、さまざまなユースケースに対応できる多目的なソリューションです。現在、数十のアプリケーションがMiraのインフラストラクチャを使用しています。
コンシューマ統合
消費者側では、Miraはすでにいくつかの早期のAIアプリのAI検証を強化しています。
デルファイオラクル最新かつ最も高度な統合です。このAIパワードのリサーチアシスタントは許可します @Delphi_Digitalメンバーが研究コンテンツと直接やり取りし、質問したり、ポイントを明確にしたり、価格情報を統合したり、コンテンツをさまざまな複雑さのレベルに調整したりすることができます。
Delphi Oracleは、Mira Networkの検証技術を活用して、信頼性の高い正確な回答を提供しています。複数のモデルで回答を検証することで、Miraは幻覚率を約30%から5%未満に低減させ、強固な信頼の基盤を確保しています。
Delphi Oracleの核心には、高性能なクエリルーターがあります
このスマートルーティングシステムは、インテリジェントなキャッシュと組み合わせることで、遅延、コスト、品質のバランスを取りながら最適なパフォーマンスを確保します。
Miraのテストにより、より小型で費用効果の高いモデルでも大型モデルとほぼ同等のクエリを処理できることがわかりました。これにより、運用コストが90%削減され、ユーザーが期待する高品質な応答を維持しつついます。
これらの多くの消費者向けアプリの多くはまだ初期段階ですが、それらはMiraのシームレスな統合と大規模で活発なユーザーベースのサポート能力を強調しています。開発者のエクスペリエンスがシンプルであり、価値提案が明確である限り、数千のアプリケーションがMiraのエコシステムに組み込まれるのは難しくありません。
B2Bアプリケーション
B2Bフロントでは、Miraは、信頼性と精度が最も重要な産業に特化した統合に注力しており、最初の焦点を医療と教育に置いています。
主な利用方法は次のとおりです:
Miraの究極の目標は、ユーザーが単にAPI経由で接続し、OpenAIやAnthropicのように、返される前に事前に検証済みの出力を受け取ることができるネイティブに検証済みの世代を提供することです。
彼らは、既存のモデルAPIを置き換えることを目指しています。既存のモデル(例:Mira-Claude-3.5-SonnetまたはMira-OpenAI-GPT-4o)の高い信頼性バージョンを提供し、組み込みの合意に基づく信頼性を向上させます。
Generative AIはロケット船の上にあります。Bloomberg市場は、壮観な42%のCAGRで成長すると予測され、2030年までに収益が1兆ドルを超える見込みです。この巨大な波の中で、AIワークフローの速度、精度、信頼性を向上させるツールが重要な役割を果たすでしょう。
カスタマーサポートのチャットボットから複雑なリサーチアシスタントまで、LLMをワークフローに統合する企業が増えるにつれ、堅牢なモデル検証の必要性が高まっています。
組織は、(1)モデルの精度と信頼性を測定するツール、(2)プロンプトとパラメータの非効率性を診断するツール、(3)パフォーマンスとドリフトを継続的に監視するツール、および(4)AI安全性に関する新興の規制枠組みに準拠するツールを求めるでしょう。
お馴染みですか?これは以前にMLOps(「Machine Learning Operations」の略)で見た手法です。機械学習が2010年代に拡大するにつれて、モデルの展開、追跡、および維持のためのツールが不可欠となり、数十億ドル規模の市場を創出しました。生成AIの台頭とともに、LLMOpsも同じ軌跡をたどっています。
兆ドル市場のわずかな一部を獲得するだけでも、このサブセクターを2030年までに1000億ドル以上に押し上げる可能性があります。
いくつかのWeb2スタートアップは、データに注釈を付け、モデルを微調整し、パフォーマンスを評価するためのツールを提供し、すでに自社を位置づけています。
• Braintrust(調達額:$36M)
• Vellum AI($5M raised)
• Humanloop($2.8M調達)
これらの早期の動き手は基盤を築いていますが、この分野は流動的です。2025年には、このセクターで多くのスタートアップが生まれる可能性があります。一部はニッチな評価メトリクス(たとえば、バイアス検出や堅牢性テスト)に特化し、他の企業はAI開発ライフサイクル全体をカバーするようにサービスを拡大するかもしれません。
大手のテック企業—例えば主要なクラウドプロバイダーやAIプラットフォーム—はおそらく自社の提供物に評価機能をバンドルするでしょう。先月、OpenAI直接に評価を導入しました。競争力を維持するために、スタートアップ企業は専門化、使いやすさ、高度な分析による差別化が必要です。
Miraはこれらのスタートアップや既存企業と直接競合するものではありません。代わりに、APIを介して両方とシームレスに統合するインフラプロバイダです。その鍵は何ですか?それはただ動作するだけです。
ミラの初期市場規模はLLMOpsに関連していますが、全てのAIに拡大していく可能性があります。なぜなら、すべてのAIアプリケーションにはより信頼性の高い出力が必要だからです。
ゲーム理論の観点から、Miraはユニークな状況にあります。OpenAIのような他のモデルプロバイダーとは異なり、Miraは複数のモデルを統合することができます。これにより、MiraはAIの信頼レイヤーとしての立場を築き上げ、他のプロバイダーではマッチできない信頼性を提供しています。
Miraの2025年のロードマップは、完全な分散化への道で、信頼性、拡張性、およびコミュニティ参加をバランスさせることを目指しています:
フェーズ1:信頼のブートストラップ(現在の状況)
初期段階では、審査済みのノードオペレーターがネットワークの信頼性を確保します。よく知られたGPUコンピュートプロバイダーが最初の運用者として機能し、初期の運用を担当し、成長のための強固な基盤を築きます。
フェーズ2:プログレッシブな分散化
Mira では、同じ検証ツール モデルの複数のインスタンスが各要求を処理する設計重複が導入されています。これにより検証コストが増加しますが、悪意のあるオペレーターを特定して排除するために不可欠です。ノード間で出力を比較することで、悪意のあるアクターを早期に捕捉できます。
Miraは成熟した形態で、ランダムシャーディングを実装し、検証タスクを分散させます。これにより、合同が経済的に不可能になり、ネットワークのスケーリングに伴う強度とセキュリティが強化されます。
フェーズ3: 合成基礎モデル
ここでは、Miraはネイティブに検証された世代を提供します。ユーザーは、OpenAIまたはAnthropicと同様にAPIを介して接続し、事前に検証された出力を受け取ります。追加の検証なしで信頼性の高い、すぐに使用できる結果が得られます。
今後数ヶ月、ミラはいくつかの重要なマイルストーンに向けて準備をしています:
Miraは、そのを通じてコミュニティ参加の機会を拡大していますノードデリゲータープログラム. このイニシアチブにより、誰もがネットワークのサポートを手軽に行えるようになります。技術的な知識は必要ありません。
プロセスは簡単で、コンピュートリソースをレンタルし、キュレーションされたノードオペレーターのグループに委任することができます。寄付は35ドルから750ドルの範囲で、ネットワークをサポートすることで報酬が提供されます。Miraは複雑なインフラをすべて管理するため、ノードデリゲーターはネットワークの成長をじっくりと観察し、アップサイドを捉えることができます。
今日、ミラには、主にエンジニアリングに焦点を当てた小さながしっかりとしたチームがあります。
3人の共同創業者がいます:
彼らは投資の洞察力、技術革新、製品リーダーシップを結集し、Miraの分散型AI検証のビジョンに貢献しています。Miraは900万ドルを調達しました。シードラウンド2024年7月、BITKRAFTとFramework Venturesが主導。
Crypto AIチームが、仮想通貨のバブルの中で投機的なゲームをするのではなく、Web2 AIの根本的な問題、つまりAIをより良くすることに取り組んでいるのを見るのは新鮮です。
産業は検証の重要性に目覚めつつあります。“感覚”に頼ることだけではもはや不十分です。すべてのAIアプリケーションとワークフローは近い将来適切な検証プロセスが必要になるでしょう。将来の規制がこれらのプロセスを義務付けて安全性を確保することも考えられます。
Miraのアプローチは、複数のモデルを利用して出力を独立して検証し、単一の中央集権モデルに頼らないようにしています。この分散型フレームワークは信頼性を高め、バイアスや操作のリスクを減らします。
そして、もし数年以内にAGI(実際の可能性)に到達した場合、何が起こるか考えてみましょう。
としてアナンド・アイヤー (@AICanonicalの言葉によれば、AIが微妙に意思決定やコードを操作することができるなら、これらの振る舞いをテストするシステムを信頼することができるでしょうか?優れた人々は先を考えています。Anthropicの研究アンダースコアは緊急性を強調し、評価が潜在的に危険なAIの能力を問題に発展する前に特定するための重要なツールであることを強調しています。
過激な透明性を可能にすることで、ブロックチェーンは、ローグAIシステムに対する強力な保護層を追加します。信頼できないコンセンサスメカニズムにより、安全性評価がMiraのような数千の独立したノードによって検証され、シビル攻撃のリスクを劇的に低減します。
Miraは、明確な需要がある市場を追い求めていますが、課題もあります。レイテンシー、精度、コスト効率の改善には、執念深いエンジニアリングの努力と時間が必要です。チームは、既存の代替案よりも計測可能に優れたアプローチであることを一貫して示す必要があります。
Miraのコアイノベーションは、バイナリ化とシャーディングプロセスにあります。この「秘密のソース」は、スケーラビリティと信頼性の課題に対処することを約束しています。Miraが成功するためには、この技術がその約束を実現する必要があります。
どんな分散ネットワークでも、トークンとインセンティブのデザインは成功するかどうかの決め手となる要素です。Miraの成功は、これらのメカニズムが参加者の利益を調整しながらネットワークの完全性を維持するかどうかにかかっています。
Miraのトークン経済の詳細はまだ秘密になっていますが、トークンの発売が2025年初頭に近づくにつれて、チームがもっと明らかにすることを期待しています。
「優れた評価を実施するエンジニアリングチームは、本番で何が起こるかを見てから修正しようとするチームよりも、10倍速く動くことがわかりました。」- Ankur Goyal、Braintrust
AI駆動の世界では、信頼がすべてです。
モデルが複雑化するにつれて、信頼性のある検証がすべての優れたAI製品を支えるようになります。これらの検証は、私たちが幻覚に取り組み、偏見を排除し、AIの出力がユーザーの実際のニーズに合致することを確認するのに役立ちます。
Miraは検証を自動化し、コストを削減し、人間の介入に頼らなくても済むようにします。これにより、より速いイテレーション、リアルタイムの調整、およびボトルネックなしのスケーラブルなソリューションが可能になります。
最終的に、Miraは信頼のためのAPIであり、すべてのAI開発者やアプリケーションが検証済みの回答を頼りにできる分散型の検証フレームワークを目指しています。
それは大胆で野心的であり、AIの世界が必要としているものそのものです。
お読みいただきありがとうございます、Teng Yan