在科技進步的編年史中,革命性技術常常獨立出現,每一項都引領著時代的變革。當兩項革命性技術相遇時,它們的碰撞往往會產生指數級的影響。如今,我們正站在這樣一個歷史性時刻:人工智慧和加密技術,這兩種同樣具破壞性的新技術,正手牽手地走進舞台的中心。
我們想像,人工智慧領域的許多挑戰都可以通過加密技術來解決;我們期待AI Agent構建自主經濟網路,推動加密技術的大規模採用;我們也希望AI能夠加速加密領域現有場景的發展。無數雙眼睛都聚焦於此,大量資金紛紛湧入。就像任何流行語一樣,它體現了人們對創新的渴望,對未來的憧憬,也蘊含著無法控制的野心和貪婪。
然而,在所有這些喧鬧中,我們對最基本的問題知之甚少。AI 對加密知道得有多好?配備大型語言模型的代理人是否真正具備使用加密工具的能力?不同的模型在加密任務上的表現有多大差異?
這些問題的答案將決定人工智能和加密技術的相互影響,對於產品方向和技術路線的選擇也至關重要。為了探索這些問題,我對大型語言模型進行了一些評估實驗。通過評估它們在加密領域的知識和能力,我們測量了人工智能的加密應用水平,並確定了人工智能和加密技術融合的潛力和挑戰。
這個大型語言模型在加密貨幣和區塊鏈的基本知識方面表現良好,對加密生態系統有很好的理解,但在數學計算和複雜業務邏輯分析方面表現不佳。在私鑰和基本錢包操作方面,該模型有令人滿意的基礎,但面臨著如何在雲端保持私鑰的嚴峻挑戰。許多模型可以為簡單情況生成有效的智能合約代碼,但無法獨立執行複雜的任務,如合約審計和複雜合約創建。
商業閉源模型通常有很大的領先優勢。在開源陣營中,只有 Llama 3.1-405B 表現良好,而所有參數大小較小的開源模型都失敗了。但是,有潛力。通過及時的單詞引導、思想鏈推理和少鏡頭學習技術,所有模型的性能都得到了極大的提高。領先的模型在一些垂直應用場景中已經具有很強的技術可行性。
選取了18個代表性的語言模型作為評估對象,包括:
這些模型涵蓋了主流商業和流行的開源模型,參數量從3.8B到405B,範圍超過一百倍。考慮到加密技術和數學之間的密切關係,實驗特別選擇了兩個數學優化模型。
該實驗涵蓋的知識領域包括加密學、區塊鏈基礎知識、私鑰和錢包操作、智能合約、DAO和治理、共識和經濟模型、Dapp / DeFi / NFT、鏈上數據分析等。每個領域都包含一系列從簡單到困難的問題和任務,不僅測試了模型的知識儲備,還通過模擬任務測試了其在應用場景中的性能。
任務的設計來自不同的來源。有的來自加密領域多位專家的輸入,另一部分在AI的説明下生成,人工校對,保證任務的準確性和挑戰性。一些任務以相對簡單的格式使用多項選擇題,以促進單獨的標準化自動測試和評分。測試的另一部分採用更複雜的問題格式,測試過程採用程式自動化+手動+AI相結合的方式進行。所有測試任務均使用零樣本推理方法進行評估,無需提供任何範例、思想指導或說明性提示。
由於實驗設計本身相對粗糙,並且缺乏足夠的學術嚴謹性,用於測試的問題和任務遠未完全涵蓋加密領域,測試框架也尚未成熟。因此,本文並未列出具體的實驗數據,而是著重分享一些實驗中的見解。
在評估過程中,大型語言模型在各個領域的基礎知識測試中表現出色,例如加密算法、區塊鏈基礎知識和DeFi應用等。例如,所有模型對測試對數據可用性概念理解的問題給出了準確的答案。至於評估模型對以太坊交易結構的把握的問題,雖然每個模型在細節上有稍微不同的答案,但它們通常都包含正確的關鍵信息。檢查概念的多選題甚至更不困難,幾乎所有模型的準確性都在95%以上。
概念問題和答案對於大型模型來說是非常困難的。
然而,當遇到需要特定計算的問題時,情況就會完全相反。一個簡單的RSA算法計算問題會讓大多數模型陷入困境。很容易理解:大型語言模型主要通過識別和複製訓練數據中的模式來運作,而不是深入理解數學概念的本質。這種限制在處理抽象的數學概念(如模操作和指數操作)時尤為明顯。鑑於加密學領域與數學密切相關,這意味著直接依賴模型進行與加密相關的數學計算是不可靠的。
在其他計算問題中,大型語言模型的性能也不理想。例如,對於計算AMM的不穩定損失的簡單問題,儘管不涉及複雜的數學運算,只有18個模型中的4個給出了正確答案。至於另一個更基本的計算區塊概率的問題,所有模型都回答錯了。它使所有模型都難以應對,沒有一個是正確的。這不僅暴露了大型語言模型在精確計算方面的缺陷,而且反映了它們在業務邏輯分析方面的主要問題。值得注意的是,即使是數學優化模型在計算問題上也沒有顯示出明顯的優勢,其性能令人失望。
然而,數學計算的問題並非不可解決。如果我們做出輕微的調整,要求LLMs提供相應的Python代碼,而不是直接計算結果,準確率將大大提高。以前述的RSA計算問題為例,大多數模型給出的Python代碼可以順利執行並產生正確的結果。在實際的生產環境中,可以提供預設的算法代碼,以繞過LLMs的自我計算,這與人類處理此類任務的方式類似。在業務邏輯層面,通過精心設計的提示詞引導,也能有效提高模型的性能。
如果你問代理使用加密貨幣的第一個場景是什麼,我的答案是付款。加密貨幣幾乎可以被認為是一種人工智慧原生形式的貨幣。與代理商在傳統金融體系中面臨的諸多障礙相比,使用加密技術為自己配備數位身份並通過加密錢包管理資金是自然而然的選擇。因此,私鑰的生成和管理以及各種錢包操作構成了代理能夠獨立使用加密網路的最基本技能要求。
安全生成私鑰的核心在於高品質的隨機數字,這顯然是大型語言模型所沒有的能力。但是,這些模型對私鑰安全有足夠的理解。當要求生成私鑰時,大多數模型會選擇使用代碼(例如Python相關庫)引導用戶獨立生成私鑰。即使模型直接提供私鑰,也明確說明這僅用於演示目的,並不是可直接使用的安全私鑰。在這方面,所有大型模型都表現出了令人滿意的性能。
私鑰管理面臨一些挑戰,這主要是由於技術架構的固有局限性,而不是缺乏模型能力。使用本地部署的模型時,可以認為生成的私鑰相對安全。但是,如果使用商業雲模型,我們必須假設私鑰在生成時已暴露給模型操作員。但對於旨在獨立工作的代理來說,必須具有私鑰許可權,這意味著私鑰不能只在使用者本地使用。在這種情況下,僅僅依靠模型本身已經不足以保證私鑰的安全性,需要引入額外的安全服務,如可信執行環境或 HSM。
如果假設代理已經安全地持有私鑰並在此基礎上執行各種基本操作,則測試中的各種模型顯示出了良好的能力。儘管生成的步驟和代碼常常存在錯誤,但這些問題在很大程度上可以通過適當的工程結構來解決。從技術角度來看,可以說代理獨立執行基本錢包操作已經不再有太多障礙。
了解、利用、撰寫和識別智能合約的風險能力是AI代理在鏈上世界執行複雜任務的關鍵,也是實驗的重要測試領域。大型語言模型在這方面表現出顯著的潛力,但也暴露出一些明顯的問題。
測試中幾乎所有的模型都正確回答了底層合約概念,並能夠識別出簡單的錯誤。就合約燃氣優化而言,大多數模型能夠識別出關鍵的優化點並分析可能由優化引起的衝突。然而,當涉及到深層業務邏輯時,大型模型的限制開始展現出來。
以代幣發放合同為例:所有模型正確理解合同功能,大多數模型發現幾個中低風險漏洞。然而,沒有任何模型能夠獨立發現隱藏在業務邏輯中的高風險漏洞,這可能在特殊情況下導致一些資金被鎖定。在使用真實合同進行多次測試時,模型的表現大致相同。
這表明大模型對合約的理解仍停留在形式層面,缺乏對深層業務邏輯的理解。然而,在提供額外提示後,一些模型最終能夠獨立識別上述合約中深藏的漏洞。基於此性能判斷,在良好的工程設計支持下,大模型基本上具有在智能合約領域擔任副駕駛員的能力。然而,在能夠獨立承擔合約審計等重要任務之前,還有很長的路要走。
需要注意的一件事是,实验中与代码相关的任务主要是针对逻辑简单、代码行数不超过2,000行的合约。对于规模较大、复杂的项目,如果没有进行微调或复杂的提示词工程,我认为它显然超出了当前模型的有效处理能力,并未包括在测试范围内。此外,此测试仅涉及Solidity,不包括其他智能合约语言,如Rust和Move。
除了上述的測試內容外,該實驗還涵蓋了許多方面,包括 DeFi 情境、DAO 及其治理、鏈上數據分析、共識機制設計和 Tokenomics。大型語言模型已展示了在這些方面的某些能力。鑑於許多測試仍在進行中,測試方法和框架不斷被優化,本文暫時不會深入探討這些領域。
在所有參與評估的大型語言模型中,GPT-4o和Claude 3.5 Sonnet在其他領域中表現出色且無可爭議地成為領導者。面對基本問題時,這兩個模型幾乎總是能給出準確的答案;在複雜情境的分析中,它們能提供深入且有文件支持的見解。甚至在大型模型不擅長的計算任務中,它們表現出很高的勝率。當然,這種“高”成功率是相對的,還沒有達到在生產環境中穩定輸出的水平。
在開源模型陣營中,Llama 3.1-405B 憑藉其大參數規模和先進的模型演演演算法遙遙領先於同行。在其他參數大小較小的開源模型中,模型之間沒有明顯的性能差距。雖然比分略有不同,但總體上離及格線還很遠。
因此,如果您目前想要建立與加密相關的AI應用程式,這些具有小型和中型參數的模型並不是一個適合的選擇。
在我們的評論中,有兩個模型尤其突出。第一個是微軟推出的Phi-3 3.8B模型。這是參與此實驗的最小模型。然而,它的性能水平卻相當於8B-12B模型的一半以下的參數數量。在某些特定類別中,甚至更優秀。這個結果突顯了模型架構優化和訓練策略的重要性,不能僅僅依賴參數大小的增加。
而 Cohere 的 Command-R 模型則成為了一匹出人意料的“黑馬”-相反。相較於其他模型,Command-R 不那麼出名,但 Cohere 是一家專注於2B市場的大型模型公司。我認為在Agent開發等領域仍然存在很多匯聚點,所以它特別納入了測試範圍。然而,擁有35B參數的Command-R 在大多數測試中排名垫底,輸給了許多低於10B的模型。
這個結果引發了思考:當Command-R釋放時,它專注於檢索增強和生成能力,甚至沒有發佈常規基準測試結果。這是否意味著它只在特定場景中解鎖其全部潛力的“私鑰”?
在這一系列的測試中,我們對AI在加密領域的能力有了初步的瞭解。當然,這些測試遠非專業標準。數據集的覆蓋面遠遠不夠,答案的量化標準比較粗糙,還缺乏精細化、更精準的評分機制。這將影響評估結果的準確性,並可能導致某些模型的性能被低估。
就測試方法而言,該實驗只使用了零樣本學習的單一方法,並未探索像思維鏈和少樣本學習這樣能激發模型更大潛力的方法。就模型參數而言,實驗中使用了標準的模型參數,並未對不同參數設定對模型性能的影響進行考察。這些整體的單一測試方法限制了我們對模型潛力的全面評估,並未完全探索模型在特定條件下的性能差異。
雖然測試條件相對簡單,但這些實驗仍然產生了許多有價值的見解,並為開發人員構建應用程序提供了參考。
在人工智能領域中,基準測試起著關鍵作用。現代深度學習技術的快速發展源於李飛飛教授於2012年完成的ImageNet,它是計算機視覺領域的標準化基準測試和數據集。
通過提供評估的統一標準,基準不僅為開發人員提供清晰的目標和參考點,還推動了整個行業的技術進步。這也解釋了為什麼每個新發布的大型語言模型都將專注於宣布其在各種基準上的結果。這些結果成為模型能力的“通用語言”,使研究人員能夠找到突破,開發人員能夠選擇最適合特定任務的模型,用戶則能夠根據客觀數據做出明智的選擇。更重要的是,基準測試往往預示著人工智能應用的未來方向,指導著資源投資和研究方向。
如果我們相信人工智慧和加密貨幣的交叉領域具有巨大潛力,那麼建立專用的加密基準就成為一項緊迫的任務。建立基準可能成為連接人工智慧和加密領域的關鍵橋梁,催化創新,並為未來的應用提供明確的指導。
然而,與其他領域的成熟標杆相比,在加密領域建立標杆面臨著獨特的挑戰:加密技術發展迅速,行業知識體系尚未固化,多核方向缺乏共識。作為一個跨學科領域,密碼學涵蓋了密碼學、分散式系統、經濟學等,其複雜程度遠遠超出了單一領域。更具挑戰性的是,加密基準不僅需要評估知識,還需要檢驗AI使用加密技術的實際能力,這需要設計新的評估架構。缺乏相關數據集進一步增加了難度。
這項任務的複雜性和重要性決定了它不能由單一個人或團隊完成。它需要匯聚來自用戶、開發人員、密碼學專家、加密研究人員以及跨學科領域的更多人的智慧,並依賴廣泛的社區參與和共識。因此,加密基準需要進行更廣泛的討論,因為它不僅僅是一項技術工作,還是對我們如何理解這一新興技術的深刻反思。
在科技進步的編年史中,革命性技術常常獨立出現,每一項都引領著時代的變革。當兩項革命性技術相遇時,它們的碰撞往往會產生指數級的影響。如今,我們正站在這樣一個歷史性時刻:人工智慧和加密技術,這兩種同樣具破壞性的新技術,正手牽手地走進舞台的中心。
我們想像,人工智慧領域的許多挑戰都可以通過加密技術來解決;我們期待AI Agent構建自主經濟網路,推動加密技術的大規模採用;我們也希望AI能夠加速加密領域現有場景的發展。無數雙眼睛都聚焦於此,大量資金紛紛湧入。就像任何流行語一樣,它體現了人們對創新的渴望,對未來的憧憬,也蘊含著無法控制的野心和貪婪。
然而,在所有這些喧鬧中,我們對最基本的問題知之甚少。AI 對加密知道得有多好?配備大型語言模型的代理人是否真正具備使用加密工具的能力?不同的模型在加密任務上的表現有多大差異?
這些問題的答案將決定人工智能和加密技術的相互影響,對於產品方向和技術路線的選擇也至關重要。為了探索這些問題,我對大型語言模型進行了一些評估實驗。通過評估它們在加密領域的知識和能力,我們測量了人工智能的加密應用水平,並確定了人工智能和加密技術融合的潛力和挑戰。
這個大型語言模型在加密貨幣和區塊鏈的基本知識方面表現良好,對加密生態系統有很好的理解,但在數學計算和複雜業務邏輯分析方面表現不佳。在私鑰和基本錢包操作方面,該模型有令人滿意的基礎,但面臨著如何在雲端保持私鑰的嚴峻挑戰。許多模型可以為簡單情況生成有效的智能合約代碼,但無法獨立執行複雜的任務,如合約審計和複雜合約創建。
商業閉源模型通常有很大的領先優勢。在開源陣營中,只有 Llama 3.1-405B 表現良好,而所有參數大小較小的開源模型都失敗了。但是,有潛力。通過及時的單詞引導、思想鏈推理和少鏡頭學習技術,所有模型的性能都得到了極大的提高。領先的模型在一些垂直應用場景中已經具有很強的技術可行性。
選取了18個代表性的語言模型作為評估對象,包括:
這些模型涵蓋了主流商業和流行的開源模型,參數量從3.8B到405B,範圍超過一百倍。考慮到加密技術和數學之間的密切關係,實驗特別選擇了兩個數學優化模型。
該實驗涵蓋的知識領域包括加密學、區塊鏈基礎知識、私鑰和錢包操作、智能合約、DAO和治理、共識和經濟模型、Dapp / DeFi / NFT、鏈上數據分析等。每個領域都包含一系列從簡單到困難的問題和任務,不僅測試了模型的知識儲備,還通過模擬任務測試了其在應用場景中的性能。
任務的設計來自不同的來源。有的來自加密領域多位專家的輸入,另一部分在AI的説明下生成,人工校對,保證任務的準確性和挑戰性。一些任務以相對簡單的格式使用多項選擇題,以促進單獨的標準化自動測試和評分。測試的另一部分採用更複雜的問題格式,測試過程採用程式自動化+手動+AI相結合的方式進行。所有測試任務均使用零樣本推理方法進行評估,無需提供任何範例、思想指導或說明性提示。
由於實驗設計本身相對粗糙,並且缺乏足夠的學術嚴謹性,用於測試的問題和任務遠未完全涵蓋加密領域,測試框架也尚未成熟。因此,本文並未列出具體的實驗數據,而是著重分享一些實驗中的見解。
在評估過程中,大型語言模型在各個領域的基礎知識測試中表現出色,例如加密算法、區塊鏈基礎知識和DeFi應用等。例如,所有模型對測試對數據可用性概念理解的問題給出了準確的答案。至於評估模型對以太坊交易結構的把握的問題,雖然每個模型在細節上有稍微不同的答案,但它們通常都包含正確的關鍵信息。檢查概念的多選題甚至更不困難,幾乎所有模型的準確性都在95%以上。
概念問題和答案對於大型模型來說是非常困難的。
然而,當遇到需要特定計算的問題時,情況就會完全相反。一個簡單的RSA算法計算問題會讓大多數模型陷入困境。很容易理解:大型語言模型主要通過識別和複製訓練數據中的模式來運作,而不是深入理解數學概念的本質。這種限制在處理抽象的數學概念(如模操作和指數操作)時尤為明顯。鑑於加密學領域與數學密切相關,這意味著直接依賴模型進行與加密相關的數學計算是不可靠的。
在其他計算問題中,大型語言模型的性能也不理想。例如,對於計算AMM的不穩定損失的簡單問題,儘管不涉及複雜的數學運算,只有18個模型中的4個給出了正確答案。至於另一個更基本的計算區塊概率的問題,所有模型都回答錯了。它使所有模型都難以應對,沒有一個是正確的。這不僅暴露了大型語言模型在精確計算方面的缺陷,而且反映了它們在業務邏輯分析方面的主要問題。值得注意的是,即使是數學優化模型在計算問題上也沒有顯示出明顯的優勢,其性能令人失望。
然而,數學計算的問題並非不可解決。如果我們做出輕微的調整,要求LLMs提供相應的Python代碼,而不是直接計算結果,準確率將大大提高。以前述的RSA計算問題為例,大多數模型給出的Python代碼可以順利執行並產生正確的結果。在實際的生產環境中,可以提供預設的算法代碼,以繞過LLMs的自我計算,這與人類處理此類任務的方式類似。在業務邏輯層面,通過精心設計的提示詞引導,也能有效提高模型的性能。
如果你問代理使用加密貨幣的第一個場景是什麼,我的答案是付款。加密貨幣幾乎可以被認為是一種人工智慧原生形式的貨幣。與代理商在傳統金融體系中面臨的諸多障礙相比,使用加密技術為自己配備數位身份並通過加密錢包管理資金是自然而然的選擇。因此,私鑰的生成和管理以及各種錢包操作構成了代理能夠獨立使用加密網路的最基本技能要求。
安全生成私鑰的核心在於高品質的隨機數字,這顯然是大型語言模型所沒有的能力。但是,這些模型對私鑰安全有足夠的理解。當要求生成私鑰時,大多數模型會選擇使用代碼(例如Python相關庫)引導用戶獨立生成私鑰。即使模型直接提供私鑰,也明確說明這僅用於演示目的,並不是可直接使用的安全私鑰。在這方面,所有大型模型都表現出了令人滿意的性能。
私鑰管理面臨一些挑戰,這主要是由於技術架構的固有局限性,而不是缺乏模型能力。使用本地部署的模型時,可以認為生成的私鑰相對安全。但是,如果使用商業雲模型,我們必須假設私鑰在生成時已暴露給模型操作員。但對於旨在獨立工作的代理來說,必須具有私鑰許可權,這意味著私鑰不能只在使用者本地使用。在這種情況下,僅僅依靠模型本身已經不足以保證私鑰的安全性,需要引入額外的安全服務,如可信執行環境或 HSM。
如果假設代理已經安全地持有私鑰並在此基礎上執行各種基本操作,則測試中的各種模型顯示出了良好的能力。儘管生成的步驟和代碼常常存在錯誤,但這些問題在很大程度上可以通過適當的工程結構來解決。從技術角度來看,可以說代理獨立執行基本錢包操作已經不再有太多障礙。
了解、利用、撰寫和識別智能合約的風險能力是AI代理在鏈上世界執行複雜任務的關鍵,也是實驗的重要測試領域。大型語言模型在這方面表現出顯著的潛力,但也暴露出一些明顯的問題。
測試中幾乎所有的模型都正確回答了底層合約概念,並能夠識別出簡單的錯誤。就合約燃氣優化而言,大多數模型能夠識別出關鍵的優化點並分析可能由優化引起的衝突。然而,當涉及到深層業務邏輯時,大型模型的限制開始展現出來。
以代幣發放合同為例:所有模型正確理解合同功能,大多數模型發現幾個中低風險漏洞。然而,沒有任何模型能夠獨立發現隱藏在業務邏輯中的高風險漏洞,這可能在特殊情況下導致一些資金被鎖定。在使用真實合同進行多次測試時,模型的表現大致相同。
這表明大模型對合約的理解仍停留在形式層面,缺乏對深層業務邏輯的理解。然而,在提供額外提示後,一些模型最終能夠獨立識別上述合約中深藏的漏洞。基於此性能判斷,在良好的工程設計支持下,大模型基本上具有在智能合約領域擔任副駕駛員的能力。然而,在能夠獨立承擔合約審計等重要任務之前,還有很長的路要走。
需要注意的一件事是,实验中与代码相关的任务主要是针对逻辑简单、代码行数不超过2,000行的合约。对于规模较大、复杂的项目,如果没有进行微调或复杂的提示词工程,我认为它显然超出了当前模型的有效处理能力,并未包括在测试范围内。此外,此测试仅涉及Solidity,不包括其他智能合约语言,如Rust和Move。
除了上述的測試內容外,該實驗還涵蓋了許多方面,包括 DeFi 情境、DAO 及其治理、鏈上數據分析、共識機制設計和 Tokenomics。大型語言模型已展示了在這些方面的某些能力。鑑於許多測試仍在進行中,測試方法和框架不斷被優化,本文暫時不會深入探討這些領域。
在所有參與評估的大型語言模型中,GPT-4o和Claude 3.5 Sonnet在其他領域中表現出色且無可爭議地成為領導者。面對基本問題時,這兩個模型幾乎總是能給出準確的答案;在複雜情境的分析中,它們能提供深入且有文件支持的見解。甚至在大型模型不擅長的計算任務中,它們表現出很高的勝率。當然,這種“高”成功率是相對的,還沒有達到在生產環境中穩定輸出的水平。
在開源模型陣營中,Llama 3.1-405B 憑藉其大參數規模和先進的模型演演演算法遙遙領先於同行。在其他參數大小較小的開源模型中,模型之間沒有明顯的性能差距。雖然比分略有不同,但總體上離及格線還很遠。
因此,如果您目前想要建立與加密相關的AI應用程式,這些具有小型和中型參數的模型並不是一個適合的選擇。
在我們的評論中,有兩個模型尤其突出。第一個是微軟推出的Phi-3 3.8B模型。這是參與此實驗的最小模型。然而,它的性能水平卻相當於8B-12B模型的一半以下的參數數量。在某些特定類別中,甚至更優秀。這個結果突顯了模型架構優化和訓練策略的重要性,不能僅僅依賴參數大小的增加。
而 Cohere 的 Command-R 模型則成為了一匹出人意料的“黑馬”-相反。相較於其他模型,Command-R 不那麼出名,但 Cohere 是一家專注於2B市場的大型模型公司。我認為在Agent開發等領域仍然存在很多匯聚點,所以它特別納入了測試範圍。然而,擁有35B參數的Command-R 在大多數測試中排名垫底,輸給了許多低於10B的模型。
這個結果引發了思考:當Command-R釋放時,它專注於檢索增強和生成能力,甚至沒有發佈常規基準測試結果。這是否意味著它只在特定場景中解鎖其全部潛力的“私鑰”?
在這一系列的測試中,我們對AI在加密領域的能力有了初步的瞭解。當然,這些測試遠非專業標準。數據集的覆蓋面遠遠不夠,答案的量化標準比較粗糙,還缺乏精細化、更精準的評分機制。這將影響評估結果的準確性,並可能導致某些模型的性能被低估。
就測試方法而言,該實驗只使用了零樣本學習的單一方法,並未探索像思維鏈和少樣本學習這樣能激發模型更大潛力的方法。就模型參數而言,實驗中使用了標準的模型參數,並未對不同參數設定對模型性能的影響進行考察。這些整體的單一測試方法限制了我們對模型潛力的全面評估,並未完全探索模型在特定條件下的性能差異。
雖然測試條件相對簡單,但這些實驗仍然產生了許多有價值的見解,並為開發人員構建應用程序提供了參考。
在人工智能領域中,基準測試起著關鍵作用。現代深度學習技術的快速發展源於李飛飛教授於2012年完成的ImageNet,它是計算機視覺領域的標準化基準測試和數據集。
通過提供評估的統一標準,基準不僅為開發人員提供清晰的目標和參考點,還推動了整個行業的技術進步。這也解釋了為什麼每個新發布的大型語言模型都將專注於宣布其在各種基準上的結果。這些結果成為模型能力的“通用語言”,使研究人員能夠找到突破,開發人員能夠選擇最適合特定任務的模型,用戶則能夠根據客觀數據做出明智的選擇。更重要的是,基準測試往往預示著人工智能應用的未來方向,指導著資源投資和研究方向。
如果我們相信人工智慧和加密貨幣的交叉領域具有巨大潛力,那麼建立專用的加密基準就成為一項緊迫的任務。建立基準可能成為連接人工智慧和加密領域的關鍵橋梁,催化創新,並為未來的應用提供明確的指導。
然而,與其他領域的成熟標杆相比,在加密領域建立標杆面臨著獨特的挑戰:加密技術發展迅速,行業知識體系尚未固化,多核方向缺乏共識。作為一個跨學科領域,密碼學涵蓋了密碼學、分散式系統、經濟學等,其複雜程度遠遠超出了單一領域。更具挑戰性的是,加密基準不僅需要評估知識,還需要檢驗AI使用加密技術的實際能力,這需要設計新的評估架構。缺乏相關數據集進一步增加了難度。
這項任務的複雜性和重要性決定了它不能由單一個人或團隊完成。它需要匯聚來自用戶、開發人員、密碼學專家、加密研究人員以及跨學科領域的更多人的智慧,並依賴廣泛的社區參與和共識。因此,加密基準需要進行更廣泛的討論,因為它不僅僅是一項技術工作,還是對我們如何理解這一新興技術的深刻反思。