“Một tác phẩm nghệ thuật không bao giờ hoàn thiện, chỉ có thể bị bỏ rơi.”
Mọi người đều đang nói về AI Agents, nhưng điều mà họ đang nói không phải là cùng một điều, điều này dẫn đến sự hiểu biết khác nhau về AI Agents từ quan điểm của chúng tôi, công chúng và các nhà thực hành AI.
Một thời xa xưa, tôi đã viết rằng Tiền điện tử là ảo tưởng của AIKể từ đó, sự kết hợp giữa Tiền điện tử và trí tuệ nhân tạo vẫn là một mối quan hệ tình yêu một chiều. Các chuyên gia trí tuệ nhân tạo hiếm khi đề cập đến Web3 hoặc blockchain, trong khi các người hâm mộ Tiền điện tử đang rất mê mẩn với trí tuệ nhân tạo. Sau khi chứng kiến hiện tượng mà các khung sườn AI Agent thậm chí có thể được mã hóa, là không chắc chắn liệu điều này có thực sự đưa các chuyên gia trí tuệ nhân tạo vào thế giới của chúng ta hay không.
AI là đại diện của Tiền điện tử. Đây là chú thích tốt nhất từ quan điểm Tiền điện tử để nhìn nhận sự bùng nổ của AI hiện tại. Sự hăng say của Tiền điện tử đối với AI khác biệt so với các ngành khác; chúng tôi đặc biệt hy vọng tích hợp việc phát hành và vận hành tài sản tài chính với nó.
Ở bản chất, AI Agent có ít nhất ba nguồn. AGI (Trí tuệ Nhân tạo Tổng quát) của OpenAI coi đây là một bước quan trọng, biến thuật ngữ này thành một từ ngữ phổ biến ngoài các vòng kỹ thuật. Tuy nhiên, về bản chất, một Agent không phải là một khái niệm mới. Ngay cả khi có sự hỗ trợ của trí tuệ nhân tạo, khó nói rằng đó là một xu hướng công nghệ cách mạng.
Nguồn đầu tiên là AI Agent như được thấy bởi OpenAI. Tương tự như cấp độ L3 trong lái tự động, một AI Agent có thể được xem như sở hữu một số khả năng hỗ trợ tiên tiến nhất nhất nhất nhưng vẫn chưa thể hoàn toàn thay thế con người.
Chú thích hình ảnh: giai đoạn AGI của kế hoạch OpenAI
Nguồn hình ảnh: https://www.bloomberg.com/
Nguồn thứ hai là, như tên cho thấy, Tác nhân AI, là một Đặc vụ được trao quyền bởi AI. Khái niệm cơ chế đại lý và ủy quyền không phải là mới trong lĩnh vực điện toán. Tuy nhiên, theo tầm nhìn của OpenAI, Agent sẽ trở thành giai đoạn L3 theo các hình thức đàm thoại (như ChatGPT) và các hình thức lý luận (như các bot khác nhau). Tính năng chính của giai đoạn này là khả năng “thực hiện một số hành vi nhất định một cách tự chủ”, hoặc, như người sáng lập LangChain Harrison Chase định nghĩa: “Tác nhân AI là một hệ thống sử dụng LLM (Mô hình ngôn ngữ lớn) để đưa ra quyết định luồng điều khiển trong một chương trình.” \
Đây là nơi nó trở nên hấp dẫn. Trước sự ra đời của LLMs, một Đại lý thực hiện chủ yếu các quy trình tự động được thiết lập bởi con người. Ví dụ, khi thiết kế một công cụ rút trang web, các lập trình viên sẽ thiết lập một User-Agent để mô phỏng các chi tiết như phiên bản trình duyệt và hệ điều hành được sử dụng bởi người dùng thực sự. Nếu một Đại lý AI được sử dụng để mô phỏng hành vi con người một cách chính xác hơn, điều đó có thể dẫn đến việc tạo ra một khung công cụ rút trang web dựa trên Đại lý AI, khiến công cụ rút trang “giống con người hơn.” \
Trong những bước chuyển đổi như vậy, việc giới thiệu AI Agents phải tích hợp với các kịch bản hiện có, vì các lĩnh vực hoàn toàn mới hiếm khi tồn tại. Ngay cả khả năng hoàn thành mã và tạo mã trong các công cụ như Curosr và Github Copilot chỉ là các cải tiến chức năng trong khung LSP (Language Server Protocol), với nhiều ví dụ về sự tiến hóa như vậy:
Để làm rõ, trong tương tác giữa con người và máy tính, sự kết hợp giữa giao diện người dùng Web 1.0 và trình duyệt thực sự cho phép công chúng sử dụng máy tính mà không gặp rào cản, được đại diện bởi sự kết hợp của Windows và IE. API trở thành tiêu chuẩn truyền dữ liệu và trừu tượng hóa dữ liệu đằng sau internet, và trong thời đại Web 2.0, trình duyệt như Chrome đã xuất hiện, với sự chuyển đổi sang di động thay đổi thói quen sử dụng internet của người dân. Các ứng dụng siêu như WeChat và nền tảng Meta hiện tại bao phủ mọi khía cạnh của cuộc sống của người dân.
Nguồn thứ ba là khái niệm “Intent” trong không gian Tiền điện tử, đã dẫn đến sự bùng nổ quan tâm xung quanh AI Agents. Tuy nhiên, lưu ý rằng điều này chỉ áp dụng trong Tiền điện tử. Từ các scripts của Bitcoin với chức năng hạn chế đến smart contracts của Ethereum, khái niệm Agent chính nó đã được sử dụng rộng rãi. Sự xuất hiện sau này của cầu nối qua chuỗi, trừu tượng hóa chuỗi, EOA (Externally Owned Accounts) đến các ví AA (Account Abstraction) là những sự mở rộng tự nhiên của dòng suy nghĩ này. Do đó, khi AI Agents “xâm chiếm” Tiền điện tử, không ngạc nhiên khi chúng tự nhiên dẫn đến các kịch bản DeFi.
Đây là nơi sự nhầm lẫn về khái niệm AI Agent phát sinh. Trong ngữ cảnh Crypto, những gì chúng ta thực sự đang cố gắng đạt được là một AI Agent quản lý tài chính tự động, tạo meme tự động. Tuy nhiên, theo định nghĩa của OpenAI, một kịch bản nguy hiểm như vậy sẽ đòi hỏi L4 hoặc L5 được thực hiện thực sự. Trong khi đó, công chúng đang thử nghiệm với việc tạo mã tự động hoặc hỗ trợ viết tóm tắt và viết, được cung cấp bởi trí tuệ nhân tạo, nhưng không đạt được các mục tiêu chúng ta đang theo đuổi.
Một khi chúng ta hiểu được những gì chúng ta thực sự muốn, chúng ta có thể tập trung vào logic tổ chức của AI Agents. Các chi tiết kỹ thuật sẽ được tiếp tục, vì khái niệm về AI Agent cuối cùng là về việc loại bỏ các rào cản đối với việc áp dụng công nghệ quy mô lớn, tương tự như cách trình duyệt đã cách mạng hóa ngành công nghiệp máy tính cá nhân. Sự tập trung của chúng tôi sẽ là hai điểm: xem xét AI Agents từ quan điểm tương tác giữa con người và máy tính và hiểu sự khác biệt và kết nối giữa AI Agents và LLMs, điều đó sẽ dẫn chúng ta đến phần thứ ba: những gì mà sự kết hợp của Tiền điện tử và AI Agents sẽ cuối cùng để lại.
Trước các mô hình tương tác giữa người và máy tính như ChatGPT, các hình thức tương tác chính giữa người và máy tính là GUI (Giao diện người dùng đồ họa) và CLI (Giao diện dòng lệnh). Tư duy GUI đã phát triển thành nhiều hình thức cụ thể khác nhau như trình duyệt và ứng dụng, trong khi sự kết hợp giữa CLI và Shell cho thấy sự thay đổi tối thiểu.
Nhưng đây chỉ là “giao diện người-máy” của truyền thông giữa con người và máy tính. Khi mạng internet phát triển, sự tăng về khối lượng và đa dạng dữ liệu đã dẫn đến sự tương tác “backend” giữa dữ liệu và giữa các ứng dụng. Hai khía cạnh này phụ thuộc lẫn nhau - thậm chí một hành động duyệt web đơn giản cũng đòi hỏi sự cộng tác của chúng.
Nếu tương tác của con người với trình duyệt và ứng dụng được coi là điểm nhập người dùng, thì các liên kết và chuyển tiếp giữa các API hỗ trợ hoạt động thực tế của internet. Thực tế này cũng là một phần của Đại lý. Người dùng thông thường không cần hiểu các thuật ngữ như dòng lệnh và API để đạt được mục tiêu của họ.
Điều tương tự cũng áp dụng cho LLMs. Bây giờ, người dùng có thể đi xa hơn—không cần tìm kiếm nữa. Toàn bộ quy trình có thể được mô tả theo các bước sau:
Có thể thấy rằng trong quá trình này, thách thức lớn nhất là Google, bởi vì người dùng không cần mở máy tìm kiếm, mà là các cửa sổ trò chuyện giống như GPT khác nhau, và lối vào lưu lượng đang thay đổi một cách im lặng. Chính vì lý do này mà một số người nghĩ rằng LLM này cách mạng hóa cuộc sống của các máy tìm kiếm.
Vậy, AI Agent đóng vai trò gì trong quá trình này?
Nói ngắn gọn, AI Agent là một phần mở rộng chuyên biệt của LLM.
Các LLM hiện tại không phải là AGI (Trí tuệ Nhân tạo Tổng quát) và cách xa khá nhiều so với tổ chức L5 của OpenAI. Khả năng của chúng bị giới hạn đáng kể. Ví dụ, LLM dễ mắc chứng ảo giác nếu được cung cấp quá nhiều đầu vào từ người dùng. Một nguyên nhân chính nằm trong cơ chế đào tạo. Ví dụ, nếu bạn liên tục nói với GPT rằng 1+1=3, có khả năng nó sẽ trả lời là 4 khi được hỏi về 1+1+1=?.
Điều này xảy ra vì phản hồi của GPT dựa hoàn toàn trên đầu vào của người dùng. Nếu mô hình không kết nối với internet, có thể làm thay đổi hoạt động của nó bằng cách nhập vào của bạn, dẫn đến một mô hình chỉ “biết” 1+1=3. Tuy nhiên, nếu mô hình được phép kết nối với internet, cơ chế phản hồi của nó trở nên đa dạng hơn, vì phần lớn dữ liệu trực tuyến sẽ xác nhận rằng 1+1=2.
Bây giờ, nếu chúng ta phải sử dụng LLMs cục bộ và muốn tránh những vấn đề như vậy?
Một giải pháp thẳng thẳn là sử dụng hai LLM đồng thời, yêu cầu họ chéo kiểm tra các phản ứng của nhau để giảm thiểu xác suất lỗi. Nếu điều này không đủ, một cách tiếp cận khác có thể liên quan đến việc có hai người dùng xử lý một quy trình duy nhất - một người đặt câu hỏi và người kia làm cho chúng trở nên chính xác và logic hơn.
Tất nhiên, việc kết nối với internet không hoàn toàn loại bỏ các vấn đề. Ví dụ, nếu LLM truy xuất câu trả lời từ các nguồn không đáng tin cậy, tình hình có thể trở nên tồi tệ hơn. Tuy nhiên, việc tránh dữ liệu như vậy cũng giảm đi lượng thông tin có sẵn. Để giải quyết vấn đề này, dữ liệu hiện có có thể được chia thành nhiều phần, kết hợp lại hoặc thậm chí sử dụng để tạo ra dữ liệu mới dựa trên các bộ dữ liệu cũ hơn để làm cho các phản hồi đáng tin cậy hơn. Cách tiếp cận này về cơ bản là khái niệm RAG (Retrieval-Augmented Generation) trong hiểu ngôn ngữ tự nhiên.
Con người và máy móc cần hiểu nhau. Khi nhiều LLMs cùng hợp tác và tương tác, chúng ta thực chất đang tận dụng mô hình hoạt động của các Đại lý Trí tuệ nhân tạo. Chúng đóng vai trò nhân tố thay thế con người, truy cập vào các tài nguyên khác, bao gồm các mô hình lớn và các đại lý khác.
Điều này dẫn chúng ta đến mối liên hệ giữa LLMs và AI Agents:
LLMs là tổng hợp kiến thức mà con người tương tác thông qua giao diện trò chuyện. Tuy nhiên, trong thực tế, một số quy trình cụ thể có thể được tóm gọn thành các chương trình nhỏ hơn, bot hoặc tập hợp các hướng dẫn. Những thứ này được xác định là các Đại lý.
Các AI Agents vẫn là một phần của LLMs nhưng không nên coi chúng như nhau. Đặc điểm quan trọng của AI Agents nằm trong việc tập trung vào việc hợp tác với các chương trình bên ngoài, LLMs và các agent khác. Đây là lý do tại sao người ta thường tóm tắt AI Agents là LLM + API.
Để minh họa điều này trong quy trình LLM, hãy lấy ví dụ về một cuộc gọi API thông qua một AI Agent:
Nhớ lại quá trình tiến hóa của tương tác giữa con người và máy tính? Trình duyệt, API và các yếu tố khác từ Web 1.0 và Web 2.0 vẫn tồn tại, nhưng người dùng không cần nữa phải tương tác trực tiếp với chúng. Thay vào đó, họ có thể tương tác với các Đại lý Trí tuệ Nhân tạo (AI Agents). Cuộc gọi API và các quy trình liên quan có thể được tiến hành theo cách trò chuyện. Các dịch vụ API này có thể bao gồm bất kỳ loại dữ liệu nào, dù là dữ liệu địa phương, trực tuyến hay từ các ứng dụng bên ngoài, miễn là các giao diện đều mở và người dùng có đủ quyền truy cập vào chúng.
Quy trình hoạt động của một AI Agent hoàn chỉnh, như được hiển thị ở trên, xem xét LLM hoặc là một thành phần riêng biệt từ AI Agent hoặc là hai tiến trình con trong một quy trình làm việc. Bất kể cách chia chia chúng ra sao, mục tiêu luôn là phục vụ nhu cầu của người dùng. Từ quan điểm tương tác giữa con người và máy tính, đôi khi ngay cả cảm giác như người dùng đang nói chuyện với chính họ. Bạn chỉ cần diễn đạt đầy đủ suy nghĩ của mình, và AI/LLM/AI Agent sẽ liên tục đoán đúng nhu cầu của bạn. Bằng cách tích hợp cơ chế phản hồi và đảm bảo rằng LLM nhớ vị trí hiện tại, AI Agent tránh mất dấu nhiệm vụ của mình.
Tóm lại, AI Agents là những tạo vật mang tính cá nhân hóa và nhân hóa hơn, làm cho chúng khác biệt so với các kịch bản truyền thống và công cụ tự động hóa. Chúng hoạt động như các trợ lý cá nhân, xem xét nhu cầu thực tế của người dùng. Tuy nhiên, điều quan trọng cần lưu ý là sự cá nhân hóa này vẫn dựa trên suy diễn xác suất. Một AI Agent cấp độ L3 không sở hữu khả năng hiểu biết và biểu hiện cấp độ con người, làm cho việc tích hợp nó với các API bên ngoài có nguy cơ bẩm sinh.
Khả năng tiền hóa các khung công cụ AI là một trong những lý do chính khiến tôi vẫn quan tâm đến tiền điện tử. Trong các ngăn xếp công nghệ AI truyền thống, các khung công cụ không quan trọng, ít nhất là so với dữ liệu và công năng tính toán. Việc tiền hóa các sản phẩm AI hiếm khi bắt đầu từ khung công cụ, vì hầu hết các thuật toán và khung công cụ AI đều là mã nguồn mở. Những gì còn lại là các yếu tố nhạy cảm như dữ liệu.
Về cơ bản, các khung AI hoặc mô hình là các khối chứa và kết hợp của thuật toán, tương tự như một nồi để nấu thịt ngỗng. Tuy nhiên, chất lượng của thịt ngỗng và sự thành thạo trong quá trình nấu ăn mới thực sự định nghĩa hương vị. Lý thuyết, sản phẩm được bán nên là thịt ngỗng, nhưng khách hàng Web3 dường như thích mua nồi và vứt bỏ thịt ngỗng.
Lý do cho điều này không phức tạp. Hầu hết các sản phẩm Web3 AI được xây dựng trên các khung AI, thuật toán và sản phẩm hiện có, tùy chỉnh chúng cho mục đích của họ. Trên thực tế, các nguyên tắc kỹ thuật đằng sau các khung AI crypto khác nhau không khác biệt nhiều. Vì công nghệ chính nó thiếu sự khác biệt, sự chú ý chuyển sang nhãn hiệu, kịch bản ứng dụng và các khác biệt bề mặt khác. Kết quả là, ngay cả những điều chỉnh nhỏ trong khung AI trở thành nền tảng để hỗ trợ các token khác nhau, dẫn đến một bong bóng khung trong các hệ sinh thái Crypto AI Agent.
Vì không cần đầu tư nhiều vào dữ liệu đào tạo hoặc thuật toán, việc phân biệt các khung công việc theo tên trở nên đặc biệt quan trọng. Ngay cả một khung công việc giá cả phải chăng như DeepSeek V3 vẫn đòi hỏi những chi phí đáng kể về sức mạnh GPU, điện năng và nỗ lực.
Một mặt, điều này khớp với xu hướng mới nhất của Web3: các nền tảng phát hành mã thông báo thường có giá trị hơn chính các mã thông báo đó. Các dự án như Pump.Fun và Hyperliquid là minh chứng cho điều này. Ban đầu, Agents được cho là đại diện cho các ứng dụng và tài sản, nhưng các khung phát hành Agents bây giờ đã trở thành hàng hóa nóng nhất.
Điều này phản ánh một hình thức neo giá trị. Vì Đại lý thiếu sự khác biệt, các khuôn khổ để phát hành Đại lý trở nên ổn định hơn và tạo ra hiệu ứng bòn rút giá trị cho việc phát hành tài sản. Điều này đánh dấu phiên bản 1.0 của việc tích hợp tiền điện tử và AI Agents.
Phiên bản 2.0 hiện đang nổi lên, được minh chứng bằng sự hội tụ của DeFi và AI Agents. Mặc dù khái niệm DeFAI có thể đã được kích hoạt bởi sự cường điệu của thị trường, nhưng một cái nhìn sâu hơn về các xu hướng sau đây cho thấy điều ngược lại:
Trong bối cảnh chuyển đổi DeFi này, AI đang tái tạo logic cốt lõi của DeFi. Trước đây, logic cốt lõi của DeFi là xác minh khả thi của hợp đồng thông minh. Bây giờ, AI Agents đang thay đổi logic sản xuất của DeFi. Bạn không còn cần hiểu về DeFi để tạo ra các sản phẩm DeFi. Điều này đại diện cho một bước vượt qua trừu tượng chuỗi, mang lại quyền hạn cơ bản sâu hơn.
Thời đại mà ai cũng có thể trở thành lập trình viên đang ở ngưỡng cửa. Các tính toán phức tạp có thể được giao cho LLM và API đằng sau AI Agents, cho phép mọi người tập trung hoàn toàn vào ý tưởng của họ. Ngôn ngữ tự nhiên có thể được biến đổi một cách hiệu quả thành logic lập trình.
Bài viết này không đề cập đến bất kỳ mã thông báo Crypto AI Agent nào hoặc framework nào, vì Cookie.Fun đã làm rất tốt - một nền tảng cho việc tổng hợp thông tin về AI Agent và khám phá mã thông báo, tiếp theo là các framework AI Agent, và cuối cùng là sự xuất hiện và biến mất thoáng qua của các mã thông báo Agent. Tiếp tục liệt kê thông tin như vậy ở đây sẽ không có nhiều giá trị.
Tuy nhiên, thông qua quan sát trong thời gian này, thị trường vẫn thiếu một cuộc thảo luận có ý nghĩa về điều mà Crypto AI Agents đang nhắm đến cuối cùng là gì. Chúng ta không thể tiếp tục tập trung vào những chỉ báo; bản chất nằm ở những thay đổi đang xảy ra ở mức bộ nhớ.
Chính vì khả năng liên tục biến đổi các tài sản thành các hình thức token hóa mà Crypto trở nên hấp dẫn đến vậy.
“Một tác phẩm nghệ thuật không bao giờ hoàn thiện, chỉ có thể bị bỏ rơi.”
Mọi người đều đang nói về AI Agents, nhưng điều mà họ đang nói không phải là cùng một điều, điều này dẫn đến sự hiểu biết khác nhau về AI Agents từ quan điểm của chúng tôi, công chúng và các nhà thực hành AI.
Một thời xa xưa, tôi đã viết rằng Tiền điện tử là ảo tưởng của AIKể từ đó, sự kết hợp giữa Tiền điện tử và trí tuệ nhân tạo vẫn là một mối quan hệ tình yêu một chiều. Các chuyên gia trí tuệ nhân tạo hiếm khi đề cập đến Web3 hoặc blockchain, trong khi các người hâm mộ Tiền điện tử đang rất mê mẩn với trí tuệ nhân tạo. Sau khi chứng kiến hiện tượng mà các khung sườn AI Agent thậm chí có thể được mã hóa, là không chắc chắn liệu điều này có thực sự đưa các chuyên gia trí tuệ nhân tạo vào thế giới của chúng ta hay không.
AI là đại diện của Tiền điện tử. Đây là chú thích tốt nhất từ quan điểm Tiền điện tử để nhìn nhận sự bùng nổ của AI hiện tại. Sự hăng say của Tiền điện tử đối với AI khác biệt so với các ngành khác; chúng tôi đặc biệt hy vọng tích hợp việc phát hành và vận hành tài sản tài chính với nó.
Ở bản chất, AI Agent có ít nhất ba nguồn. AGI (Trí tuệ Nhân tạo Tổng quát) của OpenAI coi đây là một bước quan trọng, biến thuật ngữ này thành một từ ngữ phổ biến ngoài các vòng kỹ thuật. Tuy nhiên, về bản chất, một Agent không phải là một khái niệm mới. Ngay cả khi có sự hỗ trợ của trí tuệ nhân tạo, khó nói rằng đó là một xu hướng công nghệ cách mạng.
Nguồn đầu tiên là AI Agent như được thấy bởi OpenAI. Tương tự như cấp độ L3 trong lái tự động, một AI Agent có thể được xem như sở hữu một số khả năng hỗ trợ tiên tiến nhất nhất nhất nhưng vẫn chưa thể hoàn toàn thay thế con người.
Chú thích hình ảnh: giai đoạn AGI của kế hoạch OpenAI
Nguồn hình ảnh: https://www.bloomberg.com/
Nguồn thứ hai là, như tên cho thấy, Tác nhân AI, là một Đặc vụ được trao quyền bởi AI. Khái niệm cơ chế đại lý và ủy quyền không phải là mới trong lĩnh vực điện toán. Tuy nhiên, theo tầm nhìn của OpenAI, Agent sẽ trở thành giai đoạn L3 theo các hình thức đàm thoại (như ChatGPT) và các hình thức lý luận (như các bot khác nhau). Tính năng chính của giai đoạn này là khả năng “thực hiện một số hành vi nhất định một cách tự chủ”, hoặc, như người sáng lập LangChain Harrison Chase định nghĩa: “Tác nhân AI là một hệ thống sử dụng LLM (Mô hình ngôn ngữ lớn) để đưa ra quyết định luồng điều khiển trong một chương trình.” \
Đây là nơi nó trở nên hấp dẫn. Trước sự ra đời của LLMs, một Đại lý thực hiện chủ yếu các quy trình tự động được thiết lập bởi con người. Ví dụ, khi thiết kế một công cụ rút trang web, các lập trình viên sẽ thiết lập một User-Agent để mô phỏng các chi tiết như phiên bản trình duyệt và hệ điều hành được sử dụng bởi người dùng thực sự. Nếu một Đại lý AI được sử dụng để mô phỏng hành vi con người một cách chính xác hơn, điều đó có thể dẫn đến việc tạo ra một khung công cụ rút trang web dựa trên Đại lý AI, khiến công cụ rút trang “giống con người hơn.” \
Trong những bước chuyển đổi như vậy, việc giới thiệu AI Agents phải tích hợp với các kịch bản hiện có, vì các lĩnh vực hoàn toàn mới hiếm khi tồn tại. Ngay cả khả năng hoàn thành mã và tạo mã trong các công cụ như Curosr và Github Copilot chỉ là các cải tiến chức năng trong khung LSP (Language Server Protocol), với nhiều ví dụ về sự tiến hóa như vậy:
Để làm rõ, trong tương tác giữa con người và máy tính, sự kết hợp giữa giao diện người dùng Web 1.0 và trình duyệt thực sự cho phép công chúng sử dụng máy tính mà không gặp rào cản, được đại diện bởi sự kết hợp của Windows và IE. API trở thành tiêu chuẩn truyền dữ liệu và trừu tượng hóa dữ liệu đằng sau internet, và trong thời đại Web 2.0, trình duyệt như Chrome đã xuất hiện, với sự chuyển đổi sang di động thay đổi thói quen sử dụng internet của người dân. Các ứng dụng siêu như WeChat và nền tảng Meta hiện tại bao phủ mọi khía cạnh của cuộc sống của người dân.
Nguồn thứ ba là khái niệm “Intent” trong không gian Tiền điện tử, đã dẫn đến sự bùng nổ quan tâm xung quanh AI Agents. Tuy nhiên, lưu ý rằng điều này chỉ áp dụng trong Tiền điện tử. Từ các scripts của Bitcoin với chức năng hạn chế đến smart contracts của Ethereum, khái niệm Agent chính nó đã được sử dụng rộng rãi. Sự xuất hiện sau này của cầu nối qua chuỗi, trừu tượng hóa chuỗi, EOA (Externally Owned Accounts) đến các ví AA (Account Abstraction) là những sự mở rộng tự nhiên của dòng suy nghĩ này. Do đó, khi AI Agents “xâm chiếm” Tiền điện tử, không ngạc nhiên khi chúng tự nhiên dẫn đến các kịch bản DeFi.
Đây là nơi sự nhầm lẫn về khái niệm AI Agent phát sinh. Trong ngữ cảnh Crypto, những gì chúng ta thực sự đang cố gắng đạt được là một AI Agent quản lý tài chính tự động, tạo meme tự động. Tuy nhiên, theo định nghĩa của OpenAI, một kịch bản nguy hiểm như vậy sẽ đòi hỏi L4 hoặc L5 được thực hiện thực sự. Trong khi đó, công chúng đang thử nghiệm với việc tạo mã tự động hoặc hỗ trợ viết tóm tắt và viết, được cung cấp bởi trí tuệ nhân tạo, nhưng không đạt được các mục tiêu chúng ta đang theo đuổi.
Một khi chúng ta hiểu được những gì chúng ta thực sự muốn, chúng ta có thể tập trung vào logic tổ chức của AI Agents. Các chi tiết kỹ thuật sẽ được tiếp tục, vì khái niệm về AI Agent cuối cùng là về việc loại bỏ các rào cản đối với việc áp dụng công nghệ quy mô lớn, tương tự như cách trình duyệt đã cách mạng hóa ngành công nghiệp máy tính cá nhân. Sự tập trung của chúng tôi sẽ là hai điểm: xem xét AI Agents từ quan điểm tương tác giữa con người và máy tính và hiểu sự khác biệt và kết nối giữa AI Agents và LLMs, điều đó sẽ dẫn chúng ta đến phần thứ ba: những gì mà sự kết hợp của Tiền điện tử và AI Agents sẽ cuối cùng để lại.
Trước các mô hình tương tác giữa người và máy tính như ChatGPT, các hình thức tương tác chính giữa người và máy tính là GUI (Giao diện người dùng đồ họa) và CLI (Giao diện dòng lệnh). Tư duy GUI đã phát triển thành nhiều hình thức cụ thể khác nhau như trình duyệt và ứng dụng, trong khi sự kết hợp giữa CLI và Shell cho thấy sự thay đổi tối thiểu.
Nhưng đây chỉ là “giao diện người-máy” của truyền thông giữa con người và máy tính. Khi mạng internet phát triển, sự tăng về khối lượng và đa dạng dữ liệu đã dẫn đến sự tương tác “backend” giữa dữ liệu và giữa các ứng dụng. Hai khía cạnh này phụ thuộc lẫn nhau - thậm chí một hành động duyệt web đơn giản cũng đòi hỏi sự cộng tác của chúng.
Nếu tương tác của con người với trình duyệt và ứng dụng được coi là điểm nhập người dùng, thì các liên kết và chuyển tiếp giữa các API hỗ trợ hoạt động thực tế của internet. Thực tế này cũng là một phần của Đại lý. Người dùng thông thường không cần hiểu các thuật ngữ như dòng lệnh và API để đạt được mục tiêu của họ.
Điều tương tự cũng áp dụng cho LLMs. Bây giờ, người dùng có thể đi xa hơn—không cần tìm kiếm nữa. Toàn bộ quy trình có thể được mô tả theo các bước sau:
Có thể thấy rằng trong quá trình này, thách thức lớn nhất là Google, bởi vì người dùng không cần mở máy tìm kiếm, mà là các cửa sổ trò chuyện giống như GPT khác nhau, và lối vào lưu lượng đang thay đổi một cách im lặng. Chính vì lý do này mà một số người nghĩ rằng LLM này cách mạng hóa cuộc sống của các máy tìm kiếm.
Vậy, AI Agent đóng vai trò gì trong quá trình này?
Nói ngắn gọn, AI Agent là một phần mở rộng chuyên biệt của LLM.
Các LLM hiện tại không phải là AGI (Trí tuệ Nhân tạo Tổng quát) và cách xa khá nhiều so với tổ chức L5 của OpenAI. Khả năng của chúng bị giới hạn đáng kể. Ví dụ, LLM dễ mắc chứng ảo giác nếu được cung cấp quá nhiều đầu vào từ người dùng. Một nguyên nhân chính nằm trong cơ chế đào tạo. Ví dụ, nếu bạn liên tục nói với GPT rằng 1+1=3, có khả năng nó sẽ trả lời là 4 khi được hỏi về 1+1+1=?.
Điều này xảy ra vì phản hồi của GPT dựa hoàn toàn trên đầu vào của người dùng. Nếu mô hình không kết nối với internet, có thể làm thay đổi hoạt động của nó bằng cách nhập vào của bạn, dẫn đến một mô hình chỉ “biết” 1+1=3. Tuy nhiên, nếu mô hình được phép kết nối với internet, cơ chế phản hồi của nó trở nên đa dạng hơn, vì phần lớn dữ liệu trực tuyến sẽ xác nhận rằng 1+1=2.
Bây giờ, nếu chúng ta phải sử dụng LLMs cục bộ và muốn tránh những vấn đề như vậy?
Một giải pháp thẳng thẳn là sử dụng hai LLM đồng thời, yêu cầu họ chéo kiểm tra các phản ứng của nhau để giảm thiểu xác suất lỗi. Nếu điều này không đủ, một cách tiếp cận khác có thể liên quan đến việc có hai người dùng xử lý một quy trình duy nhất - một người đặt câu hỏi và người kia làm cho chúng trở nên chính xác và logic hơn.
Tất nhiên, việc kết nối với internet không hoàn toàn loại bỏ các vấn đề. Ví dụ, nếu LLM truy xuất câu trả lời từ các nguồn không đáng tin cậy, tình hình có thể trở nên tồi tệ hơn. Tuy nhiên, việc tránh dữ liệu như vậy cũng giảm đi lượng thông tin có sẵn. Để giải quyết vấn đề này, dữ liệu hiện có có thể được chia thành nhiều phần, kết hợp lại hoặc thậm chí sử dụng để tạo ra dữ liệu mới dựa trên các bộ dữ liệu cũ hơn để làm cho các phản hồi đáng tin cậy hơn. Cách tiếp cận này về cơ bản là khái niệm RAG (Retrieval-Augmented Generation) trong hiểu ngôn ngữ tự nhiên.
Con người và máy móc cần hiểu nhau. Khi nhiều LLMs cùng hợp tác và tương tác, chúng ta thực chất đang tận dụng mô hình hoạt động của các Đại lý Trí tuệ nhân tạo. Chúng đóng vai trò nhân tố thay thế con người, truy cập vào các tài nguyên khác, bao gồm các mô hình lớn và các đại lý khác.
Điều này dẫn chúng ta đến mối liên hệ giữa LLMs và AI Agents:
LLMs là tổng hợp kiến thức mà con người tương tác thông qua giao diện trò chuyện. Tuy nhiên, trong thực tế, một số quy trình cụ thể có thể được tóm gọn thành các chương trình nhỏ hơn, bot hoặc tập hợp các hướng dẫn. Những thứ này được xác định là các Đại lý.
Các AI Agents vẫn là một phần của LLMs nhưng không nên coi chúng như nhau. Đặc điểm quan trọng của AI Agents nằm trong việc tập trung vào việc hợp tác với các chương trình bên ngoài, LLMs và các agent khác. Đây là lý do tại sao người ta thường tóm tắt AI Agents là LLM + API.
Để minh họa điều này trong quy trình LLM, hãy lấy ví dụ về một cuộc gọi API thông qua một AI Agent:
Nhớ lại quá trình tiến hóa của tương tác giữa con người và máy tính? Trình duyệt, API và các yếu tố khác từ Web 1.0 và Web 2.0 vẫn tồn tại, nhưng người dùng không cần nữa phải tương tác trực tiếp với chúng. Thay vào đó, họ có thể tương tác với các Đại lý Trí tuệ Nhân tạo (AI Agents). Cuộc gọi API và các quy trình liên quan có thể được tiến hành theo cách trò chuyện. Các dịch vụ API này có thể bao gồm bất kỳ loại dữ liệu nào, dù là dữ liệu địa phương, trực tuyến hay từ các ứng dụng bên ngoài, miễn là các giao diện đều mở và người dùng có đủ quyền truy cập vào chúng.
Quy trình hoạt động của một AI Agent hoàn chỉnh, như được hiển thị ở trên, xem xét LLM hoặc là một thành phần riêng biệt từ AI Agent hoặc là hai tiến trình con trong một quy trình làm việc. Bất kể cách chia chia chúng ra sao, mục tiêu luôn là phục vụ nhu cầu của người dùng. Từ quan điểm tương tác giữa con người và máy tính, đôi khi ngay cả cảm giác như người dùng đang nói chuyện với chính họ. Bạn chỉ cần diễn đạt đầy đủ suy nghĩ của mình, và AI/LLM/AI Agent sẽ liên tục đoán đúng nhu cầu của bạn. Bằng cách tích hợp cơ chế phản hồi và đảm bảo rằng LLM nhớ vị trí hiện tại, AI Agent tránh mất dấu nhiệm vụ của mình.
Tóm lại, AI Agents là những tạo vật mang tính cá nhân hóa và nhân hóa hơn, làm cho chúng khác biệt so với các kịch bản truyền thống và công cụ tự động hóa. Chúng hoạt động như các trợ lý cá nhân, xem xét nhu cầu thực tế của người dùng. Tuy nhiên, điều quan trọng cần lưu ý là sự cá nhân hóa này vẫn dựa trên suy diễn xác suất. Một AI Agent cấp độ L3 không sở hữu khả năng hiểu biết và biểu hiện cấp độ con người, làm cho việc tích hợp nó với các API bên ngoài có nguy cơ bẩm sinh.
Khả năng tiền hóa các khung công cụ AI là một trong những lý do chính khiến tôi vẫn quan tâm đến tiền điện tử. Trong các ngăn xếp công nghệ AI truyền thống, các khung công cụ không quan trọng, ít nhất là so với dữ liệu và công năng tính toán. Việc tiền hóa các sản phẩm AI hiếm khi bắt đầu từ khung công cụ, vì hầu hết các thuật toán và khung công cụ AI đều là mã nguồn mở. Những gì còn lại là các yếu tố nhạy cảm như dữ liệu.
Về cơ bản, các khung AI hoặc mô hình là các khối chứa và kết hợp của thuật toán, tương tự như một nồi để nấu thịt ngỗng. Tuy nhiên, chất lượng của thịt ngỗng và sự thành thạo trong quá trình nấu ăn mới thực sự định nghĩa hương vị. Lý thuyết, sản phẩm được bán nên là thịt ngỗng, nhưng khách hàng Web3 dường như thích mua nồi và vứt bỏ thịt ngỗng.
Lý do cho điều này không phức tạp. Hầu hết các sản phẩm Web3 AI được xây dựng trên các khung AI, thuật toán và sản phẩm hiện có, tùy chỉnh chúng cho mục đích của họ. Trên thực tế, các nguyên tắc kỹ thuật đằng sau các khung AI crypto khác nhau không khác biệt nhiều. Vì công nghệ chính nó thiếu sự khác biệt, sự chú ý chuyển sang nhãn hiệu, kịch bản ứng dụng và các khác biệt bề mặt khác. Kết quả là, ngay cả những điều chỉnh nhỏ trong khung AI trở thành nền tảng để hỗ trợ các token khác nhau, dẫn đến một bong bóng khung trong các hệ sinh thái Crypto AI Agent.
Vì không cần đầu tư nhiều vào dữ liệu đào tạo hoặc thuật toán, việc phân biệt các khung công việc theo tên trở nên đặc biệt quan trọng. Ngay cả một khung công việc giá cả phải chăng như DeepSeek V3 vẫn đòi hỏi những chi phí đáng kể về sức mạnh GPU, điện năng và nỗ lực.
Một mặt, điều này khớp với xu hướng mới nhất của Web3: các nền tảng phát hành mã thông báo thường có giá trị hơn chính các mã thông báo đó. Các dự án như Pump.Fun và Hyperliquid là minh chứng cho điều này. Ban đầu, Agents được cho là đại diện cho các ứng dụng và tài sản, nhưng các khung phát hành Agents bây giờ đã trở thành hàng hóa nóng nhất.
Điều này phản ánh một hình thức neo giá trị. Vì Đại lý thiếu sự khác biệt, các khuôn khổ để phát hành Đại lý trở nên ổn định hơn và tạo ra hiệu ứng bòn rút giá trị cho việc phát hành tài sản. Điều này đánh dấu phiên bản 1.0 của việc tích hợp tiền điện tử và AI Agents.
Phiên bản 2.0 hiện đang nổi lên, được minh chứng bằng sự hội tụ của DeFi và AI Agents. Mặc dù khái niệm DeFAI có thể đã được kích hoạt bởi sự cường điệu của thị trường, nhưng một cái nhìn sâu hơn về các xu hướng sau đây cho thấy điều ngược lại:
Trong bối cảnh chuyển đổi DeFi này, AI đang tái tạo logic cốt lõi của DeFi. Trước đây, logic cốt lõi của DeFi là xác minh khả thi của hợp đồng thông minh. Bây giờ, AI Agents đang thay đổi logic sản xuất của DeFi. Bạn không còn cần hiểu về DeFi để tạo ra các sản phẩm DeFi. Điều này đại diện cho một bước vượt qua trừu tượng chuỗi, mang lại quyền hạn cơ bản sâu hơn.
Thời đại mà ai cũng có thể trở thành lập trình viên đang ở ngưỡng cửa. Các tính toán phức tạp có thể được giao cho LLM và API đằng sau AI Agents, cho phép mọi người tập trung hoàn toàn vào ý tưởng của họ. Ngôn ngữ tự nhiên có thể được biến đổi một cách hiệu quả thành logic lập trình.
Bài viết này không đề cập đến bất kỳ mã thông báo Crypto AI Agent nào hoặc framework nào, vì Cookie.Fun đã làm rất tốt - một nền tảng cho việc tổng hợp thông tin về AI Agent và khám phá mã thông báo, tiếp theo là các framework AI Agent, và cuối cùng là sự xuất hiện và biến mất thoáng qua của các mã thông báo Agent. Tiếp tục liệt kê thông tin như vậy ở đây sẽ không có nhiều giá trị.
Tuy nhiên, thông qua quan sát trong thời gian này, thị trường vẫn thiếu một cuộc thảo luận có ý nghĩa về điều mà Crypto AI Agents đang nhắm đến cuối cùng là gì. Chúng ta không thể tiếp tục tập trung vào những chỉ báo; bản chất nằm ở những thay đổi đang xảy ra ở mức bộ nhớ.
Chính vì khả năng liên tục biến đổi các tài sản thành các hình thức token hóa mà Crypto trở nên hấp dẫn đến vậy.