A work of art is never completed, only abandoned.
大家都在說 AI Agent,但是大家所說的並不是同一個東西,這導致我們所關心的 AI Agent 和大眾視角下,以及 AI 從業者的視角都有所不同。
許久之前,我曾寫過 Crypto 是 AI 的幻覺,從那時到現在,Crypto 和 AI 的結合一直是一場單相思,AI 從業者甚少提及 Web3/區塊鏈這些術語,而 Crypto 從業者卻對 AI 的一往情深,而在見識到 AI Agent 框架都能被代幣化的奇景後,不知道能否真正將 AI 從業者引入我們的世界。
AI 是 Crypto 的代理人,這是從加密視角本位去看待本輪 AI 狂飆的最佳註釋,Crypto 對 AI 的狂熱不同於其他行業,我們特別希望能將金融資產的發行和運作與之嵌合。
究其根源,AI Agent 至少有三種源流,而 OpenAI 的 AGI(通用人工智能)將其列為重要一步,讓該詞成為超越技術層面的流行語,但是本質上 Agent 並不是新鮮概念,即使加上 AI 賦能,也很難說是革命性的技術趨勢。
其一便是 OpenAI 眼中的 AI Agent,類似自動駕駛分級中的 L3,AI Agent 可以視作具備一定的高階輔助駕駛能力,但是還不能完全取代人。
圖片說明:OpenAI 規劃的 AGI 階段
圖片來源:https://www.bloomberg.com/
其二,顧名思義,AI Agent 是 AI 加持下的 Agent,代理機制、模式在計算機領域本不鮮見,而在 OpenAI 的謀劃下,Agent 將成為繼對話形式(ChatGPT)、推理形式(各類 Bot)後的 L3 階段,其特點在於“自主進行某種行為”,或者用 LangChain 創始人 Harrison Chase 的定義:“AI Agent 是一個用 LLM 來做程序的控制流決策的系統。”
這就是其玄妙之處,在 LLM 出現之前,Agent 主要是執行人為設定好的自動化過程,僅舉一例,程序員在設計爬蟲程序時,會設置 User-Agent(用戶代理),用以模仿真實用戶使用的瀏覽器版本、操作系統等細節,當然,如果使用 AI Agent 來更加細緻的模仿人類行為,那就會出現 AI Agent 爬蟲框架,這樣操作會讓爬蟲“更像人”。
在這樣的變遷中,AI Agent 的加入必須和現有場景進行結合,完全獨創的領域幾乎不存在,即使是 Curosr、Github copilot 等代碼補全和生成能力,也是在 LSP(語言服務器協議,Language Server Protocol)等思維下的進一步功能增強,這樣的例子可以舉出許多:
稍微解釋一下,人機交互過程中,Web 1.0 GUI 和瀏覽器的結合真正讓大眾可以無門檻使用電腦,代表是 Windows+IE 的組合,而 API 是互聯網背後的數據抽象和傳輸標準,Web 2.0 時代的瀏覽器已經是 Chrome 的時代,並且向移動端的轉向改變了人們對互聯網的使用習慣,微信、Meta 等超級平臺的 App 覆蓋了人們生活的方方面面。
其三,Crypto 領域的意圖(Intent)概念是 AI Agent 圈內爆火的先導,不過要注意,這僅在 Crypto 內部有效,從功能殘缺的比特幣腳本到以太坊智能合約,本身就是 Agent 概念的泛用,而後催生的跨鏈橋—鏈抽象、EOA—AA 錢包都是此類思路的自然延伸,所以在 AI Agent “入侵” Crypto 之後,導向 DeFi 場景也就不足為奇。
這就是 AI Agent 概念的混淆之處,在 Crypto 的語境下,我們實際上想實現的是“自動理財、自動打新 Meme”的 Agent,但是在 OpenAI 的定義下,這麼危險的場景甚至需要 L4/L5 才能真正實現,然後大眾在把玩的是代碼自動生成或者 AI 一鍵總結、代寫等功能,雙方交流並不在一個維度。
理解了我們真正想要的是什麼,接下來重點聊聊 AI Agent 的組織邏輯,技術細節會隱藏其後,畢竟 AI Agent 的代理概念就是將技術從大規模普及的障礙前移除,一如瀏覽器對個人 PC 產業的點石成金,所以我們的重心會在兩點上:從人機交互看 AI Agent ,以及 AI Agent 和 LLM 的區別和聯繫,以此引出第三部分:Crypto 和 AI Agent 的結合最終會留下什麼。
在 ChatGPT 這類話聊式人機交互模式之前,人類和計算機的交互主要是 GUI(圖形化界面) 和 CLI (命令行界面,Command-Line interface)兩種形式,GUI 思維繼續衍生出瀏覽器、App 等多種具體形式,CLI 和 Shell 的組合甚少變化。
但這只是“前端”表面的人機交互,隨著互聯網的發展,數據量和類型的增多導致數據和數據之間,App 和 App 之間的“後端”交互也在增多,兩者互為依託,即使是簡單的網頁瀏覽行為,實際上也需要二者的協同與配合。
如果說人和瀏覽器、App 的互動說用戶入口,那麼 API 之間的鏈接和跳轉則撐起了互聯網的實際運行,其實這也是 Agent 的一部分,普通用戶無需瞭解命令行和 API 等術語,即可實現自己的目的。
LLM 也是如此,現在用戶可以更進一步,連搜索都不需要,整個過程可以被描述為以下幾個步驟:
可以發現,在這個過程中,受到最大挑戰的是谷歌,因為用戶並不需要打開搜索引擎,而是各類類 GPT 的對話窗口,流量入口正在悄然變化,也正是如此,才會有人認為本輪 LLM 革的是搜索引擎的命。
那麼 AI Agent 又在其中起到何種作用呢?
一言以蔽之,AI Agent 是 LLM 的特化。
當前的 LLM 不是 AGI,即不是 OpenAI 理想中的 L5 組織者,其能力受到較大限制,比如吃多了用戶輸入信息很容易產生幻覺,其中一個重要原因在於訓練機制,比如,如果你反覆告訴 GPT 1+1=3,那麼有一定概率在接下來的交互中詢問 1+1+1=?時給出答案為 4 的可能性。
因為此時 GPT 的反饋完全來自於用戶個人,如果該模型不聯網,那麼完全有可能被你的信息改變運作機制,以後就是一個只知道 1+1=3 的弱智 GPT,但是如果允許模型聯網,那麼 GPT 的反饋機制就更為多種多樣,畢竟在網絡上認為 1+1=2 的要佔據絕大多數。
繼續加大難度,如果我們一定要在本地使用 LLM,那麼該如何避免此類問題?
一個簡單粗暴的辦法是同時使用兩個 LLM,同時規定每次回答問題必須讓兩個 LLM 互相驗證,以此降低出錯的概率,再不行還有一些辦法,比如每次讓兩個用戶處理一個進程,一個負責問,一個負責微調問題,儘量讓語言更規範、更理性一些。
當然,有時候聯網也並不能完全規避問題發生,比如 LLM 檢索到弱智吧的回答,那可能更糟糕,但是規避這些資料會導致可用數據量降低,那麼完全可以將已有數據拆分和重組,甚至依據舊數據自行生產一些新數據,以此來讓回答更可靠,其實這就是 RAG (Retrieval-Augmented Generation,檢索增強生成)的自然語言理解。
人和機器需要互相理解,如果我們讓多個 LLM 相互理解和協作,本質上已經是在觸及 AI Agent 的運作模式,即人的代理去調用其他資源,甚至可以包括大模型和其他 Agent。
由此,我們掌握了 LLM 和 AI Agent 的聯繫:LLM 是一系列知識的彙總,人類可以通過對話窗口與之交流,但是在實踐中,我們發現一些特定的任務流可以被歸納為特定的小程序、Bot、指令集合,我們就把這些定義為 Agent。
AI Agent 依然是 LLM 的一部分,兩者不能等同視之,而 AI Agent 的調用方式在 LLM 的基礎上,特別強調對外部程序、LLM 和其他 Agent 的協同,所以才有 AI Agent = LLM+API 的感慨。
那麼,在 LLM 的工作流上,可以添加 AI Agent 的說明,我們以調用 X 的 API 數據為例:
還記得人機交互的進化史嗎,在 Web 1.0 和 Web 2.0 存在的瀏覽器、API 等依然會存在,但是用戶完全可以無視其存在,只需要跟 AI Agent 交互即可,而 API 調用等過程都可以用對話方式使用,而這些 API 服務可以是任意類型,包括本地的數據,聯網信息,以及外部 App 的數據,只要對方開放接口,並且用戶具備其使用權限。
一個完整的 AI Agent 使用流程如上圖,LLM 在其中可以視作和 AI Agent 分離的部分,也可以視為一個過程的兩個子環節,但是無論如何劃分,都是在服務用戶的需求。
從人機交互的過程來看,甚至是用戶自己跟自己在對話,你只需盡情表達自己的所思所想,AI/LLM/AI Agent 會一次次的猜測你的需要,反饋機制的加入,以及要求 LLM 對當前情景上下文(Context)的記憶,可以確保 AI Agent 不會突然忘記自己在幹什麼。
總之,AI Agent 是更具人格化的產物,這是其和傳統的腳本、自動化工具的本質區別,就像一個私人管家一樣去為用戶考慮真實需求,但是必須指出,這種人格依然是一種概率推測的結果,L3 級別的 AI Agent 沒有人類的理解和表達能力,因此將其和外部 API 的對接充滿著危險。
AI 框架竟然能貨幣化是我對 Crypto 保持興趣的重要原因,在傳統的 AI 技術堆棧中,框架並不十分重要,至少比不上數據和算力,而 AI 產品的變現方式也很難從框架入手,畢竟大部分 AI 算法和模型框架都是開源產品,真正閉源的是數據等敏感信息。
本質上而言,AI 框架或者模型是一系列算法的容器與組合,就相當於鐵鍋燉大鵝的鐵鍋,但是大鵝的品種以及火候的掌握才是味道區分的關鍵,賣的產品本應該是大鵝,但是現在來了 Web3 的客戶,他們要買櫝還珠,買鍋棄鵝。
原因並不複雜,Web3 的 AI 產品基本都是拾人牙慧,都是在已有的 AI 框架、算法和產品上改進出自己的定製化產品,甚至不同的 Crypto AI 框架背後的技術原理都相差不大,既然技術上無法區分,就需要在名稱、應用場景等方面做文章,於是 AI 框架本身的某些細微調整都成了不同代幣的支撐,因此造成了 Crypto AI Agent 的框架泡沫。
既然不需要自己投入重金訓練數據和算法,則名稱區別法就格外重要,DeepSeek V3 再便宜,也需要博士頭髮和 GPU 、電力的大量消耗。
某種意義上而言,這也是 Web3 近期的一貫風格,即代幣發行平臺比代幣值錢,Pump.Fun/Hyperliquid 都是如此,本來 Agent 應該是應用和資產,但是 Agent 發行框架竟然成為最當紅產品。
其實這也是一種價值錨定思路,既然各類 Agent 並無區分度,那麼 Agent 框架反而更穩定一些,能產生資產發行的價值虹吸效應,這是目前 Crypto 和 AI Agent 結合的 1.0 版本。
而 2.0 版本正在浮現,典型是 DeFi 和 AI Agent 的結合,DeFAI 的概念提出當然是熱度刺激下的市場行為,但是如果我們把以下情況考慮在內就會發現有所不同:
正是在 DeFi 嬗變的大背景下,AI 正在改進 DeFi 的基本邏輯,如果之前 DeFi 最大的邏輯是驗證智能合約的可行性,那麼 AI Agent 則讓 DeFi 的製造邏輯發生改變,你並不需要理解 DeFi 才能製造 DeFi 產品,這是比鏈抽象更進一步的底層賦能。
人人都是程序員的時代即將到來,複雜的計算可以外包給 AI Agent 背後的 LLM 和 API,而個人只需要專注於自己的想法,自然語言可以被高效轉化為編程邏輯。
本文並未提及任何 Crypto AI Agent 代幣和框架,因為 Cookie.Fun 已經做的足夠好,AI Agent 信息聚合和代幣發現平臺,進而是 AI Agent 框架,最後才是忽生忽滅的 Agent 代幣,繼續在文內羅列信息已無價值。
但是在這一段時間的觀察中,市場上依然缺少真正對 Crypto AI Agent 指向究竟是什麼的探討,我們不能總是在討論指針,內存變化才是本質。
也正是生生不息的將各類標的資產化的能力,才是 Crypto 的魅力所在。
Пригласить больше голосов
A work of art is never completed, only abandoned.
大家都在說 AI Agent,但是大家所說的並不是同一個東西,這導致我們所關心的 AI Agent 和大眾視角下,以及 AI 從業者的視角都有所不同。
許久之前,我曾寫過 Crypto 是 AI 的幻覺,從那時到現在,Crypto 和 AI 的結合一直是一場單相思,AI 從業者甚少提及 Web3/區塊鏈這些術語,而 Crypto 從業者卻對 AI 的一往情深,而在見識到 AI Agent 框架都能被代幣化的奇景後,不知道能否真正將 AI 從業者引入我們的世界。
AI 是 Crypto 的代理人,這是從加密視角本位去看待本輪 AI 狂飆的最佳註釋,Crypto 對 AI 的狂熱不同於其他行業,我們特別希望能將金融資產的發行和運作與之嵌合。
究其根源,AI Agent 至少有三種源流,而 OpenAI 的 AGI(通用人工智能)將其列為重要一步,讓該詞成為超越技術層面的流行語,但是本質上 Agent 並不是新鮮概念,即使加上 AI 賦能,也很難說是革命性的技術趨勢。
其一便是 OpenAI 眼中的 AI Agent,類似自動駕駛分級中的 L3,AI Agent 可以視作具備一定的高階輔助駕駛能力,但是還不能完全取代人。
圖片說明:OpenAI 規劃的 AGI 階段
圖片來源:https://www.bloomberg.com/
其二,顧名思義,AI Agent 是 AI 加持下的 Agent,代理機制、模式在計算機領域本不鮮見,而在 OpenAI 的謀劃下,Agent 將成為繼對話形式(ChatGPT)、推理形式(各類 Bot)後的 L3 階段,其特點在於“自主進行某種行為”,或者用 LangChain 創始人 Harrison Chase 的定義:“AI Agent 是一個用 LLM 來做程序的控制流決策的系統。”
這就是其玄妙之處,在 LLM 出現之前,Agent 主要是執行人為設定好的自動化過程,僅舉一例,程序員在設計爬蟲程序時,會設置 User-Agent(用戶代理),用以模仿真實用戶使用的瀏覽器版本、操作系統等細節,當然,如果使用 AI Agent 來更加細緻的模仿人類行為,那就會出現 AI Agent 爬蟲框架,這樣操作會讓爬蟲“更像人”。
在這樣的變遷中,AI Agent 的加入必須和現有場景進行結合,完全獨創的領域幾乎不存在,即使是 Curosr、Github copilot 等代碼補全和生成能力,也是在 LSP(語言服務器協議,Language Server Protocol)等思維下的進一步功能增強,這樣的例子可以舉出許多:
稍微解釋一下,人機交互過程中,Web 1.0 GUI 和瀏覽器的結合真正讓大眾可以無門檻使用電腦,代表是 Windows+IE 的組合,而 API 是互聯網背後的數據抽象和傳輸標準,Web 2.0 時代的瀏覽器已經是 Chrome 的時代,並且向移動端的轉向改變了人們對互聯網的使用習慣,微信、Meta 等超級平臺的 App 覆蓋了人們生活的方方面面。
其三,Crypto 領域的意圖(Intent)概念是 AI Agent 圈內爆火的先導,不過要注意,這僅在 Crypto 內部有效,從功能殘缺的比特幣腳本到以太坊智能合約,本身就是 Agent 概念的泛用,而後催生的跨鏈橋—鏈抽象、EOA—AA 錢包都是此類思路的自然延伸,所以在 AI Agent “入侵” Crypto 之後,導向 DeFi 場景也就不足為奇。
這就是 AI Agent 概念的混淆之處,在 Crypto 的語境下,我們實際上想實現的是“自動理財、自動打新 Meme”的 Agent,但是在 OpenAI 的定義下,這麼危險的場景甚至需要 L4/L5 才能真正實現,然後大眾在把玩的是代碼自動生成或者 AI 一鍵總結、代寫等功能,雙方交流並不在一個維度。
理解了我們真正想要的是什麼,接下來重點聊聊 AI Agent 的組織邏輯,技術細節會隱藏其後,畢竟 AI Agent 的代理概念就是將技術從大規模普及的障礙前移除,一如瀏覽器對個人 PC 產業的點石成金,所以我們的重心會在兩點上:從人機交互看 AI Agent ,以及 AI Agent 和 LLM 的區別和聯繫,以此引出第三部分:Crypto 和 AI Agent 的結合最終會留下什麼。
在 ChatGPT 這類話聊式人機交互模式之前,人類和計算機的交互主要是 GUI(圖形化界面) 和 CLI (命令行界面,Command-Line interface)兩種形式,GUI 思維繼續衍生出瀏覽器、App 等多種具體形式,CLI 和 Shell 的組合甚少變化。
但這只是“前端”表面的人機交互,隨著互聯網的發展,數據量和類型的增多導致數據和數據之間,App 和 App 之間的“後端”交互也在增多,兩者互為依託,即使是簡單的網頁瀏覽行為,實際上也需要二者的協同與配合。
如果說人和瀏覽器、App 的互動說用戶入口,那麼 API 之間的鏈接和跳轉則撐起了互聯網的實際運行,其實這也是 Agent 的一部分,普通用戶無需瞭解命令行和 API 等術語,即可實現自己的目的。
LLM 也是如此,現在用戶可以更進一步,連搜索都不需要,整個過程可以被描述為以下幾個步驟:
可以發現,在這個過程中,受到最大挑戰的是谷歌,因為用戶並不需要打開搜索引擎,而是各類類 GPT 的對話窗口,流量入口正在悄然變化,也正是如此,才會有人認為本輪 LLM 革的是搜索引擎的命。
那麼 AI Agent 又在其中起到何種作用呢?
一言以蔽之,AI Agent 是 LLM 的特化。
當前的 LLM 不是 AGI,即不是 OpenAI 理想中的 L5 組織者,其能力受到較大限制,比如吃多了用戶輸入信息很容易產生幻覺,其中一個重要原因在於訓練機制,比如,如果你反覆告訴 GPT 1+1=3,那麼有一定概率在接下來的交互中詢問 1+1+1=?時給出答案為 4 的可能性。
因為此時 GPT 的反饋完全來自於用戶個人,如果該模型不聯網,那麼完全有可能被你的信息改變運作機制,以後就是一個只知道 1+1=3 的弱智 GPT,但是如果允許模型聯網,那麼 GPT 的反饋機制就更為多種多樣,畢竟在網絡上認為 1+1=2 的要佔據絕大多數。
繼續加大難度,如果我們一定要在本地使用 LLM,那麼該如何避免此類問題?
一個簡單粗暴的辦法是同時使用兩個 LLM,同時規定每次回答問題必須讓兩個 LLM 互相驗證,以此降低出錯的概率,再不行還有一些辦法,比如每次讓兩個用戶處理一個進程,一個負責問,一個負責微調問題,儘量讓語言更規範、更理性一些。
當然,有時候聯網也並不能完全規避問題發生,比如 LLM 檢索到弱智吧的回答,那可能更糟糕,但是規避這些資料會導致可用數據量降低,那麼完全可以將已有數據拆分和重組,甚至依據舊數據自行生產一些新數據,以此來讓回答更可靠,其實這就是 RAG (Retrieval-Augmented Generation,檢索增強生成)的自然語言理解。
人和機器需要互相理解,如果我們讓多個 LLM 相互理解和協作,本質上已經是在觸及 AI Agent 的運作模式,即人的代理去調用其他資源,甚至可以包括大模型和其他 Agent。
由此,我們掌握了 LLM 和 AI Agent 的聯繫:LLM 是一系列知識的彙總,人類可以通過對話窗口與之交流,但是在實踐中,我們發現一些特定的任務流可以被歸納為特定的小程序、Bot、指令集合,我們就把這些定義為 Agent。
AI Agent 依然是 LLM 的一部分,兩者不能等同視之,而 AI Agent 的調用方式在 LLM 的基礎上,特別強調對外部程序、LLM 和其他 Agent 的協同,所以才有 AI Agent = LLM+API 的感慨。
那麼,在 LLM 的工作流上,可以添加 AI Agent 的說明,我們以調用 X 的 API 數據為例:
還記得人機交互的進化史嗎,在 Web 1.0 和 Web 2.0 存在的瀏覽器、API 等依然會存在,但是用戶完全可以無視其存在,只需要跟 AI Agent 交互即可,而 API 調用等過程都可以用對話方式使用,而這些 API 服務可以是任意類型,包括本地的數據,聯網信息,以及外部 App 的數據,只要對方開放接口,並且用戶具備其使用權限。
一個完整的 AI Agent 使用流程如上圖,LLM 在其中可以視作和 AI Agent 分離的部分,也可以視為一個過程的兩個子環節,但是無論如何劃分,都是在服務用戶的需求。
從人機交互的過程來看,甚至是用戶自己跟自己在對話,你只需盡情表達自己的所思所想,AI/LLM/AI Agent 會一次次的猜測你的需要,反饋機制的加入,以及要求 LLM 對當前情景上下文(Context)的記憶,可以確保 AI Agent 不會突然忘記自己在幹什麼。
總之,AI Agent 是更具人格化的產物,這是其和傳統的腳本、自動化工具的本質區別,就像一個私人管家一樣去為用戶考慮真實需求,但是必須指出,這種人格依然是一種概率推測的結果,L3 級別的 AI Agent 沒有人類的理解和表達能力,因此將其和外部 API 的對接充滿著危險。
AI 框架竟然能貨幣化是我對 Crypto 保持興趣的重要原因,在傳統的 AI 技術堆棧中,框架並不十分重要,至少比不上數據和算力,而 AI 產品的變現方式也很難從框架入手,畢竟大部分 AI 算法和模型框架都是開源產品,真正閉源的是數據等敏感信息。
本質上而言,AI 框架或者模型是一系列算法的容器與組合,就相當於鐵鍋燉大鵝的鐵鍋,但是大鵝的品種以及火候的掌握才是味道區分的關鍵,賣的產品本應該是大鵝,但是現在來了 Web3 的客戶,他們要買櫝還珠,買鍋棄鵝。
原因並不複雜,Web3 的 AI 產品基本都是拾人牙慧,都是在已有的 AI 框架、算法和產品上改進出自己的定製化產品,甚至不同的 Crypto AI 框架背後的技術原理都相差不大,既然技術上無法區分,就需要在名稱、應用場景等方面做文章,於是 AI 框架本身的某些細微調整都成了不同代幣的支撐,因此造成了 Crypto AI Agent 的框架泡沫。
既然不需要自己投入重金訓練數據和算法,則名稱區別法就格外重要,DeepSeek V3 再便宜,也需要博士頭髮和 GPU 、電力的大量消耗。
某種意義上而言,這也是 Web3 近期的一貫風格,即代幣發行平臺比代幣值錢,Pump.Fun/Hyperliquid 都是如此,本來 Agent 應該是應用和資產,但是 Agent 發行框架竟然成為最當紅產品。
其實這也是一種價值錨定思路,既然各類 Agent 並無區分度,那麼 Agent 框架反而更穩定一些,能產生資產發行的價值虹吸效應,這是目前 Crypto 和 AI Agent 結合的 1.0 版本。
而 2.0 版本正在浮現,典型是 DeFi 和 AI Agent 的結合,DeFAI 的概念提出當然是熱度刺激下的市場行為,但是如果我們把以下情況考慮在內就會發現有所不同:
正是在 DeFi 嬗變的大背景下,AI 正在改進 DeFi 的基本邏輯,如果之前 DeFi 最大的邏輯是驗證智能合約的可行性,那麼 AI Agent 則讓 DeFi 的製造邏輯發生改變,你並不需要理解 DeFi 才能製造 DeFi 產品,這是比鏈抽象更進一步的底層賦能。
人人都是程序員的時代即將到來,複雜的計算可以外包給 AI Agent 背後的 LLM 和 API,而個人只需要專注於自己的想法,自然語言可以被高效轉化為編程邏輯。
本文並未提及任何 Crypto AI Agent 代幣和框架,因為 Cookie.Fun 已經做的足夠好,AI Agent 信息聚合和代幣發現平臺,進而是 AI Agent 框架,最後才是忽生忽滅的 Agent 代幣,繼續在文內羅列信息已無價值。
但是在這一段時間的觀察中,市場上依然缺少真正對 Crypto AI Agent 指向究竟是什麼的探討,我們不能總是在討論指針,內存變化才是本質。
也正是生生不息的將各類標的資產化的能力,才是 Crypto 的魅力所在。