在ChatGPT引領本輪AI的產品开端後,關於下一代AI的產品形態也引起了廣泛關注。近期創業公司Monica推出通用型AI Agent Manus,引發了對AI Agent這一AI的L3階段產品的討論,Manus在多代理模式和可靠性問題上有所創新。我們認爲AI Agent這類產品形態的創新與底層的模型演進同樣重要,並展現出了強大的商業化變現和落地潛力。展望未來,我們認爲AI Agent或將通過接管手機的方式,重塑互聯網生態。

摘要

從推理者到智能體,AI Agent的L3時刻加速到來。在AI發展的路线圖方面,L3“智能體”與L1、L2的本質區別在於能否使用工具和執行決策,近半年來海內外廠商在執行能力相關技術上的進展明顯加快,我們認爲“智能體”規模化落地的時點在加速到來。近半年來海外廠商密集發布AI Agent產品及相關工具。我們認爲這些產品主要針對兩個目標:1)解決影響Agent執行效果的痛點,以增強Agent接管設備的能力,實現L3級別AI的落地;2)增強开發者構建Agent的能力,簡化針對個人需求的Agent的落地流程。

聚焦Manus:AI Agent在C端落地的模式創新。3月6日,Monica發布Manus,Manus在GAIA(一個評估通用AI助手解決實際問題能力的基准)三個難度等級上的評分都超越了OpenAI Deep Research成爲第一。我們認爲Manus更多地是一種模式上的創新:1)Manus證明了多代理模式可以相對容易地實現通用AI Agent的落地,這也與海外廠商推出構建模塊、統一API協議的目的比較類似;2)“展示過程”的形式有助於降低大衆的理解門檻,提高用戶對AI產物的信任度,並催化AI Agent實現大規模落地。

AI Agent演進:改變人機交互入口,重塑生態。從AI Agent的變化出發,長期來看,我們認爲AI Agent將會改變當前的人機交互方式,並對內容分發、終端硬件產生深遠影響。2024年至今手機廠商紛紛推出擁有系統級AI Agent的手機,互聯網廠商也相繼布局擁有設備接管能力的自主智能體,考慮到手機廠商擁有硬件、用戶和底層權限,互聯網廠商擁有軟件开發能力、平台和數據,我們認爲短中期或呈現百花齊放的格局。此外,隨着AI Agent能力滲透至設備控制權以及多模態模型的發展,AI Agent或將帶來終端設備形態的重構。

風險

宏觀因素影響消費者需求;技術迭代不及預期;AI商業化不及預期;算力供應不及預期;數據安全監管收緊風險。


從推理者到智能體,AI Agent的L3時刻加速到來


從L2向L3級別邁進,AI進入智能體時代

從推理者到智能體,AI的L3時代加速來臨。在ChatGPT引領本輪AI的开端後,關於AI的演進過程即下一代AI的產品形態也引起了世界的關注。在AI發展的路线圖方面,OpenAI參考智能駕駛等級將AI發展劃分爲聊天機器人(Chatbots)、推理者(Reasoners)、智能體(Agents)、創新者(Innovators)、完整組織(Organizations)五個階段。

► Level 1:ChatGPT的推出標志着AI達到L1階段,即能夠理解語言,智譜認爲L1能力已經達到了80~90%。

► Level 2:OpenAI o1模型的發布代表着邏輯思維能力的快速進化,推動AI進入“推理者”階段,DeepSeek的模型創新則進一步將“推理者”AI推向市場。

► Level 3:L3“智能體”與L1、L2的本質區別在於——能否使用工具和執行決策,近半年來海內外廠商在執行能力相關技術上的進展明顯加快,我們認爲“智能體”規模化落地的時點在加速到來。

圖表:OpenAI定義AI發展五個階段

資料來源:OpenAI,智譜,中金公司研究部

圖表:智譜對AGI各項能力發展進度的評估

資料來源:智譜,中金公司研究部

圖表:ChatGPT、DeepSeek分別代表L1、L2階段取得突破性進展

資料來源:AI產品榜(aicpb.com),中金公司研究部

近半年以來,包括OpenAI、微軟、Anthropic在內的海外廠商密集發布AI Agent產品及相關工具。我們認爲這些產品主要針對兩個目標:1)致力於解決影響Agent執行效果的痛點,如對圖形用戶界面的解析,以增強Agent接管設備的能力,實現L3級別AI的落地;2)增強开發者構建Agent的能力,包括提供統一的API、部署平台等,簡化針對個人需求的Agent的落地流程。

圖表:海外廠商开發的AI Agent產品及相關工具

資料來源:各公司官網,中金公司研究部

目標#1:增強AI Agent對GUI的理解能力,逐步實現設備接管

Anthropic:率先提出Computer Use的概念,能和人類一樣“觀察”和“操作”計算機。2024年10月22日美國初創公司Anthropic在更新Claude3.5模型家族的同時推出了Computer Use(計算機使用)功能。相比於設計一個用來完成單一任務的專用工具,Anthropic構建了一個API,讓Claude模型通過觀看屏幕截圖、移動光標、點擊按鈕、輸入文本的方式使用電腦上的標准工具和軟件,真正模擬人類與電腦的交互。例如在官方案例中,需求“使用本地和在线數據填寫表單”可以轉換爲電腦指令“檢查本地表格;移動光標打开瀏覽器;點擊相關網頁;識別網頁中的數據填寫表單”。

OpenAI:繼Anthropic之後,2025年1月OpenAI發布類似功能的Operator,但更聚焦在操控瀏覽器上。Operator由一個名爲CUA(Computer-Using Agent,計算機使用智能體)的新模型提供支持,CUA將GPT-4o的視覺功能與通過強化學習獲得的高級推理相結合,可以與圖形用戶界面(GUI,即按鈕、文本等)進行交互。因此,Operator可以通過屏幕截圖“觀察”網頁,並通過虛擬的鼠標和鍵盤在網頁上進行“操作”,此外,當Operator遇到需要用戶確認的問題(如登錄账號等)時,它也會將控制權交還給用戶。

圖表:Computer Use代替人類使用電腦的標准工具

資料來源:Anthropic官網,中金公司研究部

圖表:Operator是主打網頁瀏覽的計算機使用代理

資料來源:OpenAI官網,中金公司研究部

Computer Use和Operator接管設備的共同途徑是去理解人類常用的UGI。微軟在推出屏幕解析工具OmniParser時解釋了其實現路徑,即先從常見網頁中提取數據,構建一個可交互圖標檢測數據集和一個圖標描述數據集,並微調成兩個專用模型,包括一個用於識別和定位UI上可交互區域的檢測模型,和一個用於生成圖標功能描述的描述模型。OmniParser在獲得屏幕截圖後,可以將檢測到的圖標和生成的描述整合爲結構化元素,在各類結構化元素上疊加邊界框,並輔助Agent根據用戶指令點擊某個結構化元素。

圖表:OmniParser將UI屏幕截圖轉換爲結構化元素

資料來源:微軟官網,中金公司研究部

從結果看,AI Agent代理計算機的能力較人類仍有較大差距,但在快速進步。根據OSWorld測試基准(旨在測試多模態代理在真實計算機環境中處理开放性任務的能力),受限於GUI基礎和操作知識,AI Agent的任務完成度僅爲12.24%,而人類的完成度超過72.36%。但我們看到近半年來Agent的代理能力正在快速提升,例如在解析屏幕截圖這一項任務中,在Anthropic推出Computer Use前,Agent的最高任務完成度僅爲7.8%,Computer Use將這一水平提升到了14.9%,而截至2025年3月,OpenAI的Operator已能達到38.1%的完成度,此外Simular、Anthropic、字節等廠商也陸續優化到了20%以上水平。

圖表:OSWorld對解析屏幕截圖這一項任務的完成度評分(部分)

資料來源:OSWorld官網,中金公司研究部

目標#2:增強Agent部署能力,讓Agent的誕生更加容易

海外大廠相繼推出構建模塊、構建平台等Agent开發工具,打造專有生態。2025年3月11日OpenAI發布了其第一組構建模塊,通過Response API,用戶僅需幾行代碼就可以調用OpenAI的內置工具(包括Web搜索、文件搜索和計算機使用)來構建符合自身需求的Agent,而無需再專門編寫調用外部工具的復雜代碼,大大簡化了Agent开發的流程。這初步體現了OpenAI的平台战略,OpenAI提到未來還將推出構建平台,使开發人員和企業在OpenAI的生態中能夠更輕松地構建、部署和擴展可靠的AI Agent產品。此外,微軟在2024年11月時發布了Agent構建平台Copilot Studio,开發人員和企業使用自然語言就可以快速地生成具有專屬功能的Copilot Agent。

圖表:利用Responses API構建AI Agent

資料來源:OpenAI官網,中金公司研究部

圖表:Copilot Studio允許用戶構建自己的Agent

資料來源:微軟官網,中金公司研究部

區別於建立一站式構建平台,Anthropic另闢蹊徑推出MCP开放標准,但同樣致力於提升Agent开發能力和效率。MCP(Model Context Protocol,模型上下文協議)發布於2024年11月,提供了一種調用外部工具和數據庫的通用標准(類似於拓展塢),使得AI Agent(MCP客戶端)可以以統一的方式連接到工具和數據源(MCP服務器),而無需爲每個Agent和每個數據源的鏈接單獨編寫代碼。根據Anthropic官網,Anthropic已爲Google Drive、Slack、GitHub、Git、Postgres和Puppeteer等常用的系統共享預構建的MCP服務器,此外Zed、Replit、Codeium和Sourcegraph等开發工具公司已在平台开發中應用了MCP。

圖表:MCP標准爲AI Agent和外接數據源提供便捷連接

資料來源:硅星人Pro公衆號,中金公司研究部


聚焦Manus:AI Agent在C端落地的模式創新


通用型AI Agent Manus引發熱議

中國創業公司Monica推出通用型AI Agent Manus。3月6日,Monica發布Manus,Manus在GAIA(一個評估通用AI助手解決實際問題能力的基准)三個難度等級上的評分都超越了OpenAI Deep Research成爲第一。Manus的任務處理能力和輸出能力非常多樣化,官方案例中涉及了簡歷篩選、股票分析、購房推薦、課程設計、文娛創作等多個種類,輸出形式也不局限於文字報告,而是通過外接各種工具,實現文檔、圖像、音頻、Dashboard甚至APP等類型的輸出。

與以往的AI Agent有所不同,Manus將其處理問題的過程在屏幕右側的虛擬機上展示了出來。以官網案例“四月日本之旅”爲例,當用戶提出需求後,Manus首先使用LLM模擬人類的思考模式,將需求拆解爲多個子任務並輸出“To Do List”(包括查找交通、天氣、入境事項、景點、地圖等任務);當Manus接入Coding Agent、Computer Use等工具來完成子任務時,虛擬機上會實時展示完成進度、Manus正在編寫的代碼或瀏覽的網頁等信息,其中Manus瀏覽網頁時也會採取類似於人類的“滾動”、“點擊”等操作;最後Manus按照用戶要求輸出了HTML格式的旅遊攻略。

相比於上述海外廠商在Agent底層技術上的創新,我們認爲Manus更多地是一種模式上的創新:1)Manus證明了多代理模式可以相對容易地實現通用AI Agent的落地,這也與海外廠商推出構建模塊、統一API協議的目的比較類似;2)“展示過程”的形式有助於降低大衆的理解門檻,提高用戶對AI產物的信任度,並催化AI Agent實現大規模落地。

圖表:Manus官方演示案例——四月日本之旅

資料來源:Manus官網,中金公司研究部

圖表:Manus具備多模態輸出能力

資料來源:Manus官網,中金公司研究部

圖表:Manus成爲GAIA評分第一

資料來源:Manus官網,中金公司研究部

創新#1:通過多代理模式,快速實現通用AI Agent落地

Manus採用了一種“多代理”的套殼模式。我們認爲面向C端的通用AI Agent可能有兩種落地形式,一種是單獨一個Agent就能解決大多數場景的問題,即全能型選手;另一種是由母Agent分解任務並調配多個子Agent的資源,使用最合適的工具來完成不同任務,如Manus。

在2024年初,Perplexity的CEO就發表過對這一模式的看法:“擁有十萬用戶的套殼產品顯然比擁有自有模型卻沒有用戶更有意義。”從Manus的演示結果和用戶測試評價來看,我們認爲可以說明多代理模式是一種相對比較容易去推動AI Agent在通用場景中落地的模式,未來初創公司、互聯網大廠乃至手機廠商都有可能在衆多現有的Agent基礎上形成自己的通用產品。

創新#2:處理過程展示降低用戶門檻,解決可靠度問題

從供給側來看,海外大廠已在密集發布AI Agent的產品;從需求側來看,Agent的需求旺盛,但面臨的最大問題是“可靠性”。根據LangChain的調查報告(報告訪問了1,300名B端用戶,我們認爲對B/C端落地都有一定參考意義),人們在長耗時任務中對AI Agent有較大需求,例如:研究總結(提煉關鍵信息)、個人生產力提高(協助安排日程、管理任務)、客戶服務(處理客戶咨詢、提升響應速度)、代碼生成、數據轉換、互動型遊戲和陪伴等。但用戶對AI Agent普遍存在“完成質量”或“可靠性”方面的擔憂,AI Agent在復雜場景中並不一定能夠持續保持響應和問題解決路徑的准確性,因此有一半以上的受訪者在實際使用中會爲AI Agent補充跟蹤和觀察的控件。

Manus展示了處理過程,降低用戶理解門檻,有望解決阻礙Agent規模化落地的可靠度問題。我們認爲阻礙AI Agent成爲真正的生產力工具(尤其ToC)的原因之一在於“執行任務准確度不足、用戶信任度不高”,因此短期能夠在C端大規模應用的AI Agent不一定是自主能力最強的,而是能夠兼顧性能和用戶信任度的。Manus的任務處理過程一邊會在屏幕右側虛擬機上展現出來,一邊也可以通過左側的任務進程來回溯、復核,並且整個交互界面以及機器處理任務的邏輯都是不具備編程能力的普通人也能夠理解的形式,可以大幅提高生成內容的可信度。我們認爲後續大廠和初創公司都有可能跟進這種形式,爲AI Agent設計一個“展示過程”的交互界面,若能解決大衆使用AI Agent的最大擔憂,AI Agent的市場滲透率或將實現質變突破。

圖表:受訪者(企業用戶)爲Agent採取的控制措施

資料來源:LongChain State of AI Agent Report,中金公司研究部

圖表:限制受訪者(企業用戶)更多地使用Agent的因素

資料來源:LongChain State of AI Agent Report,中金公司研究部

AI Agent演進:改變人機交互入口,重塑生態

在前面兩個章節中,我們探討了AI Agent產品的最新發展趨勢和落地速度的加快。隨之而來的問題是,如果AI Agent成爲現實,那整個互聯網生態也大概率會出現變化。一方面AI相關應用層出不窮,如互聯網大廠紛紛推出自己的搜索問答產品如豆包,也通過接入DeepSeek等方式加快產品迭代如騰訊元寶;另一方面如何與現有互聯網生態尤其是手機爲核心的終端硬件在操作系統層面打通也成爲了更進一步的目標,目前我們已經看到阿裏與蘋果合作等變化。我們認爲這背後體現了AI對交互方式的變革,以及後續對內容分發、終端硬件的深遠影響。


終局形態:AI Agent成爲互聯網核心

聚合流量並進行內容分發


AI Agent接管手機,改變人機交互入口

智能手機交互體驗從GUI(圖形用戶界面)發展爲VUI(語音用戶界面)+GUI(圖形用戶界面),未來或將升級爲Agent(APP-less)UI。在傳統的智能手機時代,軟件應用需要產業生態中各廠商在擅長的領域推動產品和服務的更新,體現爲移動互聯網廠商和應用开發者作爲主力軍、APP爲主要交互界面。隨着生成式AI、多模態技術的發展,各廠商將語音助手接入大模型,增強其交互能力。展望未來,隨着各廠商將大模型融入底層操作系統,越來越多的功能和服務將被接入到AI Agent,我們認爲AI Agent或將逐漸成爲連接數字生態的入口,而部分APP(尤其工具類APP)或退居後台服務提供方的位置,用戶只需要提出需求(如微信和朋友晚上約地點喫飯),AI Agent能自動綜合不同APP信息給出較好的解決方案。

圖表:智能手機交互體驗演進過程

資料來源:《生成式AI手機產業白皮書》(聯發科&Counterpoint,2024),中金公司研究部

更進一步,AI Agent或重塑互聯網格局和流量生態

未來用戶流量或從多個APP聚合到單一Agent,並影響應用开發商格局。移動互聯網時代各類APP負責滿足不同垂類場景的需求,用戶流量平均地分散於微信(即時通訊)、淘寶(電商)、抖音(短視頻)、高德(地圖導航)等多個垂直類頭部APP,QuestMobile數據顯示各類頭部APP的MAU接近,這也使得應用开發商在市場競爭中有比較多元的生存路徑。到了Agent時代,我們認爲垂類Agent主要用於增強特定場景下的生產力,有可能會形成接近當前APP的格局;但通用Agent具備跨場景任務執行能力(如獨立甚至同時處理日程管理、商品比價、路线規劃),用戶流量不再需要分散在多個APP上,而是有可能向單一入口(Agent)聚合。因此,我們認爲當技術達到一定成熟度、即通用Agent可完全接管終端交互時,應用开發商的格局或更加趨於集中,少數擁有強勁Agent產品的廠商佔據大部分市場,因此手機廠商和互聯網廠商均在搶灘AI Agent。

內容分發權力或將轉移至AI Agent,催生手機廠商和互聯網廠商的入口爭奪。移動互聯網時代,用戶從應用商店手動下載APP、使用APP,這一行爲代表了用戶人爲地將內容分發的權利交給了某個APP(以大衆點評爲例),傳統高MAU的APP制定推送機制並借此向內容生產者(如餐飲商家)收取服務費。而在Agent(APP-less)交互模式下,APP弱化爲硬件的後台服務提供方,Agent可以通過語義理解直接調用底層API(如整合攜程攻略、頭條圖文的數據生成餐飲決策),代替APP掌握內容分發的權力,同時由於內容篩選規則的改變,其變現商業模式可能也異於當前。內容分發帶來的利潤在互聯網廠商和手機廠商的總利潤中佔據較大比重,因此我們看到手機廠商和互聯網廠商都希望能構建自己的AI Agent產品來競逐內容分發的入口控制權。

圖表:2024年Q4移動APP平均MAU

資料來源:QuestMobile,中金公司研究部

圖表:AI Agent接管傳統APP的內容分發權力

資料來源:大衆點評,超級小愛,中金公司研究部

圖表:互聯網廠商廣告收入、手機廠商互聯網業務收入情況

注:其中標橙色的爲硬件廠商,標紅色的爲互聯網廠商;數據來自2023年年報 資料來源:Wind,中金公司研究部

競爭格局:百花齊放,手機及互聯網廠商競相布局AI Agent

手機廠商:擁有硬件、用戶和底層權限,布局系統級AI

手機廠商布局系統級AI,將語音助手升級爲智能體。梳理GenAI端側應用,我們認爲AI手機的發展分爲“AI App”、“AI功能化”、“AI系統化”三個階段:

► “AI App”:ChatGPT、Claude等獨立第三方APP出現爲“AI App”,是AI手機第一階段,AI App成爲用戶與雲端LLM交互的路徑。

► “AI功能化”:隨着端側大模型推出並融入手機操作系統,大模型賦能手機日常應用,如三星Galaxy S24手機中畫圈搜索、電話摘要、AI圖像消除功能,已初具AI Agent雛形,但更多還是集中在功能端。

► “AI系統化”:2024年4月華爲Pura 70發布,智能助手升級爲“小藝智能體”;10月蘋果推送iOS18.1更新實現校對和重寫等AI寫作工具、照片記憶及全面升級的siri;10月小米推出搭載澎湃OS 2系統的小米15系列,將小愛同學升級爲超級小愛,可實現“幫記”、“幫找”、“幫執行”;10月榮耀發布了首款搭載AI Agent的Magic 7,集成了AI操作系統MagicOS 9,YOYO助理升級爲YOYO智能體,可實現模糊理解、界面識別、自動執行等能力如“一鍵點飲品”、“一鍵旅行規劃與訂票”等。

圖表:各手機廠商推出AI Agent手機

資料來源:各公司官網,中金公司研究部

展望未來,AI Agent的硬件載體或突破傳統邊界,帶來消費電子格局的改變。我們認爲,隨着AI Agent的能力逐步滲透至設備控制權,以及VLM(視覺語言模型)發展帶來的多模態交互能力增強,傳統手機爲核心的消費電子產品亦將發生變化,可穿戴設備如眼鏡等也將在AI加持下實現更多功能,重塑消費電子格局。

互聯網廠商:掌握軟件开發、平台和數據,布局“接管設備”的智能體

通過智能體虛擬機,互聯網廠商可以擁有終端的使用權。除了海外廠商近半年來相繼推出的AI Agent產品,我們看到國內互聯網公司在手機端也推出了“接管設備”類型的智能體。2024年10月智譜推出AutoGLM,可根據用戶指引完成購物、進入應用程序完成文字填寫、總結歸納等操作,主要聚焦在手機應用場景;原理是通過光學字符識別技術理解用戶界面的組件,通過思維鏈訓練理解、規劃和執行能力、使得其具備按指令規劃執行的能力。第三方App適配方面,AutoGLM已經可以執行微信、淘寶、美團、小紅書等。

互聯網廠商也與手機廠商合作,把握C端應用機會。2024年9月,榮耀與智譜共建大模型技術聯合實驗室,榮耀產品线總裁方飛表示:“智譜專注於通用人工智能的基座大模型創新,榮耀專注於把物理世界與數字世界通過智能終端連接起來。雙方持續深度的合作,將加速智能終端與人的交互變革與深度體驗變革。”無獨有偶,2025年2月,蘋果和阿裏宣布將合作爲中國iPhone用戶开發AI功能。從蘋果的角度,阿裏憑借電商業務在中國市場建立了龐大的用戶基礎,對個人用戶的習慣和偏好有更深入的理解,可以幫助蘋果有針對性地解決用戶的個性化需求;從阿裏的角度,當前阿裏的千問在C端應用中落後於DeepSeek、豆包等產品,而蘋果在中國終端市場擁有15.6%的市場份額(2024年,IDC),此次合作有望成爲阿裏競逐C端AI應用的重要着力點。

圖表:智譜在安卓手機上可以支持微信、淘寶等多個應用的自動化任務執行

資料來源:智譜官網,中金公司研究部

圖表:互聯網廠商與手機廠商合作實現C端AI應用的雙贏

資料來源:中金公司研究部

我們認爲,目前AI Agent的發展還處於相當初期的階段,無法判斷具體哪個廠商會勝出,但長期來看,無論是硬件廠商還是互聯網廠商均圍繞AI Agent的底層模型、產品形態、用戶體驗等多個方面進行了多方布局,長期能夠推出符合消費者需求並形成商業化閉環的公司或有望獲得更好的成長機遇。

風險提示

宏觀因素影響消費者需求:如匯率波動、大宗商品價格、通脹等宏觀因素影響消費者對可選消費品的需求。

技術迭代不及預期:AI Agent和大模型迭代放緩,或在端側適配中面臨難以攻克的技術挑战。

AI商業化不及預期:客戶對AI付費意愿和使用習慣存在差異,若缺乏持續使用的動力,AI產品難以成爲生活必需品,可能導致用戶粘性不足,抑制商業化變現能力。

算力供應不及預期:AI Agent對推理算力的高需求,使得算力供應成爲關鍵。若國內研發和供應進展低於預期,或因地緣政治風險導致進口算力產品供應受限,可能會影響AI Agent推廣落地。

數據安全監管收緊風險:數據廣泛應用可能引發數據安全相關擔憂,若監管政策進一步收緊,將對企業數據處理和AI模型訓練形成制約。

本文摘自中金公司2025年3月22日已經發布的《AI進化論(8):AI Agent:AI的L3時刻?》

溫晗靜 分析員 SAC 執證編號:S0080521070003 SFC CE Ref:BSJ666

何欣怡 聯系人 SAC 執證編號:S0080123070095

彭虎 分析員 SAC 執證編號:S0080521020001 SFC CE Ref:BRE806

賈順鶴 分析員 SAC 執證編號:S0080522060002

李澄寧 分析員 SAC 執證編號:S0080522050003 SFC CE Ref:BSM544

查玉潔 分析員 SAC 執證編號:S0080524110001



標題:AI進化論:AI Agent:AI的L3時刻?

地址:https://www.iknowplus.com/post/205332.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。