中信證券:xAI發布Grok-3,詮釋“大力出奇跡”
近期xAI發布Grok-3系列模型,作爲全球首個在十萬卡集群上訓練的大模型,Grok-3應用了合成數據、強化學習、自我糾錯機制、人類反饋循環和上下文訓練等方法,模型綜合能力較前代模型Grok-2提升顯著。據xAI官方測評數據,在數學測試、理科測試和代碼測試中,Grok-3 Reasoning性能表現超越了o3 mini(high)、Gemini-2 flash thinking和DeepSeek R1等頭部模型。Grok-3系列模型的SOTA表現,意味着算力堆積仍是模型進步的關鍵變量之一。中信證券判斷產業在追逐AGI模型的方向上有望不斷加速,進而對算力需求形成持續拉動,同時主要模型廠商在復雜推理層面的不斷加碼,亦有望推動下遊應用的不斷解鎖,從而在中期構建更爲健康、均衡的AI產業生態。
▍事項:
北京時間2月18日中午12點,馬斯克創立的大模型初創公司xAI發布了其最新一代大模型Grok-3以及其相關變體版本Grok-3 Reasoning、Grok-3 mini和Grok-3 mini Reasoning,引發資本市場高度關注。
根據xAI官方X平台账號,Grok-3是xAI基於其部署於田納西州孟菲斯的Colossus超級計算機訓練得到的,消耗的計算資源等效於2億小時H100支持的GPU訓練時長,是上一代模型Grok-2的10倍以上。根據xAI官網,Colossus超級計算機至少包含10萬張H100,由此中信證券預計預訓練階段消耗時長超2000小時(83.3天)。
此外在發布會上,馬斯克還宣布在Grok-3成熟穩定後(馬斯克預計幾個月之後),xAI發布的上一代模型Grok-2將开源。根據xAI官網,在2024年Grok-2發布後,xAI也以Apache2.0开源協議了總參數規模達3140億的MoE大模型Grok-1。
▍模型效果與實現機理:算力堆積、強化學習等顯著提升模型綜合、推理能力。
作爲全球首個在十萬卡集群上訓練得到的大模型,Grok-3測評結果亮眼,在多項測試中均處於行業領先地位。
根據xAI發布會,在數學測試AIME、博士水平理科測試GPQA和代碼編寫測試Coding(LCB Oct-Feb)中Grok-3得分分別爲52/75/57,性能表現超越了Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet和GPT-4o等主流模型;Grok-3 Reasoning得分分別爲93/85/79,性能表現超越了o3 mini(high)、Gemini-2 flash thinking和DeepSeek R1等頭部推理模型。而在Chatbot Arena這一評估AI模型受人類歡迎程度的測試中,Grok-3的早期版本得分達到了1402,高於Gemini 2.0 flash think、GPT-4o、DeepSeek R1和o1等頭部大模型。
根據xAI官方X平台账號,中信證券認爲Grok-3的性能優秀的成因有以下2點:1)龐大的算力投入帶來了模型能力的湧現,根據xAI發布會,Colossus超級計算機在完成第二階段建設後集群規模擴展至20萬張H100;2)合成數據、強化學習、自我糾錯機制、人類反饋循環和上下文訓練等訓練手段的應用。
▍市場定位:面向付費用戶,能力提升有望解鎖更多潛在場景,成本有待優化。
根據xAI發布會,目前Grok-3將率先於推特的Premium Plus用戶中推廣,該訂閱計劃目前每月訂閱費用爲40美元。同時,xAI還發布了由Grok模型支持的Agent產品DeepSearch。該Agent產品能通過掃描互聯網和推特來獲得並分析信息,最終總結回復。根據xAI發布會,DeepSearch和無限的圖像生成功能將包含在SuperGrok這項獨立收費計劃中,預計訂閱費用爲每月30美元(年度訂閱爲300美元)。此外,Grok-3的企業級API預計將在幾周後上线。在xAI發布會中,官方還展示了如何用Grok自動化遊戲开發。中信證券認爲模型能力的不斷提升下,AI應用場景有望進一步解鎖;而對比Grok-3與的ChatGPT的定價水平(20美元/月),並考慮到目前仍處於市場教育搶佔份額階段,中信證券認爲Grok-3的推理成本有待進一步優化。
▍趨勢展望:基礎模型演進節奏加快,合成數據&強化學習等值得持續關注。
根據IBM和MIT研究者的論文《A Hitchhiker's Guide to Scaling Law Estimation》(Choshen,Zhang和Andreas,2024),理論上來看現階段預訓練Scaling Law依舊有效。而根據各公司官網,2024年Inflection、Adept和Character AI等海外明星模型初創公司均已放棄預訓練,並將重心轉向後訓練與推理技術(如Agent技術等)。
中信證券認爲該變化主要成因有如下2個方面:1)萬卡乃至十萬卡級別算力集群投入過高:根據Pytorchtoatoms官網的測算,Meta於2024年3月推出的4.9萬卡算力集群建設+4年運營成本達到了12.87億美元;2)高質量數據匱乏:根據2024年NIPS會議上AI科學家伊利亞演示材料,預訓練在未來或將受限於互聯網數據耗盡。但Grok-3的出現不僅在實踐上證明了現階段預訓練Scaling Law依舊有效,也表明了合成數據和強化學習技術的重要性。由此中信證券預計少數頭部公司仍將繼續加大預訓練投入,並在合成數據和強化學習上進行更多探索。
▍風險因素:
AI核心技術發展不及預期風險;科技領域政策監管持續收緊風險;私有數據相關的政策監管風險;全球宏觀經濟復蘇不及預期風險;宏觀經濟波動導致歐美企業IT支出不及預期風險;AI潛在倫理、道德、用戶隱私風險;企業數據泄露、信息安全風險;行業競爭持續加劇風險等。
▍投資策略:
本次Grok-3模型的發布仍然是圍繞底層算法層面,尤其是大語言模型的綜合、推理能力。從技術角度,Grok-3的性能表現在龐大算力、多種訓練手段加持下得到顯著提升,體現了頭部公司在基礎模型+推理能力兩個方向的持續聚焦。應用層面,盡管Grok-3的成本在短期可能限制了其應用場景的开闊,但是隨着工程能力的進步和底層算法能力提升帶來的通用推理能力的進步,中信證券認爲AI爆款應用有望從科研、編程等高價值場景起率先解鎖,軟件、互聯網有望率先受益。除去應用端的投資機會,硬件端的需求也必然會隨着多模態的技術進步而不斷提高,中信證券仍然持續看好AI算力層面,尤其是得益於商業端逐步成熟而帶來的更多的AI推理側算力的機會。
注:本文節選自中信證券研究部已於2025年2月19日發布的《前瞻研究全球AI人工智能產業重大事項點評—xAI發布Grok-3,詮釋“大力出奇跡”》報告,分析師:陳俊雲S1010517080001;許英博S1010510120041;賈凱方S1010522080001;高飛翔S1010523060003
標題:中信證券:xAI發布Grok-3,詮釋“大力出奇跡”
地址:https://www.iknowplus.com/post/194972.html