OpenAI o1模型升級思維鏈和強化學習,重點提升模型推理性能,代碼、數學、科學等強邏輯領域能力大幅提升,持續探索AGI實現新方式。新模型在訓練和推理端同步推動算力需求倍增,算力產業鏈景氣度持續上升;應用端進一步降低各領域應用开發成本,推理性能提升擴展強邏輯場景覆蓋,加速各領域應用落地。建議持續關注相關領域的頭部AI公司。

事項:北京時間9月13日凌晨, OpenAI發布o1模型;OpenAI o1具備復雜推理能力,代碼、數學、科學領域達到頂尖水平。

o1可將任務拆解成多個簡單任務,構成完整思維鏈並進行優化,提升最終回答的邏輯性、綜合性、准確性。當前preview版本已开放給5級API用戶,並將在下周向企業和學術用戶優先开放。根據公司官網,編程方面,模型在Codeforces競賽上超過83%的專業人員。數學方面,以2024年的美國數學邀請賽爲測試集,o1單次生成可解決74%的問題,多次生成後進一步提升正確率到83%,而GPT-4只能解決12%的問題。科學方面,模型GPQA Dimond測試集正確率78%,超越人類專家70%水平。

技術解析:強化學習+LLM尋求最優路徑,獎勵模型泛化問題尚需驗證。

參考OpenAI官網及DeepMind的論文Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters(Charlie Snell,Jaehoon Lee,Kelvin Xu等),中信證券推測o1模型將復雜任務拆解成多任務構成的思維鏈,並採用類似強化學習(RL)的模式,通過各節點行爲優化尋求最優路徑。其中,獎勵模型決定優化方向,擁有明確評判標准的領域更具優勢,因此o1模型在代碼、數學、科學領域表現更優,而在寫作、編輯等任務上表現暫時不及GPT-4o,未來獎勵模型能否准確評估其他的輸出結果,是相關技術路线發展的核心問題之一。

算力投入:強化學習帶來算力投入和推理成本倍增。

根據OpenAI測算,訓練和推理端用於強化學習的算力投入與模型效果依然成正比,大模型獲得全新有效算力投入途徑,有望帶來數倍於傳統大模型的算力需求。其中模型推理端算力需求增長顯著,根據公司官網,當前o1-preview模型生成時間可達分鐘級,API定價輸入15美元/百萬Token和輸出60美元/百萬Token,較GPT-4o輸入5美元/百萬Token和輸出15美元/百萬Token的定價有數倍增長。根據英偉達CEO黃仁勳在Communacopia + Technology會議上的發言,海外Blackwell系列需求旺盛,算力行業景氣度持續上行。

應用展望:加速开發成本優化,Agent能力提升B端率先受益。

短期聚焦代碼、數學、科學等強邏輯領域,其中AI代碼生成將推動全領域开發效率提升。根據微軟財報,海外GitHub Copilot Q1付費用戶數超180萬,同比,國內工商銀行軟开中心編碼助手生成代碼量佔總代碼量的比例超32%,o1模型代碼能力,有望進一步提升AI輔助开發效率。未來模型通過獎勵模型泛化有望擴展更多行業,加速對邊緣行業和場景的覆蓋,思維鏈結合工具使用、知識庫等能力應用,可以形成更強Agent性能,服務企業匯總、分析、預警、預測、管理等強邏輯任務需求。

風險因素:

AI核心技術發展不及預期,AI被不當使用造成嚴重社會影響,企業數據安全風險,信息安全風險,行業競爭加劇。

投資策略:

OpenAI o1模型重點升級思維鏈能力,結合強化學習,提升代碼、數學、科學等強邏輯領域能力,持續探索AGI實現方式。新模型在訓練和推理端同步推動算力需求倍增,算力產業鏈景氣度持續上升;應用端進一步降低各領域應用开發成本,推理性能提升擴展強邏輯場景覆蓋,C端和B端應用有望加速。建議持續關注相關領域的頭部AI公司。


注:本文節選自中信證券研究部已於2024年9月15日發布的《計算機行業“智能網聯”系列報告 47—OpenAI o1推理升級,關注強化學習新機遇》報告,分析師:楊澤原S1010517080002;丁奇S1010519120003;馬慶劉S1010522090001



標題:中信證券:OpenAI o1推理升級,關注強化學習新機遇

地址:https://www.iknowplus.com/post/148507.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。