中信證券：OpenAI推出視頻生成模型Sora...

近一周內，OpenAI和谷歌分別推出了他們的最新AI模型，圍繞視頻多模態這個核心關鍵點雙方不斷加碼。Gemini1.5 Pro基於大語言模型處理視頻模態，上下文長度超過百萬， Sora在技術上採用了Diffusion Transformer的路线，OpenAI表示Sora在訓練過程中表現出了與其他模型不同的湧現能力，有望成爲真正的“世界模型”。從投資角度來看，Sora背後的湧現能力爲自動駕駛、設計等需要現實世界建模的行業提供了明確方向。Gemini在短期內的部分商業場景表現可能會更爲出色，尤其是需要結合圖片與文字的多模態應用場景。除去應用端的投資機會，硬件端的需求也必然會隨着多模態的技術進步而不斷提高，我們仍然持續看好AI算力，尤其是後續商業端成熟而帶來的更多AI推理側算力的機會。

事件背景：

近一周內，OpenAI和谷歌分別推出了他們的最新AI模型，展現了各自在人工智能技術上的最新進展。2月16日，OpenAI介紹了其首個視頻AI模型Sora，這款模型可以根據文本指令生成最長60秒的高質量視頻，並能夠依據文字提示進行視頻內容的調整。與此同時，谷歌也宣布了其新一代多模態模型Gemini Pro 1.5的發布，該模型具有突破性的能力，能夠處理達到100萬tokens的復雜上下文。

技術進展：圍繞視頻多模態，谷歌與OpenAI在基礎算法領域不斷加碼。

Google推出的Gemini1.5 Pro就架構而言，引入了能夠將神經網絡細分爲更小“專家”的MoE架構（這也是普遍猜測中GPT-4採用的架構），使其相較傳統的Transformer架構更爲高效。

就模型能力而言，Gemini 1.5 Pro的最大提升在於支持了100萬tokens的Context Window，遠超前代的3.2萬tokens，意味着模型能夠一次性處理更加大量的信息。在演示中，谷歌使用長視頻作爲例子，Gemini最新版本可以處理長達1個小時的長視頻，並理解視頻的內容進行回答，展現出了語言模型的極強的多模態處理能力。OpenAI的Sora模型相比Gemini1.5 Pro有所區別，它並不是一個語言模型，而是一個純粹的視頻生成模型，更接近於我們以前所知的Dalle、Stable Diffusion、Midjourney等模型。Sora在底層上採用了與文生圖模型相同的Diffusion Model（擴散模型）的框架，但採用了Transformer層取代了傳統的Unet層。

具體而言，Sora首先對視覺數據建模，將視頻壓縮到低位的潛變量空間（Latent Network），然後將其拆解爲一個個碎片(Patches)。在引入了Transformer的多頭注意力層後，模型將每一個Patch當做語言模型中的文字Token處理，幫助模型學習海量視頻中不同碎片間的動態關聯。因此我們看到OpenAI將其模型成爲Diffusion Transformer，融合了當期最熱門的語言模型與文生圖模型，並且在成果上我們看到了Sora相比於其他視頻生成模型更多的靈活性，以及對物理世界的理解能力。

後續影響：Sora的推出帶來了更大的市場影響力，湧現能力爲“世界模型”的誕生提供了基礎。

Gemini1.5 Pro提供了相當驚豔的大語言模型處理視頻模態的綜合能力，但相較之下市場把更多關注度給到了Sora，這是因爲Gemini的升級本質上是對過去模型的繼續迭代優化，而Sora的出現給計算機視覺領域可能提供了一條嶄新而明確的道路。在技術上Sora採用了Diffusion Transformer的路线，OpenAI表示Sora在訓練過程中表現出了與其他模型不同的湧現能力，通過湧現學習到了物品的時間與空間相關性以及與周圍世界的互動能力等等。得益於這種基於規模的湧現能力，如果後續持續擴大模型以及訓練集的規模，那么將來以Sora爲基礎的模型可能做到模擬整個物理和數字世界，成爲真正的“世界模型”。長期以來，計算機視覺領域的研究一直過於碎片化，直到目前實際用例中的計算機視覺模型仍根據不同任務採取不同的小模型。而Sora的成功以及其背後展現出的湧現能力可能爲計算機視覺領域的研究提供了一個明確的方向，成爲未來視頻與模擬領域（例如自動駕駛）的統一範式。

商業推演：Sora模型受制於能力與成本實用性較低，Gemini短期商業化潛力較大。

盡管Sora相較於Gemini引起了更大的轟動，其本身也是技術上的進一步創新，但我們也無法忽視Sora目前存在的多種局限性。首先在能力上Sora距離可實用還有較大距離，OpenAI明確表示Sora雖然能理解部分因果關系與物理現象，但難以在較長視頻中准確模擬復雜場景中的物理現象、可能無法理解具體的因果關系、可能混淆提示的空間細節以及可能難以准確描述隨時間變化的事件。這與我們觀察到的Sora Demo的表現也較爲一致，在視頻時長拉長到10秒以上時，Sora經常會出現在物理定律以及交互過程中的小錯誤。其次成本是Sora無法忽視的問題，Sora採用的Latent空間壓縮，我們進行簡單估算：對於一個60幀的視頻（約6-8秒），其需要約6萬個Patches，如果去噪步數是20的話，相當於要生成120萬個Tokens，這是相當大的計算量。同時考慮到擴散模型在實際使用時往往需要多次生成的特點，實際計算量會遠超剛剛計算的120萬個Tokens。相較之下，Gemini是在原有模型上的繼續迭代，其最大特點是加長了context window與多模態能力，這些都是短期內更爲實用的更新，在成本可控的條件下，我們更看好Gemini在短期的商業表現。

風險因素：AI核心技術發展不及預期風險；科技領域政策監管持續收緊風險；私有數據相關的政策監管風險；全球宏觀經濟復蘇不及預期風險；宏觀經濟波動導致歐美企業IT支出不及預期風險；AI潛在倫理、道德、用戶隱私風險；企業數據泄露、信息安全風險；行業競爭持續加劇風險等。

投資策略：本次谷歌與OpenAI兩家公司的模型更新仍然是圍繞底層算法層面，尤其是模型的視頻多模態方面進行展开，我們維持多模態與成本降低將是今年AI算法發展最核心的兩個主线的判斷。從技術角度，Sora所展現出來的框架能力更爲驚豔，背後的湧現能力爲自動駕駛、設計等需要現實世界建模的行業提供了明確方向，但其技術成熟度還處在早期階段，同時成本开銷過於巨大。相較而言，Gemini在短期內的部分商業場景表現可能會更爲出色，尤其是需要結合圖片與文字的多模態應用場景。除去應用端的投資機會，硬件端的需求也必然會隨着多模態的技術進步而不斷提高，我們仍然持續看好AI算力層面，尤其是得益於商業端成熟而帶來的更多的AI推理側算力的機會。

注：本文節選自中信證券研究部已於2024年2月18日發布的《前瞻研究行業全球AI人工智能行業重大事項點評—OpenAI推出視頻生成模型Sora，AI產業圍繞多模態不斷加碼》，報告分析師：陳俊雲、賈凱方、劉銳、高飛翔

標題：中信證券：OpenAI推出視頻生成模型Sora，AI產業圍繞多模態不斷加碼

地址：https://www.iknowplus.com/post/82058.html