多模態:下一代AI模型差異化的核心來源
除模型規模體積之外,目前全球AI算法的創新重點正逐步聚焦於多模態、智能Agent等方面。OpenAI在今年6月發布的GPT-4V展現了AI多模態能力的重大進展,模型在技術上做到了理解一種模態內容時考慮到另一種模態的上下文,真正意義上同時理解了文字與圖片。我們判斷多模態會是推動本輪AI熱點繼續前進的下一個增長點。預計下一代多模態將會快速拓展目前大語言模型有限的應用場景,顯著提高語言模型的泛化能力,並有望在成本方面展現出對傳統專有模型的優勢,從而推動如AI Agent等應用的落地,進而推動自動駕駛、機器人等應用獲得革命性突破。
目前OpenAI與Google是在多模態領域研發的先行者,其正在研發的GPT-5與Gemini均將會支持文字到圖片的多模態能力,我們預測GPT-5與Gemini的發布時間將在明年的春末或夏初,而影響這一發布速度的仍然是當下的算力瓶頸問題。我們持續看好本輪生成式AI浪潮對科技產業的長周期影響和改變,繼續關注算力、算法、數據、應用等環節的領先廠商。
▍報告緣起:AI大廠正着力研發下一代模型,多模態能力是否會成爲下一代模型的差異化重點?
自2022年底ChatGPT發布以來,全球產業、學術界在生成式AI算法領域的研究一直保持快速的迭代節奏,並在短期取得了較多的進展。在經歷了早期的喧囂之後,在不斷追求規模的伸縮定律(Scaling Law)之外,市場亦在不斷思考生成式AI算法的其他可能改進&發展方向。
在11月7日的OpenAI开發者會議上,公司CEO Sam Altman發布了最新的升級模型GPT-4 Turbo,該模型在上下文窗口(context)長度、可控性、知識結構、多模態、定制化、響應時間等主要層面做了較多升級&更新。作爲生成式AI技術領域的引領者之一,OpenAI在算法層面的思考&進展,對於產業本身具有重要啓示意義。目前OpenAI以及谷歌等巨頭已經开始布局未來,着力研發下一代模型。多模態能力作爲一種融合多種數據輸入(如文本、圖像和聲音)的技術,被認爲有可能成爲是下一代AI模型的差異化亮點。本篇報告將圍繞多模態技術的特點闡述下一代AI模型的可能形態以及相應的投資機遇。
▍多模態技術:用處理文字的方式處理圖片。
2023年6月,OpenAI發布了GPT-4V,這標志着AI多模態能力的重大進展,從處理純文字到結合圖像,GPT-4V展現了其關鍵的突破。8月份,OpenAI的首席科學家Ilya Sutskever在接受WSJ採訪時明確表示:“OpenAI將主要研究多模態技術。卓越的多模態能力將增強模型的理解深度,從處理文字,到圖像,再到視頻,這預示着大模型逐步邁向AGI。”從技術角度出發,當前的多模態模型在文字部分基本沿用了目前語言模型的預訓練架構,而在圖片部分會使用類似於ViT的Patch Embedding等方法將圖片分割爲小像素塊再交給模型進行預訓練。接下來,多模態模型會使用不同的方法將文字和圖片的輸入進行對齊。如T5、CliP的部分變體等模型會採用交叉注意力的技術使模型在理解一種模態內容時考慮到另一種模態的上下文,幫助模型在處理一個模態的同時,捕捉到與另一模態的直接關系,這也讓多模態模型從真正意義上做到同時理解了文字與圖片。
▍多模態優勢:更好的理解能力與魯棒性,下一代AI模型的主要形態。
自2022年11月ChatGPT亮相以來,主流的大型模型主要集中在文本處理上,利用衆多網絡文本進行訓練。文字數據的優勢在於易於獲取和相對較高的信息密度,同時,文字內部的語法和語義結構助力於大型語言模型的深度理解。但現如今,大部分互聯網上的公开文本數據已被廣泛利用,大公司如微軟和Google則通過他們特有的Github和YouTube字幕庫等數據源尋求優勢。然而,單純依賴文本的訓練數據會受到其增長的限制,多模態模型爲AI訓練提供了新的廣闊天地。這種模型不僅處理文字,還能分析圖像,更有效地應對數據中的噪聲和復雜性。例如,在新聞推薦系統中,純文本可能難以完整傳達某旅遊景點的壯觀之美,而結合多模態技術,系統能夠整合文字和圖像信息,更精確地判斷用戶興趣,從而提供更爲貼近用戶的推薦內容。
▍產業場景:多模態將帶來如AI Agent等關鍵性的落地場景突破,解決現有產品的主要痛點。
預計下一代多模態將會快速拓展目前大語言模型有限的應用場景,爲圖片與文字之間的轉換將帶來更多的可能性。當前在應用場景方面,我們發現純文字模態模型落地的一大痛點是:在實際場景中,我們極少遇到純文字內容的場景,而大語言模型在各類場景中的表現往往不如傳統的專有機器學習模型。而加入圖片模態後,可以提高模型的泛化能力,並通過結合圖片與文字信息進一步理解用戶的意圖。在這種情況下,多模態語言模型有望真正在成本方面展現出對傳統專有模型的優勢,從而推動如AI Agent等應用的落地。
▍技術進展:OpenAI與Google先行,算力仍是重要約束。
6月份,OpenAI推出的GPT-4V已將語言模型從純文字模態拓展至圖生文模態。OpenAI進一步在官網中提及,GPT-5的研發已經啓動,我們預期它將增添文生圖模態,以實現對整體圖片模態的支持。對比市面上的諸如Dalle2這樣基於擴散模型的文生圖模型,GPT-5預計將基於Transformer架構實現,意味着其語言與圖片模態可以在底層實現更好的統一。OpenAI的競爭對手Google在上一代Bard模型未能如期表現後,已轉向其新一代Gemini模型的研發,它亦預計將支持圖片模態的多模態能力。根據OpenAI和Google過往模型發布的頻率,我們預測GPT-5與Gemini的發布時間將在明年的春末或夏初。
然而,無論研發多么迅速,多模態模型的廣泛部署和應用仍受到算力瓶頸的限制。目前,像ViT這樣的模型在處理圖片時的策略是將圖片劃分爲若幹固定大小的像素塊,然後將這些像素塊轉換爲线性向量,接着像處理文字一樣處理這些向量。以一個常規的1920*1080像素的圖片爲例,其向量表示將需要大約24MB的存儲空間。在傳統的純文字語言模型中,24MB的存儲空間可以處理約4000-6000個單詞。如果我們假設使用500個單詞來描述圖片中的全部信息,那么處理圖片所需的算力大約是處理文字的8-12倍。雖然這個估計可能不完全精確,但它確實表明以當前的算力支持大量用戶同時運行多模態語言模型仍是一個挑战。
▍風險因素:
AI核心技術發展不及預期風險;科技領域政策監管持續收緊風險;私有數據相關的政策監管風險;全球宏觀經濟復蘇不及預期風險;宏觀經濟大幅波動導致歐美企業IT支出不及預期風險;AI潛在倫理、道德、用戶隱私風險;企業數據泄露、信息安全風險;行業競爭持續加劇風險等。
▍投資邏輯:
多模態、智能Agent等正在成爲當前全球生成式AI算法模型的主要創新方向,其中多模態亦將是人類實現和自然世界交互、理解的必然路徑,以及借助大模型鏈接各類Agent的核心基礎。多模態大模型算法的突破將帶來自動駕駛、機器人等技術的革命性進步。同時多模態算法亦將帶來底層算力需求的指數級增長。我們持續看好本輪生成式AI浪潮對科技產業的長周期影響和改變,繼續關注算力、算法、數據、應用等環節的領先廠商。
注:本文節選自中信證券研究部已於2023年11月7日發布的《前瞻研究全球人工智能A/行業系列報告8-多模態:下一代A模型差異化的核心來源》報告,具體分析內容(包括相關風險提示等)請詳見報告。
分析師:陳俊雲S1010517080001,劉銳S1010522110001,賈凱方S1010522080001,高飛翔S1010522110001
標題:多模態:下一代AI模型差異化的核心來源
地址:https://www.iknowplus.com/post/49682.html