殺瘋了!谷歌版Sora再度狙擊 OpenAI,最高4K分辨率
OpenAI Sora 正式發布僅僅 8 天後,最強挑战者就已經出現了。
當地時間 12 月 16 日,谷歌DeepMind在人工智能領域再次取得重大進展,推出了兩款新產品:Veo 2視頻生成模型和Imagen 3圖像生成模型,以及一個名爲Whisk的圖像生成實驗工具。
這些技術的發展不僅提升了分辨率和圖像質量,更重要的是,它們在理解和模擬真實世界的物理規律以及人類動作和表情的細微差別上展現了巨大的潛力。
谷歌版Sora升級4K高清
Veo 2視頻生成模型
Veo 2是谷歌DeepMind推出的一款先進的視頻生成模型,它能夠根據文本或圖像提示生成逼真的高質量視頻剪輯。
Veo 2的主要亮點包括:高分辨率視頻制作:Veo 2支持制作高達4K分辨率的視頻,顯著提升了視頻的細節和清晰度。這一指標從根本上突破了目前市面上主流視頻生成模型的限制。
相機控制理解:Veo 2能夠理解並執行復雜的相機控制指令,如廣角鏡頭、POV和無人機鏡頭等,增強了視頻的視覺效果。用戶可以在提示詞中使用專業的攝影術語,比如指定“18mm 廣角鏡頭”“低角度跟蹤鏡頭”或“淺景深特寫”等,模型都能准確理解並實現相應的視覺效果。
物理現象和表情模擬:Veo 2在模擬現實世界的物理現象和人類表情方面取得了突破,減少了AI視頻生成中常見的錯誤。它能夠更真實地重現物理規律和人類表情的微妙變化,減少了以往AI視頻生成中常見的“錯誤生成”問題,例如多余的手指或意外物體的出現。
不過,DeepMind副總裁伊萊·柯林斯(Eli Collins)坦言,該模型在長時間保持人物動作連貫性和復雜動作生成方面還有待改進。
能夠理解有關鏡頭控制的Prompt
安全性和水印技術:Veo 2在每個輸出視頻中嵌入了不可見的SynthID水印,幫助識別內容的AI生成屬性,減少錯誤信息和錯誤歸因的機會。這種對安全性和負責任AI开發的承諾,確保了技術的健康發展和應用。
Imagen 3圖像生成模型
Imagen 3是谷歌DeepMind對圖像生成模型的升級,它在藝術風格適應性和圖像品質方面取得了顯著提升:
多樣化藝術風格:Imagen 3能夠生成更多樣化的藝術風格,從寫實主義到印象派,從抽象藝術到動漫風格,准確捕捉並重現不同流派的藝術特徵。此次升級使得Imagen 3在遵循提示的准確性和圖像質量上都有了顯著提升。
提示:背景有霓虹綠色燈光、淺景深的亞洲女性肖像
提示:以高預算動畫電影風格呈現,畫面充滿生動、繪畫般的質感,展現出廣闊的星際景觀,紫色、藍色與金色的發光星雲交織輝映。主角是一名身披星辰圖案飄逸鬥篷的小女孩,佇立在一座晶瑩剔透的懸崖邊緣。懸崖下,熔化的星塵之河在銀河中蜿蜒流淌,金色光芒動態閃爍。背景中,高聳的星座以神話生物的形態懸浮,輪廓由發光的點狀线條勾勒而成。流星劃破廣袤的天空,爲畫面增添了動感與璀璨的光輝。鏡頭角度略微升高,既捕捉到了浩瀚銀河的壯麗,也展現出主角旅程的孤獨與神祕感
圖像品質提升:新Imagen 3在亮度表現、構圖准確性以及細節豐富度上都有明顯提升,能夠更精確地將文字描述轉化爲圖像。它能夠以更高的精度渲染更多樣化的藝術風格,生成更明亮、構圖更協調的視覺作品。
全球推出:Imagen 3將通過Google Labs的ImageFX在全球超過100個國家推出,用戶可以訪問ImageFX开始體驗。
Veo 2和Imagen 3的潛力正在逐步顯現。目前YouTube創作者們已經开始將其用於短視頻背景的制作,企業用戶則在Vertex AI平台上將其整合到創意工作流程中。
Whisk圖像生成實驗工具
Whisk是谷歌實驗室推出的最新實驗項目,它允許用戶輸入或創建圖像,以表達他們心中的主題、場景和風格:
圖像組合與重新混合:用戶可以將圖像組合在一起,並重新混合,創造出獨特的數字化產品,如數字毛絨玩具、琺琅別針或貼紙等。Whisk結合了Imagen 3的圖像生成能力和Gemini的視覺理解系統,爲用戶提供了一種全新的創作方式。
技術整合:Whisk工具結合了Imagen 3的圖像生成能力和Gemini的視覺理解系統,Gemini模型會自動爲用戶的圖像編寫詳細的描述,然後將這些描述提供給Imagen 3,實現圖像元素的重組和創新。
在性能評測方面,Veo 2展現出了領先優勢。在Meta發布的基准測試數據集MovieGenBench上,參與者觀看了1003個提示及其對應的視頻。
結果顯示,Veo 2在整體用戶偏好度和指令遵循准確性方面均位居榜首。所有比較均在720p分辨率下進行,其中Veo的視頻樣本長度爲8秒,VideoGen的爲10秒,其他模型的爲5秒。
評分者觀看了所有視頻的完整長度。在這次評測中,Veo 2擊敗了參與測試的其他四個視頻生成模型,包括OpenAI Sora Turbo、Meta Movie Gen、可靈和MiniMax。
簡而言之,反而是OpenAI的 Sora 是幾款主流的視頻生成模型中相對表現最差的,可靈是谷歌最大的競爭對手,在總體偏好和指令遵循偏好兩個指標上,如果把平手和偏好指標數據加起來,可靈是幾款視頻模型中唯一相對Veo超過50%的偏好選擇的模型。
標題:殺瘋了!谷歌版Sora再度狙擊 OpenAI,最高4K分辨率
地址:https://www.iknowplus.com/post/177166.html