定檔年內發布!OpenAI CTO披露Sora細節,擬支持生成音頻、視頻編輯功能
OpenAI似乎已經在爲Sora降世預熱了。
日前,OpenAI 公司首席技術官 Mira Murati 接受媒體視頻專訪,訪談圍繞着Sora的項目展开,當被問及Sora何時面向公衆推出時,Murati回答:“我想肯定是在今年,但可能是幾個月後。”
Murati還透露,OpenAI將在Sora中支持配備音效,並允許用戶編輯Sora生成的視頻內容。此前Sora的測試資格只开放給了視覺藝術家、設計師和電影制作人。
以下是一些採訪關鍵信息:
1、Sora發布時間:
Sora將於“今年”面市,而且“可能還有幾個月”。目前還在打磨,外部測試資格主要發給了電影行業的創作人;
2、技術性能:
和傳聞中生成視頻需要數個小時的說法不同,目前生成一段20秒720p分辨率的視頻耗時幾分鐘,並且尚未集成音頻,但公司計劃在未來添加聲音
Sora能夠根據用戶輸入的文字描述生成流暢、高度逼真的視頻內容,具備良好的連續性,但並非完美無瑕,文生視頻的最大問題有兩個,一個是抽卡結果不可預知,可控性不佳,另一個是畫面連續性依然存在疏漏,只不過Sora比其他同類產品做得相對更好而已
3、安全性與透明度:
至於對於“現實不存在”的恐懼,即人們將難以區分真實與AI內容,Murati回答這正是OpenAI還未部署Sora的原因。
目前,Sora生成的視頻都會打上水印,但這似乎還不夠好。Murati透露,Sora的視頻將包含元數據來表明來源。OpenAI也用安全人員測試Sora,試圖引出漏洞、偏見及其他有害結果。
4、使用政策與限制:
穆拉蒂表示,OpenAI目前還沒有明確決定Sora可以生成的視頻範疇,但Sora的提示政策預計將借鑑文生圖模型DALL-E的做法,比如不會生成政治人物的形象。
當主持人問及涉及敏感話題的提示,如“東歐城鎮中行走的士兵”或涉及裸露的內容時,Murati表示不確定,藝術家可能會希望有一些可以調控的創作選項,目前OpenAI正在與不同領域的藝術家和創作者合作,試圖搞清楚Sora應該提供什么水平的靈活度。
5、與人力的關系:
針對Sora可能對視頻制作職業造成的影響,Murati強調了OpenAI推行該技術的慎重和漸進式方法,允許視頻制作行業的工作人員提前試用並提供反饋,以便共同塑造其發展方向,已經有好萊塢的動畫工作室在使用Sora之後停掉了擴建計劃,認爲這項技術可以節省巨大的制作成本
6、計算成本與優化:
Sora的運行成本“要高得多”。OpenAI正在嘗試使這個工具在公开發布時的成本與公司的AI文本到圖片模型DALL-E“相似”。
7、技術原理與訓練數據:
Sora採用擴散模型技術,通過分析大量視頻資料學習識別物體和動作,根據文字提示構思場景並逐幀生成視頻。
在被問及 Sora 使用的訓練數據時,Murati 的態度則有些躲閃。OpenAI 最近面臨版權侵權訴訟,指控該AI公司在未經許可的情況下抓取內容來訓練 ChatGPT。
她先是宣稱,據她所知除了“公开可用的數據及許可數據”之外,應該沒有使用其他數據來訓練 AI。但 Murati 也承認,她並不確定有訓練期間有沒有使用過來自 YouTube、Facebook 或者 Instagram 的視頻素材。同時她坦言,確實有使用 Shutterstock 的媒體內容進行訓練。(Shutterstock 與 OpenAI 之間屬於合作夥伴關系,也許這就是 Murati 愿意確認這一素材來源的理由。)
對於訓練數據的來源問題,OpenAI保持謹慎在意料之中。
8、比較與競爭:
當與另一款AI視頻生成工具Runway對比時,Sora基於同樣的文本提示生成的視頻在視覺質量、細節表現等方面明顯優於Runway,這在一定程度上得益於OpenAI的龐大計算能力和廣泛的訓練數據集
9、倫理考量與行業影響:
盡管Sora展現了顯著的優勢,但OpenAI在推廣過程中非常重視倫理問題,密切關注新技術對傳統視頻制作行業可能帶來的衝擊,同時認識到人類在藝術決策等方面的不可替代性。
作爲OpenAI最重要的高管之一,穆拉蒂的話自有其分量。
而就在前幾天,Sora的三位核心團隊成員也出現在科技播客WVFRM中,接受了專訪。
不過有網友吐槽,看了下原視頻,並沒有透露什么新的信息,約等於什么都沒說,場面神似發改委馬科長講話,就像鏡頭外有一個律師拿着槍對着這幫人。
而現在看來,OpenAI似乎在一點點釋放更多信息,或許已經在爲Sora降世預熱了。
標題:定檔年內發布!OpenAI CTO披露Sora細節,擬支持生成音頻、視頻編輯功能
地址:https://www.iknowplus.com/post/89811.html