當地時間周一,OpenAI春季發布會重磅來襲,GPT-4o閃亮登場。

作爲GPT-4 型號的最新版本,GPT-4o不僅在聽、說、看 方面更“絲滑”,並且將向所有用戶免費开放。

 OpenAI還稱,在接下來的幾周內,將开始向ChatGPT Plus展示新的語音和視覺功能。


全能的GPT-4o炸場


GPT-4o的“o”代表“omni”,“全能”的意思。

OpenAI介紹,GPT-4o是邁向更自然的人機交互的一步——它接受文本、音頻和圖像的任意組合作爲輸入,並生成文本、音頻和圖像輸出的任意組合。

同時,它可以在短短232毫秒內響應音頻輸入,平均爲 320 毫秒,與人類在對話中的響應時間相近。

而在此之前,GPT-3.5的平均延遲爲2.8秒,GPT-4爲5.4秒。

在英語文本和代碼上,GPT-4o的性能與GPT-4Turbo相當在非英語語言的文本上也有顯着改進,同時在 API 中也更快且便宜 50%。

總的來看,與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。

“借助GPT-40,我們可以跨文本、視覺和音頻端到端地訓練一個新模型,這意味着所有輸入和輸出都由同一個神經網絡處理。由於GPT-40是我們的第一個結合了所有這些模式的模型,因此我們對該模型的功能及其局限性的探索還只是觸及表面。”

性能方面,按照傳統基准測試,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能,同時在多語言、音頻和視覺能力方面的表現也創下了新高。

OpenAI 稱,GPT-4o現在支持50多種語言

在現場直播中,OpenAi 首席技術官 Mira Murati 表示,ChatGPT 的更新版本現在還將具有記憶功能,這意味着它可以從之前與用戶的對話中學習,並且可以進行實時翻譯。

“這是我們第一次在易用性方面真正邁出一大步。這種互動變得更加自然,也更加容易。”

現場,OpenAl高管還演示了與ChatGPT的口語對話,以獲得解決數學問題的實時指令,講睡前故事,並獲得編碼建議。

ChatGPT能夠用自然、人類的聲音說話,也能用機器人的聲音說話,甚至還能唱出一部分回應。該工具還能夠查看圖表的圖像並進行討論。


OpenAI 和谷歌的新對決


值得關注的是,眼下AI大模型战場的“廝殺”已十分焦灼。

OpenAI 和谷歌的對決更是激烈。

值得一提的是,這回OpenAI 的“大上新”正好挑在了谷歌 I/O开發者大會的前一天發布。

稍早前,谷歌發布了一條推文,展示了其 AI Gemini 聊天機器人的對話版本原型,該機器人使用視頻輸入而不是文本。

Gemini 不僅能夠正確、恰當地回答提出的問題,視頻還顯示聊天機器人在維持對話方面做得很好。

但就在這段視頻發布在“X”上不到一個小時後,OpenAI 首席執行官 Sam Altman的“X”上免費宣布爲 ChatGPT 提供類似功能。

而上一次,OpenAI也是在谷歌發布Gemini 1.5 Pro後半小時左右用Sora狙擊了一把。

一場樸實無華的“商战”似乎又在拉开大幕。

最近,有關OpenAI最新產品發布的猜測已成爲硅谷的一場遊戲。

此前,有消息傳OpenAI會發布GPT-5和搜索功能。雖然隨後公司闢謠了,但 GPT-4o對人工智能圈帶來的震撼依然不小。

在發布會後,OpenAI 首席執行官 Sam Altman還談到了關於 GPT-4o 的一些想法,並強調了兩件事。

首先,OpenAI 使命的一個關鍵部分是將非常強大的人工智能工具免費(或以高昂的價格)交到人們手中。其次,新的語音(和視頻)模式是他用過的最好的計算機界面。

他還表示,很快就會有更多的東西可以分享。



標題:GPT-4o再顛覆!聽說看更“絲滑”,還免費开放!OpenAI又搶先狙擊谷歌?

地址:https://www.iknowplus.com/post/107296.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。