OpenAI的瘋狂數據中心，芯片猜想

《The Information》在上周五復活節假期开始時報道了有關微軟和OpenAI合作的Stargate（星際之門）的報道，該報告與超以太網聯盟（微軟是其創始成員）設定的100 萬個互連端點的可擴展性未來以太網目標一致。

星際之門系統也從此引起了人們的議論。 Altman 似乎無法決定 OpenAI 是否應該完全依賴微軟，但誰能責怪他呢？這就是爲什么還有傳言稱OpenAI 正在設計自己的用於人工智能訓練和推理的芯片，以及關於Altman試圖帶頭投資 7 萬億美元芯片制造但隨後又放棄的令人憤慨的評論。

你不能責怪Altman亂扔了他正在盯着的大數字。訓練人工智能模型非常昂貴，並且運行推理——主要是生成tokern——也不便宜。正如 Nvidia 聯合創始人兼首席執行官黃仁勳最近在 GTC 2024 會議上的主題演講中指出的那樣——他們是不可持續的昂貴。這就是 Microsoft、Amazon Web Services、Google 和 Meta Platform 已經創建或正在創建自己的 CPU 和 XPU 的原因。

隨着參數數量的增加以及數據從文本格式轉變爲其他格式，如果目前的趨勢持續下去並且鐵可以擴展，那么LLM只會變得越來越大——在未來幾年內將增長 100 倍到 1,000 倍。

因此，我們聽到有關《星際之門》的討論，這表明人工智能訓練的上層毫無疑問是富人的遊戲。

根據您在最初的《星際之門》傳聞後的報告中所讀到的內容，《星際之門》是一個項目的第五階段，該項目將耗資 1000 億至 1150 億美元，星際之門將於 2028 年交付，並在 2030 年及以後運營。微軟目前顯然正處於擴建的第三階段。據推測，這些資金數字涵蓋了機器的所有五個階段，目前尚不清楚該數字是否涵蓋了數據中心、內部機械以及電力成本。微軟和 OpenAI 可能不會採取太多行動來解決這個問題。

目前還沒有討論 Stargate 系統將基於什么技術，但我們認爲它不會基於 Nvidia GPU 和互連。它將基於未來幾代的 Cobalt Arm 服務器處理器和 Maia XPU，以太網可擴展到單台機器中數十萬到 100 萬個 XPU。

我們還認爲，微軟收購了 DPU 制造商 Fungible 來創建可擴展的以太網網絡，並且可能讓Juniper Networks 和 Fungible 的創始人Pradeep Sindhu創建匹配的以太網交換機 ASIC，以便微軟可以控制其整個硬件堆棧。

當然，這只是一個猜想。

無論 Microsoft 使用哪種以太網網絡，我們都相當確定在某個時候 100 萬個端點是目標，而我們也相當確定 InfiniBand 不是答案。

我們還認爲，假設的這款 XPU 將與未來的 Nvidia X100/X200 GPU 或其後繼產品（我們不知道其名稱）一樣強大是不太可能的。微軟和 OpenAI 更有可能嘗試大規模擴展更便宜的設備網絡，並從根本上降低人工智能訓練和推理的總體成本。

他們的商業模式取決於這種情況的發生。

而且我們還可以合理地假設，在某個時候 Nvidia 將不得不創建一個擠滿矩陣數學單元的 XPU，並舍棄讓該公司在數據中心計算領域起步的矢量和着色器單元。如果微軟爲 OpenAI 打造了一個更好的mousetrap，那么 Nvidia 將不得不效仿。

Stargate 肯定代表了人工智能支出的階梯函數，也許還有兩個階梯函數，具體取決於你想要如何解釋數據。

在數據中心預算方面，微軟迄今爲止公开表示的全部內容是，它將在 2024 年和 2025 年在數據中心上花費超過 100 億美元，我們推測其中大部分支出用於支付 AI 服務器的成本。那些 1000 億美元或 1150 億美元的數字太模糊，無法代表任何具體內容，因此目前這只是一些大話。我們要提醒您的是，在過去的十年中，微軟至少保留了 1000 億美元的現金和等價物，並在 2023 年 9 月的季度達到了接近 1440 億美元的峰值。截至 2023 日歷年（微軟 2024 財年第二季度），該數字下降至 810 億美元。

因此，微軟現在沒有足夠的資金來一次性完成 Stargate 項目，但其軟件和雲業務在過去 12 個月的銷售額總計達到 825 億美元，而銷售額約爲 2276 億美元。未來六年，如果軟件和雲業務保持原樣，微軟將帶來 1.37 萬億美元的收入，淨利潤約爲 5000 億美元。它可以承擔星際之門的努力。微軟也有能力購买 OpenAI，然後就可以結束它了。

不管怎樣，我們爲微軟可能已經構建的集群以及未來可能爲 OpenAI 構建的集群制定了預算，展示了它們的組成和規模如何隨着時間的推移而變化。看一下：

我們認爲，隨着時間的推移，分配給 OpenAI 的 AI 集群數量將會減少，而這些集群的規模將會增加。

我們還認爲 OpenAI 集群中 GPU 的份額將會下降，而 XPU 的份額（很可能在 Maia 系列中，但也可能使用 OpenAI 設計）將會上升。隨着時間的推移，自研XPU 的數量將與 GPU 的數量相匹配，我們進一步估計這些 XPU 的成本將不到數據中心 GPU 成本的一半。此外，我們認爲從 InfiniBand 轉向以太網也將降低成本，特別是如果微軟使用自主研發的以太網 ASIC 和內置人工智能功能和集體操作功能的自主研發的 NIC。（就像 Nvidia 的 InfiniBand 的 SHARP 功能一樣。）

我們還強制採用支出模型，以便在 2028 年有兩個擁有 100 萬個端點的集群——一個由 GPU 組成，一個由自研 XPU 組成，或者兩個集群各佔一半。我們想要估計未來的集群性能，但這很難做到。每年可能會有更多的 XPU 獲得適度的性能提升，但性價比卻要高得多。

需要記住的是，微軟可以保留當前一代的 GPU 或 XPU 供 OpenAI 內部使用（因此也是其自己的），並在未來許多年內向用戶出售N-1和N-2代，很可能會獲得很多收益其投資誘餌再次回到 OpenAI 上。因此，這些投資本身並不是沉沒成本。這更像是一個汽車經銷商駕駛着一大堆掛有經銷商牌照的不同汽車，但在出售它們之前並沒有將裏程數提高得太高。

問題是：微軟會繼續在 OpenAI 上投入巨資，以便扭虧爲盈並租用這些產能嗎，還是會停止在 OpenAI 上花費 1000 億美元（兩個月前該公司的估值爲 800 億美元）？另外還要花費 1100 億美元左右的基礎設施建設，以完全控制其人工智能堆棧。

即使對於微軟來說，這些數字也是相當大的。但是，正如我們所說，如果你看看 2024 年至 2028 年，微軟可能有大約 5000 億美元的淨利潤可供使用。很少有其他公司這樣做。

微軟從一個 BASIC 編譯器和一個從第三方拼湊出來的垃圾 DOS 操作系統开始，爲一個不理解它的絕望的藍色巨人做裝飾，這簡直是在放棄糖果店。

也許這也是奧特曼的噩夢。但考慮到將人工智能推向新的高度需要巨額資金，現在可能爲時已晚。

標題：OpenAI的瘋狂數據中心，芯片猜想

地址：https://www.iknowplus.com/post/94855.html