在計算、網絡和圖形發展史上,Nvidia 有許多獨特之處。但其中之一就是它目前手頭有如此多的資金,而且由於其架構、工程和供應鏈,它在生成式人工智能市場處於領先地位,因此它可以隨心所欲地實施它認爲可能取得進展的任何路线圖。

到 21 世紀,Nvidia 已經是一個非常成功的創新者,它實際上沒有必要擴展到數據中心計算領域。但 HPC 研究人員將 Nvidia 帶入了加速計算領域,然後 AI 研究人員利用 GPU 計算創造了一個全新的市場,這個市場已經等待了四十年,希望以合理的價格實現大量計算,並與大量數據碰撞,真正讓越來越像思考機器的東西成爲現實。

向 Danny Hillis、Marvin Minksy 和 Sheryl Handler 致敬,他們在 20 世紀 80 年代嘗試制造這樣的機器,當時他們創立了 Thinking Machines 來推動 AI 處理,而不是傳統的 HPC 模擬和建模應用程序,以及 Yann LeCun,他當時在 AT&T 貝爾實驗室創建了卷積神經網絡。他們既沒有數據,也沒有計算能力來制造我們現在所知道的 AI。

當時,Jensen Huang 是 LSI Logic 的董事,該公司生產存儲芯片,後來成爲 AMD 的 CPU 設計師。就在 Thinking Machines 在 20 世紀 90 年代初陷入困境(並最終破產)時,黃仁勳在聖何塞東側的 Denny's 與 Chris Malachowsky 和Curtis Priem 會面,他們創立了 Nvidia。正是 Nvidia 看到了來自研究和超大規模社區的新興人工智能機遇,並开始構建系統軟件和底層大規模並行硬件,以實現自第一天起就一直是計算一部分的人工智能革命夢想。

這一直是計算的最終狀態,也是我們一直在走向的奇點——或者可能是兩極。如果其他星球上有生命,那么生命總會進化到這樣一個地步:那個世界擁有大規模毀滅性武器,並且總會創造出人工智能。而且很可能是在同一時間。在那一刻之後,那個世界對這兩種技術的處理方式決定了它能否在大規模滅絕事件中幸存下來。

這聽起來可能不像是討論芯片制造商發展路线圖的正常开場白。事實並非如此,因爲我們生活在一個有趣的時代。

在台北舉行的年度 Computex 貿易展上,Nvidia 的聯合創始人兼首席執行官在主題演講中再次試圖將生成式人工智能革命(他稱之爲第二次工業革命)置於其背景中,並一窺人工智能的未來,尤其是 Nvidia 硬件的未來。我們獲得了 GPU 和互連路线圖的預覽,據我們所知,這是直到最後一刻才列入計劃的一部分,黃仁勳和他的主題演講通常都是這樣。


革命不可避免


生成式人工智能的關鍵在於規模,黃仁勳提醒我們這一點,並指出 2022 年底的 ChatGPT 時刻之所以會發生,只有出於技術和經濟原因。

要實現 ChatGPT 的突破,需要大幅提高 GPU 的性能,然後在此基礎上增加大量 GPU。Nvidia 確實實現了性能,這對於 AI 訓練和推理都很重要,而且重要的是,它大大減少了生成大型語言模型響應中的 token 所需的能量。請看一看:

從“Pascal” P100 GPU 一代到“Blackwell” B100 GPU 一代,八年間 GPU 的性能提升了 1053 倍,後者將於今年晚些時候开始出貨,並將持續到 2025 年。(我們知道圖表上說的是 1000 倍,但這並不准確。)

部分性能是通過降低浮點精度來實現的——降低了 4 倍,從 Pascal P100、Volta V100 和 Ampere A100 GPU 中的 FP16 格式轉變爲 Blackwell B100s 中使用的 FP4 格式。如果沒有這種精度的降低,性能提升將只有 263 倍,而這不會對 LLM 性能造成太大影響——這要歸功於數據格式、軟件處理和硬件中的大量數學魔法。請注意,對於 CPU 市場的八年來說,這已經相當不錯了,每個時鐘的核心性能提高 10% 到 15%,核心數量增加 25% 到 30% 都是正常的。如果升級周期爲兩年,那么在同樣的八年裏,CPU 吞吐量將增加 4 到 5 倍。

如上所示,每單位工作量的功耗降低是一個關鍵指標,因爲如果你無法爲系統供電,你就無法使用它。令牌的能源成本必須降低,這意味着 LLM 產生的每令牌能源的降低速度必須快於性能的提高。

在他的主題演講中,爲了給你提供更深入的背景知識,在 Pascal P100 GPU 上生成一個 token 需要 17000 焦耳的能量,這大致相當於點亮兩個燈泡兩天,平均每個單詞需要大約三個 token。所以如果你要生成很多單詞,那就需要很多燈泡!現在你开始明白爲什么八年前甚至不可能以能夠使其在任務上表現良好的規模運行 LLM。看看在 1.8 萬億個參數 8 萬億個 token 數據驅動模型的情況下訓練 GPT-4 專家混合模型 LLM 所需的能力:

P100 集群的耗電量超過 1000 千兆瓦時,這真是太驚人了。

黃仁勳解釋說,借助 Blackwell GPU,公司將能夠在約 10,000 個 GPU 上用大約 10 天的時間來訓練這個 GPT-4 1.8T MoE 模型。

如果人工智能研究人員和 Nvidia 沒有轉向降低精度,那么在這八年的時間裏性能提升只會是 250 倍。

降低能源成本是一回事,降低系統成本又是另一回事。在傳統摩爾定律的末期,兩者都是非常困難的技巧,因爲每 18 到 24 個月晶體管就會縮小一次,芯片變得越來越便宜、越來越小。現在,計算復合體已經達到光罩極限,每個晶體管都變得越來越昂貴——因此,由晶體管制成的設備本身也越來越昂貴。HBM 內存是成本的很大一部分,先進封裝也是如此。

在 SXM 系列 GPU 插槽中(非 PCI-Express 版本的 GPU),P100 的發布價約爲 5,000 美元;V100 的發布價約爲 10,000 美元;A100 的發布價約爲 15,000 美元;H100 的發布價約爲 25,000 至 30,000 美元。B100 的預計售價在 35,000 至 40,000 美元之間——黃仁勳本人在今年早些時候接受CNBC採訪時曾表示,Blackwell 的價格是這個數字。

黃仁勳沒有展示的是,每一代需要多少 GPU 來運行 GPT-4 1.8T MoE 基准測試,以及這些 GPU 或電力在運行時的成本是多少。因此,我們根據黃所說的需要大約 10,000 個 B100 來訓練 GPT-4 1.8T MoE 大約十天,制作了一個電子表格:

在這八年中,GPU 價格上漲了 7.5 倍,但性能卻提高了 1,000 多倍。因此,現在可以想象使用 Blackwell 系統在十天左右的時間內訓練出具有 1.8 萬億個參數的大型模型,比如 GPT-4,而兩年前 Hopper 一代剛开始時,也很難在數月內訓練出具有數千億個參數的模型。現在,系統成本將與該系統兩年的電費相當。(GPU 約佔 AI 訓練系統成本的一半,因此購买 10,000 個 GPU 的 Blackwell 系統大約需要 8 億美元,運行十天的電費約爲 540,000 美元。如果購买更少的 GPU,您可以減少每天、每周或每月的電費,但您也會相應增加訓練時間,這會使成本再次上漲。)

你不可能贏,但你也不能放棄。

猜猜怎么着?Nvidia 也做不到。所以就是這樣。即使 Hopper H100 GPU 平台是“歷史上最成功的數據中心處理器”,正如黃仁勳在 Computex 主題演講中所說,Nvidia 也必須繼續努力。

附注:我們很樂意將 Hopper/Blackwell 的這次投資周期與六十年前 IBM System/360 的發布進行比較,正如我們去年所解釋的那樣,當時 IBM 做出了至今仍是企業歷史上最大的賭注。1961 年,當 IBM 啓動其“下一個產品线”研發項目時,它是一家年收入 22 億美元的公司,在整個 60 年代花費超過 50 億美元。藍色巨人是華爾街第一家藍籌公司,正是因爲它花費了兩年的收入和二十年的利潤來創建 System/360。是的,它的一些部分有些晚了,表現也不佳,但它徹底改變了企業數據處理的性質。IBM 認爲它可能會在 60 年代後期帶來 600 億美元的銷售額(以我們調整後的 2019 年美元計算),但他們的銷售額只有 1,390 億美元,利潤約爲 520 億美元。

Nvidia 無疑爲數據中心計算的第二階段掀起了更大的浪潮。那么現在真正的贏家可能被稱爲綠色芯片公司(green chip company)嗎?


抵抗是徒勞的


無論是 Nvidia 還是其競爭對手或客戶都無法抵擋未來的引力以及生成性人工智能帶來的利潤和生產力承諾,而這種承諾不僅僅是在我們耳邊低語,更是在屋頂上大聲呼喊。

因此,Nvidia 將加快步伐,突破極限。憑借 250 億美元的銀行存款和今年預計超過 1000 億美元的收入,以及可能再有 500 億美元的銀行存款,它有能力突破極限,帶領我們走向未來。

“在這一驚人增長時期,我們希望確保繼續提高性能,繼續降低成本——訓練成本、推理成本——並繼續擴展 AI 功能以供每家公司使用。我們越提高性能,成本下降得就越厲害。”

正如我們上面所列的表格清楚表明的那樣,這是事實。

這給我們帶來了更新的 Nvidia 平台路线圖:

這有點難讀,所以讓我們仔細研究一下。

在 Hopper 一代中,最初的 H100 於 2022 年推出,具有六層 HBM3 內存,並配有一個具有 900 GB/秒端口的 NVSwitch 將它們連接在一起,並配有 Quantum X400(以前稱爲 Quantum-2)InfiniBand 交換機,具有 400 Gb/秒端口和 ConnectX-7 網絡接口卡。2023 年,H200 升級爲六層 HBM3E 內存,具有更高的容量和帶寬,這提高了 H200 封裝中底層 H100 GPU 的有效性能。BlueField 3 NIC 也問世了,它爲 NIC 添加了 Arm 內核,以便它們可以執行附加工作。

2024 年,Blackwell GPU 當然會推出八層 HBM3e 內存,並與具有 1.8 TB/秒端口的 NVSwitch 5、800 Gb/秒 ConnectX-8 NIC 以及具有 800 GB/秒端口的 Spectrum-X800 和 Quantum-X800 交換機配對。

我們現在可以看到,到 2025 年,B200(上圖稱爲 Blackwell Ultra)將擁有 8 堆疊 HBM3e 內存,每疊有 12 個die高。B100 中的疊層大概是 8 堆疊,因此這應該代表 Blackwell Ultra 上的 HBM 內存容量至少增加 50%,甚至可能更多,具體取決於所使用的 DRAM 容量。HBM3E 內存的時鐘速度也可能更高。Nvidia 對 Blackwell 系列的內存容量一直含糊其辭,但我們在 3 月份 Blackwell 發布會上估計,B100 將擁有 192 GB 內存和 8 TB/秒帶寬。隨着未來的 Blackwell Ultra 的推出,我們預計會有更快的內存,如果看到 288 GB 內存和 9.6 TB/秒帶寬,我們也不會感到驚訝。

Nvidia 還將在 2025 年推出更高基數的 Spectrum-X800 以太網交換機,可能配備六個 ASIC,以創建無阻塞架構,就像其他交換機通常做的那樣,將總帶寬翻倍,從而使每個端口的帶寬或交換機的端口數量翻倍。

2026 年,我們將看到“Rubin” R100 GPU,它在去年發布的 Nvidia 路线圖中曾被稱爲 X100,正如我們當時所說,我們認爲 X 是一個變量,而不是任何東西的縮寫。事實證明確實如此。Rubin GPU 將使用 HBM4 內存,並將有 8 個堆棧,大概每個堆棧都有 12 個 DRAM,而 2027 年的 Rubin Ultra GPU 將有 12 個 HBM4 內存堆棧,並且可能還有更高的堆棧(盡管路线圖沒有提到這一點)。

我們要等到 2026 年,也就是當前“Grace”CPU 的後續產品“Vera”CPU 問世時,Nvidia 才會推出一款更強大的 Arm 服務器 CPU。NVSwitch 6 芯片與這些芯片配對,端口速度爲 3.6 TB/秒,ConnectX-9 的端口速度爲 1.6 Tb/秒。有趣的是,還有一種名爲 X1600 IB/以太網交換機的產品,這可能意味着 Nvidia 正在融合其 InfiniBand 和以太網 ASIC,就像 Mellanox 十年前所做的那樣。

或者,這可能意味着 Nvidia 試圖讓我們所有人都感到好奇,只是爲了好玩。2027 年還有其他跡象表明,這可能意味着超級以太網聯盟將完全支持 NIC 和交換機,甚至可能使用 UALink 交換機將節點內和跨機架將 GPU 連接在一起。



標題:關於英偉達最新GPU和互聯路线圖

地址:https://www.iknowplus.com/post/113224.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。