微軟自研芯片,打響拋棄英偉達第二槍
在數據中心領域,英偉達除了能提供廣爲人知的AI芯片——GPU以外,他們在產品“百寶箱”中還能提供一系列其他的產品,爲客戶提供服務。例如DPU,就是其一極具競爭力的產品?所謂DPU,按照英偉達所說,是一種新型可編程處理器,集三個關鍵要素於一身。DPU 是一種SOC ( System On Chip ,系統單芯片),它結合了:
1 行業標准的、高效能及軟件可編程的多核CPU ,通常基於已應用廣泛的Arm 架構,與其他的SOC 組件密切配合。
2 高效能網絡界面,能以线速或網絡中的可用速度解析、處理數據,並有效率地將數據傳輸到GPU 和CPU 。
3 各種靈活和可編程的加速引擎, 爲AI 、機器學習、安全、電信和儲存等應用作業負載,並提升其性能。
所有這些DPU 功能對於實現安全的、裸機的、原生雲端運算的下一代雲端大規模運算至關重要。
根據數據,2020年全球DPU產業市場規模達30.5億美元,預計到2025年全球DPU產業市場規模將超過245.3億美元,期間CAGR高達51.73%。
正因爲擁有如此效能和市場前景,除了英偉達以外,不少第三方芯片供應商正在進入這個市場。例如英特爾、AMD、Marvell等知名芯片巨頭。國內如雲豹智能、中科馭數和雲脈芯聯等新興廠商也躍躍欲試。
但與此同時,那些雲廠商也紛紛入局,微軟就是最新的一個。
微軟,入局DPU
據the information透露,微軟正在开發一款新的網卡,可以提高其Maia AI 服務器芯片的性能,並有可能減少該公司對芯片設計商Nvidia的依賴。
報道援引知情人士的話稱,微軟首席執行官薩蒂亞·納德拉(Satya Nadella ) 已任命網絡設備开發商瞻博網絡 (Juniper Networks) 聯合創始人普拉迪普·辛杜 (Pradeep Sindhu) 來領導網卡工作。
報告補充說,這款新網卡類似於 Nvidia 的 ConnectX-7 卡。
NVIDIA ConnectX-7 網卡提供最多 4 個連接端口和最高 400Gb/s 的吞吐量,可爲雲、電信、AI 和企業工作負載提供數據中心規模的硬件加速網絡、存儲、安全和管理服務。ConnectX-7 通過加速交換和數據包處理(ASAP2)、高級 RoCE、GPUDirect Storage,以及用於 TLS、IPsec 和 MACsec 加密和解密的內聯硬件加速等功能,爲敏捷、高性能網絡解決方案提供支持。ConnectX-7 使組織能夠在高帶寬和高密度環境中滿足當前和未來的網絡需求。
爲了協調工作,組成人工智能集群的服務器需要能夠共享存儲在各自內存池中的數據。數據共享請求通常必須經過服務器的中央處理單元。Nvidia 的 ConnectX-7 適配器包含一種名爲 RDMA 的技術,可以繞過 CPU,從而顯着加快數據檢索速度。
該器件還具有其他一些性能優化功能。值得注意的是,它可以執行網絡安全任務,例如加密數據流量,否則這些任務將由服務器的 CPU 執行,從而爲應用程序提供更多的 CPU 容量。ConnectX-7 還卸載了檢測數據傳輸錯誤所涉及的一些計算。
來到微軟方面,他們之前曾在一篇文章中談到了關於DPU的使用:“SmartNIC 或數據處理單元 (DPU) 帶來了加倍發揮軟件定義基礎設施優勢的機會,而無需犧牲(虛擬機)VM 或容器中的業務线應用程序所需的主機資源。借助 DPU,我們可以啓用 SR-IOV,消除合成數據路徑產生的主機 CPU 消耗,同時享受 SDN 的優勢。隨着時間的推移,我們預計 DPU 將提供更大的優勢,並重新定義我們的旗艦邊緣產品(例如 Azure Stack HCI)的主機架構。”
在同一篇博客中,微軟以英偉達的產品爲例,講述了自己在網卡上面的一些實踐與優勢。而在這個產品出來以後。則是繼自研AI芯片Maia之外,微軟打響拋棄英偉達芯片依賴的第二槍。
對於微軟來說,除了自身本來的團隊以外,在去年收購的Fungible,是公司進軍這個市場的另一個依仗。
Fungible,微軟的底氣
微軟在收購Fungible的公告中說,Fungible 一家可組合基礎設施提供商,旨在通過高效、低功耗的數據處理單元 (DPU) 加速數據中心的網絡和存儲性能。Fungible的技術有助於實現高性能、可擴展、分解、橫向擴展的數據中心基礎設施,並具有可靠性和安全性。
從Fungible的背景看來,這單收購對其DPU業務來說無疑是如虎添翼。知名半導體分析師Dylan Patel曾寫道,Fungible 曾經是最熱門的半導體初創公司之一 Fungible 是第一家針對雲級 DPU 的商業芯片公司,先於英特爾、Nvidia、Pensando (AMD) 和 Marvell。
而作爲一家致力於开發和構建數據處理單元(DPU) 芯片的廠商,Fungible擁有一個夢幻團隊。創始人 Pradeep Sindhu 和 Bertrand Serlet 都擁有傑出的科技背景。Sindhu 是瞻博網絡 (Juniper Networks) 的創始首席執行官兼董事長,然後是副董事長、首席技術官和首席科學家,後來加入了初創公司 Fungible。Serlet 曾任蘋果軟件工程高級副總裁,之後創立了消費者雲存儲業務 Upthere,該公司於 2017 年被西部數據收購。在此之前,他曾擔任蘋果軟件工程高級副總裁、史蒂夫·喬布斯旗下 NeXT 的軟件工程總監。
Fungible 認爲,DPU 可以解決數據中心效率低下的五個根本原因。所有數據中心計算均通過數據包進行。網絡、存儲、虛擬化和安全堆棧通過數據包進行分發。因此,有比將所有內容都轉移到 x86 系統上更有效的方法來將計算和數據結合在一起並執行工作。
Fungible指出,DPU 本質上一側是 PCIe,另一側是以太網。對於這四個主要的超分解構建塊,其DPU 提供了一個“TrueFabric”技術,允許人們將所有這些元素帶入網絡。對於那些具有網絡背景的人來說,一切最終都會回到帶有連接設備的網絡,這與那些开始構建更大的 CPU 或 GPU 的人不同。
據介紹,TrueFabric 是一種大規模的 IP-over-Ethernet 結構協議,可提供完整的網絡橫截面帶寬,具有低平均和尾部延遲、端到端 QoS、無擁塞連接性以及服務器節點之間的安全性。TrueFabric協議完全符合標准,並可與以太網上的 TCP/IP 互操作,確保數據中心 SpineLeaf 網絡可以採用標准離线構建架子以太網交換機。
具體到產品方面,Fungible开發了兩款令人印象深刻的DPU芯片:用於存儲、分析、人工智能服務器或安全設備使用的設備前端F1,以及用於裸機服務器虛擬化、節點安全、存儲啓動器、本地實例存儲和網絡網絡虛擬化的基於服務器的S1。
首先看F1方面,如圖所示,我們可以看到一組八個數據集群,它們被分成 8x 24 线程集群。有一個用於芯片安全和控制平面的控制集群。F1 DPU 具有 800Gbps 網絡速度,例如 8x 100GbE。有 64 個 PCIe Gen3/Gen4 通道分爲四個 x16 主機;數據集群基於具有SMT=4設計的MIPS內核。這意味着每個數據集群有 24 個线程,加上它們的本地緩存、加速器以及與更大芯片結構的連接。該系統具有 8GB 高速 HBM2 內存以及 DDR4 ECC 內存控制器;它還可以支持 NVDIMM-N,這非常有趣,因爲它有效地在 DPU 級別添加了持久內存功能。
來到S1方面,據介紹,這是Fungible DPU系列專用處理器中的第二個設備,針對以數據爲中心的計算進行了優化。作爲業界最靈活的 200 Gbps DPU,S1能夠比通用 CPU 更高效地執行以數據爲中心的計算。S1DPU 從主機服務器中的 x86 核心完全卸載整個存儲、網絡、安全和虛擬化堆棧,從而釋放超過 50% 的 x86 CPU 周期來運行應用程序工作負載。
Fungible表示,雖然F1 DPU 專爲存儲、安全、AI 和分析服務器等高性能獨立設備而設計,但 S1 DPU 在標准 PCIe 適配器的佔用空間和功率範圍內最大限度地提高了性能。S1 先進的 SoC 架構集成了運行完全分離的控制平面和數據平面的多核處理器集群。這些集群通過快速片上網絡 (NoC) 互連到精心挑選的硬件加速器塊集合。SoC 通過標准以太網端口和支持端點 (EP) SR-IOV 和 Root Complex (RC) 功能的 PCIeGen3/Gen 4 控制器與外部組件交互。
雖然开始表現驚豔,但Dylan Patel在其文章中披露,該公司從2022年8月該公司在 8 月份裁員,並在 當年11 月份縮減產品线後,放棄了其可組合基礎設施的雄心,專注於DPU 增強型 NVMe/TCP 存儲陣列。按照知情人士所說,之所以會出現這樣的結果,是因爲Fungible想要關注的(存儲)市場已經被財力雄厚、產品非常成熟的成熟企業所飽和。這對他們來說將是一個挑战。
Fungible在回應媒體提問時也表示:“早在2020年,Fungible 決定通過收購和有機开發,用更高級別的可組合性軟件解決方案來增強其 DPU 產品組合。盡管我們盡了最大努力,但與 Fungible 基於 DPU 的存儲技術所取得的成功相比,Fungible 仍無法在編排(orchestration)領域取得成功。這促使我們將工作重點放在由 Fungible DPU 實現的橫向擴展存儲上,並可在我們的 Fungible 存儲集群解決方案中使用,以推動公司的成功。”
但最後,如Dylan Patel所說,在多方籌集資金未果之後,Fungible曾想出售給 Meta,但最終他們無法獲得任何支持。具體到微軟方面,這家雲巨頭最初考慮與 Fungible 進行定制芯片交易,但最終決定以低價收購該公司、員工和知識產權。
於是,產生了文章开頭的故事。
DPU,機會在哪裏?
DPU一开始光芒四射,但隨着明星新貴被收購,雲巨頭和芯片巨頭紛紛殺入之後,其前景似乎有了更多的不確定性。如blocksandfiles在早前就透露,DPU初創公司Nebulon或已經被英偉達之前,而在Fungible之前,明星公司Mellanox被英偉達收購,AMD也拿下了Pensando。
雲廠商方面,AWS其擁有內部Nitro技術;阿裏雲有神龍;華爲也有自研DPU產品。再加上之前說到的DPU芯片廠商,由此可見,對於DPU廠商來說,留給他們的機會其實並不是太多。有消息人士表示,在他們看來,在DPU方面,可組合基礎設施和其他芯片开發初創公司有三種潛在的市場途徑:
1 建立可組合的基礎設施公司;
2 成爲其他 OEM、ODM 和雲的軍火商,提供組件和隨附軟件;
3 構建一個特定的盒子,例如存儲或 GPU 服務器;
Blocksandfiles在文章中也強調:
DPU 市場已被證明是一個難以攻克的難題。大型服務器供應商相對較少:戴爾、HPE、聯想、超微,以及落後一些的思科。如果其中一個或多個採用您的 DPU 作爲標准組件,您就有很大機會成爲一般市場供應商。但從DPU 初創公司 Fungible 和 Pensando的發展看來,這並沒有發生。
如果非常大的服務器买家(例如超大規模提供商)如果不直接收購業務,也可以採用供應商的 DPU(Fungible 就發生了這種情況)。微軟在2020年底以1.9億美元的價格收購了它。當這類企業被收購時,它們就成爲內部系統組件供應商,而不是一般市場供應商。
此外,處理器供應商可以开發自己的DPU——Intel及其IPU;Nvidia 與 BlueField 合作,或者收購一家 DPU 初創公司,就像AMD在 2022 年 4 月以 19 億美元收購 Pensando那樣。這就使得Kalray和 Nebulon 在不愿採用的服務器 OEM 市場上難以銷售 DPU 產品,而且企業也不清楚 DPU 的好處採用專有的基礎設施技術,背後沒有大而可信的名字。在這樣的背景下,小小的芯片公司如何與 Intel、AMD、Nvidia 競爭呢?
“總而言之,一般的 DPU 市場尚未出現”,Blocksandfiles總結說。
標題:微軟自研芯片,打響拋棄英偉達第二槍
地址:https://www.iknowplus.com/post/82715.html