英偉達平替？國產GPU萬卡集群來了

最近兩年，大語言模型發展迅猛，對算力需求激增。然而，英偉達A100等高端GPU一卡難求，是挑战還是機遇？衆多國產算力廠商开始尋找新的替代方案。

作爲國內僅有的可以在功能上對標英偉達的GPU企業，摩爾线程試圖用“集群化”的解決方案，助力國產GPU突破算力瓶頸。

7月3日，在2024世界人工智能大會召开前夕，摩爾线程宣布其誇娥（KUAE）智算集群解決方案實現重大升級，從當前的千卡級別大幅擴展至萬卡規模，以此來完成對大模型的托舉，爲萬億參數級別的大模型訓練提供持續高效、穩定、且廣泛適用的通用算力支持。

AI主战場，萬卡是標配

AI大模型時代，巨頭們都卷入一場算力軍備賽。

2023年5月10日，Google推出的超級計算機A3 Virtual Machines擁有26,000塊Nvidia H100 GPU，同時基於自研芯片搭建TPUv5p 8960卡集群；

2024年3月，Meta分享了其兩個新的AI訓練集群，新發布的兩個集群均包含24,576個Nvidia Tensor Core H100 GPU，比上一代的16,000塊增長了不少；

而OpenAI开發的ChatGPT-4擁有16個專家模型共1.8萬億參數，一次訓練需要在大約25,000個A100上訓練90到100天。

事實證明，AI大模型的主战場，萬卡已是標配。

那么，AI大模型時代，究竟需要怎樣的算力？從大模型的發展趨勢，我們可以窺得一二。

在2020年推出的Scaling Law（尺度規律）持續作用之下，推動了大模型的“暴力美學”趨勢。以OpenAI的ChatGPT的發展爲例，大模型訓練的方向是參數規模從百億增長到萬億，至少增長了100多倍；所需處理的數據量從TB級別增長到10+TB，至少增長了10多倍；計算量至少增加了1000多倍。這樣的大模型必須要有規模足夠大的算力，才能快速跟上技術演進。

不只是規模夠大，AI算力還必須具有通用性。這是因爲，目前大模型背後所基於的是Transformer架構，它雖然是當下的主流架構，但並不能大一統，它自身仍在加速融合演進，從稠密到MoE，從單模態到多模態，從擴散到自回歸。同時，除了Transformer架構之外，也不斷有其他創新架構出現，如Mamba、RWKV和RetNet等。因而，Transformer架構並不等於最終答案。

此外，AI、3D、HPC跨技術與跨領域融合不斷加速，比如利用AI+3D實現空間智能、AI+仿真計算實現物理智能、AI+科學計算實現4Science等。計算範式的演進，以及更多場景對多元算力需求的變化，都催生了對一個通用加速計算平台的渴望。

隨着模型參數量從千億邁向萬億，大模型亟需一個超級訓練工廠，即一個“大且通用”的加速計算平台，來極大地縮短訓練時間，以實現模型能力的快速迭代。“只有在規模足夠大、計算更通用且生態兼容好的情況下，才能真正實現好用。”摩爾线程創始人兼CEO張建中指出。

超萬卡集群已成爲大模型預訓練的標配，對於基礎設施廠商而言，有沒有萬卡集群將是贏取AI主战場勝負的關鍵。

然而，建設萬卡集群並非易事。

萬卡集群並不是一萬張GPU卡的簡單堆疊，而是一個超級復雜的系統工程。

首先，它涉及到超大規模組網互聯問題，以及如何提高集群有效計算效率，大量實踐表明，集群規模的线性提升無法直接帶來集群有效算力的线性提升。

此外，訓練高穩定與高可用、故障快速定位與可診斷工具等也很關鍵，超萬卡集群是由數千台GPU服務器、數千台交換機、數萬根光纖/數萬顆光模塊構成，訓練任務涉及上千萬器件的共同作業，任何一個部件的故障，可能都會導致訓練中斷。

再者，大模型的迭代和創新層出不窮，各種新類型的模型及模型架構的創新，要求萬卡集群具備生態Day0級的快速遷移能力，以適應不斷變化的技術需求。同時，我們也不能局限於當下的大模型計算加速場景，還需要考慮未來通用計算的需求。

建設萬卡集群的道路難如登山，挑战巨大，但這卻是一條難而正確的道路。

打造大模型訓練超級工廠

經過近四年的積累，摩爾线程在千卡集群已獲得成功驗證的基礎上，重磅發布了誇娥（KUAE）萬卡智算集群方案，可以滿足大模型時代對於算力“規模夠大+計算通用+生態兼容”的核心需求，實現國產集群計算能力再升級。

摩爾线程誇娥萬卡集群以全功能GPU爲底座，軟硬一體化、完整的系統級算力解決方案，包括以誇娥計算集群爲核心的基礎設施、誇娥集群管理平台（KUAE Platform）以及誇娥大模型服務平台（KUAE ModelStudio），旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。該方案可實現开箱即用，大大降低傳統算力建設、應用开發和運維運營平台搭建的時間成本，實現快速投放市場开展商業化運營。

誇娥萬卡智算方案具備五大特點：

單一集群規模突破萬卡，總算力超萬P；

集群有效計算效率，目標最高可超過60%；

穩定性卓越，周均訓練有效率最高可達99%以上，平均無故障運行15天以上，最長穩定訓練30天以上；

具備強大的計算通用性，專爲通用計算而設計，可以加速一切大模型；

擁有良好的CUDA兼容能力，生態適配Instant On，加速新模型Day0級遷移。

“我們希望，我們的產品可以爲客戶提供一個更好的、可選擇的國產化工具，在國外產品無法使用的時候，可以很容易在國產平台上快速使用起來。”張建中表示，“對於目前國內的大模型用戶來說，我們的最大優勢在於生態兼容性極佳。开發者移植到我們的誇娥集群上，幾乎是不需要修改代碼，遷移成本接近0，可以在數小時之內就完成遷移工作。”

要讓這個大模型訓練工廠真正運轉起來，還需要一衆朋友圈的支持：

智譜 AI、智源研究院、北大兔展、滴普科技、師者AI、羽人科技、樂創能源、瑞萊智慧、實在智能、積沙成塔（Reportify）、憨猴集團、億景智聯等國內大模型企業，都成功運行在摩爾线程的誇娥集群上。值得一提的是，摩爾线程是第一家接入無問芯穹並進行大模型訓練的國產GPU公司，誇娥也是業內首個成功跑通並完整運行國產大模型的集群。