英偉達平替?國產GPU萬卡集群來了
最近兩年,大語言模型發展迅猛,對算力需求激增。然而,英偉達A100等高端GPU一卡難求,是挑战還是機遇?衆多國產算力廠商开始尋找新的替代方案。
作爲國內僅有的可以在功能上對標英偉達的GPU企業,摩爾线程試圖用“集群化”的解決方案,助力國產GPU突破算力瓶頸。
7月3日,在2024世界人工智能大會召开前夕,摩爾线程宣布其誇娥(KUAE)智算集群解決方案實現重大升級,從當前的千卡級別大幅擴展至萬卡規模,以此來完成對大模型的托舉,爲萬億參數級別的大模型訓練提供持續高效、穩定、且廣泛適用的通用算力支持。
AI主战場,萬卡是標配
AI大模型時代,巨頭們都卷入一場算力軍備賽。
2023年5月10日,Google推出的超級計算機A3 Virtual Machines擁有26,000塊Nvidia H100 GPU,同時基於自研芯片搭建TPUv5p 8960卡集群;
2024年3月,Meta分享了其兩個新的AI訓練集群,新發布的兩個集群均包含24,576個Nvidia Tensor Core H100 GPU,比上一代的16,000塊增長了不少;
而OpenAI开發的ChatGPT-4擁有16個專家模型共1.8萬億參數,一次訓練需要在大約25,000個A100上訓練90到100天。
事實證明,AI大模型的主战場,萬卡已是標配。
那么,AI大模型時代,究竟需要怎樣的算力?從大模型的發展趨勢,我們可以窺得一二。
在2020年推出的Scaling Law(尺度規律)持續作用之下,推動了大模型的“暴力美學”趨勢。以OpenAI的ChatGPT的發展爲例,大模型訓練的方向是參數規模從百億增長到萬億,至少增長了100多倍;所需處理的數據量從TB級別增長到10+TB,至少增長了10多倍;計算量至少增加了1000多倍。這樣的大模型必須要有規模足夠大的算力,才能快速跟上技術演進。
不只是規模夠大,AI算力還必須具有通用性。這是因爲,目前大模型背後所基於的是Transformer架構,它雖然是當下的主流架構,但並不能大一統,它自身仍在加速融合演進,從稠密到MoE,從單模態到多模態,從擴散到自回歸。同時,除了Transformer架構之外,也不斷有其他創新架構出現,如Mamba、RWKV和RetNet等。因而,Transformer架構並不等於最終答案。
此外,AI、3D、HPC跨技術與跨領域融合不斷加速,比如利用AI+3D實現空間智能、AI+仿真計算實現物理智能、AI+科學計算實現4Science等。計算範式的演進,以及更多場景對多元算力需求的變化,都催生了對一個通用加速計算平台的渴望。
隨着模型參數量從千億邁向萬億,大模型亟需一個超級訓練工廠,即一個“大且通用”的加速計算平台,來極大地縮短訓練時間,以實現模型能力的快速迭代。“只有在規模足夠大、計算更通用且生態兼容好的情況下,才能真正實現好用。”摩爾线程創始人兼CEO張建中指出。
超萬卡集群已成爲大模型預訓練的標配,對於基礎設施廠商而言,有沒有萬卡集群將是贏取AI主战場勝負的關鍵。
然而,建設萬卡集群並非易事。
萬卡集群並不是一萬張GPU卡的簡單堆疊,而是一個超級復雜的系統工程。
首先,它涉及到超大規模組網互聯問題,以及如何提高集群有效計算效率,大量實踐表明,集群規模的线性提升無法直接帶來集群有效算力的线性提升。
此外,訓練高穩定與高可用、故障快速定位與可診斷工具等也很關鍵,超萬卡集群是由數千台GPU服務器、數千台交換機、數萬根光纖/數萬顆光模塊構成,訓練任務涉及上千萬器件的共同作業,任何一個部件的故障,可能都會導致訓練中斷。
再者,大模型的迭代和創新層出不窮,各種新類型的模型及模型架構的創新,要求萬卡集群具備生態Day0級的快速遷移能力,以適應不斷變化的技術需求。同時,我們也不能局限於當下的大模型計算加速場景,還需要考慮未來通用計算的需求。
建設萬卡集群的道路難如登山,挑战巨大,但這卻是一條難而正確的道路。
打造大模型訓練超級工廠
經過近四年的積累,摩爾线程在千卡集群已獲得成功驗證的基礎上,重磅發布了誇娥(KUAE)萬卡智算集群方案,可以滿足大模型時代對於算力“規模夠大+計算通用+生態兼容”的核心需求,實現國產集群計算能力再升級。
摩爾线程誇娥萬卡集群以全功能GPU爲底座,軟硬一體化、完整的系統級算力解決方案,包括以誇娥計算集群爲核心的基礎設施、誇娥集群管理平台(KUAE Platform)以及誇娥大模型服務平台(KUAE ModelStudio),旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。該方案可實現开箱即用,大大降低傳統算力建設、應用开發和運維運營平台搭建的時間成本,實現快速投放市場开展商業化運營。
誇娥萬卡智算方案具備五大特點:
單一集群規模突破萬卡,總算力超萬P;
集群有效計算效率,目標最高可超過60%;
穩定性卓越,周均訓練有效率最高可達99%以上,平均無故障運行15天以上,最長穩定訓練30天以上;
具備強大的計算通用性,專爲通用計算而設計,可以加速一切大模型;
擁有良好的CUDA兼容能力,生態適配Instant On,加速新模型Day0級遷移。
“我們希望,我們的產品可以爲客戶提供一個更好的、可選擇的國產化工具,在國外產品無法使用的時候,可以很容易在國產平台上快速使用起來。”張建中表示,“對於目前國內的大模型用戶來說,我們的最大優勢在於生態兼容性極佳。开發者移植到我們的誇娥集群上,幾乎是不需要修改代碼,遷移成本接近0,可以在數小時之內就完成遷移工作。”
要讓這個大模型訓練工廠真正運轉起來,還需要一衆朋友圈的支持:
智譜 AI、智源研究院、北大兔展、滴普科技、師者AI、羽人科技、樂創能源、瑞萊智慧、實在智能、積沙成塔(Reportify)、憨猴集團、億景智聯等國內大模型企業,都成功運行在摩爾线程的誇娥集群上。值得一提的是,摩爾线程是第一家接入無問芯穹並進行大模型訓練的國產GPU公司,誇娥也是業內首個成功跑通並完整運行國產大模型的集群。
讓國產GPU算力集群真正用起來
萬卡集群是個超級工程,需要產業界齊心協力參與建設。在發布會上,摩爾线程與青海移動、青海聯通等頭部央企進行了萬卡集群項目的战略籤約。這些合作將進一步推動摩爾线程萬卡集群在各地方的應用落地。
憑借高兼容性、高穩定性、高擴展性及高算力利用率等優勢,摩爾线程誇娥智算集群已成功斬獲多家大模型企業的認可,成爲國內大模型訓練和應用的重要力量。“幾年前對於客戶來說,國產算力只是備胎,而現在已經成爲客戶的首選,因爲要保證長期供應、本地服務。”張建中介紹到。
雖然構建萬卡集群是一項艱巨的任務,但摩爾线程展示出了攀登的決心,這是一條難而正確的道路。但這不僅是爲了解決某一家企業的算力需求,更是爲了應對全行業的算力短缺問題。雖難但很有必要!
結語
摩爾线程萬卡級誇娥智算中心全棧解決方案的發布,標志着國產GPU在算力水平上取得了重大突破,將優先解決復雜萬億參數大模型訓練的難題。而摩爾线程的定位早已經不是一家GPU公司,而是一家專注AI的加速計算平台企業。
標題:英偉達平替?國產GPU萬卡集群來了
地址:https://www.iknowplus.com/post/123178.html