谷歌今天發布博客表示,生成式人工智能 (gen AI) 模型正在迅速發展,提供無與倫比的復雜性和功能。這一進步使各行業的企業和开發人員能夠解決復雜的問題並釋放新的機遇。然而,新一代人工智能模型的增長——過去五年參數每年增加十倍——帶來了對訓練、調整和推理的更高要求。當今的大型模型具有數千億甚至數萬億的參數,即使在最專業的系統上,也需要大量的訓練期,有時甚至長達數月。此外,高效的人工智能工作負載管理需要一個由優化的計算、存儲、網絡、軟件和开發框架組成的連貫集成的人工智能堆棧。

今天,爲了應對這些挑战,我們很高興地宣布 Cloud TPU v5p,這是我們迄今爲止最強大、可擴展且靈活的人工智能加速器。長期以來,TPU 一直是訓練和服務 AI 支持的產品(例如 YouTube、Gmail、Google 地圖、Google Play 和 Android)的基礎。事實上,Google今天宣布的最強大、最通用的人工智能模型 Gemini是使用 TPU 進行訓練和服務的。

此外,我們還宣布推出來自 Google Cloud 的 AI 超級計算機,這是一種突破性的超級計算機架構,採用性能優化的硬件、开放軟件、領先的機器學習框架和靈活的消費模型的集成系統。傳統方法通常通過零散的組件級增強來解決要求苛刻的人工智能工作負載,這可能會導致效率低下和瓶頸。相比之下,人工智能超級計算機採用系統級協同設計來提高人工智能訓練、調整和服務的效率和生產力。

Cloud TPU v5p 是我們迄今爲止最強大且可擴展的 TPU 加速器

今年早些時候,我們宣布全面推出 Cloud TPU v5e。與上一代 TPU v4 1相比,性價比提高了 2.3 倍,是我們迄今爲止最具成本效益的TPU。相比之下,Cloud TPU v5p 是我們迄今爲止最強大的TPU。每個 TPU v5p Pod在我們最高帶寬的芯片間互連 (ICI)上由 8,960 個芯片組成,採用 3D 環面拓撲,每芯片速率爲 4,800 Gbps 。與 TPU v4 相比,TPU v5p 的FLOPS 提高了 2 倍以上,高帶寬內存 (HBM) 提高了 3 倍以上。

TPU v5p 專爲性能、靈活性和規模而設計,訓練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍。此外,借助第二代SparseCores,TPU v5p訓練嵌入密集模型的速度比 TPU v4 2快 1.9 倍。

除了性能改進之外,TPU v5p 在每個 pod 的總可用 FLOP 方面的可擴展性也比 TPU v4 高 4 倍。與 TPU v4 相比,每秒浮點運算次數 (FLOPS) 加倍,並且單個 Pod 中的芯片數量加倍,可顯着提高訓練速度的相對性能。

谷歌人工智能超級計算機大規模提供峰值性能和效率

實現規模和速度是必要的,但不足以滿足現代 AI/ML 應用程序和服務的需求。硬件和軟件組件必須組合成一個集成的、易於使用、安全且可靠的計算系統。在谷歌,我們針對這個問題進行了數十年的研究和开發,最終开發出了人工智能超級計算機,這是一個經過優化的技術系統,可以協同工作以支持現代人工智能工作負載。

性能優化的硬件:AI 超級計算機具有基於超大規模數據中心基礎設施構建的性能優化的計算、存儲和網絡,利用高密度佔地面積、液體冷卻和我們的Jupiter 數據中心網絡技術。所有這一切都基於以效率爲核心的技術;利用清潔能源和對水資源管理的堅定承諾,正在幫助我們邁向無碳的未來。

开放軟件:人工智能超計算機使开發人員能夠通過使用开放軟件來訪問我們性能優化的硬件,從而在性能優化的人工智能硬件之上調整、管理和動態編排人工智能訓練和推理工作負載。

對流行的 ML 框架(例如 JAX、TensorFlow 和 PyTorch)的廣泛支持开箱即用。JAX 和 PyTorch 均由OpenXLA編譯器提供支持,用於構建復雜的 LLM。XLA 作爲基礎骨幹,支持創建復雜的多層模型(使用 PyTorch/XLA 在雲 TPU 上進行 Llama 2 訓練和推理)。它優化了各種硬件平台上的分布式架構,確保針對不同的 AI 使用案例進行易於使用且高效的模型开發(AssemblyAI 利用 JAX/XLA 和 Cloud TPU 進行大規模 AI 語音)。

开放且獨特的多片訓練和多主機推理軟件分別使擴展、訓練和服務工作負載變得順利和簡單。开發人員可以擴展到數萬個芯片來支持要求苛刻的人工智能工作負載。

與Google Kubernetes Engine (GKE)和Google Compute Engine深度集成,提供高效的資源管理、一致的操作環境、自動擴展、節點池自動配置、自動檢查點、自動恢復和及時的故障恢復。

靈活消費:AI超算提供多種靈活動態的消費選擇。例如 Committed Use Discounts (CUD)、按需定價和現貨定價等經典選項外,AI Hypercomputer 還通過Dynamic Workload Scheduler 提供針對 AI 工作負載量身定制的消費模型。Dynamic Workload Scheduler 引入了兩種模型:Flex Start 模式,可實現更高的資源可用性和優化的經濟性;Calendar 模式,針對作業啓動時間具有更高可預測性的工作負載。



標題:谷歌發布新的TPU芯片,HBM容量提高三倍

地址:https://www.iknowplus.com/post/59067.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。