吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負載

谷歌開發者 ? 來源:未知 ? 2023-12-13 16:05 ? 次閱讀

以下文章來源于谷歌云服務,作者 Google Cloud

Amin Vahdat

ML、系統與 Cloud AI 副總裁/總經理

Mark Lohmeyer

計算與 ML 基礎設施副總裁/總經理

生成式 AI 模型正在迅速發展,提供了前所未有的精密性和功能。這項技術進展得以讓各行各業的企業和開發人員能夠解決復雜的問題,開啟新的機遇之門。然而,生成式 AI 模型的增長也導致訓練、調整和推理方面的要求變得更加嚴苛。過去五年來,生成式 AI 模型的參數每年增長十倍,如今的大模型具有數千億甚至上萬億項參數,即使在最專業的系統上仍需要相當長的訓練時間,有時需持續數月才能完成。此外,高效的 AI 工作負載管理需要一個具備一致性能、優化的計算、存儲、網絡、軟件和開發框架所組成的集成 AI 堆棧。

為了應對這些挑戰,我們很高興宣布推出 Cloud TPU v5p,這是 Google 迄今為止功能、可擴展性、靈活性最為強大的 AI 加速器。長期以來,TPU 一直是訓練和服務 AI 支持的產品的基礎,例如 YouTube、Gmail、Google 地圖、Google Play 和 Android。事實上,Google 剛剛發布的功能最強大的通用 AI 模型 Gemini 就是使用 TPU 進行訓練和服務的。

此外,我們也宣布推出 Google Cloud AI Hypercomputer,這是一種突破性的超級計算機架構采用集成系統,并結合了性能優化的硬件、開放軟件、領先的 ML 框架和靈活的消費模式。傳統方法通常是以零碎的組件級增強來解決要求嚴苛的 AI 工作負載,這可能會導致效率不佳和性能瓶頸。相比之下,AI Hypercomputer 采用系統級協同設計來提高 AI 訓練、調整和服務的效率和生產力。

01

探索 Cloud TPU v5p

Google Cloud 目前功能最強大

可擴展能力最佳的 TPU 加速器

上個月,我們宣布全面推出 Cloud TPU v5e。相較于上一代 TPU v41,TPU v5e 的性價比提高了 2.3 倍,是我們目前最具成本效益的 TPU。而 Cloud TPU v5p 則是我們目前功能最強大的 TPU。每個 TPU v5p pod 由 8,960 個芯片組成,采用了我們帶寬最高的芯片間互連 (Inter-chip Interconnect, ICI) 技術,以 3D 環形拓撲結構實現每芯片 4,800 Gbps 的速率。與 TPU v4 相比,TPU v5p 的每秒浮點運算次數 (FLOPS) 提高 2 倍以上,高帶寬內存 (High-bandwidth Memory, HBM) 則增加 3 倍

TPU v5p 專為性能、靈活性和可擴展性設計,相較于上一代 TPU v4,TPU v5p 訓練大型 LLM 的速度提升 2.8 倍。此外,若搭配第二代 SparseCores,TPU v5p 訓練嵌入密集模型的速度比 TPU v42 快 1.9 倍

wKgZomV5ZtqAVxvIAADPSGWcyh0300.png

資料來源: Google 內部數據。截至 2023 年 11 月,GPT-3 1750 億參數模型的所有數據均按每芯片 seq-len=2048 為單位完成標準化。

wKgZomV5ZtqAROtEAAEFUtrHUCw937.png

資料來源: TPU v5e 數據來自 MLPerf 3.1 Training Closed 的 v5e 結果;TPU v5p 和 v4 基于 Google 內部訓練運行。截至 2023 年 11 月,GPT-3 1750 億參數模型的所有數據均按每芯片 seq-len=2048 為單位完成標準化。并以 TPU v4:3.22 美元/芯片/小時、TPU v5e:1.2 美元/芯片/小時和 TPU v5p:4.2 美元/芯片/小時的公開定價顯示每美元相對性能。

TPU v5p 不僅性能更佳,就每 Pod 的總可用 FLOPS 而言,TPU v5p 的可擴展能力比 TPU v4 高 4 倍,且 TPU v5p 的每秒浮點運算次數 (FLOPS) 是 TPU v4 的兩倍,并在單一 Pod 中提供兩倍的芯片,可大幅提升訓練速度相關性能。

wKgZomV5ZtuAGEBhAARxTP6GyC0815.png

02

Google AI Hypercomputer

大規模提供頂尖性能和效率

實現規模和速度是必不可少的,但并不足以滿足現代 AI/ML 應用程序和服務的需求。軟硬組件必須組合相輔相成,組成一個易于使用、安全可靠的集成計算系統。Google 已針對此問題投入數十年的時間進行研發,而 AI Hypercomputer 正是我們的心血結晶。此系統集結了多種能協調運作的技術,能以最佳方式來執行現代 AI 工作負載。

wKgZomV5ZtuAZX9NAAIoSxnb8Jg775.png ? ? ?

性能優化硬件: AI Hypercomputer 以超大規模數據中心基礎設施為基礎構建,采用高密度足跡、水冷技術和我們的 Jupiter 數據中心網絡技術,在計算、存儲和網絡功能上均能提供最佳性能。所有這一切都基于以效率為核心的各項技術,利用清潔能源和對水資源管理的堅定承諾,助力我們邁向無碳未來。

開放軟件: AI Hypercomputer 使開發人員能夠通過使用開放軟件來訪問我們性能優化的硬件,利用這些硬件調整、管理和動態編排 AI 訓練和推理工作負載。

  • 廣泛支持主流 ML 框架 (例如 JAX、TensorFlow 和 PyTorch) 且提供開箱即用。如要構建復雜的 LLM,JAX 和 PyTorch 均由 OpenXLA 編譯器提供支持。XLA 作為基礎設施,支持創建復雜的多層模型。XLA 優化了各種硬件平臺上的分布式架構,確保針對不同的 AI 場景高效開發易于使用的模型。

  • 提供開放且獨特的 Multislice Training 及 Multihost Inferencing 軟件,分別使擴展、訓練和提供模型的工作負載變得流暢又簡單。若要處理要求嚴苛的 AI 工作負載,開發人員可將芯片數量擴展至數萬個。

  • 與 Google Kubernetes Engine (GKE) 和 Google Compute Engine 深度集成,實現高效的資源管理、一致的操作環境、自動擴展、自動配置節點池、自動檢查點、自動恢復和及時的故障恢復。

靈活的消費模式: AI Hypercomputer 提供多種靈活動態的消費方案。除了承諾使用折扣 (Committed Used Discunts, CUD)、按需定價和現貨定價等經典選項外,AI Hypercomputer 還通過 Dynamic Workload Scheduler 提供針對 AI 工作負載量身定制的消費模式。Dynamic Workload Scheduler 包含兩種消費模式: Flex Start 模式可實現更高的資源獲取能力和優化的經濟效益;Calendar 模式則針對作業啟動時間可預測性更高的工作負載。

03

利用 Google 的豐富經驗

助力 AI 的未來發展

Salesforce 和 Lightricks 等客戶已在使用 Google Cloud 的 TPU v5p 以及 AI Hypercomputer 來訓練和服務大型 AI 模型——并發現了其中的差異:

G

C

"我們一直在使用 Google Cloud 的 TPU v5p 對 Salesforce 的基礎模型進行預訓練,這些模型將作為專業生產用例的核心引擎,我們看到訓練速度獲得了顯著提升。事實上,Cloud TPU v5p 的計算性能比上一代 TPU v4 高出至少 2 倍。我們還非常喜歡使用 JAX 順暢地從 Cloud TPU v4 過渡到 v5p。我們期待能通過 Accurate Quantized Training (AQT) 庫,運用 INT8 精度格式的原生支持來優化我們的模型,進一步提升速度。"

——Salesforce 高級研究科學家

Erik Nijkamp

G

C

"憑借 Google Cloud TPU v5p 的卓越性能和充足內存,我們成功地訓練了文本到視頻的生成模型,而無需將其拆分成單獨進程。這種出色的硬件利用率大大縮短了每個訓練周期,使我們能夠迅速開展一系列實驗。能在每次實驗中快速完成模型訓練的能力加快了迭代速度,為我們的研究團隊在生成式 AI 這個競爭激烈的領域帶來寶貴優勢。"

——Lightricks 核心生成式 AI 研究團隊主管

Yoav HaCohen 博士

G

C

"在早期使用過程中,Google DeepMind 和 Google Research 團隊發現,對于 LLM 訓練工作負載,TPU v5p 芯片的性能比 TPU v4 代提高了 2 倍。此外,AI Hypercomputer 能為 ML 框架 (JAX、PyTorch、TensorFlow) 提供強大的支持和自動編排工具,使我們能夠在 v5p 上更高效地擴展。搭配第二代 SparseCores,我們也發現嵌入密集型工作負載 (embeddings-heavy workloads) 的性能得到顯著提高。TPU 對于我們在 Gemini 等前沿模型上開展最大規模的研究和工程工作至關重要。"

—— Google DeepMind 和 Google Research

首席科學家 Jeff Dean

在 Google,我們一直堅信 AI 能夠幫助解決棘手問題。截至目前,大規模訓練與提供大型基礎模型對于許多企業來說都過于復雜且昂貴。現在,通過 Cloud TPU v5p 和 AI Hypercomputer,我們很高興能將我們在 AI 和系統設計領域數十年的研究成果與我們的用戶分享,以便他們能夠更快、更高效、更具成本效益地運用 AI 加速創新。

wKgZomV5ZtuAX_DrAAAjqZVF__E690.gif ?

1: MLPerf v3.1 Training Closed 的結果多個基準如圖所示。資料日期:2023 年 11 月 8 日。資料來源:mlcommons.org。結果編號:3.1-2004。每美元性能并非 MLPerf 的評估標準。TPU v4 結果尚未經 MLCommons 協會驗證。MLPerf 名稱和標志是 MLCommons 協會在美國和其他國家的商標,并保留所有權利,嚴禁未經授權的使用。更多信息,請參閱 www.mlcommons.org。

2: 截至 2023 年 11 月,Google TPU v5p 內部資料:E2E 執行時間 (steptime)、搜索廣告預估點擊率 (SearchAds pCTR)、每個 TPU 核心批次大小為 16,384、125 個 vp5 芯片。


wKgZomV5ZtuAYQ9-AAAafJIrrMk456.gif?點擊屏末||即刻查看詳細內容

wKgZomV5ZtuAQLghAAATN9B0Fw0289.png

wKgZomV5ZtyAKESmAAMyGF3oQT4132.png

wKgZomV5ZtyAPigfAAAptPJQ2wE843.png


原文標題:Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負載

文章出處:【微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6196

    瀏覽量

    106017

原文標題:Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負載

文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Google兩款先進生成式AI模型登陸Vertex AI平臺

    新的 AI 模型,包括最先進的視頻生成模型Veo以及最高品質的圖像生成模型Imagen 3。近日,我們在 Google Cloud 上進步推動這
    的頭像 發表于 12-30 09:56 ?143次閱讀

    OPPO與Google Cloud攜手開創AI手機新未來

    OPPO 與 Google CloudAI 技術上深入合作,在旗下的海外手機上實現 AI 功能,這些 AI 功能為 OPPO 手機帶來
    的頭像 發表于 12-06 14:13 ?437次閱讀

    雷諾下一代車載語音助手Reno將引入生成式AI技術

    11月1日,賽輪思軟件技術公司與雷諾公司宣布深化合作,旨在將生成式AI技術和類人交互功能融入雷諾下一代多模態虛擬車載助手Reno中。   雷諾推出的虛擬助手Reno被設計為智能旅行伴侶,旨在
    的頭像 發表于 11-01 16:39 ?1197次閱讀

    RISC-V如何支持不同的AI和機器學習框架和庫?

    RISC-V如何支持不同的AI和機器學習框架和庫?還請壇友們多多指教下。
    發表于 10-10 22:24

    谷歌Vertex AI助力企業生成式AI應用

    過去的段時間,我們看到了許多 Google Cloud 客戶對生成式 AI 和 agent 的精彩應用,令我們拍案叫絕。為了讓企業能夠更快推出
    的頭像 發表于 09-09 15:59 ?579次閱讀

    下一代高功能新一代AI加速器(DRP-AI3):10x在高級AI系統高級AI中更快的嵌入處理

    電子發燒友網站提供《下一代高功能新一代AI加速器(DRP-AI3):10x在高級AI系統高級AI
    發表于 08-15 11:06 ?0次下載
    <b class='flag-5'>下一代</b>高功能新<b class='flag-5'>一代</b><b class='flag-5'>AI</b>加速器(DRP-<b class='flag-5'>AI</b>3):10x在高級<b class='flag-5'>AI</b>系統高級<b class='flag-5'>AI</b>中更快的嵌入處理

    賽輪思與NVIDIA合作,利用生成式AI打造下一代車內體驗

    AI 驅動的移動出行創新企業與 NVIDIA 合作,打造下一代車內體驗。
    的頭像 發表于 05-23 10:12 ?1301次閱讀

    豐田、日產和本田將合作開發下一代汽車的AI和芯片

    豐田、日產和本田等日本主要汽車制造商確實計劃聯手開發下一代汽車的軟件,包括在生成式人工智能(AI)和半導體(芯片)等領域進行合作。
    的頭像 發表于 05-20 10:25 ?1026次閱讀

    谷歌將推出第六數據中心AI芯片Trillium TPU

    在今日舉行的I/O 2024開發者大會上,谷歌公司震撼發布了其第六數據中心AI芯片——Trillium Tensor處理器單元(TPU)。據谷歌首席執行官皮查伊透露,這款新型TPU
    的頭像 發表于 05-15 11:18 ?674次閱讀

    DPU技術賦能下一代AI算力基礎設施

    4月19日,在以“重構世界 奔赴未來”為主題的2024中國生成式AI大會上,中科馭數作為DPU新型算力基礎設施代表,受邀出席了中國智算中心創新論壇,發表了題為《以網絡為中心的AI算力底座構建之路》主題演講,勾勒出在通往AGI之路上,DPU技術賦能
    的頭像 發表于 04-20 11:31 ?932次閱讀

    三星電子已開始與Naver合作開發下一代AI芯片Mach-2

    三星電子與Naver合作開發下一代AI芯片Mach-2,這舉措標志著兩家公司在人工智能領域的深度合作進步加強。
    的頭像 發表于 04-18 14:40 ?746次閱讀

    Google Cloud推出基于Arm Neoverse V2定制Google Axion處理器

    Arm Neoverse 平臺已成為云服務提供商優化其從芯片到軟件全棧的心儀之選。近日,Google Cloud 推出了基于 Arm Neoverse V2 打造的定制
    的頭像 發表于 04-16 14:30 ?721次閱讀

    加入AI軍備賽! Google推出ARM架構處理器Axion和下一代TPU v5p

    行業芯事行業資訊
    電子發燒友網官方
    發布于 :2024年04月11日 11:38:27

    NVIDIA的專用AI平臺如何推動下一代醫療健康行業的發展

    醫療科技創新企業在 GTC 上介紹了 NVIDIA 的專用 AI 平臺如何推動下一代醫療健康行業的發展。
    的頭像 發表于 04-09 10:10 ?1349次閱讀

    英偉達的下一代AI芯片

    根據英偉達(Nvidia)的路線圖,它將推出下一代black well架構很快。該公司總是先推出個新的架構與數據中心產品,然后在幾個月后公布削減的GeForce版本,所以這也是這次
    的頭像 發表于 03-08 10:28 ?980次閱讀
    英偉達的<b class='flag-5'>下一代</b><b class='flag-5'>AI</b>芯片
    博彩通评价| 百家乐官网必胜课| 择日自学24| 世界顶级赌场排名| 澳门百家乐官网线上娱乐城| 百家乐赌博策略| 赌博百家乐官网作弊法| 百家乐筹码桌布| 百家乐官网美女真人| 百家乐官网tt赌场娱乐网规则 | 百家乐园zyylc| 万博88真人娱乐城| 百家乐大眼仔小路| 德州市| e世博官方网站| 百家乐官网是怎样的| 百家乐官网投法| 大发888在线| 博彩网百家乐官网的玩法技巧和规则| 百家乐路书| 菲利宾百家乐官网现场| 下载百家乐的玩法技巧和规则| 东山县| 百家乐任你博赌场娱乐网规则| 邛崃市| 百家乐赌场代理| 百家乐官网现金网平台排名| 百家乐路书| 缅甸百家乐官网的玩法技巧和规则 | 瑞丰| 百家乐币| 高碑店市| 巴比伦百家乐娱乐城| 贵族百家乐官网的玩法技巧和规则 | 永利百家乐现金网| 百家乐官网路单用处| 百家乐强对弱的对打法| 百家乐官网澳门路规则| 百家乐娱乐送白菜| 百家乐官网太阳城真人游戏| 现金百家乐|