吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型訓練,英偉達Turing、Ampere和Hopper算力分析

智能計算芯世界 ? 來源:智能計算芯世界 ? 2023-05-15 11:16 ? 次閱讀

GPU 優勢在于通過并行計算實現大量重復性計算。GPGPU即通用GPU,能夠幫助 CPU 進行非圖形相關程序的運算。在類似的價格和功率范圍內,GPU 能提供比CPU 高得多的指令吞吐量和內存帶寬。GPGPU 架構設計時去掉了 GPU 為了圖形處理而設計的加速硬件單元,保留了 GPU 的 SIMT架構和通用計算單元,通過 GPU 多條流水線的并行計算來實現大量計算。

所以基于 GPU 的圖形任務無法直接運行在 GPGPU 上,但對于科學計算,AI 訓練、推理任務(主要是矩陣運算)等通用計算類型的任務仍然保留了 GPU 的優勢,即高效的搬運和運算有海量數據的重復性任務。目前主要用于例如物理計算、加密解密、科學計算以及比特幣等加密貨幣的生成。

7d90cb3e-f2ce-11ed-90ce-dac502259ad0.png

7da4486c-f2ce-11ed-90ce-dac502259ad0.png

隨著超算等高并發性計算的需求不斷提升,英偉達以推動 GPU 從專用計算芯片走向通用計算處理器為目標推出了GPGPU,并于 2006 年前瞻性發布并行編程模型 CUDA,以及對應工業標準的 OpenCL。CUDA 是英偉達的一種通用并行計算平臺和編程模型,它通過利用圖形處理器 (GPU)的處理能力,可大幅提升計算性能。CUDA 使英偉達的 GPU 能夠執行使用 C、C++、Fortran、OpenCL、DirectCompute 和其他語言編寫的程序。在 CUDA 問世之前,對 GPU 編程必須要編寫大量的底層語言代碼;CUDA 可以讓普通程序員可以利用 C 語言、C++等為 CUDA 架構編寫程序在 GPU平臺上進行大規模并行計算,在全球 GPGPU 開發市場占比已超過 80%。GPGPU 與 CUDA 組成的軟硬件底座,構成了英偉達引領 AI 計算及數據中心領域的根基。

GPU 架構升級過程計算能力不斷強化,Hopper 架構適用于高性能計算(HPC)和 AI 工作負載。英偉達在架構設計上,不斷加強 GPU 的計算能力和能源效率。在英偉達 GPU 架構的演變中,從最先 Tesla 架構,分別經過 Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere至發展為今天的 Hopper 架構。

以 Pascal 架構為分界點,自 2016 年后英偉達逐步開始向深度學習方向演進。根據英偉達官網,Pascal 架構,與上一代 Maxwell 相比,神經網絡訓練速度提高 12 倍多,并將深度學習推理吞吐量提升了 7 倍。

Volta 架構,配備 640 個 Tensor 內核增強性能,可提供每秒超過 100 萬億次(TFLOPS)的深度學習性能,是上一代 Pascal 架構的 5 倍以上。

Turing 架構,配備全新 Tensor Core,每秒可提供高達 500 萬億次的張量運算。

Ampere架構,采用全新精度標準 Tensor Float 32(TF32),無需更改任何程序代碼即可將AI 訓練速度提升至 20 倍。

最新Hopper 架構是第一個真正異構加速平臺,采用臺積電 4nm 工藝,擁有超 800 億晶體管,主要由 Hopper GPU、Grace CPU、NVLINK C2C 互聯和 NVSwitch 交換芯片組成,根據英偉達官網介紹,其性能相較于上一代 Megatron 530B 擁有 30 倍 AI 推理速度的提升。

7dce498c-f2ce-11ed-90ce-dac502259ad0.png

7df2e0f8-f2ce-11ed-90ce-dac502259ad0.png

AMD 數據中心領域布局全面,形成 CPU+GPU+FPGA+DPU 產品矩陣。與英偉達相比,AMD 在服務器端 CPU 業務表現較好,根據 Passmark 數據顯示,2021 年 Q4 AMD EPYC 霄龍系列在英特爾壟斷下有所增長,占全球服務器 CPU 市場的 6%。依據 CPU 業務的優勢,AMD 在研發 GPGPU 產品時推出 Infinity Fabric 技術,將 EPYC 霄龍系列 CPU 與 Instinct MI 系列 GPU 直接相連,實現一致的高速緩存,形成協同效應。此外,AMD 分別于 2022 年 2 月、4 月收購 Xilinx 和Pensando,補齊 FPGA 與 DPU 短板,全面進軍數據中心領域。

軟件方面,AMD 推出 ROCm 平臺打造 CDNA 架構,但無法替代英偉達 CUDA 生態。AMD 最新的面向 GPGPU 架構為 CDNA 系列架構,CDNA 架構使用 ROCm 自主生態進行編寫。AMD 的 ROCm 生態采取 HIP 編程模型,但 HIP 與 CUDA 的編程語法極為相似,開發者可以模仿 CUDA 的編程方式為 AMD 的 GPU 產品編程,從而在源代碼層面上兼容 CUDA。所以從本質上來看,ROCm 生態只是借用了 CUDA 的技術,無法真正替代 CUDA 產生壁壘。

7e10d8ec-f2ce-11ed-90ce-dac502259ad0.png

軟硬件共同布局形成生態系統,造就英偉達核心技術壁壘。

? 硬件端:基于 GPU、DPU 和 CPU 構建英偉達加速計算平臺生態:

(1)主要產品 Tesla GPU 系列迭代速度快,從 2008 年至 2022 年,先后推出 8 種 GPU 架構,平均兩年多推出新架構,半年推出新產品。超快的迭代速度使英偉達的 GPU 性能走在 AI 芯片行業前沿,引領人工智能計算領域發生變革。

(2)DPU 方面,英偉達于 2019 年戰略性收購以色列超算以太網公司 Mellanox,利用其InfiniBand(無限帶寬)技術設計出 Bluefield 系列 DPU 芯片,彌補其生態在數據交互方面的不足。InfiniBand 與以太網相同,是一種計算機網絡通信標準,但它具有極高的吞吐量和極低的延遲,通常用于超級計算機的互聯。英偉達的 Bluefield DPU 芯片可用于分擔 CPU 的網絡連接算力需求,從而提高云數據中心的效率,降低運營成本。

(3)CPU 方面,自主設計 Grace CPU 并推出 Grace Hopper 超級芯片,解決內存帶寬瓶頸問題。采用 x86 CPU 的傳統數據中心會受到 PCIe 總線規格的限制,CPU 到 GPU 的帶寬較小,算效率受到影響;而 Grace Hopper 超級芯片提供自研 Grace CPU+GPU 相結合的一致內存模型,從而可以使用英偉達 NVLink-C2C 技術快速傳輸,其帶寬是第 5 代 PCIe 帶寬的 7 倍,極大提高了數據中心的運行性能。

7e293068-f2ce-11ed-90ce-dac502259ad0.png

相較于 A100 GPU,H100 性能再次大幅提升。在 H100 配備第四代 Tensor Core 和 Transformer引擎(FP8 精度),同上一代 A100 相比,AI 推理能力提升 30 倍。其核心采用的是 TSMC 目前最先進的 4nm 工藝,H100 使用雙精度 Tensor Core 的 FLOPS 提升 3 倍。

7e4bf6b6-f2ce-11ed-90ce-dac502259ad0.png

7e7237ea-f2ce-11ed-90ce-dac502259ad0.png

在算力需求快速增長的進程中,國產 GPU 正面臨機遇與挑戰并存的局面。目前,國產 GPU 廠商的核心架構多為自研,難度極高,需投入海量資金以及高昂的人力和時間成本。由于我國 GPU 行業起步較晚,缺乏相應生態,目前同國際一流廠商仍存在較大差距。在中美摩擦加劇、經濟全球化逆行的背景下,以海光信息、天數智芯、壁仞科技和摩爾線程等為代表的國內 GPU 廠商進展迅速,國產 GPU 自主可控未來可期。

7e8b9604-f2ce-11ed-90ce-dac502259ad0.png

7ea246a6-f2ce-11ed-90ce-dac502259ad0.png

以Open AI的算力基礎設施為例,芯片層面 GPGPU 的需求最為直接受益,其次是 CPU、AI 推理芯片、FPGA 等。AI 服務器市場的擴容,同步帶動高速網卡、HBM、DRAM、NAND、PCB 等需求提升。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4775

    瀏覽量

    129357
  • AI
    AI
    +關注

    關注

    87

    文章

    31520

    瀏覽量

    270335
  • 算力
    +關注

    關注

    1

    文章

    1014

    瀏覽量

    14957

原文標題:大模型訓練,英偉達Turing、Ampere和Hopper算力分析

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    通往AGI之路:揭秘英偉A100、A800、H800、V100在高性能計算與大模型訓練中的霸主地位

    英偉前段時間發布GH 200包含 36 個 NVLink 開關,將 256 個 GH200 Grace Hopper 芯片和 144TB 的共享內存連接成一個單元。除此之外,英偉
    的頭像 發表于 06-29 11:23 ?2.9w次閱讀
    通往AGI之路:揭秘<b class='flag-5'>英偉</b><b class='flag-5'>達</b>A100、A800、H800、V100在高性能計算與大<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>中的霸主地位

    AIGC需求大爆發,英偉芯片已漲價近四成

    12月份開始上漲,截至2023年4月上半月,5個月價格累計漲幅20.0%。 目前,對于所有AI大模型而言,無論是推理還是訓練,基本都是依賴英偉
    的頭像 發表于 05-16 01:08 ?3037次閱讀

    進一步解讀英偉 Blackwell 架構、NVlink及GB200 超級芯片

    30 倍,能源效率提高了 25 倍。這些提升使得它能夠更快地處理大規模的人工智能任務,加速模型訓練和推理過程。 **2. **超級計算機 英偉推出的 DGX GB200 超級計算
    發表于 05-13 17:16

    英偉DPU的過“芯”之處

    ,從而在這兩個領域更好地替代CPU,從而釋放CPU的給到其他更多應用。英偉在DPU上的技術突破,來自于去年收購以色列芯片制造公司Mellanox之后,在這家公司的硬件基礎上開發出
    發表于 03-29 14:42

    英偉H100 Transformer引擎加速AI訓練 準確而且高達6倍性能

    Hopper 架構從頭開始構建,憑借強大的和快速的內存來加速這些新一代 AI 工作負載,從而處理日益增長的網絡和數據集。 Transformer 引擎是全新 Hopper 架構的
    的頭像 發表于 04-01 09:24 ?4316次閱讀

    火種初現的國產GPU,誰能突破封鎖?

    事實上,英偉與AI可謂是緣分不淺,截至目前,英偉的GPU芯片正在為全球絕大多數的人工智能系統提供最基礎的
    的頭像 發表于 04-03 10:07 ?2011次閱讀

    英偉a100顯卡介紹

    英偉a100顯卡介紹 英偉A100顯卡是一款專為數據中心設計的顯卡,采用了全新的
    的頭像 發表于 08-07 17:59 ?8962次閱讀

    英偉A100的優勢分析

    英偉A100的優勢分析 在大模型訓練中,A100是非常強大的GPU。A100是英偉
    的頭像 發表于 08-08 15:25 ?3406次閱讀

    英偉A100的是多少?

    ,但 A100 的是前者的 20 倍。 A100是英偉推出的一款強大的數據中心GPU,采用全新的Ampere架構。它擁有高達6,912
    的頭像 發表于 08-08 15:28 ?3.8w次閱讀

    英偉全球首發超級AI芯片 訓練模型成本更低

    黃仁勛向數千名開發者和圖形專業人士發表講話,宣布更新 GH200 Grace Hopper 超級芯片、英偉 AI Workbench,并將把生成式 AI 引入英偉
    的頭像 發表于 08-09 14:42 ?1221次閱讀

    模型“狂歡”之下,之困何解?

    打造一個AI大模型究竟需要多少算?公開數據顯示,ChatGPT初始所需的就是1萬塊英偉A
    的頭像 發表于 08-23 16:09 ?813次閱讀

    英偉H200怎么樣

    英偉H200的非常強大。作為新一代AI芯片,H200在性能上有了顯著的提升,能夠處理復雜的AI任務和大數據分析。然而,具體的
    的頭像 發表于 03-07 16:15 ?2307次閱讀

    英偉靜候新品來臨,亞馬遜暫緩購買Grace Hopper

    今年3月,英偉發布了全新的Blackwell處理器,距離前任產品Hopper的發布不過短短一年。英偉首席執行官黃仁勛表示,新款產品在
    的頭像 發表于 05-22 09:07 ?343次閱讀

    亞馬遜AWS暫緩訂購英偉Grace Hopper,等待新品Grace Blackwel

    今年 3 月,英偉宣布了新款人工智能處理器Blackwell,比上一代Hopper提前不到一年面世。CEO黃仁勛表示,新產品在訓練大規模語言模型
    的頭像 發表于 05-22 12:03 ?691次閱讀

    軟銀升級人工智能計算平臺,安裝4000顆英偉Hopper GPU

    軟銀公司宣布,其正在擴展的日本頂級人工智能計算平臺已安裝了約4000顆英偉Hopper GPU。這一舉措顯著提升了平臺的計算能力。據悉,該平臺自2023年9月開始運行,最初配備了大約2000顆
    的頭像 發表于 11-04 16:18 ?492次閱讀
    金域百家乐娱乐城| 333娱乐城| 百家乐官网博娱乐网提款速度快不 | 德晋百家乐的玩法技巧和规则| 赤峰市| 永利高百家乐怎样开户| 博彩网58娱乐城| 网上百家乐骗人吗| 酒泉市| 杨氏百家乐官网必胜公式| 威尼斯人娱乐城 老品牌值得您信赖 | 宝马会娱乐城网址| 博E百百家乐官网现金网| 圣安娜百家乐包杀合作| 网上百家乐官网洗码技巧| 百家乐博彩的玩法技巧和规则| 宝马会百家乐官网现金网| 百家乐庄闲和赢率| 有百家乐官网的游戏平台| 威尼斯人娱乐城官网lm0| 百家乐官网娱乐真人娱乐| 大发888下载17| 百合百家乐官网的玩法技巧和规则 | 百家乐21点| 新葡京娱乐城官网| 百家乐大赢家书籍| 百家乐官网机器二手| 重庆百家乐的玩法技巧和规则| 盈彩娱乐| 手机百家乐官网游戏| 喀什市| 中国百家乐的玩法技巧和规则| 网上百家乐官网有人赢过吗| 大发888真钱游戏下载官网| 八运24山风水坟地图解| 百家乐官网怎么会赢| 全讯网ceo| 百家乐官网必赢| 连云港市| 百家乐透明发牌机| 马牌百家乐官网的玩法技巧和规则|