吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

打通AI芯片到大模型訓練的算力橋梁,開放加速設計指南強力助推

全球TMT ? 來源: 全球TMT ? 作者: 全球TMT ? 2023-10-17 16:51 ? 次閱讀

北京2023年10月17日/美通社/ -- 日前,2023全球AI芯片峰會(GACS 2023)在深圳市舉行,AI芯片產業鏈頂尖企業、專家學者齊聚,圍繞生成式AI與大模型算力需求、AI芯片高效落地等產業議題進行研討分享。

面向大模型時代的計算需求,算力創新已不僅是單個處理器微架構和芯片工藝的突破,而需要產業攜手進行軟硬件全棧系統架構全面創新。當前各類AI芯片創新仍面臨存儲墻、功耗墻等架構痼疾,隨著開放的通用指令架構、互聯總線、AI加速器、開源的操作系統、模型框架、工具鏈和軟件紛紛涌現,開放開源的算力系統創新,已經成為實現AI芯片轉化為高效算力的二級引擎。

會上,浪潮信息分享了在開放加速計算系統領域的最新成果《開放加速規范AI服務器設計指南》,通過系統平臺層面的技術創新,攜手產業上下游加速生成式AI算力產業發展。

wKgZomUuSyuAedvQAAB8OWRGPj8210.jpg


大模型推動算力產業步入系統級創新時代

隨著制程工藝逼近天花板,AI芯片正迎來架構創新的黃金時代,諸多創新者正通過越來越廣泛的創新思路來繞過摩爾定律瀕臨極限的瓶頸,圍繞架構創新,AI芯片產業正從早期的百花齊放,向更深更多維層面發展。

與此同時,參數量高達數千億的大模型創新往往需要在成百上千的AI服務器組成的平臺上進行訓練。面向AIGC的算力能力考量的不僅僅是單一芯片、或者是單一服務器,而是包含計算、存儲、網絡設備,軟件、框架、模型組件,機柜、制冷、供電基礎設施等在內的一體化高度集成的智算集群。

因此,要將AI芯片真正轉化為大模型算力,需要產業鏈上下游攜手從規?;懔Σ渴鸬慕嵌冗M行系統級創新,統籌考慮大模型訓練需求特點,設計構建算力系統,以實現全局最優的性能、能效或TCO指標。

開放加速設計指南,打通從芯片到大模型的算力橋梁

2019年,開放計算組織OCP面向大模型訓練發布了開放加速計算(OAI)技術標準,旨在促進上下游協同,降低產業創新成本和周期。開放加速計算(OAI)系統架構具備更高的散熱和互聯能力,可以承載具有更高算力的芯片,同時具備非常強的跨節點擴展能力。因為天然適用于大規模深度學習神經網絡,已經在全球范圍內得到芯片、系統及應用廠商的廣泛參與支持。

大模型訓練對開放加速計算系統的總功耗、總線速率、電流密度的需求不斷提升,給系統設計帶來了巨大的挑戰。因此,浪潮信息基于系統研發和大模型工程實踐經驗,將從AI芯片到大模型算力系統所需完成的體系結構、信號完整性、散熱、可靠性、架構設計等大量系統性設計標準進行細化總結,發布了面向生成式AI場景的《開放加速規范AI服務器指南》(以下簡稱《指南》),提出四大設計原則、全棧設計方法,包括硬件設計參考、管理接口規范和性能測試標準。

wKgaomUuSyuADkWWAACq9tyIEYc269.jpg


《開放加速規范AI服務器指南》全棧設計方法

《開放加速規范AI服務器指南》統籌考慮大模型分布式訓練對于計算、網絡和存儲的需求特點,提供了從節點層到集群層的AI芯片應用部署全棧設計參考。包括各項硬件規范、電氣規范、時序規范,并提供管理、故障診斷和網絡拓撲設計等軟硬協同參考,旨在通過節點層/集群層多維協同設計確保AI服務器節點和服務器集群以超大規模集群互連的大模型訓練能力。

wKgZomUuSyyAVh8cAACHyJ1iTGg863.jpg


基于板端QSFP-DD的跨節點互連拓撲

由于架構復雜度高、芯片種類多、高速信號多、系統功耗大等特點,異構加速計算節點常面臨故障率高的問題。因此,《指南》提供了詳細的系統測試指導,對結構、散熱、壓力、穩定性、軟件兼容性等方面的測試要點進行了全面梳理,幫助用戶最大程度降低系統生產、部署、運行過程中的故障風險,提高系統穩定性,減少斷點對訓練持續性的影響。

wKgaomUuSyyAC7xZAAB-mfj5Y7o590.jpg


OAM互連信號損耗要求

不同于通用計算系統,面向生成式AI的加速計算系統具有軟硬件強耦合特性。為了提高開放加速計算系統的算力可用性,《指南》給出了八類AI主流業務和三類AIGC大模型基準測評和調優方法,以確保開放加速計算系統能夠有效支撐當前主流大模型的創新應用。

AI芯片廠商可以基于《指南》快速將符合開放加速規范的AI芯片落地成高可用高可靠高性能的大模型算力系統,提高系統適配和集群部署效率,減少芯片合作伙伴在系統層面的研發成本投入,加速生成式AI算力產業的創新步伐。

全棧協同,高效釋放大模型創新生產力

目前,浪潮信息已經基于開放加速規范發布了三代AI服務器產品,和10余家芯片伙伴實現了多元AI計算產品的創新研發。多元算力產品方案得到了眾多用戶的認可,已經在多個智算中心應用落地,成功支持GPT-2、源1.0及實驗室自研蛋白質結構預測等多個超大規模巨量模型的高效訓練。

同時,為進一步解決大模型算力的系統全棧問題、兼容適配問題、性能優化問題等,浪潮信息基于大模型自身實踐與服務客戶的專業經驗,推出OGAI大模型智算軟件棧,能夠為大模型業務提供AI算力系統環境部署、算力調度及開發管理的完整軟件棧和工具鏈,幫助更多企業順利跨越大模型研發應用門檻,充分釋放大模型算力價值。

作為全球領先的AI算力基礎設施供應商,浪潮信息將通過智算系統軟硬件高度協同進行持續創新,攜手產業伙伴加速AI算力繁榮發展并充分釋放算力生產力,推動實現"助百模,智千行",加速生成式AI產業創新。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51192

    瀏覽量

    427336
  • 半導體
    +關注

    關注

    334

    文章

    27719

    瀏覽量

    222701
  • AI
    AI
    +關注

    關注

    87

    文章

    31536

    瀏覽量

    270358
  • 算力
    +關注

    關注

    1

    文章

    1016

    瀏覽量

    14960
  • 大模型
    +關注

    關注

    2

    文章

    2551

    瀏覽量

    3174
收藏 人收藏

    評論

    相關推薦

    科技云報到:要更要“利”,“精裝”觸發大模型產業新變局?

    科技云報到:要更要“利”,“精裝”觸發大模型產業新變局?
    的頭像 發表于 01-16 10:24 ?114次閱讀

    GPU是如何訓練AI模型

    AI模型訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何
    的頭像 發表于 12-19 17:54 ?246次閱讀

    芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎AI加速器的蛻變

    在數據挖掘工作中,我經常需要處理海量數據的深度學習任務,這讓我對GPU架構和張量運算充滿好奇。閱讀《芯片》第7-9章,讓我對這些關鍵技術有了全新認識。 GPU架構從早期的固定功能流水線,
    發表于 11-24 17:12

    企業AI租賃是什么

    企業AI租賃是指企業通過互聯網向專業的提供商租用所需的計算資源,以滿足其AI應用的需求。
    的頭像 發表于 11-14 09:30 ?1158次閱讀

    AI時代的重要性及現狀:平衡發展與優化配置的挑戰

    AI時代,扮演著至關重要的角色。如果說數據是AI模型的“燃料”,那么
    的頭像 發表于 11-04 11:45 ?592次閱讀

    億鑄科技熊大鵬探討AI芯片的挑戰與解決策略

    在SEMiBAY2024《HBM與存儲器技術與應用論壇》上,億鑄科技的創始人、董事長兼CEO熊大鵬博士發表了題為《超越極限:大芯片的技術挑戰與解決之道》的演講,深入剖析了AI
    的頭像 發表于 10-25 11:52 ?502次閱讀

    如何訓練自己的AI模型

    訓練自己的AI模型是一個復雜且耗時的過程,涉及多個關鍵步驟。以下是一個詳細的訓練流程: 一、明確需求和目標 首先,需要明確自己的需求和目標。不同的任務和應用領域需要不同類型的
    的頭像 發表于 10-23 15:07 ?2956次閱讀

    【「芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】--全書概覽

    1章 從TOP500和MLPerf看芯片格局 1.1科學最前沿TOP500 1.2 AI
    發表于 10-15 22:08

    【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受

    國慶前就收到《大模型時代的基礎架構》一書,感謝電子發燒友論壇。歡度國慶之余,今天才靜下心來體驗此書,書不厚,200余頁,彩色圖例,印刷精美! 當初申請此書,主要是看到副標題“大模型
    發表于 10-08 10:40

    名單公布!【書籍評測活動NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架構分析

    ,在全球范圍內,對于推動科技進步、經濟發展及社會整體的運作具有至關重要的作用。隨著信息技術的高速發展,高性能計算(HPC)和人工智能(AI)等技術在多個領域的應用變得日益廣泛,芯片
    發表于 09-02 10:09

    模型時代的需求

    現在AI已進入大模型時代,各企業都爭相部署大模型,但如何保證大模型,以及相關的穩定性和性能
    發表于 08-20 09:04

    名單公布!【書籍評測活動NO.41】大模型時代的基礎架構:大模型中心建設指南

    工作日內未聯系,視為放棄本次試用評測資格! 書籍介紹 大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎,是針對其需求設計的及基礎架構。本書針對如何為大
    發表于 08-16 18:33

    萬卡集群解決大模型需求,建設面臨哪些挑戰

    ? 電子發燒友網報道(文/李彎彎)萬卡集群是指由一萬張及以上的加速卡(包括GPU、TPU及其他專用AI加速芯片)組成的高性能計算系統,主要用于加速
    的頭像 發表于 06-02 06:18 ?4897次閱讀
    萬卡集群解決大<b class='flag-5'>模型</b>訓<b class='flag-5'>算</b><b class='flag-5'>力</b>需求,建設面臨哪些挑戰

    數據語料庫、算法框架和芯片AI模型中的作用和影響

    數據語料庫、算法框架和芯片的確是影響AI模型發展的三大重要因素。
    的頭像 發表于 03-01 09:42 ?1303次閱讀
    百家乐从哪而来| 博联百家乐游戏| 豪华百家乐桌子| 大发888真钱游戏平台| 棋牌赌博| 线上百家乐官网技巧| 澳门百家乐官网官方网站破解百家乐官网技巧 | 狮威百家乐娱乐场| 老K| 澳门百家乐官网必赢技巧| 百家乐澳门色子| 百家乐六合彩3535| 大发888容易赢吗| 百家乐官网斗视频游戏| 财富百家乐官网的玩法技巧和规则| 真人百家乐免费送钱| 澳门百家乐论坛| 至尊百家乐官网奇热| 娱乐城百家乐可以代理吗 | 肇州县| 百家乐龙虎规则| 大发888棋牌| 百家乐官网真人游戏娱乐网| 百家乐侧牌器| 网上百家乐官网网址| 澳门百家乐上下限| 海王星百家乐技巧| 百家乐官网技术秘籍| 爱赢百家乐现金网| bet365娱乐城注册| 龍城百家乐官网的玩法技巧和规则| 威尼斯人娱乐场xpjgw5xsjgw| 百家乐官网15人桌子| 怎么玩百家乐呀| 3U百家乐官网娱乐城| 网络百家乐赌博视频| 丁青县| 百家乐平注法口诀| 上林县| 百家乐官网定位胆技巧| 德州扑克 在线|