吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

超融合數據中心網絡架構的典型特征與價值

架構師技術聯盟 ? 來源:全棧云技術架構 ? 作者:郭亮 ? 2022-12-19 10:53 ? 次閱讀

介紹了數據中心網絡對于算力的意義,歸納出影響數據中心全以太化演進的因素,以及超融合數據中心網絡架構的典型特征與價值。

結合業界在超融合數據中心網絡技術中的實踐與探索,對超融合數據中心網絡架構的未來發展進行了展望。數據中心內數據處理包括數據的存儲、計算和應用三個環節,分別對應三大資源區:

數據存儲區:存儲服務器內置不同的存儲介質,如機械硬盤、閃存盤(SSD)、藍光等,對于數據進行存儲、讀寫與備份,存儲節點間通過存儲網絡互聯。

高性能計算區:服務器較少虛擬化,配置CPUGPU 等計算單元進行高性能計算或 AI 訓練,服務器節點間通過高性能計算網絡互聯。

通用計算區:服務器大量使用 VM或容器等虛擬化技術,通過通用計算網絡(又稱為應用網絡、業務網絡、前端網絡),與外部用戶終端對接提供服務。

在這個持續循環的過程中,網絡就像聯接計算和存儲資源的中樞神經,貫穿數據處理的全生命周期。數據中心算力水平不僅取決于計算服務器和存儲服務器的性能,很大程度上也受到網絡性能的影響。如果網絡算力水平無法滿足要求,則會引發“木桶效應”拉低整個數據中心的實際算力水平。

7364b9ca-7ed6-11ed-8abf-dac502259ad0.png

數據中心算力是數據中心的服務器通過對數據進行處理后實現結果輸出的一種能力。在服務器主板上,數據傳輸的順序依次為 CPU、內存、硬盤和網卡,若針對圖形則需要 GPU。所以,從廣義上講,數據中心算力是一個包含計算、存儲、傳輸(網絡)等多個內涵的綜合概念,是衡量數據中心計算能力的一個綜合指標。

提升網絡性能可顯著改進數據中心算力能效比

定 義 數 據 中 心 算 效(CE,Computational Efficiency)為數據中心算力與所有 IT 設備功耗的比值,即“數據中心 IT 設備每瓦功耗所產生的算力”(單位:FLOPS/W):

737f62c0-7ed6-11ed-8abf-dac502259ad0.png

在服務器規模不變的情況下,提升網絡能力可顯著改善數據中心單位能耗下的算力水平。ODCC2019 年針對基于以太的網算一體交換機的測試數據表明,在 HPC場景同等服務器規模下,相對于傳統 RoCE(基于融合以太的遠程內存直接訪問協議)網絡,網算一體技術可大幅度降低HPC 的任務完成時間,平均降幅超過 20%。即:單位時間提供的算力提升 20%,同等算力下能耗成本降低 20%。

在存儲網絡場景,采用基于 NVMeover Fabric 的無損以太網絡,可實現同等服務器規模 下, 存 儲 IOPS性能相對于傳統 FC網絡最高可提升87%,這也將大幅減少業務端到端運行時長。由此可見,重構數據中心網絡可以實現在單位ICT 能耗下對算力的極大提升,更好滿足綠色節能數據中心的建設要求。在大算力需求持續高漲的情況下,為企業帶來更加直接的價值。

存儲全閃存化驅動 RoCE 產業生態發展

相比 HDD,SSD 介質在短時間內將存儲性能提升了近 100 倍,實現了跨越式的發展,而 FC 網絡技術無論是從帶寬或時延已成為存儲網絡場景的系統瓶頸,存儲業務開始呼喚更快、更高質量的網絡。為此,存儲與網絡從架構和協議層進行了深度重構,NVMeoverFabric 應運而生。

在新一代存儲網絡技術的選擇上,業界存在NVMeoverFC、NVMeoverRoCE等多條路徑。然而,FC 網絡始終無法突破三大挑戰:

第一、FC 網絡技術及互通性相對封閉,整體產業生態與連續性面臨著很大挑戰;

第二、由于產業規模受限,FC 技術的發展相對遲緩,目前最大帶寬只有 32G 且已長達 6 年沒有出現跨代式技術;

第三、同樣由于產業規模受限,FC 網絡運維人員稀缺,能夠運維 FC 網絡的技術人員不足以太網絡維護人員的 1/10。這造成 FC網絡運維成本居高不下,故障解決效率低下。

相比FC網絡,NVMeoverRoCE 技術無論從產業規模、技術活躍度、架構擴展性、開放生態、和多年 SDN(Software-DefinedNetwork,軟件定義網絡)管理運維能力積累上都具有明顯的優勢,已成為下一代存儲網絡技術的最優選擇。

CPU/GPU 去PCIe化,直出以太以獲取極致性能

隨著人工智能技術的快速發展,PCIe 總線瓶頸凸顯。PCIe 是英特爾在 2001 年提出的高速串行計算機擴展總線標準,接口速度決定了 CPU 間的通信速度,而接口數量則決定了主板的擴展性。

739e1fee-7ed6-11ed-8abf-dac502259ad0.png

當前,占據數據中心服務器 CPU 市場絕對地位的 Intelx86 架構普遍使用 PCIe3.0,PCIe3.0 單通道僅支持 8GT/s 的傳輸速率,且通道擴展數量有限。在 AI 超算服務器已經全面邁入 100GE 網卡的時代,PCIe3.0 架構速率成為大吞吐高性能計算場景下的性能瓶頸。

為此,業界開始探索計算單元去 PCIe 之路。2019 年,Habana 公司發布了在 AI 芯片處理器片內集成 RoCE 以太端口的處理器 Gaudi,Gaudi 將10 個基于融合以太網的 RoCE-RDMA100GE 端口集成到處理器芯片中,每個以太網端口均支持 RoCE功能,從而讓 AI 系統通過標準以太網,在速度和端口數方面獲得了幾乎無限的可擴展性,提供了過去的芯片無法實現的可擴展能力。同年,華為的達芬奇芯片昇騰 910 集成了 RoCE 接口,通過片內RoCE 實現節點間直接互聯,為構建橫向擴展(ScaleOut)和縱向擴展(ScaleUp)系統提供了靈活高效的方法。

IPv6 大規模部署,產業政策加速以太化進程

IPv6 即互聯網協議第6版,是互聯網工程任務組設計的用于替代 IPv4 的下一代 IP 協議。IPv6 不僅能解決網絡地址資源數量的問題,而且還解決了多種接入設備連入互聯網的障礙問題,具有更大的地址空間和更高的安全性。從人人互聯到萬物智聯,網絡對 IP 地址的需求量指數級增加;數據中心作為智能世界的算力中樞,IPv6 成為互聯的基礎訴求。

超融合數據中心網絡架構與核心特征

下一代超融合數據中心網絡需具備如下特征,實現三個層面的融合:

73e55b70-7ed6-11ed-8abf-dac502259ad0.png

? 全無損以太網絡,實現流量承載融合:通用計算、存儲、高性能計算網絡統一承載在 0 丟包以太網技術棧上,實現大規模組網協議統一,TCP、RoCE 數據混流運行,打破傳統分散架構限制;

? 全生命周期自動管理,實現管控析融合:基于統一網絡數字孿生底座,加以大數據及 AI 手段,實現規劃、建設、維護、優化全生命周期自動化,代替人工處理大量重復性、復雜性的操作,并可基于海量數據提升網絡預測和預防能力,打破多工具多平臺分散管理限制;

? 全場景服務化能力,實現全場景融合:抽象數據中心網絡“物理網絡服務”、“邏輯網絡服務”、“應用服務”、“互聯服務”、“網絡安全服務”、“分析服務”等核心服務能力,基于開放服務化架構實現多廠家、離線與在線數據的靈活接入。滿足多私有云、多公有云、混合云、以及豐富行業場景下的網絡統一編排需求,支持算力跨云靈活智能調度,打破區域與場景限制。

超融合數據中心網絡技術最佳實踐

基于全無損以太的超融合數據中心網絡技術正在迅猛發展,在存儲、高性能計算、通用計算等場景得到了較好地商業實踐。

在無損網絡方向,標準以太網絡雖然有 QoS 以及流量控制能力,但執行機制簡單粗暴,通常通過靜態水線控制。靜態水線無法適應千變萬化的存儲業務流量,設置過高可能引發丟包,設置過低則無法充分釋放存儲的 IOPS 性能。為了解決這個難題,業界將 AI 機制引入到交換機中,一方面交換機可毫秒級感知流量變化,另一方面基于海量存儲流量樣本持續訓練獲得的 AI 算法可通過智能動態調整隊列水線實現亞秒級流量精準控制,最大程度釋放存儲性能。

74291a54-7ed6-11ed-8abf-dac502259ad0.png

在可靠性方面,業界正在推動網絡與存儲在故障場景下的聯動標準化方案。通過交換機毫秒級主動通告故障,并聯動存儲協同倒換,可支持亞秒級的網絡故障倒換,真正實現網絡單點故障存儲業務無感知。

7440fb10-7ed6-11ed-8abf-dac502259ad0.png

在網絡易用性與運維方面,業界發布了以太網絡環境下的存儲即插即用最佳實踐,相比傳統以太逐節點、逐 ZONE 手工配置方式,可以做到業務單點配置、全網同步,實現存儲設備的即插即用。

746fd732-7ed6-11ed-8abf-dac502259ad0.png

由于傳統 FC 網絡當前主流商用端口帶寬只有8G,最大端口帶寬只有 32G,同城 100G 存儲傳輸往往需要 4~10 條以上的鏈路。相比之下,以太網絡 100G/400G 接口能力已經成熟商用,可以大幅減少同城鏈路資源。然而,在同城雙活及災備場景中,跨城傳輸時延增大,短距流控反壓機制存在嚴重的滯后性。以同城 70 公里傳輸場景為例,RTT(Round-TripTime)時延往往大于 1 毫秒,導致傳統流控機制徹底失效。網絡時延由四部分組成:

動態時延:主要由排隊時延產生,受端口擁塞影響;

靜態時延:主要包括網絡轉發(查表)時延和轉發接口時延,一般為固定值,當前以太交換靜態時延遠高于超算專網;

網絡跳數:指消息在網絡中所經歷的設備數;

入網次數:指消息進入網絡的次數。新一代無損以太網絡在動態時延、靜態時延、網絡跳數以及入網次數幾個方面均做出了系統性優化,大幅優化了網絡性能,可滿足高性能計算場景的實際訴求。

傳統的以太交換機在轉發層面,因需要考慮兼容性和眾多協議支持等問題,導致轉發流程復雜、轉發時延較大。與此同時,以太查表算法復雜、查表時延大,導致整體轉發處理時延長。目前業界主流商用以太交換機的靜態轉發時延大約在 600ns-1us 左右。

748fc3b2-7ed6-11ed-8abf-dac502259ad0.png

高性能計算場景的流量關注靜態時延的同時需要支持超大規模組網。然而傳統的 CLOS 架構作為主流網絡架構,主要關注通用性,犧牲了時延和性價比。業界針對該問題開展了多樣的架構研究和新拓撲的設計。

74bf3ed0-7ed6-11ed-8abf-dac502259ad0.png

當前數據中心網絡架構設計大多基于工程經驗,不同搭建方式之間難以選擇,缺乏理論指導和統一性設計語言。網絡拓撲性能指標繁多,不同指標之間相互制約,指標失衡很難避免。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10905

    瀏覽量

    213030
  • SSD
    SSD
    +關注

    關注

    21

    文章

    2889

    瀏覽量

    117863
  • 數據中心
    +關注

    關注

    16

    文章

    4860

    瀏覽量

    72383

原文標題:超融合數據中心網絡解決方案

文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    簡述數據中心網絡架構的演變

    隨著全球對人工智能(AI)的需求不斷增長,數據中心作為AI計算的重要基礎設施,其網絡架構與連接技術的發展變得尤為關鍵。
    的頭像 發表于 10-22 16:23 ?374次閱讀

    數據中心、智算中心中心,有何區別?

    數據中心、智算中心中心是當前計算機領域中比較重要的研究方向,三者雖然都屬于數據中心的范疇,但在服務領域、技術體系上存在顯著的區別。服
    的頭像 發表于 06-22 08:27 ?5677次閱讀
    云<b class='flag-5'>數據中心</b>、智算<b class='flag-5'>中心</b>、<b class='flag-5'>超</b>算<b class='flag-5'>中心</b>,有何區別?

    數據中心交換機購買指南

    由于數據中心網絡基礎設施變得更加分散,數據中心交換機正在成為一種新型交換機。與傳統的三層架構網絡的交換機不同,
    的頭像 發表于 06-11 16:37 ?634次閱讀

    華為聯合IEEE面向全球發布L4數據中心自動駕駛網絡白皮書

    在華為數據通信創新峰會2024期間,華為聯合IEEE面向全球發布L4數據中心自動駕駛網絡白皮書,全面闡述了數據中心網絡在AI大模型時代的應用
    的頭像 發表于 05-16 09:09 ?690次閱讀
    華為聯合IEEE面向全球發布L4<b class='flag-5'>數據中心</b>自動駕駛<b class='flag-5'>網絡</b>白皮書

    融合基礎架構的軟硬件設計思路

    簡單來說,融合基礎架構就是在業務節點上運行服務器虛擬化軟件和存儲虛擬化軟件,將所有的計算節點通過網絡聚合成一個統一的虛擬計算和虛擬存儲資源池,以資源池的形式提供
    的頭像 發表于 04-25 10:28 ?1938次閱讀
    <b class='flag-5'>超</b><b class='flag-5'>融合</b>基礎<b class='flag-5'>架構</b>的軟硬件設計思路

    訊維融合通信系統在金融數據中心建設的實踐探索

    訊維融合通信系統在金融數據中心建設的實踐探索中,展現出了其獨特的技術優勢和應用價值。以下是對這一實踐探索的詳細分析: 首先,金融數據中心作為金融機構的核心信息樞紐,對通信系統的可靠性、
    的頭像 發表于 04-18 15:41 ?377次閱讀

    融合架構解決方案

    隨著信息技術的發展,企業對數據中心的依賴日益增強,對存儲、計算和網絡資源的需求也在不斷增長。融合架構作為一種新興的IT基礎設施解決方案,正
    的頭像 發表于 04-10 14:57 ?716次閱讀

    #mpo極性 #數據中心mpo

    數據中心MPO
    jf_51241005
    發布于 :2024年04月07日 10:05:13

    #mpo光纖跳線 #數據中心光纖跳線

    光纖數據中心
    jf_51241005
    發布于 :2024年03月22日 10:18:31

    傳統數據中心架構和葉脊架構網絡解決方案

    網絡帶寬- 特別是滿足東西向流量的要求(數據中心中大部分流量是東西向的)。 注意:東西向流量表示數據中心內的服務器/應用之間的流量,而南北向流量表示出入數據中心的流量。
    發表于 03-21 10:52 ?1269次閱讀
    傳統<b class='flag-5'>數據中心</b><b class='flag-5'>架構</b>和葉脊<b class='flag-5'>架構</b><b class='flag-5'>網絡</b>解決方案

    CloudFabric3.0融合數據中心網絡全新升級,攜手共筑算力新聯接

    在華為中國合作伙伴大會2024期間,華為舉辦了以“融合數據中心網絡,攜手共筑算力新聯接”為主題的數據中心網絡分論壇。
    的頭像 發表于 03-19 09:18 ?949次閱讀

    介紹一種高性能計算和數據中心網絡架構:InfiniBand(IB)

    InfiniBand(IB)是一種高性能計算和數據中心網絡架構,其設計目標是通過提供低延遲、高帶寬以及可擴展性來滿足大規模計算和數據傳輸的需求。讓我們深入了解InfiniBand的基本
    的頭像 發表于 03-13 17:14 ?1737次閱讀

    #MPO預端接 #數據中心機房 #機房布線

    數據中心MPO
    jf_51241005
    發布于 :2024年03月01日 11:12:47

    數據中心網絡架構:萬兆電口模塊的重要作用

    數據中心網絡架構中,萬兆電口模塊作為一種高速、高效的網絡連接解決方案,具有重要作用。它采用RJ45接口,傳輸速度可達10Gbps,可提供高速的數據
    的頭像 發表于 02-26 16:30 ?678次閱讀

    #永久鏈路 #信道測試 #數據中心

    數據中心
    jf_51241005
    發布于 :2024年02月23日 10:17:58
    龍城百家乐官网的玩法技巧和规则| 真人百家乐娱乐场开户注册| kk娱乐城开户| 猪猪网百家乐官网软件| 百家乐真人斗地主| 长武县| 莱西市| 24山双山五行的用法| 德州扑克视频| 巴特百家乐官网的玩法技巧和规则 | JJ百家乐官网的玩法技巧和规则 | 娱乐城注册送38彩金| 大哥大百家乐官网的玩法技巧和规则 | 百家乐官网庄家提成| 百家乐21点| 澳门赌博| 现场百家乐电话投注| 在线棋牌游戏| 百家乐合法| 百家乐官网公式球打法| 网上百家乐导航| 新澳博百家乐官网现金网| 奇迹百家乐的玩法技巧和规则| 百家乐官网EA平台| 郑州太阳城宾馆| 大杀器百家乐官网学院| 德州扑克高级教程| 百家乐游戏奥秘| 百家乐官网娱乐网站| 百家乐怎么玩会| 百家乐官网街机| 大发888官方6222.| 百家乐龙虎规则| 锡林浩特市| 百家乐凯时娱乐平台| 百家乐官网代理荐| 香港六合彩开奖号码| 百家乐高人玩法| 百家乐官网智能分析软| 全讯网.com| 百家乐假在哪里|