吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AWS HPC為什么不用Infiniband?有何原因?

SDNLAB ? 來源:zartbot ? 2024-04-16 16:59 ? 次閱讀

HPC的低延遲需求來自于很多應用都會通過網格刨分來進行并行運算,然后網格間有復雜而頻繁的通信數據交互,Brain將其稱為“Ghost Cell Exchange”。

dde3bfa6-fbcd-11ee-a297-92fbcf53809c.png

因此很多HPC系統將單個報文的延遲(Single packet latency)放在第一位,這也是Infiniband/RoCEv1/RoCEv2非常在意報文大小和HPE Cray構建HPC Ethernet的原因。

在AWS EFA的實踐來看,單個報文的延遲并不是問題,而更重要的是網絡中的擁塞沖突帶來的長尾延遲。通過SRD來解決了幾個問題:

多路徑降低擁塞沖突概率

多路徑解決鏈路失效等問題

MPI的很多操作不需要Reliable Connection的通信語義嚴格保序

解決QP數量多的爆炸問題

關于不兼容RC語義的原因:從Brain的履歷也能大概看出來,由于Brain大量的OpenMPI的開發經歷,所以在構建SRD時選擇了不和標準的RC語義兼容,這也給后續的生態帶來了一些問題。

1. 不使用Infiniband的原因

訪談中Brain介紹了一些原因: "云數據中心很多時候是要滿足資源調度和共享等一系列彈性部署的需求,專用的Infiniband網絡構建的集群如同在汪洋大海中的孤島" 并且國外HPC需求較國內高的原因在訪談中也介紹了:國外并沒有太多的線下機房,通常一些HPC任務需要在一些超算集群排隊數周,如果有一個性能差不多的云上環境,對客戶而言很有吸引力。

2. 應用性能

從應用性能來看,Brain的觀點是單個報文的延遲(Single packet latency)并沒有那么的重要,更重要的是實現長尾延遲的避免,例如Star-CCM+的測試報告《EFA-enabled C5n instances to scale Simcenter STAR-CCM+》[2],在3000核時加速比都還非常好。

de073062-fbcd-11ee-a297-92fbcf53809c.png

ANSYS Fluent性能也非常好。

de2187a0-fbcd-11ee-a297-92fbcf53809c.png

訪談中Brain還提到高性能存儲是影響HPC應用的另一個關鍵因素,因此構建了FSx for Lustre的支持。

df001d58-fbcd-11ee-a297-92fbcf53809c.png

3. 一些缺點和爭議

AWS通過Reliable Datagram實現了多路徑的支持能力,但是似乎國內很多人把這個事情搞混了,雖然傳輸語義上實現了可交換,但是基于Reliable Connection語義Verbs兼容的情況下依舊可以實現多路徑的處理,而且這個技術在2002年IETF提出iWARP時構建的Direct Data Placement(DDP)就已經討論的很清楚了。

df189c2a-fbcd-11ee-a297-92fbcf53809c.png

另外在HPC這個領域,特別是在國內部門間的通信壁壘非常高,很多從業者材料/物理/機械這些專業畢業的,對于HPC軟件和相應的求解器只會使用,而IT等部門通常也只是使用商用軟件測試招標,相應的算法和通信等優化的團隊較少,并且企業通常因為軟件授權價格等問題停留在較老的軟件版本上。針對這些商用軟件生態兼容使得RD這樣的語義帶來了很多負擔。



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • HPC
    HPC
    +關注

    關注

    0

    文章

    317

    瀏覽量

    23810
  • SRD
    SRD
    +關注

    關注

    0

    文章

    18

    瀏覽量

    12706
  • 數據交互
    +關注

    關注

    0

    文章

    30

    瀏覽量

    10510
  • AWS
    AWS
    +關注

    關注

    0

    文章

    432

    瀏覽量

    24397

原文標題:AWS HPC 為什么不用 Infiniband ?

文章出處:【微信號:SDNLAB,微信公眾號:SDNLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    InfiniBand 連接現在和未來

    InfiniBand 連接現在和未來InfiniBand是致力于服務器端的高性能互聯技術,它的使命是:使處理器級的帶寬,從處理器到系統I/O、到存儲網絡,穿越整個數據中心,形成一張統一的、包括服務器
    發表于 11-13 21:57

    InfiniBand系統級調試

    This application note is written for R & D engineers developing InfiniBand processors
    發表于 09-10 09:18

    何原因導致的STM32的重啟

    可以定位是硬件問題了,但是我左看右看也看不出硬件哪里出了問題;本來想放棄,想想這個問題不搞明白,后患無窮;采用的是仿真的手段,看看是何原因導致的重啟:程序中加入對RCC_CSR寄存器清零的代碼,以便在程序...
    發表于 08-02 08:54

    何原因導致的STM32程序仿真重啟

    何原因導致的STM32程序仿真重啟?怎樣去解決這個問題?
    發表于 09-24 06:27

    為什么我不能下載spc5studio呢?是何原因

    為什么我不能下載spc5studio?是何原因
    發表于 01-17 06:18

    proteus中cpu負載過大無法仿真是何原因?怎么解決?

    proteus中cpu負載過大無法仿真是何原因?怎么解決?
    發表于 04-23 16:40

    modbus通訊延遲回復導致讀取錯位是何原因

    modbus通訊延遲回復導致讀取錯位是何原因
    發表于 05-05 16:09

    InfiniBand,InfiniBand是什么意思

    InfiniBand,InfiniBand是什么意思 InfiniBand架構是一種支持多并發鏈接的“轉換線纜”技術,在這種技術中,每種鏈接都可以達到2.5 Gbps的運
    發表于 04-10 11:34 ?1130次閱讀

    實現InfiniBand網絡優化自動化HPC管理工具

    實現InfiniBand網絡優化自動化HPC管理工具 憑借對通信網絡獨特和系統深入的認知,QLogic Corp.(Nasdaq: QLGC)新推出的InfiniBand® Fabric Suite (IFS) 6.0
    發表于 05-24 11:09 ?838次閱讀

    何原因造成芯片產業爛尾潮?

    在短短一年多時間里,分布于我國江蘇、四川、湖北、貴州、陜西等5省的6個百億級半導體大項目先后停擺。業界擔憂,造芯熱引發爛尾潮,造成國有資產損失,延誤芯片產業發展大好機遇。那么問題來了,是何原因造成上述爛尾潮?中國芯崛起之路又當如何前行?
    的頭像 發表于 11-03 09:12 ?1.3w次閱讀

    半橋諧振LLC效率偏低是何原因?資料下載

    電子發燒友網為你提供半橋諧振LLC效率偏低是何原因?資料下載的電子資料下載,更有其他相關的電路圖、源代碼、課件教程、中文資料、英文資料、參考設計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發表于 04-05 08:45 ?22次下載
    半橋諧振LLC效率偏低是<b class='flag-5'>何原因</b>?資料下載

    基于NVIDIA QM8700/8790交換機與HDR網卡的InfiniBand高性能網絡解決方案

    InfiniBand (IB) 是一個計算機網絡通信標準,在高性能計算(HPC)領域廣泛的應用,可以提供高吞吐帶寬和超低的網絡傳輸時延。
    的頭像 發表于 11-03 17:57 ?3847次閱讀
    基于NVIDIA QM8700/8790交換機與HDR網卡的<b class='flag-5'>InfiniBand</b>高性能網絡解決方案

    關于InfiniBand網絡相關內容簡介!

    的互連。 ? InfiniBand最重要的一個特點就是高帶寬、低延遲,因此在高性能計算項目中廣泛的應用。 主要用于高性能計算(HPC)、高性能集群應用服務器和高性能存儲。 ? InfiniBand
    的頭像 發表于 03-21 10:07 ?1331次閱讀
    關于<b class='flag-5'>InfiniBand</b>網絡相關內容簡介!

    一文詳解超算中的InfiniBand網絡、HDR與IB

    InfiniBand技術被認為是面向未來的高性能計算(HPC)標準,在超級計算機、存儲甚至LAN網絡的HPC連接方面享有很高的聲譽。
    的頭像 發表于 04-16 10:18 ?6893次閱讀
    一文詳解超算中的<b class='flag-5'>InfiniBand</b>網絡、HDR與IB

    InfiniBand網絡內計算的關鍵技術和應用

    InfiniBand在高性能計算(HPC)和人工智能(AI)應用中發揮著關鍵作用,體現在它提供了高速、低延遲的網絡通信能力,以支持大規模數據傳輸和復雜計算任務。而InfiniBand的重要性還延伸至
    的頭像 發表于 10-23 11:33 ?395次閱讀
    太阳城丝巾| 大发888赢钱技巧| 百家乐官网三跳| 大发888官方网站| 波音百家乐现金网| 赌博百家乐官网技巧| 德州扑克保险赔率| 永利百家乐娱乐平台| 2024九紫离火| 百家乐官网游戏客户端| 沈丘县| 大发888娱乐场开户注册| 百家乐谁能看准牌| 百家乐筹码订做| 线上百家乐官网攻略| 来博百家乐官网游戏| 德州扑克加注规则| 百家乐那里可以玩| 波音百家乐网上娱乐| 恒丰百家乐官网的玩法技巧和规则 | 大发888支付宝代充| 百利宫百家乐的玩法技巧和规则 | 百家乐官网赌场老千| 線上投注| 456棋牌游戏| 大发888真钱下载| 博狗百家乐的玩法技巧和规则| 百家乐只打闲打法| 百家乐三宝| 百家乐龙虎斗等| 澳门百家乐一把决战输赢| 澳门百家乐官网网上赌博| 至尊百家乐官网娱乐场| 百家乐官网塑料扑克牌盒| 棋牌百家乐官网赢钱经验技巧评测网| 互助| 百家乐官网论坛百科| 百家乐官网怎打能赢| 百家乐官网庄闲的概率| 香港六合彩全年资料| 百家乐论坛|