超級計算機是一項重要的投資,對于研究人員和科學(xué)家來說,它們是必不可少的寶貴工具。為了有效和安全地共享這些數(shù)據(jù)中心的計算能力, NVIDIA 引入了云原生超級計算架構(gòu)。它結(jié)合了裸機性能、多租戶和性能隔離統(tǒng)一為超級計算服務(wù)。
Magnum IO 是數(shù)據(jù)中心的 I / O 子系統(tǒng),它引入了新的增強功能,以加速多租戶數(shù)據(jù)中心的 I / O 和通信。我們將這些增強功能稱為 Magnum IO ,用于云原生超級計算架構(gòu)。
它由 NVIDIA Quantum-2 InfiniBand 平臺提供,該平臺包括 NVIDIA Quantum-2 交換機系列、BlueField-3 DPU 和 ConnectX-7 網(wǎng)卡。
這種進化環(huán)境的挑戰(zhàn)是什么?
基于 GPU 的高性能計算已經(jīng)通過機器學(xué)習(xí)和模擬計算大幅改變了科學(xué)和實驗。在GPU 上運行的這些深度學(xué)習(xí)框架和模擬工具可能會消耗 PB 級的數(shù)據(jù),并在整個數(shù)據(jù)中心內(nèi)造成擁塞和瓶頸。更復(fù)雜的是,這些應(yīng)用程序的多個實例在共享的超級計算設(shè)施上常常同時運行并互相影響,因而造成運行性能的抖動,從而導(dǎo)致無法預(yù)測的運行時間。
面向云原生超級計算體系結(jié)構(gòu)設(shè)計的 Magnum IO 帶來新的增強功能,以減輕最終用戶在多租戶環(huán)境中運行應(yīng)用帶來的性能負面影響。它提供確定性的性能,就好像它們的應(yīng)用程序是獨占網(wǎng)絡(luò)運行。
第三代 NVIDIA SHARP
(可擴展分層聚合和規(guī)約協(xié)議)
通過將集合操作從主機 CPU 卸載到交換機網(wǎng)絡(luò),SHARP 技術(shù)有效消除了端點之間多次發(fā)送數(shù)據(jù)的需求,從而提高了 MPI 操作的性能。這種方法大幅減少了到達聚合節(jié)點的網(wǎng)絡(luò)流量,并顯著減少了 MPI 操作時間。
在網(wǎng)絡(luò)中實現(xiàn)集合通信算法還有其他好處,例如釋放寶貴的 CPU 資源用于計算,而不是使用它們來處理通信。
最近發(fā)布的 NVIDIA Quantum-2 InfiniBand 交換機為大型數(shù)據(jù)聚合提供了強大的可擴展性。由于每個交換機支持幾乎無限的小消息聚合和多個大消息聚合流,在共享系統(tǒng)上運行多租戶應(yīng)用程序可以充分利用 SHARP 的優(yōu)勢。
性能隔離
多租戶超級計算實現(xiàn)在共享資源上運行很多用戶的應(yīng)用程序,可能造成物理服務(wù)器、存儲、網(wǎng)絡(luò)以及I / O流量模型的復(fù)用 。
NVIDIA Quantum InfiniBand 一直以來支持擁塞控制管理,當檢測到網(wǎng)絡(luò)擁塞時在源端實施控制以緩解擁塞。但在多租戶場景,用戶應(yīng)用可能無意識地與相鄰用戶流量產(chǎn)生干擾,因此需要隔離以提供可預(yù)期的性能級別。
借助最新的 NVIDIA Quantum-2 InfiniBand 平臺和 Magnum IO ,創(chuàng)新的主動監(jiān)控和擁塞管理提供了良好的流量隔離。這幾乎完全消除了性能抖動,并確保了預(yù)期的性能,就像應(yīng)用程序運行在專用系統(tǒng)上一樣。
專為安全、多租戶、裸機性能而打造
NVIDIA Cloud-Native Supercomputing 體系結(jié)構(gòu)使用 Magnum IO 在多租戶環(huán)境中實現(xiàn)最高的性能、安全性和編排。
此外,實現(xiàn)這種架構(gòu)轉(zhuǎn)換的另一個核心元素是數(shù)據(jù)處理器( DPU ),也即 BlueField 。作為一個完全集成的片上數(shù)據(jù)中心平臺, BlueField 從主機處理器卸載和管理數(shù)據(jù)中心基礎(chǔ)設(shè)施,實現(xiàn)超級計算機的安全和編排。
它還能夠提供額外的通信框架卸載,可達到 100% 的通信計算重疊,實現(xiàn) MPI _ Alltoall 44% 的性能提升和 MPI _ iAllgather 36% 的性能提升。當結(jié)合最新的 NVIDIA Quantum-2 平臺時,該體系結(jié)構(gòu)在安全的多節(jié)點體系結(jié)構(gòu)中展示性能隔離實現(xiàn)裸金屬性能。
Magnum IO 消除了 I / O 瓶頸,拓展了硬件級加速引擎、網(wǎng)絡(luò)計算和擁塞控制等最新技術(shù),成為支持當今高性能裸金屬多租戶數(shù)據(jù)中心的必備利器。
責(zé)任編輯:haq
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5076瀏覽量
103728 -
云計算
+關(guān)注
關(guān)注
39文章
7851瀏覽量
137874 -
人工智能
+關(guān)注
關(guān)注
1796文章
47683瀏覽量
240301
原文標題:使用 Magnum IO 加速云原生超級計算
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
云原生AI服務(wù)怎么樣
聯(lián)發(fā)科與NVIDIA合作 為NVIDIA 個人AI超級計算機設(shè)計NVIDIA GB10超級芯片
云原生LLMOps平臺作用
如何選擇云原生機器學(xué)習(xí)平臺
什么是云原生MLOps平臺
k8s微服務(wù)架構(gòu)就是云原生嗎?兩者是什么關(guān)系
NVIDIA助力丹麥發(fā)布首臺AI超級計算機
云原生和非云原生哪個好?六大區(qū)別詳細對比
基于Arm架構(gòu)的Azure虛擬機助力云原生應(yīng)用開發(fā)
京東云原生安全產(chǎn)品重磅發(fā)布

從積木式到裝配式云原生安全

基于DPU與SmartNic的云原生SDN解決方案

進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片
NVIDIA 推出 Blackwell 架構(gòu) DGX SuperPOD,適用于萬億參數(shù)級的生成式 AI 超級計算

評論