NVIDIA 帶來知乎精彩問答甄選系列,將為您精選知乎上有關(guān) NVIDIA 產(chǎn)品的精彩問答。
本期將為您帶來更多 NVIDIA 網(wǎng)絡(luò)平臺(tái)的介紹。
以下兩個(gè)知乎甄選問答將為您帶來更多關(guān)于 NVIDIA Spectrum-X800 平臺(tái)和 NVIDIA Quantum-X800 平臺(tái)的信息!
Q:NVIDIA Spectrum-X800 平臺(tái)是什么,能否詳細(xì)介紹一下?
A:
NVIDIA Spectrum-X800 平臺(tái)是業(yè)界第一代 800Gb/s 的以太網(wǎng)網(wǎng)絡(luò)平臺(tái),包括了 NVIDIA Spectrum SN5600 800Gb/s 以太網(wǎng)交換機(jī)和 NVIDIA BlueField-3 SuperNIC,為多租戶生成式 AI 云和大型企業(yè)級(jí)用戶提供了各種至關(guān)重要的先進(jìn)功能。其核心結(jié)構(gòu)是交換機(jī) + SuperNIC(超級(jí)網(wǎng)卡)+ LinkX + DOCA 軟件開發(fā)包 + NCCL 集合通信庫。
大模型的發(fā)展推動(dòng)了 AI 云的爆發(fā)性增長,由于資金、經(jīng)驗(yàn)、時(shí)間、能耗等因素的影響,很多 AI 用戶選擇通過云的方式解決算力問題。如何快速構(gòu)建 AI 云,在云上提供高性能的算力資源,保障多用戶上云和運(yùn)行業(yè)務(wù)的安全性,避免多用戶運(yùn)行多任務(wù)時(shí)的互相干擾導(dǎo)致業(yè)務(wù)性能降低,是當(dāng)前 AI 云提供商首要考慮的問題。NVIDIA Spectrum-X800 通過優(yōu)化網(wǎng)絡(luò)性能,加快 AI 工作負(fù)載的處理、分析和執(zhí)行速度,進(jìn)而縮短 AI 解決方案的開發(fā)、部署和上市時(shí)間。Spectrum-X800 專為多租戶環(huán)境打造,實(shí)現(xiàn)了每個(gè)租戶的 AI 工作負(fù)載的性能隔離,使業(yè)務(wù)性能能夠持續(xù)保持在最佳狀態(tài),提升客戶滿意度和服務(wù)質(zhì)量。
NVIDIA Spectrum-X800 平臺(tái)的出現(xiàn)是生成式 AI 云發(fā)展的必然趨勢,AI 云的出現(xiàn)徹底顛覆了數(shù)據(jù)中心對(duì)于網(wǎng)絡(luò)的需求。傳統(tǒng)的數(shù)據(jù)中心運(yùn)行的任務(wù)多,但是單任務(wù)的算力需求不大,任務(wù)的耦合性不強(qiáng),網(wǎng)絡(luò)的性能對(duì)于業(yè)務(wù)的影響不大。但是大模型的出現(xiàn),替代了大量的傳統(tǒng)任務(wù),All In AI 成為了很多云服務(wù)商和數(shù)據(jù)中心的追求目標(biāo),數(shù)據(jù)中心成為了運(yùn)行少量的 AI 任務(wù),但是每個(gè) AI 任務(wù)的計(jì)算量都相當(dāng)大,且每個(gè)計(jì)算單元之間的耦合性很強(qiáng),網(wǎng)絡(luò)決定了數(shù)據(jù)中心的性能。Spectrum-X800 平臺(tái)是基于 NCCL 的全面 RoCE 端到端優(yōu)化平臺(tái),涵蓋了對(duì)于 AI 訓(xùn)練至關(guān)重要的動(dòng)態(tài)路由(AR - Adaptive Routing)、可編程擁塞控制等技術(shù)和業(yè)務(wù)性能隔離技術(shù)等,可以充分發(fā)揮網(wǎng)絡(luò)的通信效率,擺脫了以太網(wǎng)難擴(kuò)展的桎梏,保障了云上任務(wù)的性能和安全性。
Q:大神們介紹下 NVIDIA Quantum-X800 平臺(tái)?
A:
NVIDIA Quantum-X800 平臺(tái)是業(yè)界第一代 800Gb/s 的端到端高性能網(wǎng)絡(luò)平臺(tái),包括了 NVIDIA Quantum Q3400 交換機(jī)和 NVIDIA ConnectX-8 SuperNIC,它的出現(xiàn),樹立了 AI 專用基礎(chǔ)設(shè)施極致性能的新標(biāo)桿。其核心結(jié)構(gòu)是:交換機(jī) + SuperNIC(超級(jí)網(wǎng)卡)+ PCIe 交換機(jī) + LinkX + 網(wǎng)絡(luò)計(jì)算引擎 + NCCL 集合通信庫。
大模型的發(fā)展推動(dòng)著算力的不斷提升,同時(shí)降低算力功耗的需求也已經(jīng)變得更為苛刻。如何在提升計(jì)算性能同時(shí),又能降低能源的消耗,更高性能的 GPU 和網(wǎng)絡(luò)是構(gòu)建新型 AI 基礎(chǔ)設(shè)施的關(guān)鍵。NVIDIA Quantum-X800 平臺(tái)是專為 NVIDIA Blackwell 架構(gòu)產(chǎn)品的 Scale Out 而量身打造,為超過萬億參數(shù)級(jí)的 GPU 計(jì)算和 AI 基礎(chǔ)設(shè)施進(jìn)行了全面的優(yōu)化,相比上一代計(jì)算平臺(tái)實(shí)現(xiàn)了性能的大幅提升,同時(shí)在同等算力的前提下又實(shí)現(xiàn)了功耗的大幅降低。
Quantum-X800 是 Quantum-2 平臺(tái)的下一代產(chǎn)品,在 Quantum-2 平臺(tái)的基礎(chǔ)之上,進(jìn)一步提升了端口的速度、交換機(jī)端口的密度、網(wǎng)絡(luò)計(jì)算的能力、以及在軟件上和業(yè)界流行的通信框架上進(jìn)行了更深層優(yōu)化,單交換機(jī)可支持 144 個(gè) 800GB/s 端口,實(shí)現(xiàn)了 FP8 的網(wǎng)絡(luò)計(jì)算,SuperNIC 內(nèi)置 PCIe6.0 交換機(jī),可直連 GPU 和 CPU,擺脫了 GPU 和網(wǎng)絡(luò)之間的通信需要依賴于 CPU 或者 PCIe 交換機(jī)總線帶寬的限制,大幅提升了 AI、數(shù)據(jù)處理和高性能計(jì)算的性能。
Quantum Q3400 平臺(tái)可以支持 14.4TFlops 的網(wǎng)絡(luò)計(jì)算能力(SHARPv4),是上一代交換機(jī)的 9 倍,可以卸載 GPU 和 CPU 的計(jì)算類集合通信;Connect-X800 SuperNIC 可以通過內(nèi)置 PCIe6.0 交換機(jī)直接與最新的 Blackwell 架構(gòu)產(chǎn)品互連,提供 800Gb/s 的單端口網(wǎng)絡(luò)通信帶寬,僅用兩層網(wǎng)絡(luò)交換就可以支持 10,368 卡的 800Gb/s/GPU 互連或者 13,824 卡的 400Gb/s/GPU 互連,三層網(wǎng)絡(luò)可以支持超過 70 萬張卡的 800Gb/s/GPU 互連。
NVIDIA Quantum-X800 平臺(tái)實(shí)現(xiàn)了單端口性能的加倍,交換容量的 5 倍提升,網(wǎng)絡(luò)計(jì)算能力的 9 倍提升,為大模型訓(xùn)練和生成式 AI 提供超強(qiáng)的性能。
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5460瀏覽量
172729 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5076瀏覽量
103720 -
網(wǎng)絡(luò)平臺(tái)
+關(guān)注
關(guān)注
0文章
19瀏覽量
8055
原文標(biāo)題:NVIDIA 知乎精彩問答甄選 | 探索 NVIDIA 網(wǎng)絡(luò)平臺(tái)
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論