在GTC 2024期間,英偉達宣布了最新的Blackwell B200張量核心GPU,旨在為萬億參數的AI大型語言模型提供支持。Blackwell B200需要先進的800Gbps網絡,完全符合在AI工作負載的AI網絡報告中概述的預測。隨著人工智能工作負載的流量預計每兩年增長10倍,這些人工智能工作負載預計將超過傳統前端網絡至少兩個速度升級周期。
雖然在OFC上討論了許多關于跨數據中心應用的主題和創新解決方案,以及在同一領域內擴展加速器數量的計算互連,但本篇文章將主要關注數據中心內的應用。具體來說,它將專注于擴展連接大型人工智能集群中各種加速節點所需的網絡,并使用1000個加速器。這個網絡在業界通常被稱為“人工智能后端網絡”(還提到;由一些供應商提供;作為東西向流量的網絡)。以下是展會上探討的一些主題和解決方案:
1)線性驅動可插拔光學vs線性接收光學vs共封裝光學
可插拔光學器件預計將在系統級的功耗中占越來越大的比例。隨著云服務提供商構建以高速光學擴散為特征的下一代人工智能網絡,這個問題將進一步放大。
在OFC 2023上,線性驅動可插拔光學(LPOs)的引入通過去除DSP來實現顯著的成本和功耗節約,引發了一系列的測試活動。快進到OFC 2024,我們見證了近20場演示。活動期間的對話顯示了全行業對集成到最新51.2Tbps網絡交換芯片中的高質量100G SerDes的熱情,許多人渴望利用這一進步,能夠從光可插拔模塊中去除DSP。
然而,盡管令人興奮,但超大規模企業的猶豫表明,LPOs可能還沒有做好大規模采用的準備。采訪強調,超大規模企業不愿承擔LPOs的資格認證和潛在失敗的責任。相反,他們更傾向于讓轉換供應商來承擔這些責任。
在此期間,預計51.2Tbps網絡芯片的早期部署將繼續利用可插拔光學,至少到明年年中。然而,如果LPOs 能夠展示大規模的安全部署,同時為超大規模企業提供顯著的功耗節省——使他們能夠在每個機架上部署更多的加速器——那么采用LPOs 的誘惑可能是不可抗拒的。最終,決定取決于LPOs 能否兌現這些承諾。
此外,半定時線性光學(HALO),也被稱為線性接收光學(LROs)在展會上進行了討論。LRO僅在發送端集成DSP芯片(而不是在LPOs的情況下完全移除它)。雖然LPOs在100G-PAM4 SerDes下可能是可行的,但在200G-PAM4 SerDes下可能變得具有挑戰性,這時可能需要LROs。
與此同時,協同封裝光學(CPOs)仍處于開發階段,Broadcom等大型行業參與者正在展示該技術的持續發展和進步。雖然我們相信目前的LPO和LRO解決方案肯定會像CPOs一樣有更快的上市時間,但后者最終可能在未來的某個時候成為能夠實現更高速度的唯一解決方案。
在結束本節之前,請不要忘記,在可能的情況下,銅將是比上面討論的所有光連接選項更好的選擇。簡而言之,盡可能使用銅,必要時使用光學。有趣的是,液體冷卻可以促進機架內加速器的致密化,從而增加銅的使用,以連接同一機架內的各種加速器節點。最近在GTC上發布的NVIDIA GB200 NVL72完美地說明了這一趨勢。
2)光電路開關
OFC 2024帶來了一些有趣的光學電路開關(OCS)相關公告。OCS可以帶來許多好處,包括高帶寬和低網絡延遲,以及顯著的資本支出節省。這是因為OCS開關可以顯著減少網絡中所需的電氣開關數量,從而消除了與電氣開關相關的昂貴的光-電-光轉換。此外,與電氣開關不同,OCS開關與速度無關,當服務器采用下一代光收發器時,不需要升級。
然而,OCS是一項新技術,到目前為止,只有經過多年開發的谷歌能夠在其數據中心網絡中大規模部署OCS。此外,OCS交換機可能需要改變光纖的安裝底座。因此,我們仍在觀察,除了谷歌之外,是否有其他云服務提供商計劃效仿,在網絡中采用OCS交換機。
3) 3.2 Tbps的路徑
在OFC 2023上,推出了許多基于200G / lambda的1.6Tbps光學元件和收發器。在OFC 2024上,我們見證了這種1.6 Tbps光學器件的進一步技術演示。雖然我們預計到2025/2026年才能實現1.6Tbps的批量出貨量,但業界已經開始努力探索實現3.2 Tbps的各種途徑和選擇。
考慮到從100G-PAM4電子通道速度過渡到200G-PAM4所遇到的復雜性,最初的3.2 Tbps解決方案可能在OSFP-XD外形因素中使用16條200G-PAM4通道,而不是8條400G-PAMx通道。值得注意的是,OSFP-XD最初是在兩年前的OFC 2022上進行探索和演示的,由于人工智能集群部署的緊迫性,它可能會重新投入使用。與1.6Tbps相比,OSFP-XD外形尺寸的3.2Tbps解決方案提供了更高的面板密度和成本節約。最終,業界有望找到一種基于8通道400G-PAMx SerDes實現3.2 Tbps的方法,盡管可能需要一些時間才能實現這一目標。
總之,OFC 2024展示了許多潛在的解決方案,旨在解決共同的挑戰:成本、功率和速度。我們預計不同的超大規模廠商將做出不同的選擇,從而導致市場多樣化。然而,關鍵的考慮因素之一是上市時間。值得注意的是,AI后端網絡的更新周期通常在18到24個月左右,與用于連接通用服務器的傳統前端網絡的5到6年相比,這要短得多。
原文轉自:Reflecting on GTC and OFC 2024: No One-Size-Fits-All but Time to Market is Key! - Dell'Oro Group
審核編輯 黃宇
-
數據中心
+關注
關注
16文章
4859瀏覽量
72382 -
AI
+關注
關注
87文章
31534瀏覽量
270342 -
OF
+關注
關注
0文章
8瀏覽量
10727 -
光纖模塊
+關注
關注
0文章
20瀏覽量
3795 -
gtc
+關注
關注
0文章
73瀏覽量
4447
發布評論請先 登錄
相關推薦
評論