在最近的開放計算項目峰會上出現(xiàn)了準備改變傳統(tǒng)服務(wù)器架構(gòu)的新一代設(shè)計,谷歌、Facebook 和微軟在峰會上展示了高性能計算機的新藍圖。
在加利福尼亞州圣克拉拉舉行的貿(mào)易展上展示的硬件表明,云提供商繼續(xù)降低 CPU 的優(yōu)先級,同時更多地關(guān)注網(wǎng)絡(luò)、存儲和加速器,如 GPU 和 AI 芯片。服務(wù)器制造商可以復制和改進 OCP 設(shè)計。
本次峰會上的焦點之一是 Meta 設(shè)計的名為 Grand Teton 的服務(wù)器,該公司正在為數(shù)據(jù)中心部署該服務(wù)器以運行人工智能應(yīng)用程序。Meta 的工程副總裁 Alexis Bjorlin 在一篇博客文章中表示,Meta 的目標是為其大型數(shù)據(jù)中心帶來更多的 AI 能力,這支撐了其社交媒體平臺上的許多功能,同時也為其 metaverse 的未來做好準備。
半導體研究機構(gòu) SemiAnalysis 的創(chuàng)始人 Dylan Patel 表示,OCP 包括服務(wù)器世界的名人錄——Meta、Google 和其他公司——在戴爾、HPE 和聯(lián)想的標準機架之前,所有很酷的新硬件都在這里出現(xiàn)。
“當我們談?wù)撚布r,它的功率要高得多,但也很高效。它可能是高功率,因為它用于 Facebook 的 AI,或者它可能是高功率,因為它是一個非常密集的服務(wù)器,”Patel 說。
Patel 還指出,許多下一代服務(wù)器也展示了代號為 Sapphire Rapids 的 Intel 下一代 Xeon 服務(wù)器 CPU 和 AMD 即將推出的 Genoa。
Bjorlin 上個月表示,Meta 計劃到2025 年建立擁有超過 4,000 個加速器的大型集群。這些核心將被組織為一個網(wǎng)格,加速器之間的帶寬將達到每秒 1 TB。Bjorlin 上個月在 AI 硬件峰會上的一次演講中詳細介紹了這些計劃,但沒有分享硬件細節(jié)。該公司廣泛使用 Nvidia GPU。
Meta 的服務(wù)器設(shè)計基本方法包括去除不必要的組件,并在系統(tǒng)和芯片級別縮小硬件。系統(tǒng)和芯片尺寸的縮小將有助于創(chuàng)建 AI 訓練集群,這些集群將消耗更多功率,同時也提供顯著更高的每瓦性能。
Bjorlin 在 Grand Teton 的公告中說,深度學習模型正在顯著增長到數(shù)十萬億個參數(shù),并且“可能需要 zettaflop 的計算來訓練”。
“人工智能和機器學習模型正變得越來越強大和復雜,需要更多高性能基礎(chǔ)設(shè)施來匹配,”Bjorlin 說。
Grand Teton 是 2021 年推出的 Zion-EX 橫向擴展系統(tǒng)的繼任者。Grand Teton 的速度明顯快于其前身,主機到 GPU 帶寬提高了四倍,計算能力和吞吐量提高了兩倍。
“與包含多個獨立子系統(tǒng)的 Zion-EX 相比,Grand Teton 還具有集成底盤,”Bjorlin 說。
微軟展示了一個名為 Mt. Shasta 的模塊化系統(tǒng),這是一個可以容納人工智能和高性能計算加速器的機箱。該模塊通過 48 伏電源饋入高性能服務(wù)器。該模塊可以熱插拔并容納多個加速器。該系統(tǒng)由 Molex 和 Quanta 設(shè)計,并與 OCP 的 Open Rack V3 設(shè)計兼容,該設(shè)計為系統(tǒng)打開了機架級分解。
微軟在一篇博文中表示,Mt. Shasta 模塊解決了在數(shù)據(jù)中心實施加速器時面臨的常見問題。加速器可以在數(shù)據(jù)中心的電源、冷卻和連接指南內(nèi)輕松實施,并自動與基于軟件的管理接口進行硬件控制。節(jié)點級掛鉤使模塊可熱插拔,這在 PCI Gen 3.0 接口中也很困難,該接口較舊,但仍在較舊的服務(wù)器上使用。
Insight 64 首席分析師 Nathan Brookwood 表示,加速器的多樣化服務(wù)器硬件一直是當務(wù)之急,但今年圍繞 CXL(Compute Express Link)引起了很多興奮,因為它提供了輕松添加一系列加速器的鉤子。
“很明顯,那些在云中部署的人——你看到的是谷歌、微軟等——他們知道他們需要什么。他們可能會去掉 HPE 和戴爾在通用企業(yè)級產(chǎn)品中投入的更多花里胡哨的東西,”Brookwood說。
CXL 是一個關(guān)鍵的構(gòu)建塊,旨在改變服務(wù)器的設(shè)計、定制和配置方式。CXL 允許更輕松地選擇和組裝服務(wù)器的構(gòu)建塊。該技術(shù)提供了計算、內(nèi)存和存儲系統(tǒng)之間的通信鏈接,并包括跨服務(wù)器提供和管理計算的工具。
“CXL 正在迅速被接受,這令人驚訝,因為支持它的通用處理器尚未發(fā)布,包括 [Intel 的] Sapphire Rapids 和 [AMD 的] Genoa,”Brookwood 說。
雖然 Facebook 的 Grand Teton 是一個集成服務(wù)器,但 Google 專注于未來的“多腦”服務(wù)器,它將存儲、加速器、內(nèi)存和基礎(chǔ)設(shè)施處理單元整合到單獨的托盤中。模塊化硬件架構(gòu)基于包括 CXL 和 NVMe 在內(nèi)的互連以及 OpenBMC 和 RedFish 等分布式系統(tǒng)管理工具。
Brookwood 說,小型服務(wù)器制造商同樣對 CXL 感到興奮。
“隨著這些產(chǎn)品的推出,我認為小型服務(wù)器制造商,尤其是云計算領(lǐng)域的制造商,將會關(guān)注這一點,”Brookwood說。
IT 基礎(chǔ)設(shè)施公司 Wiwynn 是臺灣緯創(chuàng)資通集團的子公司,專注于定制服務(wù)器設(shè)計的構(gòu)建模塊。該公司以前專門從事 OCP 的集成服務(wù)器設(shè)計,但今年的重點是根據(jù)特定要求構(gòu)建的定制設(shè)計。
Wiwynn 的構(gòu)建模塊包括 OCP 認證的冷卻、電源、組件、互連、NIC 和安全模塊。CXL 互連也在設(shè)計中,位于中間以促進存儲、內(nèi)存和處理單元之間的通信。
該設(shè)計適用于英特爾和 AMD 的各種 x86 服務(wù)器芯片,以及 Ampere 的 CPU 等 Arm 服務(wù)器芯片。它還支持英特爾的 Habana Gaudi AI 處理器等加速器。
Wiwynn 銷售支持執(zhí)行董事 Steven Hwang 在 OCP 峰會前的新聞發(fā)布會上表示,客戶對構(gòu)建塊的關(guān)注點發(fā)生了變化,因為他們有興趣構(gòu)建更接近其數(shù)據(jù)中心要求的服務(wù)器。
具體來說,人們對功率轉(zhuǎn)換組件很感興趣,Hwang 說,并補充說,“許多數(shù)據(jù)中心正在走向綠色,能源變得非常非常敏感……所以從直流到交流和交流到直流的功率損耗肯定是人們可以立即從中受益的東西。”
在 OCP,谷歌、微軟、Nvidia 和 AMD 還合作創(chuàng)建了一個名為 Caliptra 的規(guī)范,允許系統(tǒng)制造商在芯片和系統(tǒng)級別嵌入安全層。該規(guī)范在 0.5 版中,側(cè)重于在硅中創(chuàng)建信任根。
微軟 Azure 首席技術(shù)官 Mark Russinovich 在一篇博客文章中表示:“作為可重用的開源、硅級塊,用于集成到片上系統(tǒng)(例如 CPU、GPU 和加速器)中,Caliptra 提供了可信賴且易于驗證的證明?!?/p>
Caliptra 規(guī)范包括一系列用于存儲和加密數(shù)據(jù)的塊,并確保只有授權(quán)方才能訪問安全飛地中的數(shù)據(jù)。它還確保數(shù)據(jù)的安全性,因此在本地或云中時不會受到 Spectre 和 Meltdown 等基于硬件的黑客攻擊。云提供商對 Caliptra 感興趣,以改進機密計算產(chǎn)品和保護虛擬機。
編輯:黃飛
-
amd
+關(guān)注
關(guān)注
25文章
5496瀏覽量
134634 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9303瀏覽量
86061 -
虛擬機
+關(guān)注
關(guān)注
1文章
937瀏覽量
28426
原文標題:下一代服務(wù)器設(shè)計藍圖浮現(xiàn)!
文章出處:【微信號:芯長征科技,微信公眾號:芯長征科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論