CPU是整個IT生態的定義者,無論是服務器端的x86還是移動端的ARM,都各自是構建了穩固的生態系統,不僅形成技術生態圈,還形成了閉合價值鏈。
GPU是執行規則計算的主力芯片,如圖形渲染。經過NVIDIA對通用GPU(GPGPU)和CUDA編程框架的推廣,GPU在數據并行的任務如圖形圖像、深度學習、矩陣運算等方面成為了主力算力引擎,并且成為了高性能計算最重要的輔助計算單元。2021年6月公布的Top500高性能計算機(超級計算機)的前10名中,有六臺(第2、3、5、6、8、9名)都部署有NVIDIA的GPU。
圖未來算力生態(相關廠商為不完全列舉,僅做為示意參考)
數據中心與超極計算機不同,后者主要面向科學計算,如大飛機研制,石油勘探、新藥物研發、氣象預報、電磁環境計算等應用,性能是主要指標,對接入帶寬要求不高;但數據中心面向云計算商業化應用,對接入帶寬,可靠性、災備、彈性擴展等要求更高,與之相適應發展起來的虛擬機、容器云、并行編程框、內容分發網等等技術,都是為了更好的支撐上層商業應用如電商、支付、視頻流、網盤、辦公OA等。但是這些IaaS和PaaS層的服務開銷極大,Amazon曾公布AWS的系統開銷在30%以上。如果需要實現更好的QoS,在網絡、存儲、安全等基礎設施服務上的開銷還會更高。
這些基礎層應用類型與CPU架構匹配程度不高導致計算效率低下。現有的CPU的架構有兩個大類:多核架構(數個或數十幾個核)和眾核架構(數百個核以上),每種架構支持唯一的規范通用指令集之一,如x86、ARM等。以指令集為界,軟件和硬件被劃分開來分別獨立發展,迅速的催生了軟件產業和微處理器產業的協同發展。但是,隨著軟件復雜度的上升,軟件的生產率(Productivity)得到更多的重視,軟件工程學科也更加關注如何高效地構建大型軟件系統,而非如何用更少的硬件資源獲得盡可能高的執行性能。業界有個被戲稱的“安迪比爾定律”,其內容是“What Andy gives, Bill takes away”,安迪(Andy)指英特爾前CEO安迪·格魯夫,比爾(Bill)指微軟前任CEO比爾·蓋茨,意為硬件提高的性能,很快被軟件消耗掉了。
正如CPU在處理圖像處理時不夠高效一樣,現在有大量的基礎層應用CPU處理起來也比較低效,例如網絡協議處理,交換路由計算,加密解密,數據壓縮等這類計算密集的任務,還有支持分布式處理的數據一致性協議如RAFT等。這些數據或者通過從網絡IO接入系統,或者通過板級高速PCIe總線接入系統,再通過共享主存經由DMA機制將數據提供給CPU或GPU來處理。既要處理大量的上層應用,又要維持底層軟件的基礎設施,還要處理各種特殊的IO類協議,復雜的計算任務讓CPU不堪重負。
這些基礎層負載給“異構計算”提供了一個廣闊的發展空間。將這些基礎層負載從CPU上卸載下來,短期內可以“提質增效”,長遠來看還為新的業務增長提供技術保障。DPU將有望成為承接這些負載的代表性芯片,與CPU和GPU優勢互補,建立起一個更加高效的算力平臺。可以預測,用于數據中心的DPU的量將達到和數據中心服務器等量的級別,每年千萬級新增,算上存量的替代,估算五年總體的需求量將突破兩億顆,超過獨立GPU卡的需求量。每臺服務器可能沒有GPU,但必須有DPU,好比每臺服務器都必須配網卡一樣。
來源:專用數據處理器(DPU)技術白皮書,中國科學院計算技術研究所,鄢貴海等
-
DPU
+關注
關注
0文章
368瀏覽量
24260
發布評論請先 登錄
相關推薦
評論