???最近ARM指令集相容處理器占據(jù)不少新聞版面,除了千呼萬(wàn)喚始出來(lái)、預(yù)定兩年內(nèi)完全取代英特爾處理器的Apple Silicon,再來(lái)就是引起不少討論、先后在Green500和Top500奪下榜首的日本理化學(xué)研究所超級(jí)電腦「富岳」(富士山的別稱)的關(guān)鍵技術(shù)核心:Fujitsu A64FX處理器。
整體來(lái)看,無(wú)論從哪個(gè)角度觀察,這應(yīng)該是目前最高端的ARM 指令集兼容處理器了。
其實(shí)Fujitsu 早在2018 年夏天的處理器業(yè)界盛事IEEE HotChips 30,就公開A64FX 的技術(shù)細(xì)節(jié)(其中部分內(nèi)容更在4 月就先行披露),本質(zhì)算是「電腦的語(yǔ)言」指令集架構(gòu)從SPARC-v9 轉(zhuǎn)換成ARM-v8.2-A 的SPARC64fx 處理器(因衍生于高端服務(wù)器專用的SPARC64,也繼承了諸多類似特色,如大型主機(jī)等級(jí)的數(shù)據(jù)可用性),采用臺(tái)積電7 納米制程生產(chǎn),主存儲(chǔ)器使用近來(lái)因高端圖形芯片逐漸普及的HBM2,和運(yùn)算核心由臺(tái)積電的2.5D 封裝CoWos 技術(shù)封裝成一顆,毋需外部的存儲(chǔ)器顆粒。
講更精確點(diǎn),F(xiàn)ujitsu A64FX 是「針對(duì)超級(jí)電腦量身訂做的ARM 指令集系統(tǒng)單芯片 SoC」(System-on-Chip,SoC),其概念更可追溯于2004 年11月,一舉趕下雄踞「世界最強(qiáng)超級(jí)電腦王座」超過(guò)兩年半(2002 年3 月到2004 年11 月)地球模擬器(Earth Simulator)的IBM BlueGene/L,體積僅有容納1,024 個(gè)運(yùn)算節(jié)點(diǎn)和8TB 主存儲(chǔ)器的16座機(jī)柜,反觀地球模擬器動(dòng)用640 個(gè)運(yùn)算節(jié)點(diǎn),總共5,120 顆NEC SX-6 向量處理器和10TB 主存儲(chǔ)器,多達(dá)320 座運(yùn)算機(jī)柜,彰顯了追求建造速度的獨(dú)到思維與異質(zhì)功能融合的潛在威力。
后來(lái)勞倫斯利佛摩國(guó)家實(shí)驗(yàn)室(LawrenceLivermore National Laboratory,LLNL)的BlueGene/L 持續(xù)擴(kuò)充到104 座機(jī)柜(478TeraFlops,峰值596TeraFlops),2008 年6 月被同樣出自IBM 的洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室( Los Alamos National Laboratory,LANL)的Roadrunner 超越,穩(wěn)占Top500 首位長(zhǎng)達(dá)3 年半之久。后者是人類史上第一臺(tái)效能達(dá)1PetaFlops 的超級(jí)電腦。
那年剛好微處理器論壇(MicroprocessorForum)首次在臺(tái)灣舉辦(新竹煙波大飯店),IBM 也在活動(dòng)議程里,充分闡述BlueGene/L 的技術(shù)細(xì)節(jié)與設(shè)計(jì)理念,筆者有幸坐在臺(tái)下躬逢其盛,富岳和FujitsuA64FX 則讓筆者回憶起歷歷在目的往事。
「世界最快的超級(jí)電腦」不但是國(guó)家科技能力的重大象征,更是科技強(qiáng)權(quán)之間的國(guó)力較量,根據(jù)國(guó)家的Top500 進(jìn)榜數(shù)與總效能「圓餅圖」,比重與趨勢(shì)或多或少反映了國(guó)家的影響力。前述的富岳超級(jí)電腦,相關(guān)費(fèi)用總計(jì)1,300 億日?qǐng)A,其中1,100 億日?qǐng)A由日本納稅人買單,日本政府「宣揚(yáng)國(guó)威」的強(qiáng)烈動(dòng)機(jī),不言可喻。
自從個(gè)人電腦與集群運(yùn)算環(huán)境(Cluster)普及后,超級(jí)電腦業(yè)界逐漸從特別客制化且量少價(jià)高向量處理器、系統(tǒng)控制與存儲(chǔ)器芯片,朝向采用市售的「日用品」(Commodity)或系出同源的衍生產(chǎn)品(如nVidia 的高階運(yùn)算用GPU),除了降低購(gòu)置與維護(hù)成本,亦可進(jìn)一步提高超級(jí)電腦的可靠性與可用性。
也因此,Top500 清單早是滿滿一整排英特爾處理器與nVidia 加速卡(與很少的AMD 產(chǎn)品,以及根本沒(méi)有未來(lái)的英特爾Xeon Phi),偶見IBM 的高端Power 處理器與Fujitsu 的SPARC64fx。
畢竟不計(jì)成本導(dǎo)入特制化零件與特殊半導(dǎo)體制程(甚至像Cray-3和Fujitsu VPP500 還用到砷化鎵這么獨(dú)特的材料)的「高階試作品」,自然遠(yuǎn)不如消費(fèi)性市場(chǎng)隨手可得的「成熟量產(chǎn)品」可靠。過(guò)于特殊的專屬規(guī)格處理器,也限制了應(yīng)用軟體和開發(fā)平臺(tái)的選擇性,提高開發(fā)軟體的時(shí)間與成本。反之,投奔「開放規(guī)格」,即可享受到更多樣化的開源社群資源,并因更頻繁的技術(shù)交流,而加速技術(shù)演進(jìn)。
但超級(jí)電腦市場(chǎng)較量的重點(diǎn),并不只限于帳面效能和耗電,「研發(fā)時(shí)程」和「建造速度」也同樣舉足輕重。這也是IBM BlueGene/L 在十多年前可在超級(jí)電腦領(lǐng)域獨(dú)領(lǐng)風(fēng)騷的秘密:延續(xù)現(xiàn)有Power處理器的研發(fā)成果,打造高度系統(tǒng)單芯片化的運(yùn)算節(jié)點(diǎn),實(shí)現(xiàn)更高的空間利用密度和更快的系統(tǒng)組裝速度。FujitsuA64FX 更承襲相同的思維,并藉由臺(tái)積電被眾多客戶千錘百煉后的成熟制程、研發(fā)資源豐富的ARM 生態(tài)圈、拜顯示芯片市場(chǎng)之所賜而便宜可靠的HBM 存儲(chǔ)器,青出于藍(lán)勝于藍(lán),相隔近16 年,重現(xiàn)系統(tǒng)單芯片一次奪下Top500 榜首的榮景。
大處著眼,小處著手
相信熟悉超級(jí)電腦的讀者或許會(huì)想起,當(dāng)時(shí)那臺(tái)IBM 與Livermore 實(shí)驗(yàn)室合作的BlueGene/L 測(cè)試機(jī),并非徹底施工完畢的超級(jí)電腦(這讓日本人頗不以為然),但在Livermore 國(guó)家實(shí)驗(yàn)室,確實(shí)有部分應(yīng)用程式跑在上頭,并打敗了地球模擬器保持的紀(jì)錄。問(wèn)題來(lái)了,為何IBM 可以用這么快的速度(當(dāng)時(shí)可是震驚世人),建好一臺(tái)世上最快的超級(jí)電腦?
2004 年,BlueGene/L 可謂世界最大的嵌入式微處理器集合,揭示了「大處著眼,小處著手」觀念,將系統(tǒng)單芯片的價(jià)值,從微型系統(tǒng)帶到極大規(guī)模的超級(jí)電腦,技術(shù)核心為重新設(shè)計(jì)后的雙核PowerPC 440,具低耗電量和低發(fā)熱量等特點(diǎn)。利用諸多今日我們耳熟能詳?shù)南到y(tǒng)單芯片特色的BlueGene/L,有以下特點(diǎn):
超級(jí)省電:相同的運(yùn)算量,這臺(tái)BlueGene/L耗電量?jī)HNEC地球模擬器的二十八分之一,自然也降低了發(fā)熱量。
簡(jiǎn)單清楚的系統(tǒng)架構(gòu):BlueGene/L不再有一大堆糾纏如「新竹米粉」的五顏六色線路和多如牛毛的網(wǎng)絡(luò)匯流排控制器,易于安裝與維護(hù)。
快速完成產(chǎn)品設(shè)計(jì):利用現(xiàn)有研發(fā)成果,透過(guò)系統(tǒng)單芯片整合額外功能,不必重新設(shè)計(jì)每個(gè)元件,可迅速兜成產(chǎn)品。即使這算是「專屬規(guī)格芯片」,但意義卻和過(guò)去不惜血本的燒錢做法截然不同。
BlueGene/L 的架構(gòu)相當(dāng)單純:
每顆時(shí)鐘頻率700MHz 的處理器芯片,包含兩個(gè)倍增浮點(diǎn)運(yùn)算器的修改版PowerPC440 ? ? 核心與時(shí)脈350MHz 的4MB L3 快取存儲(chǔ)器(可設(shè)定為系統(tǒng)存儲(chǔ)器)。
兩顆處理器芯片組成一張運(yùn)算卡(Compute ? ? Card),上面附有512MB 容量DDR 存儲(chǔ)器,耗電量只有20W。
16 片計(jì)算卡構(gòu)成一片節(jié)點(diǎn)卡(Node Board),32 個(gè)處理器芯片(64 核心),提供180GigaFlops 理論計(jì)算能力,8GB 存儲(chǔ)器。
32 片節(jié)點(diǎn)卡裝在同一臺(tái)機(jī)箱,提供5.7TeraFlops ? ? 與256GB 存儲(chǔ)器。
整個(gè)系統(tǒng)最大組態(tài)為65,536 個(gè)節(jié)點(diǎn)卡(64 個(gè)機(jī)箱),當(dāng)全部處理器都設(shè)定成計(jì)算模式時(shí),有高達(dá)360TFlops 的峰值運(yùn)算量(2004 年底那臺(tái)是70.72TeraFlops)和16TB 存儲(chǔ)器。
所謂的超級(jí)電腦,就是指具巨大平行運(yùn)算量的系統(tǒng)(有別于追求頂級(jí)可靠性和極致軟體相容性的商用大型主機(jī)),大多數(shù)并行處理程序,都必須在執(zhí)行每個(gè)小單元,參考之前的單元計(jì)算結(jié)果,或是傳送結(jié)果到其他執(zhí)行單元,帶來(lái)巨大的資料傳輸量。超級(jí)電腦的開發(fā)者幾乎都將一半精力耗費(fèi)在資料傳輸網(wǎng)絡(luò)的設(shè)計(jì)。
BlueGene/L 系統(tǒng)組成極端干凈,處理器芯片內(nèi)建5 種功能相異的網(wǎng)絡(luò)控制器,讓不同類型的工作分而治之,只需要板子上的連接點(diǎn)組成整個(gè)系統(tǒng),你也看不到拉來(lái)拉去的排線和到處安插的匯流排網(wǎng)絡(luò)控制器:
3D Torus網(wǎng)絡(luò):每顆芯片有6個(gè)方向傳送資料到整個(gè)系統(tǒng),具流量監(jiān)控、計(jì)算最佳傳送路徑的功能。
Collective網(wǎng)絡(luò):用來(lái)管理控制。
處理中斷與系統(tǒng)問(wèn)題的低延遲高速網(wǎng)絡(luò)(Global ? ? Barriers and Interrupts)。
用來(lái)進(jìn)行一般I/O和檔案存取的Gigabit乙太網(wǎng)絡(luò)。
用來(lái)控制開機(jī)與設(shè)定的控制網(wǎng)絡(luò)(Control ? ? Network)。
為何IBM 要讓BlueGene/L 同時(shí)用5 種網(wǎng)絡(luò)架構(gòu)?起因于IBM 并未為了這臺(tái)「速食」超級(jí)電腦設(shè)計(jì)專用作業(yè)系統(tǒng),直接修改Linux 來(lái)用,并BlueGene/L 是每顆運(yùn)算節(jié)點(diǎn)(一顆處理器)都是獨(dú)立電腦的「Multicomputer」型態(tài),單靠3D Torus 網(wǎng)絡(luò)不足以保證在最短時(shí)間內(nèi)即時(shí)傳送所有資料,特別是和計(jì)算無(wú)關(guān)的控制管理訊號(hào),所以動(dòng)用多種拓樸網(wǎng)絡(luò)以保證面面俱到,是很正確的手段。
同場(chǎng)加映更夸張的設(shè)計(jì):Sun 曾競(jìng)標(biāo)美國(guó)國(guó)防部先進(jìn)研究計(jì)劃署(Defense Advance Research Projects Agency,DARPA)于2002 年初開始的High Productivity Computing System,日后更名為PetaFLOPS 的超級(jí)電腦計(jì)劃(略早于NEC 發(fā)表地球模擬器),提出驚世駭俗的「Hero」計(jì)劃,引進(jìn)「Proximity Communication」研究成果,透過(guò)芯片彼此相鄰的「超高速無(wú)線傳輸」(別懷疑),一舉解決頻寬延遲的瓶頸和系統(tǒng)組裝的麻煩。很可惜這案子由IBM 和Cray 擊敗Sun 共同得標(biāo),無(wú)緣讓世人目睹這令人嘖嘖稱奇的世界奇觀。
雖然超級(jí)電腦的可靠性要求不如商業(yè)大型主機(jī)嚴(yán)謹(jǐn),但看在巨大資料傳輸量的份上,假若自己的家用個(gè)人電腦可能一年內(nèi)因一次訊號(hào)錯(cuò)誤當(dāng)機(jī),套在超級(jí)電腦就可能變成一小時(shí)一次了。
也因此,IBM 在BlueGene/L 引入許多除錯(cuò)技術(shù),由小到大,從芯片(所有存儲(chǔ)器皆受到ECC 保護(hù)以修正單位元錯(cuò)誤)到系統(tǒng)(所有節(jié)點(diǎn)和網(wǎng)絡(luò)都有自我錯(cuò)誤監(jiān)測(cè),而最重要的3D Torus 網(wǎng)絡(luò)則動(dòng)用超過(guò)4 種數(shù)學(xué)除錯(cuò)方式以保障資料傳輸?shù)恼_性)。當(dāng)然,低發(fā)熱量的系統(tǒng)單芯片,也降低超級(jí)電腦因過(guò)熱而不穩(wěn)的可能性。
承繼IBM BlueGene/L 精神的Fujitsu A64FX
這些年來(lái),服務(wù)器大廠紛紛放棄開發(fā)自家處理器,改投向「開放系統(tǒng)」的懷抱,但Fujitsu 仍持之以恒研發(fā)高端處理器,如GS 系列大型主機(jī)、Unix 服務(wù)器的SPARC64、因2011年「京」 (K-Computer)超級(jí)電腦專案誕生的SPARC64fx。
讓SPARC64fx 轉(zhuǎn)戰(zhàn)ARM 指令集的A64FX,堪稱三者集大成,也讓ARM 指令集兼容處理器,一步登天,擁有商用大型主機(jī)(Mainframe)的高可靠度、高端服務(wù)器的高效能,與超級(jí)電腦最需要的低能耗比,身為「后京」(Post-K)時(shí)代的日系超級(jí)電腦心臟,性能目標(biāo)是達(dá)到2011 年「京」的100 倍。富岳搶下Top500 榜首就是成果,且計(jì)劃進(jìn)度還比表訂的2021 年量產(chǎn)出貨提前甚多。
A64FX 主要特性如下:
臺(tái)積電7 納米FinFET 制程,87.86 億晶體管,臺(tái)積電CoWos 2.5D 封裝包4 顆8GB 容量HBM2 存儲(chǔ)器,兼顧縮減面積與提升存儲(chǔ)器頻寬。
基本上是替換指令集的SPARC64 XIfx,從核心微架構(gòu)到基礎(chǔ)結(jié)構(gòu)皆大同小異,但系統(tǒng)存儲(chǔ)器改用包在一起的32GB HBM2,卻能大幅精簡(jiǎn)空間。
48 個(gè)計(jì)算核心和4 個(gè)處理I/O 作業(yè)的輔助核心,切成4 塊CMG(Core Memory Group),每個(gè)CMG 有13 個(gè)核心(12 運(yùn)算+1 輔助I/O)、8MB L2 ? ? Cache、8MB HBM2 存儲(chǔ)器。CMG g規(guī)劃也與SPARC64 XIfx 大同小異,僅核心數(shù)略有差異。
SIMD 浮點(diǎn)運(yùn)算「順勢(shì)」使用ARM 官方制定的SVE(Scalable Vector Extension)指令集,理論浮點(diǎn)運(yùn)算性能達(dá)到2.7TeraFlops,是前代SPARC64 XIfx 的2.5 倍,數(shù)據(jù)格式也支持人工智能需要的FP16 與INT16 /8。
ARM 的SVE 不僅「比英特爾AVX-512 更富有向量電腦的傳統(tǒng)風(fēng)味」,也有個(gè)有趣的MOVPRFX 指令,用來(lái)彌補(bǔ)ARM 邁進(jìn)64 位元后,為了提供32 個(gè)暫存器(需要5 位元指定一個(gè)暫存器,4 個(gè)就是20 位元)犧牲掉的FMA4 四運(yùn)算元浮點(diǎn)乘積和(A×B+C=D)。一旦執(zhí)行三運(yùn)算元的FMA(A×B+C=C),會(huì)覆蓋掉一個(gè)暫存器的原始內(nèi)容。
MOVPRFX 指令可預(yù)先經(jīng)由前置碼(Prefix),「更名」運(yùn)算目標(biāo)暫存器,以保留其內(nèi)容。而A64FX 的內(nèi)部執(zhí)行單元?jiǎng)t會(huì)將接連的MOVPRFX 和FMA3 兩個(gè)指令合而為一,變相實(shí)作FMA4,掩蓋執(zhí)行兩個(gè)指令的額外延遲。
高可靠度則比照SPARC64fx 辦理,大型主機(jī)等級(jí)的資料可用性,讓整顆芯片大部分都受到ECC 單位元錯(cuò)誤修正和Parity 糾錯(cuò)機(jī)制保護(hù)。
多處理器總線采用演進(jìn)于「京」超級(jí)電腦的第三代「Tofu」(豆腐),6D Mesh/Torus 結(jié)構(gòu)。
和BlueGene/L一樣高度模組化設(shè)計(jì),一個(gè)機(jī)柜框體(Rack)可置入384 顆A64FX,18432 個(gè)運(yùn)算核心,單機(jī)柜理論效能超過(guò)1PetaFlops。
富岳由396 個(gè)機(jī)柜框體組成,152,064 顆A64FX,Top500 ? ? 測(cè)定性能為415PetaFlops。
「熱情擁抱現(xiàn)成資源」的弦外之音
Fujitsu 和理化學(xué)研究所在2019 年4 月15 日簽訂制造出貨安裝合約,11月富岳試作機(jī)拿下Green500 第一名,12 月2 日就開始出貨6 個(gè)機(jī)柜框體,全數(shù)396個(gè)在2020 年5 月13 日全部搬入理化學(xué)研究所,速度真的很快,當(dāng)年IBM BlueGene/L 的「速食」風(fēng)格,在Fujitsu A64FX 也一覽無(wú)遺。
況且,F(xiàn)ujitsu 還享用那時(shí)IBM 還體驗(yàn)不到的「完整IP 授權(quán)、最佳化電子輔助設(shè)計(jì)工具與相關(guān)函式庫(kù)、專業(yè)晶圓代工」三位一體的成熟產(chǎn)業(yè)生態(tài)體系,大量引用「現(xiàn)成資源」加速產(chǎn)品研發(fā)與驗(yàn)證,降低成本,不限硬體,一并擁抱蓬勃發(fā)展中的ARM 軟體資源,在「沿用市售標(biāo)準(zhǔn)品」和「拼死硬干特規(guī)貨」中取得平衡點(diǎn)。這是Fujitsu在高效能運(yùn)算處理器的「語(yǔ)言」,放棄SPARC 轉(zhuǎn)向ARM 背后最重要的弦外之音。
最后,順帶一提,如果臺(tái)積電繼續(xù)維持制程優(yōu)勢(shì),英特爾真的還有機(jī)會(huì)追上來(lái)嗎(官方預(yù)定2021 年7 納米、2023 年5 納米、2025 年3 納米、2027 年2 納米、2029年1.4 納米)?還是昔日傲視世界的半導(dǎo)體制造能力,將就此遭到毀滅性的打擊?值得拭目以待。
編輯:黃飛
?
評(píng)論
查看更多