當前,AI芯片的功能日益復雜化、多樣化,一方面,芯片廠商紛紛給出不同的衡量標準,聲稱其產品在計算性能、單位能耗算力等方面處于行業領先水平;另一方面,用戶卻關心如何能從廠商給出的信息中判斷出芯片是否能實際滿足其真實場景的計算需求。
因此,成立于2018年5月的行業基準測試組織MLPerf推出了MLPerf基準測試,MLPerf基準測試是業內首套衡量機器學習軟硬件性能的通用基準,即訓練過的神經網絡在不同量級的設備(物聯網、智能手機、PC、服務器)、各種應用(自動駕駛、NLP、計算機視覺)上處理新數據的速度。MLPerf現有50多家成員,包括谷歌、微軟、Facebook、阿里巴巴等企業,以及斯坦福、哈佛、多倫多大學等高校,并跟隨AI的發展步伐持續演進。
根據近日發布的MLPerf基準測試結果顯示,內置超過2000個NVIDIA A100 GPU的NVIDIA全新DGX SuperPOD在市售商用產品中脫穎而出,在各項針對大規模計算性能的MLPerf基準測試中均取得了優異成績。此次已是NVIDIA在MLPerf訓練測試中連續第三次展現了最強勁的性能。2018年12月,NVIDIA首次在MLPerf訓練基準測試中創下了六項紀錄,次年7月NVIDIA再次創下八項紀錄。
NVIDIA在測試中用到的產品基于最新NVIDIA Ampere架構以及Volta架構。A100 Tensor Core GPU在加速器的全部八項MLPerf基準測試中展現了最快的性能。在實現總體最快的大規模解決方案方面,利用HDR InfiniBand實現多個DGX A100系統互聯的龐大集群——DGX SuperPOD系統在性能上,也開創了八項全新里程碑。
NVIDIA是唯一一家在所有測試中均采用市售商用產品的公司。其他大多數提交使用的要么是預覽類別(preview category),其所用的產品預計需要幾個月后才會面市,要么使用的是研究類別的產品,更是較長一段時間內都不會面市。
速度與規模兼得的DGX SuperPOD架構
NVIDIA在Selene上運行了系統的MLPerf測試,Selene是基于DGX SuperPOD的內部集群。DGX SuperPOD是針對大規模GPU集群的公共參考架構,NVIDIA DGX SuperPOD基于NVIDIA DGX A100系統。NVIDIA DGX A100在一臺6U服務器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網絡技術,可以為高性能計算、數據分析和AI工作(包括訓練和推理)等多種組合提供加速,并實現快速部署。
Selene最近在TOP500榜單中首次亮相,憑借百億億次(exaflops)級別的AI性能,成為美國最快的工業系統。它也是Green500榜單中全球第二大節能系統。除了出色的能效表現,Selene的快速部署能力也是令人刮目相看。工程師們可以使用NVIDIA的模塊化參照架構,在不到四周的時間內就能快速構建Selene。4名操作人員僅需不到1個小時,就能組裝起一套由20臺系統組成的DGX A100集群,創建出一套性能可以達到2petaflops的系統。
目前,客戶已經采用這些參考架構來構建自身的DGX POD和DGX SuperPOD。其中包括美國最快的學術領域AI超級計算機HiPerGator,該超級計算機也將成為佛羅里達大學跨學科AI創新的基石。
同時,全球領先的超算中心Argonne國家實驗室正在使用DGX A100,尋找抗擊COVID-19疫情的方法。Argonne國家實驗室是六個首批采用A100 GPU的高性能計算中心中的先行者之一。
DGX SuperPOD現已助力汽車領域的大陸集團、航空航天領域的Lockheed Martin和云計算服務領域的微軟等公司取得了良好的業務成果。這些系統的順利運轉,部分得益于其廣泛的生態系統對于NVIDIA GPU和DGX支持。
軟硬結合一年半內實現4倍性能提升
MLPerf最新基準測試包含兩項新的測試和一項經大幅修訂的測試。NVIDIA在這三項測試中均取得了優異的成績。其中,一項基準測試對推薦系統的性能進行了排名。推薦系統是日益普及的一項AI任務。另一項基準測試對使用BERT的對話式AI進行了測試。BERT是現有最復雜的神經網絡模型之一。最后,強化學習測試中使用了Mini-go和全尺寸19x19圍棋棋盤。該測試是本輪最復雜的測試,內容涵蓋從游戲到訓練的多項操作。
最新結果表明,NVIDIA聚焦于不斷發展跨處理器、網絡、軟件和系統的AI平臺。例如,測試結果顯示,相較于首輪MLPerf訓練測試中使用的基于V100 GPU的系統,如今的DGX A100系統能夠以相同的吞吐率,實現高達4倍的性能提升。同時,得益于最新的軟件優化,基于NVIDIA V100的DGX-1系統亦可實現高達2倍的性能提升。
不到兩年,整個AI平臺的創新就取得了如此優異的成績。如今,NVIDIA A100 GPU搭配CUDA-X庫的軟件更新,為通過Mellanox HDR 200Gb/s InfiniBand網絡構建的擴展集群注入了強勁動力。HDR InfiniBand可實現極低的延遲和高數據吞吐量,同時通過可擴展分層聚合和縮減協議(SHARP)技術,提供智能深度學習計算加速引擎。
NVIDIA Ampere市場采用速度刷新紀錄
A100是首款基于NVIDIA Ampere架構的處理器。得益于其諸多創新,NVIDIA A100集合了AI訓練和推理,其性能相比于前代產品提升了高達20倍。
NVIDIA Ampere GPU采用了7納米制程工藝,包含超過540億個晶體管,這樣的數據足以令人乍舌。而NVIDIA廣泛采用的Tensor Core核心也獲得了更新,具有TF32的第三代Tensor Core核心能在無需更改任何代碼的情況下,使FP32精度下的AI性能提高多達20倍。此外,Tensor Core核心現在支持FP64精度,相比于前代,其為HPC應用所提供的計算力比之前提高了多達2.5倍。
同時,全新Ampere架構搭載了多實例GPU(MIG)、第三代NVIDIA NVLin、結構化稀疏等技術。其中MIG技術可以將單個A100 GPU分割為多達七個獨立的GPU,為不同規模的工作提供不同的計算力,以此實現最佳利用率和投資回報率的最大化。而第三代NVIDIA NVLink使GPU之間的高速聯接增加至原來的兩倍,實現服務器的高效性能擴展。第三代NVIDIA NVLink互聯技術能夠將多個A100 GPU合并成一個巨大的GPU來執行更大規模的訓練任務。
A100不僅打破了性能紀錄,其進入市場的速度也比以往任何NVIDIA GPU更快。A100在發布之初用于NVIDIA的第三代DGX系統。正式發布僅六周后,A100就正式登陸了Google Cloud 。
為了滿足市場的強勁需求,AWS、百度云、微軟Azure和騰訊云等全球領先的云提供商,以及Dell Technologies、HPE、浪潮和超微等數十家主要服務器制造商,均采用了A100。全球用戶都在使用A100以應對AI、數據科學和科學計算中最為復雜的挑戰,包括新一代的推薦系統或對話式AI應用,或進一步探索COVID-19的治療方法。
阿里巴巴在11月的“雙十一”期間創造了380億美元的銷售紀錄,其推薦系統使用了NVIDIA GPU,使每秒查詢量達到了CPU的100倍以上。而對話式AI自身也成為了業界關注的焦點,推動從金融到醫療健康等行業的業務發展。
今年五月,NVIDIA發布了兩個應用框架——用于對話式AI的Jarvis和用于推薦系統的Merlin。 Merlin中包含了助力最新MLPerf基準測試結果的HugeCTR訓練框架。這些應用框架僅僅是一部分。在不斷壯大的應用框架中,還有面向汽車行業市場的NVIDIA DRIVE,面向醫療健康市場的Clara,面向機器人技術市場的Isaac,以及面向零售/智能城市市場的Metropolis。
NVIDIA生態系統賦能AI產業
事實上,NVIDIA的GPU成為人工智能的基石,一方面是其在GPU上面的持續創新,更因為其生態系統。在提交結果的九家公司中,除NVIDIA外還有六家公司提交了基于NVIDIA GPU的測試結果,其中包括三家云服務提供商(阿里云、谷歌云和騰訊云)和三家服務器制造商(戴爾、富士通和浪潮),凸顯了NVIDIA生態系統的優勢。
這些合作伙伴大多采用了NVIDIA軟件中心NGC中的容器,以及用于參賽的公開框架。包括這些MLPerf合作伙伴在內的近二十家云服務提供商和OEM組成的生態系統,已采用或計劃采用NVIDIA A100 GPU來打造在線實例、服務器和PCIe卡。
現在,大多數NVIDIA及其合作伙伴在最新MLPerf基準測試中使用的軟件,已可通過NGC獲取。NGC中包括多個GPU優化的容器、軟件腳本、預訓練模型和SDK,可助力數據科學家和開發者在TensorFlow和PyTorch等常用框架上加速AI工作流程。
結語
目前人工智能將成為新一輪產業變革的核心驅動力,從MLPerf基準測試結果可以看到NVIDIA最新一代A100 GPU的強大AI性能,這為用戶進行AI選型提供了參考依據,更好地支撐AI應用的創新實踐,推動整個AI產業鏈的發展。
? ? ? ?責任編輯:pj
評論
查看更多