電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)AI、5G等新興產(chǎn)業(yè)的蓬勃發(fā)展催生了海量數(shù)據(jù)計(jì)算需求,同時(shí)AI算法模型持續(xù)迭代,復(fù)雜化日益凸顯,數(shù)字經(jīng)濟(jì)時(shí)代下市場(chǎng)需要強(qiáng)大、普惠的算力引擎。而從供給端來(lái)看,先進(jìn)制程的迭代周期變長(zhǎng),使得芯片能效比的提升并不顯著。
針對(duì)AI應(yīng)用特點(diǎn)實(shí)現(xiàn)硬件架構(gòu)創(chuàng)新是必然趨勢(shì),墨芯人工智能CEO王維在某論壇上談到,依托對(duì)AI的理解用軟硬一體解決算力瓶頸問(wèn)題是行業(yè)公認(rèn)的發(fā)展方向。他認(rèn)為,稀疏化能夠有效應(yīng)對(duì)算力瓶頸,實(shí)現(xiàn)原理是,不存儲(chǔ)和不處理零值,從而得到更小且更快的模型。
軟硬一體化稀疏路徑符合AI計(jì)算核心訴求軟硬一體化稀疏路徑符合AI計(jì)算高吞吐、低功耗、低延時(shí)的核心需求。AI稀疏產(chǎn)業(yè)化的成功要素包括:1、跨算法、軟件、硬件領(lǐng)域的協(xié)同開(kāi)發(fā);2、擁有持續(xù)多層次優(yōu)化稀疏運(yùn)算的底層算法能力;3、架構(gòu)需保證可編程性、高度可拓展屬性及快速迭代能力。
稀疏化路徑已具備批量化工程應(yīng)用能力。英偉達(dá)在2020年推出的A100產(chǎn)品中,就率先引入稀疏Tensor Core實(shí)現(xiàn)4:2結(jié)構(gòu)化稀疏,稀疏是神經(jīng)網(wǎng)絡(luò)輕量化的重要手段,英偉達(dá)稀疏化產(chǎn)品有效引領(lǐng)市場(chǎng)應(yīng)用趨勢(shì)。稀疏化架構(gòu)可與現(xiàn)有AI軟件生態(tài)深度適配,例如英偉達(dá)直接使用Tensor Core進(jìn)行稀疏矩陣乘累加操作,無(wú)需進(jìn)行底層編程。
基于雙稀疏特點(diǎn),自研核心AI架構(gòu)墨芯是全球最早研發(fā)稀疏化算法及架構(gòu)的企業(yè),并在2018年開(kāi)始稀疏化的全球?qū)@季郑?a target="_blank">公司也是最早商用稀疏化產(chǎn)品實(shí)現(xiàn)銷(xiāo)售的,第一款FPGA產(chǎn)品在2019年Q4開(kāi)始產(chǎn)生銷(xiāo)售。
王維表示,現(xiàn)有芯片架構(gòu)設(shè)計(jì)在稀疏化支持中面臨較大局限,比如CPU架構(gòu),可支持跳點(diǎn)運(yùn)算,但因其算力限制,僅能夠支持邊緣端應(yīng)用,無(wú)法支持更大的模型,再比如GPU架構(gòu),只能進(jìn)行并行計(jì)算,所有元素(包括0元素)均參與運(yùn)算,無(wú)法實(shí)現(xiàn)高倍數(shù)加速。
基于雙稀疏特點(diǎn),墨芯自研核心AI架構(gòu)。其雙稀疏架構(gòu)設(shè)計(jì)理念:平衡的權(quán)重和激活張量剪枝技術(shù),可將精度損失降至最低的前提下保持對(duì)硬件的友好度;墨芯獨(dú)有的剪枝和壓縮技術(shù)可以再許多網(wǎng)絡(luò)和應(yīng)用中實(shí)現(xiàn)最多高到32倍的稀疏。
墨芯首款稀疏化云端AI芯片Antoum-1已經(jīng)回片,實(shí)測(cè)性能ResNet 50超33000SPS;墨芯板卡S4(單顆Antoum-1)僅30W功耗,實(shí)測(cè)性能實(shí)現(xiàn)英偉達(dá)主流產(chǎn)品T4近16倍能效比;墨芯板卡S4對(duì)比英偉達(dá)主流產(chǎn)品Latency可以做到1/4-1/5。
稀疏化計(jì)算產(chǎn)品商業(yè)落地,將賦能AI產(chǎn)業(yè)變革。一、助力云服務(wù)商降低單位算力擁有成本,2021年,Nvidia在中國(guó)營(yíng)收超過(guò)38億美金,其中阿里,騰訊等頭部互聯(lián)網(wǎng)公司采購(gòu)金額基本超過(guò)1億美金。隨著AI持續(xù)發(fā)展,數(shù)據(jù)量的指數(shù)上升導(dǎo)致AI芯片的需求會(huì)持續(xù)上升,云服務(wù)商采購(gòu)額將逐年增加,因此他們對(duì)降低成本的訴求非常強(qiáng)勁,基于Antoum-1的推理卡S4相較于英偉達(dá)對(duì)標(biāo)推理卡T4,ResNest50及BERT每FPS/SPS成本降低約85%。
二、助力云服務(wù)商縮減能耗成本,電費(fèi)支出是數(shù)據(jù)中心最大的營(yíng)業(yè)成本,平均數(shù)據(jù)中心近60%的營(yíng)業(yè)成本是電力成本,降低能耗是數(shù)據(jù)中心和云服務(wù)商的最大痛點(diǎn),2021年全國(guó)數(shù)據(jù)中心的耗電量占社會(huì)總用電的近3%,且增長(zhǎng)率已連續(xù)8年超過(guò)12%,基于Antoum-1的推理卡S4相較于Nvidia主力推理卡T4,ResNest50及BERT每FPS/SPS能耗成本降低約90%。
小結(jié)目前基于稀疏化的AI架構(gòu)主要面向云端訓(xùn)練場(chǎng)景,不過(guò)理論上來(lái)說(shuō),稀疏化訓(xùn)練由于能大幅降低對(duì)內(nèi)存、帶寬與計(jì)算的需求,十分適合訓(xùn)練,未來(lái)墨芯在滿足推理市場(chǎng)的需求后,將切入訓(xùn)練市場(chǎng),建立稀疏訓(xùn)練生態(tài),產(chǎn)品在軟件層面對(duì)訓(xùn)練做更多的開(kāi)發(fā),支持訓(xùn)練專(zhuān)用的算子,同時(shí)硬件上也會(huì)為訓(xùn)練定義架構(gòu)。
-
硬件
+關(guān)注
關(guān)注
11文章
3382瀏覽量
66461 -
AI
+關(guān)注
關(guān)注
87文章
31536瀏覽量
270353 -
人工智能
+關(guān)注
關(guān)注
1796文章
47683瀏覽量
240313
原文標(biāo)題:?稀疏化應(yīng)對(duì)算力瓶頸,助力云服務(wù)商大幅降低成本
文章出處:【微信號(hào):elecfans,微信公眾號(hào):電子發(fā)燒友網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論