在絕大部分手機(jī)愛好者的印象中,當(dāng)代手機(jī)GPU的性能與能效排名,理論上是蘋果最強(qiáng),高通緊隨其后,而Arm的Mali GPU則顯著落后于前兩者。去年年中我們發(fā)布過(guò)一篇題為《ARM新版Mali GPU簡(jiǎn)析:這次終于趕超高通和蘋果?》[1]的文章,簡(jiǎn)單談了談Mali G77的理論性能。似乎在Arm的規(guī)劃中,Mali G77是有機(jī)會(huì)超越高通Adreno GPU的。
預(yù)計(jì)最早將采用Mali G77 GPU的手機(jī)SoC為聯(lián)發(fā)科天璣1000或三星Exynos 990;同代的高通驍龍865與Adreno 650前不久也已經(jīng)發(fā)布。這會(huì)兒雖然還沒有采用Adreno 650 GPU的機(jī)型面世,采用Mali G77的中低端機(jī)型也才剛剛開售,但從2019年包括iPhone 11系列(A13 SoC)在內(nèi)的諸多手機(jī)產(chǎn)品的問(wèn)世、Imagination A-Series GPU新架構(gòu)的發(fā)布,實(shí)則已經(jīng)很容易發(fā)現(xiàn)當(dāng)前手機(jī)市場(chǎng)的GPU表現(xiàn),已非兩年前的格局。
前不久的Imagination發(fā)布會(huì)上[2],Imagination提到,如果將高通Adreno 640的性能和占地面積記作100%,Arm Mali G76則需要184%的占地面積,才能達(dá)到100%的性能。這大概是Mali GPU被對(duì)比得最慘烈的一次,似乎這也符合我們對(duì)Mali GPU性能、能效孱弱的歷史認(rèn)知。
不過(guò)我們認(rèn)為這個(gè)說(shuō)法可能仍然不夠準(zhǔn)確,畢竟這和具體的產(chǎn)品相關(guān):高通驍龍855(Adreno 640)采用的是臺(tái)積電7nm制程,而與之對(duì)比的三星Exynos 9820(Mali G76)則采用三星自家的8nm制程,僅是制造工藝的對(duì)比就已經(jīng)不公平了;事實(shí)上,不同SoC制造商對(duì)于Mali GPU的實(shí)施方案也不盡相同,華為海思對(duì)于Mali G76的實(shí)施方案和三星就是不一樣的。
本文我們借助在售機(jī)型的一些現(xiàn)成圖形計(jì)算跑分測(cè)試,以及GPU IP廠商對(duì)于新產(chǎn)品的解讀,來(lái)總結(jié)性地談一談當(dāng)前手機(jī)GPU在性能、能效方面究竟是什么格局。
移動(dòng)GPU市場(chǎng)的主要玩家
首先還是將需要對(duì)比的主要手機(jī)GPU產(chǎn)品(或IP)做個(gè)羅列。這里援引兩家統(tǒng)計(jì)機(jī)構(gòu)針對(duì)移動(dòng)GPU市場(chǎng)分析所得的數(shù)據(jù),雖然數(shù)據(jù)并不是最新的,但仍可基本反映當(dāng)前移動(dòng)GPU市場(chǎng)的現(xiàn)狀。
從手機(jī)與平板出貨量來(lái)看,2019年第二季度的不同移動(dòng)GPU出貨量的市場(chǎng)占比分別如下圖所示:
數(shù)據(jù)來(lái)源:Stategy Analytics
這份數(shù)據(jù)來(lái)自Strategy Analytics[3],由于我們沒有完整的數(shù)據(jù),所以這張圖僅根據(jù)Strategy Analytics當(dāng)時(shí)發(fā)布的新聞稿繪制。值得一提的是,其中的“Others”其他,主要是Imagination和Intel,這里僅知Imagination的市場(chǎng)份額仍高于Intel,但不清楚這兩者分別的占比具體是多少。這份數(shù)據(jù)也符合我們對(duì)于移動(dòng)GPU市場(chǎng)的認(rèn)識(shí),即該市場(chǎng)的主要玩家就是蘋果、Arm、高通。
如果不從季度出貨量,而是從手機(jī)保有量來(lái)看不同GPU產(chǎn)品的市場(chǎng)份額,又是另外一番光景:
來(lái)源:DeviceAtlas
上面這份數(shù)據(jù)來(lái)自DeviceAtlas[4],發(fā)布時(shí)間在2019年年中。這份數(shù)據(jù)統(tǒng)計(jì)的是截至2019年第一季度,DeviceAtlas數(shù)據(jù)庫(kù)中36個(gè)不同國(guó)家的GPU使用率。這份統(tǒng)計(jì)實(shí)際可能受到DeviceAtlas樣本量的局限,不過(guò)它依然符合我們的基本認(rèn)知。由于它考察的是手機(jī)保有量,而非當(dāng)季最新出貨量,所以仍有大量老設(shè)備活躍。其中PowerVR Series7XT,實(shí)際是iPhone 7時(shí)代的GPU。其他更多出現(xiàn)在榜單上的設(shè)備皆來(lái)自高通和Arm。
下面的對(duì)比中,我們考察這些市場(chǎng)玩家最新推出的GPU旗艦產(chǎn)品,以及上一代GPU旗艦產(chǎn)品——除了蘋果這樣相對(duì)特殊的市場(chǎng)參與者,通常在GPU IP發(fā)布的半年到2年的時(shí)間里,實(shí)際的芯片產(chǎn)品才會(huì)問(wèn)世,所以這些廠商的上一代GPU產(chǎn)品通常才是當(dāng)前活躍在市場(chǎng)上的旗艦。
那么實(shí)際的對(duì)比對(duì)象就十分明確了,即:
? 蘋果A13 Bionic
? 蘋果A12 Bionic
? 高通Adreno 650(高通驍龍865)
? 高通Adreno 640(高通驍龍855)
? Arm Mali G77(三星Exynos 990/聯(lián)發(fā)科天璣1000)
? Arm Mali G76(三星Exynos 9820/海思Kirin 990、980)
? Imagination PowerVR A-Series
? Imagination PowerVR Series 9
需要注意的是,Imagination的近兩代IP實(shí)際上都沒有具體的芯片產(chǎn)品問(wèn)世,Series 9XT的Furian架構(gòu)作為轉(zhuǎn)瞬即逝的一代架構(gòu),很難做具體的量化,所以Imagination PowerVR只會(huì)在本文稍稍帶過(guò)。我們主要要對(duì)比的主角就是蘋果、高通、Arm。
話當(dāng)年Arm與競(jìng)爭(zhēng)對(duì)手的巨大差距
Arm Mali GPU在性能和能效方面相較蘋果和高通的差距,是的的確確存在于過(guò)往歷史中的。2016年,高通驍龍835(Adreno 540)時(shí)代,同場(chǎng)競(jìng)技的選手分別是蘋果A11和Arm Mali G72/71。這時(shí)的Arm Mali GPU幾乎被前兩者吊打,無(wú)論是性能還是能效。
在此之前的Arm Mali GPU也基本處于被高通、蘋果按在地上摩擦的水平。其中比較具有代表性的是海思Kirin 960,這顆SoC選擇的是Mali G71MP8方案。Mali G71是最早采用Bifrost微架構(gòu)的一代GPU IP。
當(dāng)時(shí)采用Kirin 960的華為Mate 9在跑T-Rex霸王龍測(cè)試時(shí)(GFXBench),平均功耗達(dá)到了驚人的9.5W——要知道那會(huì)兒采用高通驍龍SoC、散熱設(shè)計(jì)最差的手機(jī)GPU平均功耗封頂也才5W,且驍龍821(Adreno 530)只需要Kirin 960不到40%的功耗就能達(dá)到相同的性能水平。在能效方面(Perf/W),驍龍821的GPU(Adreno 530)超過(guò)Kirin 960(Mali G71MP8)一倍還多。[5]
T-Rex是ALU算力需求較低,更偏向于Texture紋理、填充率和三角形輸出率的測(cè)試項(xiàng)目。而另一項(xiàng)知名的Manhattan 3.1測(cè)試,Kirin 960的情況也是慘不忍睹的。即便是一年以后的Kirin 970(Mali G72MP12)大幅提升了能效和性能,跑T-Rex測(cè)試也同樣需要同時(shí)代驍龍835(Adreno 540)2倍以上的功耗,才可勉強(qiáng)達(dá)到差不多的圖形計(jì)算性能,能效此時(shí)剛剛達(dá)到了驍龍835的一半。[6]
那會(huì)兒驍龍835的GPU平均功耗穩(wěn)定在3.5-3.8W,相比前面幾代都還在穩(wěn)步降低;海思Kirin與三星Exynos這些采用Mali GPU的SoC則明顯高于這個(gè)值一截。當(dāng)時(shí)華為Mate 10(Kirin 970)跑Manhattan 3.1測(cè)試的平均功耗遠(yuǎn)高于其可持續(xù)運(yùn)行發(fā)熱控制閾限所在的6.3W,T-Rex測(cè)試可飆至接近8W。更氣人的是,Mali G71/G72沿用了Midgard架構(gòu)時(shí)代的texture單元,還在采用雙線性過(guò)濾方案,所以游戲畫質(zhì)還落后于同時(shí)代的Adreno GPU[7]。
那應(yīng)該是高通Adreno在性能與效率表現(xiàn)上最風(fēng)光的年代,驍龍835(Adreno 540)的峰值性能雖然沒有同時(shí)代的蘋果A11(iPhone 8/X)彪悍,但持續(xù)性能達(dá)到了同等水平——Galaxy S8的長(zhǎng)時(shí)間游戲體驗(yàn)實(shí)際也強(qiáng)于iPhone 8/X。
然而高通Adreno相較蘋果A系列的持平水準(zhǔn),以及相比Arm Mali的絕對(duì)領(lǐng)先優(yōu)勢(shì)在2019年的驍龍855身上逐漸喪失;不僅是蘋果在GPU方面的持續(xù)發(fā)力,而且有Arm的越來(lái)越逼近。
2019年的那些移動(dòng)GPU
2019年的Android旗艦主要采用的SoC就是高通驍龍855(+)、華為海思Kirin 990,以及三星Exynos 9820。同代iOS設(shè)備即iPhone 11采用的是蘋果自家的A13 Bionic SoC,GPU部分依然是蘋果自研的IP方案。在對(duì)比跑分?jǐn)?shù)據(jù)之前,還是先聊聊這幾款產(chǎn)品(或IP)相比前代的一些變化。
Bifrost架構(gòu)前兩代產(chǎn)品G71/G72相對(duì)災(zāi)難性的表現(xiàn),在Mali G76身上得到了極大程度的緩解。2018年3月,Arm宣布推出Mali G76時(shí)宣稱,基于TSMC 7nm工藝的Mali G76預(yù)計(jì)能實(shí)現(xiàn)性能50%的提升,性能密度提升30%、微架構(gòu)效率提升30%。至于機(jī)器學(xué)習(xí)性能2.7倍提升就不是本文要探討的重點(diǎn)了。
Mali G76雖然仍是Bifrost架構(gòu),但優(yōu)化幅度還是比較大的。其中比較值得一提的是后端執(zhí)行部分的加寬:G71/G72采用的是4-wide SIMD單元,每條lane處理單獨(dú)的FMA(Fused-multiply-add,融合乘加)和ADD/SF(加法)管線;也就是說(shuō)單周期wavefront寬度就是4指令;Mali G76將其拓寬至8-wide,比先前加倍了ALU單元數(shù)量。
Arm一直在采用很窄的wavefront——可對(duì)比的是,我們?cè)贗magination A-Series架構(gòu)剖析中提到[2],A-Series的這部分已經(jīng)拓寬到了128-wide。Arm采用這種較窄的方案,原因是期望避免線程發(fā)散(thread divergence)帶來(lái)的ALU閑置問(wèn)題。不過(guò)較窄的wavefront(或warp size)帶來(lái)的問(wèn)題就是,與ALU配套的控制邏輯電路更多,ALU單元數(shù)量與控制電路之比更小。更寬的SIMD可以帶來(lái)更好的芯片面積效益,實(shí)際相同芯片尺寸下也可以塞進(jìn)更多的ALU單元。4-wide就實(shí)際代碼的線程發(fā)散來(lái)看,也實(shí)在沒有必要。Arm自己也說(shuō),現(xiàn)在的游戲GPU代碼粒度需求和G71時(shí)期已經(jīng)不大一樣了。
與SIMD lane同時(shí)提升的,還有相應(yīng)支持的cache和通路,以及像素、紋素(texel)硬件,保持先前相同的ALU與紋理/像素單元的數(shù)量比值關(guān)系。G76實(shí)際上有些類似于把兩個(gè)G72核心合并成一個(gè)核心,但實(shí)際所占的面積卻比兩個(gè)核心小得多。Arm官方比較推薦的G76核心數(shù)目是12個(gè),雖然這樣的小核心數(shù)量仍然比蘋果、高通Adreno這些GPU多多了,但G76在走多核心、小核心的思路上已經(jīng)發(fā)生了一定程度的轉(zhuǎn)變。
G76相比前代的其他改進(jìn)還包括增加INT8的進(jìn)一步支持——這應(yīng)該主要是針對(duì)機(jī)器學(xué)習(xí)的;針對(duì)多邊形回寫操作,G76采用亂序回寫機(jī)制,在發(fā)生回寫停滯時(shí)具備了更好的操作彈性;其他調(diào)整還有針對(duì)tile buffer、線程本地存儲(chǔ)機(jī)制等。
就Arm自己紙面上對(duì)Mali G76的宣傳來(lái)看,這種提升其實(shí)是比較中規(guī)中矩的,并非大幅跨越。
有關(guān)高通Adreno 640(驍龍855)能談的理論部分則并不多,因?yàn)锳dreno對(duì)外界而言始終是個(gè)黑匣子,高通幾乎不對(duì)外界披露太多有關(guān)Adreno的技術(shù)細(xì)節(jié)。可分享的是高通提供的一些數(shù)據(jù),包括相比上代提升20%性能(相比Adreno 630);另外高通還在發(fā)布會(huì)上提到Adreno 640增加了執(zhí)行FP32、FP16操作的ALU單元數(shù)量,增加50%。外媒AnandTech曾推測(cè)Adreno 630每個(gè)核心的ALU數(shù)量是256個(gè)[8],總共2個(gè)核心。
那么這樣算來(lái)Adreno 640每個(gè)核心的ALU數(shù)量為384個(gè),雙核總共768個(gè)(理論上Adreno小升級(jí)應(yīng)該不會(huì)再增加核心數(shù))。ALU lane數(shù)量增加和高通宣稱20%的性能提升并不對(duì)等,所以預(yù)計(jì)Adreno 640的頻率可能是下降的。另外高通在《絕地求生》40fps演示中宣稱功耗下降將近30%,未知這里的功耗指的具體是什么功耗。
Adreno 640在特性方面包括支持真正的HDR游戲、Physically Based Rendering(基于物理的渲染)游戲——通過(guò)更為準(zhǔn)確的光線物理與材料交互,讓游戲、虛擬現(xiàn)實(shí)提升真實(shí)性;圖形管線支持10bit色深、Rec 2020色域來(lái)實(shí)現(xiàn)HDR,支持HDR10+與Dolby Vision格式;支持120fps游戲、8K 360°視頻回放。
來(lái)源:ChipRebel[9],TechInsights[10] via AnandTech
這部分最后再來(lái)談?wù)勌O果A12/A13。蘋果本身也很少公開自家GPU的技術(shù)信息。我們可挖掘的大致也就是通過(guò)die shot來(lái)做觀察。A12的GPU部分看起來(lái)實(shí)則非常像A11——蘋果A11采用的仍然是Imagination的Rogue架構(gòu)GPU。A12采用的仍然是TBDR(基于tile的延后渲染)機(jī)制,這在移動(dòng)GPU中比較有代表性的目前也就是Imagination了;此外蘋果也支持PVRTC紋理壓縮(PowerVR Texture Compression)。有充分理由相信即便蘋果2017年和Imagination停止合作,其“自研”GPU也依然保留了Imagination基因,只是雙方的授權(quán)協(xié)議細(xì)節(jié)未知。
A12 GPU(iPhone Xs)一個(gè)較大的改進(jìn)在于支持內(nèi)存壓縮,即從GPU到主內(nèi)存的frambuffer壓縮。蘋果是支持GPU存儲(chǔ)壓縮特性,相對(duì)比較晚的一家SoC廠商了。不過(guò)從實(shí)際效果來(lái)看,這個(gè)特性的加入的確讓A12 GPU實(shí)現(xiàn)了很大程度的性能與效率提升。蘋果宣稱A12 GPU性能提升達(dá)到了50%,核心數(shù)目增加到4個(gè)。
A13 die shot,來(lái)源:AnandTech[11]
A13 GPU(iPhone 11)的die shot可見,最大變化在于后端ALU模塊和紋理單元,前端部分看起來(lái)是比較相似的;蘋果宣稱A13性能提升20%,相同性能下的功耗下降40%;另外蘋果特別提到加強(qiáng)了SoC散熱能力:iPhone X與Xs的發(fā)熱表現(xiàn)的確比較巨量。
Adreno、Mali、蘋果GPU實(shí)際性能對(duì)比
以上基本都是理論分析,和廠商宣傳中的性能提升。在此我們基于AnandTech過(guò)去1年所做的測(cè)試,做GPU基準(zhǔn)跑分匯總對(duì)比。
在測(cè)試對(duì)比的手機(jī)設(shè)備選擇上,A12、A13顯然就是iPhone Xs Max與iPhone 11 Pro Max這兩款機(jī)型;Arm Mali G76的選擇也比較簡(jiǎn)單,對(duì)應(yīng)華為Mate 30 Pro(Kirin 990),與三星Galaxy S10+(Exynos 9820)。
尤為值得一提的是,海思Kirin 990的Mali G76方案規(guī)模更大,海思采用的是16個(gè)核心的Mali G76,頻率約在600MHz(Kirin 990 5G似有將頻率提升至700MHz);三星Exynos 9820的GPU配置為Mali G76MP12,頻率約在702MHz。
Adreno 640(驍龍855)的終端設(shè)備選擇比較多樣,而且不同手機(jī)制造商對(duì)Adreno 640的系統(tǒng)設(shè)計(jì)所呈現(xiàn)的性能、效率差別實(shí)則是比較大的。這里我們選擇實(shí)施方案比較有代表性的幾款機(jī)型,分別是一加7 Pro,谷歌Pixel 4 XL,以及黑鯊2、三星Galaxy S10+(驍龍855版)。通過(guò)多款機(jī)型的對(duì)比,實(shí)則也能看出OEM制造商在系統(tǒng)、散熱設(shè)計(jì)方面的功力。
需要注意的是,這幾款GPU(及對(duì)應(yīng)的SoC),以及手機(jī)上市的時(shí)間是不一樣的,跨度可能超過(guò)了半年;而且手機(jī)由于屏幕尺寸差異,散熱效率的基礎(chǔ)也不一樣——屏幕尺寸有市場(chǎng)定位導(dǎo)向,并不是廠商可任意做大的;針對(duì)不同細(xì)分市場(chǎng)也存在手機(jī)散熱設(shè)計(jì)、溫控機(jī)制等差別,比如黑鯊2是游戲定位的,它以犧牲手機(jī)輕薄性為代價(jià)做整體系統(tǒng)設(shè)計(jì),理論上可以獲得更好的性能表現(xiàn)(但似乎也只是理論上)。
這里還需要強(qiáng)調(diào)一點(diǎn),蘋果A13的制造工藝會(huì)更先進(jìn),而三星Exynos 9820則相較其他SoC的制造工藝都略遜一籌,為8nm LPP。所以并不能簡(jiǎn)單說(shuō),誰(shuí)跑分更高、誰(shuí)的設(shè)計(jì)就一定更優(yōu)秀。且測(cè)試仍涉及軟件、系統(tǒng)、驅(qū)動(dòng)層面,所以這里的對(duì)比可能并不嚴(yán)謹(jǐn)。
測(cè)試項(xiàng)目選擇是AnandTech常規(guī)的幾項(xiàng),包括了3DMark Sling Shot 3.1 Extreme Unlimited – Physics/Graphics
數(shù)據(jù)匯總自AnandTech
在以上測(cè)試項(xiàng)中,我們認(rèn)為最能表現(xiàn)GPU圖形計(jì)算能力的,就是GFXBench Manhattan(曼哈頓),T-Rex(霸王龍),以及Aztec Ruins高畫質(zhì)測(cè)試場(chǎng)景,測(cè)試結(jié)果單位為幀率(fps,每秒幀數(shù))。不過(guò)這幾個(gè)測(cè)試都有自己的偏向性,比如T-Rex測(cè)試相對(duì)而言更偏向GPU紋理與填充率吞吐表現(xiàn),而Manhattan則屬于shader核心重型任務(wù)。圖表中橙色柱狀條表示持續(xù)性能,藍(lán)色表示峰值性能。
需要指出的是,峰值性能并不是沒有意義的。蘋果在早期宣傳中更喜歡談持續(xù)性能——即持續(xù)長(zhǎng)時(shí)間跑圖形計(jì)算高負(fù)荷任務(wù)的穩(wěn)定性能狀態(tài),因?yàn)檫@對(duì)于游戲的實(shí)際體驗(yàn)才是更有價(jià)值的數(shù)據(jù)。但從iPhone Xs開始,蘋果也越來(lái)越關(guān)注設(shè)備的峰值性能,因?yàn)榉逯敌阅茏非蟮氖撬矔r(shí)突發(fā)性能:iPhone在大量場(chǎng)景實(shí)際都依賴GPU計(jì)算,包括app中的通用硬件加速,甚至拍照處理的GPU計(jì)算——這類場(chǎng)景更看重突發(fā)性能,需要盡最快速度處理一些固定負(fù)載任務(wù)。GPU的這種通用性,令其峰值性能成為需要考察的重要指標(biāo)。Android系統(tǒng)近些年實(shí)則也一直在這方面努力。
從我們匯總的柱狀圖不難發(fā)現(xiàn),蘋果A12/A13在GPU性能方面是獨(dú)占鰲頭的,其他表現(xiàn)最出色的GPU峰值性能才剛剛達(dá)到了A12的持續(xù)性能。
而高通Adreno 640組(中間4款設(shè)備)與Arm Mali G76組(最后2款設(shè)備)的對(duì)比,至少就性能來(lái)看是很難簡(jiǎn)單分出伯仲的。尤其我們看到華為Mate 30 Pro在Mali G76的方案實(shí)施中表現(xiàn)出了完全能夠和Adreno 640比肩的性能水平,持續(xù)性能甚至比絕大部分Adreno 640機(jī)型表現(xiàn)更出色。
而且海思Kirin 990這一代Mali實(shí)施方案,也真正實(shí)現(xiàn)了對(duì)三星Exynos的超越——這在以往也是比較少見的,因?yàn)榍靶┠耆强偰茉谕鶤rm Mali實(shí)施方案中領(lǐng)先于海思。不過(guò)這一點(diǎn)仍需要考慮到Kirin 990的GPU是在Kirin 980基礎(chǔ)上的一次改良,且Kirin 990推出時(shí)間遠(yuǎn)晚于三星Exynos 9820。
值得一提的是,雖然一加7 Pro在持續(xù)性能和峰值性能方面看來(lái)十分接近,也表現(xiàn)出了Adreno 640機(jī)型的最佳水準(zhǔn),但這和一加7 Pro溫控機(jī)制十分激進(jìn)有關(guān)——這款手機(jī)允許屏幕表面溫度飆升到51℃,所以其持續(xù)性能會(huì)明顯強(qiáng)于其他Android機(jī)型。可對(duì)比的是Galaxy S10+溫控會(huì)將設(shè)備表面溫度控制在42-43℃之間;華為Mate 30 Pro則在45℃上下。這組數(shù)據(jù)中另外比較奇怪的是黑鯊2,這是一款定位玩游戲的手機(jī),但AnandTech測(cè)試中,其溫控非常保守,導(dǎo)致黑鯊2在整個(gè)Adreno 640(驍龍855)陣營(yíng)中都屬于性能較弱的水平。
來(lái)源:AnandTech
性能表現(xiàn)之外,GPU的功耗和效率也很重要。這里選擇Manhattan與T-Rex測(cè)試的系統(tǒng)有功功率(從設(shè)備總功耗中減去相應(yīng)負(fù)載場(chǎng)景的閑時(shí)功耗),以及最終的效率來(lái)做對(duì)比——這是以往Arm Mali被蘋果和高通碾壓的絕對(duì)弱勢(shì)項(xiàng)(主要可以參見表中最末一位的Exynos 8895)。
iPhone這兩年若單論GPU突發(fā)以及平均功耗(第四列Avg. Power),可以說(shuō)是高得驚人的,尤其A12快速推升到高性能的動(dòng)作,會(huì)將3Dmark跑到崩潰,崩潰前的瞬時(shí)功耗可達(dá)7-8W;A13已經(jīng)收斂不少,但峰值功耗依然可超過(guò)6.2W。上表中,iPhone后面的“Warm”表示在測(cè)試項(xiàng)跑過(guò)3遍以后,整體GPU性能會(huì)下降并趨于穩(wěn)定,這個(gè)狀態(tài)下的功耗會(huì)更加合理;而“Cold/Peak”則表示設(shè)備溫度較低時(shí),初始跑測(cè)試可達(dá)到的狀態(tài)。
蘋果A12(iPhone Xs Max)在用戶體驗(yàn)方面并不算好,主要原因是在GPU任務(wù)負(fù)載伊始,就傾向于快速達(dá)到滿負(fù)荷運(yùn)轉(zhuǎn)狀態(tài),并致設(shè)備在使用的前幾分鐘就明顯升溫。實(shí)際上蘋果GPU的持續(xù)性能已經(jīng)足以應(yīng)付大部分工作,而不需要在很多時(shí)候這么“拼”。蘋果在A13這一代更偏著力在溫控方面,體驗(yàn)也就比A12好了很多。
即便如此,如果看能效——即性能成績(jī)÷功率=每瓦性能(上表中的最后一列),則A12/A13 GPU部分依然能夠甩開其他競(jìng)爭(zhēng)對(duì)手很遠(yuǎn)的距離。在達(dá)到與A12 GPU相同性能水平下,A13 GPU的功耗低了32%——雖然沒有蘋果吹的40%那么厲害,但也已經(jīng)十分優(yōu)秀。
過(guò)去高通Adreno雖然在絕對(duì)性能上無(wú)法與蘋果Ax GPU相提并論,但在能效方面,高通離蘋果還是十分接近甚至不相伯仲的。但在最新一代產(chǎn)品中高通似乎已經(jīng)被蘋果甩開了一段距離。T-Rex測(cè)試中,驍龍855版Galaxy 10+的GPU能效水平為40.70fps/W,相較穩(wěn)定狀態(tài)下的A13差距達(dá)到了將近50%。
更糟糕的是,Mali G76似乎已經(jīng)在游戲圖形計(jì)算效率方面達(dá)到了與Adreno幾乎持平的水平。Mali對(duì)Adreno的步步緊逼,實(shí)則更體現(xiàn)在2018年的上一代Mali G76產(chǎn)品上,同樣采用Mali G76的海思Kirin 980(但實(shí)施方案與Kirin 990有差異),當(dāng)時(shí)宣稱GPU能效(power efficiency)提升178%——2018年AnandTech針對(duì)Kirin 980 GPU(Mali G76MP10)的測(cè)試發(fā)現(xiàn),在GPU滿載狀態(tài)下,平均能效提升相比Kirin 980(Mali G72)達(dá)到了100%,如果按照相比Kirin 970同等性能時(shí)的功耗與效率來(lái)看,則其GPU能效提升的確可能達(dá)到了華為宣傳中的178%,這在行業(yè)內(nèi)都是相當(dāng)罕見的提升幅度。
不過(guò)Kirin 980的GPU依然在性能和效率方面落后于同代驍龍845,部分測(cè)試的能效成績(jī)與驍龍835接近。但此時(shí)的差距已經(jīng)比Kirin 970時(shí)期縮小了非常多。到Kirin 990在GPU能效方面的表現(xiàn),就Aztec與Manhattan測(cè)試已經(jīng)能夠和驍龍855打得有來(lái)有回,甚至部分超越(不過(guò)這與不同手機(jī)設(shè)備的具體情況仍然相關(guān)),這在以往是從來(lái)沒有過(guò)的。
最后再來(lái)看看3Dmark Sling Shot 3.1 Extreme Unlimited – Physics/Graphics測(cè)試,這兩項(xiàng)測(cè)試側(cè)重考察的性能重點(diǎn)與前面的測(cè)試不同,3Dmark Physics測(cè)試實(shí)際上是3D負(fù)載中偏CPU性能的測(cè)試。華為Mate 30 Pro表現(xiàn)出了最出色的成績(jī),這和Cortex A76的prefetcher加強(qiáng),以及Kirin 990本身的存儲(chǔ)子系統(tǒng)加強(qiáng)有關(guān);Graphics偏重圖形測(cè)試,蘋果仍然表現(xiàn)出了不錯(cuò)的成績(jī),對(duì)驍龍855實(shí)施比較激進(jìn)的一加7 Pro也表現(xiàn)不錯(cuò)。
需要再次強(qiáng)調(diào)的是,測(cè)試結(jié)果與系統(tǒng)、軟件版本都有關(guān)系,iPhone在3Dmark測(cè)試中的表現(xiàn)普遍并不算出色,必然是遇到了一些瓶頸的;基于iPhone Xs Max,在iOS 12與13兩套系統(tǒng)中的3Dmark Graphics測(cè)試結(jié)果上就存在20%的差別。所以上述結(jié)果和展示方法并不嚴(yán)謹(jǐn)。
不過(guò)在以上整體對(duì)比中,我們甚至可以認(rèn)為,圖形計(jì)算頭一次不再成為Arm Mali,以及海思Kirin SoC的軟肋。這和兩年前的狀況已大不相同。
不過(guò)以上我們并沒有對(duì)比GPU的“面積效率”或“性能密度”,比如蘋果A13的GPU部分總面積達(dá)到了15.28mm2,這是相較大部分移動(dòng)GPU都明顯更大、成本更高的方案。高通驍龍和Adreno系列近些年都是以小尺寸著稱的。
三星Exynos 9820與海思Kirin 990 5G die shot,分別來(lái)自ChipRebel[13]與TechInsights[14],標(biāo)注是由AnandTech進(jìn)行的
從TechInsights公開的信息來(lái)看,驍龍855的die size為73.27mm2,這是主流SoC中相當(dāng)小的方案。只是沒有研究機(jī)構(gòu)公開對(duì)驍龍855 die的模塊labeling,所以我們不清楚Adreno 640大致占到其中多大的面積。可參考驍龍845的Adreno 630占地面積為10.69mm2[15]——考慮到Adreno 640加大了后端,其尺寸理論上會(huì)更大。
而上圖分別是Exynos 9820與Kirin 990 (5G版)的die shot。Exynos 9820的die size大約是127mm2;Kirin 990 5G的整體die size約為113mm2。Kirin 990 5G雖然采用的制造工藝更先進(jìn),但因?yàn)镚PU規(guī)模更大,目測(cè)實(shí)施方案的占地面積可能會(huì)大于Exynos 9820的方案,整體應(yīng)該是差不太多的。
Imagination在上個(gè)月的發(fā)布會(huì)上提到,Exynos 9820的Mali G76MP12用184%的面積,才達(dá)到與驍龍855 Adreno 640相同的性能——如果這個(gè)數(shù)據(jù)是準(zhǔn)確的,那么高通目前仍然在面積效率方面具有相當(dāng)?shù)念I(lǐng)先優(yōu)勢(shì),即便Mali GPU已經(jīng)在性能和能效方面做到了幾乎與Adreno齊頭并進(jìn)。這一點(diǎn)我們猜測(cè)與Arm Mali仍然采用較窄的wavefront(或warp size),以及小核心、多核心的思路有關(guān)。
2020年的移動(dòng)GPU展望
2019年年中,Arm發(fā)布Mali G77,我們之前也已經(jīng)在《ARM新版Mali GPU簡(jiǎn)析:這次終于趕超高通和蘋果?》一文中對(duì)Mali G77的架構(gòu)改進(jìn)做了比較具體的闡述[1]。這次在架構(gòu)層面的改進(jìn)幅度還是相當(dāng)之大的,新的Valhall架構(gòu)進(jìn)一步將執(zhí)行引擎的wavefront size(或warp size)增加到16-wide;以前的3個(gè)執(zhí)行引擎合并后分成兩條ALU管線,每條有各自的FMA相關(guān)單元(融合乘加單元,也就是每個(gè)核心32個(gè)FMA);TMU單元(紋理貼圖單元)吞吐能力翻番。
Arm當(dāng)時(shí)提到,G77的性能密度提升30%(每mm2性能提升1.2-1.4倍),能效提升30%(每瓦性能提升1.20-1.39倍);綜合峰值圖形性能預(yù)計(jì)可提升40%——這個(gè)值當(dāng)然與不同廠商的實(shí)施方案還將息息相關(guān)。
前不久,高通也發(fā)布了最新的驍龍865及與其配套的Adreno 650。比較令人在意的是,高通今年的Adreno仍然停留在600系列——這樣一來(lái),這已經(jīng)是高通連續(xù)第三年采用Adreno 600系列來(lái)為產(chǎn)品冠名了,這在以前似乎是從沒有過(guò)的,可見這代升級(jí)仍然并不是什么太大幅度的升級(jí)。
高通提到,Adreno 650還將繼續(xù)增加ALU單元+50%,以及像素渲染單元+50%(每個(gè)時(shí)鐘周期處理+50%的像素,也就是ROP光柵化處理),預(yù)計(jì)總體性能提升為25%。如果說(shuō)ALU單元數(shù)量增加50%,推測(cè)Adreno 650的核心數(shù)可能要增加一個(gè),或者也可能是單核ALU數(shù)量變?yōu)?12個(gè);ROP單元也增加的話,最終講改變處理紋素:像素單元比例。而在功耗與效率方面,高通表示在相同性能水平下,Adreno 650效率會(huì)高出35%;另外持續(xù)性能會(huì)明顯優(yōu)于Adreno 640。
AnandTech對(duì)驍龍865的參考設(shè)計(jì)機(jī)型做了測(cè)試[16],僅有峰值性能數(shù)據(jù)。這里只摘錄其中的Manhattan 3.1與T-Rex 2.7測(cè)試項(xiàng),其GPU性能水平如上圖所示。測(cè)試結(jié)果基本符合高通所說(shuō)的25%性能提升,峰值性能優(yōu)于2019年的Adreno 640與Mali G76,但仍未達(dá)到蘋果A12的水平。其能效(Perf/W)接近A12的水平,領(lǐng)先于Mali G76與Adreno 640——這一點(diǎn)當(dāng)然也是必然的,這里不再給出詳細(xì)數(shù)據(jù)。
值得一提的是,最終驍龍865手機(jī)依然會(huì)由于OEM廠商在實(shí)施方案上的差別而存在性能與能效的差異,所以這個(gè)數(shù)據(jù)只能作為參考。
25%的性能提升實(shí)際是年度迭代比較符合常規(guī)的數(shù)字,不過(guò)如果Arm宣傳中提到的Mali G77性能與能效提升水平的確能夠?qū)崿F(xiàn),那么高通的這點(diǎn)提升將不具有競(jìng)爭(zhēng)力——至少在性能與功耗效率方面,Adreno在2020年有被Mali趕超的可能性,高通正逐漸丟失往日相較Arm在圖形計(jì)算方面的絕對(duì)優(yōu)勢(shì)地位;且與蘋果存在越來(lái)越大的差距。
最后仍然需要提到Imagination,雖然Imagination近些年在移動(dòng)GPU的市場(chǎng)份額方面還在逐年萎縮,但在GPU性能與效率上卻是個(gè)十分恐怖的競(jìng)爭(zhēng)對(duì)手,尤其在前一陣PowerVR A-Series新架構(gòu)發(fā)布以后,我們也已經(jīng)對(duì)新架構(gòu)做了相對(duì)詳細(xì)的解析[2]。
Imagination宣稱,如果將Adreno 640的占地面積和性能均視作100%,則Mali G76需要184%的面積才能達(dá)到100%的性能;而A-Series GPU可以“更小、更低的功耗”實(shí)現(xiàn)175%的性能。這個(gè)數(shù)字實(shí)則遠(yuǎn)超今年即將大規(guī)模上線的高通Adreno 650,以及Arm Mali G77。
而且就在這兩天,Imagination剛剛宣布蘋果再度與其簽署多年授權(quán)協(xié)議,未來(lái)蘋果A系列芯片的GPU仍能見到Imagination的IP方案,雖然我們不清楚個(gè)中合作細(xì)節(jié),蘋果目前“自研”的GPU IP中也還能見到Rogue架構(gòu)的影子。但或許,蘋果對(duì)于Imagination這次發(fā)布的A-Series,以及規(guī)劃中的B-Series、C-Series、D-Series都十分感興趣。
而蘋果與Imagination恢復(fù)合作,預(yù)計(jì)還將促成更多SoC制造商與Imagination的合作。這將成為刺激移動(dòng)GPU市場(chǎng)推進(jìn)的又一大變數(shù)。在2020年的移動(dòng)GPU市場(chǎng)上,高通大概是現(xiàn)如今最需要重整旗鼓的市場(chǎng)玩家了。
-
cpu
+關(guān)注
關(guān)注
68文章
10902瀏覽量
213013 -
gpu
+關(guān)注
關(guān)注
28文章
4774瀏覽量
129353 -
soc
+關(guān)注
關(guān)注
38文章
4204瀏覽量
219093
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論