吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

RISC-V架構(gòu)下DSA-AI算力的更多可能性:Banana Pi BPI-F3進(jìn)迭時空

Banana Pi開源硬件 ? 來源:Banana Pi開源硬件 ? 作者:Banana Pi開源硬件 ? 2024-09-07 10:30 ? 次閱讀

AI已經(jīng)從技術(shù)走向應(yīng)用,改變了我們的生活和工作方式。近些年,AI算力芯片領(lǐng)域群雄逐鹿,通過對芯片、算力與AI三者發(fā)展迭代過程的理解,我們發(fā)現(xiàn)高能效比的算力、通用的軟件棧以及高度優(yōu)化的編譯器,是我們的AI算力產(chǎn)品邁向成功的必要條件。

進(jìn)迭時空作為計算芯片企業(yè),我們對RISC-V架構(gòu)CPU進(jìn)行高度定制,不斷挖掘其在計算中的潛力,在RISC-V生態(tài)強(qiáng)大的軟件棧與CPU領(lǐng)域成熟的編譯器的基礎(chǔ)上對RISC-V DSA進(jìn)行聯(lián)合優(yōu)化并提供軟硬一體的計算解決方案,給AI領(lǐng)域帶來高效、易用的算力。

Banana Pi BPI-F3

GPGPU作為HPC領(lǐng)域(通用算力)的DSA打開了AI的大門

在上世紀(jì)80年代到90年代之間,隨著科技的迅速發(fā)展,CPU的性能每隔約18到20個月就會翻倍。這便是英特爾Intel)創(chuàng)始人之一戈登·摩爾提出的摩爾定律(Moore's Law)的核心內(nèi)容。其含義是,每隔大約18個月,同一款軟件在新發(fā)布的CPU處理器上的運(yùn)行速度都能直接翻倍。

大約在2004年5月份,轉(zhuǎn)折點(diǎn)出現(xiàn)了。當(dāng)時,Intel取消了他們新一代單核處理器的開發(fā)工作,而將注意力轉(zhuǎn)向了雙核處理器的設(shè)計。稍晚的同年,Herb Sutter撰寫了著名的《The Free Lunch Is Over(不再有免費(fèi)午餐)》,主要表達(dá)了這樣一個觀點(diǎn):除非軟件的開發(fā)采用多核多線程的設(shè)計,否則就無法再像過去那樣每隔一年多時間就獲得一倍的加速效果。正如下圖所示,CPU處理器的單核計算性能開始接近一個平臺區(qū)間,通過增加晶體管密度提升計算性能的方法已經(jīng)顯得力不從心,因?yàn)樾酒叽绲牟粩嗫s小總會遇到其物理極限。這意味著要獲得更高的性能提升,就需要采用新的方法。

wKgZombbusaAB5fzAAOHo47gxSY488.jpg

添加圖片注釋,不超過 140 字(可選)

圖一:42年間的微處理器趨勢數(shù)據(jù)

隨著晶體管數(shù)量增加到一定程度,CPU單核性能的增加開始衰減并面臨瓶頸

在摩爾定律效應(yīng)放緩的后摩爾時代,持續(xù)提升處理器性能的重要技術(shù)理念是Domain-Specific Architectures(DSA)。DSA利用可編程的專用集成電路ASICs)來加速特定高強(qiáng)度的處理器負(fù)載,例如圖形渲染、AI神經(jīng)網(wǎng)絡(luò)的前向推理計算以及提高巨量網(wǎng)絡(luò)數(shù)據(jù)的吞吐等。

架構(gòu)的定義包含指令集架構(gòu)與微架構(gòu)。指令集架構(gòu)是軟件與硬件對話的接口,類似于詞典中的詞條,而軟件程序則是使用這些詞條編寫的書籍。

wKgaombbuseALOzfAABi0mXNNco670.jpg

添加圖片注釋,不超過 140 字(可選)

圖二:架構(gòu)設(shè)計哲學(xué)

DSA的理念是通過面向特定領(lǐng)域的架構(gòu)設(shè)計來縮小應(yīng)用范圍,從而實(shí)現(xiàn)更高的性能或更好的能效比,同時保持可編程的靈活性。

? 面向領(lǐng)域的架構(gòu)設(shè)計可以以較低的成本獲取較高的算力,以滿足算力需求。

? 指令集架構(gòu)的可編程性帶來了相對通用的算力,為下一代算法的應(yīng)用和覆蓋更廣泛的領(lǐng)域提供了無限的可能。

DSA的概念由2017年圖靈獎得主Henessy和Patterson提出,并在題為《創(chuàng)新體系結(jié)構(gòu)將迎來新的黃金時代》的演講中進(jìn)行了闡述。我們最熟悉的DSA之一可能是顯卡(Graphics Processing Unit即GPU),它在游戲、影音娛樂等領(lǐng)域中扮演著重要角色。

NVIDIA公司于1999年發(fā)布其標(biāo)志性產(chǎn)品GeForce256時首次提出了GPU的概念。其實(shí)質(zhì)是為了加速計算3D虛擬世界的渲染,從而降低CPU的負(fù)載。GPU技術(shù)的進(jìn)步推動了顯卡殺手級游戲引擎的激進(jìn)發(fā)展,到如今,游戲畫面的逼真程度已經(jīng)堪比真人版電影。

時間來到2006年,NVIDIA發(fā)布了GeForce 8800 GTX(核心代號G80),與G80一同發(fā)布的還有著名的CUDA(compute unified device architecture),并提供了驅(qū)動程序和C語言擴(kuò)展。

CUDA的發(fā)展至今,區(qū)別于開放計算語言(OpenCL跨平臺并行編程的獨(dú)立開放標(biāo)準(zhǔn)),開發(fā)人員可以使用流行的語言(C、C++、Fortran、Python、MATLAB等)編寫CUDA程序,并使用幾個基本的關(guān)鍵字即可將并行性添加到他們的代碼中,而不僅僅局限于使用C語言。盡管理論上OpenCL的運(yùn)行時編譯能夠帶來更高的執(zhí)行效率,但實(shí)際上由于CUDA是由同一家開發(fā)執(zhí)行其功能的硬件的公司開發(fā),所以后者能更好地匹配GPU的計算特性,從而提供更好的性能。

CUDA便捷的編程模型和優(yōu)秀的編譯器使得硬件資源能夠被更充分地利用,從而拓展了GPU的應(yīng)用領(lǐng)域。如圖三所示,G80核心能夠提供與同時期以CPU為中心的高性能處理器相當(dāng)甚至更高的計算能力。這一優(yōu)點(diǎn)引起了高性能計算(High-Performance Computing HPC)社區(qū)的關(guān)注,并加入到CUDA的生態(tài)系統(tǒng)中進(jìn)行研究。此外,NVIDIA公司還提供了cuBLAS、cuRAND、cuSPARSE、cuSolver、cuFFT、NPP等一系列實(shí)用高效的計算庫,進(jìn)一步擴(kuò)充了NVIDIA的算力生態(tài)。

wKgZombbuseABK4XAAF3mxUHEss579.jpg

添加圖片注釋,不超過 140 字(可選)

圖三:同時期CPU、GPU浮點(diǎn)算力對比

2012年,多倫多大學(xué)的Alex Krizhevsky發(fā)布了一種新的深度神經(jīng)網(wǎng)絡(luò)(DNN,也可稱為深度卷積神經(jīng)網(wǎng)絡(luò)CNN)。該模型名為AlexNet,在ImageNet圖像比賽中取得了歷史上最佳成績。其top-5錯誤率僅為15.3%,而第二名的錯誤率則高達(dá)26.2%。這一結(jié)果震驚了世界,AI競賽從此開始進(jìn)入新的階段。AlexNet擁有60 million個單精度浮點(diǎn)參數(shù),存儲到磁盤上需要240MB的空間。作者表示,受限于顯存和算力,這已經(jīng)是他在兩塊GTX 580 3GB GPU上能夠?qū)崿F(xiàn)的極限了。他相信,如果有更快的GPU,他可以得到更好的分類結(jié)果。

從那時起,幾乎所有的AI研究員都開始使用GPU進(jìn)行算法領(lǐng)域的探索與突破。與此同時,GPU的架構(gòu)設(shè)計也越來越傾向于提供除了3D能力以外的通用算力,這種設(shè)計理念被稱為General-Purpose GPU(GPGPU)。

2011年,TESLA GPU計算卡發(fā)布,標(biāo)志著NVIDIA正式將用于計算的GPU產(chǎn)品線獨(dú)立出來。憑借其架構(gòu)上的優(yōu)勢,GPU在通用計算及超級計算機(jī)領(lǐng)域逐漸取代CPU成為主角。

隨著GPU技術(shù)的發(fā)展,AI算法研究也突飛猛進(jìn)。2014年前后,香港中文大學(xué)的Sun Yi等人將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在人臉識別領(lǐng)域,采用20萬訓(xùn)練數(shù)據(jù),在LFW數(shù)據(jù)集上首次達(dá)到超過人類水平的識別精度。2015年10月,AlphaGo擊敗樊麾,成為第一個無需讓子即可在19路棋盤上擊敗圍棋職業(yè)棋手的電腦圍棋程序,創(chuàng)造了歷史,并于2016年1月發(fā)表在知名期刊《自然》。

在2022年圣誕節(jié)前夕,所有硅谷公司都經(jīng)歷了一場震撼教育——11月30日,OpenAI發(fā)布了聊天機(jī)器人ChatGPT。它可以自動生成文章和詩歌,像人類一樣通過自然的互動回答問題。其性能之高震撼了世界,點(diǎn)燃了生成式AI的熱潮。

在CES 2023上,奔馳宣布成為美國首家獲得L3自動駕駛認(rèn)證廠商。AI算法在越來越多的領(lǐng)域的能力上接近甚至超越人類,這意味著AI可以幫助降低人們的負(fù)擔(dān),釋放人類潛力,同時也帶來商機(jī)與產(chǎn)業(yè)化的機(jī)會。

添加圖片注釋,不超過 140 字(可選)

通用算力、專用算力,GPGPU與AI DSA相向而行,殊途同歸。

在2014年,世界上第一款supercomputer on a module, Jetson TX1問世,TX1采用256個NVIDIA Maxwell架構(gòu)CUDA cores 提供了超過1 TeraFLOPs性能。旨在能夠?yàn)楫?dāng)時最新視覺計算應(yīng)用提供所需的性能和能效。定位為Deep Learning, Computer Vision, Graphics、GPU Computing的嵌入式平臺。

wKgaombbusiAPFFtAAEAhd91E6s867.jpg

圖四:NVIDIA邊緣AI平臺路線圖

該系列產(chǎn)品從2018年的1T算力的TX1一路發(fā)展到2024年預(yù)計發(fā)售的擁有2000T算力的THOR平臺。值得注意的是在XAVIER與ORIN平臺上有超過一半的標(biāo)稱算力是由DLA提供。

wKgZombbusiAUJ9EAAHajHkHzJs252.jpg

圖五:Jetson Orin Technical Specifications

采用DLA可以加速部分計算密集的算子。與采用GPGPU計算相比,在損失部分推理精度的前提下,采用DLA加速推理計算不僅速度更快,而且能耗更低。然而,這并非免費(fèi)午餐。首先,要同時利用GPGPU與DLA兩塊算力,軟件上就需要精巧的異步設(shè)計,以實(shí)現(xiàn)CPU負(fù)載、編解碼模塊、圖像處理模塊、GPGPU以及DLA五者的流水化并行處理。然而,在THOR這代自動駕駛平臺產(chǎn)品中,DLA提供的算力甚至直接被砍掉,其原因目前尚不清楚。但根據(jù)NVIDIA的官方文檔顯示,DLA支持約15種主要AI算子的執(zhí)行,不支持的算子類型將回退到GPGPU進(jìn)行運(yùn)算。筆者推測,可能是基于TensorCore指令拓展獲得的算力有更強(qiáng)的通用性和可編程性,能夠更好地滿足業(yè)界的需求。

TensorCore實(shí)際上也是一種DSA的設(shè)計理念的體現(xiàn)。隨著AI算法的多年發(fā)展,業(yè)界也逐漸意識到AI的算力需求逐漸收斂到了矩陣計算能力上。通過專用的指令加速矩陣乘法計算,從而加速AI計算,這一理念已被業(yè)界廣泛接受。

wKgaombbusmAL6oQAAEE8V5ILR8953.jpg

圖六:通用及專用架構(gòu)的矩陣加速引擎設(shè)計

THOR平臺的CUDA引入了Transformer Engine,用于加速基于attention機(jī)制的DL算法,這正是目前備受關(guān)注的ChatGPT網(wǎng)絡(luò)模型的重要組成部分。此外,THOR平臺還引入了對8-bit floating point (FP8) 精度的支持,這是INT8的替代品,能夠在同等的位寬下提供更高的精度。NVIDIA在其Edge平臺產(chǎn)品線上開始放棄專有的定制化大算力,逐步在通用算力的基礎(chǔ)上增加領(lǐng)域的定制化。這與其發(fā)布會上反復(fù)強(qiáng)調(diào)的提高開發(fā)效率、加快軟件迭代、算法迭代的目標(biāo)相吻合。

GPU也是一種DSA,其發(fā)展證明了DSA取得的成功。DSA、GPU、AI,這是個互相成就的故事。NVIDIA的GPGPU硬件的成功與其CUDA生態(tài)豐富的算力軟件包、易于使用的編程接口、優(yōu)秀的編譯器密不可分。因此,對于DSA算力硬件來說,這些都是走向商業(yè)成功的必要條件。

自TX1推出以來,對標(biāo)TX1的競品層出不窮。TX1的算力來自于GPGPU,而更加客制化的ASIC,利用卷積操作的空間局部性進(jìn)行數(shù)據(jù)復(fù)用的精妙設(shè)計,在達(dá)到同等甚至更高算力的同時硬件成本更低。最普遍的設(shè)計是一個高能效比的CPU小核如Arm Cortex A7/A53加固化的2D圖像處理(CV)模塊與固化的神經(jīng)網(wǎng)絡(luò)處理(DNN/NPU)模塊。

然而,由于小CPU的計算能力受限,其主要負(fù)責(zé)應(yīng)用軟件的任務(wù)調(diào)度部分。AI應(yīng)用的前處理(非DNN算法模型部分)主要由2D圖像處理模塊承接。然而,前處理是非常碎片化的算法,除了個別的插值、顏色域轉(zhuǎn)換功能,幾乎所有圖像處理軟件都會用到,其他所需功能非常廣泛。這包括OpenCV的核心函數(shù)、圖像處理函數(shù),其中每個大類中的子方法又會有若干個,無法確定哪些功能需要被固化。這還不包括3D數(shù)據(jù)處理能力與特征描述子的使用。算法廠商的需求各不相同,固化的多了會浪費(fèi)面積,固化的少了產(chǎn)品開發(fā)的難度將大幅提升。

ONNX是一種專為機(jī)器學(xué)習(xí)設(shè)計的開放式文件格式,用于存儲訓(xùn)練好的模型,使得來自不同人工智能框架訓(xùn)練的網(wǎng)絡(luò)模型可以以相同的格式進(jìn)行存儲。ONNX的規(guī)范及代碼主要由微軟、亞馬遜、Facebook和IBM等公司共同開發(fā)。以NVIDIA的AI軟件生態(tài)中最著名的DNN推理開發(fā)工具庫TensorRT為例,5.1版本支持87個ONNX算子,到了7.1版本支持的ONNX算子數(shù)量增加至108個。由于功能高度固化的ASIC無法支持新增的算子計算類型,這將越來越限制算法的迭代。對于在此基礎(chǔ)上進(jìn)行AI產(chǎn)品開發(fā)的算法工程師來說,這幾乎等同于在戴著鐐銬跳舞。

Google公司研發(fā)了張量處理單元(TPU),TPU v1于2015年投入生產(chǎn),并被谷歌內(nèi)部用于其應(yīng)用程序。TPU是一種專為AI領(lǐng)域提供算力的ASIC,利用了神經(jīng)網(wǎng)絡(luò)對于數(shù)值精度不敏感的特性,其核心思想是采用低精度矩陣Systolic Array提供巨大算力,同時提供滿足AI需求的最小化運(yùn)算功能。TPUv1的云服務(wù)從未對用戶開放使用,而TPUv2以及后續(xù)版本被廣泛應(yīng)用于谷歌的搜索排序、語音識別、以圖搜圖、谷歌翻譯等領(lǐng)域。

wKgZombbusuANxQoAAQ6hf6CgxM141.jpg

圖七:TPUv1架構(gòu)圖

在TPUv1版本的硬件架構(gòu)圖上,我們可以看到Matrix Multiply模塊提供了每時鐘64K次操作的超大算力,緊隨其后的是Activation(激活)、Normalize/Pool(歸一化/池化)等運(yùn)算。到了TPUv2,通用的Vector單元取代了v1版本中activation pipe中的固定功能。

wKgaombbusuAR1YbAAMgxRXNwUw076.jpg

圖八:TPUv1到TPUv2數(shù)據(jù)通路的轉(zhuǎn)變

在數(shù)據(jù)中心內(nèi)運(yùn)行了一年多的TPU后,谷歌發(fā)現(xiàn)它們?yōu)闄C(jī)器學(xué)習(xí)提供了數(shù)量級更好的每瓦優(yōu)化性能,相當(dāng)于未來七年左右的快速進(jìn)步(相當(dāng)于三代摩爾定律)。這是谷歌CEO對TPU的評價。

在2021年,David Patterson對TPU十年的演進(jìn)進(jìn)行了總結(jié),其中指出DSA既要專門優(yōu)化,又要保持靈活性。TPUv2引入的通用算力為TPU提供了更強(qiáng)大的功能,不僅局限于TPUv1的模型推理,還能進(jìn)行模型訓(xùn)練,這往往需要更復(fù)雜的運(yùn)算。谷歌通過XLA(一種用于TPU的高度定制優(yōu)化的機(jī)器學(xué)習(xí)編譯器)為用戶提供云服務(wù),為特別是在這一生態(tài)系統(tǒng)下的用戶提供了便捷的通用編程接口,從而提升了用戶體驗(yàn)。

DSA成功帶來的啟示

通過以上成功案例,我們可以發(fā)現(xiàn)GPGPU和TPU的迭代都有一個共同點(diǎn),那就是它們通過越來越高度的架構(gòu)定制,帶來了越來越強(qiáng)大的專用算力,同時保留或新增通用的算力。通過高度優(yōu)化的編譯器和豐富的軟件棧,用戶能夠輕松地充分利用硬件算力。顯然,在CPU平臺上,通用算力、編譯器和軟件棧都是最豐富、最成熟的。因此,對于CPU而言,“Domain-specific architecture design is all you need”。

RISC-V DSA能否把AI算力做好

GPU的發(fā)展?jié)M足了大型DNN網(wǎng)絡(luò)的內(nèi)存帶寬和計算能力的需求。由于計算能力的提高和可用數(shù)據(jù)量的增加,DNN已經(jīng)演變成更寬、更深的架構(gòu)。DNN中的層數(shù)可以達(dá)到數(shù)萬層,參數(shù)達(dá)數(shù)十億,研究人員很難在硬件資源(例如內(nèi)存、帶寬和功耗)有限的便攜式設(shè)備中部署DNN。迫切需要在資源受限的邊緣設(shè)備(例如手機(jī)、嵌入式設(shè)備、智能可穿戴設(shè)備、機(jī)器人、無人機(jī)等)中有效部署DNN的方法。因此,AI科學(xué)家們又開展了AI模型小型化的研究,即用最少的參數(shù)量、最少的計算量去達(dá)到想要的模型精度。因此,ShuffleNet、MobileNet、網(wǎng)絡(luò)架構(gòu)搜索(NAS)算法等輕量級神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)開始被推出,能夠在很少的參數(shù)量上達(dá)到與大參數(shù)量模型接近的精度。同時,神經(jīng)網(wǎng)絡(luò)的參數(shù)剪枝、參數(shù)量化、緊湊網(wǎng)絡(luò)、知識蒸餾、低秩分解、參數(shù)共享、混合方式等壓縮技術(shù)與計算加速技術(shù)開始成為研究的熱門。

wKgaombbusyADm-DAATFFIaoaQU465.jpg

圖九:圖像分類模型性能與模型算力對應(yīng)關(guān)系

wKgZombbus2AJbHuAAIzaO6lflo334.jpg

圖十:圖像分類模型性能與模型大小對應(yīng)關(guān)系

EfficientNet-B0是AutoML MNAS開發(fā)的基線網(wǎng)絡(luò),而Efficient-B1到B7是基線網(wǎng)絡(luò)擴(kuò)展得到的。特別地,EfficientNet-B7達(dá)到了最新的84.4% top-1 / 97.1% top-5精度,同時比現(xiàn)有最好的CNN小8.4倍。

與此同時,AI科學(xué)家們也發(fā)現(xiàn)提升模型參數(shù)量帶來模型精度提升的效應(yīng)在減弱。如圖九所示,在圖像分類的任務(wù)上,模型的精度隨著參數(shù)量的提升越來越接近85% Top-1準(zhǔn)確率的平臺。這意味著在成熟的視覺領(lǐng)域,我們獲得一定AI能力所需的算力需求是趨于收斂的。因此,給定任務(wù)、給定模型、給定圖像處理的幀率,我們可以確定我們的算力需求。完成指定領(lǐng)域的任務(wù),最終的算力需求是可以被定義并趨同的。

這一切意味著AI不再是超級算力、超級計算機(jī)上獨(dú)享的能力。AI將會在任何地方,這同時也對我們的通用處理器發(fā)起了挑戰(zhàn)。

DSA可以有效、高效地完成領(lǐng)域任務(wù),然而C++編程、CPU上的經(jīng)驗(yàn)可能就無法被利用上。在David Patterson的十大經(jīng)驗(yàn)教訓(xùn)中也提到DSA的軟件棧目前不及CPU,在編譯器領(lǐng)域還不夠成熟。因此,如果DSA能夠利用CPU的豐富且成熟的軟件棧優(yōu)勢,將會是一種強(qiáng)大的組合。

例如,CUDA提供了多種常用編程語言的支持,并通過關(guān)鍵字拓展的方式進(jìn)行并行軟件編程,加上其本身卓越的通用計算能力,使得其開發(fā)生態(tài)越來越壯大。有些實(shí)力雄厚的客戶甚至放棄使用TensoRT,通過自身的GPGPU技術(shù)積累開發(fā)出適合自身業(yè)務(wù)需求的更高效的軟件,比NVIDIA提供的TensoRT性能提高了一倍。

那么我們何不在CPU上提供AI算力呢?正如過去在CPU上長出適合多媒體處理的算力一樣。在過去的時代,即使在頻率提升緩慢的情況下,CPU上的浮點(diǎn)能力由于SIMD拓展得到了巨大的提升,并隨著SIMD數(shù)據(jù)并行寬度的提升而有一個線性的增長。

wKgaombbus2ABsfyAAHoZywO2mk984.jpg

圖十一:Intel處理器發(fā)布年份與算力峰值構(gòu)成

wKgZombbus6AOIqtAAPhhZBJsgk106.jpg

圖十二:SIMD計算指令的位寬發(fā)展

近年來,Intel x86 CPU處理器上的SIMD由64bit的MMX(Multi Media eXtension,多媒體擴(kuò)展指令集)增長到了512bit的數(shù)學(xué)拓展AVX512與AI拓展VNNI,使得在四核Core i7-1185G7 @ 3.00GHz的處理器上可以獲取3Tops的算力。提供了AI所謂的MAC能力,加之本身的通用SIMD計算能力是可以有效COVER如智能機(jī)器人、智能視頻、語音終端設(shè)備等AI場景。但此等SOC做AI終端過于奢侈,且定位還是通用而不是AI DSA。

Intel最新的AMX矩陣拓展架構(gòu)、Arm架構(gòu)下的SME矩陣拓展架構(gòu)以及IBM的AMM指令集更是將CPU能提供的AI算力又提升了一個臺階。在架構(gòu)代號為Sapphire Rapids的server級處理器上可以通過AMX獲得每時鐘周期1024個mac是VNNI拓展提供的算力的8倍(128個mac每時鐘周期)。

wKgaombbus-AC_jwAAQExFcv-U0420.jpg

圖十三:Intel矩陣指令拓展相較于向量指令拓展提升巨大

CPU上完全可以長出使能AI應(yīng)用大算力,正如過去長出了適合多媒體處理的算力。

為什么是RISC-V?

如果要對CPU架構(gòu)進(jìn)行領(lǐng)域定制,需要獲取對應(yīng)的架構(gòu)級授權(quán)(Architectural License)。區(qū)別于IP Core的授權(quán),架構(gòu)級授權(quán)特指指令集(ISA)授權(quán),允許客戶自行定制優(yōu)化。

關(guān)于CPU業(yè)界兩大陣營x86與ARM的架構(gòu)授權(quán)的情況是什么樣的呢?x86的專利主要掌握在英特爾和AMD這兩家公司手中,到目前為止國內(nèi)沒有任何一家廠商擁有x86的架構(gòu)級授權(quán),海光信息與兆芯采用的是 x86 架構(gòu) IP 內(nèi)核授權(quán)模式。海思、飛騰均已經(jīng)獲得 ARMv8架構(gòu)的永久授權(quán)。盡管 ARM 此前表態(tài) ARMv9 架構(gòu)不受美國出口管理?xiàng)l例(EAR)約束,華為海思等國內(nèi)CPU產(chǎn)商依然可獲授權(quán),但是ARMv9不再提供永久授權(quán),采用 ARM 架構(gòu)仍有長期隱患。而且即使在擁有ARM架構(gòu)級授權(quán)的情況下做出指令集定制與改動,也必須經(jīng)由ARM參與支持修改才可以,否則將觸發(fā)違約條款。

RISC-V 因其相對精簡的指令集架構(gòu)(ISA)以及開源寬松的 BSD 協(xié)議使得Fabless可以基于RISC-V架構(gòu)進(jìn)行任意的架構(gòu)拓展與定制。相信RISC-V DSA可以利用其經(jīng)典的CPU的編程模型與相對低成本獲取的AI算力,加之標(biāo)準(zhǔn)RISC-V Vector拓展提供的通用算力,能夠給AI嵌入式場景下1-10T算力需求范圍的AI產(chǎn)業(yè)應(yīng)用帶來全新的商業(yè)化硬件方案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    456

    文章

    51166

    瀏覽量

    427206
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    10902

    瀏覽量

    212996
  • RISC-V
    +關(guān)注

    關(guān)注

    45

    文章

    2322

    瀏覽量

    46586
  • banana pi
    +關(guān)注

    關(guān)注

    1

    文章

    114

    瀏覽量

    3106
  • AI算力
    +關(guān)注

    關(guān)注

    0

    文章

    74

    瀏覽量

    8834
收藏 人收藏

    評論

    相關(guān)推薦

    如何快速上手進(jìn)時空K1 RISC-V開發(fā)板:Banana Pi BPI-F3

    BananaPi BPI-F3采用K1內(nèi)核、SPM8821 PMIC+外部DCDC供電方案。存儲采用LPDDR4X和eMMC。外圍設(shè)備有 PCIe 2.0 2 Lane M.2 KEY M、PCIe
    的頭像 發(fā)表于 05-16 12:08 ?1369次閱讀
    如何快速上手<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>K1 <b class='flag-5'>RISC-V</b>開發(fā)板:<b class='flag-5'>Banana</b> <b class='flag-5'>Pi</b> <b class='flag-5'>BPI-F3</b>

    Banana Pi BPI-F3 進(jìn)時空RISC-V架構(gòu),AI融合算及其軟件棧實(shí)踐

    面對未來大模型(LLM)、AIGC等智能化浪潮的挑戰(zhàn),進(jìn)時空RISC-V方向全面布局,通過精心設(shè)計的RISC-V
    的頭像 發(fā)表于 09-07 14:01 ?1346次閱讀
    <b class='flag-5'>Banana</b> <b class='flag-5'>Pi</b> <b class='flag-5'>BPI-F3</b> <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b><b class='flag-5'>RISC-V</b><b class='flag-5'>架構(gòu)</b><b class='flag-5'>下</b>,<b class='flag-5'>AI</b>融合算<b class='flag-5'>力</b>及其軟件棧實(shí)踐

    香蕉派 BPI-CanMV-K230D-Zero 采用嘉楠科技 K230D RISC-V芯片設(shè)計

    概述 Banana Pi BPI-CanMV-K230D-Zero 采用嘉楠科技 K230D RISC-V芯片設(shè)計,探索 RISC-V V
    發(fā)表于 07-30 17:43

    Banana Pi BPI-CanMV-K230D-Zero :AIoT 應(yīng)用的 Kendryte K230D RISC-V

    Banana Pi BPI-CanMV-K230D-Zero 是一款緊湊型低功耗單板計算機(jī),基于 Kendryte K230D 雙核 XuanTie C908 RISC-V 芯片構(gòu)建,
    發(fā)表于 12-05 09:19

    Banana Pi BPI-F3 進(jìn)時空 SpacemiT K1 RISC-V板 運(yùn)行OpenWRT

    開發(fā)板banana pi
    Banana Pi開源硬件
    發(fā)布于 :2024年03月20日 18:55:47

    RISC-V架構(gòu)

    )對于中國廠商來說,RISC-V不受海外巨頭壟斷,不存在“卡脖子”風(fēng)險,并且即使從中長期看,出現(xiàn)類似ARM這樣企業(yè)的可能性也較小,可控強(qiáng)。  技術(shù)成熟度上,RISC-V仍處于發(fā)展早期
    發(fā)表于 04-03 15:29

    RISC-V芯片企業(yè) 進(jìn)時空完成Pre A+ 輪融資

    技術(shù)專家共同組建創(chuàng)立,在半導(dǎo)體、RISC-V架構(gòu)芯片以及云計算領(lǐng)域擁有豐富的成功經(jīng)驗(yàn)。在芯片設(shè)計開發(fā)基礎(chǔ)之上,進(jìn)時空同時專注于軟件系統(tǒng)及其
    的頭像 發(fā)表于 10-14 14:59 ?1591次閱讀

    聯(lián)想入股RISC-V計算芯片商進(jìn)時空

    聯(lián)想入股RISC-V計算芯片商進(jìn)時空 RISC-V計算芯片商進(jìn)
    的頭像 發(fā)表于 07-31 18:49 ?1363次閱讀

    香蕉派發(fā)布RISC-V架構(gòu)BPI-F3開發(fā)板

    2 月 3 日,香蕉派發(fā)布了基于 RISC-V 架構(gòu)處理器的開發(fā)板 BPI-F3。該產(chǎn)品配備了由進(jìn)
    的頭像 發(fā)表于 02-03 16:17 ?1244次閱讀

    RISC-V人才行】 走訪進(jìn)時空

    2024年2月28日,RISC-V國際人才培養(yǎng)認(rèn)證中心蔣學(xué)剛主任、RISC-V基金會大使傅煒等一行,走訪了進(jìn)時空。受到了
    的頭像 發(fā)表于 05-13 17:43 ?465次閱讀
    【<b class='flag-5'>RISC-V</b>人才行】 走訪<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>

    Banana Pi BPI-F3 進(jìn)時空SpacemiT K1芯片場景功耗測試

    Banana Pi BPI-F3 進(jìn)時空SpacemiT K1芯片場景功耗測試
    的頭像 發(fā)表于 07-10 10:27 ?576次閱讀

    Banana Pi BPI-F3 進(jìn)時空 RISC-V K1芯片開發(fā)板支持8G/16G內(nèi)存

    香蕉派BPI-F3是一款工業(yè)級 8核RISC-V開源硬件開發(fā)板,它采用進(jìn)時空(SpacemiT) K1 8核
    的頭像 發(fā)表于 07-23 18:49 ?908次閱讀
    <b class='flag-5'>Banana</b> <b class='flag-5'>Pi</b> <b class='flag-5'>BPI-F3</b> <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b> <b class='flag-5'>RISC-V</b> K1芯片開發(fā)板支持8G/16G內(nèi)存

    RT-Thread攜手進(jìn)時空:共建RISC-V實(shí)時計算生態(tài)

    日益高漲。基于新一代精簡指令集架構(gòu)RISC-V開發(fā)的高性能計算芯片,可極大提升計算效能,提供更多優(yōu)質(zhì)。近日,RT-Thread與
    的頭像 發(fā)表于 08-06 08:35 ?530次閱讀
    RT-Thread攜手<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>:共建<b class='flag-5'>RISC-V</b>實(shí)時計算生態(tài)

    業(yè)內(nèi)首顆8核RISC-V終端AI CPU量產(chǎn)芯片K1,進(jìn)時空與中國移動用芯共創(chuàng)AI+時代

    10月11日-13日,以“智煥新生共創(chuàng)AI+時代”為主題的2024中國移動全球合作伙伴大會在廣州盛大舉行。作為中國移動合作伙伴,進(jìn)時空RISC-
    的頭像 發(fā)表于 10-16 08:09 ?822次閱讀
    業(yè)內(nèi)首顆8核<b class='flag-5'>RISC-V</b>終端<b class='flag-5'>AI</b> CPU量產(chǎn)芯片K1,<b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>與中國移動用芯共創(chuàng)<b class='flag-5'>AI</b>+時代

    進(jìn)時空亮相RISC-V產(chǎn)業(yè)發(fā)展大會:新AI CPU引領(lǐng)大模型時代

    12月28日,以“發(fā)揮標(biāo)準(zhǔn)優(yōu)勢,繁榮產(chǎn)業(yè)發(fā)展”為主題的RISC-V產(chǎn)業(yè)發(fā)展大會在北京亦莊經(jīng)開區(qū)通明湖會展中心舉行。作為基于新一代RISC-V架構(gòu)的計算生態(tài)企業(yè),進(jìn)
    的頭像 發(fā)表于 12-31 17:32 ?490次閱讀
    <b class='flag-5'>進(jìn)</b><b class='flag-5'>迭</b><b class='flag-5'>時空</b>亮相<b class='flag-5'>RISC-V</b>產(chǎn)業(yè)發(fā)展大會:新<b class='flag-5'>AI</b> CPU引領(lǐng)大模型時代
    百家乐赌博破解方法| 在线百家乐官网纸牌| 大发888真钱娱乐场下载| 模拟百家乐官网的玩法技巧和规则 | 劳力士百家乐官网的玩法技巧和规则| bet365官方网站| 南宁百家乐赌机| 百家乐官网园游戏77sonci...| 大发888娱乐网| 百家乐下载免费软件| 百家乐官网平台哪个有在线支付呢 | 百家乐官网网哪一家做的最好呀| 黄石市| 威尼斯人娱乐场怎么样| 24风水| 怎么玩百家乐官网能赢钱| 全讯网22335555| 大赢家百家乐66| 百家乐官网投注外挂| 今晚六合彩开什么| 百家乐官网有试玩的吗| 顶尖百家乐官网学习| 大发888娱乐城游戏下载| 百家乐看炉子的方法| 免佣百家乐官网规则| 新金润娱乐城| 百家乐筹码币套装| 百家乐的保单打法| 百家乐官网明灯| 博九网| 大发888缺少 casino| 百家乐不倒翁缺点| 百家乐官网群博乐吧blb8v | 百家乐英皇娱乐| 杨公24山分金兼向吉凶| 视频百家乐官网攻略| 沧源| 大发888备用a99.com| 百家乐如何打轮盘| 葡京百家乐技巧| 百家乐官网必赢法冯耘 |