目前,人工智能領域已成為最受關注的熱點之一。人工智能領域是通過對計算機的研究與開發(fā),使得其具備類似于人類智能的,對環(huán)境的輸入做出有意義的判斷反應的研究應用領域。決定人工智能質量的因素往往是計算能力以及數(shù)據(jù)量的大小,而實現(xiàn)人工智能的方式則是機器學習,讓機器通過訓練和學習逐漸逼近我們希望其實現(xiàn)的效果。隨著處理器能力以及數(shù)據(jù)量的飛速增長,機器學習的方式也在發(fā)生革命性的變化,深度學習的概念被引入。深度學習由于其多層次形態(tài),從而增強了其非線性程度,可以帶來更強的擬合能力。此外,其類似于仿生學的逐層自動提取特征的過程,保證了所提取特征的質量與豐富性,使得其性能相較于傳統(tǒng)的機器學習算法有了質的提升。
隨著模型算法的發(fā)展,模型所能實現(xiàn)的性能逐步提升, 而模型本身的深度和復雜度也大大增加。以大規(guī)模圖像識別競賽(ILSVRC)為例,2012年多倫多大學的Alex Krizhecsky 隨同其倒是Geoffrey Hinton 發(fā)布的 AlexNet 以83.0%的Top5分類準確率奪得冠軍,相較于之前傳統(tǒng)模型的最佳性能提升了百分之十幾。AlexNet 本身是一個具有5層卷積層和3層全連接層的卷積神經(jīng)網(wǎng)絡,包含有6100萬個權重參數(shù)和7.24億次乘加運算。2017年為止,最復雜的網(wǎng)絡模型層數(shù)已超過1000層,權重參數(shù)及乘加運算次數(shù)都比AlexNet提升了幾個數(shù)量級,而所能實現(xiàn)的識別準確率也已經(jīng)超越人眼。
對于最近打敗眾多人類圍棋高手的阿爾法圍棋(AlphaGo),在其打敗李在石的第一版分布式實現(xiàn)版本中,其復雜的決策算法模型需要1300多個CPU和280個GPU來提供算力的支撐。由此可見,面對日益復雜的人工智能算法,要滿足嚴格的功耗與實時性需求,需要有強大的處理器作為支持;因此對處理器芯片的精細化設計,成為提升芯片計算功能,滿足應用需求的必要條件。
通常來講,無論是對于人工智能的模型訓練還是前向推斷應用過程,處理器芯片的計算速度都是需要首先考慮的指標;而在某些諸如嵌入式移動端的低功耗場景中,對于硬件計算的功耗也需要加以嚴格的控制。傳統(tǒng)的CPU由于其串行執(zhí)行的方式,在應對數(shù)據(jù)與計算密集型的人工智能算法時顯得捉襟見肘。因此,增加處理器計算的并行度成為性能提升的一個主要方向。英偉達提出了通用計算GPU(GPGPU)的概念,將具有大量可并行計算流處理器的GPU運用到人工智能算法的研發(fā)過程中, 并提供了成熟而穩(wěn)定的諸如CUDA和cuDNN的軟件環(huán)境支持。由于GPU強大的計算能力,在關注模型準確度和以數(shù)據(jù)中心及服務器環(huán)境為主的模型訓練場景中,GPU得到了廣泛的應用。但同時我們也注意到,常見的GPU板卡功耗高達200-300W,這使得其在需要低功耗場景中的應用受到局限。因此,針對應用場景和算法類型,對芯片內部結構進行定制化的設計,從而提升芯片整體的能效比,成為人工智能芯片發(fā)展的另一主流方向。
通常而言,對于某一類型的人工智能算法,其往往具備可劃分的特性,并且劃分的子算法塊具有一定的相似性。以圖像應用中常見的卷積神經(jīng)網(wǎng)絡為例,運算最密集的卷積層就可以抽象為滑窗類型的乘加操作,而滑窗的大小及步幅,計算通道數(shù)的大小等均可以被抽象為可配置的參數(shù)。在硬件結構的設計過程中,往往會針對算法劃分及抽象的方式,在計算通路和存儲結構上進行定制化,可配置的設計。大部分研究者會采用FPGA芯片實現(xiàn)的方式,快速地迭代開發(fā)出加速硬件結構。多家研究機構已紛紛在頂級學術會議上發(fā)布了基于FPGA的加速結構設計,而業(yè)界企業(yè)也都開始將常見的算法模型通過FPGA加速器實現(xiàn)的形式部署到應用端,并且實現(xiàn)了較好的性能和較低的功耗。下一步,我們也可以將計算及存儲核心部分進行電路固化,以專用集成電路(ASIC)的方式實現(xiàn),以達到更高的能效比。目前已知的優(yōu)秀ASIC芯片設計,已能在實現(xiàn)數(shù)百GOPS(每秒十億次運算數(shù))級別計算能力的情況下將功耗控制在毫瓦級別。ASIC在具備廣泛應用市場的前提下,具有高能效比,量產(chǎn)成本低的諸多優(yōu)勢,但其一次性的工程費用及較大的開發(fā)成本,在快速的算法演進過程中往往會具有一定風險。因此,針對不同的研發(fā)及市場需求,應該選取不同的平臺予以實現(xiàn)。
近年來,針對硬件實現(xiàn)的算法優(yōu)化也在不斷發(fā)展,包括數(shù)據(jù)量化,模型稀疏化等多項技術都取得了進展;而這些技術都有助于降低人工智能芯片的片上計算資源及存儲帶寬限制,以更低的硬件代價實現(xiàn)更高的吞吐速率。而數(shù)據(jù)位寬變化以及模型稀疏帶來的不規(guī)則性,則對硬件結構的實現(xiàn)提出了挑戰(zhàn)。未來的人工智能芯片設計,將更趨向于軟硬件協(xié)同設計的模式,從軟硬件兩個方向分別進行限制條件的考量以及優(yōu)化路徑的選取,從而實現(xiàn)更優(yōu)化,更通用的解決方案。
審核編輯:劉清
-
處理器芯片
+關注
關注
0文章
117瀏覽量
19834 -
人工智能算法
+關注
關注
0文章
61瀏覽量
5271 -
人工智能芯片
+關注
關注
1文章
121瀏覽量
29175
原文標題:人工智能芯片設計
文章出處:【微信號:Semi Connect,微信公眾號:Semi Connect】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
兆芯CPU近期軟硬件適配動態(tài)
嵌入式和人工智能究竟是什么關系?
《AI for Science:人工智能驅動科學創(chuàng)新》第一章人工智能驅動的科學創(chuàng)新學習心得
risc-v在人工智能圖像處理應用前景分析
名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創(chuàng)新
報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI
FPGA在人工智能中的應用有哪些?
天準科技成立新子公司,深耕智能駕駛與人工智能
致力于為汽車人工智能硬件提供未來保障
5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2)
![](https://file1.elecfans.com/web2/M00/CB/B3/wKgaomYfSlmAAx57AAeg1htSBZc671.jpg)
評論