人工智能時(shí)代對計(jì)算芯片的算力和能效都提出了極高要求。存算一體芯片技術(shù)被認(rèn)為是有望解決處理器芯片“存儲(chǔ)墻”瓶頸,大幅提升人工智能算力能效和算力密度的關(guān)鍵技術(shù)和重要解決方案。SRAM存算一體芯片技術(shù)由于其在兼容性、魯棒性、靈活性等方面的優(yōu)勢,已經(jīng)得到多個(gè)旗艦公司的認(rèn)可和相關(guān)領(lǐng)域的產(chǎn)業(yè)布局。本文回顧SRAM存算一體芯片領(lǐng)域近年來的研究現(xiàn)狀和發(fā)展趨勢,分析并總結(jié)了該領(lǐng)域未來的研究需求,凝練關(guān)鍵科學(xué)問題并進(jìn)一步探討前沿研究方向。
01. 引言
近年來人工智能算法不斷發(fā)展,以ChatGPT為代表的大模型更是進(jìn)一步為科學(xué)、技術(shù)和社會(huì)帶來令人振奮的機(jī)遇。人工智能作為戰(zhàn)略性通用技術(shù),催生了諸多的新興行業(yè)與應(yīng)用,如自然語言處理、視頻智能處理、人臉識(shí)別、無人駕駛等,吸引了眾多研究機(jī)構(gòu)及產(chǎn)業(yè)界的高度關(guān)注和廣泛參與。人工智能的成功不僅得益于算法理論的創(chuàng)新,更依賴于處理器芯片飛速提升的運(yùn)算和存儲(chǔ)能力,從而使得在更大規(guī)模的數(shù)據(jù)集上設(shè)計(jì)更復(fù)雜、更精準(zhǔn)的神經(jīng)網(wǎng)絡(luò)成為可能。今年10月17日,美國商務(wù)部工業(yè)安全局(BIS)公布最新半導(dǎo)體管制規(guī)則,在“計(jì)算性能”限制的基礎(chǔ)上新增對芯片“性能密度”的參數(shù)限制,將芯片總體算力和算力密度的重要性提升到新的高度。高算力和高算力密度芯片作為數(shù)字經(jīng)濟(jì)時(shí)代新的核心生產(chǎn)力,對推動(dòng)科技進(jìn)步、行業(yè)數(shù)字化轉(zhuǎn)型以及經(jīng)濟(jì)社會(huì)發(fā)展發(fā)揮重要作用。
根據(jù)計(jì)算架構(gòu)區(qū)分,人工智能芯片的技術(shù)路線主要有傳統(tǒng)的馮諾依曼架構(gòu)和新興非馮計(jì)算架構(gòu)?;隈T諾依曼架構(gòu)的人工智能處理器又分為通用計(jì)算架構(gòu)和專用計(jì)算架構(gòu)兩類。通用計(jì)算架構(gòu)是指采用傳統(tǒng)通用計(jì)算芯片實(shí)現(xiàn)人工智能算法,如CPU、GPU等。大量實(shí)驗(yàn)和測試結(jié)果已表明傳統(tǒng)的通用芯片已無法滿足應(yīng)用場景對高能效和高有效算力的嚴(yán)苛要求。專用計(jì)算架構(gòu)是指專門針對神經(jīng)網(wǎng)絡(luò)等人工智能算法定制的專用處理器,其典型代表如 美國麻省理工Eyeriss芯片、谷歌張量處理器TPU芯片等。然而,目前的人工智能芯片的發(fā)展仍面臨著一系列挑戰(zhàn)和限制。人工智能模型的推理和訓(xùn)練均需要大量的計(jì)算和數(shù)據(jù)移動(dòng),大量的數(shù)據(jù)需要在計(jì)算單元和存儲(chǔ)單元之間頻繁流動(dòng),傳統(tǒng)馮諾依曼架構(gòu)的“存儲(chǔ)墻”問題日益成為該計(jì)算架構(gòu)的發(fā)展瓶頸。隨著神經(jīng)網(wǎng)絡(luò)應(yīng)用規(guī)模快速增長,最先進(jìn)的AI芯片使用近存計(jì)算技術(shù)以緩解“存儲(chǔ)墻”瓶頸。例如采用三維堆疊的HBM和2.5D的Chiplet集成方式以提升芯片外部至芯片內(nèi)部的數(shù)據(jù)帶寬,同時(shí)節(jié)約數(shù)據(jù)搬運(yùn)的能量消耗。NorthPole采用分布式片上存儲(chǔ)的近存計(jì)算,將片上存儲(chǔ)均等分布于所有計(jì)算陣列中,依靠龐大的片上存儲(chǔ)系統(tǒng)部署整個(gè)網(wǎng)絡(luò),避免芯片外部與芯片內(nèi)部的數(shù)據(jù)交互。然而220MB的片上存儲(chǔ)依然無法滿足大模型需求,同時(shí)龐大的片上存儲(chǔ)將會(huì)產(chǎn)生額外的芯片面積代價(jià)。
針對傳統(tǒng)馮諾依曼計(jì)算架構(gòu)面臨的“存儲(chǔ)墻”瓶頸,存算一體這種新興計(jì)算架構(gòu)旨在把傳統(tǒng)以計(jì)算為中心的架構(gòu)轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心的架構(gòu),減少或避免數(shù)據(jù)搬移,從而消除傳統(tǒng)馮·諾依曼結(jié)構(gòu)架構(gòu)面臨的“存儲(chǔ)墻”瓶頸。存算一體作為一種新興計(jì)算范式,其核心思想就是將計(jì)算操作與數(shù)據(jù)訪存過程結(jié)合在一起,從而提高計(jì)算性能和效率。根據(jù)存儲(chǔ)墻的介質(zhì)不同,常見用于存算一體架構(gòu)的存儲(chǔ)技術(shù)路線包括RRAM、SRAM、Flash等,各條技術(shù)路線均有各自獨(dú)特的優(yōu)勢和待解決問題。目前,多個(gè)國際芯片產(chǎn)業(yè)巨頭已經(jīng)在存算一體計(jì)算芯片領(lǐng)域進(jìn)行研發(fā)布局,并且在ISSCC等旗艦會(huì)議發(fā)表多個(gè)標(biāo)志性芯片,并逐漸形成有望解決人工智能計(jì)算能效的重要解決方案。基于國產(chǎn)工藝的SRAM存算一體芯片設(shè)計(jì)技術(shù),有望在同等工藝上可大幅提升計(jì)算芯片的“性能密度”,從而大幅提升單位面積下的有效計(jì)算性能。
2023年9月,國家自然科學(xué)基金委員會(huì)組織第347期雙清論壇(青年)組織集成電路領(lǐng)域青年專家學(xué)者探討我國集成電路領(lǐng)域存在的關(guān)鍵問題和未來發(fā)展方向。存算一體芯片技術(shù)作為人工智能芯片的重要技術(shù)路線,已得到國內(nèi)外工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注和重視。本文結(jié)合國家重大戰(zhàn)略需求和學(xué)科發(fā)展前沿,總結(jié)當(dāng)前存算一體芯片的發(fā)展情況,凝練SRAM存算一體芯片的關(guān)鍵科學(xué)問題,進(jìn)而提出創(chuàng)新技術(shù)路線,支撐我國的人工智能發(fā)展戰(zhàn)略,為基于國產(chǎn)現(xiàn)有先進(jìn)工藝的人工智能芯片突破“性能密度(算力密度)”瓶頸,提供一整套創(chuàng)新解決方案。
02. 研究背景與意義
人工智能是未來信息技術(shù)領(lǐng)域的國家戰(zhàn)略競爭焦點(diǎn)。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展和計(jì)算能力的提高,人工智能開始取得突破性的進(jìn)展。特別是在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,通過利用大數(shù)據(jù)和強(qiáng)大的算法,使得計(jì)算機(jī)可以從數(shù)據(jù)中學(xué)習(xí)和自主推理。同時(shí),云計(jì)算和大數(shù)據(jù)技術(shù)的興起為人工智能的應(yīng)用提供了強(qiáng)大的支持。在應(yīng)用層面,人工智能技術(shù)已經(jīng)在多個(gè)領(lǐng)域取得了重大突破,在無人駕駛、智慧安防、人臉識(shí)別、智能制造等多個(gè)領(lǐng)域帶來了顛覆性的進(jìn)步。此外,通用大模型和行業(yè)大模型成為了目前人工智能算法的一個(gè)重要發(fā)展趨勢。硬件技術(shù)的進(jìn)步是人工智能發(fā)展的重要推動(dòng)力,人工智能芯片是人工智能產(chǎn)業(yè)物理基礎(chǔ)和關(guān)鍵核心技術(shù)。圖形處理器GPU和專用人工智能芯片極大地提高了計(jì)算速度和效率,加速了深度學(xué)習(xí)和人工智能算法的應(yīng)用。而大模型對數(shù)據(jù)量、硬件算力極高的要求,更是給人工智能芯片提出了新的挑戰(zhàn)。
傳統(tǒng)技術(shù)路線帶來的算力提升,與智能應(yīng)用需求之間的算力缺口鴻溝呈指數(shù)擴(kuò)大態(tài)勢。以數(shù)據(jù)中心算力需求為例,IDC預(yù)測未來五年全球算力規(guī)模將以超過50%的速度增長,到2025年整體規(guī)模將達(dá)到3300EFlops。2025年全球物聯(lián)網(wǎng)設(shè)備數(shù)將超過400億臺(tái),產(chǎn)生數(shù)據(jù)量接近80ZB,數(shù)據(jù)中心處理量超過50%以上。此外,大模型的算力需求更是呈指數(shù)增長,而芯片算力則是呈線性增長。根據(jù)目前的芯片算力和GPT-4的訓(xùn)練需求推算,最快的加速器單芯片運(yùn)行GPT-4模型訓(xùn)練任務(wù)需要3.17年。
爆炸式指數(shù)增長的海量數(shù)據(jù)導(dǎo)致云端和邊緣端處理的能量消耗呈爆炸式指數(shù)增長態(tài)勢,傳統(tǒng)計(jì)算芯片的功耗增長難以為繼,難以滿足大規(guī)模人工智能的計(jì)算需求。隨著芯片集成度的提升和信息技術(shù)的發(fā)展,到2030年,數(shù)據(jù)量將達(dá)到612ZB,是2020年的13倍,對能耗的需求指數(shù)上升,按目前能耗需求推斷,至2030年,能耗將占世界總電力能源的21%。基于原有技術(shù)路線的芯片面臨著能效瓶頸,能耗成為未來增長的天花板。此外,高能耗帶來的散熱問題,大大提升了板級設(shè)計(jì)難度以及數(shù)據(jù)中心運(yùn)營成本。因此,急需高能效的革新技術(shù)以應(yīng)對智能應(yīng)用的功耗瓶頸問題。
03. SRAM存算一體芯片研究現(xiàn)狀與發(fā)展趨勢
3.1技術(shù)原理
以神經(jīng)網(wǎng)絡(luò)為代表的人工智能算法涉及到各種張量和向量計(jì)算,其中最具代表性的算子為矩陣向量乘法,這些算子通常具有數(shù)據(jù)量大、計(jì)算量大、并行度要求高的特點(diǎn)。傳統(tǒng)處理器在執(zhí)行人工智能算法時(shí),由于存儲(chǔ)和計(jì)算分離,在存儲(chǔ)器與運(yùn)算器之間存在大量的數(shù)據(jù)搬運(yùn),造成巨大的功耗和延時(shí)開銷,導(dǎo)致數(shù)據(jù)搬運(yùn)的功耗遠(yuǎn)遠(yuǎn)高于計(jì)算功耗,成為了馮諾依曼架構(gòu)加速器的發(fā)展瓶頸。如圖1所示,存算一體技術(shù)的核心思想是將存儲(chǔ)器與運(yùn)算器融合在一起,通過將相對固定的權(quán)重?cái)?shù)據(jù)存放在存儲(chǔ)器中,把輸入特征向量廣播輸入到陣列中,實(shí)現(xiàn)在存儲(chǔ)器內(nèi)部執(zhí)行矩陣向量乘法計(jì)算,在完成高并行數(shù)據(jù)訪問和計(jì)算的同時(shí)有效避免了大量權(quán)重?cái)?shù)據(jù)的搬運(yùn),從而達(dá)到提高運(yùn)算速度與能量效率的目的,因此存算一體非常適合用來加速人工智能算法中的矩陣和向量運(yùn)算。
基于當(dāng)前不同的存儲(chǔ)器件類型,存在多種存算一體技術(shù)路線,包括易失性存儲(chǔ)器SRAM、DRAM,以及非易失性存儲(chǔ)器MRAM、PCM、RRAM、Flash等。SRAM與CMOS邏輯工藝兼容,操作電壓低,讀寫速度快,沒有耐久性限制,DRAM利用電容存儲(chǔ)電荷的方式如1T1C結(jié)構(gòu)來保存數(shù)據(jù),能夠獲得較高的存儲(chǔ)密度。非易失性存儲(chǔ)器技術(shù)方案由于具有存儲(chǔ)密度較高且掉電數(shù)據(jù)不丟失的特點(diǎn),在對待機(jī)功耗或成本更為敏感的應(yīng)用場景中具備較大的發(fā)展?jié)摿Γ渲蠱RAM和PCM的耐久性較好,可擦寫次數(shù)分別超過了百萬億次和十億次,MRAM與RRAM的制備能夠兼容CMOS后道工藝,工藝可演進(jìn)性較好,目前在臺(tái)積電等工藝廠商的40nm、22nm等先進(jìn)節(jié)點(diǎn)已經(jīng)逐步開始研發(fā)和量產(chǎn),NAND Flash則可以通過三維堆疊的方式不斷增加堆疊層數(shù)來提高存儲(chǔ)密度。從計(jì)算方式的角度看,由于MRAM、PCM和RRAM的開關(guān)比較低,導(dǎo)致本征計(jì)算精度不高,因此在對計(jì)算精度要求較高的場景下不適合采用模擬計(jì)算方案;而SRAM、DRAM和Flash可以實(shí)現(xiàn)較高的開關(guān)比,因此計(jì)算方式的選擇較為靈活。
圖1 SRAM存算一體電路示意圖
3.2SRAM存算一體芯片研究現(xiàn)狀
基于SRAM的存算一體技術(shù)起步相對較晚,密歇根大學(xué)和北海道大學(xué)分別于2017年在VLSI會(huì)議上,發(fā)表了基于SRAM的存算一體芯片,這也是最早一批在集成電路方向發(fā)表的基于SRAM的存算一體芯片論文。此后,基于SRAM的存算一體芯片發(fā)展迅猛,從2018年開始,ISSCC會(huì)議開始設(shè)立存算一體相關(guān)的會(huì)議議題,投稿與發(fā)表數(shù)逐年增長,計(jì)算方式從模擬計(jì)算轉(zhuǎn)向數(shù)字與模擬計(jì)算并存,所支持的計(jì)算精度也從一開始只能支持二值化精度到現(xiàn)在能支持浮點(diǎn)精度。
近年來,國內(nèi)外學(xué)術(shù)界和工業(yè)界已經(jīng)有多個(gè)單位在集成電路領(lǐng)域旗艦會(huì)議發(fā)表了基于SRAM的存算一體芯片的相關(guān)研究成果。臺(tái)積電在2021年至2023年的ISSCC會(huì)議上分別展示了他們在22nm、5nm以及4nm工藝節(jié)點(diǎn)上設(shè)計(jì)的數(shù)字域存算一體宏,在加法器樹的面積和性能優(yōu)化、存儲(chǔ)和計(jì)算單元設(shè)計(jì)、陣列版圖的布線規(guī)劃和改進(jìn)、基于多閾值電壓平衡漏電和延遲的設(shè)計(jì)等方面取得了重要進(jìn)展。在2023年的ISSCC和VLSI會(huì)議上,聯(lián)發(fā)科分別介紹了他們在12nm工藝節(jié)點(diǎn)上的模擬域和數(shù)字域存算一體宏設(shè)計(jì),分別實(shí)現(xiàn)了對PVT不敏感的高魯棒性和高識(shí)別率的電容型存算一體陣列,以及基于緊湊型SRAM單元的無能效損失和低峰值電流的高性能數(shù)字域存算一體陣列。此外,英特爾實(shí)驗(yàn)室和意法半導(dǎo)體也在SRAM存算一體領(lǐng)域的研究做出了一些探索和嘗試,表明各大國際芯片設(shè)計(jì)和制造廠商已經(jīng)開始布局基于SRAM的存算一體計(jì)算IP的技術(shù)研發(fā)。
相較于工業(yè)界偏向穩(wěn)定性、魯棒性和靈活性的實(shí)用性探索,學(xué)術(shù)界關(guān)于SRAM存算一體技術(shù)的研究更加注重于嘗試針對各種不同應(yīng)用需求提出新的可能的解決思路和方案。在2023年ISSCC會(huì)議上,北京大學(xué)介紹了在22nm工藝節(jié)點(diǎn)上設(shè)計(jì)的差值求和的模擬域存算一體芯片,目的是解決邊緣端AI場景中存在大量不變的冗余數(shù)據(jù)信息所導(dǎo)致的計(jì)算功耗浪費(fèi)問題;東南大學(xué)則針對高精度、片上訓(xùn)練等需求以及邊緣端深度可分離卷積神經(jīng)網(wǎng)絡(luò)的加速效率問題,在28nm工藝節(jié)點(diǎn)上分別設(shè)計(jì)了兩款數(shù)字域浮點(diǎn)存算一體芯片和基于水平權(quán)重移位與垂直輸入移位的模擬域存算一體芯片;此外,北京清華大學(xué)和臺(tái)灣清華大學(xué)等高校也在該領(lǐng)域深耕多年,在國際會(huì)議上持續(xù)發(fā)表了一系列研究成果。
綜上所述,相較于其他新型非易失性存儲(chǔ)器,基于SRAM的存算一體技術(shù)路線盡管起步較晚,但憑借其工藝兼容性、設(shè)計(jì)靈活性、電路可靠性等優(yōu)勢,近五年發(fā)展十分迅猛,在學(xué)術(shù)界不斷嘗試和探索的過程中逐漸引起工業(yè)界的重點(diǎn)關(guān)注,在AI算法愈發(fā)向更大模型演進(jìn)使得硬件算力和功耗愈發(fā)受到重視的今天,基于SRAM的存算一體技術(shù)展現(xiàn)出了強(qiáng)勁的性能優(yōu)勢和應(yīng)用潛力,使得多個(gè)國際芯片巨頭開始在該領(lǐng)域進(jìn)行研發(fā)和產(chǎn)業(yè)布局。
3.3SRAM存算一體芯片發(fā)展趨勢與挑戰(zhàn)
SRAM存算一體技術(shù)由于具備工藝成熟度高和強(qiáng)魯棒性的優(yōu)勢,已經(jīng)成為當(dāng)前主流存算一體解決方案之一。SRAM存算一體從早期的模擬域計(jì)算,逐漸發(fā)展到現(xiàn)在的能夠支持無精度損失的數(shù)字域計(jì)算,支持更復(fù)雜的算法模型和與算法一致的量化方案,提供更高的魯棒性和更低的設(shè)計(jì)復(fù)雜度;從早期較為落后的工藝節(jié)點(diǎn),發(fā)展到現(xiàn)在能夠采用先進(jìn)的5nm及以下的設(shè)計(jì)方案,使得算力密度和能效享受到極大的工藝微縮帶來的性能紅利;從早期只能支持低精度數(shù)據(jù)格式,逐步發(fā)展為支持INT8/INT16以及BF16等更高精度的數(shù)據(jù)格式;從早期的只能支持神經(jīng)網(wǎng)絡(luò)推斷功能,發(fā)展至同時(shí)支持網(wǎng)絡(luò)訓(xùn)練和推斷的訓(xùn)推一體化;從單存算一體宏陣列IP設(shè)計(jì)發(fā)展至多陣列集成的SoC實(shí)現(xiàn);以及從支持簡單全連接、卷積等單一算子,逐漸演變?yōu)橹С侄喾N、多類型的張量計(jì)算算子,SRAM存算一體技術(shù)正向著更高精度、更高性能、更低功耗、更高的系統(tǒng)復(fù)雜度發(fā)展。
SRAM存算一體盡管具有工藝成熟度高、易于集成等優(yōu)勢,但目前仍舊面臨著包括單元電路設(shè)計(jì)、可靠性、利用率、計(jì)算架構(gòu)、計(jì)算完備性、軟件生態(tài)等關(guān)鍵問題和挑戰(zhàn)。
單元電路設(shè)計(jì):以往的存算分離架構(gòu)使得單元設(shè)計(jì)可以針對各自不同的需求,分別采用面向高密度存儲(chǔ)單元的push rule和面向邏輯單元的logic rule指導(dǎo)其電路設(shè)計(jì)和工藝制造;而存算融合的新型電路架構(gòu)使得存儲(chǔ)單元和計(jì)算單元緊密結(jié)合,如何兼顧存儲(chǔ)效率和計(jì)算效率對存算單元電路設(shè)計(jì)提出了新的挑戰(zhàn)。
可靠性:大規(guī)模高密度高并行計(jì)算使得電路可靠性和魯棒性問題進(jìn)一步凸顯,成為走向應(yīng)用的一大障礙。例如,由于較高的計(jì)算密度和并行度,陣列在運(yùn)行過程中會(huì)出現(xiàn)較高的瞬態(tài)峰值電流,對IR-drop、電源串?dāng)_、響應(yīng)速度等電源穩(wěn)定性問題提出了挑戰(zhàn);此外,兼顧存儲(chǔ)和計(jì)算的可測性設(shè)計(jì)目前也欠缺較為成熟的解決方案。
利用率:算子種類和大小各不相同,面對真實(shí)應(yīng)用中靈活多變的算子需求,在一個(gè)固定大小的存算一體陣列上部署神經(jīng)網(wǎng)絡(luò)計(jì)算可能會(huì)造成計(jì)算資源利用率顯著降低,導(dǎo)致無法充分發(fā)揮SRAM存算一體技術(shù)在算力密度、能效等方面帶來的性能優(yōu)勢。
計(jì)算架構(gòu):由于在執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算時(shí),盡管權(quán)重?cái)?shù)據(jù)已經(jīng)被存放在存算一體陣列中,但輸入數(shù)據(jù)、輸出數(shù)據(jù)以及中間計(jì)算結(jié)果的存儲(chǔ)仍然需要依賴片上緩存,使得有限的片上緩存容量可能會(huì)成為新的系統(tǒng)瓶頸,導(dǎo)致片外訪存開銷顯著增加。
計(jì)算完備性:盡管存算一體針對張量運(yùn)算能夠顯著提高算力密度和能效,但真實(shí)應(yīng)用場景中一個(gè)完整的AI業(yè)務(wù)依然需要標(biāo)量和矢量計(jì)算以及非線性計(jì)算,這對基于SRAM存算一體的AI加速器的計(jì)算完備性提出了新的需求。
軟件生態(tài):NVIDIA公司的CUDA 生態(tài)主導(dǎo)著目前絕大部分的AI應(yīng)用開發(fā),使得GPU占據(jù)了大部分AI加速器市場。因此除了底層電路的優(yōu)化和性能提升以外,為了實(shí)現(xiàn)存算一體技術(shù)落地同樣需要與之配套的編譯器及工具鏈,從而打破以CUDA為主導(dǎo)的軟件生態(tài),構(gòu)建出新的能夠兼容基于SRAM存算一體異構(gòu)處理器的軟件開發(fā)環(huán)境。
04. SRAM存算一體芯片的創(chuàng)新路線
SRAM存算一體技術(shù)的發(fā)展涉及電路、架構(gòu)、系統(tǒng)、軟硬件協(xié)同以及生態(tài)系統(tǒng)等多個(gè)層級。開展跨層級深入研究和全面布局,對于探索SRAM存算一體技術(shù)發(fā)展路線,實(shí)現(xiàn)引領(lǐng)性突破至關(guān)重要。在該領(lǐng)域的研究不僅是為人工智能大模型、科學(xué)計(jì)算等戰(zhàn)略性新應(yīng)用提供足夠的計(jì)算能力,還旨在突破硬件算力和能效方面的瓶頸,為未來的科技創(chuàng)新提供堅(jiān)實(shí)的基礎(chǔ)支撐?;谇把豐RAM存算一體技術(shù)的相關(guān)進(jìn)展,本文總結(jié)SRAM存算一體芯片在電路、架構(gòu)、系統(tǒng)、軟硬件協(xié)同、生態(tài)等各個(gè)層級的創(chuàng)新技術(shù)路線。
在電路層級,我們提出研究發(fā)展先進(jìn)工藝的SRAM存算一體以及可靠性與可測性設(shè)計(jì),充分挖掘先進(jìn)節(jié)點(diǎn)工藝所帶來的性能紅利。通過探索現(xiàn)代工藝技術(shù)潛力并基于DTCO(Design Technology Co-optimization)的設(shè)計(jì)工藝協(xié)同優(yōu)化設(shè)計(jì)思想,實(shí)現(xiàn)存儲(chǔ)和計(jì)算的高度集成,為計(jì)算領(lǐng)域帶來重大突破。在先進(jìn)工藝的基礎(chǔ)上,研究人員基于更小的晶體管尺寸和更高的集成度,設(shè)計(jì)并改進(jìn)能夠?qū)崿F(xiàn)存儲(chǔ)單元與邏輯單元緊湊堆疊的更高密度的SRAM存算單元。這種緊湊性帶來的優(yōu)勢在于可以在更小的空間內(nèi)容納更多的存儲(chǔ)和計(jì)算資源,從而大幅度提升芯片的整體性能。同時(shí),先進(jìn)工藝所帶來的低功耗特性也可以有效降低設(shè)備的能耗。其次,可靠性和可測性的設(shè)計(jì)是確保存算單元工作強(qiáng)魯棒的關(guān)鍵。通過引入先進(jìn)的自診斷和錯(cuò)誤校正技術(shù),在硬件層面實(shí)現(xiàn)對存算單元的實(shí)時(shí)監(jiān)測和修復(fù),提高了計(jì)算系統(tǒng)的穩(wěn)定性,增加設(shè)備壽命。
在架構(gòu)層級,我們提出基于異構(gòu)SRAM存算一體的前沿處理器架構(gòu)。探索通過異構(gòu)架構(gòu)設(shè)計(jì)滿足多樣的算子計(jì)算需求,通過緊耦合不同類型的計(jì)算引擎,包括基于ALU的標(biāo)量計(jì)算單元、基于PE的向量計(jì)算單元、基于SRAM存算一體的張量計(jì)算單元等。標(biāo)量計(jì)算單元適用于處理單一數(shù)據(jù)元素的計(jì)算,向量計(jì)算單元?jiǎng)t擅長處理大規(guī)模數(shù)據(jù)的并行計(jì)算,而張量計(jì)算單元?jiǎng)t專門用于高維度數(shù)據(jù)的復(fù)雜運(yùn)算。這種多樣性的計(jì)算引擎緊密結(jié)合,為各種復(fù)雜任務(wù)提供高效靈活的計(jì)算支持,從而提高了計(jì)算系統(tǒng)的適應(yīng)性和性能。此外,異構(gòu)SRAM存算一體架構(gòu)還具有較高的能效和節(jié)能優(yōu)勢,由不同類型的計(jì)算引擎在同一芯片上協(xié)同工作,減少了數(shù)據(jù)傳輸和處理過程中的能量損耗,提高了整體的能源利用率。
在系統(tǒng)層級,我們提出研究發(fā)展基于3D堆疊集成的SRAM存內(nèi)計(jì)算與DRAM近存計(jì)算混合的前沿計(jì)算系統(tǒng)?;诠柰?、銅銅混合鍵合等先進(jìn)封裝技術(shù),可實(shí)現(xiàn)高密度、大容量DRAM存儲(chǔ)芯片和高算力SRAM存內(nèi)計(jì)算芯片之間的垂直多層 3D異質(zhì)集成,能有效緩解計(jì)算芯片與片外存儲(chǔ)之間的數(shù)據(jù)帶寬瓶頸,解決當(dāng)前SRAM存算一體芯片片上存儲(chǔ)容量有限的問題,滿足AI大模型對高帶寬通信和大容量存儲(chǔ)的需求。3D堆疊技術(shù)還可以使得不同層級的存儲(chǔ),特別是大容量的片外HBM DRAM,和SRAM存算一體計(jì)算引擎之間的數(shù)據(jù)通路大幅縮短,從而實(shí)現(xiàn)近存計(jì)算系統(tǒng),有效降低路徑上的負(fù)載電容,加速數(shù)據(jù)的讀寫速度。此外,減少負(fù)載電容也可以降低數(shù)據(jù)傳輸過程中的能耗,從而使得系統(tǒng)在執(zhí)行計(jì)算任務(wù)時(shí)能夠更高效地利用能源。
在軟硬件協(xié)同層級,我們提出研究發(fā)展基于多層次抽象建模的跨層次聯(lián)合仿真、基于STCO(System Technology Co-optimization)的系統(tǒng)工藝協(xié)同優(yōu)化和驗(yàn)證的新方法及SRAM存算一體自動(dòng)化編譯EDA工具。通過跨層次聯(lián)合仿真與優(yōu)化,設(shè)計(jì)者可以在早期階段就發(fā)現(xiàn)系統(tǒng)層面的問題,提前進(jìn)行優(yōu)化和調(diào)整,從而節(jié)省了后期修復(fù)問題的成本和時(shí)間。通過全面考慮硬件和軟件之間的相互影響,設(shè)計(jì)者可以更好地平衡系統(tǒng)的性能、功耗和面積等PPA指標(biāo)。研發(fā)SRAM存算一體宏的硬件編譯器EDA工具,用戶可以根據(jù)應(yīng)用需求配置SRAM存算一體宏的陣列尺寸、計(jì)算精度、存儲(chǔ)計(jì)算資源比例等關(guān)鍵參數(shù),在給定工藝下自動(dòng)化生成所需的SRAM存算一體宏的行為級模型、電路原理圖和物理版圖等,從而實(shí)現(xiàn)SRAM存算一體宏的快速開發(fā)和應(yīng)用部署。在驗(yàn)證方面,跨層次的驗(yàn)證方法允許設(shè)計(jì)者同時(shí)驗(yàn)證硬件和軟件之間的交互,確保它們在系統(tǒng)層面的一致性。通過聯(lián)合驗(yàn)證,可以提前發(fā)現(xiàn)硬件和軟件之間的兼容性問題,提高系統(tǒng)的可靠性和穩(wěn)定性。為了支持跨層次設(shè)計(jì)方法,相關(guān)的EDA工具也需要不斷創(chuàng)新,這些工具旨在提供全面的性能分析和優(yōu)化功能,幫助設(shè)計(jì)者快速找到系統(tǒng)的性能瓶頸,并提供自動(dòng)化的優(yōu)化建議。
在生態(tài)層級,我們提出研究發(fā)展開源硬件與SRAM存算一體軟件生態(tài)的融合,旨在解決計(jì)算完備性難題和突破CUDA生態(tài)。以RISC-V為代表的開源硬件設(shè)計(jì)方法,為開發(fā)者提供了一個(gè)開放、透明的硬件基礎(chǔ),根據(jù)具體需求定制指令集滿足各種不同應(yīng)用場景的需求。借助開源的硬件與軟件開發(fā)生態(tài),支撐SRAM存算一體架構(gòu)依托全球開發(fā)者社區(qū)的力量,促進(jìn)硬件設(shè)計(jì)和軟件開發(fā)之間的緊密合作。此外,該軟硬件生態(tài)的結(jié)合與探索也在CUDA之外提供了其他可能的路徑,從而為計(jì)算生態(tài)系統(tǒng)帶來了更大的多樣性和創(chuàng)新性。
SRAM存算一體的創(chuàng)新技術(shù)路線和布局涉及多個(gè)關(guān)鍵層級,需要在電路、架構(gòu)、系統(tǒng)、軟硬件協(xié)同和生態(tài)層級上進(jìn)行深入、細(xì)致的研究。只有在各個(gè)層級的協(xié)同下,SRAM存算一體芯片才能真正地實(shí)現(xiàn)性能優(yōu)化、功耗控制、穩(wěn)定性提升以及開放性拓展,為未來計(jì)算領(lǐng)域帶來創(chuàng)新和突破。
05. 總結(jié)與建議
存算一體芯片技術(shù)是在人工智能時(shí)代的關(guān)鍵芯片技術(shù)之一。本文通過總結(jié)SRAM存算一體芯片研究的需求與現(xiàn)狀、關(guān)鍵問題和挑戰(zhàn)、創(chuàng)新技術(shù)路線等,認(rèn)為SRAM存算一體芯片是符合國家戰(zhàn)略需求的關(guān)鍵技術(shù),有望在同等工藝上可大幅提升計(jì)算芯片的“性能密度”,提升單位面積下的有效計(jì)算性能。針對SRAM存算一體芯片的技術(shù)特點(diǎn),需要從電路到生態(tài)等多層級的跨層次布局與發(fā)展,建議設(shè)立面向存算一體的研究計(jì)劃,同時(shí)布局新型存儲(chǔ)器和SRAM存算一體;在發(fā)展戰(zhàn)略中覆蓋器件、電路、陣列、架構(gòu)、軟硬件協(xié)同、生態(tài)等環(huán)節(jié),縱向多環(huán)節(jié)協(xié)同創(chuàng)新,避免各環(huán)節(jié)之間的割裂;最后,以主流應(yīng)用,牽引主流賽道的技術(shù)路線創(chuàng)新,為國家戰(zhàn)略做支撐和服務(wù)。
作者團(tuán)隊(duì)介紹:
本文作者為北京大學(xué)集成電路學(xué)院葉樂教授,國家杰青。北京大學(xué)黃如院士-葉樂教授團(tuán)隊(duì)在AI及存算一體、高精度/高能效模擬信號鏈、低功耗電路及架構(gòu)等方向上處于學(xué)科前沿水平,在有集成電路設(shè)計(jì)奧林匹克之稱的ISSCC上連續(xù)發(fā)表了9篇ISSCC成果,近3年獲得的榮譽(yù)包括2篇ISSCC論文被遴選為Highlight亮點(diǎn)論文、ISSCC 2021年度最佳芯片展示獎(jiǎng)(國內(nèi)首次)、2021年度中國半導(dǎo)體十大研究進(jìn)展等。2023年ISSCC中,課題組首次提出了基于差值求和的SRAM存內(nèi)計(jì)算(ΔΣCIM)陣列電路,大幅減少了對數(shù)值不變輸入特征的冗余操作,可使存內(nèi)計(jì)算陣列能耗減少35.8%,該工作已在22nm工藝下進(jìn)行了流片驗(yàn)證。
審核編輯:湯梓紅
-
處理器
+關(guān)注
關(guān)注
68文章
19407瀏覽量
231183 -
芯片
+關(guān)注
關(guān)注
456文章
51170瀏覽量
427248 -
cpu
+關(guān)注
關(guān)注
68文章
10902瀏覽量
213008 -
sram
+關(guān)注
關(guān)注
6文章
768瀏覽量
114885 -
人工智能
+關(guān)注
關(guān)注
1796文章
47666瀏覽量
240285
原文標(biāo)題:SRAM存算一體芯片研究:發(fā)展與挑戰(zhàn)
文章出處:【微信號:算力基建,微信公眾號:算力基建】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論