如何通過改進計算核心架構(gòu)提高神經(jīng)網(wǎng)絡(luò)內(nèi)存和算力需求

近年來，神經(jīng)網(wǎng)絡(luò)模型規(guī)模呈指數(shù)級增長，從2018年擁有超1億參數(shù)的Bert到2020年擁有1750億個參數(shù)GPT-3，短短兩年模型的參數(shù)量增加了3個數(shù)量級，而且這種增長還看不到盡頭。? 人們剛剛開始發(fā)掘神經(jīng)網(wǎng)絡(luò)的應(yīng)用潛力，但傳統(tǒng)的訓(xùn)練和推理方式已然無法跟上神經(jīng)網(wǎng)絡(luò)規(guī)模的飛速增長速度，無法滿足大規(guī)模機器學(xué)習(xí)所需的內(nèi)存和算力需求。為此，國內(nèi)外諸多創(chuàng)業(yè)公司尋求對軟硬件等進行實質(zhì)性的底層技術(shù)革新來解決這一挑戰(zhàn)。作為業(yè)內(nèi)備受關(guān)注的AI加速器創(chuàng)業(yè)公司，成立于2016年的Cerebras希望通過構(gòu)建全新AI加速器方案解決AI計算問題，以實現(xiàn)數(shù)量級計算性能：首先，需要改進計算核心架構(gòu)，而不只是一味地提升每秒浮點運算次數(shù)；其次，需要以超越摩爾定律的速度提高芯片集成度；最后，還要簡化集群連接，大幅度提升集群計算效率。為了實現(xiàn)上述目標(biāo)，Cerebras設(shè)計了一種新的計算核心架構(gòu)。它讓單臺設(shè)備運行超大規(guī)模模型成為可能，此外，它開發(fā)出只需簡單數(shù)據(jù)并行的橫向擴展和本地非結(jié)構(gòu)化稀疏加速技術(shù)，使大模型的應(yīng)用門檻大幅降低。

圖1：近年來各SOTA神經(jīng)網(wǎng)絡(luò)模型的內(nèi)存與算力需求 2021年，Cerebras曾推出全球最大AI芯片Wafer Scale Engine 2（WSE-2），面積是46225平方毫米，采用7nm工藝，擁有2.6萬億個晶體管和85萬個AI優(yōu)化核，還推出了世界上第一個人類大腦規(guī)模的AI解決方案CS-2 AI計算機，可支持超過120萬億參數(shù)規(guī)模的訓(xùn)練。今年6月，它又在基于單個WSE-2芯片的CS-2系統(tǒng)上訓(xùn)練了世界上最大的擁有200億參數(shù)的NLP模型，顯著降低了原本需要數(shù)千個GPU訓(xùn)練的成本。? 在近期舉辦的Hot Chips大會上，Cerebras聯(lián)合創(chuàng)始人&首席硬件架構(gòu)師Sean Lie深入介紹了Cerebras硬件，展示了他們在核心架構(gòu)、縱向擴展和橫向擴展方面的創(chuàng)新方法。以下是他的演講內(nèi)容，由OneFlow社區(qū)編譯。?

01?Cerebras計算核心架構(gòu)

計算核心（compute core）是所有計算機架構(gòu)的“心臟”，而Cerebras針對神經(jīng)網(wǎng)絡(luò)的細(xì)粒度動態(tài)稀疏性重新設(shè)計了計算核心。

圖2：Cerebras計算核心圖2是一款小型核心，它只有38,000平方微米，其中一半的硅面積用于48 KB內(nèi)存，另一半是含110,000個標(biāo)準(zhǔn)單元（cell）的計算邏輯。整個計算核心以1.1 GHz的時鐘頻率高效運行，而峰值功率只有30毫瓦。先從內(nèi)存說起。GPU等傳統(tǒng)架構(gòu)使用共享中央DRAM，但DRAM存取速度較慢，位置也較遠(yuǎn)。即便使用中介層（interposer）和HBM等尖端技術(shù)，其內(nèi)存帶寬也遠(yuǎn)低于核心數(shù)據(jù)通路帶寬。例如，數(shù)據(jù)通路帶寬通常是內(nèi)存帶寬的100倍。這意味著每一個來自內(nèi)存的操作數(shù)（operand）至少要在數(shù)據(jù)通路中被使用100次，才能實現(xiàn)高利用率。要做到這一點，傳統(tǒng)的方法是通過本地緩存和本地寄存器實現(xiàn)數(shù)據(jù)復(fù)用。然而，有一種方法可以讓數(shù)據(jù)通路以極致性能利用內(nèi)存帶寬，就是將內(nèi)存完全分布在要使用內(nèi)存的單元旁邊。這樣一來，內(nèi)存帶寬就等于核心數(shù)據(jù)通路的操作數(shù)帶寬。這是一個簡單的物理原理：將比特數(shù)據(jù)從本地內(nèi)存移動到數(shù)據(jù)通路，中間只有幾十微米的距離，相比將它通過數(shù)據(jù)包移動到外部設(shè)備要容易得多。?

圖3：Cerebras計算核心的內(nèi)存設(shè)計：每個核心配有獨立內(nèi)存。圖3展示了Cerebras計算核心的內(nèi)存設(shè)計，每個核心配有48 KB本地SRAM，8個32位寬的單端口bank使其具備高密度，同時可保證充分發(fā)揮極致性能，這種級別的bank可提供超出數(shù)據(jù)通路所需的內(nèi)存帶寬。因此，我們可以從內(nèi)存中提供極致數(shù)據(jù)通路性能，也就是每個循環(huán)只需2個64位讀取，一個64位寫入，因此它可以保證數(shù)據(jù)通路充分發(fā)揮性能。值得注意的是，每個核心的內(nèi)存相互獨立，沒有傳統(tǒng)意義上的共享內(nèi)存。除了高性能的SRAM以外，Cerebras計算核心還具備一個256字節(jié)的軟件管理緩存，供頻繁訪問的數(shù)據(jù)結(jié)構(gòu)使用，如累加器等。該緩存離數(shù)據(jù)通路非常緊湊，所以消耗的功率極低。上述分布式內(nèi)存架構(gòu)造就了驚人的內(nèi)存帶寬，相當(dāng)于同等面積GPU內(nèi)存帶寬的200倍。

02?所有BLAS級別的極致性能

圖4：稀疏GEMM即對每個非零權(quán)重執(zhí)行一次AXPY操作。? 有了極大的內(nèi)存帶寬，就可以實現(xiàn)許多卓越的功能。比如，可以充分發(fā)揮所有BLAS級別（基礎(chǔ)線性代數(shù)程序集，BLAS levels）的極致性能。傳統(tǒng)的CPU和GPU架構(gòu)的片上內(nèi)存帶寬有限，因此只能實現(xiàn)GEMM（通用矩陣乘法）的極致性能，即矩陣-矩陣相乘。? 從圖4可見，在低于矩陣-矩陣相乘的任何BLAS級別都需要比內(nèi)存帶寬的大幅增加，這一點傳統(tǒng)架構(gòu)無法滿足。但有了足夠的內(nèi)存帶寬后，就可以讓GEMV（矩陣-向量相乘）、DOT（向量-向量相乘）和AXPY（向量-標(biāo)量相乘）均實現(xiàn)極致性能。高內(nèi)存帶寬在神經(jīng)網(wǎng)絡(luò)計算中尤為重要，因為這可以實現(xiàn)非結(jié)構(gòu)化稀疏的充分加速。一個稀疏GEMM操作可看作是多個AXPY操作的合集（對每個非零元素執(zhí)行一次操作）。? Cerebras計算核心的基礎(chǔ)是一個完全可編程的處理器，以適應(yīng)不斷變化的深度學(xué)習(xí)需求。與通用處理器一樣，Cerebras核心處理器支持算術(shù)、邏輯、加載/儲存、比較（compare）、分支等多種指令。這些指令和數(shù)據(jù)一樣儲存在每個核心的48 KB本地內(nèi)存中，這意味著核心之間相互獨立，也意味著整個芯片可以進行細(xì)粒度動態(tài)計算。通用指令在16個通用寄存器上運行，其運行在緊湊的6級流水線中。?

等式1，F(xiàn)MAC指令示例除此之外，Cerebras核心還在硬件層面支持所有有關(guān)數(shù)據(jù)處理的張量指令。這些張量算子在64-位數(shù)據(jù)通路中執(zhí)行，數(shù)據(jù)通路由4個FP16 FMAC（融合乘積累加運算）單元組成。為了提升性能與靈活性，Cerebras的指令集架構(gòu)（ISA）將張量視為與通用寄存器和內(nèi)存一樣的一等操作數(shù)（first-class operand）。上圖等式1是一個FMAC指令的例子，它將3D和2D張量視為操作數(shù)直接運行。之所以可以做到這一點，是因為Cerebras核心使用數(shù)據(jù)結(jié)構(gòu)寄存器（DSR）作為指令的操作數(shù)。Cerebras核心有44個DSR，每個DSR包含一個描述符，里面有指針指向張量及其長度、形狀、大小等信息。有了DSR后，Cerebras核心的硬件架構(gòu)更靈活，即可以在內(nèi)存中支持內(nèi)存中的4D張量，也可支持織構(gòu)張量（fabric streaming tensors）、FIFO（先進先出算法）和環(huán)形緩沖器。此外，Cerebras核心還配有硬件狀態(tài)機來管理整個張量在數(shù)據(jù)通路中的流動次序。

03?細(xì)粒度數(shù)據(jù)流調(diào)度

圖5：核心數(shù)據(jù)通路及核心數(shù)據(jù)流調(diào)度。細(xì)粒度動態(tài)計算核心可提升計算性能，稀疏利用率為GPU的10倍。除了改進張量應(yīng)用，Cerebras核心還可執(zhí)行細(xì)粒度數(shù)據(jù)流調(diào)度。如圖5所示，所有計算都由數(shù)據(jù)觸發(fā)。Fabric直接在硬件中傳輸數(shù)據(jù)和關(guān)聯(lián)控件，一旦核心接收數(shù)據(jù)，就開始查找運行指令，查找工作完全基于接收到的數(shù)據(jù)。這一數(shù)據(jù)流機制使整個計算結(jié)構(gòu)變成一個數(shù)據(jù)流引擎，可以支持稀疏加速——因為它只處理非零數(shù)據(jù)。發(fā)送器會過濾所有零值，因此接收器只會接收到非零值，而所有計算都由非零數(shù)據(jù)觸發(fā)。這樣做不但可以節(jié)省功率，還可以省略不必要的計算，加快運算效率。操作由單個數(shù)據(jù)元素觸發(fā)，使得Cerebras核心可以支持超細(xì)粒度、完全非結(jié)構(gòu)化的稀疏性，同時不會造成性能損失。由于數(shù)據(jù)流具有動態(tài)性，所以Cerebras核心還支持8個張量操作同時運行，我們稱之為“微線程（micro-threads）”。微線程之間相互獨立，每次循環(huán)時硬件可在其間切換。調(diào)度器持續(xù)為所有待處理張量監(jiān)控輸入和輸出是否可用，還具有優(yōu)先處理機制，保證關(guān)鍵任務(wù)得到優(yōu)先處理。當(dāng)不同任務(wù)間的切換產(chǎn)生大量動態(tài)行為時，微線程可以提升利用率，否則這些動態(tài)行為可能會導(dǎo)致流水線出現(xiàn)氣泡。上述細(xì)粒度、動態(tài)、小型核心架構(gòu)等特點使我們的架構(gòu)具備前所未有的高性能，其非結(jié)構(gòu)化稀疏計算的利用率是GPU的至少10倍。可見，通過對計算核心架構(gòu)的改進，Cerebras可將性能進行數(shù)量級提升。

04?縱向擴展：超越摩爾定律

要縱向擴展芯片，傳統(tǒng)的方法都是從芯片制造方面入手，即提升芯片集成度。過去數(shù)十年，芯片行業(yè)的發(fā)展都符合摩爾定律，芯片集成度越來越高。如今，摩爾定律還在延續(xù)，但它的增量不夠大，每一代制程只能將集成度提升約兩倍，不足以滿足神經(jīng)網(wǎng)絡(luò)的計算需求。所以，Cerebras希望可以超越摩爾定律，實現(xiàn)數(shù)量級的性能提升。為此，我們嘗試過傳統(tǒng)的方法——擴大芯片面積，并在這方面做到了極致，成果就是WSE-2（Wafer-Scale Engine，晶圓級引擎）。如今，WSE-2的應(yīng)用已非常廣泛。它是全世界最大的芯片，尺寸超過46,000平方毫米，是目前最大的CPU的56倍。單塊WSE-2有2.6萬億個晶體管，核心數(shù)達(dá)850,000個。龐大的芯片面積可以實現(xiàn)極大的片上內(nèi)存和極高的性能。為了讓尺寸驚人的WSE-2也能在標(biāo)準(zhǔn)的數(shù)據(jù)中心環(huán)境中使用，我們還針對性地設(shè)計了Cerebras CS-2系統(tǒng)，做到了用單塊芯片實現(xiàn)集群級計算。

圖6：從小型核心到大型晶圓級引擎以下是我們從小型核心構(gòu)建大型晶圓級引擎的過程：首先，我們在整片直徑約300毫米的晶圓上做出一個個傳統(tǒng)晶粒（Die），每個晶粒含有約10,000個核心；然后，不同于以往的是，我們不將單個晶粒切割出來做成傳統(tǒng)芯片，而是在整片晶圓內(nèi)切割出一個邊長215毫米的方塊，方塊包含84個晶粒，共有850,000個計算核心（圖6）。

圖7：高帶寬、低延遲的芯片結(jié)構(gòu) 實現(xiàn)這樣的超大芯片尺寸，離不開底層架構(gòu)的配合，底層架構(gòu)必須能使數(shù)據(jù)在整片晶圓上高效、高性能地傳輸（圖7）。Cerebras的芯片結(jié)構(gòu)使用2D網(wǎng)格拓?fù)洌@種結(jié)構(gòu)非常適合擴展，而且只需消耗極低的開銷。網(wǎng)格拓?fù)鋵⑺泻诵倪B接起來，每個核心在網(wǎng)狀拓?fù)渲杏幸粋€結(jié)構(gòu)路由器（fabric router）。結(jié)構(gòu)路由器有5個端口，4個方向各有1個，還有一個端口面向核心自身，各個端口都有32位的雙向接口。端口數(shù)量較少的好處是可以將節(jié)點間延時保持在一個時鐘周期以內(nèi)，從而實現(xiàn)低成本、無損流控和非常低的緩沖。芯片中的基本數(shù)據(jù)包是針對神經(jīng)網(wǎng)絡(luò)優(yōu)化后的單個FP16數(shù)據(jù)元素，與之伴隨的是16位的控制信息，它們共同組成32位的超細(xì)粒度數(shù)據(jù)包。為了進一步優(yōu)化芯片結(jié)構(gòu)，我們使用了靜態(tài)路由（static routing），效率高，開銷低，而且可以充分利用神經(jīng)網(wǎng)絡(luò)的靜態(tài)連接。為了讓同一物理連接上可以有多條路由，我們提供24條相互獨立的靜態(tài)路由以供配置，路由之間無阻塞，且都可以通過時分復(fù)用（time-multiplexing）技術(shù)在同一物理連接上傳輸。最后，由于神經(jīng)網(wǎng)絡(luò)傳輸需要高扇出（fan-out），因此Cerebras芯片的每個結(jié)構(gòu)路由器都具有本地廣播（native broadcast）和多播（multi-cast）能力。? 有了上述基礎(chǔ)后，我們就可以進行擴展。在單個晶粒內(nèi)進行擴展比較簡單，但現(xiàn)在需要將晶粒與晶粒連接起來。為了跨越晶粒間不到一毫米寬的劃片槽（scribe line），我們使用了臺積電工藝中的高級金屬層。? 我們將計算核心擴展為2D網(wǎng)格計算結(jié)構(gòu)，然后又在整個晶圓上形成了完全同質(zhì)的計算核心陣列。晶粒-晶粒接口是一種高效的源同步并行接口，但是，在如此大的晶圓規(guī)模上，總共有超過一百萬條線路，所以我們的底層協(xié)議必須采用冗余度設(shè)計。我們通過訓(xùn)練和自動校正狀態(tài)機來做到這一點。有了這些接口，即使在制造過程中存在瑕疵，整個晶圓的結(jié)構(gòu)也能做到完全均質(zhì)結(jié)構(gòu)（uniform fabric）。?

圖8：整個晶圓上的均質(zhì)結(jié)構(gòu)（uniform fabric）。芯片上看似簡單的短線其實十分重要，它們在硅上的距離不到一毫米。這種線路設(shè)計與傳統(tǒng)的SERDES方法很不一樣。與前面提到的的內(nèi)存設(shè)計相同，短線設(shè)計是出于簡單的物理原理：在芯片上將比特數(shù)據(jù)傳輸不到1毫米的距離，比通過封裝連接器、PCB或者線纜傳輸都更容易。與傳統(tǒng)IO相比，這種方法帶來了數(shù)量級的改進。從圖8數(shù)據(jù)可看出，WSE-2每單位面積的帶寬比GPU多出約一個數(shù)量級，并且每比特的功率效率提高了近兩個數(shù)量級。這些都表明整個晶圓結(jié)構(gòu)具備了前所未有的高性能。? 如果轉(zhuǎn)化為同等的GPU面積，WSE-2的帶寬是GPU的7倍，而功率僅約5瓦。正是這種級別的全局結(jié)構(gòu)性能，使晶圓能夠作為單個芯片運行。有了如此強大的單芯片，我們就可以解決一些極具挑戰(zhàn)性的問題。

05?通過權(quán)重流式技術(shù)支持超大模型

圖9：通過權(quán)重流式（Weight Streaming）技術(shù)可在單個芯片上支持所有模型大小。高性能的芯片結(jié)構(gòu)可以讓我們在單個芯片上運行大型神經(jīng)網(wǎng)絡(luò)。WSE-2具有足夠高的性能和容量來運行如今最大的模型，且無需分區(qū)或復(fù)雜的分布式處理，這是通過分解神經(jīng)網(wǎng)絡(luò)模型、權(quán)重和計算來完成的。我們將所有模型權(quán)重存儲在名為MemoryX的外部設(shè)備中，并將這些權(quán)重流式傳輸?shù)紺S-2系統(tǒng)。權(quán)重會在神經(jīng)網(wǎng)絡(luò)各層的計算中用到，而且一次只計算一層。權(quán)重不會存儲在CS-2系統(tǒng)上，哪怕是暫時儲存。CS-2接收到權(quán)重后，使用核心中的底層數(shù)據(jù)流機制執(zhí)行計算（圖9）。? 每個單獨的權(quán)重都會作為單獨的AXPY操作觸發(fā)計算。完成計算后，該權(quán)重就會被丟棄，硬件將繼續(xù)處理下一個元素。由于芯片不需要儲存權(quán)重，所以芯片的內(nèi)存容量不會影響芯片可處理的模型大小。在反向傳播中，梯度以相反的方向流回到MemoryX單元，然后MemoryX單元進行權(quán)重更新。?

圖10：完整的晶圓是MatMul陣列，可支持超大矩陣。以下是芯片中執(zhí)行計算的具體方法。神經(jīng)網(wǎng)絡(luò)各層的計算可歸結(jié)為矩陣乘法，由于CS-2的規(guī)模較大，我們能夠?qū)⒕A的85萬個核心用作單個巨型矩陣乘法器。它是這樣工作的：對于像GPT這樣的Transformer模型，激活張量具有三個邏輯維度：批次（B）、序列(S)和隱藏（H）維度，我們將這些張量維度拆分到晶圓上的二維核心網(wǎng)格上。隱藏維度在芯片結(jié)構(gòu)的x方向上劃分（split），而批次和序列維度在y方向上劃分。這樣可以實現(xiàn)高效的權(quán)重廣播以及序列和隱藏維度的高效歸約。激活函數(shù)存儲在負(fù)責(zé)執(zhí)行計算工作的核心上，下一步是觸發(fā)這些激活函數(shù)的計算，這是通過使用片上廣播結(jié)構(gòu)來完成的。我們使用片上廣播結(jié)構(gòu)來向每一列發(fā)送權(quán)重、數(shù)據(jù)和命令的方法。當(dāng)然，在硬件數(shù)據(jù)流機制下，權(quán)重會直接觸發(fā)FMAC操作。這些是AXPY操作。由于廣播發(fā)生在列上，因此包含相同特征子集的所有核心接收相同的權(quán)重。此外，我們發(fā)送命令來觸發(fā)其他計算，例如歸約或非線性操作。

圖11：數(shù)據(jù)流調(diào)度以低開銷實現(xiàn)完全非結(jié)構(gòu)化的稀疏MatMul運算。? 舉個例子，我們首先在整個晶圓上廣播權(quán)重行（圖11）。每行的每個元素都是標(biāo)量，當(dāng)然，在單行中，有多個權(quán)重映射到單個列上，當(dāng)存在稀疏性時，只有非零權(quán)重才會被廣播到列，觸發(fā)FMAC計算。我們跳過所有的零權(quán)重，并輸入下一個非零權(quán)重，這就是產(chǎn)生稀疏加速的原因。?

圖12：稀疏輸入的GEMM：乘法和partial sum歸約。如果我們現(xiàn)在放大一個核心，可以看到核心架構(gòu)是如何進行此操作（圖12）。在數(shù)據(jù)流機制下，權(quán)重抵達(dá)后，就會觸發(fā)核心上的FMAC計算。權(quán)重值與每個激活函數(shù)輸出相乘，然后累加到軟件管理緩存中的本地累加器中。FMAC計算使用張量指令執(zhí)行，將激活函數(shù)輸出視為張量操作數(shù)。上述計算都不會對核心造成額外開銷。此外，權(quán)重也不會產(chǎn)生內(nèi)存開銷，因為一旦計算完成，核心就會轉(zhuǎn)而計算下一個權(quán)重，不需要存儲任何權(quán)重。若整行核心都接收到權(quán)重，每個核心就都會產(chǎn)生一個partial sum，然后該行核心的所有partial sum將進行歸約。歸約計算由被廣播到每列所有核心的命令包觸發(fā)。同樣，在數(shù)據(jù)流調(diào)度機制下，一旦核心接收到命令包，它就會觸發(fā)partial sum歸約計算。實際的歸約計算本身是使用核心的張量指令完成，使用的是結(jié)構(gòu)張量操作數(shù)。所有列都接收一個PSUM命令。但是其中一列會收到一個特殊的FSUM命令，它要求內(nèi)核存儲final sum。這樣做是為了使用與輸入特征相同的分布來存儲輸出特征，從而為下一層計算做好準(zhǔn)備。收到命令后，核心使用結(jié)構(gòu)上的環(huán)形模式進行通信，該模式使用結(jié)構(gòu)靜態(tài)路由設(shè)置。使用微線程，所有歸約都與下一個權(quán)重行的FMAC計算重疊，該種FMAC計算并行開始。當(dāng)所有的權(quán)重行都處理完畢，完整的GEMM操作就完成了，同時所有的激活函數(shù)輸出都已完備，可以進行下一層計算。? 上述設(shè)計能讓各種規(guī)模的神經(jīng)網(wǎng)絡(luò)都可以在單個芯片上高性能運行。獨特的核心內(nèi)存和芯片架構(gòu)使芯片可以無需分塊或分區(qū)即可支持超大矩陣，即使是具有多達(dá)100,000 x 100,000 MatMul層的超大模型也可以在不拆分矩陣的情況下運行。若使用單個WSE-2芯片運行此模型，F(xiàn)P16稀疏性能可達(dá)75 PetaFLOPS（若稀疏性更高，性能還可更高），F(xiàn)P16密集性能可達(dá)7.5 PetaFLOPS。這就是我們應(yīng)對機器學(xué)習(xí)硬件挑戰(zhàn)的第二個方面，通過擴展進一步帶來一個數(shù)量級的性能提升。

06?橫向擴展：為什么這么難

最后一個方面：集群橫向擴展。如今已經(jīng)存在集群解決方案，但為什么橫向擴展仍然如此困難？

圖13：分布復(fù)雜性隨集群規(guī)模顯著增加。讓我們看看現(xiàn)有的橫向擴展技術(shù)（圖13）。最常見的是數(shù)據(jù)并行，這也是最簡單的方法，但它不適用于大型模型，因為它要求每個設(shè)備都有足夠的容量容納整個模型。為了解決這個問題，常見的方法是采用模型并行，即劃分模型，以流水線方式用不同的設(shè)備運行模型的不同層。但隨著流水線變長，激活值內(nèi)存（activation memory）以二次方的速度增長。為了避免這種情況，另一種常見的模型并行方法是跨設(shè)備劃分層，但這會造成很大的通信開銷，而且劃分單個層非常復(fù)雜。? 由于上述種種限制，今天仍沒有一種萬能的方式來實現(xiàn)橫向擴展。在大多數(shù)情況下，訓(xùn)練海量模型需要數(shù)據(jù)并行和模型并行混合的方法。現(xiàn)存的橫向擴展解決方案仍有許多不足，根本原因很簡單：在傳統(tǒng)的橫向擴展中，內(nèi)存和計算是緊密聯(lián)系的，如果在數(shù)千臺設(shè)備上運行單個模型，擴展內(nèi)存和計算就變成相互依賴的分布式約束問題。

圖14：GPU集群在實踐中的復(fù)雜性。這種復(fù)雜性導(dǎo)致的結(jié)果是：圖14顯示了過去幾年在GPU上訓(xùn)練的最大模型及其使用的不同并行方法。從中可見，越大的模型需要的并行類型也越多，增加了復(fù)雜性。例如，張量模型的并行級別始終限制為8，因為在單個服務(wù)器中通常只有8個GPU。因此，大型模型大多采用流水式模型并行，這是最復(fù)雜的方法，原因就是之前提到的內(nèi)存問題。在GPU集群上訓(xùn)練模型需要解決這些分布式系統(tǒng)問題。這種復(fù)雜性導(dǎo)致需要更長的開發(fā)時間，并且往往無法實現(xiàn)最佳擴展。

07?Cerebras架構(gòu)使擴展變得容易

Cerebras架構(gòu)能夠在單個芯片上運行所有模型，無需模型分割，因此擴展變得簡單而自然，可以僅通過數(shù)據(jù)并行進行擴展，不需要任何復(fù)雜的模型并行分割。

圖15：使用MemoryX和SwarmX進行擴展，只需近線性的數(shù)據(jù)并行。我們?yōu)閿?shù)據(jù)并行專門設(shè)計了SwarmX（圖15）互聯(lián)技術(shù)。它位于儲存權(quán)重的MemoryX單元和用于計算的CS-2系統(tǒng)之間，但又獨立于兩者。 SwarmX向所有CS-2系統(tǒng)廣播權(quán)重，并減少所有CS-2的梯度，它不僅僅是一個互聯(lián)，更是訓(xùn)練過程中的一個活躍組件，專為數(shù)據(jù)并行橫向擴展而構(gòu)建。? 在內(nèi)部，SwarmX使用樹形拓?fù)鋪韺崿F(xiàn)模塊化和低開銷擴展，因為它是模塊化和可分解的，所以擴展到任意數(shù)量的具有與單個系統(tǒng)相同的執(zhí)行模型的CS-2系統(tǒng)。要擴展到更多計算，只需在SwarmX拓?fù)渲刑砑痈喙?jié)點和更多CS-2系統(tǒng)。這就是我們應(yīng)對機器學(xué)習(xí)硬件需求的最后一個方面：改進并大大簡化橫向擴展。?

08?總結(jié)

在過去的幾年里，機器學(xué)習(xí)工作負(fù)載的需求增加了三個數(shù)量級以上，而且沒有放緩的跡象。預(yù)計幾年后將增長到圖16的箭頭位置，我們問自己，可以滿足這種需求嗎？

圖16：各種最先進的神經(jīng)網(wǎng)絡(luò)的內(nèi)存和計算要求。橫、縱坐標(biāo)每一格代表一個數(shù)量級的提升。 Cerebras相信，我們可以，但不是通過傳統(tǒng)技術(shù)做到這一點，而是通過非結(jié)構(gòu)化稀疏加速、晶圓級芯片和集群橫向擴展的結(jié)合將性能提升三個數(shù)量級。神經(jīng)網(wǎng)絡(luò)模型規(guī)模依然呈指數(shù)級增長，可以使用這些大模型的公司很少，而且未來只會更少。? 然而，Cerebras架構(gòu)支持用單個設(shè)備運行超大模型，同時支持只需數(shù)據(jù)并行的橫向擴展，以及本地非結(jié)構(gòu)化稀疏加速，將讓更多人都能使用大模型。??

編輯：黃飛

閱讀全文

神經(jīng)網(wǎng)絡(luò)(98386) 神經(jīng)網(wǎng)絡(luò)(98386)
機器學(xué)習(xí)(130423) 機器學(xué)習(xí)(130423)
AI芯片(34268) AI芯片(34268)

神經(jīng)網(wǎng)絡(luò)50例

神經(jīng)網(wǎng)絡(luò)50例

2012-11-28 16:49:56

神經(jīng)網(wǎng)絡(luò)Matlab程序

神經(jīng)網(wǎng)絡(luò)Matlab程序

2009-09-15 12:52:24

神經(jīng)網(wǎng)絡(luò)與SVM的模塊

大家有知道labview中神經(jīng)網(wǎng)絡(luò)和SVM的工具包是哪個嗎？求分享一下，有做這方面的朋友也可以交流一下，大家共同進步

2017-10-13 11:41:43

神經(jīng)網(wǎng)絡(luò)基本介紹

神經(jīng)網(wǎng)絡(luò)基本介紹

2018-01-04 13:41:23

神經(jīng)網(wǎng)絡(luò)教程（李亞非）

　　第1章概述　　1.1 人工神經(jīng)網(wǎng)絡(luò)研究與發(fā)展　　1.2 生物神經(jīng)元　　1.3 人工神經(jīng)網(wǎng)絡(luò)的構(gòu)成　　第2章人工神經(jīng)網(wǎng)絡(luò)基本模型　　2.1 MP模型　　2.2 感知器模型　　2.3 自適應(yīng)線性

2012-03-20 11:32:43

神經(jīng)網(wǎng)絡(luò)移植到STM32的方法

問題，一個是神經(jīng)網(wǎng)絡(luò)的移植，另一個是STM32的計算速度。神經(jīng)網(wǎng)絡(luò)的移植網(wǎng)絡(luò)采用的是最簡單的BP神經(jīng)網(wǎng)絡(luò)，基本原理可以自己去了解一下，大概就是通過若干次矩陣運算AX+BAX+BAX+B將m個輸入對應(yīng)到n

2022-01-11 06:20:53

神經(jīng)網(wǎng)絡(luò)簡介

神經(jīng)網(wǎng)絡(luò)簡介

2012-08-05 21:01:08

神經(jīng)網(wǎng)絡(luò)解決方案讓自動駕駛成為現(xiàn)實

使用最為有利的系統(tǒng)。訓(xùn)練往往在線下通過基于 CPU 的系統(tǒng)、圖形處理器 (GPU) 或現(xiàn)場可編程門陣列 (FPGA) 來完成。由于計算功能強大且設(shè)計人員對其很熟悉，這些是用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的最為理想

2017-12-21 17:11:34

神經(jīng)網(wǎng)絡(luò)資料

基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法

2019-05-16 17:25:05

計算機視覺神經(jīng)網(wǎng)絡(luò)資料全集

CV之YOLOv3：深度學(xué)習(xí)之計算機視覺神經(jīng)網(wǎng)絡(luò)Yolov3-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄(第二次)——Jason niu

2018-12-24 11:52:25

AI知識科普 | 從無人相信到萬人追捧的神經(jīng)網(wǎng)絡(luò)

在一起，計算機就會判定這是一只貓！ C、遞歸神經(jīng)網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)是一種深度神經(jīng)網(wǎng)絡(luò)，它將相同的權(quán)重遞歸地應(yīng)用在神經(jīng)網(wǎng)絡(luò)架構(gòu)上，以拓?fù)渑判虻姆绞奖闅v給定結(jié)構(gòu)，從而在大小可變的輸入結(jié)構(gòu)上可以做出結(jié)構(gòu)化的預(yù)測

2018-06-05 10:11:50

ETPU-Z2全可編程神經(jīng)網(wǎng)絡(luò)開發(fā)平臺

來的各種數(shù)據(jù)來決定如何優(yōu)化和改進神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，最終達(dá)到應(yīng)用的需求。當(dāng)訓(xùn)練完畢后，通常會得到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重參數(shù)兩個文件（也可能合成一個文件），這兩個文件將會被后續(xù)的算法部署階段使用。（3

2020-05-18 17:13:24

Keras可視化神經(jīng)網(wǎng)絡(luò)架構(gòu)的4種方法

我們在使用卷積神經(jīng)網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)或其他變體時，通常都希望對模型的架構(gòu)可以進行可視化的查看，因為這樣我們可以在定義和訓(xùn)練多個模型時，比較不同的層以及它們放置的順序?qū)Y(jié)果的影響。還有可以更好地理

2022-11-02 14:55:04

MATLAB神經(jīng)網(wǎng)絡(luò)

2013-07-08 15:17:13

Matlab神經(jīng)網(wǎng)絡(luò)工具箱是什么？它在同步中的應(yīng)用有哪些？

Matlab神經(jīng)網(wǎng)絡(luò)工具箱是什么？Matlab神經(jīng)網(wǎng)絡(luò)工具箱在同步中的應(yīng)用有哪些？

2021-04-26 06:42:29

labview BP神經(jīng)網(wǎng)絡(luò)的實現(xiàn)

請問：我在用labview做BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)故障診斷，在NI官網(wǎng)找到了機器學(xué)習(xí)工具包（MLT），但是里面沒有關(guān)于這部分VI的幫助文檔，對于”BP神經(jīng)網(wǎng)絡(luò)分類“這個范例有很多不懂的地方，比如

2017-02-22 16:08:08

matlab實現(xiàn)神經(jīng)網(wǎng)絡(luò) 精選資料分享

習(xí)神經(jīng)神經(jīng)網(wǎng)絡(luò)，對于神經(jīng)網(wǎng)絡(luò)的實現(xiàn)是如何一直沒有具體實現(xiàn)一下：現(xiàn)看到一個簡單的神經(jīng)網(wǎng)絡(luò)模型用于訓(xùn)練的輸入數(shù)據(jù):對應(yīng)的輸出數(shù)據(jù):我們這里設(shè)置：1：節(jié)點個數(shù)設(shè)置：輸入層、隱層、輸出層的節(jié)點

2021-08-18 07:25:21

《 AI加速器架構(gòu)設(shè)計與實現(xiàn)》+第一章卷積神經(jīng)網(wǎng)絡(luò)觀后感

《 AI加速器架構(gòu)設(shè)計與實現(xiàn)》+第一章卷積神經(jīng)網(wǎng)絡(luò)觀感 ? ?在本書的引言中也提到“一圖勝千言”，讀完第一章節(jié)后，對其進行了一些歸納（如圖1），第一章對常見的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行了介紹，舉例了一些結(jié)構(gòu)

2023-09-11 20:34:01

【AD新聞】AI時代，一美元能夠買到多強的算力？

算力，然而當(dāng)用戶在真正運行一個應(yīng)用時，卻發(fā)現(xiàn)由于內(nèi)存帶寬的限制和架構(gòu)的限制，依然不能將所有的AI運算單元填滿，從而導(dǎo)致計算硬件的計算效率低下。以谷歌第一代TPU為例，其平均硬件乘法陣列使用率只有28

2018-03-23 15:27:20

【PYNQ-Z2申請】基于PYNQ的神經(jīng)網(wǎng)絡(luò)自動駕駛小車

快速視頻采集處理和快速神經(jīng)網(wǎng)絡(luò)計算的算力要求，板載HDMI與USB接口、外置512M的DDR3內(nèi)存也符合作品進行圖像處理并輸入輸出的硬件要求，充分發(fā)掘了PYNQ開發(fā)板的板載資源的應(yīng)用潛力，因此想借

2018-12-19 11:36:24

【PYNQ-Z2試用體驗】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識

前言前面我們通過notebook，完成了在PYNQ-Z2開發(fā)板上編寫并運行python程序。我們的最終目的是基于神經(jīng)網(wǎng)絡(luò)，完成手寫的數(shù)字識別。在這之前，有必要講一下神經(jīng)網(wǎng)絡(luò)的基本概念和工作原理。何為

2019-03-03 22:10:19

【PYNQ-Z2試用體驗】基于PYNQ的神經(jīng)網(wǎng)絡(luò)自動駕駛小車 - 項目規(guī)劃

采集處理和快速神經(jīng)網(wǎng)絡(luò)計算的算力要求，板載HDMI與USB接口、外置512M的DDR3內(nèi)存也滿足作品進行圖像處理并輸入輸出的硬件平臺要求。作品將充分發(fā)掘PYNQ開發(fā)板的板載資源的應(yīng)用潛力，并以一輛小車

2019-03-02 23:10:52

【大聯(lián)大世平Intel?神經(jīng)計算棒NCS2試用體驗】0.開箱帖

(NeuralComputeStick2/NCS2)，可讓開發(fā)者更智能、更高效地開發(fā)和部署深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用，滿足新一代智能設(shè)備的需求。新一代計算棒仍然類似U盤造型，尺寸只有72.5×27×14毫米，通過

2020-07-27 17:28:00

【案例分享】ART神經(jīng)網(wǎng)絡(luò)與SOM神經(jīng)網(wǎng)絡(luò)

樣本將被歸為該代表向量所屬類別，同時網(wǎng)絡(luò)連接權(quán)將會更新，使以后在接收到相似輸入樣本時該模式類會計算出更大的相似度，這一步可以理解為為以后的工作做鋪墊，通過這種做法可以提高準(zhǔn)確度。若相似度不大于識別閾值

2019-07-21 04:30:00

【案例分享】基于BP算法的前饋神經(jīng)網(wǎng)絡(luò)

}或o koko_{k}）的誤差神經(jīng)元偏倚的變化量：ΔΘ ΔΘ Delta Theta=學(xué)習(xí)步長η ηeta × ×imes 乘以神經(jīng)元的誤差BP神經(jīng)網(wǎng)絡(luò)算法過程網(wǎng)絡(luò)的初始化：包括權(quán)重和偏倚的初始化計算

2019-07-21 04:00:00

人工神經(jīng)網(wǎng)絡(luò)原理及下載

人工神經(jīng)網(wǎng)絡(luò)是根據(jù)人的認(rèn)識過程而開發(fā)出的一種算法。假如我們現(xiàn)在只有一些輸入和相應(yīng)的輸出，而對如何由輸入得到輸出的機理并不清楚，那么我們可以把輸入與輸出之間的未知過程看成是一個“網(wǎng)絡(luò)”，通過不斷地給

2008-06-19 14:40:42

人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)方法有哪些？

人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)是一種類似生物神經(jīng)網(wǎng)絡(luò)的信息處理結(jié)構(gòu)，它的提出是為了解決一些非線性，非平穩(wěn)，復(fù)雜的實際問題。那有哪些辦法能實現(xiàn)人工神經(jīng)網(wǎng)絡(luò)呢？

2019-08-01 08:06:21

人工神經(jīng)網(wǎng)絡(luò)課件

人工神經(jīng)網(wǎng)絡(luò)課件

2016-06-19 10:15:48

什么是LSTM神經(jīng)網(wǎng)絡(luò)

簡單理解LSTM神經(jīng)網(wǎng)絡(luò)

2021-01-28 07:16:57

什么是圖卷積神經(jīng)網(wǎng)絡(luò)？

圖卷積神經(jīng)網(wǎng)絡(luò)

2019-08-20 12:05:29

從AlexNet到MobileNet，帶你入門深度神經(jīng)網(wǎng)絡(luò)

通過堆疊卷積層使得模型更深更寬，同時借助GPU使得訓(xùn)練再可接受的時間范圍內(nèi)得到結(jié)果，推動了卷積神經(jīng)網(wǎng)絡(luò)甚至是深度學(xué)習(xí)的發(fā)展。下面是AlexNet的架構(gòu)：AlexNet的特點有：1.借助擁有1500萬標(biāo)簽

2018-05-08 15:57:47

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些？

2022-09-06 09:52:36

何謂神經(jīng)網(wǎng)絡(luò)處理指令？有什么作用？

何謂神經(jīng)網(wǎng)絡(luò)處理指令？有什么作用？Armv8.1-M核心實施選項包括哪些？

2021-06-29 09:07:44

全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)有什么區(qū)別

全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

2019-06-06 14:21:42

分享一種用于神經(jīng)網(wǎng)絡(luò)處理的新8位浮點交換格式

采用并提高他們的生產(chǎn)力。采用降低精度的浮點格式帶來了許多好處。直到幾年前，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練主要是使用 IEEE 標(biāo)準(zhǔn)的 32 位浮點數(shù)來計算的。發(fā)現(xiàn)具有越來越多層的大型網(wǎng)絡(luò)在 NN 任務(wù)中越

2022-09-15 15:15:46

卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過程

inference在設(shè)備端上做。嵌入式設(shè)備的特點是算力不強、memory小。可以通過對神經(jīng)網(wǎng)絡(luò)做量化來降load和省memory，但有時可能memory還吃緊，就需要對神經(jīng)網(wǎng)絡(luò)在memory使用上做進一步優(yōu)化

2021-12-23 06:16:40

卷積神經(jīng)網(wǎng)絡(luò)為什么適合圖像處理？

卷積神經(jīng)網(wǎng)絡(luò)為什么適合圖像處理？

2022-09-08 10:23:10

卷積神經(jīng)網(wǎng)絡(luò)如何使用

卷積神經(jīng)網(wǎng)絡(luò)(CNN)究竟是什么，鑒于神經(jīng)網(wǎng)絡(luò)在工程上經(jīng)歷了曲折的歷史，您為什么還會在意它呢? 對于這些非常中肯的問題，我們似乎可以給出相對簡明的答案。

2019-07-17 07:21:50

卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像分類、目標(biāo)檢測、語義分割以及自然語言處理等領(lǐng)域。首先分析了典型卷積神經(jīng)網(wǎng)絡(luò)模型為提高其性能增加網(wǎng)絡(luò)深度以及寬度的模型結(jié)構(gòu)，分析了采用注意力機制進一步提升模型性能的網(wǎng)絡(luò)結(jié)構(gòu)，然后歸納

2022-08-02 10:39:39

卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點是什么

卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點

2020-05-05 18:12:50

卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu)和常用框架

　　卷積神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu)　　卷積神經(jīng)網(wǎng)絡(luò)的常用框架

2020-12-29 06:16:44

卷積神經(jīng)網(wǎng)絡(luò)簡介：什么是機器學(xué)習(xí)？

的理想集。卷積神經(jīng)網(wǎng)絡(luò)與其他類型的網(wǎng)絡(luò)之間的主要區(qū)別在于它們處理數(shù)據(jù)的方式。通過過濾，將連續(xù)檢查輸入數(shù)據(jù)的屬性。隨著串聯(lián)連接的卷積層數(shù)量的增加，可以識別的細(xì)節(jié)水平也會增加。該過程從第一次卷積之后的簡單

2023-02-23 20:11:10

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是如何定義的？

什么是卷積神經(jīng)網(wǎng)絡(luò)？ImageNet-2010網(wǎng)絡(luò)結(jié)構(gòu)是如何構(gòu)成的？有哪些基本參數(shù)？

2021-06-17 11:48:22

反饋神經(jīng)網(wǎng)絡(luò)算法是什么

反饋神經(jīng)網(wǎng)絡(luò)算法

2020-04-28 08:36:58

可分離卷積神經(jīng)網(wǎng)絡(luò)在 Cortex-M 處理器上實現(xiàn)關(guān)鍵詞識別

我們可以對神經(jīng)網(wǎng)絡(luò)架構(gòu)進行優(yōu)化，使之適配微控制器的內(nèi)存和計算限制范圍，并且不會影響精度。我們將在本文中解釋和探討深度可分離卷積神經(jīng)網(wǎng)絡(luò)在 Cortex-M 處理器上實現(xiàn)關(guān)鍵詞識別的潛力。關(guān)鍵詞識別

2021-07-26 09:46:37

圖像預(yù)處理和改進神經(jīng)網(wǎng)絡(luò)推理的簡要介紹

為提升識別準(zhǔn)確率，采用改進神經(jīng)網(wǎng)絡(luò)，通過Mnist數(shù)據(jù)集進行訓(xùn)練。整體處理過程分為兩步：圖像預(yù)處理和改進神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像的特征，將數(shù)據(jù)處理成規(guī)范的格式，而改進神經(jīng)網(wǎng)絡(luò)推理主要用于輸出結(jié)果。整個過程分為兩個步驟：圖像預(yù)處理和神經(jīng)網(wǎng)絡(luò)推理。需要提前安裝Tengine框架，

2021-12-23 08:07:33

基于BP神經(jīng)網(wǎng)絡(luò)的PID控制

最近在學(xué)習(xí)電機的智能控制，上周學(xué)習(xí)了基于單神經(jīng)元的PID控制，這周研究基于BP神經(jīng)網(wǎng)絡(luò)的PID控制。神經(jīng)網(wǎng)絡(luò)具有任意非線性表達(dá)能力，可以通過對系統(tǒng)性能的學(xué)習(xí)來實現(xiàn)具有最佳組合的PID控制。利用BP

2021-09-07 07:43:47

基于BP神經(jīng)網(wǎng)絡(luò)的手勢識別系統(tǒng)

　　摘要：本文給出了采用ADXL335加速度傳感器來采集五個手指和手背的加速度三軸信息，并通過ZigBee無線網(wǎng)絡(luò)傳輸來提取手勢特征量，同時利用BP神經(jīng)網(wǎng)絡(luò)算法進行誤差分析來實現(xiàn)手勢識別的設(shè)計方法

2018-11-13 16:04:45

基于BP神經(jīng)網(wǎng)絡(luò)的辨識

2018-01-04 13:37:27

基于FPGA的神經(jīng)網(wǎng)絡(luò)的性能評估及局限性

FPGA實現(xiàn)神經(jīng)網(wǎng)絡(luò)關(guān)鍵問題分析基于FPGA的ANN實現(xiàn)方法基于FPGA的神經(jīng)網(wǎng)絡(luò)的性能評估及局限性

2021-04-30 06:58:13

基于RBF神經(jīng)網(wǎng)絡(luò)的辨識

2018-01-04 13:38:52

如何使用stm32cube.ai部署神經(jīng)網(wǎng)絡(luò)？

如何用stm32cube.ai簡化人工神經(jīng)網(wǎng)絡(luò)映射？如何使用stm32cube.ai部署神經(jīng)網(wǎng)絡(luò)？

2021-10-11 08:05:42

如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？

原文鏈接：http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測的計算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)？神經(jīng)網(wǎng)絡(luò)包括：輸入層：根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層：使用反向傳播優(yōu)化輸入變量權(quán)重的層，以提高模型的預(yù)測能力輸出層：基于輸入和隱藏層的數(shù)據(jù)輸出預(yù)測

2021-07-12 08:02:11

如何設(shè)計BP神經(jīng)網(wǎng)絡(luò)圖像壓縮算法？

神經(jīng)網(wǎng)絡(luò)(Neural Networks)是人工神經(jīng)網(wǎng)絡(luò)(Ar-tificial Neural Networks)的簡稱，是當(dāng)前的研究熱點之一。人腦在接受視覺感官傳來的大量圖像信息后，能迅速做出反應(yīng)

2019-08-08 06:11:30

小波神經(jīng)網(wǎng)絡(luò)在汽車電控汽油機故障診斷中的應(yīng)用是什么？

本文對小波神經(jīng)網(wǎng)絡(luò)提出了兩個方面的改進并將其應(yīng)用于汽車電控汽油機故障診斷中。

2021-05-19 07:10:45

嵌入式中的人工神經(jīng)網(wǎng)絡(luò)的相關(guān)資料分享

人工神經(jīng)網(wǎng)絡(luò)在AI中具有舉足輕重的地位，除了找到最好的神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練數(shù)據(jù)集之外，人工神經(jīng)網(wǎng)絡(luò)的另一個挑戰(zhàn)是如何在嵌入式設(shè)備上實現(xiàn)它，同時優(yōu)化性能和功率效率。使用云計算并不總是一個選項，尤其是當(dāng)

2021-11-09 08:06:27

時間緊急，所以菜鳥特此來詢問-----神經(jīng)網(wǎng)絡(luò)參數(shù)畫法

小弟想問下那個神經(jīng)網(wǎng)絡(luò)參數(shù)和改進遺傳算法的圖標(biāo)是從程序面板中哪里畫出來的？具體路徑哪里謝謝了

2013-03-16 14:55:09

智能手機跑大規(guī)模神經(jīng)網(wǎng)絡(luò)的主要策略

下來，從而具有很高的準(zhǔn)確性。然而，這也意味著計算是在具有許多維度的對象上進行的，并且在計算上更昂貴。· 在整個神經(jīng)網(wǎng)絡(luò)中均勻分布下采樣作為一個經(jīng)驗有效的架構(gòu)，并在準(zhǔn)確性和速度之間提供了一個很好的平衡。早期

2018-05-07 16:02:21

有關(guān)脈沖神經(jīng)網(wǎng)絡(luò)的基本知識

譯者|VincentLee來源 |曉飛的算法工程筆記脈沖神經(jīng)網(wǎng)絡(luò)(Spiking neural network, SNN)將脈沖神經(jīng)元作為計算單...

2021-07-26 06:23:59

有提供編寫神經(jīng)網(wǎng)絡(luò)預(yù)測程序服務(wù)的嗎？

有提供編寫神經(jīng)網(wǎng)絡(luò)預(yù)測程序服務(wù)的嗎？

2011-12-10 13:50:46

求助地震波神經(jīng)網(wǎng)絡(luò)程序

求助地震波神經(jīng)網(wǎng)絡(luò)程序，共同交流！！

2013-05-11 08:14:19

求助基于labview的神經(jīng)網(wǎng)絡(luò)pid控制

小女子做基于labview的蒸發(fā)過程中液位的控制，想使用神經(jīng)網(wǎng)絡(luò)pid控制，請問這個控制方法可以嗎？有誰會神經(jīng)網(wǎng)絡(luò)pid控制么。。。叩謝

2016-09-23 13:43:16

求助大神關(guān)于神經(jīng)網(wǎng)絡(luò)的問題

求助大神小的現(xiàn)在有個難題：一組車重實時數(shù)據(jù) 對應(yīng)一個車重的最終數(shù)值（一個一維數(shù)組輸入對應(yīng)輸出一個數(shù)值）這其中可能經(jīng)過均值、方差、去掉N個最大值、、、等等的計算我的目的就是弄清楚這個中間計算過程最近實在想不出什么好辦法就打算試試神經(jīng)網(wǎng)絡(luò) 請教大神用什么神經(jīng)網(wǎng)絡(luò)好求神經(jīng)網(wǎng)絡(luò)程序

2016-07-14 13:35:44

求基于labview的BP神經(jīng)網(wǎng)絡(luò)算法的實現(xiàn)過程

求高手，基于labview的BP神經(jīng)網(wǎng)絡(luò)算法的實現(xiàn)過程，最好有程序哈，謝謝！！

2012-12-10 14:55:50

簡單神經(jīng)網(wǎng)絡(luò)的實現(xiàn)

最簡單的神經(jīng)網(wǎng)絡(luò)

2019-09-11 11:57:36

脈沖耦合神經(jīng)網(wǎng)絡(luò)在FPGA上的實現(xiàn)誰會？

脈沖耦合神經(jīng)網(wǎng)絡(luò)（PCNN）在FPGA上的實現(xiàn)，實現(xiàn)數(shù)據(jù)分類功能，有報酬。QQ470345140.

2013-08-25 09:57:14

輕量化神經(jīng)網(wǎng)絡(luò)的相關(guān)資料下載

視覺任務(wù)中，并取得了巨大成功。然而，由于存儲空間和功耗的限制，神經(jīng)網(wǎng)絡(luò)模型在嵌入式設(shè)備上的存儲與計算仍然是一個巨大的挑戰(zhàn)。前面幾篇介紹了如何在嵌入式AI芯片上部署神經(jīng)網(wǎng)絡(luò)：【嵌入式AI開發(fā)】篇五|實戰(zhàn)篇一：STM32cubeIDE上部署神經(jīng)網(wǎng)絡(luò)之pytorch搭建指紋識別模型.onnx...

2021-12-14 07:35:25

隱藏技術(shù): 一種基于前沿神經(jīng)網(wǎng)絡(luò)理論的新型人工智能處理器

，而且計算量較小。利用所提出的片上模型結(jié)構(gòu)，即權(quán)重生成和“超級掩碼”擴展相結(jié)合，Hiddenite 芯片大大減少了外部存儲器訪問，提高了計算效率。深層神經(jīng)網(wǎng)絡(luò)是一種復(fù)雜的人工智能機器學(xué)習(xí)體系結(jié)構(gòu)，需要

2022-03-17 19:15:13

非局部神經(jīng)網(wǎng)絡(luò)，打造未來神經(jīng)網(wǎng)絡(luò)基本組件

`將非局部計算作為獲取長時記憶的通用模塊，提高神經(jīng)網(wǎng)絡(luò)性能在深度神經(jīng)網(wǎng)絡(luò)中，獲取長時記憶（long-range dependency）至關(guān)重要。對于序列數(shù)據(jù)（例如語音、語言），遞歸運算

2018-11-12 14:52:50

基于RBF神經(jīng)網(wǎng)絡(luò)的軟儀表的開發(fā)

通過在我廠蒸餾裝置上軟儀表的具體使用情況，簡單介紹了基于RBF 神經(jīng)網(wǎng)絡(luò)的軟儀表的開發(fā)，RBF 神經(jīng)網(wǎng)絡(luò)的特點、在建模中的應(yīng)用及RBF 神經(jīng)網(wǎng)絡(luò)改進后的模型應(yīng)用。開發(fā)軟儀表的

2009-08-14 15:15:07

基于改進RBF神經(jīng)網(wǎng)絡(luò)的電力負(fù)荷預(yù)測

為了提高電力系統(tǒng)負(fù)荷預(yù)測的精度與速度的需求，提出使用交替梯度算法改進徑向基函數(shù)（RBF） 神經(jīng)網(wǎng)絡(luò)，對天津市電網(wǎng)進行負(fù)荷預(yù)測。改進的算法與傳統(tǒng)梯度下降算法相比，具有更

2013-01-30 14:27:38

基于模擬退火算法改進的BP神經(jīng)網(wǎng)絡(luò)算法

基于模擬退火算法改進的BP神經(jīng)網(wǎng)絡(luò)算法_周愛武

2017-01-03 17:41:32

基于PSO改進的BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)手套手勢識別_李東潔

2017-01-07 15:26:08

基于改進RBF神經(jīng)網(wǎng)絡(luò)的鋼構(gòu)件質(zhì)量預(yù)測研究_雷兆明

2017-02-07 15:05:00

改進BP神經(jīng)網(wǎng)絡(luò)用于入侵檢測_丁玲

2017-03-19 11:30:43

一種改進的自適應(yīng)遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)計算模型的優(yōu)化，運用到汽車加油量計算中，通過比較標(biāo)準(zhǔn)BP網(wǎng)絡(luò)、Srinivas提出的自適應(yīng)遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)和改進的自適應(yīng)遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)3種模型的計算誤差，驗證得出改進的自適應(yīng)遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的算法優(yōu)于另外兩種

2017-11-16 10:39:55

機器學(xué)習(xí)研究者必知的八個神經(jīng)網(wǎng)絡(luò)架構(gòu)

本文簡述了機器學(xué)習(xí)核心結(jié)構(gòu)的歷史發(fā)展，并總結(jié)了研究者需要熟知的 8 個神經(jīng)網(wǎng)絡(luò)架構(gòu)。

2018-02-26 18:40:50

1004

用于低內(nèi)存 IoT 設(shè)備的神經(jīng)網(wǎng)絡(luò)

到鞋子或冰箱等家居用品中，使其智能。這項研究發(fā)表在《電子》上。今天，尋找新的神經(jīng)網(wǎng)絡(luò)，可以操作微控制器與少量的隨機訪問內(nèi)存（RAM）是特別重要的。為了進行比較，在普通現(xiàn)代計算機中，隨機訪問內(nèi)存以千兆字節(jié)為單位計算。盡管微控

2020-11-04 10:02:34

1396

一種改進的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法

為提升網(wǎng)絡(luò)結(jié)構(gòu)的尋優(yōu)能力，提岀一種改進的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索方法。針對網(wǎng)絡(luò)結(jié)構(gòu)間距難以度量的問題，結(jié)合神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)搜索方案，設(shè)計基于圖的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)間距度量方式。對少量步數(shù)訓(xùn)練和充分訓(xùn)練

2021-03-16 14:05:46

基于神經(jīng)網(wǎng)絡(luò)的優(yōu)化計算實驗

掌握連續(xù)Hopfield神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和運行機制，理解連續(xù)Hopfield神經(jīng)網(wǎng)絡(luò)用于優(yōu)化計算的基本原理，掌握連續(xù)Hopfield神經(jīng)網(wǎng)絡(luò)用于優(yōu)化計算的一般步驟。

2021-05-31 17:02:25

基于進化計算的神經(jīng)網(wǎng)絡(luò)設(shè)計與實現(xiàn)

基于進化計算的神經(jīng)網(wǎng)絡(luò)設(shè)計與實現(xiàn)說明。

2021-06-01 09:25:11

BP神經(jīng)網(wǎng)絡(luò)的研究進展

通過對傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)缺點的分析，從參數(shù)選取、BP算法、激活函數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)4個方面綜述了其改進方法。介紹了各種方法的原理、應(yīng)用背景及其在BP神經(jīng)網(wǎng)絡(luò)中的應(yīng)用，同時分析了各種方法的優(yōu)缺點。指出不斷提高網(wǎng)絡(luò)的訓(xùn)練速度、收斂性和泛化能力仍是今后的研究方向，并展望了BP神經(jīng)網(wǎng)絡(luò)的研究重點。

2021-06-01 11:28:43

基于改進郊狼優(yōu)化算法的淺層神經(jīng)網(wǎng)絡(luò)進化

基于改進郊狼優(yōu)化算法的淺層神經(jīng)網(wǎng)絡(luò)進化

2021-06-24 15:40:23

什么是神經(jīng)網(wǎng)絡(luò)？什么是卷積神經(jīng)網(wǎng)絡(luò)？

在介紹卷積神經(jīng)網(wǎng)絡(luò)之前，我們先回顧一下神經(jīng)網(wǎng)絡(luò)的基本知識。就目前而言，神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的核心，我們所熟知的很多深度學(xué)習(xí)算法的背后其實都是神經(jīng)網(wǎng)絡(luò)。

2023-02-23 09:14:44

2256

硅基光子芯片在神經(jīng)形態(tài)計算的應(yīng)用

近年來，基于傳統(tǒng)計算機的神經(jīng)網(wǎng)絡(luò)計算受到內(nèi)存限制，已經(jīng)不能滿足計算速度和能耗的需求。在電子硬件領(lǐng)域，研究人員持續(xù)地進行更深入、更復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu)的研究，通過硬件方面的創(chuàng)新來釋放傳統(tǒng)電子系統(tǒng)的潛能

2023-02-23 15:16:31

1575

一文帶你了解神經(jīng)網(wǎng)絡(luò)控制器

神經(jīng)網(wǎng)絡(luò)控制器的核心是神經(jīng)網(wǎng)絡(luò)模型，它類似于人類神經(jīng)系統(tǒng)，由多個神經(jīng)元組成。每個神經(jīng)元可以接收來自其他神經(jīng)元的信號，通過激活函數(shù)計算并輸出信號。神經(jīng)網(wǎng)絡(luò)由多個層次構(gòu)成，每一層次對應(yīng)著一組神經(jīng)元。輸入

2023-03-19 15:21:18

798

什么是神經(jīng)網(wǎng)絡(luò)？為什么說神經(jīng)網(wǎng)絡(luò)很重要？神經(jīng)網(wǎng)絡(luò)如何工作？

神經(jīng)網(wǎng)絡(luò)是一個具有相連節(jié)點層的計算模型，其分層結(jié)構(gòu)與大腦中的神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)相似。神經(jīng)網(wǎng)絡(luò)可通過數(shù)據(jù)進行學(xué)習(xí)，因此，可訓(xùn)練其識別模式、對數(shù)據(jù)分類和預(yù)測未來事件。

2023-07-26 18:28:41

1623

卷積神經(jīng)網(wǎng)絡(luò)原理：卷積神經(jīng)網(wǎng)絡(luò)模型和卷積神經(jīng)網(wǎng)絡(luò)算法

一。其主要應(yīng)用領(lǐng)域在計算機視覺和自然語言處理中，最初是由Yann LeCun等人在20世紀(jì)80年代末和90年代初提出的。隨著近年來計算機硬件性能的提升和深度學(xué)習(xí)技術(shù)的發(fā)展，CNN在很多領(lǐng)域取得了重大的進展和應(yīng)用。一、卷積神經(jīng)網(wǎng)絡(luò)模型（一）卷積層（Convolutional Layer）卷積神經(jīng)網(wǎng)絡(luò)最

2023-08-17 16:30:30

806

卷積神經(jīng)網(wǎng)絡(luò)計算公式

介紹如何積極神經(jīng)網(wǎng)絡(luò)計算公式，以及如何使用這些公式來搭建深度神經(jīng)網(wǎng)絡(luò)。 1. 基礎(chǔ)計算公式在神經(jīng)網(wǎng)絡(luò)中，最基本的計算公式是前向傳遞計算。在這種計算中，網(wǎng)絡(luò)按照輸入數(shù)據(jù)從輸入層到輸出層依次通過每一個層，每一層都向

2023-08-21 16:49:35

985

cnn卷積神經(jīng)網(wǎng)絡(luò)模型卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型生成卷積神經(jīng)網(wǎng)絡(luò)模型

cnn卷積神經(jīng)網(wǎng)絡(luò)模型卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型生成卷積神經(jīng)網(wǎng)絡(luò)模型? 卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，最初被廣泛應(yīng)用于計算

2023-08-21 17:11:47

681

人工神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

人工神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別? 人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network, ANN）是一種模仿人腦神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)和功能的計算模型，也被稱為神經(jīng)網(wǎng)絡(luò)（Neural

2023-08-22 16:45:18

2941

已全部加載完成

搜索歷史

如何通過改進計算核心架構(gòu)提高神經(jīng)網(wǎng)絡(luò)內(nèi)存和算力需求

評論