添加硬件加速器可以加快處理器的正弦計算 - 全文

如果修改軟件不能實現(xiàn)所需速度，那么你可能順理成章的想到在你的設(shè)計中加入硬件加速模塊。

有很多種算法可對單精度浮點數(shù)字的正弦值進(jìn)行計算，但添加硬件加速器是功能最為強大的方法之一。之所以得出這一結(jié)論，是因為客戶的應(yīng)用要求使用此類正弦計算，而我們又針對能夠提供良好、快速且高效的解決方案進(jìn)行了多種方案的探索。

為了確定哪種實現(xiàn)方式最適合您的應(yīng)用，首先需要對代碼進(jìn)行分析，以查找哪種功能需要改進(jìn)；其次，由于修改軟件比修改硬件更簡便、迅速，因而請檢查是否能通過修改軟件來實現(xiàn)您所需的高速度（有時可以）。但是如果您還需要更高的性能，那么請考慮在硬件中實現(xiàn)部分算法。在硬件加速的支持下，您可以輕松勝過市場上任意微控制器或DSP。

為了解該流程，讓我們以現(xiàn)實案例為例，探討如何開發(fā)一個需要針對單精度浮點數(shù)字進(jìn)行正弦計算的軍事應(yīng)用。出于對高性價比的原因考慮，客戶已選擇了一款采用嵌入式 MicroBlaze?的Spartan?-6 FPGA 作為主系統(tǒng)控制器。可處理正弦計算的軟件算法應(yīng)運行于MicroBlaze 之上。

客戶的算法主要使用浮點運算。由于算法復(fù)雜，轉(zhuǎn)而采用定點運算并不妥當(dāng)。此外，客戶還希望避免使用定點運算時可能出現(xiàn)的運行過度或運行不足的情況。

客戶清楚 MicroBlaze IP 可提供兩種類型的浮點單元 (FPU)，并已選用擴展版本（相對于基本版而言）來加速算法。但是，這樣做就無法利用作為GNU工具鏈組成部分且隨 EDK 一起交付的數(shù)學(xué)仿真庫。數(shù)學(xué)庫中的軟件仿真例程程序運行速度非常慢，在任何情況下都應(yīng)盡量避免將其用于算法中對性能起到關(guān)鍵作用的部分。

另外，客戶還清楚 MicroBlaze FPU的兩個版本都只能處理單精度數(shù)據(jù)，不能處理雙精度數(shù)據(jù)。客戶的算法可以明確地僅使用浮點精度數(shù)據(jù) (float precision data)。但在開始使用數(shù)學(xué)函數(shù)時，有時也會進(jìn)行隱式轉(zhuǎn)換。這些轉(zhuǎn)換會強制算法
在不知不覺中使用雙精度數(shù)據(jù)。

步驟一：分析問題

我們的客戶已經(jīng)在運行他的算法，但發(fā)現(xiàn)該算法在MicroBlaze處理器上的運行速度偏慢。在對代碼庫進(jìn)行特性描述后，客戶發(fā)現(xiàn)引起速度慢的原因是正弦計算。下一步是找出其中原因并分析怎樣做才能加快處理速度。

第一種方案是使用數(shù)學(xué)庫提供的標(biāo)準(zhǔn)正弦函數(shù)，在客戶將算法寫入后，在不進(jìn)行任何修改的情況下完整地運行它。主要的問題在于數(shù)學(xué)庫函數(shù)僅針對雙精度數(shù)據(jù)而創(chuàng)建，這就意味著正弦函數(shù)的原型應(yīng)為如下所示：

double sin(double angle);

但客戶希望以下列方式使用：
float sin_val;
float angle;
...
sin_val = sin(angle);

當(dāng)然，這也是可能的，而且C編譯器會自動從參數(shù)角添加所需的轉(zhuǎn)換，進(jìn)行“雙精度化”，并將函數(shù)調(diào)用的結(jié)果轉(zhuǎn)回浮點值。這樣通常還是由數(shù)學(xué)庫函數(shù)來執(zhí)行兩個額外的轉(zhuǎn)換函數(shù)，甚至是正弦計算。

切記，MicroBlaze的FPU為單精度版本，只能完成如下執(zhí)行指令：

sin_val = (float)sin((double)angle);

由于數(shù)學(xué)庫的正弦函數(shù)是雙精度的，因而FPU無法完成正弦計算，故需要純軟件的解決方案。但缺點在于速度太慢，無法滿足客戶的需求。

我們驗證了使用雙精度數(shù)據(jù)進(jìn)行正弦值的計算是執(zhí)行緩慢的原因。首先我們使用下列代碼，從我們的執(zhí)行文件中直接創(chuàng)建匯編代碼：

mb-objdump.exe -D executable.elf
>dump.txt

檢查匯編代碼時，我們發(fā)現(xiàn)了如下代碼行：

brlid r15,-15832 // 4400d300

其作用是調(diào)用數(shù)學(xué)庫以進(jìn)行雙精度正弦計算。然后，我們測量了利用數(shù)學(xué)庫函數(shù)完成單次正弦計算所需的時間，約為 38,700個CPU周期。
對于特定的任務(wù)，可以使用專用單精度函數(shù)，如計算平方根：

float sqrt_f( float h);

使用專用函數(shù)可以避免單、雙精度函數(shù)之間的轉(zhuǎn)換，而且還可充分利用MicroBlaze FPU。

但遺憾的是，在FPU上沒有用于處理正弦計算的專用函數(shù)。此時，我們開始開發(fā)多個版本的算法來加速正弦值的計算，以實現(xiàn)更高的性能。

步驟二：創(chuàng)建更好的軟件算法

創(chuàng)建硬件加速器通常需要一段時間而且也需要進(jìn)行調(diào)試，因而我們試圖避免在第一次運行中就采取這種方案。我們就性能問題與客戶進(jìn)行了溝通，獲得了正弦計算的關(guān)鍵參數(shù)。

客戶的算法要求正弦計算的參數(shù)角應(yīng)具有1％的精度，而且計算出的正弦值精度應(yīng)比數(shù)學(xué)庫函數(shù)調(diào)用的結(jié)果高0.1%。
這些屬于關(guān)鍵參數(shù)，而且客戶告知我們，他有時必須按順序計算多個正弦值（比如在處理之前先填入小表格）。

由于對表格的尺寸要求，使用填充了所有數(shù)值的查找表顯然不太可能。條目的最小數(shù)量為360,000個浮點數(shù)值（每個值 4 個字節(jié)）。客戶想找到高速解決方案，但在大小上也應(yīng)該合適。我們建議的解決方案可使用下列等式：

sin(xi) with xi = x + d

得到：

sin(x+d) = sin(x)*cos(d) +cos(x)*sin(d)

在這里，d是一個始終小于 x最小可能值（大于0）的值。這種解決方案有什么優(yōu)勢呢？我們需要縮小表格的大小，但會帶來計算量的增加。表格從開始就劃分為四個表格：

cos(x)
sin(x)
cos(d)
sin(d)

圖1和圖2顯示了所有4個表格所需的分辨率以及這些值通常情況下的表現(xiàn)。這些表格僅顯示了16個值的條目，用于說明需要填入我們的查找表中的值。我們在我們最終的解決方案中所使用的值要多得多。

x 值的正弦與余弦表，范圍介于0到360度之間

圖 1 — x 值的正弦與余弦表，范圍介于0到360度之間

d 值的正弦與余弦表，范圍介于0到360/16度之間

圖 2 — d 值的正弦與余弦表，范圍介于0到360/16度之間

實際上，我們在每個表格中都使用了1 , 0 2 4 個值。X的最小值為360/1024=0.3515625 度。d 的所有值都將小于等于該值。該方法可以減少存儲的占用，因為完整的查找表需要 4,096個條目（每條目 4 個字節(jié)）。

使用這種方案，我們能夠?qū)崿F(xiàn)的自變量總體精度為：

360/(1024*1024) = 0,000343 degree

而且這個精度非常好。計算充分利用了MicroBlaze FPU。

真正的計算會占用一些時鐘周期，具體來說，需要進(jìn)行兩次fmul運算和一次fadd運算。不過，我們還需要進(jìn)行一些其它計算。首先，我們必須把自變量 xi拆分成兩個值，對應(yīng)x和d；然后，我們將這兩個值從表格中讀出；最后，我們必須使用新的算法才能計算結(jié)果。

我們在軟件中實現(xiàn)算法并對其進(jìn)行測試時，我們耗用的時鐘周期總數(shù)為6,520個。

為了進(jìn)一步提高分辨率，我們可以使用下列的象限關(guān)系：

第一象限

sin(x) = sin(x)

第二象限

sin(x) = sin(π - x)

第三象限

sin(x) = -sin(π + x)

第四象限：

sin(x) = -sin(2* π - x)

這在保持表格大小不變的同時還可將總體分辨率提高4倍。另一方面，我們需要進(jìn)行更多的計算才能找出我們必須進(jìn)行計算的象限是哪一個。仍然需要改進(jìn)算法或縮小表格的大小（縮小四分之幾）。我們還沒有進(jìn)行到這一步。

步驟三：優(yōu)化算法

由于我們的解決方案到目前為止，速度還不能滿足我們客戶的需要，因而我們需要稍做算法優(yōu)化，不過仍然完全采用運行在 MicroBlaze 處理器上的軟件。這是一種簡單的優(yōu)化方案，不過會降低部分精度。因此，我們創(chuàng)建了軟件模型（在PC上運行以提升運行速度）以運行所有可能的值，同時使用 sin()計算出的原始雙精度值與使用我們的軟件算法計算出的正弦值進(jìn)行比較。我們決定在標(biāo)準(zhǔn)的PC上運行算法，因為在MicroBlaze上進(jìn)行比較和計算需要花較長的時間（注意，我們的MicroBlaze運行速度遠(yuǎn)低于PC）。

現(xiàn)在我們開始優(yōu)化計算以獲得正弦值：

sin(x+d) = sin(x)*cos(d) +cos(x)*sin(d)

由于在每個表格中我們都使用了1,024個值，這意味著d始終小于360度／1,024個步進(jìn)，即：

cos(2* π /1024) = 0.99998

而且該值約等于1.0。對較小的d值，適用下列等式：

cos(d) = ~1.0

這樣可以將我們的公式簡化為如下等式：

sin(x+d) = sin(x) + cos(x)*sin(d)

在我們在MicroBlaze上實現(xiàn)新等式之前，我們使用PC模式對新等式的精度進(jìn)行了檢驗，發(fā)現(xiàn)最大誤差仍然低于我們客戶的目標(biāo)。

現(xiàn)在我們將該算法當(dāng)作軟件算法在MicroBlaze上實現(xiàn)，仍然使用每張帶有1,024個條目的表。新的算法只需要三個表，比之前的實現(xiàn)方案少一個。這樣既節(jié)省了存儲空間，也為更多的計算留出了時間。

我們在我們的硬件上測量了算法。一次正弦計算需要6,180個周期。

步驟四：進(jìn)一步優(yōu)化

另一種看似可行的優(yōu)化方式是轉(zhuǎn)換正弦計算的浮點值，并在此使用整數(shù)自變量。我們使用的算法使我們能夠創(chuàng)建~1E6 個不同的值 (1,024*1,024)。整數(shù)自變量足以處理這個數(shù)量的值。

這種優(yōu)化方式使我們能夠使用簡單得多的計算來將 xi 值拆分為 x 和 d。拆分只是一種簡單的“與”運算加上部分10 位的移位。我們參數(shù)角的上10位是xi，下10位是 d。

我們再次在PC上創(chuàng)建了一個軟件模型，并對其進(jìn)行檢驗，然后在MicroBlaze處理器系統(tǒng)上實現(xiàn)模型，這需要5,460個周期才能完成一次正弦計算。

步驟五：考慮硬件實現(xiàn)

雖然與數(shù)學(xué)庫的原始計算相比，算法的速度有了明顯的改善，但客戶需要的是速度快得多的實現(xiàn)。不過前文所述的最后一步給我們提供了一種能夠輕松轉(zhuǎn)向硬件實現(xiàn)的方法。

這種實現(xiàn)方法需要某些用于拆分 xi值的運算。要在硬件中做到這一點，只需將所需的位進(jìn)行連接即可。然后我們需要三個表；我們使用以我們的PC模型計算出的預(yù)定義值推導(dǎo)出ROM，然后將其轉(zhuǎn)入IP的VHDL代碼中。該IP能夠一次讀取所有三個表，從而能夠再度節(jié)省時間。最后，我們需要進(jìn)行一次浮點MUL和一次浮點ADD運算。

對于該任務(wù)，我們發(fā)現(xiàn)用于浮點運算的CORE GeneratorTM模塊非常適合。

無流水線功能的加速器

圖 3 — 無流水線功能的加速器 IP

我們使用一些Slice和乘法器，對這些硬件模塊中的兩個進(jìn)行例化。兩個內(nèi)核都要求4到5個周期的延遲，以匹配我們設(shè)計的時序要求。延遲在此不是什么問題，我們將在下面的步驟中進(jìn)行討論。

我們將最終的IP以MicroBlaze的快速單工鏈路 (FSL) IP 的形式進(jìn)行實現(xiàn)。對時序的第一次估算結(jié)果表明：

? 將數(shù)據(jù)從MicroBlaze傳輸?shù)紽SL總線需用一個時鐘周期
? 將數(shù)據(jù)從FSL總線傳輸至FSL IP（當(dāng)正弦計算的自變量從FSL總線讀出時，將立即從BRAM讀取數(shù)據(jù)，因而無需時鐘周期）需用一個時鐘周期
? 完成MUL運算 (cos(x)*sin(d)) 需用四個時鐘周期
? 將方程的結(jié)果存儲到寄存器中需用一個時鐘周期
? 完成ADD運算需用四個時鐘周期
? 將數(shù)據(jù)發(fā)送回FSL總線需用一個時鐘周期
? MicroBlaze從FSL IP讀取數(shù)據(jù)需用一個時鐘周期。

請注意，在沒有使用任何額外流水線（我們將在下一步驟中討論這一點）的情況下，自變量數(shù)據(jù)在整個過程中必須保持穩(wěn)定。這就意味著MicroBlaze僅能請求一次正弦計算，且必須讀取該值，然后至少要等上13個時鐘周期，才能請求下一次計算。

因此，我們估計進(jìn)行該實現(xiàn)需要13個時鐘周期。當(dāng)然，要處理軟件上的函數(shù)調(diào)用以及某些其他運算，還需要更多的時鐘周期。

我們簡單地把一些標(biāo)準(zhǔn)時鐘組合在一起，不到一天就實現(xiàn)了該IP，隨即在硬件中對該算法進(jìn)行測量。整個算法（軟硬件混合）耗用了360個時鐘周期（包括所有的函數(shù)調(diào)用）。雖然這已是顯著的進(jìn)步，但是仍不足以充分滿足客戶的需求。

在我們的加速器IP處理所有數(shù)據(jù)之前，我們使用一個SRL16來延遲信號的寫入。

雖然該算法現(xiàn)在可與我們的MicroBlaze并行運行，但它每次只能計算一個值。

步驟六：添加流水線和適配客戶代碼

設(shè)計到了這一步，我們就可以開始向我們的內(nèi)核添加流水線。浮點ADD和浮點MUL的CORE Generator模塊已采用流水線實現(xiàn)，因而我們在此無需再做什么。第一個版本的算法要求自變量保持恒定，直至計算完成。在開始新計算之前（自變量數(shù)據(jù)到達(dá)FSL IP內(nèi)部），立刻讀取兩個BRAM并執(zhí)行浮點MUL。運算的結(jié)果在數(shù)個時鐘周期后生效。

我們的 sin(xi) 的自變量 xi 是一個20位寬的整數(shù)，它分為 x 和 d 兩個部分。因此，我們必須對自變量 xi的MSB部分 x 進(jìn)行幾個時鐘周期的延遲，以讀取 BRAM 的內(nèi)容，存儲自變量xi，并將其與MUL運算的結(jié)果相匹配。

我們?yōu)槲覀兊?0位寬數(shù)值使用了少量SRL16元件（總共 10 個），共占用了10個LUT（但由于Spartan-6具有LUT組合功能，如果采用該器件較寬的LUT6結(jié)構(gòu)，則僅需 5 個 LUT 即可）。

最后的工作量相當(dāng)小。在圖4中已對增加的SRL16x10位用紅圈進(jìn)行了標(biāo)注。

帶流水線的加速器內(nèi)核

圖 4：帶流水線的加速器內(nèi)核

然后我們使用EDK向?qū)硇薷奈覀兊腇SL總線FIFO，以便存儲多個值（我們確定能夠存儲8個值就足以達(dá)到我們的目的，但可根據(jù)需要輕松增加更多）。

這就意味著我們的客戶甚至在請求第一個結(jié)果之前即能獲得多達(dá)8個值。這足以滿足我們客戶當(dāng)前的需求，但如果想請求更多正弦值的話，則可以輕松將FIFO緩沖參數(shù)擴展為較大的值。

我們在與客戶討論這種新的方案時，發(fā)現(xiàn)可將正弦計算進(jìn)一步劃分為兩個部分：

1. 請求正弦計算（fslput 運算）
2. 請求正弦計算的結(jié)果（fslget運算）

由于我們在運算中有一個固定時延，所以如果這兩個運算依次銜接、緊密地按順序執(zhí)行，那么MicroBlaze將停頓，并等待FSL IP完成對請求的處理。如果能夠?qū)⑦@兩組運算分開（這在客戶的算法中是可以的），那么我們即可進(jìn)一步提
升運算的總體速度。通過增加流水線，在MicroBlaze上執(zhí)行的最終代碼如下：

putfsl(arg1,fsl1_id);
putfsl(arg2,fsl1_id);
putfsl(arg3,fsl1_id);
putfsl(arg4,fsl1_id);
putfsl(arg5,fsl1_id);
putfsl(arg6,fsl1_id);
putfsl(arg7,fsl1_id);
putfsl(arg8,fsl1_id);
...
getfsl(result1,fsl1_id);
getfsl(result2,fsl1_id);
getfsl(result3,fsl1_id);
getfsl(result4,fsl1_id);
getfsl(result5,fsl1_id);
getfsl(result6,fsl1_id);
getfsl(result7,fsl1_id);
getfsl(result8,fsl1_id);

這給我們帶來了顯著的優(yōu)勢。內(nèi)核不僅可完全實現(xiàn)流水線功能，而且還能夠?qū)⒄矣嬎愕膬蓚€調(diào)用分開。IP核的時延依然存在，但不再明顯。MicroBlaze也不再發(fā)生停頓和等待未完成的IP計算的情況，從而提高了整體性能。

客戶同意對代碼進(jìn)行相應(yīng)調(diào)整，這對客戶來說只是小量工作。通過使用C語言的宏命令取代函數(shù)調(diào)用，我們就能夠把所有要求的調(diào)用插入代碼庫中。

EDK為FSL總線實現(xiàn)了深度為 8 的 FIFO 以提升流水線的性能

圖 5 － EDK為FSL總線實現(xiàn)了深度為 8 的 FIFO 以提升流水線的性能

最終實現(xiàn)的算法一次計算只需要四個時鐘周期。處理的總體時延不再明顯，而被調(diào)用的劃分以及結(jié)果請求所隱藏。另外，整體IP需要一些額外的BRAM（需為我們的三個表增加六個BRAM）和一定數(shù)量的乘法器或DSP Slice以及一些其他Slice。

但結(jié)果非常令人吃驚。我們的MicroBlaze現(xiàn)在就能夠如同超高端處理器內(nèi)核一樣運行，而且其運行頻率仍然相當(dāng)?shù)停ìF(xiàn)在比原來的正弦計算約快9,600 倍）。

步驟七：進(jìn)一步優(yōu)化？

當(dāng)我們達(dá)到這種實現(xiàn)水平時，我們的客戶對結(jié)果感到非常滿意，并且我們也完成了加速器IP方面的工作。速度和精度都非常不錯。

當(dāng)然，還有一項最終優(yōu)化需要完成。如果我們在d值非常小的情況下對sin(d) 值進(jìn)行考察，算法還可以進(jìn)一步完善：

sin(d) = ~d

若d值小于2*π/1024，即小于0.0061359，那么總體誤差則小于 1E-8（針對有 1,024 個值的表）。
我們算法的最后步驟將為：

sin(x+d) = sin(x) + cos(x) * d

這樣只會存在非常小的額外誤差，但我們可以去掉第三個表。當(dāng)然，我們必須保留 fadd 和 fmul運算器。雖然我們還可以通過其他方式來計算浮點值的正弦值，但這種方案充分顯示了增添硬件加速器的強大功能。我們的開發(fā)經(jīng)歷表明，你們無需為了將含有浮點計算的算法在硬件中實現(xiàn)而擔(dān)心。

閱讀全文

上一頁 1 2 3全文

本文導(dǎo)航

硬件加速器(12610) 硬件加速器(12610)
正弦計算(1503) 正弦計算(1503)

充分利用數(shù)字信號處理器上的片內(nèi)FIR和IIR硬件加速器

我們看到如何利用不同的加速器使用模型實現(xiàn)所需的MIPS和處理目標(biāo)，從而將大量內(nèi)核MIPS轉(zhuǎn)移到ADSP-2156x處理器上的FIRA和IIRA加速器。

2020-06-22 14:42:33

1451

21489的IIR加速器濾波參數(shù)設(shè)置如何對應(yīng)加速器的濾波參數(shù)？

目前在用21489內(nèi)部的IIR加速器去做一個低通濾波器，在例程的基礎(chǔ)上修改參數(shù)。通過平板的fda 工具工具去設(shè)計參數(shù)，但是設(shè)計出來的參數(shù)不知道如何對應(yīng)加速器的濾波參數(shù)，手冊里也看得不是很明白。設(shè)計的參數(shù)如下：請問這些參數(shù)應(yīng)該如何對應(yīng)起來？

2023-11-30 08:11:55

ADAU1451硬件加速器擺動什么用？

Hi，HenryLj.mo請問下在Sigma 300里面使用硬件加速器slew，slew mode為RC type時，對應(yīng)的time constant 與數(shù)據(jù)從當(dāng)前值到目標(biāo)值得時間有什么關(guān)系,或者說不同的time constant的值有什么用？ Thanks,Jack

2019-01-29 06:55:13

ARM Cortex-R7 MPCore處理器技術(shù)參考手冊

，并且提供了可選的硬件加速器一致性端口(ACP)，以減少與其他主機共享存儲器區(qū)域時的軟件高速緩存維護(hù)操作。中斷延遲通過中斷和重新啟動加載-存儲多條指令以及使用集成中斷控制器來保持低。 Cortex-R7 MPCore處理器為低延遲和確定性提供了兩種專門的內(nèi)存解決方案

2023-08-18 06:34:29

ARM定制說明：在ARM上實現(xiàn)創(chuàng)新和更大的靈活性

的加速器。 3.ARM定制指令通過實現(xiàn)與處理器數(shù)據(jù)路徑更緊密耦合的緊密耦合加速器，進(jìn)一步擴展了硬件加速器的這一視圖

2023-08-23 08:19:20

GNN（圖神經(jīng)網(wǎng)絡(luò)）硬件加速的FPGA實戰(zhàn)解決方案

。如上所述種種設(shè)計挑戰(zhàn)的存在，使得業(yè)界急需一種可以支持高度并發(fā)實時計算、巨大內(nèi)存容量和帶寬、以及在數(shù)據(jù)中心范圍可擴展的GNN加速解決方案。5.GNN加速器的FPGA設(shè)計方案Achronix公司推出

2021-07-07 08:00:00

H.264解碼器中CABAC硬件加速器怎么實現(xiàn)？

2021-06-07 06:48:58

Intel媒體加速器參考軟件用戶指南

英特爾媒體加速器參考軟件是用于數(shù)字標(biāo)志、交互式白板(IWBs)和亭位使用模型的參考媒體播放器應(yīng)用軟件,它利用固定功能硬件加速來提高媒體流速、改進(jìn)工作量平衡和資源利用,以及定制的圖形處理股(GPU)管道解決方案。該用戶指南將介紹和解釋如何使用英特爾媒體加速器視窗參考軟件。

2023-08-04 07:07:34

MCU廠推多樣解決方案 DSP/FPU硬件加速芯片整合

處理對應(yīng)至各式演算法應(yīng)用，兩者功能可以說是各有互補效用，比較難被獨立拆分。以ARM Cortex-M4來看，若僅提供DSP硬件加速處理器反而沒設(shè)置FPU浮點運算加速器反而會造成應(yīng)用限制，因為在

2016-10-14 17:17:54

c6670中運行bcp硬件加速器例程發(fā)現(xiàn)中斷服務(wù)程序未能響應(yīng)

你好，目前，我想運用6670中bcp硬件加速器，在調(diào)試Bcp_testProject例程中，在test_lte_dl.c文件中pend hRxSem信號量時halt住，發(fā)現(xiàn)中斷服務(wù)程序未能響應(yīng)

2018-12-25 11:27:45

【FPGA干貨分享六】基于FPGA協(xié)處理器的算法加速的實現(xiàn)

移動的數(shù)據(jù)具有較低的延時和更高的數(shù)據(jù)速率。3. 指令流水線連接指令流水線連接加速器直接連接到CPU的計算內(nèi)核。通過與指令流水線連接，CPU不能識別的指令可以由協(xié)處理器執(zhí)行。操作數(shù)、結(jié)果以及狀態(tài)直接從數(shù)據(jù)

2015-02-02 14:18:19

【FPGA開發(fā)者項目連載】基于MiniStar的簡易AI加速器

分析了高云Github上GoAI的項目5.購買了TinyML書籍、ov7670攝像頭5.17-6.11.實現(xiàn)硬件加速模塊（主要是卷積包括PW DW、全連接、pool）2.M3實現(xiàn)任務(wù)分發(fā)調(diào)度3.基于TensorFlow Lite搭建微處理器運行神經(jīng)網(wǎng)絡(luò)架構(gòu)

2021-05-14 14:04:28

【書籍評測活動NO.18】 AI加速器架構(gòu)設(shè)計與實現(xiàn)

NPU架構(gòu)合二為一，總結(jié)并提煉出本書內(nèi)容。本書主要討論神經(jīng)網(wǎng)絡(luò)硬件層面，尤其是芯片設(shè)計層面的內(nèi)容，主要包含神經(jīng)網(wǎng)絡(luò)的分析、神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計以及具體實現(xiàn)技術(shù)。通過閱讀本書，讀者可以深入了解主流

2023-07-28 10:50:51

【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】（原創(chuàng)）7.硬件加速Sora文生視頻源代碼

了TextToVideoHardwareAccelerator的實例化，并添加了對文本到視頻幀轉(zhuǎn)換邏輯的占位符。同時，為了保證時序正確性，在實際設(shè)計中加入了硬件加速器處理完成的信號反饋： module

2024-02-22 09:49:01

一種基于FPGA的圖神經(jīng)網(wǎng)絡(luò)加速器解決方案

位置。因此對存儲訪問沒有挑戰(zhàn)，但是矩陣的計算量非常大。基于上述分析，我們決定在GNN內(nèi)核加速器設(shè)計中選擇使用兩種不同的硬件結(jié)構(gòu)來分別處理聚合和合并操作（如下圖示）：?聚合器——通過單指令多數(shù)據(jù)（SIMD

2021-09-25 17:20:41

為什么FPGA協(xié)處理器可以實現(xiàn)算法加速？

代碼加速和代碼轉(zhuǎn)換到硬件協(xié)處理器的方法如何采用FPGA協(xié)處理器實現(xiàn)算法加速？

2021-04-13 06:39:25

為什么要進(jìn)入最佳硬件加速板？

我想進(jìn)入硬件加速。什么板對此有好處，為什么？

2019-10-10 07:00:38

為什么說MCU中導(dǎo)入DSP/FPU是未來的發(fā)展主流？

運算結(jié)果得出時間會相對拉長，而在導(dǎo)入硬件加速器處理浮點運算時，因為硬件呼叫或是資料傳遞就能透過硬件算出數(shù)據(jù)，MCU本身耗在浮點運算的記憶體資源可以因硬件加速整合減少至少10%。當(dāng)然，從目的性來看，不管

2016-09-13 15:12:49

使用AMD-Xilinx FPGA設(shè)計一個AI加速器通道

模塊。Vivado 通過 Run Connection Automation 將 cdma 和 bram 連接到處理器。那么設(shè)計應(yīng)該類似于下圖。加速器IP加速器 IP 由 4 個源文件組成。加速器：連接

2023-02-21 15:01:58

關(guān)于長整加速器的工作步驟：

關(guān)于長整加速器的工作步驟：1. 系統(tǒng)置位后，CPU向加速器的源地址寄存器發(fā)送當(dāng)前長整計算的源操作數(shù)地址（位于Memory中）2. 接著，CPU向加速器的目標(biāo)地址寄存器發(fā)送當(dāng)前長整計算的目標(biāo)操作數(shù)地址

2018-03-17 10:53:37

華為FPGA加速云服務(wù)器如何加速讓硬件應(yīng)用高效上云？

華為FPGA加速云服務(wù)器讓“硬用”上云成為新增長點隨著通信和互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展，F(xiàn)PGA作為高性能計算加速器在大數(shù)據(jù)、深度學(xué)習(xí)、圖像視頻處理、基因計算、金融分析和加解密等眾多領(lǐng)域得到廣泛應(yīng)用，市場空間巨大。

2019-10-22 07:12:32

協(xié)調(diào)屏幕旋轉(zhuǎn)和硬件加速器

）。而且，在我的測試中，我發(fā)現(xiàn)關(guān)閉“硬件加速器”允許屏幕在旋轉(zhuǎn)時正確地繪制，但是這使得系統(tǒng)使用起來非常緩慢和痛苦（壞的用戶體驗）。謝謝任何幫助。

2020-04-03 10:56:36

在Sigma 300里面使用硬件加速器slew，slew mode為RC type時不同的time constant的值有什么用？

請問下在Sigma 300里面使用硬件加速器slew，slew mode為RC type時，對應(yīng)的time constant 與數(shù)據(jù)從當(dāng)前值到目標(biāo)值得時間有什么關(guān)系,或者說不同的time constant的值有什么用？謝謝, 中 J Jj

2023-11-29 07:25:43

基于ARM11飛思卡爾i.mx35高端多媒體芯片有哪些應(yīng)用方式？

飛思卡爾聯(lián)合Khronos Group 推出了一款集成了OpenVG硬件加速器的汽車多媒體嵌入式微處理器i.MX35，成為全球首款集成OpenVG硬件加速器的汽車多媒體微處理器，i.MX35卓越的多媒體性能將車載多媒體推向一個新的高度，確定了Freescale在汽車電子行業(yè)不可撼動的引領(lǐng)地位。

2019-11-01 07:59:24

基于Fast Model的加速器軟件開發(fā)

加速器適配不同的arm系統(tǒng)，這對軟硬件接口和驅(qū)動提出了非常大的挑戰(zhàn)，因為今天的arm產(chǎn)品非常豐富，從低功耗的微處理器，主流的移動平臺，到高端的服務(wù)器，高性能計算處理器都有相應(yīng)產(chǎn)品。對于一個加速器團(tuán)隊來說

2022-07-29 15:38:43

基于Xilinx XCKU115的半高PCIe x8硬件加速卡

基于Xilinx XCKU115的半高PCIe x8 硬件加速卡北京太速科技有限公司一、概述本板卡系我公司自主研發(fā)，采用Xilinx公司的XCKU115-3-FLVF1924-E芯片作為主處理器

2018-08-22 17:31:55

基于arm Cortex-M3處理器與深度學(xué)習(xí)加速器的實時人臉口罩檢測SoC設(shè)計方案

CMSDK工具設(shè)計了AHB總線系統(tǒng)，在基于單級AHB總線的框架下，通過APB橋接器和AXI橋接器擴展了APB總線和AXI總線，進(jìn)而構(gòu)成該SoC高效的總線框架。通過搭建高效的總線系統(tǒng)將M3處理器與硬件加速器

2022-08-26 15:23:33

如何充分利用數(shù)字信號處理器上的片內(nèi)FIR和IIR硬件加速器？

上的片內(nèi)FIR和IIR硬件加速器也分別稱為FIRA和IIRA，我們可以利用這些硬件加速器來分擔(dān)FIR和IIR處理任務(wù)，讓內(nèi)核去執(zhí)行其他處理任務(wù)。在本文中，我們將借助不同的使用模型以及實時測試示例來探討如何在實踐中利用這些加速器。

2020-12-28 06:26:54

如何用ARM處理器加速遵循安全至上的規(guī)范?

運用ARM處理器系列軟件工具可加速遵循安全至上的規(guī)范ARM處理器逐漸拓展應(yīng)用

2021-02-24 06:35:28

工業(yè)應(yīng)用理想選擇多核處理器

嵌入式處理器所實現(xiàn)的網(wǎng)絡(luò)訪問。雖然目前嵌入式處理器已經(jīng)能夠完美地應(yīng)用于多種工業(yè)應(yīng)用，但Sitara AM57x處理器所提供的視頻與圖形加速器使其在人機界面（HMI）的應(yīng)用中大發(fā)異彩。ARM

2018-09-04 10:07:50

找不到3d硬件加速器怎么辦

--高級--疑難解答中的硬件加速是否完全開啟。　　3、如果是游戲不能玩了。顯示屬性--設(shè)置--高級--適配器--列出所有模式，將該項的數(shù)據(jù)設(shè)置的比平時稍低一些。也就是降低刷新率及分辨率。　　3d硬件加速器

2019-08-21 09:04:31

整合雙ARM內(nèi)核和DDR3內(nèi)存接口的嵌入式處理器

與硬件加速器和 I/O模塊的一致性能夠提高數(shù)據(jù)吞吐量以及簡化軟件開發(fā)過程。加速器一致性端口（ACP）結(jié)合芯片的NoC路由功能，可滿足硬件加速和I/O性能的最新應(yīng)用需求。ECC（錯誤校驗碼）保護(hù)功能可防止

2018-12-12 10:20:29

無法導(dǎo)入硬件加速器

嗨！我已經(jīng)創(chuàng)建了一個硬件加速器（在vhdl中）并且合成成功完成。但是，當(dāng)我使用創(chuàng)建和導(dǎo)入外圍設(shè)備向?qū)r，它向我顯示我的包在庫中不可用，盡管它是。我能做什么？？？L'enfer，c'est l

2019-02-27 14:15:31

機器學(xué)習(xí)實戰(zhàn)：GNN加速器的FPGA解決方案

，但是矩陣的計算量非常大。基于以上分析，我們決定在GNN Core加速器設(shè)計中用兩種不同的硬件結(jié)構(gòu)來處理聚合操作與合并操作，功能框圖如下圖所示：圖7: GNN Core功能框圖聚合器

2020-10-20 09:48:39

汽車信息娛樂系統(tǒng)嵌入式設(shè)計方案

作為汽車半導(dǎo)體的領(lǐng)軍企業(yè)飛思卡爾聯(lián)合Khronos Group 推出了一款集成了OpenVG硬件加速器的汽車多媒體嵌入式微處理器i.MX35，成為全球首款集成OpenVG硬件加速器的汽車多媒體

2019-07-22 08:11:07

電腦的處理器可以更改嗎？處理器是硬件嗎？

電腦的處理器可以更改嗎？處理器是硬件嗎？還是芯片？

2023-03-15 10:26:13

英特爾媒體加速器參考軟件Linux版用戶指南

英特爾媒體加速器參考軟件是用于數(shù)字標(biāo)志、交互式白板(IWBs)和亭位使用模型的參考媒體播放器應(yīng)用軟件,它利用固定功能硬件加速來提高媒體流速、改進(jìn)工作量平衡和資源利用,以及定制的圖形處理股(GPU)管道解決方案。該用戶指南將介紹和解釋如何為Linux* 使用英特爾媒體加速器參考軟件。

2023-08-04 06:34:54

請教達(dá)芬奇系列產(chǎn)品的一些概念問題：hdvicp 高清視頻協(xié)處理器視頻加速器視頻處理前端視頻編解碼器

你好，學(xué)習(xí)達(dá)芬奇系列的產(chǎn)品有一段時間了，對一些概念不是很清楚，想咨詢下大家。1、視頻解碼器是指TVP5158 嗎，和視頻加速器是一個東西還是加速器屬于獨立的模塊.2、hdvicp 高清視頻協(xié)處理器

2018-07-27 06:23:52

請問66ak系列芯片加密加速器的調(diào)用？在程序設(shè)計中如何調(diào)用此加速器？

本帖最后由一只耳朵怪于 2018-6-19 10:42 編輯請問，在66ak系列有加密加速器，現(xiàn)在的項目需要此功能，請問，在程序設(shè)計中如何調(diào)用此加速器？采用pdk平臺，openmpacc開發(fā)。

2018-06-19 05:53:08

請問c6670中bcp硬件加速器的下行thoughput值在什么范圍

在ti的Thoughput performance guid的文檔中看到了bcp加速器上行的Thoughput在240-500Mbps范圍內(nèi)，請問下行的Thoughput值大概在什么范圍？

2018-12-26 14:04:28

請問c6670中多核怎樣同時正確使用bcp加速器？

本帖最后由一只耳朵怪于 2018-6-19 14:25 編輯在C6670中，因只有一個bcp硬件加速器，不同核所來數(shù)據(jù)怎樣同時運行起來而不發(fā)生一個核經(jīng)常搶占BCP加速器，導(dǎo)致其它核數(shù)據(jù)

2018-06-19 00:42:40

調(diào)節(jié)多核處理器硬件適應(yīng)軟件設(shè)計方法

;CPE_DATA_MEM_SIZE_KB 8　　使用減負(fù)器來加快處理速度　　第四個問題和創(chuàng)建硬件加速器有關(guān)。可能有一部分程序會占用太多的周期。要減少周期就需要更多的處理器，而使用硬件加速器就能

2008-09-25 17:17:55

采用控制律加速器的Piccolo MCU

日前，德州儀器 (TI) 宣布推出采用控制律加速器 (CLA) 的新型 TMS320F2803x Piccolo 微處理器 (MCU)，可促進(jìn)具有更高可靠性與效率的嵌入式控制應(yīng)用的開發(fā)。CLA

2019-07-26 06:21:46

問下ARM3的硬件加速器只能用verilog寫嗎？

問下ARM3的硬件加速器只能用verilog寫嗎？

2022-09-30 10:45:39

高速數(shù)據(jù)轉(zhuǎn)換器與基帶處理器連接的寬帶接收器系統(tǒng)設(shè)計

減輕計算密集型 2D FFT 運算負(fù)載的 FFTC 硬件加速器，可實現(xiàn)低延遲和高精度附加了 JESD 的寬帶采樣信號處理解決方案，包含數(shù)字信號處理器 (DSP)、ADC 和 DAC 板、演示軟件、配置

2018-09-20 09:07:06

#硬聲創(chuàng)作季云計算從入門到精通：2.8、【Docker系列】配置加速器

加速器Docker

Mr_haohao發(fā)布于 2022-10-15 14:03:32

#硬聲創(chuàng)作季電子制作：磁性加速器

加速器DIY

Mr_haohao發(fā)布于 2022-10-19 00:19:38

采用硬件加速發(fā)揮MicroBlaze處理能力

采用硬件加速發(fā)揮MicroBlaze處理能力　　MicroBlaze處理器是賽靈思(Xilinx)在嵌入式開發(fā)套件 (EDK) 中提供的兩款32位內(nèi)核之一，是實現(xiàn)硬件加速的靈活工具。圖1是MicroBlaze的

2010-03-10 10:24:16

1132

加速處理器的正弦函數(shù)計算步驟

有很多種算法可對單精度浮點數(shù)字的正弦值進(jìn)行計算，但添加硬件加速器是功能最為強大的方法之一。之所以得出這一結(jié)論，是因為客戶的應(yīng)用要求使用此類正弦計算，而我們又針對能

2011-08-31 15:36:46

基于FPGA Nios-Ⅱ的矩陣運算硬件加速器設(shè)計

針對復(fù)雜算法中矩陣運算量大, 計算復(fù)雜, 耗時多, 制約算法在線計算性能的問題, 從硬件實現(xiàn)角度, 研究基于FPGA/Nios-Ⅱ的矩陣運算硬件加速器設(shè)計, 實現(xiàn)矩陣并行計算。首先根據(jù)矩陣運算

2011-12-06 17:30:41

Nios II C語言至硬件加速編譯器

電子發(fā)燒友網(wǎng)核心提示: 獲獎的Nios II 嵌入式處理器C語言至硬件（C2H）加速編譯器將對時間要求較高的ANSI C函數(shù)轉(zhuǎn)換為FPGA中的硬件加速器，從而提高了性能。特性： (1)ANSI/ISO C 代碼按鍵

2012-10-17 14:29:34

1901

Bitfusion支持通過云訪問基于賽靈思All Programmable器件的FPGA硬件加速功能

硬件加速功能不謀而合，Bitfusion 正在開發(fā)基于賽靈思 Kintex UltraScale 器件的硬件加速器，并將提供基于 SDAccel 等賽靈思工具的云開發(fā)工具，作為為高性能計算（HPC

2017-02-08 19:48:30

238

UVM驗證平臺執(zhí)行硬件加速

UVM已經(jīng)成為了一種高效率的、從模塊級到系統(tǒng)級完整驗證環(huán)境開發(fā)標(biāo)準(zhǔn)，其中一個關(guān)鍵的原則是UVM可以開發(fā)出可重用的驗證組件。獲得重用動力的一個方面表現(xiàn)為標(biāo)準(zhǔn)的仿真器和硬件加速之間的驗證組件和環(huán)境的復(fù)用

2017-09-15 17:08:11

硬件加速邊緣檢測優(yōu)化處理方案

針對計算機處理高清圖像或視頻的邊緣檢測時存在延時長和數(shù)據(jù)存儲帶寬受限的缺點，提出了用Vivado HLS將邊緣檢測軟件代碼轉(zhuǎn)換成RTL級硬件電路的硬件加速方法。硬件加速是將運算量大的功能模塊由硬件

2017-11-15 18:02:01

1874

利用硬件加速器提高處理器的性能

處理器內(nèi)部集成的硬件加速器可以實現(xiàn)三種廣泛使用的信號處理操作：FIR(有限沖激響應(yīng))、IIR(無限沖激響應(yīng))和FFT(快速傅里葉變換)。硬件加速器減輕了核處理器的負(fù)擔(dān)，能潛在的提升處理器的計算吞吐

2017-12-04 15:22:36

1036

MD5算法硬件加速模型

驗證、分析。相比非流水線硬件加速模型，流水線硬件加速模型能提高M(jìn)D5運算效率5倍，可用于網(wǎng)絡(luò)處理器等硬件加密引擎，有效提高網(wǎng)絡(luò)處理器等硬件設(shè)備的安全性和處理效率。

2018-01-12 16:45:07

Veloce仿真環(huán)境下的SoC端到端硬件加速器功能驗證

很多人認(rèn)為硬件加速器無非是一種速度更快的仿真器而已。毫無疑問，由于硬件加速器使用物理硬件進(jìn)行仿真，使用硬件加速器驗證復(fù)雜的集成電路和大型片上系統(tǒng)（SoC）能比軟件仿真器快若干數(shù)量級。與仿真用通用計算機相比，仿真用單一功能計算機能提供更高容量、更高效的系統(tǒng)。

2018-03-28 14:50:00

3160

利用硬件加速器提高仿真速度時的驗證平臺考慮

個設(shè)計時鐘的速度運行相關(guān)設(shè)計。硬件加速器的運行速度則是每秒lM左右個時鐘，因此可以將原始性能提高1000倍。原始性能相當(dāng)于硬件加速器在無需等待驗證平臺或外部事件的條件下自由運行時的性能。驗證平臺對硬件加速性能影響很大。

2018-03-05 10:13:13

斯坦福機器學(xué)習(xí)硬件加速器的課程學(xué)芯片技術(shù)機會來了

學(xué)芯片技術(shù)的機會來了！斯坦福大學(xué)2018秋季學(xué)期推出《機器學(xué)習(xí)硬件加速器》課程，深入介紹機器學(xué)習(xí)系統(tǒng)中設(shè)計訓(xùn)練和推理加速器的架構(gòu)技術(shù)。課程涵蓋經(jīng)典的ML算法，用于ML模型推理和訓(xùn)練的加速器設(shè)計等，超多專業(yè)材料和PPT，是本領(lǐng)域不可多得的專業(yè)課程。

2018-07-21 09:27:10

5663

使用協(xié)處理器加速器的方法介紹

了解協(xié)處理的價值，Zynq-7000加速器一致性端口，使用協(xié)處理器加速器的方法以及協(xié)處理器設(shè)計實例的概述。

2018-11-30 06:15:00

3960

基于Xilinx FPGA的Memcached硬件加速器的介紹

本教程討論基于Xilinx FPGA的Memcached硬件加速器的技術(shù)細(xì)節(jié)，該硬件加速器可為10G以太網(wǎng)端口提供線速Memcached服務(wù)。

2018-11-27 06:41:00

3433

毫米波傳感器1443硬件加速器的簡單介紹

2.6 mmWave波形傳感器簡介1443硬件加速器

2019-05-08 06:20:00

2982

分享硬件加速仿真的 11 個謬論介紹和說明

硬件加速仿真可以實現(xiàn)寄存器傳輸級(RTL)和現(xiàn)代SoC設(shè)計門級的最佳功耗分析。只有硬件加速仿真才有處理大量邏輯以及產(chǎn)生針對所有元素的切換活動的獨有能力。

2019-10-11 17:54:29

4550

如何將硬件加速器關(guān)閉？

硬件加速是指在計算機中通過把計算量非常大的工作分配給專門的硬件來處理以減輕中央處理器的工作量之技術(shù)。尤其是在圖像處理中這個技術(shù)經(jīng)常被使用。

2019-08-15 15:29:35

6839

硬件加速器提升下一代SHARC處理器的性能

硬件加速器提升下一代SHARC處理器的性能

2021-04-23 13:06:32

基于RISC-V處理器和卷積加速器的SoC系統(tǒng)

卷積計算的效率。基于軟硬件協(xié)同設(shè)計思想，構(gòu)建包含RISCⅤ處理器和卷積加速器的SoC系統(tǒng)，RISC-V處理器基于開源的指令集標(biāo)準(zhǔn)，可以根據(jù)具體的設(shè)計需求擴展指令功能。將該SoC系統(tǒng)部署在 Xilinx ZCU102開發(fā)板上ISC-V處理器和卷積加速器分別工作在100M

2021-06-02 15:08:22

第七屆硬創(chuàng)大賽與中城智能硬件加速器達(dá)成戰(zhàn)略合作，推動智能硬件創(chuàng)新發(fā)展

?日前，中國硬件創(chuàng)新創(chuàng)客大賽組委會與中城智能硬件加速器正式達(dá)成戰(zhàn)略合作伙伴關(guān)系。 ? ? 中城智能硬件加速器天集社是2020年入選工信部中小企業(yè)服務(wù)平臺和國家級科技企業(yè)孵化器，鏈接全球硬件創(chuàng)新者建立

2021-07-15 15:18:02

2961

2021華為開發(fā)者大會華秋電子OpenHarmony新硬件加速器

今天的2021華為開發(fā)者大會上，OpenHarmony分論壇上展示了華秋電子OpenHarmony新硬件加速器。 HDC分論壇-OpenHarmony 分論壇推薦鏈接：http://t.elecfans.com/live/1708.html 責(zé)任編輯：haq

2021-10-23 15:43:42

1125

OpenHarmony 分論壇-華秋電子新硬件加速器

OpenHarmony 分論壇-華秋電子新硬件加速器 今天的華為開發(fā)者大會2021上，OpenHarmony分論壇上展示了華秋電子新硬件加速器 。 HDC分論壇-OpenHarmony 分論壇推薦鏈接：http://t.elecfans.com/live/1708.html 責(zé)任編輯：haq

2021-10-23 16:53:48

1500

OpenHarmony Dev-Board-SIG專場：OpenHarmony 新硬件加速器

OpenHarmony Dev-Board-SIG專場：OpenHarmony 新硬件加速器

2021-12-28 15:12:30

1104

什么是AI加速器如何確需要AI加速器

AI加速器是一類專門的硬件加速器或計算機系統(tǒng)旨在加速人工智能的應(yīng)用，主要應(yīng)用于人工智能、人工神經(jīng)網(wǎng)絡(luò)、機器視覺和機器學(xué)習(xí)。

2022-02-06 12:47:00

3645

如何利用不同的加速器使用模型實現(xiàn)所需的MIPS和處理目標(biāo)

2022-05-05 14:08:16

1034

基于CORTEX-M3硬件加速的目標(biāo)跟蹤鎖定系統(tǒng)

本項目采用Cortex-M3軟核做控制部分，大規(guī)模專用硬件加速器做濾波跟蹤計算和智能目標(biāo)檢測部分，視頻輸入輸出通過HDMI直接進(jìn)入硬件加速器，繞過軟核實現(xiàn)更快的數(shù)據(jù)處理速度。

2022-05-16 10:04:26

959

全新ROS 2 Humble硬件加速特性

自 2021 年 10 月起，NVIDIA 和 Open Robotics 開始合作并推出了兩項重要的改動，現(xiàn)已發(fā)布在Humble ROS 2版本中，以提高提供硬件加速器的計算平臺的性能。

2022-07-07 09:45:07

2471

如何確定一個硬件加速應(yīng)用

在開發(fā)一個加速程序的之前，有一個很重要的步驟：正確設(shè)計程序架構(gòu)。開發(fā)人員需要明確軟件應(yīng)用程序中哪一部分是需要硬件加速的，并且它多少的并行量，以保證硬件加速器件（FPGA）能完美發(fā)揮其作用。本文將分為5個步驟來介紹

2022-08-02 10:33:07

386

用于 AI 應(yīng)用的硬件加速器設(shè)計師指南

當(dāng) AI 設(shè)計人員將硬件加速器整合到用于訓(xùn)練和推理應(yīng)用的定制芯片中時，應(yīng)考慮以下四個因素

2022-08-19 11:35:55

1267

為什么石墨烯在低溫下的特性使量子計算越來越可行

　　有一些處理任務(wù)的示例已由專用硬件處理。例如，圖形處理通過用于圖像處理和顯示渲染的專用芯片加速。然而，研究人員預(yù)計，與傳統(tǒng)的硬件加速器相比，量子計算機的使用方式將大不相同。通過一個簡單的比較，我們可以認(rèn)為量子計算機優(yōu)于當(dāng)今帶有硬件加速器的多核處理器，就像現(xiàn)代PC優(yōu)于基于閥門的計算機一樣。

2022-11-22 11:42:40

417

利用數(shù)字信號處理器上的片上FIR和IIR硬件加速器

處理器上的片上FIR和IIR硬件加速器（也稱為FIRA和IIRA）可用于卸載FIR和IIR處理任務(wù)，從而騰出內(nèi)核用于其他處理。在本文中，我們將討論如何借助經(jīng)過測試的實時示例說明的不同使用模型在實踐中使用這些加速器。

2022-12-20 11:22:36

855

利用數(shù)字信號處理器上的片上FIR和IIR硬件加速器

2022-12-20 11:39:25

782

借助硬件加速器開發(fā)您的設(shè)計

借助硬件加速器開發(fā)您的設(shè)計

2023-01-03 09:45:15

594

硬件加速器提升下一代SHARC處理器的性能

SHARC ADSP-2146x處理器集成了硬件加速器，可實現(xiàn)三種廣泛使用的信號處理操作：FIR（有限脈沖響應(yīng)）、IIR（無限脈沖響應(yīng)）和FFT（快速傅里葉變換）。加速器卸載了核心處理器，并有可能使處理器的計算吞吐量增加一倍以上。本文以加速器在下一代音頻系統(tǒng)中的應(yīng)用為例。?

2023-03-03 14:46:51

761

DPU（數(shù)據(jù)處理器）能做什么？

了解DPU數(shù)據(jù)處理器的基礎(chǔ)知識：它們是什么、它們做什么、誰在制造它們以及誰在采用它們。然后決定您的數(shù)據(jù)中心是否有朝一日會使用。數(shù)據(jù)處理器是針對數(shù)據(jù)處理和以數(shù)據(jù)為中心的計算的硬件加速器。不同于CPU和GPU及其他硬件加速器，DPU具有更高的并行度和MIMD架構(gòu)。

2023-04-19 15:38:23

2080