中超足球经理单机版,二八杠快速获得胜利的技巧,乾元棋牌价格(中国)·官方网站

SoC 中不斷添加處理核心，但它們不會都得到充分利用，因為真正的瓶頸沒有得到解決。

SoC 需要處理的數據量激增，雖然處理核心本身可以處理這些數據，但內存和通信帶寬成為瓶頸。現在的問題是可以采取什么措施解決這個問題。

內存和 CPU 帶寬之間的差距（即所謂的內存墻）不是一個新問題，還在繼續惡化。

早在 2016 年，德克薩斯州高級計算中心的研究科學家 John McCalpin 就發表了一次演講，研究了高性能計算 (HPC) 的內存帶寬和系統資源之間的平衡。他分析了當時排名前 500 的機器，并剖析了它們的核心性能、內存帶寬、內存延遲、互連帶寬和互連延遲。他的分析表明，每個插槽的峰值 FLOPS 每年增加 50% 到 60%，而內存帶寬每年僅增加約 23%。此外，內存延遲每年減少約 4%，互連帶寬和延遲每年增加約 20%。這些表明數據移動方面存在持續且不斷擴大的不平衡。

這意味著，如果我們傳輸數據，則每次內存傳輸所花費的時間相當于 100 次浮點算術運算。也就是說，如果無法預取并且錯過了cache，你就失去了執行超過 4,000 次浮點運算的機會。

系統性能要素的不平衡。

一個設計良好的系統是平衡的。大多數人想要的是更有效地使用晶體管，目標每美元的吞吐量和每瓦特的吞吐量將會更高，總之利用率越高越好。

在考慮系統性能時，要么受計算限制，要么受內存限制，要么受 I/O 限制。隨著計算速度的加快，需要更加重視內存是否能夠跟上計算速度，并且還需要更高的帶寬接口來將傳輸數據。

但業界對處理性能非常著迷。實際上，計算單元很重要，但它們通常不是實際系統速度的限制因素。系統速度和工作負載強相關，它取決于數據從某個地方來、以某種方式處理并發送到數據被需要的地方有多快，并受到沿途亂七八糟事情的干擾。

這意味著不可能構建一個適合所有任務的最佳系統。關鍵是要確保其均衡性良好，并且在任何區域都不會過度配置。

移動數據

移動數據肯定會影響系統性能，也與功耗有關，因為移動一段數據比對其執行計算消耗的功耗高幾個數量級。完成一項任務，一般意味著將數據通過外部接口移入內存，從內存到CPU，中間結果在內存和CPU之間來回切換，最后結果通過外部接口推回。

無論你的計算速度有多快，或者你的內存陣列有多大，最終決定芯片和系統性能的是連接兩者的總線帶寬。這就是最大的瓶頸所在，不僅僅是總線，還有高速接口，它們都為解決數據訪問瓶頸做出了自己的努力。

有效的內存帶寬的提升是cache的采用。假設大多數內存訪問來自cache而不是主存，這有效地使數據更接近處理器，并減少延遲。處理器性能的提高如此之快，主要是通過核心數量的快速增加。然而，cache性能一直在下降，這是導致延遲增加的主要原因之一。即使 HBM 的引入也未能扭轉這一趨勢。cache性能的降低是因為cache設計變得越來越復雜，特別是隨著更多核心保持cache coherent，并且多級cache串行lookup以節省功耗。

另一種選擇是將計算移至更靠近內存的位置。in-memory computing的時代才剛剛開始，這可以通過三種方式實現。

1、通常，由于 DRAM 制造的經濟性，我們不會在 DRAM 芯片上看到很多復雜的邏輯。我們可能會看到少量非常具體的函數被添加到這些芯片中，例如累加或乘累加函數，這在許多 DSP 和 AI 算法中很常見。

2、第二種可能是像 CXL.mem 這樣的技術，在這種技術中，將計算功能添加到控制內存陣列的邏輯芯片中是非常可行的。從技術上講，這是在內存附近處理而不是在內存中處理。

3、第三個介于兩者之間。對于某些堆疊式存儲器（例如 HBM），通常有一個邏輯芯片與 DRAM 共同封裝在同一堆疊中，并且該邏輯芯片是面向 CPU 和 DRAM 設備的總線之間的接口。該邏輯芯片為邏輯芯片上的中低復雜度處理元件提供了空間。

HBM 的成功無疑幫助普及了chiplets的概念，曾經受到光罩限制或產量限制的芯片現在可以在多個chiplets上制造并集成到一個封裝中。然而，現在需要的芯片間連接解決方案可能比單個芯片上的連接解決方案慢。當公司將芯片分割成多個同質芯片時，希望在分割芯片上執行相同的操作，又不會降低性能或準確性。

實際上，這些chiplets是在系統環境中設計的，不僅僅是之前那樣的存儲器或控制器設計。封裝中的 IC 會引入其自身的寄生效應，因此你需要將其視為一個系統，并查看眼圖，看看如何根據系統的運行條件，信號的來源和接收方，對其進行優化，從而大幅增加帶寬并減少延遲。這些目的決定了接口和協議。USB、SATA、PCIe、CXL、DDR、HMC、AXUI、MIPI，這些不勝枚舉的協議都需要接口，業內正在創建更新的協議，并且需要新的接收器來實現這些芯片到芯片的連接。

multi-die系統的一大優勢是可用連接的數量變得更多。從 I/O 的角度來看，我們曾經擁有 1,024 位總線，然后我們轉向串行接口。但最近發生的情況是，那些串行接口現在已經變成并行接口，例如 x32 PCIe，它由 32 通道超高速串行連接組成。

工作負載

如前所述，系統性能和工作負載強相關。不可能制造針對所有情況優化的通用機器。找到PPA平衡迫使人們重新思考和定制芯片。

像人工智能這樣的任務也存在著不同的工作負載。如果你觀察人工智能，就會發現它有兩個方面。一個是訓練，在訓練中你需要不斷地訪問內存，因為權重就在那里。而且你會不斷改變權重，此時內存訪問是關鍵。然而，如果你看推理，模型已經訓練好了，你所要做的就是 MAC 操作，沒有訪問內存去改變權重。

尋找適當的平衡需要采用協同設計方法。在架構階段，需要評估芯片的各種場景，關注芯片內以及芯片外的吞吐量和帶寬。另一方面，物理設計團隊必須找出芯片的最佳尺寸。由于產量和功率的原因，它不能太大，更不能太小。然后設計團隊必須為他們構建接口和協議。架構團隊、物理設計團隊和設計團隊不斷地進行三方戰斗，以找到讓每個人都滿意的最佳點。當然，少不了驗證這個守門員。

計算范式

對于某些問題，使用傳統軟件可能會導致解決方案效率低下。這發生在從單核到多核的過渡以及 GPGPU 的采用期間。業界正在等待新一代人工智能硬件的實現。GPU 可以進行大規模并行計算，除了渲染形狀之外還可以做各種事情。

結論

添加更多或更快的處理核心固然很棒，但除非你能讓它們保持忙碌，否則就是在浪費時間、金錢和電力。

隨著 DRAM 遷移到封裝中，預計潛在帶寬將持續增加，但 DRAM 性能在過去 20 年里始終沒有跟上處理器，那么業界將不得不通過自身架構來解決這個問題。

審核編輯：劉清

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

處理器

處理器

+關注

關注
68

文章
19407

瀏覽量
231179
DRAM

DRAM

+關注

關注
40

文章
2325

瀏覽量
183865
SoC芯片

SoC芯片

+關注

關注
1

文章
617

瀏覽量
35040
Cache

Cache

+關注

關注
0

文章
129

瀏覽量
28431
HPC

HPC

+關注

關注
0

文章
324

瀏覽量
23853

原文標題：處理 SoC 中的性能瓶頸

文章出處：【微信號：數字芯片實驗室，微信公眾號：數字芯片實驗室】歡迎添加關注！文章轉載請注明出處。

串口接收不等長的數據如何處理的呢？

串口是一個很重要的通信方式，但是要用好串口并不是那么簡單，比如如何接收不等長的數據等。你們是如何處理的呢？大家來說說你們的做法。

發表于 05-15 08:02

PCB中電源部分如何處理?

PCB中電源部分如何處理?DDR的基本要求是什么啊？看了好多資料什么樣的說法都有

發表于 03-14 14:51

SoC中語音處理系統有什么功能？

在設計一款面向多媒體應用的嵌入式系統時，實時性能非常重要。本文提出了一種基于ARM7TDMI內核的SoC中語音處理系統的設計方案，并根據該款SoC

發表于 10-24 07:12

如何處理好跨時鐘域間的數據呢

跨時鐘域處理是什么意思？如何處理好跨時鐘域間的數據呢？有哪幾種跨時鐘域處理的方法呢？

發表于 11-01 07:44

TTL集成與非門電路中不用的輸入端如何處理呢？

TTL集成與非門電路中不用的輸入端如何處理呢？

發表于 04-28 10:52

NANO芯片系統中，其對應的AVDD,VREF等引腳該如何處理呢？

NANO芯片系統中，如果用不到ADC模數轉換模塊，其對應的AVDD,VREF等引腳該如何處理呢？可以懸空或直接接地嗎？假使能懸空或直接接地，這樣能節省一部分不必要的功耗嗎？

發表于 08-25 06:46

SoC集成中的處理單元性能評估及功能劃分

SoC集成中的處理單元性能評估及功能劃分

發表于 01-12 22:09 ?2次下載

SoC中的處理單元性能分析

功能的劃分。在準備開發目前越來越復雜的便攜式系統時，設計人員面對的最大挑戰之一就是采用什么樣的處理器組合來實現最優化的3p指標，即系統性能最高、價格最低及功耗最小。系統級芯片（soc）集成使得今日的創新成為可能，但它常

發表于 10-21 10:37 ?1次下載

如何處理電子污染

電子垃圾污染給環境造成了巨大的壓力，當今隨著電子產品廢棄量的增加他逐漸得到了社會各界的高度關注。如何處理電子垃圾帶來的污染呢？請看下文

發表于 01-22 14:18 ?7160次閱讀

處理DS2155中的性能報告消息

本應用筆記詳細介紹了如何處理DS2155中的性能報告消息（PRM）以及如何處理 通過 T1 設施數據鏈路（FDL）以 HDLC 消息的形式發送或接收 PRM。

發表于 02-22 09:41 ?867次閱讀

如何處理HTTP 503故障問題？

HTTP 503故障問題在業務管理上很常見, 以問題的可能性也相當多, 故障時除了503提示, 好像什么也沒有, 發生故障時應如何處理呢？文章內會為大家詳細說明

發表于 04-12 10:05 ?1126次閱讀

ttl與非門中不用的輸入端如何處理？

。但是有時候，輸入端中的某些端口不需要使用，那么應該如何處理呢？首先，我們需要了解 TTL 芯片和非門芯片的內部結構和工作原理。TTL 芯片是由一些晶體管和電阻器組成的。它的輸入端接收高電平（1）或低電平（0）的電信號，而輸出

發表于 09-17 15:42 ?6565次閱讀

調試TrustZone時，如何處理HardFault？

調試TrustZone時，如何處理HardFault？

發表于 09-27 16:33 ?754次閱讀

廣播系統出現噪音、嘯叫如何處理？

公共廣播系統目前是一個各行各業都會有需求的系統，酒店、商場、公園、景點等場所都會用到。現實使用中，我們會發現有的廣播系統是電聲悅耳、自然流暢，但是有一些則帶有些噪音、嘯叫。面對這種情況，我們該如何處理呢。

發表于 11-08 09:41 ?1793次閱讀

如何處理同軸阻抗失配？如何避免阻抗失配這種風險呢？

如何處理同軸阻抗失配？如何避免阻抗失配這種風險呢？同軸阻抗失配是電子通信領域中一種常見的問題，當同軸電纜的輸出端口的阻抗與接收端口不匹配時，就會發生阻抗失配。這種失配會導致信號反射、傳輸效率降低

發表于 11-28 14:18 ?1239次閱讀