ITRS的工序路線圖與新一代嵌入式多核SoC設計
在網絡無處不在、IP無處不在和無縫移動連接的總趨勢下,國際半導體技術路線圖(ITRS)項目組在他們的15年半導體技術發展預測中認為,隨著技術和體系結構推進“摩爾定律”和生產力極限的發展,將出現若干新的半導體技術,在芯片之上或者在芯片之外不斷擴展新的功能。圖1就顯示了手機芯片技術的發展趨勢。
總的來說,新興的半導體技術可以分為三種:摩爾定律、廣義摩爾定律、超越摩爾定律。所有這些都能對嵌入式網絡空間起到顯著影響,使用系統級芯片體系結構通常會用到以下技術:多核(MC)、分級緩存、芯片內連接、按需提供的加速引擎、可連接性。
所有這些技術加起來就能夠提供一個可擴展、基于軟件多核/加速引擎的系統級芯片(SOC-MC/AE)解決方案,可以滿足從低端到高端的各種應用程序需求,通過這些新的服務實現并擴展各種用戶體驗。
三種“摩爾定律”
隨著技術與體系結構推進“摩爾定律”和生產力極限的發展,在2005年ITRS首次提出了“超越摩爾定律”的概念,用來指代那些不可度量的功能性集合。不僅包括大部分的模擬功能,還包括無源器件、高電壓、傳感器、促動器和啟動器等。
在ITRS舉辦的大會上,他們給出了這三種“摩爾定律”的大致定義:
摩爾定律:幾何級規模增長。
廣義摩爾定律:算術級規模增長。
超越摩爾定律:功能多樣化。
“摩爾定律”主要指在度量芯片邏輯和內存的物理特性各個方面都呈現幾何級規模的持續增長,它能增強芯片的密度(減少功能的單位成本)、性能(速度、能力)以及對應用程序和最終客戶的可靠’性價值。
“廣義摩爾定律”通常是指那些與幾何級規模增長特性相關、能夠影響芯片電子性能的處理器技術。
“超越摩爾定律”指集合在裝置中的各種功能,它們無法用摩爾定律來度量,卻能以不同的方式為最終客戶提供各種附加價值。
這些“超越摩爾定律”的方法,通常使用一些非數字化的功能(例如射頻通信、能源控制、無源組件、傳感器、促動器及第三方的IP等功能增強組件)。將這些技術應用于系統板級/特定封裝級(SiP,系統內封裝)或芯片級(系統級芯片)等潛在的解決方案。
總的發展趨勢是,越來越多的功能都不再以同樣的模式增長(摩爾定律所定義的那樣)。這是功能多樣化,而不是簡單的增長,但是商業和技術發展的一個方面。
將“摩爾定律”與“超越摩爾定律”聯合起來,就能夠得到系統級芯片或者系統內封裝,這并非芯片上同樣功能的簡單整合,而是能真正增加其價值的整合。
SOC設計中的功能多樣化
國際電信聯盟無線通信部(ITU-R)正在研究未來系統中的用戶需求預測。例如在即將到來的2010年,為了滿足IMT-2000(國際移動通信標準)及更先進的技術需要,預測全世界所需要的頻譜帶寬總量。
IMT-2000系統屬于第三代移動通信,在固定電線網絡(例如PSTN/ISDN/IP)及各種其他移動特有服務的支持下,能夠訪問各種電信服務。IMT-2000主要特性包括:
(1)通過各種服務和終端能夠提供多媒體應用的能力。
(2)各種具體技術具有高度的共通性。
(3)在IMT-2000和固定網絡之間具有業務一致性。
(4)質量很好。
(5)全世界漫游。
(6)很小的終端可以在世界各地使用。
在未來5~15年,還將有以下發展趨勢:
(1)網絡可擴展性進一步增強,在任何時間、任何地點、任何設備上都能以寬帶的速度接收高質量的多媒體內容。
(2)在市場上,終端用戶將是創建各種多媒體內容的主要力量。
(3)將出現很多高級的基于IP的應用和服務,推進高帶寬可擴展性網絡的不斷發展。
(4)出現裝備多個內核或者支持多線程的芯片及加速器的多處理器平臺,以支持各種高級應用和服務。
(5)處理器技術進一步發展,出現從65nm到45nm、32nm、22nm乃至10nm的工藝水平。
(6)網絡中隨處可見可擴展的封裝與反病毒技術。
(7)家庭網絡將越來越復雜,包含了各種數據通信與娛樂功能。
(8)在家庭、辦公室及野外能夠實現無縫移動性。
與傳統的PC應用程序或者服務器應用程序相比,考慮到內核速度與內存I/O延遲等的本質性差異,如今的嵌入式處理器體系結構并不能提供可觀的性能,無法滿足先前提到的聯網計算場景的需求。
現在.幾乎所有批量生產的商業性處理器都是基于單線程體系結構技術設計的,這必然受到性能和應用方面的諸多標準限制。隨著應用變得越來越依賴于網絡,這種傳統的處理器設計技術將無法滿足聚合計算與網絡范式的吞吐量需求。
這種基于“包”的計算環境特點在于大數據量訪問帶來的延遲,使用傳統的處理器體系結構無法進行有效管理。這個問題將會嚴重影響處理器的性能和工作效率。如果內存處理不能得到立即響應,并且也沒有彌補的指令可以執行,那么傳統的處理器將暫停運行,造成處理周期的損失。
SoC-PE用戶與SOC-MC/AE網絡體系結構
將“廣義摩爾定律”加入到設計中,能夠得到一個聚合的、整合的異構平臺,能夠創建一個可擴展的、智能的、堅實的增值環境。這種基于使用三種“摩爾定律”的可擴展性得到的SoC-PE平臺。將成為一種重要的發展方向。
在2005年初,ITRS就引入了SoC-PE體系結構模板,其中的PE是指為了滿足可移植性與無線應用(如智能媒體電話或者數碼相機芯片)等特定功能,以及高性能計算和企業級應用等需求而定制的處理器。
作為這種SoC-PE體系結構的補充,又定義了一種多核/加速引擎(MC/AE)的系統級芯片體系結構模板,用來解決網絡相關問題。這種MC/AE的SoC網絡平臺包含了以下必需的功能模塊:
(1)支持多核技術,以便在30W的電力條件下能夠提供良好的處理性能。
(2)支持前所未有的三級緩存,內部的L2與多個L3共享緩存和多個內存控制器。
(3)支持高速的互連接性。
(4)引入了一種可擴展的芯片內連接,能夠實現并行、無阻塞、基于硬件、100%使用緩存的平臺連接性,它最多可支持32個內核,且支持異構內核。
(5)為了滿足多核技術的需求,去除了共享總線的連接方式,能夠支持快速的高帶寬通信尋址。
(6)包含了一個按需提供的加速引擎,通過純內核處理周期、低能耗實現和減少用硅量成本來提高性能優勢。
(7)支持混合模擬環境,將周期準確性和功能準確性結合起來,降低軟件開發的難度,可以提供性能預測與優化。
(8)網絡系統增強、環境更重視軟件和虛擬化技術的參與性增強了多核硬件體系結構的作用。
為了滿足可擴展性、基于軟件解決方案并支持多種應用程序(從低端到高端)的需求,MC/AE的SoC網絡平臺包含了一些必要的功能模塊。
多核。在很多多核產品中,多個內核的頻率基本都超過1GHz。這個平臺的目的是要實現最高的周期執行指令數(IPC)。及單位面積內指定電量條件下達到最大的頻率。
多核還被設計用于減少高性能加速模塊的重復性與計算集中性操作,提高吞吐量或者新應用和服務條件下的處理周期數。
平臺中每個多核的內核都有自己的L2內部緩存。內部緩存通過一個專用通道直接連接CPU,可以實現非常高的應用性能。
內部緩存能夠滿足全速運行CPU的需求,比起按50%比例的“共享總線/共享緩存”體系結構可以大幅減少處理延遲。L2的內部緩存還能根據不同應用程序的需要,將緩存的內容在指令與數據之間進行轉換,通過大幅減輕CPU負荷來提高總體性能。
另外,L2內部緩存還能減少芯片內和主內存上的流量,這能夠降低處理延遲,緩解其他用戶的帶寬壓力。
多線程和多處理器是密切相關的。當然,它們之間也是有區別的:多處理器共享唯一的內存和連接資源,而多線程處理器則除了共享這些資源外,還共享指令取出與問題邏輯,這些可能是其他處理器的資源。
一些多線程編程和體系結構模型假定新的線程被分配到不同的處理器上,實現了很好的并行性。
分級緩存。認識到現有處理器結構依賴于共享緩存模型的局限之后,一種使用三級緩存分級技術的新方法被用于MC網絡平臺中。
L1緩存依然保留在內核之中。如前所述,L2緩存被實現為內部緩存,更靠近內核,這可以顯著地提升系統性能。每個內核都有自己的內部L2緩存,可以提供:
(1)聚合的帶寬,不會受單個共享緩存的限制。
(2)通過與前端緩存競爭而降低延遲。
(3)內部緩存可以根據不同的性能、隔離性、優先級和QoS(服務質量)要求調整內核計算策略。
(4)私有緩存比起共享緩存更具獨立性,并可以作為資源管理的一個自然單元(例如可以臨時關閉以節約能源)。
此外,還有一些任務是共享緩存所擅長的。例如處理器間通信與共享數據結果的計算處理。在這些情況下,我們還可以提供一個大容量的L3緩存。這種高帶寬、共享緩存技術讓沖突變得很少,可以提供快速的內存輸入輸出訪問和加速器能力。
芯片內連接。芯片內連接與緩存分級技術一起工作,實現緩存兼容與并發訪問。上述革新的內部緩存實現加上這種芯片內連接,能夠全面支持數據復制、改良中斷與全硬件兼容的跟蹤。
多核網絡平臺能夠充分利用芯片內連接的高度可擴展性和模塊化,這一多年積累的研究開發結果可以實現多個內核之間的緩存兼容、并行與低延遲連接。
與多個內核、內存和外圍設備之間使用共享總線作為互連媒質不同的是,這種芯片內連接技術可以減少總線仲裁與沖突,這是其他多核體系結構所面臨的嚴峻挑戰,因為會在系統中引入更多的流量。它就像一個網狀,允許并行的流量從其中任一點進入或者退出系統,而不是只有一個進出口點。
由于其天然的可擴展性,這種芯片內連接能夠在每個周期都實現多種、全面兼容的交易,可以很方便地擴展到支持更多的內核。芯片內連接還可以支持異構芯片組,從而充分發揮多核的作用,讓各種能耗和性能設計基礎的內核可以在一起協調工作,相互之間各盡其職、取長補短。
可連接性。多核網絡平臺整合了各種網絡與I/O資源,這種設計可以支持很高的吞吐量。那些能夠為系統設計者提供各種可擴展、高性能的資源可以受到特殊關照。
SOC-MC/AE網絡平臺的接口與功能模塊
SOC-MC/AE網絡平臺支持各種接口,包括RGMII、XGMIII與SPI-412等接口控制器,以及一些高速接口,如PCI-X接口與串行RIO接口。
外圍接口。外圍設備和ROM可以通過各種外圍接口連接多核網絡平臺。這些端口是使用32位外圍I/O總線及可編程多功能輸入輸出(GPIO)信號的不同組合來創建的。
多核網絡平臺包含一些必要的標準總線,例如由兩條雙向總線線路組成的標準I2C總線端口、串行數據(SD)線與串行時鐘(SCLK)線。
按需提供的加速引擎。按需提供的加速技術讓多核網絡平臺體系結構中的加速引擎在性能和靈活性方面達到了新的高度。這種異步、共享資源的體系結構可以提供低延遲、多任務處理,而不會引起線程切換超負荷。
按需提供的應用加速使得多核網絡平臺的性能優勢超過了單核心的處理周期,可以降低能耗,減少硅的使用率,從而降低芯片制造成本。按需提供、高性能的加速引擎技術包括:
(1)支持深度封裝檢查和全面內容處理的模式匹配。
(2)解壓縮和壓縮能力,在使用時解壓、傳輸時壓縮。
(3)支持保密、完整與認證的加密安全機制。
(4)包轉換和流分類的表查詢技術。
(5)數據分支資源管理,能有效地分配芯片內資源。
(6)包分發與隊列管理。
混合模擬環境。SOC-MC/AE網絡平臺需要全面的系統模擬模型,整合了周期準確性建模技術和功能性建模技術的混合機制,可以讓使用多核網絡平臺的客戶應用程序在軟件開發、性能預測與優化方面的難度大幅降低。
使用這種混合的模擬環境,能夠方便地在功能和周期準確性模型之間實現切換,開發者可以在虛擬的多核網絡平臺上遷移和分割操作系統、中間件和應用程序,方便開發、調試和基準測試,這甚至比使用實際產品還要方便。
這個環境可以進行安全而便利的分割、并行、優化系統和應用程序。軟件開發人員可以使用“what if”模式來虛擬運行環境,在不受實際硬件條件約束的情況下調優性能。這種混合模擬器為開發者提供了硬件視圖,其主要特性包括:
(1)快速而實用的多核網絡平臺模型。
(2)詳細的多核網絡平臺周期準確性模型。
(3)包含了基礎架構和軟件開發、代碼分割、調試、部署及虛擬化等工具的綜合包。
(4)不管是宏觀和微觀,系統狀態都具有良好的可視性,方便觀察緩存和寄存器管道的狀態。
(5)執行軟件的運行時控制,包括斷點、分布和反向執行。
(6)可以重啟多個操作系統。
這種混合模擬器的一個重要優點是能夠動態地實現從高速功能性模式到普通的周期準確性模式之間的來回切換。
這使得軟件開發人員可以在必要時快速重啟操作系統或者執行關鍵代碼,然后再切換到普通的周期準確性模式來分析特定范圍的數據,而無需等待很長時間。
作為一個多核系統的開發平臺,這種混合的模擬環境具有很好的靈活性與可擴展性,支持一些在操作系統或者應用程序中無需執行指令的獨占環境。軟件開發人員能夠減少目標系統的開發時間,從而全面提高其代碼的質量。
MC/AE增強環境
MC/AE網絡平臺需要軟件工程師花費特別多的時間來考慮軟件體系結構的問題。開發多核處理器的性能潛力意味著使用并行處理的能力,考慮到很大程度上同步的單核系統具有長期而成功的歷史,這種轉變不是一時半會兒就能夠深入人心的。
網絡應用程序在一定程度上實現了包處理的并行性,同時網絡數據通道和控制平面之間的互操作也可以算作是另一種層面的并行。
這些并行性都是很容易想像的,而如果數據通道流超過了單CPU的能力,或者單內核不能提供足夠的控制平面響應時,事情就會變得更加復雜了。負載均衡和在同一設備上實現非均衡/均衡混合多處理環境是一種嚴峻的挑戰,而多核網絡平臺就是被設計用來解決這些問題的。
盡管從軟件架構上需要考慮任務的分發,但多核網絡平臺提供的密集處理能力也可以讓硬件設計師想到將功能集中并重新分配,這能夠充分發揮多個CPU或者功能模塊的效用。
這些想法與在系統中引入新的服務和能力產生強烈的共鳴。不管是軟件還是硬件體系結構,都需要多核處理器具有良好的靈活性,也需要能夠幫助提升未來架構體驗的良好機制。
在SoC-MC/AE網絡平臺中,每一個內核都具有私有的L2緩存,這也被稱為內部緩存。另外,平臺還裝備了按需提供的加速引擎,能夠滿足不同應用的需求。
盡管多核平臺被設計為能夠滿足很高的性能目標,但便于使用也是平臺定義的重要指標。在目前的多核實現中,一個明顯的障礙就是編程的效率和調試的便利性。下面是兩種假設的場景:
場景1:2007年主流內核個數為1,系統性能也是為單核系統設計。
在這種情況下,45nm工藝能夠將65nm工藝的系統性能提高到3.6倍,相當于使用3.7個65nm的內核。同樣,32nm工藝的系統性能可以達到13.5倍,相當于7.5個65nm的內核。這個性能曲線基本是線性的。
場景2:2007年主流內核個數為4,系統性能也是為4核系統設計。
在這種情況下,45nm工藝的系統性能可以達到65nm工藝的14.7倍。相當于10.9個65nm的內核。同樣,32nm工藝可以達到54倍系統性能,相當于30個65nm的內核。這也是線性增長的。
SOC-MC/AE平臺的價值啟示
今后的網絡需求將會超越目前這種單核體系結構所能提供的操作頻率。增加內核數量(多核)可以提高性能(摩爾定律)。
但是在封閉空間內熱量管理的挑戰甚至超過了提高CPU頻率來提升性能的難度。因此,這需要求助于系統級芯片平臺所帶來的機會。
另外,還有很多亟待解決的問題:總線帶寬與存儲量沖突、可擴展性問題,更糟糕的是由于缺乏編程可視性而帶來處理周期浪費等問題。
在SOC-MC/AE網絡平臺中添加加速引擎,能夠進一步提升性能(廣義摩爾定律)。但是,為了與硬件需求相匹配,在軟件及模擬環境方面還需要更多的投資(超越摩爾定律)。
因此,SOC-MC/AE網絡平臺不只是為超級性能和提升能源效率而設計的,它還能快速而順利地幫助推進多核處理器的發展,為業界提供一個可行的環境。
因此,多核、加速引擎和模擬增強環境,是變更網絡執行環境的三個重要組成部分,能夠提供可擴展的、可持續發展的性能,以滿足下一代高級應用程序及服務的需求。
評論