賽靈思有90%的客戶在使用DDR存儲器。DDR4是倍受青睞的DDR存儲器系列的最后一代。眾多競爭者們正在虎視眈眈,意圖搶占更大的DDR4市場份額。
存儲器領域正在發生翻天覆地的變化,這一變化的根本原因在于倍受青睞的DDR存儲器系列將在DDR4戛然而止,而賽靈思有90%的客戶都在使用該主流緩沖存儲器(圖1)。
無需過度恐慌:原因在于DDR3能夠與大多數系統板完美兼容,DDR4盡管進展緩慢,但在未來數年將會逐步取代DDR3的位置。盡管如此,由于DDR4沒有繼任者,客戶正在尋找另一種存儲器,同時也在認真權衡帶寬、容量或功耗??赡艿睦^任者是LPDDR3/4,而某些應用領域則更傾向于混合存儲立方體(HMC)等串行DRAM解決方案。
為了了解存儲器面臨的這些重要挑戰,讓我們先來看看影響這些器件的市場趨勢,以及“迫使DDR帝國沒落”的限制因素。接下來,我們會考慮替代DDR的新存儲器類別,從LPDDR到串行存儲器——相信設計人員都希望了解這一新概念。
瞬息萬變的市場趨勢
通常,當客戶在設計他們的新一代產品時,他們總是會選擇同樣存儲器的新一代產品,以獲得更高的容量、速度和吞吐量。鑒于此,圖2顯示了當前和預計的DRAM市場份額變化趨勢。DDR3占據了當前總DRAM市場約70%的份額,這一市場主導地位的確立是由于2009到2010年間其市場份額急劇上升了40%。DDR4的市場接受速度稍慢,部分是因為移動DRAM(又被稱為LPDDR)的“侵入”。如果LPDDR能夠滿足無線市場的需求,那么DDR4的增長空間將會非常有限。
圖中,DDR4增長的確呈加速之勢,因為它有很多優勢,如供電電壓較低,所以更加省電,且速度較快。因此,它最終會在各個市場上取代DDR3,且最終取決于PC市場空間。盡管PC的DRAM使用已經不再超過70%的市場份額,但PC仍然是最大的商品設備細分市場。存儲器廠商聲稱,目前DDR4主要用于服務器,而非個人電子產品細分市場。盡管如此,DDR4仍是眾多設計的絕佳選擇。這種存儲器類型廣為人知,并且在很長時間內都會存在,尤其是因為它沒有繼任者。
為什么DDR4是最后一代?
那么,為什么沒有DDR5?當終端客戶需要采用新器件時,他們希望有更多的存儲器可供選擇??蛻魧Υ鎯ζ鲙挼男枨笥罒o止境。MP3播放器需要存儲10,000首歌曲,而曾經流行的盒式錄音帶則只能存儲幾十首。客戶希望智能手機也能夠存儲成倍的圖片或視頻數量。這些期望通常意味著更多組件和更大的板極空間。諷刺的是,消費者通常并不希望他們的電子設備尺寸與存儲容量或性能保持同比增長。他們希望技術進步,這樣在同樣甚至更小的空間內就可以存儲更多內容。
當存儲器與賽靈思FPGA配合使用時,有具體的操作指南,用于指導板面布局,以確保邊距合理以及系統整體成功。具體實例包括走線長度、終端電阻和布線層。這些規則限制了設計的最小尺寸,或者不同部件的最近距離。
最小尺寸板面設計的替代方案可能是一些最前沿的封裝類型。不幸的是,如果采取新的封裝技術,例如通過硅通孔技術(TSV)實現芯片堆疊,則會使成本急劇上升。DDR存儲器并非高成本器件,完全依賴于行業基礎設施的規模經濟,因此無法采取激進的封裝方式或承擔價格的提升。因此,這些技術進步在可預見的未來不會對DDR3或DDR4系統有任何幫助。
消費者還想要更快的速度。以更快的速度運行系統會導致電路板設計更加復雜。DDR存儲器采用單端信號,信號需要合理端接。您運行系統的速度越快,保證系統功能正常運行的從存儲器到FPGA的走線越短。這意味著器件本身需要放置在更加靠近FPGA的位置。與FPGA的距離限制意味著您在設計中能夠使用的存儲器件數量將會減少。很多DDR4設計會在FPGA周圍封裝盡可能多的器件,已經達到了設計極限。
如果您想要更多存儲空間,您就需要更多器件。如果您需要更快的速度,您就需要縮短器件之間的距離。在有限的空間內能夠擠進的存儲器件數量有限。DDR5在速度方面的任何改進都會降低存儲器件可用的區域,從而降低可用的存儲空間。
DDR3的繼任者應該是誰?
DDR4能否完全取代DDR3?可能不會全面取代。趨勢表明,服務器市場正在采用DDR4,而DDR3較低價格優勢仍在持續,使它成為個人電腦細分市場的首選。毫無疑問,消費者對于速度和存儲空間的需求會繼續增長,最終PC會全面采用DDR4存儲器。
如果不是LPDDR,那會是什么呢?
除了LPDDR之外,還有其它幾類存儲器在覬覦成為下一代存儲器繼任者。串行存儲器就是一種可行的替代方案,并且它完全改變了人們對存儲空間的看法(圖3)。
從FPGA的角度來看,存儲器是最終障礙,也是最后需要串行的部分,原因就是延時。數據從并行流變為串行,通過串行鏈路,然后再從串行轉換為并行數據流,這個流程耗時太長?,F在,使用串行鏈路的缺點在某些應用中是可以容忍的(例如多次寫入且只有少量讀取的情況下,如CT掃描器的測試測量系統或掃描天空的一組望遠鏡)。在另一方面,如果質量測量需要寫入數據并且立即閱讀該數據,串行存儲器在任何情形下的表現都劣于并行數據。但是,如果好的存儲器的衡量標準是高帶寬、能存儲大量視頻或在互聯網上發送大量信息,那么串行存儲器就很有誘惑力。
拋開延時,我們需要對同樣的弊端進行研究。生命周期不是問題:與LPDDR較短的生命周期相比,這些產品只要有市場需求就可以生產。事實上,如果對串行存儲器的需求增加,眾多廠商都可能會加入生產該存儲器件的行列。
串行存儲器沒有采用I/O引腳,而采用串并收發器技術。在FPGA中,我們可以使用串行接口(收發器)實現高速率運行。最近,由于降低延時的需求,廠商們也已經解決了這些性能方面的問題。這種高度發達的串行技術能夠實現極高的吞吐量,每秒可達15 Gb。下一代(以HMC為例)吞吐量預計可達到30 Gbps。人們喜歡“新事物”,但同時又害怕接觸不熟悉的事物。另一方面,新技術會導致生產速率受限且初始價格更高。
混合存儲立方體(HMC)
最有望取代DDR DRAM的串行存儲器為混合存儲立方體 (HMC),由混合存儲立方體聯盟 (HMC Consortium) 推廣,首倡者為美國美光(圖4)。該技術的贊助者在推廣HMC方面做的非常出色。人們甚至開始使用縮寫詞HMC來代表“串行存儲器”。但事實上,HMC只是串行存儲器的一種。
除了HMC之外,MoSys公司正在開發一種名為Bandwidth Engine的串行SRAM存儲器,博通公司也提供了一系列串行接口TCAM方案。與之相對,三星和海力士半導體正在推廣高帶寬存儲器(HBM),這是一種基于TSV的堆棧式DRAM,采用超寬并行接口。該存儲器看起來似乎風險更低,因為它采用的是并行接口。
但是,目前HMC是從DDR3和DDR4奪取市場份額最有力的競爭者。HMC采用TSV技術,在邏輯層的頂部堆棧了4到8層互相連接的DRAM,以創建2G或4G的封裝。該邏輯層可提供一個便捷的接口。
如果需要更多存儲空間,您可以將多達8個器件以菊花鏈形式連接起來。這種1對4的鏈路能力(以半個鏈路為單位步進)能夠實現256位的存取和超大吞吐量。每個鏈路包括16個收發器(半個鏈路為8個),每個都能夠處理15 Gbps的數據。這種超大帶寬是之前的存儲器設計師所不曾體驗過的。
如需了解對DDR解決方案的帶寬技術改進,敬請參見表格1,該表格給出了三種設計,每一種 (DDR3/DDR4/HMC) 都被調整為支持60 Gbps的吞吐量。請注意,HMC解決方案中的引腳數量較原來至少減少8倍,極大地降低了電路板的復雜程度并簡化了布線(如圖5所示)。串并收發器鏈路的高帶寬允許采用更少的器件,本例中僅有一個器件。該單一器件和一個FPGA所占據的板極空間降為原來的1/20。最后,HMC解決方案每比特數據的能耗也降低了2/3。這些數據非常具有震撼性,讓觀察者們相信HMC能夠從DDR4中贏得一部分市場份額。
其它串行存儲器
由于HMC和“串行存儲器”經常被錯誤混用,有時候甚至用來代表任何一種新的高帶寬存儲器,因此探索一些其它新出現的存儲器件是非常有益處的。該類別的三大有力的競爭者為MoSys的Bandwidth Engine、博通公司的TCAM,以及三星、海力士半導體和Intel推廣的HBM。
MoSys的Bandwidth Engine(BE2)類似于串行SRAM,而非串行DRAM。它采用收發器實現16 Gbps的吞吐量。但是,BE2不太可能取代DDR。相反,它支持72位存取和更低延時,目標是針對QDR或RLDRAM。它可用于存儲數據包頭或查詢表,而不是像DDR一樣存儲數據包緩沖區。
TCAM為三態內容尋址存儲器。這種特殊的高速存儲器可以廣泛地搜索在高性能路由器和交換機中找到的模式匹配。與高性能相伴的是高費用、能耗和發熱。除了速度快之外,TCAM在本質上是并行的,它沒有使用串并收發器實現高速度。但是,博通公司正在推出該類存儲器的各種串行版本。
因此,TCAM解決方案仍具備串行存儲器所具備的引腳數少和速度高的優勢。
第三種類型的存儲器為HBM。不要被HMC和HBM之間偶爾發生的爭辯所迷惑。鮮為人知的是,HBM器件是買不到的。事實上,如果您想使用HBM,就必須從海力士半導體購買一個芯片,并且將該芯片安裝在您的封裝內部的插入器或硅基片上。插入器設計中必須包含從您的器件到存儲器的連接,才能實現這一高帶寬的并行存儲器。
這種類型的存儲器想要占領市場,企業就必須決定他們想要分享的商業機密相關內容,還必須同意采用該類存儲器的設計標準(插入器設計、高度、接口、公差等等)。這些細節可以解決,但目前尚未解決。另一方面,HBM的延時會很低。這是因為電子器件的遷移距離會非常小,因為它位于封裝內部。這個創意非常好,但需要未來的進一步檢驗。
進入生產階段
上述任何或全部解決方案的成功都能確保更多的供應商加入到為該行業服務的先行者隊伍當中。目前正在生產當中的解決方案是MoSys的BE2。HMC正在試樣,到年底將會全面投產。LPDDR4今年年中會開始試樣。HBM并不會作為獨立封裝提供,但有傳言說HBM可能串行并獨立封裝。如果您想要購買芯片并將HBM整合到您的封裝里,您可以聯系三星或海力士半導體或其他更小的廠商,很多客戶正在這么做。
目前,DDR3仍在銷售,表現強勁,而DDR4正處于增長和市場接受階段。DDR4也會有持久的生命力,很可能比現在倍受青睞的DDR3持續時間更長,因為它是高度成功的存儲器件的最后一代產品。LPDDR4最有可能填補該空缺,但不會在所有領域取代DDR4,除非有非常快速的讀/寫迭代。
否則,串行存儲器將成為最值得關注的新興技術。HMC正準備取代DDR,而Bandwidth Engine則是可以取代QDR和RLDRAM的串行解決方案。
賽靈思如何量身定制ULTRASCALE存儲器的性能
賽靈思UltraScale ? FPGA 專為存儲器所需的更高性能和更大的靈活性而設計。演示證明DDR4 運行速度可達2,400 Mbps。這一全球最快的速度得到Agilent 的證實,該公司在設計出了可插入在存儲器下方的插入器,并在系統運行時進行系統眼圖測量時獲得了這一速度。由于DDR4 采用了新型“偽開漏”(POD) I/O 結構,賽靈思也在UltraScale 中添加了POD。該結構與I/O 電壓需求為1.2V 的DDR4 協議相結合,能夠使存儲器接口I/O 系統比類似速度的DDR3 系統節約35%。
除了DDR3 和DDR4 之外,UltraScale 還支持大量其它的并行存儲器: LPDDR3、RLDRAM3、QDRII+ 和QDRIV。在串行存儲器領域中,UltraScale 可支持HMC 和MoSys 的Bandwidth Engine,該器件帶有多達120 個收發器,足以應對大多數應用。
此外,UltraScale 還進行了內部改進,以提升存儲器接口性能和FPGA I/O Bank 的利用率。為了提升利用率,賽靈思增加了每個Bank 的I/O 數量,每個I/O Bank 有兩個PLL。此外,還增加了更精確的5 皮秒抽頭時延功能。不僅如此,每個I/O Bank 還支持4 字節通道,每個通道有13 個引腳。賽靈思還為I/O 的預加重和均衡增加了電路。
這一代技術目前支持4 排DIMM 模塊和4 個器件,內存訪問深度增加了4 倍。物理層時延的改進讓數據訪問更加快速。大量的改進意味著存儲器架構將得到優化,以滿足您所在市場的性能要求。
UltraScale FPGA 支持所有主要的存儲器標準。帶有MIG IP 向導的Vivado? 設計套件讓部署更加快速,因此客戶能夠更加關注解決方案而非問題。
— Tamara I. Schmitz
評論
查看更多