吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

進行RTL代碼設計需要考慮時序收斂的問題

454398 ? 來源:AI加速 ? 作者:AI加速 ? 2020-11-20 15:51 ? 次閱讀

引言

硬件描述語言(verilog,systemVerilog,VHDL等)不同于軟件語言(C,C++等)的一點就是,代碼對應于硬件實現,不同的代碼風格影響硬件的實現效果。好的代碼風格能讓硬件“跑得更快”,而一個壞的代碼風格則給后續時序收斂造成很大負擔。你可能要花費很長時間去優化時序,保證時序收斂。拆解你的代碼,添加寄存器,修改走線,最后讓你原來的代碼“遍體鱗傷”。這一篇基于賽靈思的器件來介紹一下如何在開始碼代碼的時候就考慮時序收斂的問題,寫出一手良好的代碼。

1. Counter結構

計數器是在FPGA設計中經常要用到的結構,比如在AXI總線中對接收數據量的計算,用計數器來產生地址和last等信號。在計數器中需要用到進位鏈,進位鏈是影響時序的主要因素。如果進位鏈越長,那么組合邏輯的級數就越高,組合邏輯延遲越大,能夠支持的最大時鐘頻率就會越低。在一個CLB中通常會含有一個進位鏈結構,比如在ultrascale中是CARRY8,在zynq7系列中是CARRY4,CARRY4可以實現4bit進位。如果是一個48bit計數器就需要12個這樣的進位結構。一個CARRY4輸出有兩種CO和O,CO是進位bit,用于級聯到下一級的CARRY4的CI,O是結果輸出。因此我們可以看到在計數器中最下的進位結構是CARRY4,如果直接讓多個進位結構級聯,那么組合邏輯就會變大,時序延遲就會增大。如果可以將計數器拆分成小的計數器,那么時序就可以得到改善。


比如一個48bit計數器拆分成3個16bit計數器,那么CARRY4的級聯級別就從原來的12個降低到4個。每4個之間增加了FF來進行時序改善。

always @(posedge clk)begin
         if(rst)
                   cnt_o <= 0;
         else 
                   cnt_o <= cnt_o + 1;
end  

拆分后代碼為:

genvar i;
generate
for(i=0;i<3;i=i+1)begin: CNT_LOOP
         wire trigger_nxt, trigger_pre;

         if(i == 0)begin
                   always @(posedge clk)begin
                            if(rst)
                                     cnt_o[i*16 +: 16] <= 0;
                            else
                                     cnt_o[i*16 +: 16] <= cnt_o[i*16 +: 16] + 1;
                   end

                   assign trigger_nxt = (cnt_o[i*16 +: 16] == 16'hFFFF) ? 1 : 0;
         end//if
         else begin
                   assign trigger_pre = CNT_LOOP[i-1].trigger_nxt;

                   always @(posedge clk)begin
                            if(rst)
                                     cnt_o[i*16 +: 16] <= 0;
                            else if(trigger_pre)
                                     cnt_o[i*16 +: 16] <= cnt_o[i*16 +: 16] + 1;
                   end 

                   assign trigger_nxt =  CNT_LOOP[i-1].trigger_nxt && (cnt_o[i*16 +: 16] == 16'hFFFF);
         end//else
end//for
endgenerate

綜合后我們就可以看到它的schematic每4個CARRY4都被FF隔開了,可以降低邏輯延時。但是代價是增加了LUT的數量,這些LUT是用來判斷前一個16bit計數器的數值的,從而驅動后邊16bit寄存器計數。


2. 邏輯拆分

在上一節中拆解計數器本質上就是在拆分組合邏輯。當一個組合邏輯過大的時候,延時較大。將其拆解成兩個或者兩個以上邏輯,中間增加寄存器可以來提高能跑得時鐘頻率。比如下圖有一個較大的組合邏輯,前邊有一個FF,后邊連續接2個FF。組合邏輯的延時就成為了整體時鐘頻率的一個關鍵路徑。如果我們可以將其拆分成兩個,中間用一級寄存器連接,這樣總共的時鐘周期還是3個,但是時鐘頻率明顯會好于前一種。


3. 改善扇出

扇出是指某個信號驅動的信號的數量。驅動的信號越多,那么要求其產生的電流越大。學過數字電路就會知道,當一個信號輸出連接的越多的時候,其輸出負載就會越小,那么輸出電壓就會減小。所以如果信號扇出過大就會影響到高低電平,最終就會導致時序不收斂。另外一個原因是如果信號扇出過大,那么由于FPGA上走線路徑的差異,就可能造成這個信號到達不同地址的延遲不同,造成時序不同步。一種解決辦法是復制,將扇出較大的信號復制幾份,這樣就可以減小扇出。比如一個輸入d_i需要和3個數進行求和。那么這個信號扇出就是3.如果將其復制3份,給每個數輸送一份,那么扇出就變為1。

always @(posedge clk)begin
         data1_o <= data_i + data1_o;
         data2_o <= data_i + data2_o;
         data3_o <= data_i + data3_o;
end 


如果我們復制輸入數據,如下圖,從中可以看出輸入信號復制了三份,分別接給三個加法器。

(* keep = "true" *)reg data_rp1;
(* keep = "true" *)reg data_rp2;
(* keep = "true" *)reg data_rp3;   


always @(posedge clk)begin
         data_rp1 <= data_i;
         data_rp2 <= data_i;
         data_rp3 <= data_i;
         data1_o <= data_rp1 + data1_o;
         data2_o <= data_rp2 + data2_o;
         data3_o <= data_rp3 + data3_o;
end


4. URAM和BRAM使用

Xilinx器件中BRAM的大小是36Kbit,如果不使用校驗位,可以配置成1-32bit位寬的存儲。比如32x1K。在RTL代碼中使用存儲的時候,需要適配BRAM大小,這樣可以不浪費BRAM存儲空間。比如你需要使用一個FIFO,那么這個FIFO位寬32bit,那么它的深度512和1024配置,都消耗了一個BRAM。

BRAM輸出中最好用register,不要直接接組合邏輯,這樣會增加延時。BRAM中含有register,如果代碼中輸出有用到register,那么這個register在綜合時會被移到BRAM內部。如果BRAM外要連接組合邏輯,最好在BRAM的register的外部在添加一個register,這樣有更好的時序。


當我們需要的存儲空間和位寬都超過了一個BRAM的時候,就涉及到多個BRAM的級聯問題。如何選擇單個BRAM的位寬拼接和級聯BRAM的個數呢?比如我們要一個32bit位寬,深度為2**15大小的存儲。有兩種極限方式來配置BRAM。一種是將每個BRAM配置為1x32K,那么32個拼接組成32x32K的存儲。另外一種是將每個BRAM設置為32x1K,那么32個級聯形成32K深度。前一種不需要多余邏輯來對不同BRAM進行選擇操作,但是32個BRAM同時讀寫,這樣會增加power。而后一種32個BRAM級聯在一起造成延時路徑較長,同時需要增加組合邏輯來選擇不同BRAM。但是每次只讀寫一個BRAM,power較低。可以選擇這兩個極限的中間值來即降低power也不會有太長的邏輯延時。可以通過約束條件來進行設置。如下圖。級聯設置為4,這樣每次只有8個BRAM同時使能。

(* ram_style = "block", cascade_height = 4 *)
reg [31:0] mem[2**15-1:0];
reg [14:0] addr_reg;
always @(posedge clk)begin
         addr_reg <= addr;
         dout <= mem[addr_reg];
         if(we)
                   mem[addr_reg] <= din;
end


URAM的使用方式類似,只不過URAM存儲空間比BRAM大,其可以配置為72x64K大小。

5. 其它

1) 進行條件判定的時候,如果條件過多,盡量減少if-else語句的使用,盡可能用case替代。因為if-else是有優先級的,而case條件判斷的平等的。前者會用掉更多邏輯;

2) 在一個always塊中盡量對一個信號賦值,不要對具有不同判斷條件的信號同時賦值,這樣可以減少不必要的邏輯;

3) 盡量使用時鐘同步復位,不要使用異步復位。即要用:

always @(posedge clk)begin

If(rst)

End

而不是

always @(posedge clk or posedge rst)

4) 在使用乘法較多的時候,使用DSP原語是最好的。一個DSP除了有乘法功能外,還有前加法器和后加法器,這兩個是經常用到的,可以用來計算很多功能。DSP的具體使用可以參考DSP的手冊。

總結

以上總結了幾點在進行RTL代碼設計時,最需要考慮的幾種情況。這些對時序影響很大,需要注意。另外從整體來講,如何選擇一個好的算法,然后設計出一個簡潔的架構更加重要。因為這些是從整體讓你的設計有更多靈活的空間。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1630

    文章

    21798

    瀏覽量

    606058
  • 寄存器
    +關注

    關注

    31

    文章

    5363

    瀏覽量

    121198
  • RTL
    RTL
    +關注

    關注

    1

    文章

    385

    瀏覽量

    59954
  • AXI總線
    +關注

    關注

    0

    文章

    66

    瀏覽量

    14317
收藏 人收藏

    評論

    相關推薦

    ADS1675進行高速采集的程序,看時序圖應該會使用PLL進行3倍頻,但是這個PLL需要配置嗎?

    我現在寫ADS1675進行高速采集的程序,看時序圖應該會使用PLL進行3倍頻,但是這個PLL需要配置嗎?一直達不到我想要的結果。謝謝大哥們,幫幫小弟呀
    發表于 12-10 08:15

    選擇貼片電感型號時需要考慮什么參數?

    在選擇貼片電感型號時,需要綜合考慮多個參數以確保電感能夠滿足電路的需求并保證其可靠性。以下是一些關鍵參數及其考慮因素: 1. 電感值(Inductance, L) 定義:電感值是電感的標稱感值,反映
    的頭像 發表于 12-02 15:29 ?218次閱讀
    選擇貼片電感型號時<b class='flag-5'>需要</b><b class='flag-5'>考慮</b>什么參數?

    如何創建虛擬時鐘

    通常RTL設計要求對芯片/module的輸入信號進行reg_in打拍處理,對芯片/module的輸出也要求做reg_out打拍處理,這是良好的代碼習慣,為時序
    的頭像 發表于 10-23 09:40 ?317次閱讀
    如何創建虛擬時鐘

    使用IBIS模型進行時序分析

    電子發燒友網站提供《使用IBIS模型進行時序分析.pdf》資料免費下載
    發表于 10-21 10:00 ?0次下載
    使用IBIS模型<b class='flag-5'>進行時序</b>分析

    高速ADC與FPGA的LVDS數據接口中避免時序誤差的設計考慮

    電子發燒友網站提供《高速ADC與FPGA的LVDS數據接口中避免時序誤差的設計考慮.pdf》資料免費下載
    發表于 10-15 09:50 ?6次下載
    高速ADC與FPGA的LVDS數據接口中避免<b class='flag-5'>時序</b>誤差的設計<b class='flag-5'>考慮</b>

    使用MXO58示波器輕松進行電源時序分析

    當今復雜的電路必須集成多個在不同功率等級下運行的組件。要確保這些組件的互操作性,電路需要精心設計,具備干凈且穩定的電源分配網絡來進行電源時序管理。在較低的電壓水平下,容差以百分比表示,這可能會給精確
    的頭像 發表于 10-13 08:07 ?345次閱讀
    使用MXO58示波器輕松<b class='flag-5'>進行</b>電源<b class='flag-5'>時序</b>分析

    優化 FPGA HLS 設計

    RTL代碼進行任何更改即可實現的。 更高水平的性能 要達到更高的性能水平,需要在所有方面進行優化——架構設計、
    發表于 08-16 19:56

    聚徽觸控-選擇工控機需要考慮的問題都有哪些

    選擇工控機時,需要考慮的問題主要有以下幾個方面:
    的頭像 發表于 07-26 10:11 ?259次閱讀

    FPGA的學習筆記---FPGA的開發流程

    吧。 1、設計初期,要考慮的是需要多少邏輯資源、IO口、信號電平、功耗,如何劃分模塊等。 2、確定了1中的需求后,就要根據原理圖,進行底層的設計輸入工作。整個設計工作,需要開發工具以及
    發表于 06-23 14:47

    FPGA 高級設計:時序分析和收斂

    今天給大俠帶來FPGA 高級設計:時序分析和收斂,話不多說,上貨。 這里超鏈接一篇之前的STA的文章,僅供各位大俠參考。 FPGA STA(靜態時序分析) 什么是靜態時序分析?靜
    發表于 06-17 17:07

    PCB電源設計需要考慮的九大因素!

    PCB電源設計是一個復雜的過程,需要考慮的因素很多。一、在選擇電源拓撲結構時,需要全面考慮輸入電壓范圍、輸出電壓、功率水平、效率要求、紋波指標、成本預算等多方面因素。以Buck電路為例
    的頭像 發表于 06-17 12:00 ?1044次閱讀
    PCB電源設計<b class='flag-5'>需要</b><b class='flag-5'>考慮</b>的九大因素!

    基于樹莓派5的RTL仿真體驗

    ,將以 verilog 編寫的源代碼編譯為某種目標格式。如果要進行仿真的話,它可以生成一個叫做 vvp 的中間格式。這個格式可以由其所附帶的 vvp 命令執行。 1.2GTKwave GTKwave
    發表于 04-30 17:35

    求大佬幫忙解答使用tl494設計的開關型電源設計輸出結果不收斂的問題

    放大器輸入。使用14腳的內部輸出電源進行基準電壓設計,將其設計為可調來實現輸出可調。 設計過程中遇到的問題是輸出不收斂,從最開始的0v跳變到9v左右然后就一直緩慢增長,仿真多次都沒有成功收斂。我期望
    發表于 04-19 16:38

    一文解讀PSpice中的收斂性問題及其相關因素

    收斂性問題及其與之相關因素,希望對各位有所幫助,文章如有未詳盡表述清楚的地方,請指正。在PSpice中進行電路仿真時,常會遇到仿真不收斂的問題(簡稱收斂性問題)。當
    的頭像 發表于 04-13 08:12 ?2181次閱讀
    一文解讀PSpice中的<b class='flag-5'>收斂</b>性問題及其相關因素

    為什么對FPGA軟件進行測評?

    FPGA軟件包含進行設計而產生的程序、文檔和數據,同時包含與之相關的軟件特性和硬件特性。FPGA軟件測試需要考慮軟件代碼正確性、軟硬件接口協調性、
    發表于 03-06 11:39 ?818次閱讀
    百家乐官网娱乐城官方网| 百家乐赌博机假在哪里| 澳门百家乐官网自杀| 百家乐机器图片| 澳门1百家乐网| 百家乐最低压多少| 新百家乐官网的玩法技巧和规则| 网上娱乐| 大西洋百家乐的玩法技巧和规则| 澳门百家乐破解方法| 百家乐视频软件下载| 缅甸百家乐官网网络赌博解谜| 百家乐官网视频地主| 众发娱乐城| 香港六合彩白小姐图库| 百家乐21点桌| 总统百家乐的玩法技巧和规则| 职业赌百家乐技巧| 百家乐官网园试玩| 伟博百家乐官网娱乐城| 百家乐官网平玩法这样| 赌场百家乐官网实战| 金樽百家乐官网的玩法技巧和规则 | 百家乐是怎样算牌| 真人百家乐官网分析软件是骗局 | 大发888棋牌乐城下载| 利高国际网上娱乐| 百家乐官网投注很不错| 玩百家乐官网的好处| 罗盘24山度数| 凯斯百家乐的玩法技巧和规则 | 百家乐有真假宝单吗| 百家乐任你博娱乐场| 百家乐l路单| 六合彩网站| 百家乐官网设备电子路| 百家乐官网麻将牌| 新世百家乐的玩法技巧和规则| 德州扑克概率计算器| 百家乐官网真人娱乐场| 澳门百家乐大家乐眼|