吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于STM32浮點運算單元FPU的應用示例

茶話MCU ? 來源:ST MCU 信息交流 ? 作者:ST MCU 信息交流 ? 2021-01-02 18:09 ? 次閱讀

有人利用STM32芯片做些DSP處理,在啟用FPU單元進行調試、驗證過程中可能會遇到些小問題、小困惑,這里通過STM32F4芯片一個具體的應用示例簡單分享下,希望順便能給同仁提供些幫助或提醒。

我這里通過調用DSP庫里的FFT相關函數實現1024點的FFT運算,樣點數據及運算結果均為浮點數。

cf4aaab0-445e-11eb-8b86-12bb97331649.png

上圖中A區代碼是做樣點數據準備,B區代碼完成FFT運算。我們來一起看看基本的配置以及不啟用硬件浮點單元和啟用硬件浮點單元執行B區代碼的時間上的差別。

程序里要調用一些數學函數,而這些數學函數往往集成在相應的數學函數庫里。我們選用ARM公司的DSP數學庫,該庫系專門針對AMR核芯片及指令系統而組織的代碼,相比IDE自帶的通用數學函數庫會更優化、高效。

目前該DSP數學庫包括基本數學函數、復數數學函數、濾波函數、矩陣函數等幾大塊,詳細內容可以去ARM網站閱讀比較方便。【可點擊左下方原文鏈接前往】

cfc025ce-445e-11eb-8b86-12bb97331649.png

我們開發時,這些文件具體在哪里呢?在各個編譯環境的安裝目錄下都不難找到。不妨看看ARM keil MDK環境下它們所在位置。

d00fcdb8-445e-11eb-8b86-12bb97331649.png

上面我們看到的是DSP庫源文件所在目錄,在另一個目錄存放著基于不同內核、不同存儲端格式以及是否支持硬件浮點單元而編譯出來的庫文件。我們在開發時,直接添加合適的庫文件進工程即可,不必逐個查找源文件來添加。下圖就是可以用于ARM MDK環境的庫文件。【對于不同IDE,庫文件名后綴略有差異】

d0591e1e-445e-11eb-8b86-12bb97331649.png

這里以用于M4內核的DSP數學函數庫稍作解釋,詳見下面表格。

d0c45cc4-445e-11eb-8b86-12bb97331649.png

從上表可以看出,基于Cortex M4內核芯片進行DSP運算可以能用到的庫有四個,但具體到STM32 基于M4內核的芯片可以選用的只有兩個,即xxxM4l_math.lib或xxxM4lf_math.lib,因為STM32芯片的存儲設計都是小端模式。所謂小端模式,簡單點說就是指多字節數據在內存中存儲時,按照低位字節對應地址低位來存放,反之則為大端模式。

在上面截圖中,我還截取了對應M0內核可用的DSP數學庫,它為什么只有兩個?這是因為M0內核沒有FPU硬件單元,不存在FPU是否啟用的可選情況。

現在就利用STM32F429開發板,基于開篇的截圖代碼進行測試,并用定時器測量下面執行代碼在不使用FPU和使用FPU分別所花費的時間,并計算二者的時間比。【注:STM32F429芯片自身是帶硬件FPU的】

d10e74ee-445e-11eb-8b86-12bb97331649.png

必要的配置和文件包含及添加,如下表所示:

d149fb18-445e-11eb-8b86-12bb97331649.png

基于上面條件執行FFT運算代碼,不使用FPU和使用FPU的時間比為16。

采用相似的條件,基于IAR環境對相同功能代碼段進行測試,不使用FPU和使用FPU的時間比為11。

關于這個時間比,除了跟是否使用微庫、優化等級、浮點精度等有關外,跟你所選取的測試代碼也有很大關系,因為有些代碼只能靠CPU執行的話,開不開FPU硬件單元對這部分時間是沒有影響的。不難理解,被測試代碼里只能靠CPU運行的代碼占比越多,上面的這個比值就會越小。一般來說,我們不必太過糾結這個值的大小,知道有這個硬件浮點單元,既減輕了CPU負荷,又可以提升計算速度就好。

另外,我們在做DSP相關應用時,注意添加的DSP庫既要跟所用芯片匹配,還要跟IDE里的配置匹配。還是以上面測試代碼為例,本意是想啟用FPU,結果添加的DSP庫卻是基于不使用FPU硬件的數學庫,那會怎么樣呢?

d199418c-445e-11eb-8b86-12bb97331649.png

本應該添加arm_cortexM4lf_math.h的,結果弄錯了。如果按照上面條件構建ARM MDK工程,一路編譯下來沒有任何警告或錯誤提示。程序也能流暢運行,FFT運算結果似乎也出來了。

d1fd51ae-445e-11eb-8b86-12bb97331649.png

但仔細查看結果,跟之前正確配置的運行結果明顯不一樣。經驗證核對,這次運算結果是錯的。為此我特意添加一行計算90°的正弦值代碼,它算出來結果竟然是1.5!逆天了。

d236a81e-445e-11eb-8b86-12bb97331649.png

如果說在不知情的情況下這一路下來,估計要被摧殘一頓了。畢竟很多數學函數結果常人是無法一眼能看出對錯的,即使看出錯了若沒未及時想到庫問題的話,恐怕還得折騰折騰。

針對這種情形,基于同樣代碼于IAR環境下測試,情況相比ARM MDK貌似要好點。至少編譯時有警告提示,提示引用沖突之類的。計算結果沒有MDK的那么具有隱蔽性【至少對于本次測試是這樣】,基本是清一色的0,頗有沖擊效果!當然,此時讓它計算90°的正弦值結果也是明顯錯的。

d2617c24-445e-11eb-8b86-12bb97331649.png

感覺上,這種情形下,使用IAR時挖的坑似乎稍微淺些,更容易讓人警醒懷疑哪里出問題了。

好,就分享到這里,祝君好運!

原文標題:關于STM32浮點運算單元FPU的小話題

文章出處:【微信公眾號:ST MCU 信息交流】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    456

    文章

    51192

    瀏覽量

    427343
  • STM32
    +關注

    關注

    2272

    文章

    10924

    瀏覽量

    357608
  • FPU
    FPU
    +關注

    關注

    0

    文章

    42

    瀏覽量

    21375

原文標題:關于STM32浮點運算單元FPU的小話題

文章出處:【微信號:stmcu832,微信公眾號:茶話MCU】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    4G模組Air780E的LuatOS開發之位運算(bit)示例

    本文我要說的是低功耗4G模組Air780E的LuatOS開發,關于運算(bit)示例,我將詳細解析分享給大家。
    的頭像 發表于 12-02 14:33 ?228次閱讀
    4G模組Air780E的LuatOS開發之位<b class='flag-5'>運算</b>(bit)<b class='flag-5'>示例</b>

    FPGA中的浮點四則運算是什么

    由于定點的四則運算比較簡單,如加減法只要注意符號擴展,小數點對齊等問題即可。在本文中,運用在前一節中描述的自定義浮點格式FPGA中數的表示方法(下),完成浮點四則運算的實現過程 1.自
    的頭像 發表于 11-16 12:51 ?382次閱讀
    FPGA中的<b class='flag-5'>浮點</b>四則<b class='flag-5'>運算</b>是什么

    FPGA中浮點四則運算的實現過程

    由于定點的四則運算比較簡單,如加減法只要注意符號擴展,小數點對齊等問題即可。在本文中,運用在前一節中描述的自定義浮點格式FPGA中數的表示方法(下),完成浮點四則運算的實現過程 1.自
    的頭像 發表于 11-16 11:19 ?615次閱讀
    FPGA中<b class='flag-5'>浮點</b>四則<b class='flag-5'>運算</b>的實現過程

    【RA-Eco-RA2E1-48PIN-V1.0開發板試用】在M23內核上使用qfplib浮點運算庫進行浮點運算

    瑞薩的RA2E1系列MCU是基于M23內核的,這款芯片是不帶FPU浮點運算單元的,使用串口prinf函數打印時是無法打印出浮點數的,只有Co
    發表于 11-05 22:07

    如何提高單片機的運算效率之FPU

    只要STM32或者其他32位單片機,自帶FPU功能,就可以加速float類型數據的加減乘除運算。在STM32中要啟用FPU,需要啟動滿足兩個
    的頭像 發表于 08-30 11:47 ?778次閱讀
    如何提高單片機的<b class='flag-5'>運算</b>效率之<b class='flag-5'>FPU</b>

    請問AURIX TC3xx tricore架構下浮點運算和將浮點數小數點去掉變成整數來計算哪種方式更加節省算力?

    ? tricore架構下CPU有專門的FPU來處理浮點運算,是否意味著用12.89參與運算,在調用FPU來計算的情況下,計算時間不會比12
    發表于 08-26 06:54

    如何關閉ESP32-S3中的FPU浮點數計算單元

    如何關閉ESP32-S3中的FPU浮點數計算單元。如題,之前的項目在esp32s2 上面運行良好,但是移植到esp32s3上后由于fpu造成浮點
    發表于 06-27 07:32

    請問esp32 wroom 32u默認開啟硬件浮點運算單元了嗎?

    請問esp32 wroom 32u 默認開啟硬件浮點運算單元了嗎?感謝
    發表于 06-21 11:08

    STM32的HAL庫如何開啟FPU?

    求:STM32的HAL庫如何開啟FPU?
    發表于 05-16 07:26

    優秀的Verilog/FPGA開源項目-浮點運算器(FPU)介紹

    浮點運算器(英文:floating point unit,簡稱FPU)是計算機系統的一部分,它是專門用來進行浮點運算的(CPU中也叫ALU
    的頭像 發表于 04-26 11:27 ?3873次閱讀
    優秀的Verilog/FPGA開源項目-<b class='flag-5'>浮點</b><b class='flag-5'>運算</b>器(<b class='flag-5'>FPU</b>)介紹

    verilog語音實現浮點運算

    Verilog可以通過使用IEEE標準的浮點數表示來實現浮點運算。下面是一個基本的Verilog模塊示例,展示了如何進行加法、乘法和除法等常見的浮點
    發表于 03-25 21:49

    關于STM32 DMAMUX模塊具體的應用示例代碼

    有人通過公眾號微信留言,詢問是否有關于STM32 DMAMUX模塊具體的應用示例代碼。同時,個人也發現,雖然STM32片內的DMAMUX不是什么新模塊,似乎還是很多人并不太熟悉。這里借
    的頭像 發表于 03-25 09:15 ?2575次閱讀
    <b class='flag-5'>關于</b><b class='flag-5'>STM32</b> DMAMUX模塊具體的應用<b class='flag-5'>示例</b>代碼

    CKS32F4xx系列I2S功能介紹

    CKS32F4xx系列使用高性能的32位內核,支持浮點運算單元FPU),同時還支持DSP指令以及存儲保護(MPU)用來加強應用的安全性。
    的頭像 發表于 03-17 09:40 ?1321次閱讀
    CKS32F4xx系列I2S功能介紹

    STSPIN32F0支持硬件浮點運算嗎?

    STSPIN32F0 支不支持硬件浮點運算
    發表于 03-13 06:32

    CKS32F4xx系列DSP功能介紹

    CKS32F4xx系列使用高性能的32位內核,支持浮點運算單元FPU),同時還支持DSP指令以及存儲保護(MPU)用來加強應用的安全性。
    的頭像 發表于 03-04 13:43 ?1631次閱讀
    CKS32F4xx系列DSP功能介紹
    斗地主百家乐的玩法技巧和规则| 百家乐tt娱乐城| 百家乐真人博彩的玩法技巧和规则 | 金盈娱乐| 英皇百家乐官网的玩法技巧和规则| 百家乐5式直缆投注法| 卡卡湾网上娱乐| 百家乐官网五铺的缆是什么意思| 全讯网sp| 百家乐官网园棋牌| 澳门百家乐真人版| 大发888资讯网| 真人百家乐官网源代码| 唐人街百家乐的玩法技巧和规则| 房产| 百家乐技巧大全| 在线棋牌| 百家乐怎么打啊| bet365指数| 星期八百家乐官网的玩法技巧和规则 | 百家乐官网最好的投注法| 澳门百家乐真人斗地主| 新乐界娱乐城| 至尊百家乐下载| 许昌市| 百家乐在线投注网| 百家乐官网赢钱秘密| 百家乐三路法| 澳门百家乐官网如何算牌| 基础百家乐的玩法技巧和规则| 百家乐官网永利娱乐城| 试玩区百家乐1000| 百家乐官网小音箱| 老虎机破解方法| 月亮城百家乐官网的玩法技巧和规则 | 玩百家乐官网有几种公式| 大发888yulecheng| 风水24向| 百家乐官网历史路单| 赌场百家乐实战| 网上百家乐官网哪家较安全|