完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒內(nèi)進行推斷

NVIDIA 發(fā)布的TensorRT 8.0 ，通過新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓練，并通過支持稀疏性，這是引進安培 GPU 的顯著更高的性能。

TensorRT 是一個用于高性能深度學習推理的 SDK ，包括推理優(yōu)化器和運行時，提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務、金融服務、能源等行業(yè)，下載量近 250 萬次。

有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型，將推理時間減少到 TensorRT 7 的一半。

此版本的亮點包括：

BERT 在 1.2 毫秒內(nèi)進行推斷，并進行了新的 transformer 優(yōu)化

使用量化感知訓練，以 INT8 精度實現(xiàn)與 FP32 相當?shù)臏蚀_性

引入稀疏性支持對安培 GPU 的快速推理

關(guān)于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產(chǎn)品營銷經(jīng)理，負責深入學習和推理產(chǎn)品，推動產(chǎn)品發(fā)布和產(chǎn)品營銷計劃。杰伊在芝加哥伊利諾伊理工學院獲得計算機科學碩士學位，主攻計算機視覺和自然語言處理。在 NVIDIA 之前，杰伊是寶馬集團的人工智能研究實習生，為寶馬最大的制造廠使用計算機視覺解決問題。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5076

瀏覽量
103728
gpu

gpu

+關(guān)注

關(guān)注
28

文章
4777

瀏覽量
129360

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測解碼技術(shù)，該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。

發(fā)表于 12-25 17:31 ?260次閱讀

<b class='flag-5'>在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM 是一個專為優(yōu)化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優(yōu)化技術(shù)，包括自定義 Attention Kernel、Inflight

發(fā)表于 12-17 17:47 ?278次閱讀

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布！

發(fā)表于 11-28 10:43 ?339次閱讀

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

java小知識-納秒

()對比 System.currentTimeMillis()我們經(jīng)常使用，可以參考對比一下看方法意思，一個是納秒，一個是毫秒，二者有關(guān)系嗎? 先看看單位換算：一秒=1000毫秒 1

發(fā)表于 11-26 11:11 ?224次閱讀

TensorRT-LLM低精度推理優(yōu)化

本文將分享 TensorRT-LLM 中低精度量化內(nèi)容，并從精度和速度角度對比 FP8 與 INT8。首先介紹性能，包括速度和精度。其次，介紹量化工具 NVIDIA

發(fā)表于 11-19 14:29 ?447次閱讀

<b class='flag-5'>TensorRT</b>-LLM低精度推理優(yōu)化

AIC3254可以把mic采集到的音頻相位調(diào)整180度再延時1毫秒輸出給揚聲器？

把mic采集到的音頻相位調(diào)整180度再延時1毫秒輸出給揚聲器，用AIC3254可以實現(xiàn)嗎？

發(fā)表于 10-11 08:14

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社區(qū)是中國最具影響力的模型開源社區(qū)，致力給開發(fā)者提供模型即服務的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM，大大提高了大語言模型的推理性能，方便了模型應用部署，提高了大模型產(chǎn)業(yè)應用效率，更大規(guī)模地釋放大模型的應用價值。”

發(fā)表于 08-23 15:48 ?515次閱讀

請問ESP8266在射頻校準期間會發(fā)射嗎？

當ESP8266啟動時，它會運行射頻校準，該校準會在幾百毫秒內(nèi)產(chǎn)生高電流峰值。在這些電流尖峰期間，設備是否從其天線輻射任何東西？

發(fā)表于 07-19 06:37

如何設置rts frame的duration?

我有一個系統(tǒng)一個ap和數(shù)個sta. STA每隔8毫秒發(fā)個udp包。可以通過wireshark抓包發(fā)現(xiàn)，每個sta都會先發(fā)一個rts包，其中duration為156毫秒。這樣其他sta和ap在

發(fā)表于 06-24 06:48

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫，用于優(yōu)化從 PC 到云端的

發(fā)表于 04-28 10:36 ?637次閱讀

利用NVIDIA Holoscan 1.0開發(fā)生產(chǎn)就緒型AI傳感器處理應用

邊緣 AI 開發(fā)者正在構(gòu)建用于安全關(guān)鍵型和受監(jiān)管用例的 AI 應用和產(chǎn)品。借助 NVIDIA Holoscan 1.0，這些應用可在幾毫秒內(nèi)整合實時洞察和加工處理。

發(fā)表于 04-25 09:58 ?518次閱讀

利用NVIDIA組件提升GPU推理的吞吐

本實踐中，唯品會 AI 平臺與 NVIDIA 團隊合作，結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）將推理的稠密網(wǎng)絡和熱

發(fā)表于 04-20 09:39 ?823次閱讀

NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

NVIDIA 研究人員使 LATTE3D （一款最新文本轉(zhuǎn) 3D 生成式 AI 模型）實現(xiàn)雙倍加速。

發(fā)表于 03-27 10:28 ?554次閱讀

關(guān)于STM32C8T6 DMA數(shù)據(jù)讀取的疑問求解決

1.在使用STM32F103C8T6的時候，使用的是串口通訊，波特率9600，在讀取數(shù)據(jù)的時候使用的是DMA數(shù)據(jù)讀取加串口空閑中斷的方式，使用MAX485接口的芯片，每隔200毫秒發(fā)送一次數(shù)據(jù)，

發(fā)表于 03-27 07:50

STM32H750VBT6無法使用flymcu.exe或flashloader通過串口1燒寫程序，怎么解決？

在串口COM55連接成功@115200bps，耗時922毫秒芯片內(nèi)BootLoader版本號：3.1 芯片PID：00000450 芯片已設置讀保護芯片有讀保護，請先擦除器件以清除讀保護開始

發(fā)表于 03-15 06:07

星星科技指導員
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關(guān)注個人主頁

Hot 使用microchip參考設計開發(fā)您的下一個基于USB-C PD的充電器
Hot 所有IC中半導體噪聲的特性如何估算基準電壓源的噪聲

New 微電網(wǎng)系統(tǒng)控制方法和原理
New 飛輪儲能系統(tǒng)的核心及優(yōu)勢分析

精選推薦
更多

文章

資料

帖子

【干貨】基于儲能變流器測試方法與技術(shù)的綜述

吹田電氣SUITA
5小時前

75 閱讀

信創(chuàng)算力關(guān)鍵年的三個趨勢與最佳選擇

腦極體
4小時前

176 閱讀

康謀方案 | BEV感知技術(shù)：多相機數(shù)據(jù)采集與高精度時間同步方案

康謀自動駕駛
5小時前

242 閱讀

華為2024年營收超8600億！DeepSeek擴充朋友圈/英飛凌2025財年第一季度業(yè)績熱點科技新聞點評

章鷹觀察
7小時前

887 閱讀

如何使用MATLAB構(gòu)建Transformer模型

MATLAB
9小時前

234 閱讀

GSM網(wǎng)絡小區(qū)參數(shù)ISSUE

liuxin
1.31 MB

免費

53下載

TSW6011EVM快速啟動指南

stormcol
922 KB

1積分

0下載

LDO穩(wěn)壓器詳解（二）－選型指標

愛與友人
246.08KB

5積分

30下載

docker-ceph在Docker容器中安裝Ceph

賈小龍
0.00 MB

2積分

2下載

YYText iOS文本框架

小芳
16.86 MB

2積分

1下載

在fpga上實現(xiàn)NAND控制器的問題請教

jf_39870250
19小時前

104 閱讀

【ELF 2學習板試用】命令行功能測試-shell腳本進行IO控制-紅綠燈項目

lustao
19小時前

217 閱讀

迅為RK3568開發(fā)板篇OpenHarmony實操HDF驅(qū)動控制LED-編寫應用APP

jf_23361246
19小時前

203 閱讀

CS8M320燒錄不進

jf_71751014
19小時前

156 閱讀

【貝啟科技BQ3568HM開源鴻蒙開發(fā)板深度試用報告】3 - 智能家居中控屏連接華為云IoTDA物聯(lián)網(wǎng)平臺

zealsoft
19小時前

236 閱讀

推薦專欄
更多

吴忠躺衫网络科技有限公司

搜索歷史

NVIDIA TensorRT 8 BERT在1.2毫秒內(nèi)進行推斷

評論

在NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

解鎖NVIDIA TensorRT-LLM的卓越性能

NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

java小知識-納秒

TensorRT-LLM低精度推理優(yōu)化

AIC3254可以把mic采集到的音頻相位調(diào)整180度再延時1毫秒輸出給揚聲器？

魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

請問ESP8266在射頻校準期間會發(fā)射嗎？

如何設置rts frame的duration?

NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

利用NVIDIA Holoscan 1.0開發(fā)生產(chǎn)就緒型AI傳感器處理應用

利用NVIDIA組件提升GPU推理的吞吐

NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

關(guān)于STM32C8T6 DMA數(shù)據(jù)讀取的疑問求解決

STM32H750VBT6無法使用flymcu.exe或flashloader通過串口1燒寫程序，怎么解決？