吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA TensorRT 8 BERT在1.2毫秒內(nèi)進行推斷

星星科技指導員 ? 來源:NVIDIA ? 作者:About Jay Rodge ? 2022-03-31 17:05 ? 次閱讀

NVIDIA 發(fā)布的TensorRT 8.0 ,通過新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓練,并通過支持稀疏性,這是引進安培 GPU 的顯著更高的性能。

TensorRT 是一個用于高性能深度學習推理的 SDK ,包括推理優(yōu)化器和運行時,提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務、金融服務、能源等行業(yè),下載量近 250 萬次。

有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型,將推理時間減少到 TensorRT 7 的一半。

此版本的亮點包括:

BERT 在 1.2 毫秒內(nèi)進行推斷,并進行了新的 transformer 優(yōu)化

使用量化感知訓練,以 INT8 精度實現(xiàn)與 FP32 相當?shù)臏蚀_性

引入稀疏性支持對安培 GPU 的快速推理

關(guān)于作者

About Jay Rodge

Jay Rodge 是 NVIDIA 的產(chǎn)品營銷經(jīng)理,負責深入學習和推理產(chǎn)品,推動產(chǎn)品發(fā)布和產(chǎn)品營銷計劃。杰伊在芝加哥伊利諾伊理工學院獲得計算機科學碩士學位,主攻計算機視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團的人工智能研究實習生,為寶馬最大的制造廠使用計算機視覺解決問題。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5076

    瀏覽量

    103728
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4777

    瀏覽量

    129360
收藏 人收藏

    評論

    相關(guān)推薦

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?260次閱讀
    <b class='flag-5'>在</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優(yōu)化大語言模型 (LLM) 推理而設計的庫。它提供了多種先進的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?278次閱讀

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?339次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

    java小知識-納

    ()對比 System.currentTimeMillis()我們經(jīng)常使用,可以參考對比一下 看方法意思,一個是納,一個是毫秒,二者有關(guān)系嗎? 先看看單位換算:一=1000毫秒 1
    的頭像 發(fā)表于 11-26 11:11 ?224次閱讀

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA
    的頭像 發(fā)表于 11-19 14:29 ?447次閱讀
    <b class='flag-5'>TensorRT</b>-LLM低精度推理優(yōu)化

    AIC3254可以把mic采集到的音頻相位調(diào)整180度再延時1毫秒輸出給揚聲器?

    把mic采集到的音頻相位調(diào)整180度再延時1毫秒輸出給揚聲器,用AIC3254可以實現(xiàn)嗎?
    發(fā)表于 10-11 08:14

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應用部署,提高了大模型產(chǎn)業(yè)應用效率,更大規(guī)模地釋放大模型的應用價值。”
    的頭像 發(fā)表于 08-23 15:48 ?515次閱讀

    請問ESP8266射頻校準期間會發(fā)射嗎?

    當ESP8266啟動時,它會運行射頻校準,該校準會在幾百毫秒內(nèi)產(chǎn)生高電流峰值。 在這些電流尖峰期間,設備是否從其天線輻射任何東西?
    發(fā)表于 07-19 06:37

    如何設置rts frame的duration?

    我有一個系統(tǒng)一個ap和數(shù)個sta. STA每隔8毫秒發(fā)個udp包。可以通過wireshark抓包發(fā)現(xiàn),每個sta都會先發(fā)一個rts包,其中duration為156毫秒。這樣其他sta和ap
    發(fā)表于 06-24 06:48

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個開源庫,用于優(yōu)化從 PC 到云端的
    的頭像 發(fā)表于 04-28 10:36 ?637次閱讀

    利用NVIDIA Holoscan 1.0開發(fā)生產(chǎn)就緒型AI傳感器處理應用

    邊緣 AI 開發(fā)者正在構(gòu)建用于安全關(guān)鍵型和受監(jiān)管用例的 AI 應用和產(chǎn)品。借助 NVIDIA Holoscan 1.0,這些應用可在幾毫秒內(nèi)整合實時洞察和加工處理。
    的頭像 發(fā)表于 04-25 09:58 ?518次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結(jié)合 NVIDIA TensorRTNVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡和熱
    的頭像 發(fā)表于 04-20 09:39 ?823次閱讀

    NVIDIA生成式AI研究實現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成式 AI 模型)實現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?554次閱讀
    <b class='flag-5'>NVIDIA</b>生成式AI研究實現(xiàn)在1<b class='flag-5'>秒內(nèi)</b>生成3D形狀

    關(guān)于STM32C8T6 DMA數(shù)據(jù)讀取的疑問求解決

    1.使用STM32F103C8T6的時候,使用的是串口通訊,波特率9600,在讀取數(shù)據(jù)的時候使用的是DMA數(shù)據(jù)讀取加串口空閑中斷的方式,使用MAX485接口的芯片,每隔200毫秒發(fā)送一次數(shù)據(jù),
    發(fā)表于 03-27 07:50

    STM32H750VBT6無法使用flymcu.exe或flashloader通過串口1燒寫程序,怎么解決?

    串口COM55連接成功@115200bps,耗時922毫秒 芯片內(nèi)BootLoader版本號:3.1 芯片PID:00000450 芯片已設置讀保護 芯片有讀保護,請先擦除器件以清除讀保護 開始
    發(fā)表于 03-15 06:07
    皇冠网络刷qb软件| 横峰县| 百家乐官网投注办法| 网上百家乐官网大赢家筹码| 百家乐下注平台| 威尼斯人娱乐城活动| 博E百娱乐城| 百家乐官网连长| 百家乐真人游戏网上投注| 大发888完整客户端| 大玩家百家乐官网游戏| 博必发百家乐官网的玩法技巧和规则 | 百家乐官网在线娱乐网| 百家乐破解| 皇冠足球比分网| 百家乐官网海滨网现场| 百家乐vshow| 佳木斯市| 游戏厅百家乐技巧| 大庆冠通棋牌下载| 百家乐官网澳门赌| 乐中百家乐的玩法技巧和规则| 上高县| 属兔魔羯女在哪个方位做生意| 大发888娱乐城 34| 百家乐官网是否能赢| 金百家乐的玩法技巧和规则| 打百家乐官网的介绍| 百家乐赌缆十三式| 澳门金沙官网| 百家乐官网具体怎么收费的| 大发888娱乐场下载 zhldu| 波音百家乐官网网上娱乐| 百家乐网络游戏平台| 什邡市| 百家乐长龙太阳城| 威尼斯人娱乐场图片| 澳门百家乐官网信誉| 免费百家乐计划软件| 百家乐官网输钱的原因| 布加迪百家乐的玩法技巧和规则|