NVIDIA 發(fā)布的TensorRT 8.0 ,通過新的優(yōu)化將 BERT 的大推理延遲降低到 1.2 毫秒。該版本還提供了 2 倍的精度為 INT8 精度與量化意識的訓練,并通過支持稀疏性,這是引進安培 GPU 的顯著更高的性能。
TensorRT 是一個用于高性能深度學習推理的 SDK ,包括推理優(yōu)化器和運行時,提供低延遲和高吞吐量。 TensorRT 用于醫(yī)療、汽車、制造、互聯(lián)網(wǎng)/電信服務、金融服務、能源等行業(yè),下載量近 250 萬次。
有幾種新的基于 transformer 模型被用于會話人工智能。 TensorRT 中的新的廣義優(yōu)化可以加速所有這些模型,將推理時間減少到 TensorRT 7 的一半。
此版本的亮點包括:
BERT 在 1.2 毫秒內(nèi)進行推斷,并進行了新的 transformer 優(yōu)化
使用量化感知訓練,以 INT8 精度實現(xiàn)與 FP32 相當?shù)臏蚀_性
引入稀疏性支持對安培 GPU 的快速推理
關(guān)于作者
About Jay Rodge
Jay Rodge 是 NVIDIA 的產(chǎn)品營銷經(jīng)理,負責深入學習和推理產(chǎn)品,推動產(chǎn)品發(fā)布和產(chǎn)品營銷計劃。杰伊在芝加哥伊利諾伊理工學院獲得計算機科學碩士學位,主攻計算機視覺和自然語言處理。在 NVIDIA 之前,杰伊是寶馬集團的人工智能研究實習生,為寶馬最大的制造廠使用計算機視覺解決問題。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5076瀏覽量
103728 -
gpu
+關(guān)注
關(guān)注
28文章
4777瀏覽量
129360
發(fā)布評論請先 登錄
相關(guān)推薦
評論