吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA開源模型實現(xiàn)更快的訓(xùn)練和推理

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Alexandre Milesi ? 2022-04-20 15:58 ? 次閱讀

SE(3)-Transformers 是在NeurIPS 2020上推出的多功能圖形神經(jīng)網(wǎng)絡(luò)。 NVIDIA 剛剛發(fā)布了一款開源優(yōu)化實現(xiàn),它使用的內(nèi)存比基線正式實施少9倍,速度比基線正式實施快21倍。

SE(3)-Transformer 在處理幾何對稱性問題時非常有用,如小分子處理、蛋白質(zhì)精制或點云應(yīng)用。它們可以是更大的藥物發(fā)現(xiàn)模型的一部分,如RoseTTAFold和此 AlphaFold2 的復(fù)制。它們也可以用作點云分類和分子性質(zhì)預(yù)測的獨立網(wǎng)絡(luò)(圖 1 )。

pYYBAGJfvUKAcxmPAAE4jmo8Pmc186.png

圖 1 用于分子性質(zhì)預(yù)測的典型 SE ( 3 ) – transformer 的結(jié)構(gòu)。

在/PyTorch/DrugDiscovery/SE3Transformer存儲庫中, NVIDIA 提供了在QM9 數(shù)據(jù)集上為分子性質(zhì)預(yù)測任務(wù)訓(xùn)練優(yōu)化模型的方法。 QM9 數(shù)據(jù)集包含超過 10 萬個有機小分子和相關(guān)的量子化學(xué)性質(zhì)。

訓(xùn)練吞吐量提高 21 倍

與基線實施相比, NVIDIA 實現(xiàn)提供了更快的訓(xùn)練和推理。該實現(xiàn)對 SE(3)-Transformers 的核心組件,即張量場網(wǎng)絡(luò)( TFN )以及圖形中的自我注意機制進行了優(yōu)化。

考慮到注意力層超參數(shù)的某些條件得到滿足,這些優(yōu)化大多采取操作融合的形式。

由于這些,與基線實施相比,訓(xùn)練吞吐量增加了 21 倍,利用了最近 GPU NVIDIA 上的張量核。

poYBAGJfvUSAGrvvAAA_pAADmac256.png

圖 2 A100 GPU 上的訓(xùn)練吞吐量。批次大小為 100 的 QM9 數(shù)據(jù)集。

此外, NVIDIA 實現(xiàn)允許使用多個 GPU 以數(shù)據(jù)并行方式訓(xùn)練模型,充分利用 DGX A100 ( 8x A100 80GB )的計算能力。

把所有東西放在一起,在 NVIDIA DGX A100 上, SE(3)-Transformer現(xiàn)在可以在 QM9 數(shù)據(jù)集上在 27 分鐘內(nèi)進行訓(xùn)練。作為比較,原始論文的作者指出,培訓(xùn)在硬件上花費了 2 。 5 天( NVIDIA GeForce GTX 1080 Ti )。

更快的培訓(xùn)使您能夠在搜索最佳體系結(jié)構(gòu)的過程中快速迭代。隨著內(nèi)存使用率的降低,您現(xiàn)在可以訓(xùn)練具有更多注意層或隱藏通道的更大模型,并向模型提供更大的輸入。

內(nèi)存占用率降低 9 倍

SE(3)-Transformer 是已知的記憶重模型,這意味著喂養(yǎng)大輸入,如大蛋白質(zhì)或許多分批小分子是一項挑戰(zhàn)。對于 GPU 內(nèi)存有限的用戶來說,這是一個瓶頸。

這一點在DeepLearningExamples上的 NVIDIA 實現(xiàn)中已經(jīng)改變。圖 3 顯示,由于 NVIDIA 優(yōu)化和對混合精度的支持,與基線實現(xiàn)相比,訓(xùn)練內(nèi)存使用減少了 9 倍。

pYYBAGJfvUSAJlq7AAAyUas0Vkk109.png

圖 3 SE ( 3 ) – transformer s 的基線實現(xiàn)和 NVIDIA 實現(xiàn)之間的訓(xùn)練峰值內(nèi)存消耗比較。在 QM9 數(shù)據(jù)集上每批使用 100 個分子。 V100 32-GB GPU 。

除了對單精度和混合精度進行改進外,還提供了低內(nèi)存模式。啟用此標志后,模型在 TF32 ( NVIDIA 安培體系結(jié)構(gòu))或 FP16 ( NVIDIA 安培體系結(jié)構(gòu)、 NVIDIA 圖靈體系結(jié)構(gòu)和 NVIDIA 伏特體系結(jié)構(gòu))精度上運行,模型將切換到以吞吐量換取額外內(nèi)存節(jié)省的模式。

實際上,在具有 V100 32-GB GPU 的 QM9 數(shù)據(jù)集上,基線實現(xiàn)可以在內(nèi)存耗盡之前擴展到 100 的批大小。 NVIDIA 實現(xiàn)每批最多可容納 1000 個分子(混合精度,低內(nèi)存模式)。

對于處理以氨基酸殘基為節(jié)點的蛋白質(zhì)的研究人員來說,這意味著你可以輸入更長的序列并增加每個殘基的感受野。

SE(3)-Transformers 優(yōu)化

與基線相比, NVIDIA 實現(xiàn)提供了一些優(yōu)化。

融合鍵與值計算

在“自我注意”層中,將計算關(guān)鍵幀、查詢和值張量。查詢是圖形節(jié)點特征,是輸入特征的線性投影。另一方面,鍵和值是圖形邊緣特征。它們是使用 TFN 層計算的。這是 SE(3)-Transformer 中大多數(shù)計算發(fā)生的地方,也是大多數(shù)參數(shù)存在的地方。

基線實現(xiàn)使用兩個獨立的 TFN 層來計算鍵和值。在 NVIDIA 實現(xiàn)中,這些被融合在一個 TFN 中,通道數(shù)量增加了一倍。這將啟動的小型 CUDA 內(nèi)核數(shù)量減少一半,并更好地利用 GPU 并行性。徑向輪廓是 TFN 內(nèi)部完全連接的網(wǎng)絡(luò),也與此優(yōu)化融合。概覽如圖 4 所示。

poYBAGJfvUWAMrW0AABoHVJXxEs672.png

圖 4 NVIDIA 實現(xiàn)中的鍵、查詢和值計算。鍵和值一起計算,然后沿通道維度分塊。

TFN 合并

SE(3)-Transformer 內(nèi)部的功能除了其通道數(shù)量外,還有一個degreed,它是一個正整數(shù)。程度特征d有維度2d+1. TFN 接受不同程度的特征,使用張量積組合它們,并輸出不同程度的特征。

對于輸入為 4 度、輸出為 4 度的圖層,將考慮所有度的組合:理論上,必須計算 4 × 4 = 16 個子圖層。

這些子層稱為成對 TFN 卷積。圖 5 顯示了所涉及的子層的概述,以及每個子層的輸入和輸出維度。對給定輸出度(列)的貢獻相加,以獲得最終特征。

pYYBAGJfvUaARF2GAAFMcAG5jOI476.png

圖 5 TFN 層中涉及的成對卷積,輸入為 4 度,輸出為 4 度。

NVIDIA 在滿足 TFN 層上的某些條件時,提供多級融合以加速這些卷積。通過創(chuàng)建尺寸為 16 倍的形狀,熔合層可以更有效地使用張量核。以下是應(yīng)用熔合卷積的三種情況:

輸出功能具有相同數(shù)量的通道

輸入功能具有相同數(shù)量的通道

這兩種情況都是正確的

第一種情況是,所有輸出特征具有相同數(shù)量的通道,并且輸出度數(shù)的范圍從 0 到最大度數(shù)。在這種情況下,使用輸出融合特征的融合卷積。該融合層用于 SE(3)-Transformers 的第一個 TFN 層。

pYYBAGJfvUeAILrMAAC_JHUK2b0720.png

圖 6 每個輸出度的部分熔融 TFN 。

第二種情況是,所有輸入特征具有相同數(shù)量的通道,并且輸入度數(shù)的范圍從 0 到最大度數(shù)。在這種情況下,使用對融合輸入特征進行操作的融合卷積。該融合層用于 SE(3)-Transformers 的最后一層 TFN 。

poYBAGJfvUiAZ-WtAADEV4igJyM069.png

圖 7 每個輸入度的部分熔融 TFN 。

在最后一種情況下,當兩個條件都滿足時,使用完全融合的卷積。這些卷積作為輸入融合特征,輸出融合特征。這意味著每個 TFN 層只需要一個子層。內(nèi)部 TFN 層使用此融合級別。

pYYBAGJfvUiAY4E7AAB8ctJYwlM494.png

圖 8 全熔合 TFN

基預(yù)計算

除了輸入節(jié)點特性外, TFN 還需要基矩陣作為輸入。每個圖邊都有一組矩陣,這些矩陣取決于目標節(jié)點和源節(jié)點之間的相對位置。

在基線實現(xiàn)中,這些矩陣在前向傳遞開始時計算,并在所有 TFN 層中共享。它們依賴于球形 h ARM ,計算起來可能很昂貴。由于輸入圖不會隨著 QM9 數(shù)據(jù)集而改變(沒有數(shù)據(jù)擴充,沒有迭代位置細化),這就引入了跨時代的冗余計算。

NVIDIA 實現(xiàn)提供了在培訓(xùn)開始時預(yù)計算這些基礎(chǔ)的選項。整個數(shù)據(jù)集迭代一次,基緩存在 RAM 中。前向傳遞開始時的計算基數(shù)過程被更快的 CPU 到 GPU 內(nèi)存拷貝所取代。

關(guān)于作者

Alexandre Milesi 是 NVIDIA 的深度學(xué)習(xí)算法工程師。他擁有法國 UTC 的機器學(xué)習(xí)碩士學(xué)位,以及法國索邦大學(xué)的機器人和多智能體系統(tǒng)碩士學(xué)位。在加入 NVIDIA 之前, Alexandre 是伯克利實驗室的附屬研究員,使用深度強化學(xué)習(xí)解決電子 CTR ical 網(wǎng)格問題。在 NVIDIA ,他的工作集中于藥物發(fā)現(xiàn)和計算機視覺的 DL 算法,包括等變圖神經(jīng)網(wǎng)絡(luò)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5076

    瀏覽量

    103725
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8439

    瀏覽量

    133087
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5515

    瀏覽量

    121553
收藏 人收藏

    評論

    相關(guān)推薦

    阿里云開源推理模型QwQ

    近日,阿里云通義團隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現(xiàn)開源。這一舉措標志著阿里云在AI推理領(lǐng)域邁出了重要一步。 據(jù)評測數(shù)據(jù)顯示,QwQ預(yù)覽版本已具備研
    的頭像 發(fā)表于 11-29 11:30 ?639次閱讀

    NVIDIA助力麗蟾科技打造AI訓(xùn)練推理加速解決方案

    麗蟾科技通過 Leaper 資源管理平臺集成 NVIDIA AI Enterprise,為企業(yè)和科研機構(gòu)提供了一套高效、靈活的 AI 訓(xùn)練推理加速解決方案。無論是在復(fù)雜的 AI 開發(fā)任務(wù)中,還是在高并發(fā)
    的頭像 發(fā)表于 10-27 10:03 ?318次閱讀
    <b class='flag-5'>NVIDIA</b>助力麗蟾科技打造AI<b class='flag-5'>訓(xùn)練</b>與<b class='flag-5'>推理</b>加速解決方案

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢,為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton
    的頭像 發(fā)表于 09-09 09:19 ?537次閱讀

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導(dǎo)和獎勵模型,以及一個用于生成式 AI
    的頭像 發(fā)表于 09-06 14:59 ?383次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>幫助開發(fā)者生成合成<b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型
    的頭像 發(fā)表于 08-23 15:48 ?512次閱讀

    英偉達推出全新NVIDIA AI Foundry服務(wù)和NVIDIA NIM推理微服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)和 NVIDIA NIM 推理微服務(wù),與同樣剛推出的 Llama 3.1 系列
    的頭像 發(fā)表于 07-25 09:48 ?791次閱讀

    英偉達推出AI模型推理服務(wù)NVIDIA NIM

    英偉達近日宣布推出一項革命性的AI模型推理服務(wù)——NVIDIA NIM。這項服務(wù)將極大地簡化AI模型部署過程,為全球的2800萬英偉達開發(fā)者提供前所未有的便利。
    的頭像 發(fā)表于 06-04 09:15 ?731次閱讀

    摩爾線程和滴普科技完成大模型訓(xùn)練推理適配

    近日,摩爾線程與滴普科技宣布了一項重要合作成果。摩爾線程的夸娥(KUAE)千卡智算集群與滴普科技的企業(yè)大模型Deepexi已完成訓(xùn)練推理適配,共同實現(xiàn)了700億參數(shù)LLaMA2大語言
    的頭像 發(fā)表于 05-30 10:14 ?607次閱讀

    NVIDIA與Google DeepMind合作推動大語言模型創(chuàng)新

    支持 NVIDIA NIM 推理微服務(wù)的谷歌最新開源模型 PaliGemma 首次亮相。
    的頭像 發(fā)表于 05-16 09:44 ?511次閱讀

    進一步解讀英偉達 Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    NVIDIA NVLink,支持 FP4 AI 精度。 GB200 NVL72是一款性能卓越的計算平臺,采用更快的第二代Transformer引擎和FP8精度,可將大型語言模型訓(xùn)練
    發(fā)表于 05-13 17:16

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    用于文本生成,根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本,為故事創(chuàng)作等提供無限可能。大語言模型也面臨挑戰(zhàn)。一方面,其計算資源需求巨大,訓(xùn)練推理耗時;另一方面,模型高度依賴數(shù)據(jù),需要大
    發(fā)表于 05-04 23:55

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM 是一個
    的頭像 發(fā)表于 04-28 10:36 ?637次閱讀

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新開源大語言模型采用 NVIDIA 技術(shù)構(gòu)建,其經(jīng)過優(yōu)化后可在云、數(shù)據(jù)中心、邊緣和 PC 的 NVIDIA GPU 上運行。
    的頭像 發(fā)表于 04-23 09:52 ?524次閱讀

    李彥宏:開源模型將逐漸滯后,文心大模型提升訓(xùn)練推理效率

    李彥宏解釋道,百度自研的基礎(chǔ)模型——文心 4.0,能夠根據(jù)需求塑造出適應(yīng)各類場景的微型版模型,并支持精細調(diào)整以及后預(yù)訓(xùn)練。相較于直接使用開源模型
    的頭像 發(fā)表于 04-16 14:37 ?477次閱讀

    基于NVIDIA Megatron Core的MOE LLM實現(xiàn)訓(xùn)練優(yōu)化

    本文將分享阿里云人工智能平臺 PAI 團隊與 NVIDIA Megatron-Core 團隊在 MoE (Mixture of Experts) 大語言模型(LLM)實現(xiàn)訓(xùn)練優(yōu)化上的
    的頭像 發(fā)表于 03-22 09:50 ?883次閱讀
    基于<b class='flag-5'>NVIDIA</b> Megatron Core的MOE LLM<b class='flag-5'>實現(xiàn)</b>和<b class='flag-5'>訓(xùn)練</b>優(yōu)化
    百家乐群11889| 伟博百家乐现金网| 齐齐哈尔市| 百家乐庄闲的几率| 公海百家乐官网的玩法技巧和规则| 总统国际娱乐城| 威尼斯人娱乐城 104| 百家乐重要心态| 什么是百家乐官网平注法| 在线赌球| 百家乐导航| 澳门百家乐单注下限| 易发棋牌官网| 百家乐规律和方法| 百家乐打连技巧| 爱赢百家乐官网开户送现金| 博彩资讯| 凯斯百家乐的玩法技巧和规则 | 定南县| 大发888线上娱乐城二十一点| 澳门百家乐网上直赌| 网上赌百家乐官网的玩法技巧和规则| 明水县| 德州扑克 让牌| 什么叫百家乐的玩法技巧和规则| 百家乐官网是娱乐场| 缅甸百家乐官网网络赌博解谜 | 真人百家乐最高赌注| 百家乐视频游戏世界| 百家乐官网庄闲排列| 太阳城百家乐官网怎样开户| 宝兴县| 六合彩开奖时间| 大发888娱 太阳城| 赌博百家乐的玩法技巧和规则| 百家乐路的看法| 南宁百家乐官网的玩法技巧和规则| 百家乐官网翻天快播粤语| 真钱百家乐游戏| 棋牌娱乐平台| 大发888娱乐英皇国际|