吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

HugeCTR能夠高效地利用GPU來進行推薦系統的訓練

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2022-04-01 09:40 ? 次閱讀

1. Introduction

HugeCTR 能夠高效地利用 GPU 來進行推薦系統的訓練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開發了 SparseOperationKit (SOK),來將 HugeCTR 中的高級特性封裝為 TensorFlow 可直接調用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級特性來加速他們的推薦系統。

796b3d68-b14e-11ec-aa7f-dac502259ad0.png

圖 1. SOK embedding 工作流程

SOK 以數據并行的方式接收輸入數據,然后在 SOK 內部做黑盒式地模型轉換,最后將計算結果以數據并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼,以更方便、快捷地在多個 GPU 上進行擴展。

SOK 不僅僅是加速了 TensorFlow 中的算子,而是根據業界中的實際需求提供了對應的新解決方案,比如說 GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用;既可以使用 TensorFlow 自帶的通信工具,也可以使用 Horovod 等第三方插件來作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標準模型 DLRM 來對 SOK 的性能進行測試。

798ed8f4-b14e-11ec-aa7f-dac502259ad0.png

圖 2. SOK 性能測試數據

相比于 NVIDIA 的 DeepLearning Examples,使用 SOK 可以獲得更快的訓練速度以及更高的吞吐量。

3. API

SOK 提供了簡潔的、類 TensorFlow 的 API;使用 SOK 的方式非常簡單、直接;讓用戶通過修改幾行代碼就可以使用 SOK。

1. 定義模型結構

79ad3c54-b14e-11ec-aa7f-dac502259ad0.png

左側是使用 TensorFlow 的 API 來搭建模型,右側是使用 SOK 的 API 來搭建相同的模型。使用 SOK 來搭建模型的時候,只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對應的 API 即可。

2. 使用 Horovod 來定義 training loop

79d96892-b14e-11ec-aa7f-dac502259ad0.png

同樣的,左側是使用 TensorFlow 來定義 training loop,右側是使用 SOK 時,training loop 的定義方式。可以看到,使用 SOK 時,只需要對 Embedding Variables 和 Dense Variables 進行分別處理即可。其中,Embedding Variables 部分由 SOK 管理,Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來定義 training loop

79f46584-b14e-11ec-aa7f-dac502259ad0.png

類似的,還可以使用 TensorFlow 自帶的通信工具來定義 training loop。

4. 開始訓練

7a0c4bae-b14e-11ec-aa7f-dac502259ad0.png

在開始訓練過程時,使用 SOK 與使用 TensorFlow 時所用代碼完全一致。

4. 結語

SOK 將 HugeCTR 中的高級特性包裝為 TensorFlow 可以直接使用的模塊,通過修改少數幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進設計。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4777

    瀏覽量

    129360
  • SOK
    SOK
    +關注

    關注

    0

    文章

    5

    瀏覽量

    6349

原文標題:Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    GPU是如何訓練AI大模型的

    在AI模型的訓練過程中,大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來,AI部落小編帶您了解GPU是如何訓練AI大模型的。
    的頭像 發表于 12-19 17:54 ?242次閱讀

    如何利用地物光譜進行地利用分類?

    在土地利用分類領域,地物光譜技術正發揮著日益重要的作用。下面就為大家簡要介紹如何利用地物光譜進行地利用分類: 1.地物光譜數據采集: 使用專業光譜儀對不同地物
    的頭像 發表于 12-13 14:44 ?161次閱讀
    如何<b class='flag-5'>利用</b>地物光譜<b class='flag-5'>進行</b>土<b class='flag-5'>地利用</b>分類?

    訓練AI大模型需要什么樣的gpu

    訓練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時,需要根據具體需求進行權衡和選擇。
    的頭像 發表于 12-03 10:10 ?205次閱讀

    NPU與GPU的性能對比

    它們在不同應用場景下的表現。 一、設計初衷與優化方向 NPU : 專為加速AI任務而設計,包括深度學習和推理。 針對神經網絡的計算模式進行了優化,能夠高效地執行矩陣乘法、卷積等操作。 擁有眾多小型處理單元,配備專門的內存體系結構和數據流優化策略,對深度學習任務的處理特別
    的頭像 發表于 11-14 15:19 ?1907次閱讀

    PyTorch GPU 加速訓練模型方法

    在深度學習領域,GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架,提供了豐富的工具和方法
    的頭像 發表于 11-05 17:43 ?658次閱讀

    為什么ai模型訓練要用gpu

    GPU憑借其強大的并行處理能力和高效的內存系統,已成為AI模型訓練不可或缺的重要工具。
    的頭像 發表于 10-24 09:39 ?431次閱讀

    GPU服務器在AI訓練中的優勢具體體現在哪些方面?

    能力特別適合于深度學習中的大規模矩陣運算和高維度數據處理,這些是AI訓練中常見的計算密集型任務。 2、高效的數據處理:AI訓練通常涉及大量的數據,GPU服務器
    的頭像 發表于 09-11 13:24 ?547次閱讀

    蘋果承認使用谷歌芯片訓練AI

    蘋果公司最近在一篇技術論文中披露,其先進的人工智能系統Apple Intelligence背后的兩個關鍵AI模型,是在谷歌設計的云端芯片上完成預訓練的。這一消息標志著在尖端AI訓練領域,大型科技公司正積極探索并實踐著英偉達
    的頭像 發表于 07-30 17:03 ?781次閱讀

    SOK在手機行業的應用案例

    通過封裝 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下簡稱 SOK)使得 TensorFlow 用戶可以借助 HugeCTR 的一些相關特性和優化加速 GPU 上的分布式 Embed
    的頭像 發表于 07-25 10:01 ?410次閱讀
    SOK在手機行業的應用案例

    llm模型訓練一般用什么系統

    LLM(Large Language Model,大型語言模型)是近年來在自然語言處理領域取得顯著成果的一種深度學習模型。它通常需要大量的計算資源和數據進行訓練。以下是關于LLM模型訓練
    的頭像 發表于 07-09 10:02 ?496次閱讀

    如何利用Matlab進行神經網絡訓練

    ,使得神經網絡的創建、訓練和仿真變得更加便捷。本文將詳細介紹如何利用Matlab進行神經網絡訓練,包括網絡創建、數據預處理、訓練過程、參數調
    的頭像 發表于 07-08 18:26 ?2064次閱讀

    如何提高自動駕駛汽車感知模型的訓練效率和GPU利用

    由于采用了多攝像頭輸入和深度卷積骨干網絡,用于訓練自動駕駛感知模型的 GPU 內存占用很大。當前減少內存占用的方法往往會導致額外的計算開銷或工作負載的失衡。
    的頭像 發表于 04-29 09:12 ?980次閱讀
    如何提高自動駕駛汽車感知模型的<b class='flag-5'>訓練</b>效率和<b class='flag-5'>GPU</b><b class='flag-5'>利用</b>率

    AI訓練,為什么需要GPU

    隨著由ChatGPT引發的人工智能熱潮,GPU成為了AI大模型訓練平臺的基石,甚至是決定性的算力底座。為什么GPU能力壓CPU,成為炙手可熱的主角呢?要回答這個問題,首先需要了解當前人工智能(AI
    的頭像 發表于 04-24 08:05 ?1075次閱讀
    AI<b class='flag-5'>訓練</b>,為什么需要<b class='flag-5'>GPU</b>?

    FPGA在深度學習應用中或將取代GPU

    上漲,因為事實表明,它們的 GPU訓練和運行 深度學習模型 方面效果明顯。實際上,英偉達也已經對自己的業務進行了轉型,之前它是一家純粹做 GPU 和游戲的公司,現在除了作為一家云
    發表于 03-21 15:19

    應用大模型提升研發效率的實踐與探索

    對于模型訓練,我們可以采用 3D 并行訓練的方式實現。將模型參數和梯度張量劃分為多個分區,分配到不同 GPU 卡上進行計算。每張卡負責自己
    的頭像 發表于 02-22 11:47 ?677次閱讀
    應用大模型提升研發效率的實踐與探索
    大发888游戏客户端下载| 大发888娱乐城菲律宾| 大发888游戏平台dafa888 gw | 新奥博百家乐官网娱乐城| 做生意的信风水吗| 百家乐娱乐平台会员注册| 体球网足球即时比分| 百家乐官网有多少网址| 百家乐官网技巧网址| 百家乐足球| 博彩游戏| 百家乐官网怎赌才赢钱| 百家乐博彩通| 大发888娱乐场下载制度| 立即博百家乐官网现金网| 在线百家乐代理| 大发888boaicai| 百家乐官网关键词| 百家乐冯氏坐庄法| 17pk棋牌游戏| 百家乐官网金海岸| 职业赌百家乐技巧| 澳门凯旋门赌场| 犹太人百家乐官网的玩法技巧和规则| 百家乐筹码套装包邮| 西青区| 网络百家乐官网赚| 威尼斯人娱乐城官方网站| 金公主百家乐官网现金网| 御金百家乐娱乐城| 潢川县| 百家乐压钱技巧| 神娱乐百家乐的玩法技巧和规则| 铜山县| 百家乐关键词| 真钱网络棋牌游戏| 百家乐微心打法| 云顶国际娱乐开户| 做生意用的 风水上最好的尺寸有| 一起pk棋牌游戏下载| 發中發百家乐官网的玩法技巧和规则|