诸神皇冠官网九游下载安装苹果,新全讯网新2网,老K娱乐场官网信誉如何(中国)·官方网站

1. Introduction

HugeCTR 能夠高效地利用 GPU 來進行推薦系統的訓練，為了使它還能直接被其他 DL 用戶，比如 TensorFlow 所直接使用，我們開發了 SparseOperationKit (SOK)，來將 HugeCTR 中的高級特性封裝為 TensorFlow 可直接調用的形式，從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級特性來加速他們的推薦系統。

圖 1. SOK embedding 工作流程

SOK 以數據并行的方式接收輸入數據，然后在 SOK 內部做黑盒式地模型轉換，最后將計算結果以數據并行的方式傳遞給初始 GPU。這種方式可以盡可能少地修改用戶已有的代碼，以更方便、快捷地在多個 GPU 上進行擴展。

SOK 不僅僅是加速了 TensorFlow 中的算子，而是根據業界中的實際需求提供了對應的新解決方案，比如說 GPU HashTable。SOK 可以與 TensorFlow 1.15 和 TensorFlow 2.x 兼容使用；既可以使用 TensorFlow 自帶的通信工具，也可以使用 Horovod 等第三方插件來作為 embedding parameters 的通信工具。

2. TF2 Comparison/Performance

使用 MLPerf 的標準模型 DLRM 來對 SOK 的性能進行測試。

圖 2. SOK 性能測試數據

相比于 NVIDIA 的 DeepLearning Examples，使用 SOK 可以獲得更快的訓練速度以及更高的吞吐量。

3. API

SOK 提供了簡潔的、類 TensorFlow 的 API；使用 SOK 的方式非常簡單、直接；讓用戶通過修改幾行代碼就可以使用 SOK。

1. 定義模型結構

左側是使用 TensorFlow 的 API 來搭建模型，右側是使用 SOK 的 API 來搭建相同的模型。使用 SOK 來搭建模型的時候，只需要將 TensorFlow 中的 Embedding Layer 替換為 SOK 對應的 API 即可。

2. 使用 Horovod 來定義 training loop

同樣的，左側是使用 TensorFlow 來定義 training loop，右側是使用 SOK 時，training loop 的定義方式。可以看到，使用 SOK 時，只需要對 Embedding Variables 和 Dense Variables 進行分別處理即可。其中，Embedding Variables 部分由 SOK 管理，Dense Variables 由 TensorFlow 管理。

3. 使用 tf.distribute.MirroredStrategy 來定義 training loop

類似的，還可以使用 TensorFlow 自帶的通信工具來定義 training loop。

4. 開始訓練

在開始訓練過程時，使用 SOK 與使用 TensorFlow 時所用代碼完全一致。

4. 結語

SOK 將 HugeCTR 中的高級特性包裝為 TensorFlow 可以直接使用的模塊，通過修改少數幾行代碼即可在已有模型代碼中利用上 HugeCTR 的先進設計。

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4777

瀏覽量
129360
SOK

SOK

+關注

關注
0

文章
5

瀏覽量
6349

原文標題：Merlin HugeCTR Sparse Operation Kit 系列之一

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業解決方案】歡迎添加關注！文章轉載請注明出處。

GPU是如何訓練AI大模型的

在AI模型的訓練過程中，大量的計算工作集中在矩陣乘法、向量加法和激活函數等運算上。這些運算正是GPU所擅長的。接下來，AI部落小編帶您了解GPU是如何訓練AI大模型的。

發表于 12-19 17:54 ?242次閱讀

如何利用地物光譜進行土地利用分類？

在土地利用分類領域，地物光譜技術正發揮著日益重要的作用。下面就為大家簡要介紹如何利用地物光譜進行土地利用分類： 1.地物光譜數據采集：使用專業光譜儀對不同地物

發表于 12-13 14:44 ?161次閱讀

如何<b class='flag-5'>利用</b>地物光譜<b class='flag-5'>進行</b>土<b class='flag-5'>地利用</b>分類？

訓練AI大模型需要什么樣的gpu

訓練AI大模型需要選擇具有強大計算能力、足夠顯存、高效帶寬、良好散熱和能效比以及良好兼容性和擴展性的GPU。在選擇時，需要根據具體需求進行權衡和選擇。

發表于 12-03 10:10 ?205次閱讀

NPU與GPU的性能對比

它們在不同應用場景下的表現。一、設計初衷與優化方向 NPU ：專為加速AI任務而設計，包括深度學習和推理。針對神經網絡的計算模式進行了優化，能夠高效地執行矩陣乘法、卷積等操作。擁有眾多小型處理單元，配備專門的內存體系結構和數據流優化策略，對深度學習任務的處理特別

發表于 11-14 15:19 ?1907次閱讀

PyTorch GPU 加速訓練模型方法

在深度學習領域，GPU加速訓練模型已經成為提高訓練效率和縮短訓練時間的重要手段。PyTorch作為一個流行的深度學習框架，提供了豐富的工具和方法來

發表于 11-05 17:43 ?658次閱讀

為什么ai模型訓練要用gpu

GPU憑借其強大的并行處理能力和高效的內存系統，已成為AI模型訓練不可或缺的重要工具。

發表于 10-24 09:39 ?431次閱讀

GPU服務器在AI訓練中的優勢具體體現在哪些方面？

能力特別適合于深度學習中的大規模矩陣運算和高維度數據處理，這些是AI訓練中常見的計算密集型任務。 2、高效的數據處理：AI訓練通常涉及大量的數據，GPU服務器

發表于 09-11 13:24 ?547次閱讀

蘋果承認使用谷歌芯片來訓練AI

蘋果公司最近在一篇技術論文中披露，其先進的人工智能系統Apple Intelligence背后的兩個關鍵AI模型，是在谷歌設計的云端芯片上完成預訓練的。這一消息標志著在尖端AI訓練領域，大型科技公司正積極探索并實踐著英偉達

發表于 07-30 17:03 ?781次閱讀

SOK在手機行業的應用案例

通過封裝 NVIDIA Merlin HugeCTR，Sparse Operation Kit（以下簡稱 SOK）使得 TensorFlow 用戶可以借助 HugeCTR 的一些相關特性和優化加速 GPU 上的分布式 Embed

發表于 07-25 10:01 ?410次閱讀

llm模型訓練一般用什么系統

LLM（Large Language Model，大型語言模型）是近年來在自然語言處理領域取得顯著成果的一種深度學習模型。它通常需要大量的計算資源和數據來進行訓練。以下是關于LLM模型訓練

發表于 07-09 10:02 ?496次閱讀

如何利用Matlab進行神經網絡訓練

，使得神經網絡的創建、訓練和仿真變得更加便捷。本文將詳細介紹如何利用Matlab進行神經網絡訓練，包括網絡創建、數據預處理、訓練過程、參數調

發表于 07-08 18:26 ?2064次閱讀

如何提高自動駕駛汽車感知模型的訓練效率和GPU利用率

由于采用了多攝像頭輸入和深度卷積骨干網絡，用于訓練自動駕駛感知模型的 GPU 內存占用很大。當前減少內存占用的方法往往會導致額外的計算開銷或工作負載的失衡。

發表于 04-29 09:12 ?980次閱讀

AI訓練，為什么需要GPU？

隨著由ChatGPT引發的人工智能熱潮，GPU成為了AI大模型訓練平臺的基石，甚至是決定性的算力底座。為什么GPU能力壓CPU，成為炙手可熱的主角呢？要回答這個問題，首先需要了解當前人工智能（AI

發表于 04-24 08:05 ?1075次閱讀

FPGA在深度學習應用中或將取代GPU

上漲，因為事實表明，它們的 GPU 在訓練和運行深度學習模型方面效果明顯。實際上，英偉達也已經對自己的業務進行了轉型，之前它是一家純粹做 GPU 和游戲的公司，現在除了作為一家云

發表于 03-21 15:19

應用大模型提升研發效率的實踐與探索

對于模型訓練，我們可以采用 3D 并行訓練的方式來實現。將模型參數和梯度張量劃分為多個分區，分配到不同 GPU 卡上進行計算。每張卡負責自己

發表于 02-22 11:47 ?677次閱讀

吴忠躺衫网络科技有限公司

搜索歷史

HugeCTR能夠高效地利用GPU來進行推薦系統的訓練

評論

GPU是如何訓練AI大模型的

如何利用地物光譜進行土地利用分類？

訓練AI大模型需要什么樣的gpu

NPU與GPU的性能對比

PyTorch GPU 加速訓練模型方法

為什么ai模型訓練要用gpu

GPU服務器在AI訓練中的優勢具體體現在哪些方面？

蘋果承認使用谷歌芯片來訓練AI

SOK在手機行業的應用案例

llm模型訓練一般用什么系統

如何利用Matlab進行神經網絡訓練

如何提高自動駕駛汽車感知模型的訓練效率和GPU利用率

AI訓練，為什么需要GPU？

FPGA在深度學習應用中或將取代GPU

應用大模型提升研發效率的實踐與探索