真钱币财布扣,香港六合彩特码料,yy棋牌怎么进不去(中国)·官方网站

最近經常有同學反饋 GPU 利用率低，嚴重浪費 GPU 資源的問題，經過對一些實例分析后，借著這篇文檔和大家分享一下解決方案，希望能對使用 GPU 的同學有些幫助。

一、GPU 利用率的定義

本文的 GPU 利用率主要指 GPU 在時間片上的利用率，即通過 nvidia-smi 顯示的 GPU-util 這個指標。統計方式為：在采樣周期內，GPU 上面有 kernel 執行的時間百分比。

二、GPU 利用率低的本質

常見 GPU 任務運行流程圖如下：

如上圖所示，GPU 任務會交替的使用 CPU 和 GPU 進行計算，當 CPU 計算成為瓶頸時，就會出現 GPU 等待的問題，GPU 空跑那利用率就低了。那么優化的方向就是縮短一切使用 CPU 計算環節的耗時，減少 CPU 計算對 GPU 的阻塞情況。常見的 CPU 計算操作如下：

數據加載

數據預處理

模型保存

loss 計算

評估指標計算

日志打印

指標上報

進度上報

三、常見 GPU 利用率低原因分析

1、數據加載相關

1）存儲和計算跨城了，跨城加載數據太慢導致 GPU 利用率低

說明：例如數據存儲在“深圳 ceph”，但是 GPU 計算集群在“重慶”，那就涉及跨城使用了，影響很大。

優化：要么遷移數據，要么更換計算資源，確保存儲及計算是同城的。

2）存儲介質性能太差

說明：不同存儲介質讀寫性能比較：本機 SSD > ceph > cfs-1.5 > hdfs > mdfs

優化：將數據先同步到本機 SSD，然后讀本機 SSD 進行訓練。本機 SSD 盤為“/dockerdata”，可先將其他介質下的數據同步到此盤下進行測試，排除存儲介質的影響。

3）小文件太多，導致文件 io 耗時太長

說明：多個小文件不是連續的存儲，讀取會浪費很多時間在尋道上

優化：將數據打包成一個大的文件，比如將許多圖片文件轉成一個 hdf5/pth/lmdb/TFRecord 等大文件

lmdb 格式轉換樣例：

https://github.com/Lyken17/Efficient-PyTorch#data-loader

其他格式轉換方式請自行谷歌

4）未啟用多進程并行讀取數據

說明：未設置 num_workers 等參數或者設置的不合理，導致 cpu 性能沒有跑起來，從而成為瓶頸，卡住 GPU

優化：設置 torch.utils.data.DataLoader 方法的 num_workers 參數、tf.data.TFRecordDataset 方法的 num_parallel_reads 參數或者 tf.data.Dataset.map 的 num_parallel_calls 參數。

5）未啟用提前加載機制來實現 CPU 和 GPU 的并行

說明：未設置 prefetch_factor 等參數或者設置的不合理，導致 CPU 與 GPU 在時間上串行，CPU 運行時 GPU 利用率直接掉 0

優化：設置 torch.utils.data.DataLoader 方法的 prefetch_factor 參數或者 tf.data.Dataset.prefetch()方法。prefetch_factor 表示每個 worker 提前加載的 sample 數量（使用該參數需升級到 pytorch1.7 及以上），Dataset.prefetch()方法的參數 buffer_size 一般設置為：tf.data.experimental.AUTOTUNE，從而由 TensorFlow 自動選擇合適的數值。

6）未設置共享內存 pin_memory

說明：未設置 torch.utils.data.DataLoader 方法的 pin_memory 或者設置成 False,則數據需從 CPU 傳入到緩存 RAM 里面，再給傳輸到 GPU 上

優化：如果內存比較富裕，可以設置 pin_memory=True，直接將數據映射到 GPU 的相關內存塊上，省掉一點數據傳輸時間

2、數據預處理相關

1）數據預處理邏輯太復雜

說明：數據預處理部分超過一個 for 循環的，都不應該和 GPU 訓練部分放到一起

優化：a、設置 tf.data.Dataset.map 的 num_parallel_calls 參數，提高并行度，一般設置為 tf.data.experimental.AUTOTUNE，可讓 TensorFlow 自動選擇合適的數值。

b、將部分數據預處理步驟挪出訓練任務，例如對圖片的歸一化等操作，提前開啟一個 spark 分布式任務或者 cpu 任務處理好，再進行訓練。

c、提前將預處理部分需要用到的配置文件等信息加載到內存中，不要每次計算的時候再去讀取。

d、關于查詢操作，多使用 dict 加速查詢操作；減少 for、while 循環，降低預處理復雜度。

2）利用 GPU 進行數據預處理 -- Nvidia DALI

說明：Nvidia DALI 是一個專門用于加速數據預處理過程的庫，既支持 GPU 又支持 CPU

優化：采用 DALI，將基于 CPU 的數據預處理流程改造成用 GPU 來計算

DALI 文檔如下：https://zhuanlan.zhihu.com/p/105056158

3、模型保存相關

1）模型保存太頻繁

說明：模型保存為 CPU 操作，太頻繁容易導致 GPU 等待

優化：減少保存模型(checkpoint)的頻率

4、指標相關

1）loss 計算太復雜

說明：含有 for 循環的復雜 loss 計算，導致 CPU 計算時間太長從而阻塞 GPU

優化：該用低復雜度的 loss 或者使用多進程或多線程進行加速

2）指標上報太頻繁

說明：指標上報操作太頻繁，CPU 和 GPU 頻繁切換導致 GPU 利用率低

優化：改成抽樣上報，例如每 100 個 step 上報一次

5、日志相關

1）日志打印太頻繁

說明：日志打印操作太頻繁，CPU 和 GPU 頻繁切換導致 GPU 利用率低

優化：改成抽樣打印，例如每 100 個 step 打印一次

四、常見數據加載方法說明

1、pytorch 的 torch.utils.data.DataLoader

DataLoader(dataset, batch_size=1, shuffle=False, sampler=None,
           batch_sampler=None, num_workers=0, collate_fn=None,
           pin_memory=False, drop_last=False, timeout=0,
           worker_init_fn=None, *, prefetch_factor=2,
           persistent_workers=False)

從參數定義中，我們可以看到 DataLoader 主要支持以下幾個功能:

支持加載 map-style 和 iterable-style 的 dataset，主要涉及到的參數是 dataset

自定義數據加載順序，主要涉及到的參數有 shuffle, sampler, batch_sampler, collate_fn

自動把數據整理成 batch 序列，主要涉及到的參數有 batch_size, batch_sampler, collate_fn, drop_last

單進程和多進程的數據加載，主要涉及到的參數有 num_workers, worker_init_fn

自動進行鎖頁內存讀取 (memory pinning)，主要涉及到的參數 pin_memory

支持數據預加載，主要涉及的參數 prefetch_factor

參考文檔：https://pytorch.org/docs/stable/data.html

2、tensorflow 的 tf.data.Dataset

ds_train = tf.data.Dataset.from_tensor_slices((x,y))
    .shuffle(5000)
    .batch(batchs)
    .map(preprocess,num_parallel_calls=tf.data.experimental.AUTOTUNE)
    .prefetch(tf.data.experimental.AUTOTUNE)

Dataset.prefetch(): 可以讓數據集對象 Dataset 在 ? 訓練時預取出若干個元素，使得在 GPU 訓練的同時 CPU 可以準備數據，提升訓練流程的效率

Dataset.map(f): 轉換函數 f 映射到數據集每一個元素; 可以利用多 CPU 資源,充分利用多核心的優勢對數據進行并行化變換， num_parallel_calls 設置為 tf.data.experimental.AUTOTUNE 以讓 TensorFlow 自動選擇合適的數值，數據轉換過程多進程執行，設置 num_parallel_calls 參數能發揮 cpu 多核心的優勢

Dataset.shuffle(buffer_size): 將數據集打亂，取出前 buffer_size 個元素放入，并從緩沖區中隨機采樣，采樣后的數據用后續數據替換

Dataset.batch(batch_size)：將數據集分成批次，即對每 batch_size 個元素，使用 tf.stack() 在第 0 維合并，成為一個元素

參考文檔：https://www.tensorflow.org/api_docs/python/tf/data/Dataset#methods_2

五、分布式任務常見的 GPU 利用率低問題

分布式任務相比單機任務多了一個機器間通信環節。如果在單機上面運行的好好的，擴展到多機后出現 GPU 利用率低，運行速度慢等問題，大概率是機器間通信時間太長導致的。請排查以下幾點：

1、機器節點是否處在同一 modules？

答：機器節點處于不同 modules 時，多機間通信時間會長很多，deepspeed 組件已從平臺層面增加調度到同一 modules 的策略，用戶不需要操作；其他組件需聯系我們開啟。

2、多機時是否啟用 GDRDMA？

答：能否啟用 GDRDMA 和 NCCL 版本有關，經測試，使用 PyTorch1.7（自帶 NCCL2.7.8）時，啟動 GDRDMA 失敗，和 Nvidia 的人溝通后確定是 NCCL 高版本的 bug，暫時使用的運行注入的方式來修復；使用 PyTorch1.6（自帶 NCCL2.4.8）時，能夠啟用 GDRDMA。經測試，“NCCL2.4.8 + 啟用 GDRDMA ” 比 “NCCL2.7.8 + 未啟用 GDRDMA”提升 4%。通過設置 export NCCL_DEBUG=INFO，查看日志中是否出現[receive] via NET/IB/0/GDRDMA 和 [send] via NET/IB/0/GDRDMA，出現則說明啟用 GDRDMA 成功，否則失敗。