問題
最近在Ubuntu上使用Nvidia GPU訓練模型的時候,沒有問題,過一會再訓練出現非常卡頓,使用nvidia-smi查看發現,顯示GPU的風扇和電源報錯:
解決方案
自動風扇控制
在nvidia論壇有人給出了解決方案,即問題的根源可能是風扇轉速不足使GPU過熱導致的。
首先開啟GPU的persistent mode,再設置風扇的功率,重啟即可生效。其中250代表的是風扇的最大功率限制,可以將其設置為最大,這樣過熱的時候風扇就會自動加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動風扇控制
此外,還可以將GPU風扇的手動風速控制打開。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開所有gpu在xserver中的設置(不使用sudo可能無權限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:
如果機器上有多塊gpu,在第一步命令執行后,會在這個xorg.conf中出現多個DeviceSection,都依次執行第三步操作
重啟機器后,命令行執行nvidia-settings,會打開設置界面,在其中的會顯示所有GPU的設置選項,每個GPU控制選項下面都有一個Thermal settings,進入后打開enable GPU Fan Setting即可對風扇進行手動風速調整了。
-
NVIDIA
+關注
關注
14文章
5076瀏覽量
103729 -
gpu
+關注
關注
28文章
4777瀏覽量
129360
發布評論請先 登錄
相關推薦
0xmd公司通過NVIDIA GPU打造醫療AI解決方案
NVIDIA技術助力Pantheon Lab數字人實時交互解決方案
《CST Studio Suite 2024 GPU加速計算指南》
Supermicro推出直接液冷優化的NVIDIA Blackwell解決方案
![Supermicro推出直接液冷優化的<b class='flag-5'>NVIDIA</b> Blackwell<b class='flag-5'>解決方案</b>](https://file1.elecfans.com/web2/M00/0D/34/wKgaomdD4-WALgKBAApe6SDo0T4146.png)
AMD與NVIDIA GPU優缺點
![](https://file1.elecfans.com/web2/M00/FE/9C/wKgZomai_rmAC1MZAAcG8-ZGlao305.png)
NVIDIA全面轉向開源GPU內核模塊
![<b class='flag-5'>NVIDIA</b>全面轉向開源<b class='flag-5'>GPU</b>內核模塊](https://file1.elecfans.com/web2/M00/FE/56/wKgZomahscOATwiOAAAJIjh4jLs592.png)
遠程IO常見報錯及解決方案,輕松應對遠程控制難題
恒訊科技的GPU云解決方案有什么特點和優勢?
英偉達考慮縮減RTX 5090 Founder版顯卡尺寸,配備雙槽雙風扇設計
使用OpenUSD和NVIDIA Omniverse開發虛擬工廠解決方案
![使用OpenUSD和<b class='flag-5'>NVIDIA</b> Omniverse開發虛擬工廠<b class='flag-5'>解決方案</b>](https://file1.elecfans.com/web2/M00/E9/E1/wKgZomZVrk6AS-ktAAAiaOvgNQc807.png)
評論