訓(xùn)練先進(jìn)的人工智能系統(tǒng)所需的巨大計(jì)算資源意味著,經(jīng)驗(yàn)豐富的科技公司將學(xué)術(shù)團(tuán)隊(duì)置于塵埃中。但是一種新方法可以幫助平衡規(guī)模,使科學(xué)家可以在一臺(tái)計(jì)算機(jī)上解決最先進(jìn)的AI問題。
OpenAI 2018年的一份報(bào)告發(fā)現(xiàn),用于訓(xùn)練最強(qiáng)大的人工智能的處理能力正以驚人的速度增長,每3.4個(gè)月翻一番。最需要數(shù)據(jù)的方法之一是深度強(qiáng)化學(xué)習(xí),其中AI通過遍歷數(shù)百萬次仿真來通過反復(fù)試驗(yàn)來學(xué)習(xí)。電子游戲如《星際爭霸》和《Dota2》的最新進(jìn)展都依賴于裝有數(shù)百個(gè)CPU和GPU的服務(wù)器。
諸如Cerebras System的Wafer Scale Engine之類的專用硬件有望用完美優(yōu)化用于訓(xùn)練AI的單個(gè)大型芯片來取代這些機(jī)架式處理器。但是,由于價(jià)格高達(dá)數(shù)百萬美元,對(duì)于資金不足的研究人員來說,這并不是什么安慰。
現(xiàn)在,來自南加州大學(xué)和英特爾實(shí)驗(yàn)室的一個(gè)團(tuán)隊(duì)已經(jīng)發(fā)明了一種在學(xué)術(shù)實(shí)驗(yàn)室中常用的硬件上訓(xùn)練深度強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)算法的方法。在近日舉行的2020國際機(jī)器學(xué)習(xí)大會(huì)(International Conference on Machine Learning,ICML)上發(fā)表的一篇論文中,他們描述了如何能夠使用一個(gè)高端工作站來訓(xùn)練人工智能,在第一人稱射擊游戲Doom上擁有最先進(jìn)的表現(xiàn)。他們還使用一小部分正常計(jì)算能力來解決DeepMind提出的30種多樣化3D挑戰(zhàn)套件。
德州大學(xué)奧斯汀分校(University of Texas at Austin)專門研究深度RL的教授Peter Stone說:“發(fā)明對(duì)商品硬件進(jìn)行深度RL的方法是一個(gè)了不起的研究目標(biāo)。并且,除了將較小的研究小組拋在身后之外,進(jìn)行此類研究通常所需的計(jì)算資源也會(huì)產(chǎn)生大量的碳足跡。”
USC研究生的主要作者Aleksei Petrenko說,該項(xiàng)目的靈感來自于必須成為發(fā)明之母的經(jīng)典案例。隨著在英特爾的暑期實(shí)習(xí)期結(jié)束,Petrenko失去了進(jìn)入該公司的超級(jí)計(jì)算集群的權(quán)限,這使尚未完成的深度RL項(xiàng)目陷入危險(xiǎn)之中。因此,他和同事決定找到一種方法來繼續(xù)進(jìn)行簡單系統(tǒng)的工作。
使用一臺(tái)配備36核CPU和一個(gè)GPU的機(jī)器,研究人員能夠在接受Atari視頻游戲和Doom訓(xùn)練時(shí)每秒處理大約14萬幀圖像,或者是次優(yōu)方法的兩倍。
Using a single machine equipped with a 36-core CPU and one GPU, the researchers were able to process roughly 140,000 frames per second while training on Atari videogames and Doom, or double the next best approach.
“根據(jù)我的經(jīng)驗(yàn),很多研究人員無法接觸到尖端的、花哨的硬件,”Petrenko說。“我們意識(shí)到,只要重新考慮如何最大限度地提高硬件利用率,實(shí)際上就可以接近通常從大型集群中擠出的性能,即使是在單個(gè)工作站上。”
深度RL的主要方法是將AI代理置于一個(gè)模擬環(huán)境中,該環(huán)境為實(shí)現(xiàn)特定目標(biāo)提供獎(jiǎng)勵(lì),agent將此作為反饋來制定最佳策略。這涉及三個(gè)主要的計(jì)算工作:模擬環(huán)境和代理;根據(jù)學(xué)習(xí)到的規(guī)則(稱為策略)決定下一步要做什么;以及使用這些操作的結(jié)果來更新策略。
Petrenko說,培訓(xùn)總是受到最慢流程的限制,但這三個(gè)工作通常在標(biāo)準(zhǔn)的深層次RL方法中交織在一起,因此很難單獨(dú)優(yōu)化它們。研究人員的新方法被稱為“樣本工廠(Sample Factory)”,將它們分開,這樣就可以投入資源讓它們都以峰值速度運(yùn)行。
Petrenko解釋說,進(jìn)程之間的管道數(shù)據(jù)是另一個(gè)主要瓶頸,因?yàn)檫@些數(shù)據(jù)通常會(huì)分布在多臺(tái)機(jī)器上。他的團(tuán)隊(duì)利用在一臺(tái)機(jī)器上工作的優(yōu)勢(shì),只需將所有數(shù)據(jù)塞進(jìn)共享內(nèi)存中,所有進(jìn)程都可以即時(shí)訪問這些數(shù)據(jù)。
與領(lǐng)先的深度RL方法相比,這形成了顯著的加速。使用一臺(tái)配備36核CPU和一個(gè)GPU的機(jī)器,研究人員能夠在接受Atari視頻游戲和Doom訓(xùn)練時(shí)每秒處理大約14萬幀圖像,或者是次優(yōu)方法的兩倍。在三維訓(xùn)練環(huán)境DeepMind實(shí)驗(yàn)室中,他們每秒的幀數(shù)為40000幀,比第二名高出15%。
為了檢查幀速率是如何轉(zhuǎn)化為訓(xùn)練時(shí)間的,研究小組將樣本工廠(Sample Factory)與谷歌大腦(Google Brain)在3月份開源的一種算法進(jìn)行了比較,該算法旨在顯著提高深度RL的效率。研究小組還在DeepMind實(shí)驗(yàn)室用一臺(tái)功能更強(qiáng)大的36核4-GPU機(jī)器,對(duì)30個(gè)挑戰(zhàn)進(jìn)行了測(cè)試。由此產(chǎn)生的人工智能的性能明顯優(yōu)于DeepMind用來應(yīng)對(duì)挑戰(zhàn)的原始人工智能,后者是在大型計(jì)算集群上訓(xùn)練的。
雖然論文中使用的計(jì)算機(jī)仍然是為人工智能研究而設(shè)計(jì)的高端工作站,但Petrenko說,他和他的合作者也一直在更簡單的設(shè)備上使用樣品工廠。他說,他甚至可以在他的中檔游戲筆記本電腦上進(jìn)行一些高級(jí)的深度RL實(shí)驗(yàn)。“這是前所未聞的。”
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7536瀏覽量
88642 -
AI
+關(guān)注
關(guān)注
87文章
31519瀏覽量
270334 -
人工智能系統(tǒng)
+關(guān)注
關(guān)注
0文章
38瀏覽量
10621
原文標(biāo)題:現(xiàn)在可以在一臺(tái)計(jì)算機(jī)上訓(xùn)練強(qiáng)大的AI啦
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論