吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

揭秘星際2人工智能AlphaStar:DeepMind科學(xué)家回應(yīng)一切

mK5P_AItists ? 來源:lq ? 2019-01-28 15:39 ? 次閱讀

25 日凌晨,人工智能 AlphaStar 與職業(yè)玩家 MaNa 進行了一場史無前例的「人機大戰(zhàn)」:雖然之前在內(nèi)部比賽中 AI 十戰(zhàn)十勝,但現(xiàn)場比賽中,MaNa 機智地戲耍了對手,為人類取得了一場勝利。賽后,DeepMind 科學(xué)家、AlphaStar 項目的領(lǐng)導(dǎo)者 Oriol Vinyals 和 David Silver 在 Reddit 上回答了人們關(guān)心的很多問題。與此同時,曾與人工智能交手的兩位職業(yè)玩家,Liquid 戰(zhàn)隊的 TLO 與 MaNa 也作為嘉賓回答了一些有趣的問題。

例如:對于 AI 研究者來說,打星際 2 的能力是不是應(yīng)該寫進簡歷里?

網(wǎng)友 NexYY:我應(yīng)該把會打星際爭霸 2 作為一項技能寫在簡歷里證明我是一個有抱負的 AI 開發(fā)者嗎?有時我沉迷于打星際,而不是提高寫代碼的能力,我常常因此感到迷茫……

Oriol Vinyals:在比賽那天我打了好多盤星際,我得說這是非常好的體驗——特別是考慮到它塑造了我在人工智能、學(xué)習(xí)計算機科學(xué)等方面的動力。所以如果你想完成一個好簡歷,請把星際爭霸 2 當(dāng)做一個愛好寫進去,祝你好運!

1 月 25 日,AlphaStar 與 MaNa 的人機大戰(zhàn),以及此前對戰(zhàn)的一些精彩鏡頭。現(xiàn)場比賽從 10:30 開始。

問:從 pysc2 的早期版本(和目前的 master 版本)來看,似乎 DeepMind 開發(fā)的方法是基于對人類游戲過程的完全模仿,如 bot 無法獲得屏幕視角外任何東西的信息。而這個版本似乎放開了這些限制,因為要素圖層現(xiàn)在是「全地圖大小」,而且添加了新的要素。是這樣嗎?如果是,那這與從 API 中獲取原始數(shù)據(jù)并將其簡單抽象成結(jié)構(gòu)化數(shù)據(jù)來作為神經(jīng)網(wǎng)絡(luò)的輸入有什么真正的不同呢?DeepMind 博客中甚至表明,直接將原始數(shù)據(jù)和屬性以列表形式的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),這似乎表明你們不再真正使用要素圖層了?

Oriol Vinyals:事實上,有了基于鏡頭的(和不基于鏡頭的)輸入界面,智能體知道已經(jīng)構(gòu)建了什么,因為我們將其作為列表(由神經(jīng)網(wǎng)絡(luò) Transformer 進一步處理)輸入。一般來說,即使你沒有那種列表,智能體也會知道已經(jīng)構(gòu)建了什么,因為智能體的記憶會跟蹤所有之前發(fā)生的動作,以及過去訪問的所有視圖的位置。

問:當(dāng)我使用 pysc2 時,我發(fā)現(xiàn)要了解已經(jīng)構(gòu)建、正在進行、已經(jīng)完成的事物是一件非常困難的事,因為我必須一直平移相機視圖來獲取這些信息。camera_interface 方法是如何保存這些信息的?即使在 camera_interface 模式下,通過原始數(shù)據(jù)訪問(如 unitTypeID、建筑物等的計數(shù)),大量數(shù)據(jù)仍是完全可用的?

Oriol Vinyals:是的,我們的確放開了智能體的視角,主要是因為算力原因——沒有屏幕移動的游戲大約會有 1000 步,而有屏幕移動的游戲步數(shù)會是前者的 2-3 倍。我們的確為迷你地圖使用了要素圖層,但是對于屏幕,你可以認為要素列表「轉(zhuǎn)換」了那些信息。實際上,事實證明,即使是在處理圖像上,將每個像素單獨作為一個列表效果也很好!

問:達到當(dāng)前水平需要玩多少把游戲?換句話說,在你們的案例中,200 年游戲時間一共打了多少把游戲?

Oriol Vinyals:如果平均每場比賽持續(xù) 10 分鐘,這相當(dāng)于大約 1000 萬場比賽。不過請注意,并不是所有智能體的訓(xùn)練時間都相當(dāng)于 200 年的游戲時間,這只是接受訓(xùn)練最多的智能體的訓(xùn)練量。

問:所學(xué)知識遷移到其它地圖效果如何?Oriol 在 discord 上提到它在其它地圖上「有效」。我們都很好奇在哪個地圖上最有效,所以現(xiàn)在可以揭露答案嗎?根據(jù)我的個人觀察,AlphaStar 似乎很大程度依賴于記憶中的地圖信息。它有可能在沒見過的地圖上執(zhí)行很好的 wall-off 或 proxy cheese 嗎?在全新地圖上玩時,MMR 的估計差異是什么?

Oriol Vinyals:參考以上答案。

David Silver(圖中黑衣者)與 Oriol Vinyals 在線回答人們有關(guān) AlphaStar 的問題。

問:智能體對「save money for X」這個概念了解得怎么樣?這不是一個小問題,因為如果你們從回放中學(xué)習(xí),并考慮玩家的無作為行動(NOOP),強化學(xué)習(xí)算法通常會認為 NOOP 是在游戲中非理想點時的最佳決策。所以你們怎么處理「save money for X」,以及在學(xué)習(xí)階段是否排除了 NOOP?

David Silver:實際上,作為其行動的一部分,AlphaStar 會提前選擇執(zhí)行多少 NOOP。最開始這是從監(jiān)督數(shù)據(jù)中學(xué)到的,以便反映人類游戲玩法,也就是說 AlphaStar 通常以人類玩家相似的速度「點擊」。然后通過強化學(xué)習(xí)來完善,選擇減少或增加 NOOP 次數(shù)。所以,「save money for X」可以通過提前決定實施幾個 NOOP 來輕松實現(xiàn)。

問:你們最終使用的步長是多少?在博客中你們寫道,星際的每幀視頻被用作輸入的一步。然而,你們也提到過平均處理時長是 50 毫秒,而這會超過實際時間(給定 22.4fps,需要<46 毫秒)。所以你們是否要求每 1 步,或每 2 步、3 步是動態(tài)的?

Oriol Vinyals:我們要求每一步是動態(tài)的,但由于延遲,該操作將僅在某一步結(jié)束后處理(即我們是異步操作)。另一個選擇是鎖定該步,但這樣會造成玩家的游戲體驗不佳。

問:APM 是怎么回事?我印象中 SC2 LE 被強行限制在 180 WPM,但是我看你們的比賽中,AS 的平均 APM 似乎在很長一段時間內(nèi)都遠遠超過這個水平。DeepMind 的博客上展示了相關(guān)圖表和數(shù)字,但沒有解釋為什么 APM 如此之高。

Oriol Vinyals:這個問題問得好,這也是我們打算解釋的。我們咨詢了 TLO 和暴雪關(guān)于 APM 的意見,并對其增加了一個硬性限制。具體來說,我們在 5 秒內(nèi)設(shè)置 APM 最大為 600,15 秒內(nèi)為 400,30 秒內(nèi)為 320,60 秒內(nèi)為 300。如果智能體在此期間發(fā)出了更多動作,我們會刪除/忽略那些動作。這些值取自人類玩家的統(tǒng)計數(shù)據(jù)。暴雪在其 APM 計算中對某些動作進行了多次計算(前面提到的數(shù)字是指 pysc2 中「智能體的動作」)。同時,我們的智能體還使用模仿學(xué)習(xí),這意味著我們經(jīng)常看到一些非常「垃圾」的動作。也就是說,并非所有動作都是有效動作。有些人已經(jīng)在 Reddit 上指出了這一點——AlphaStar 的有效 APM(或 EPM)相當(dāng)?shù)汀N覀兒芨吲d能夠聽到社區(qū)的反饋,因為我們只咨詢了少數(shù)人。我們將考慮所有的反饋。

問:PBT 中需要多少不同的智能體來保持足夠的多樣性以防止災(zāi)難性遺忘?這是如何隨著智能體數(shù)量的增加而擴展的?還是只需要幾個智能體就能保持穩(wěn)健性?這與歷史 checkpoint 的有效通常策略有什么可比性嗎?

David Silver:我們保留了每個智能體的舊版本作為 AlphaStar 聯(lián)賽的競爭對手。當(dāng)前的智能體通常根據(jù)對手的勝率與這些競爭者比賽。這樣能夠很好地防止災(zāi)難性遺忘,因為智能體必須一直打敗所有以前的版本。我們也嘗試了一些其他的多智能體學(xué)習(xí)策略,發(fā)現(xiàn)這個方法非常穩(wěn)健。此外,增加 AlphaStar 聯(lián)賽的多樣性非常重要。關(guān)于擴展我們很難給出精確的數(shù)字,但根據(jù)我們的經(jīng)驗,豐富聯(lián)賽的策略空間有助于使終版的智能體更加強大。

問:從 TPU 和 CPU 的角度來看,總計算時間是怎樣的?

David Silver:為了訓(xùn)練 AlphaStar,我們用谷歌的 TPU v3 構(gòu)建了一個高度可擴展的分布式訓(xùn)練系統(tǒng),該系統(tǒng)支持很多智能體從星際 II 的數(shù)千個并行示例中學(xué)習(xí)。AlphaStar 聯(lián)賽運行了 14 天,每個智能體使用 16 個 TPU。最終的 AlphaStar 智能體由發(fā)現(xiàn)的最有效策略組成,然后在單個桌面 GPU 上運行。

問:看起來 AI 的反應(yīng)速度不太穩(wěn)定。神經(jīng)網(wǎng)絡(luò)是在 GPU 上以 50 毫秒或者 350 毫秒運行嗎?還是說這些是指不同的東西(前向傳遞 VS 行動限制)?

David Silver:神經(jīng)網(wǎng)絡(luò)本身大概要花 50 毫秒來計算一個動作,但這只是游戲事件發(fā)生和 AlphaStar 對該事件做出反應(yīng)期間的部分處理過程。首先,AlphaStar 平均每 250 毫秒才觀察一次游戲,這是因為神經(jīng)網(wǎng)絡(luò)除了本身的動作(有時被稱為時間抽象動作)之外,還會等待一些其他的游戲動作。觀察結(jié)果必須從星際爭霸 2 傳到 AlphaStar,然后再將 AlphaStar 的動作傳回到星際爭霸 2,這樣除了神經(jīng)網(wǎng)絡(luò)選擇動作的時間之外,又增加了另外 50 毫秒的延遲時間,導(dǎo)致平均反應(yīng)時間為 350 毫秒。

問:有做過泛化測試嗎?可能這些智能體無法玩其他種族(因為可用的單位/動作完全不同,甚至架構(gòu)也不盡相同),但它們至少可以泛化至其它地圖吧?

Oriol Vinyals:我們的確做了這種測試。我們有 AlphaStar 的內(nèi)部排行榜,我們沒有將該榜單的地圖設(shè)置為 Catalyst,而是留白了。這意味它會在所有目前的天梯地圖上運行。令人驚訝的是,智能體仍然表現(xiàn)很好,雖然沒到昨天看到的那種水平。

問:看起來人工智能不擅長打逆風(fēng)?如果落后的話它就會不知所措,這和 OpenAI 在 Dota2 上的 AI 很相似。這是否是人工智能自我博弈所導(dǎo)致的問題?

David Silver:實際上有很多種不同的學(xué)習(xí)方法。我們發(fā)現(xiàn)單純的自我博弈經(jīng)常會陷入特定的策略中,有時也會讓人工智能忘記如何擊敗此前了解的戰(zhàn)術(shù)。AlphaStar 聯(lián)賽也是基于讓人工智能進行自我博弈的思路,但多個智能體進行動態(tài)學(xué)習(xí)鼓勵了與多種戰(zhàn)術(shù)之間的對抗,并在實踐中展現(xiàn)了對抗不尋常戰(zhàn)術(shù)的更強大實力。

問:在去年 11 月 Blizzcon 訪談中,Vinyals 曾經(jīng)說過會把星際爭霸 2 bot 開放到天梯上,現(xiàn)在還有這樣的計劃嗎?

Oriol Vinyals:非常感謝社區(qū)的支持,它會納入我們的工作中,我們已經(jīng)把這十場比賽的 Replay 公開,讓大家觀看。未來如有新計劃隨時會公開。

問:它如何處理不可見的單位?人類玩家在非常靠近隱身單位時會發(fā)現(xiàn)它(注:在星際爭霸 2 中,隱身單位在對手的屏幕上顯示為類似水波紋的模糊輪廓)。但如果 AI 可以看到的話,那隱身幾乎沒有什么用。但如果它看不見的話,又會給大規(guī)模隱形單位策略帶來很大優(yōu)勢,因為觀察者必須在場才能看到東西。

Oriol Vinyals:非常有趣的問題。一開始我們忽略了不可見單位的「水波紋」。智能體仍然可以玩,因為你可以制造檢測器,這樣單位會像往常一樣顯示出來。但我們后來又增加了一個「shimmer」功能,如果某個位置有隱形裝置,這個功能就會激活。

問:從這次經(jīng)歷中,你們是否獲得了一些可以用到其他人機交互強化學(xué)習(xí)任務(wù)中的經(jīng)驗?

Oriol Vinyals:當(dāng)我們看到高 APM 值或點錯鍵這種問題時,我們覺得這些可能是來自模仿。其實,我們經(jīng)常看到智能體的某些動作出現(xiàn)冗余行為(濫發(fā)移動命令、在游戲剛開始時閃爍鏡頭)。

David Silver:就像星際爭霸一樣,多數(shù)人類與 AI 交互的現(xiàn)實應(yīng)用都有信息不完全的問題。這就意味著沒有真正意義上的最佳行為,智能體必須能夠穩(wěn)健地應(yīng)對人類可能采取的一系列不可預(yù)測的行為。也許從星際爭霸中學(xué)到的最有用的一點是,我們必須非常謹慎,確保學(xué)習(xí)算法能夠覆蓋所有可能出現(xiàn)的狀況。另外,我認為我們學(xué)到了很多關(guān)于如何將 RL 擴展到真正復(fù)雜問題中的經(jīng)驗,這些問題都有很大的動作空間和長遠的視野。

問:很多人認為 AlphaStar 在最后一局中的失敗是因為該算法在最后一場比賽中受到了視力限制。我個人認為這種說法沒有說服力,因為折躍棱鏡在戰(zhàn)爭迷霧中進進出出,AI 相應(yīng)地指揮其部隊前進撤退。這看起來絕對像是理解上的差距,而不是操作的局限。AlphaStar 以這種方式落敗,對此您有什么看法?

David Silver:很難說清我們?yōu)槭裁摧數(shù)簦ɑ蜈A了)某場比賽,因為 AlphaStar 的決策非常復(fù)雜,是一個動態(tài)多智能體訓(xùn)練進程導(dǎo)致的結(jié)果。MaNa 游戲打得很棒,似乎發(fā)現(xiàn)并利用了 AlphaStar 的弱點——但很難確定這一弱點究竟是什么造成的:視角?訓(xùn)練時間不夠?還是對手和其它智能體不一樣?

問:Alphastar 的「記憶」有多大?它在玩游戲時需要接收多少數(shù)據(jù)?

Oriol Vinyals:每個智能體使用一個深度 LSTM,每個 LSTM 有 3 個層和 384 個單元。AlphaStar 在游戲中每做出一個動作,該記憶就會更新一次。平均每個游戲會有 1000 個動作。我們的網(wǎng)絡(luò)大約有 7000 萬個參數(shù)

問:像 AlphaGo 和 AlphaZero 這樣的智能體是使用完美信息游戲進行訓(xùn)練的。對于不完美信息游戲如星際爭霸來說,智能體的設(shè)計會有什么不同?AlphaStar 是否有之前與人類對決的「記憶」?

David Silver:有趣的是,像 AlphaGo 和 AlphaZero 這樣的基于搜索的方法更難適應(yīng)不完美信息博弈。例如,基于搜索的***算法(比如 DeepStack 和 Libratus)通過信念狀態(tài)推測對手的手牌。

與之不同的是,AlphaStar 是一種無模型的強化學(xué)習(xí)算法,可以間接地推理對手狀態(tài),即通過學(xué)習(xí)行為這一最有效擊敗對手的方法,而不是試圖給對手看到什么建模。可以認為,這是應(yīng)對不完整信息的一個有效方法。

另一方面,不完美信息游戲沒有絕對最佳的游戲方式,而是取決于對手的行為。這就是星際爭霸如此讓人著迷的原因,就像「石頭剪刀布」一樣,所有決策都有優(yōu)勢劣勢。這就是我們使用 AlphaStar 聯(lián)賽,以及為什么策略空間的所有角落都如此重要的原因——在圍棋這樣的游戲里這是不重要的,掌握了最優(yōu)策略就可以擊敗所有對手。

問:星際爭霸 2 之后的下一個里程碑會是什么?

Oriol Vinyals:人工智能還面臨著一些重要而令人興奮的挑戰(zhàn)。我最感興趣的是「元學(xué)習(xí)(Meta Learning)」,它與更少的數(shù)據(jù)點和更快速的學(xué)習(xí)有關(guān)。這種思想自然可以應(yīng)用在星際爭霸 2 上——它可以減少訓(xùn)練智能體所需的數(shù)據(jù)量,也可以讓 AI 更好地學(xué)習(xí)和適應(yīng)新的對手,而不是「凍結(jié)」AlphaStar 的權(quán)重。

問:AlphaStar 的技術(shù)可以應(yīng)用到哪些其他科學(xué)領(lǐng)域?

Oriol Vinyals:AlphaStar 背后的技術(shù)可以應(yīng)用在很多問題上。它的神經(jīng)網(wǎng)絡(luò)架構(gòu)可以用于超長序列的建模——基于不完美信息,游戲時間可以長達一個小時,而步驟有數(shù)萬個。星際爭霸的每一幀都被算作一步輸入,神經(jīng)網(wǎng)絡(luò)會在每幀之后預(yù)測游戲剩余時間內(nèi)的預(yù)期行動順序。這樣的方式在天氣預(yù)報、氣候建模、語言理解等需要對長序列數(shù)據(jù)進行復(fù)雜預(yù)測的領(lǐng)域非常有前景。

我們的一些訓(xùn)練方法也可以用于提高人工智能系統(tǒng)的安全性與魯棒性,特別是在能源等安全關(guān)鍵領(lǐng)域,這對于解決復(fù)雜的前沿問題至關(guān)重要。

職業(yè)玩家的看法

兩位與 AlphaStar 交手的星際爭霸 2 職業(yè)玩家,TLO 與 MaNa (圖中居右)。

問:對于職業(yè)玩家來說,你們就像在指導(dǎo) AlphaStar,在你們看來它在比賽中展現(xiàn)出了哪些優(yōu)缺點?它獲得勝利的方式來自決策還是操作?

MaNa:它最強的地方顯然是單位控制。在雙方兵力數(shù)量相當(dāng)?shù)那闆r下,人工智能贏得了所有比賽。在僅有的幾場比賽中我們能夠看到的缺點是它對于技術(shù)的頑固態(tài)度。AlphaStar 有信心贏得戰(zhàn)術(shù)上的勝利,卻幾乎沒有做任何其他事情,最終在現(xiàn)場比賽中也沒有獲得勝利。我沒有看到太多決策的跡象,所以我說人工智能是在靠操作獲得勝利。

問:和 AlphaStar 比賽是什么樣的體驗?如果你不知道對手是誰的話,你能猜出它是機器嗎?人工智能的引入會為星際爭霸 2 帶來哪些變化?

MaNa:與 AlphaStar 比賽過程中我非常緊張,特別因為它是一臺機器。在此之前,我對它所知甚少。由于缺乏信息,我不得不以一種不熟悉的方式進行比賽。如果沒有被告知對手是誰,我會質(zhì)疑它是否是人類。它的戰(zhàn)術(shù)和人類很像,但微操不是任何人類都能實現(xiàn)的。我肯定會發(fā)現(xiàn)它不是人類,但可能需要不止一場游戲的信息。我對 AlphaStar 的未來非常期待,我迫不及待地想要和它進行更多游戲。

星際爭霸 2 人機大戰(zhàn)賽事回顧

昨天是 DeepMind 星際爭霸 2 智能體 AlphaStar 首秀。DeepMind 放出了 AlphaStar 去年 12 月與星際爭霸 2 職業(yè)玩家 LiquidTLO、MaNa 的比賽視頻,AlphaStar 均以 5:0 的戰(zhàn)績戰(zhàn)勝星際爭霸 2 職業(yè)玩家。目前,AlphaStar 只能玩神族,不過它依然戰(zhàn)勝了神族最強十人之一的 MaNa!

昨天,DeepMind 還組織了一次 MaNa 和 AlphaStar 的現(xiàn)場對決。MaNa 在賽前稱,自己要來一場「復(fù)仇之戰(zhàn)」。事實證明,他成功了。

所有 11 場比賽的 Replay:https://deepmind.com/research/alphastar-resources/

在這場比賽中,我們可以看到 AI 的一個缺陷:除了特定的分兵戰(zhàn)術(shù),并沒有靈活的兵力分配概念。這讓我們想起打星際 1 電腦的遠古時代,開局派出一個農(nóng)民去攻擊電腦的基地,電腦就會派出所有農(nóng)民去一直追殺你這個農(nóng)民。這場 MaNa 也是利用的相似的辦法,棱鏡帶著兩不朽在 AI 的基地不停騷擾,AlphaStar 一旦回防立刻飛走,等 AI 兵力出門又立刻繼續(xù)騷擾。

開局不久后,AlphaStar 便逐漸占據(jù)優(yōu)勢,正面利用追獵者襲擾 MaNa 的二礦,背面則用兩個先知不斷進犯礦區(qū)。人工智能展現(xiàn)的壓迫力讓場面變得非常緊張。

雖然人工智能在兵力對等的情況下每次都能占到便宜,但人類的偷襲戰(zhàn)術(shù)逐漸吸引了 AlphaStar 的主要兵力,幫助 MaNa 成功扛過 AI 的正面進攻。隨后,MaNa 的大軍在對手二礦位置獲得了決定性勝利。到了第 12 分鐘,人類打爆了 AI 的所有建筑,獲得了勝利。

AlphaStar 官方解讀

AlphaStar 的行為是由一種深度神經(jīng)網(wǎng)絡(luò)生成的,該網(wǎng)絡(luò)從原數(shù)據(jù)界面(單位列表與它們的特性)接收輸入數(shù)據(jù),輸出構(gòu)成游戲內(nèi)行為的指令序列。具體來說,該神經(jīng)網(wǎng)絡(luò)在單元中使用了一個 transformer 作為軀干,結(jié)合了一個深度 LSTM 核、一個帶有 pointer 網(wǎng)絡(luò)的自動回歸策略 head 以及一個中心價值基線。

AlphaStar 也使用到了全新的多智能體學(xué)習(xí)算法。神經(jīng)網(wǎng)絡(luò)最初通過暴雪公開的匿名人類游戲視頻以監(jiān)督學(xué)習(xí)進行訓(xùn)練。這讓 AlphaStar 能夠通過模仿進行學(xué)習(xí)天梯玩家的基礎(chǔ)微操與宏觀操作策略。

AlphaStar 聯(lián)盟。最初是通過人類玩家的游戲回放視頻進行訓(xùn)練,然后與其他對手對抗訓(xùn)練。每次迭代就匹配新的對手,凍結(jié)原來的對手,匹配對手的概率和超參數(shù)決定了每個智能體采用的的學(xué)習(xí)目標(biāo)函數(shù),保留多樣性的同時增加難度。智能體的參數(shù)通過強化學(xué)習(xí)進行更新。最終的智能體采樣自聯(lián)盟的納什分布(沒有更換)。

隨著自我博弈的進行,AlphaStar 逐漸開發(fā)出了越來越成熟的戰(zhàn)術(shù)。DeepMind 表示,這一過程和人類玩家發(fā)現(xiàn)戰(zhàn)術(shù)的過程類似:新的戰(zhàn)術(shù)不斷擊敗舊的戰(zhàn)術(shù)。

為了訓(xùn)練 AlphaStar,DeepMind 使用了谷歌最先進的深度學(xué)習(xí)芯片 TPU v3 構(gòu)建了一個高度可擴展的分布式訓(xùn)練配置,支持數(shù)千個對戰(zhàn)訓(xùn)練并行運算。AlphaStar 聯(lián)賽運行了 14 天,每個人工智能體使用 16 塊 TPU。在訓(xùn)練時間上,每個智能體相當(dāng)于訓(xùn)練了人類的 200 年游戲時間。最后成型的 AlphaStar 采用了各個智能體中獲勝概率最高戰(zhàn)術(shù)的組合,并可以在單個 GPU 的計算機上運行。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4781

    瀏覽量

    101175
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47683

    瀏覽量

    240301
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    10942

原文標(biāo)題:揭秘星際2人工智能AlphaStar:DeepMind科學(xué)家回應(yīng)一切

文章出處:【微信號:AItists,微信公眾號:人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    2025年人工智能會發(fā)生哪些變化

    2025年人工智能會發(fā)生哪些革命性的變化?斯坦福大學(xué)以人為中心的人工智能研究所的領(lǐng)先專家表示,2025 年人工智能個主要趨勢是協(xié)作人工智能
    的頭像 發(fā)表于 01-21 11:28 ?428次閱讀

    嵌入式和人工智能究竟是什么關(guān)系?

    領(lǐng)域,如工業(yè)控制、智能家居、醫(yī)療設(shè)備等。 人工智能是計算機科學(xué)個分支,它研究如何使計算機具備像人類樣思考、學(xué)習(xí)、推理和決策的能力。
    發(fā)表于 11-14 16:39

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第6章AI與能源科學(xué)讀后感

    幸得好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 在閱讀《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》的第6章后,我深刻感受到人工智能在能源
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    。 4. 對未來生命科學(xué)發(fā)展的展望 在閱讀這章后,我對未來生命科學(xué)的發(fā)展充滿了期待。我相信,在人工智能技術(shù)的推動下,生命科學(xué)將取得更加顯著
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    非常高興本周末收到本新書,也非常感謝平臺提供閱讀機會。 這是本挺好的書,包裝精美,內(nèi)容詳實,干活滿滿。 關(guān)于《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第二章“AI
    發(fā)表于 10-14 09:16

    《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》第人工智能驅(qū)動的科學(xué)創(chuàng)新學(xué)習(xí)心得

    的效率,還為科學(xué)研究提供了前所未有的洞察力和精確度。例如,在生物學(xué)領(lǐng)域,AI能夠幫助科學(xué)家快速識別基因序列中的關(guān)鍵變異,加速新藥研發(fā)進程。 2. 跨學(xué)科融合的新范式 書中強調(diào),人工智能
    發(fā)表于 10-14 09:12

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新

    ! 《AI for Science:人工智能驅(qū)動科學(xué)創(chuàng)新》 這本書便將為讀者徐徐展開AI for Science的美麗圖景,與大家起去了解: 人工智能究竟幫
    發(fā)表于 09-09 13:54

    智能機械臂人臉識別特效丨國產(chǎn)Cortex-A55人工智能實驗箱案例分享

    智能機械臂人臉識別特效丨國產(chǎn)Cortex-A55人工智能實驗箱案例分享
    的頭像 發(fā)表于 08-30 13:03 ?599次閱讀
    <b class='flag-5'>智能</b>機械臂人臉識別特效丨國產(chǎn)Cortex-A55<b class='flag-5'>人工智能</b>實驗箱案例分享

    報名開啟!深圳(國際)通用人工智能大會將啟幕,國內(nèi)外大咖齊聚話AI

    呈現(xiàn)、產(chǎn)業(yè)展覽、技術(shù)交流、學(xué)術(shù)論壇于體的世界級人工智能合作交流平臺。本次大會暨博覽會由工業(yè)和信息化部政府采購中心、廣東省工商聯(lián)、前海合作區(qū)管理局、深圳市信局等單位指導(dǎo),深圳市人工智能
    發(fā)表于 08-22 15:00

    智能目標(biāo)顏色識別抓取丨國產(chǎn)Cortex-A55人工智能實驗箱機械臂案例分享

    智能目標(biāo)顏色識別抓取丨國產(chǎn)Cortex-A55人工智能實驗箱機械臂案例分享
    的頭像 發(fā)表于 08-10 08:32 ?418次閱讀
    <b class='flag-5'>智能</b>目標(biāo)顏色識別抓取丨國產(chǎn)Cortex-A55<b class='flag-5'>人工智能</b>實驗箱機械臂案例分享

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個方面: 、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    前OpenAI首席科學(xué)家創(chuàng)辦新的AI公司

    人工智能領(lǐng)域擁有豐富經(jīng)驗和卓越成就的深度學(xué)習(xí)專家伊爾亞·蘇茨克維(Ilya Sutskever)周三宣布,他正在創(chuàng)辦家名為Safe Superintelligence的新型人工智能公司。這
    的頭像 發(fā)表于 06-21 10:42 ?570次閱讀

    本源量子參與的國家重點研發(fā)計劃青年科學(xué)家項目啟動會順利召開

    2024年4月23日,國家重點研發(fā)計劃“先進計算與新興軟件”重點專項“面向復(fù)雜物理系統(tǒng)求解的量子科學(xué)計算算法、軟件、應(yīng)用與驗證”青年科學(xué)家項目啟動會暨實施方案論證會在合肥順利召開。該項目由合肥綜合性國家科學(xué)中心
    的頭像 發(fā)表于 05-11 08:22 ?829次閱讀
    本源量子參與的國家重點研發(fā)計劃青年<b class='flag-5'>科學(xué)家</b>項目啟動會順利召開

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V2

    ://t.elecfans.com/v/27221.html *附件:初學(xué)者完整學(xué)習(xí)流程實現(xiàn)手寫數(shù)字識別案例_V2-20240506.pdf 人工智能 語音對話機器案例 26分03秒 https
    發(fā)表于 05-10 16:46

    5G智能物聯(lián)網(wǎng)課程之Aidlux下人工智能開發(fā)(SC171開發(fā)套件V1)

    軟件使用 11分46秒 https://t.elecfans.com/v/25507.html *附件:AidLux平臺使用介紹.pdf 人工智能 AIMO模型優(yōu)化平臺介紹 2分20秒 https
    發(fā)表于 04-01 10:40
    大发888娱乐城官方lm0| 64风波| 大发888 没人举报吗| 若尔盖县| 免费百家乐游戏机| 七匹狼娱乐城开户| 太阳百家乐官网游戏| 免费百家乐追号| 百家乐官网庄家的胜率| 百家乐官网贴士介绍| 网上百家乐游戏哪家信誉度最好| 澳门赌场着装| 百家乐规则澳门| 333娱乐| 网上百家乐能作弊吗| 天鸿德州扑克游戏币| 赌博百家乐官网秘笈| 百家乐公式书| 正定县| 百家乐金海岸软件| 百家乐官网游戏怎样玩| 玩机器百家乐心得| 麻江县| 励骏会百家乐的玩法技巧和规则| 额尔古纳市| 24山分金吉凶断| 布尔津县| 百家乐赌博在线娱乐| 波音百家乐| 百家乐冲动| 至尊百家乐官网2014| 百家乐是怎样算牌| 太阳城百家乐官网娱乐官方网| V博百家乐的玩法技巧和规则| 百家乐官网玩法教学视频| 玩百家乐输澳门百家乐现场| 爱拼娱乐城| 百家乐凯时娱乐场| 永利百家乐官网娱乐场| 大发888娱乐场下载客户端| 百家乐官网变牌器批发|