吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌、DeepMind重磅推出PlaNet 強化學習新突破

DPVg_AI_era ? 來源:cc ? 2019-02-17 09:30 ? 次閱讀

Google AI 與 DeepMind 合作推出深度規劃網絡 (PlaNet),這是一個純粹基于模型的智能體,能從圖像輸入中學習世界模型,完成多項規劃任務,數據效率平均提升50倍,強化學習又一突破。

通過強化學習 (RL),對 AI 智能體如何隨著時間的推移提高決策能力的研究進展迅速。

對于強化學習,智能體在選擇動作 (例如,運動命令) 時會觀察一系列感官輸入(例如,相機圖像),并且有時會因為達成指定目標而獲得獎勵。

RL 的無模型方法 (Model-free) 旨在通過感官觀察直接預測良好的行為,這種方法使 DeepMind 的 DQN 能夠玩雅達利游戲,使其他智能體能夠控制機器人

然而,這是一種黑盒方法,通常需要經過數周的模擬交互才能通過反復試驗來學習,這限制了它在實踐中的有效性。

相反,基于模型的 RL 方法 (Model-basedRL) 試圖讓智能體了解整個世界的行為。這種方法不是直接將觀察結果映射到行動,而是允許 agent 明確地提前計劃,通過 “想象” 其長期結果來更仔細地選擇行動。

Model-based 的方法已經取得了巨大的成功,包括 AlphaGo,它設想在已知游戲規則的虛擬棋盤上進行一系列的移動。然而,要在未知環境中利用規劃(例如僅將像素作為輸入來控制機器人),智能體必須從經驗中學習規則或動態。

由于這種動態模型原則上允許更高的效率和自然的多任務學習,因此創建足夠精確的模型以成功地進行規劃是 RL 的長期目標。

為了推動這項研究挑戰的進展,Google AI 與 DeepMind 合作,提出了深度規劃網絡 (Deep Planning Network, PlaNet),該智能體僅從圖像輸入中學習世界模型 (world model),并成功地利用它進行規劃。

PlaNet 解決了各種基于圖像的控制任務,在最終性能上可與先進的 model-free agent 競爭,同時平均數據效率提高了 5000%。研究團隊將發布源代碼供研究社區使用。

在 2000 次的嘗試中,PlaNet 智能體學習解決了各種連續控制任務。以前的沒有學習環境模型的智能體通常需要多 50 倍的嘗試次數才能達到類似的性能。

PlaNet 的工作原理

簡而言之,PlaNet 學習了給定圖像輸入的動態模型 (dynamics model),并有效地利用該模型進行規劃,以收集新的經驗。

與以前的圖像規劃方法不同,我們依賴于隱藏狀態或潛在狀態的緊湊序列。這被稱為latent dynamics model:我們不是直接從一個圖像到下一個圖像地預測,而是預測未來的潛在狀態。然后從相應的潛在狀態生成每一步的圖像和獎勵。

通過這種方式壓縮圖像,agent 可以自動學習更抽象的表示,例如對象的位置和速度,這樣就可以更容易地向前預測,而不需要沿途生成圖像。

Learned Latent Dynamics Model:在 latent dynamics 模型中,利用編碼器網絡(灰色梯形) 將輸入圖像的信息集成到隱藏狀態(綠色) 中。然后將隱藏狀態向前投影,以預測未來的圖像(藍色梯形) 和獎勵(藍色矩形)。

為了學習一個精確的 latent dynamics 模型,我們提出了:

循環狀態空間模型 (Recurrent State Space Model):一種具有確定性和隨機性成分的 latent dynamics 模型,允許根據魯棒規劃的需要預測各種可能的未來,同時記住多個時間步長的信息。我們的實驗表明這兩個組件對于提高規劃性能是至關重要的。

潛在超調目標 (Latent Overshooting Objective):我們通過在潛在空間中強制 one-step 和 multi-step 預測之間的一致性,將 latent dynamics 模型的標準訓練目標推廣到訓練多步預測。這產生了一個快速和有效的目標,可以改善長期預測,并與任何潛在序列模型兼容。

雖然預測未來的圖像允許我們教授模型,但編碼和解碼圖像 (上圖中的梯形) 需要大量的計算,這會減慢智能體的 planning 過程。然而,在緊湊的潛在狀態空間中進行 planning 是很快的,因為我們只需要預測未來的 rewards 來評估一個動作序列,而不是預測圖像。

例如,智能體可以想象球的位置和它到目標的距離在特定的動作中將如何變化,而不需要可視化場景。這允許我們在每次智能體選擇一個動作時,將 10000 個想象的動作序列與一個大的 batch size 進行比較。然后執行找到的最佳序列的第一個動作,并在下一步重新規劃。

在潛在空間中進行規劃:為了進行規劃,我們將過去的圖像 (灰色梯形) 編碼為當前的隱藏狀態 (綠色)。這樣,我們可以有效地預測多個動作序列的未來獎勵。請注意,上圖中昂貴的圖像解碼器 (藍色梯形) 已經消失了。然后,執行找到的最佳序列的第一個操作 (紅色框)。

與我們之前關于世界模型的工作 (https://worldmodels.github.io/) 相比,PlaNet 在沒有策略網絡的情況下工作 —— 它純粹通過 planning 來選擇行動,因此它可以從模型當下的改進中獲益。有關技術細節,請參閱我們的研究論文。

PlaNet vs. Model-Free 方法

我們在連續控制任務上評估了 PlaNet。智能體只被輸入圖像觀察和獎勵。我們考慮了具有各種不同挑戰的任務:

側手翻任務:帶有一個固定的攝像頭,這樣推車可以移動到視線之外。因此,智能體必須吸收并記住多個幀的信息。

手指旋轉任務:需要預測兩個單獨的對象,以及它們之間的交互。

獵豹跑步任務:包括難以準確預測的地面接觸,要求模型預測多個可能的未來。

杯子接球任務:它只在球被接住時提供一個稀疏的獎勵信號。這要求準確預測很遠的未來,并規劃一個精確的動作序列。

走路任務:模擬機器人一開始是躺在地上,然后它必須先學會站立,再學習行走。

PlaNet 智能體接受了各種基于圖像的控制任務的訓練。動圖顯示了當智能體解決任務時輸入的圖像。這些任務提出了不同的挑戰:部分可觀察性、與地面的接觸、接球的稀疏獎勵,以及控制一個具有挑戰性的雙足機器人。

這一研究是第一個使用學習模型進行規劃,并在基于圖像的任務上優于 model-free 方法的案例。

下表將PlaNet與著名的A3C 智能體和 D4PG 智能體進行了比較,后者結合了 model-free RL 的最新進展。這些基線數據來自 DeepMind 控制套件。PlaNet 在所有任務上都明顯優于 A3C,最終性能接近 D4PG,同時與環境的交互平均減少了 5000%。

所有任務只需要一個智能體

此外,我們只訓練了一個單一的 PlaNet 智能體來解決所有六個任務。

在不知道任務的情況下,智能體被隨機放置在不同的環境中,因此它需要通過觀察圖像來推斷任務。

在不改變超參數的情況下,多任務智能體實現了與單個智能體相同的平均性能。雖然在側手翻任務中學習速度較慢,但在需要探索的具有挑戰性的步行任務中,它的學習速度要快得多,最終表現也更好。

在多個任務上訓練的 PlaNet 智能體。智能體觀察前 5 個幀作為上下文以推斷任務和狀態,并在給定動作序列的情況下提前準確地預測 50 個步驟。

結論

我們的結果展示了構建自主 RL 智能體的學習動態模型的前景。我們鼓勵進一步的研究,集中在學習更困難的任務的精確動態模型,如三維環境和真實的機器人任務。擴大規模的一個可能因素是 TPU 的處理能力。我們對 model-based 強化學習帶來的可能性感到興奮,包括多任務學習、分層規劃和使用不確定性估計的主動探索。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6194

    瀏覽量

    106016
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11301
  • DeepMind
    +關注

    關注

    0

    文章

    131

    瀏覽量

    10939

原文標題:一個智能體打天下:谷歌、DeepMind重磅推出PlaNet,數據效率提升50倍

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    谷歌加速AI部門整合:AI Studio團隊并入DeepMind

    近日,谷歌正緊鑼密鼓地推進其人工智能(AI)部門的整合工作。據谷歌AI Studio主管Logan Kilpatrick在領英頁面上的透露,谷歌已將AI Studio團隊整體轉移至DeepMi
    的頭像 發表于 01-13 14:40 ?241次閱讀

    OpenAI從谷歌DeepMind挖角三名高級工程師

    近日,據Wired最新報道,OpenAI在人才爭奪戰中取得了顯著成果,成功從競爭對手谷歌DeepMind“挖角”了三名高級計算機視覺和機器學習領域的專家。 據悉,這三名工程師分別是Lucas
    的頭像 發表于 12-04 14:13 ?351次閱讀

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    近日,專注于模型賽道的初創企業邊塞科技宣布被螞蟻集團收購。據悉,此次交易完成后,邊塞科技將保持獨立運營,而原投資人已全部退出。 與此同時,螞蟻集團近期宣布成立強化學習實驗室,旨在推動大模型強化學習
    的頭像 發表于 11-22 11:14 ?709次閱讀

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發表于 11-05 17:34 ?394次閱讀

    AI實火!諾貝爾又把化學獎頒給AI大模型

    昨天AI教父Geoff Hinton剛獲得諾貝爾物理學獎,今天,谷歌DeepMind聯合創始人兼首席執行官Demis Hassabis又拿下化學獎! Demis能獲得化學獎靠的便是
    的頭像 發表于 10-10 10:38 ?274次閱讀

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹了其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現
    的頭像 發表于 09-30 16:16 ?470次閱讀

    谷歌DeepMind被曝抄襲開源成果,論文還中了頂流會議

    谷歌DeepMind一篇中了頂流新生代會議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項研究。開源的那種。
    的頭像 發表于 07-16 18:29 ?645次閱讀
    <b class='flag-5'>谷歌</b><b class='flag-5'>DeepMind</b>被曝抄襲開源成果,論文還中了頂流會議

    通過強化學習策略進行特征選擇

    更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中,我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習,尤其是馬爾可夫決策
    的頭像 發表于 06-05 08:27 ?414次閱讀
    通過<b class='flag-5'>強化學習</b>策略進行特征選擇

    谷歌提出大規模ICL方法

    谷歌DeepMind團隊近日取得了一項突破性的研究成果。他們提出了強化和無監督兩種新型的ICL(In-Context Learning)學習
    的頭像 發表于 05-14 14:17 ?401次閱讀

    谷歌DeepMind發布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日發布了人工智能模型AlphaFold的最新版本——AlphaFold 3,這一革命性的工具將在藥物發現和疾病治療領域發揮巨大作用。
    的頭像 發表于 05-10 11:26 ?637次閱讀

    谷歌DeepMind推出新一代藥物研發AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名為AlphaFold 3的全新藥物研發AI模型,這一創新技術將為科學家們提供前所未有的幫助,使他們能更精確地理解疾病機制,進而開發出更高效的
    的頭像 發表于 05-10 09:35 ?439次閱讀

    谷歌DeepMind推出SIMI通用AI智能體

    近日,谷歌DeepMind團隊發布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),這是一個通用人工智能智能體,能夠在多種3D虛擬環境
    的頭像 發表于 03-18 11:39 ?1054次閱讀

    谷歌模型軟件有哪些功能

    谷歌模型軟件通常指的是谷歌推出的一系列人工智能模型和軟件工具,其中最具代表性的是Google Gemini。Google Gemini是谷歌Deep
    的頭像 發表于 03-01 16:20 ?750次閱讀

    谷歌交互世界模型重磅發布

    谷歌模型
    北京中科同志科技股份有限公司
    發布于 :2024年02月28日 09:13:06

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺

    據報道,谷歌公司的DeepMind團隊近期發布了AI模型Genie,此模型擁有多達110億個參數,能夠依據用戶提供的圖片及提示詞創建出相當完整的2D游戲場景。
    的頭像 發表于 02-27 14:53 ?844次閱讀
    世界十大博彩公司| 百家乐怎么| 伯爵百家乐官网娱乐城| 金钱豹百家乐的玩法技巧和规则| 大发888的概述| 澳门百家乐出千| 游戏机百家乐官网作弊| 大发888娱乐城官方lm0| 百家乐群东方鸿运| 百家乐官网长龙太阳城| 1368棋牌官网| 百家乐桌布| 新锦江百家乐官网娱乐平台| 百家乐网| 百家乐游戏什么时间容易出对| 红宝石百家乐官网的玩法技巧和规则| 名山县| 全讯网qtqnet| 百家乐黑牌靴| 百家乐官网永利娱乐网| 通河县| 大发888.comwf| 一直对百家乐很感兴趣.zibo太阳城娱乐城| 百家乐官网任你博娱乐平台| 菲律宾新利国际| 百家乐在线娱乐场| 百家乐官网棋牌游戏币| 香港六合彩官方网站| 哪家百家乐从哪而来| 百家乐视频游戏大厅| 百家乐官网乐翻天| 赌百家乐官网的心得体会| 易胜博网站| 威尼斯人娱乐棋牌平台| 赌场百家乐试玩| 百家乐官网职业打| 澳门百家乐官网路单怎么看 | 百家乐开户送百元| 百家乐官网博娱乐网| 新葡京百家乐官网现金网| 乐天堂娱乐城|