美國陸軍面向未來多域作戰概念研發了一種高效的地面機器人學習模型,該模型提出基于強化學習的策略,可有效減少當前訓練強化學習策略的不可預測性,使自主智能體能夠推理并適應不斷變化的戰場條件。
強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞。強化學習技術具備解決復雜問題的能力,近年來在如圍棋、象棋和電子游戲等領域有較為長足的發展。美國陸軍將這種強化學習技術應用在地面機器人面臨著兩個巨大挑戰。首先是算法的限制。在強化學習中,策略梯度方法(Policy Gradient Methods)是連續空間可伸縮算法的基礎,但是現有技術無法支持更廣泛的決策目標,例如風險敏感性、安全約束、對先驗知識的探索和發散。其次就是數據量的問題。強化學習需要大量的樣本復雜性,而美國陸軍多域作戰概念和下一代戰斗車輛(NGCV)項目目前數據匱乏并不支持現有訓練機制。
在陸軍多域作戰概念和NGCV項目中應用強化學習,訓練機制必須提高連續空間中的樣本效率和可靠性,ARL通過將現有的策略搜索方案推廣到通用工具,取得了重要突破。研究人員為通用程序開發了新的策略搜索方案,并且還確定了其樣本復雜度。由此產生的策略搜索方案減少了獎勵積累的波動性,形成了對未知領域的有效探索和先驗的機制。值得注意的是,地面機器人獲取數據的成本很高。減少獎勵積累的波動性,確保以有效的方式探索未知領域,或者吸收以前的經驗,都將有助于打破強化學習中現行實踐的樣本效率壁壘。通過減少隨機抽樣的數量,可以實現策略優化。
這項研究為強化學習中的經典策略梯度定理做出了貢獻。裝備有強化學習功能的自主機器人將能夠協助戰士在未來戰場上進行偵察探索和風險評估。研究人員下一步計劃在強化學習中將更廣泛的決策目標納入多主體設置,并研究強化學習主體之間的交互設置如何在團隊之間產生協同和對抗性推理。
責任編輯:YYX
-
機器人
+關注
關注
211文章
28646瀏覽量
208431
發布評論請先 登錄
相關推薦
構建人形機器人學習的合成運動生成管線
![構建人形<b class='flag-5'>機器人學習</b>的合成運動生成管線](https://file1.elecfans.com/web3/M00/06/2B/wKgZPGeIdgOAHo0UAAARx11NzcQ599.png)
【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型
【「具身智能機器人系統」閱讀體驗】1.初步理解具身智能
【「具身智能機器人系統」閱讀體驗】1.全書概覽與第一章學習
《具身智能機器人系統》第7-9章閱讀心得之具身智能機器人與大模型
【「具身智能機器人系統」閱讀體驗】+初品的體驗
一種新型機翼應變載荷關系神經網絡模型
![<b class='flag-5'>一種</b>新型機翼應變載荷關系神經網絡<b class='flag-5'>模型</b>](https://file1.elecfans.com/web2/M00/0C/16/wKgZomc-oyeAUmULAABxL3SsNPk992.png)
麻省理工學院推出新型機器人訓練模型
構建語音控制機器人 - 線性模型和機器學習
![構建語音控制<b class='flag-5'>機器人</b> - 線性<b class='flag-5'>模型</b>和<b class='flag-5'>機器</b><b class='flag-5'>學習</b>](https://file1.elecfans.com/web2/M00/04/DA/wKgZombUJe-AGQFLAAAcFz0Pgic973.jpg)
FMEA在焊接機器人研發中的應用
Al大模型機器人
NVIDIA Isaac 機器人平臺利用最新的生成式 AI 和先進的仿真技術,加速 AI 機器人技術的發展
![NVIDIA Isaac <b class='flag-5'>機器人</b>平臺利用最新的生成式 AI 和先進的仿真技術,加速 AI <b class='flag-5'>機器人</b>技術的發展](https://file1.elecfans.com//web2/M00/EC/89/wKgaomZe5cOAJ4oaAABqKAD4BXg456.png)
現代戰場中地面機器人的應用與影響
NVIDIA Isaac機器人平臺升級,加速AI機器人技術革新
機器人學習中主流智能抓取方案
![<b class='flag-5'>機器人學習</b>中主流智能抓取方案](https://file1.elecfans.com/web2/M00/C4/16/wKgZomXxC8mAJlTaAAA5NgxRuWM161.png)
評論