吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何構(gòu)建強化學(xué)習(xí)模型來訓(xùn)練無人車算法

ml8z_IV_Technol ? 來源:未知 ? 作者:胡薇 ? 2018-11-12 14:47 ? 次閱讀

本文作者通過簡單的方式構(gòu)建了強化學(xué)習(xí)模型來訓(xùn)練無人車算法,可以為初學(xué)者提供快速入門的經(jīng)驗。

想象一下,你生活在一個沒有交通擁堵,沒有交通事故,也無需花費時間開車的世界,那會多美好。

在我之前做過的一篇關(guān)于強化學(xué)習(xí)的文章中(鏈接在文末)曾說過,自動駕駛汽車是一場革命,主要有兩個原因:

每年因交通事故將挽救125萬人的生命

省下開車的時間,它會讓你在一生中多活3年

很多公司已經(jīng)在研究自動駕駛汽車了!比如特斯拉,谷歌,Wayve等等。這些自動駕駛汽車往往使用了強化學(xué)習(xí)!

再說一遍,如果你還沒有讀上一篇文章(鏈接在文末),可以先讀一下,在這里我只做上篇文章的簡要概述。

強化學(xué)習(xí)使機器(或者稱為智能體)通過實驗學(xué)習(xí)。就像人類學(xué)習(xí)走路。起初,你以一定的方式移動你的腿,但是你會跌倒。你跌倒了很多次,但最終,經(jīng)過多次嘗試,你會慢慢學(xué)會如何移動你的腿來走路。強化學(xué)習(xí)的原則與此相同!

比較正式的說法是,具有特定狀態(tài)的環(huán)境中的智能體具有可以執(zhí)行的一組動作。在執(zhí)行這些動作后,它會收到一個獎勵,讓智能體知道這個動作有多好。當(dāng)然,我們希望得到與我們目標相符的最高的獎勵。貝爾曼方程用于說明未來的獎勵,它通常是一系列導(dǎo)致積極結(jié)果的動作。在Q學(xué)習(xí)函數(shù)(Q-Learning)中,我們使用這些獎勵來更新可以告訴我們某個狀態(tài)有好壞的Q值。在深度Q學(xué)習(xí)(Deep Q-Learning)中,我們使用可以近似Q值的深度神經(jīng)網(wǎng)絡(luò)來代替Q值。當(dāng)下次我們的智能體在環(huán)境中移動時,它將使用深度Q網(wǎng)絡(luò)(Deep Q-Network)為每個動作生成Q值,并采用具有最高Q值的動作。

概念說太多也許你不明白,直觀理解就足夠了。強化學(xué)習(xí)與我們學(xué)習(xí)的方式進行比較是:

我們采取的行動會產(chǎn)生正面或反面的后果。如果它是正面的,我們會再次采取行動,反之亦然。就這么簡單!

現(xiàn)在開始構(gòu)建我們的虛擬自動駕駛汽車,讓我們來看看構(gòu)建的過程。

1.建立環(huán)境

首先,我需要為我的車創(chuàng)建虛擬環(huán)境。我最初想到創(chuàng)建一個Unity環(huán)境,但我的筆記本電腦在創(chuàng)建Unity游戲時感覺已經(jīng)快死了。再加上機器學(xué)習(xí)和錄制軟件,我認為這么麻煩不值得。

我使用了一個名為Kivy的python包來創(chuàng)建UI。

我們從一張空地圖開始。“汽車”的目標是在地圖的左上角到右下角之間來回移動。

但是,我可以在地圖上繪制“沙地”。如果汽車碰到了沙地,就會被視為出了車禍!

我們將使用強化學(xué)習(xí)(RL),特別是深度Q-Learning來制造我們的自動駕駛汽車。RL算法都有3個關(guān)鍵元素,狀態(tài)(State),動作(Action)和獎勵(Reward)。以下我的程序中定義這些元素的方式:

狀態(tài)

汽車所處的狀態(tài)包括5個變量:

傳感器紅色

傳感器黃色

傳感器藍色

方向

負方向

前三個來自汽車前部的3個傳感器。每個傳感器(紅色,黃色,藍色)都能探測到距離自身10像素半徑內(nèi)的沙地的像素。從邏輯上講,也就是說,如果汽車左側(cè)有一堵沙墻,藍色傳感器會比黃色傳感器探測到的沙地更多。這使汽車可以確定沙地的位置,從而確定行進的方向。最后2個變量代表汽車的方向。以角度衡量,0度將指向上方。我們還添加了負方向方便優(yōu)化和提升性能。

動作

有三種可能的行動:

順時針旋轉(zhuǎn)20度

逆時針轉(zhuǎn)動20度

不轉(zhuǎn)彎

獎勵

主要獎勵包括:

-5:如果汽車駛?cè)肷车?/p>

-0.1:如果汽車離目的地越遠

0.1:如果汽車更接近目的地

這些只是主要的獎勵。我還根據(jù)汽車的性能定義了其他獎勵。例如,我后來意識到汽車離地圖的邊緣太近了,所以每當(dāng)距離邊緣10個像素內(nèi)時我就給它一個負獎勵。在實踐中,你可以自行定義獎勵,以獲得自己想要達到的效果。

2.選擇模型

我決定使用強化學(xué)習(xí),特別是深度Q學(xué)習(xí)。這是我的神經(jīng)網(wǎng)絡(luò)的架構(gòu):

輸入層:5個節(jié)點(每個狀態(tài)一個輸入節(jié)點)

隱藏層:30個節(jié)點

輸出層:3個節(jié)點(每個動作一個)

激活函數(shù):ReLU

優(yōu)化器:Adam

一個隱藏層通常足以解決這類簡單的問題。再進行訓(xùn)練需要更長的時間,并且不會帶來顯著的性能提升。

3.訓(xùn)練

訓(xùn)練時,汽車開始行駛,并逐漸適應(yīng)環(huán)境。我添加了按鈕來保存,并將以前的模型加載到當(dāng)前的自動駕駛汽車中。以下是我們實際學(xué)習(xí)的代碼片段:

4.評估和參數(shù)調(diào)整

這是智能體每個時間步獲得獎勵的圖。在圖中,智能體每次接近目標時都獲得+1獎勵,遠離則獲得-1獎勵。這由+0.1和-0.1累積而來。訓(xùn)練在1500個時間步后達到穩(wěn)定水平。

上面是更早之前生成的圖。這是當(dāng)智能體視離目標的遠近分別獲得+0.1和-0.1獎勵。如你所見,獎勵在2000步之后穩(wěn)定了,而不是這次的1500步。這兩個圖平均需要10個不同的訓(xùn)練周期。結(jié)果表明,+1和-1獎勵訓(xùn)練速度比+0.1和-0.1獎勵更快。

對該模型進行了許多其他更改。比如:

天氣調(diào)整

額外的獎勵(例如,智能體不采取最佳路線。我們增加獎勵,鼓勵智能體降低與上一圈相比達到目標的步數(shù)。)

不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)(例如,層數(shù),節(jié)點數(shù),優(yōu)化器,激活函數(shù))

5.預(yù)測!

現(xiàn)在,我們的優(yōu)化模型。我們的汽車可以無碰撞地進行自動駕駛!

我在這里開發(fā)了RL驅(qū)動的自動駕駛汽車的基礎(chǔ)架構(gòu)。現(xiàn)實生活中的汽車將更難進行編碼,但我相信我們最終會成功。并且,我是在筆記本電腦上進行研發(fā),其計算能力比特斯拉公司的小數(shù)百萬倍。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 無人車
    +關(guān)注

    關(guān)注

    1

    文章

    304

    瀏覽量

    36566
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    268

    瀏覽量

    11299

原文標題:強化學(xué)習(xí)開源項目:自己動手創(chuàng)建虛擬自動駕駛汽車

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    深度強化學(xué)習(xí)實戰(zhàn)

    內(nèi)容2:課程一: TensoRFlow入門到熟練:課程二:圖像分類:課程三:物體檢測:課程四:人臉識別:課程五:算法實現(xiàn):1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強化學(xué)習(xí)DRL4、對抗性生成
    發(fā)表于 01-10 13:42

    基于強化學(xué)習(xí)的MADDPG算法原理及實現(xiàn)

    之前接觸的強化學(xué)習(xí)算法都是單個智能體的強化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場景牽涉到多個智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    量化深度強化學(xué)習(xí)算法的泛化能力

    OpenAI 近期發(fā)布了一個新的訓(xùn)練環(huán)境 CoinRun,它提供了一個度量智能體將其學(xué)習(xí)經(jīng)驗活學(xué)活用到新情況的能力指標,而且還可以解決一項長期存在于強化學(xué)習(xí)中的疑難問題——即使是廣受贊譽的強化
    的頭像 發(fā)表于 01-01 09:22 ?2445次閱讀
    量化深度<b class='flag-5'>強化學(xué)習(xí)</b><b class='flag-5'>算法</b>的泛化能力

    基于PPO強化學(xué)習(xí)算法的AI應(yīng)用案例

    Viet Nguyen就是其中一個。這位來自德國的程序員表示自己只玩到了第9個關(guān)卡。因此,他決定利用強化學(xué)習(xí)AI算法幫他完成未通關(guān)的遺憾。
    發(fā)表于 07-29 09:30 ?2842次閱讀

    機器學(xué)習(xí)中的無模型強化學(xué)習(xí)算法及研究綜述

    強化學(xué)習(xí)( Reinforcement learning,RL)作為機器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種學(xué)習(xí)范式,通過與環(huán)境進行
    發(fā)表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學(xué)習(xí)</b>中的無<b class='flag-5'>模型</b><b class='flag-5'>強化學(xué)習(xí)</b><b class='flag-5'>算法</b>及研究綜述

    模型化深度強化學(xué)習(xí)應(yīng)用研究綜述

    強化學(xué)習(xí)。無模型強仳學(xué)習(xí)方法的訓(xùn)練過程需要大量樣本,當(dāng)采樣預(yù)算不足,無法收集大量樣本時,很難達到預(yù)期效果。然而,模型
    發(fā)表于 04-12 11:01 ?9次下載
    <b class='flag-5'>模型</b>化深度<b class='flag-5'>強化學(xué)習(xí)</b>應(yīng)用研究綜述

    基于深度強化學(xué)習(xí)的路口單交叉信號控制

    利用深度強化學(xué)習(xí)技術(shù)實現(xiàn)路口信號控制是智能交通領(lǐng)域的硏究熱點。現(xiàn)有硏究大多利用強化學(xué)習(xí)全面刻畫交通狀態(tài)以及設(shè)計有效強化學(xué)習(xí)算法以解決信號配
    發(fā)表于 04-23 15:30 ?21次下載
    基于深度<b class='flag-5'>強化學(xué)習(xí)</b>的路口單交叉信號控制

    基于深度強化學(xué)習(xí)仿真集成的壓邊力控制模型

    壓邊力控制策略的學(xué)習(xí)優(yōu)化。基于深度強化學(xué)習(xí)的壓邊力優(yōu)化算法,利用深度神經(jīng)網(wǎng)絡(luò)處理巨大的狀態(tài)空間,避免了系統(tǒng)動力學(xué)的擬合,并且使用一種新的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)
    發(fā)表于 05-27 10:32 ?0次下載

    基于深度強化學(xué)習(xí)無人機控制律設(shè)計方法

    基于深度強化學(xué)習(xí)無人機控制律設(shè)計方法
    發(fā)表于 06-23 14:59 ?46次下載

    基于強化學(xué)習(xí)的虛擬場景角色乒乓球訓(xùn)練

    基于強化學(xué)習(xí)的虛擬場景角色乒乓球訓(xùn)練
    發(fā)表于 06-27 11:34 ?62次下載

    強化學(xué)習(xí)的基礎(chǔ)知識和6種基本算法解釋

    來源:DeepHub IMBA 強化學(xué)習(xí)的基礎(chǔ)知識和概念簡介(無模型、在線學(xué)習(xí)、離線強化學(xué)習(xí)等) 機器學(xué)習(xí)(ML)分為三個分支:監(jiān)督
    的頭像 發(fā)表于 12-20 14:00 ?1144次閱讀

    徹底改變算法交易:強化學(xué)習(xí)的力量

    強化學(xué)習(xí)(RL)是人工智能的一個子領(lǐng)域,專注于決策過程。與其他形式的機器學(xué)習(xí)相比,強化學(xué)習(xí)模型通過與環(huán)境交互并以獎勵或懲罰的形式接收反饋
    發(fā)表于 06-09 09:23 ?554次閱讀

    ICLR 2023 Spotlight|節(jié)省95%訓(xùn)練開銷,清華黃隆波團隊提出強化學(xué)習(xí)專用稀疏訓(xùn)練框架RLx2

    模型時代,模型壓縮和加速顯得尤為重要。傳統(tǒng)監(jiān)督學(xué)習(xí)可通過稀疏神經(jīng)網(wǎng)絡(luò)實現(xiàn)模型壓縮和加速,那么同樣需要大量計算開銷的強化學(xué)習(xí)任務(wù)可以基于稀疏
    的頭像 發(fā)表于 06-11 21:40 ?715次閱讀
    ICLR 2023 Spotlight|節(jié)省95%<b class='flag-5'>訓(xùn)練</b>開銷,清華黃隆波團隊提出<b class='flag-5'>強化學(xué)習(xí)</b>專用稀疏<b class='flag-5'>訓(xùn)練</b>框架RLx2

    強化學(xué)習(xí)的基礎(chǔ)知識和6種基本算法解釋

    來源:DeepHubIMBA強化學(xué)習(xí)的基礎(chǔ)知識和概念簡介(無模型、在線學(xué)習(xí)、離線強化學(xué)習(xí)等)機器學(xué)習(xí)(ML)分為三個分支:監(jiān)督
    的頭像 發(fā)表于 01-05 14:54 ?1023次閱讀
    <b class='flag-5'>強化學(xué)習(xí)</b>的基礎(chǔ)知識和6種基本<b class='flag-5'>算法</b>解釋

    模擬矩陣在深度強化學(xué)習(xí)智能控制系統(tǒng)中的應(yīng)用

    。 在深度強化學(xué)習(xí)智能控制系統(tǒng)中,訊維模擬矩陣可以用來做以下幾方面的模擬和預(yù)測: 環(huán)境模擬:構(gòu)建多種環(huán)境模型,包括不同參數(shù)的系統(tǒng)、不同干擾因素等,為深度強化學(xué)習(xí)智能控制系統(tǒng)提供多樣化的
    的頭像 發(fā)表于 09-04 14:26 ?617次閱讀
    模擬矩陣在深度<b class='flag-5'>強化學(xué)習(xí)</b>智能控制系統(tǒng)中的應(yīng)用
    百家乐官网微乐| 网址百家乐官网的玩法技巧和规则 | 百家乐官网路纸下| 百家乐官网在线直播| 六合彩开码| 威尼斯人娱乐城网址是| 真人百家乐澳门娱乐城| 百家乐官网德州| 百家乐官网送现金| 百家乐官网注码管理| 国际足球直播| 大发888 大发888娱乐城 大发888娱乐场 | 娱乐城官方网| 富田太阳城租房| 玩百家乐的玩法技巧和规则| 百家乐在线投注系统| 沙龙百家乐官网破解| 鸿发| 大发888官方爱好| 罗马百家乐的玩法技巧和规则| 百家乐网上赌博网| 环球百家乐现金网| 高级百家乐官网桌布| 网上百家乐官网的玩法技巧和规则 | 好运来百家乐现金网| 百家乐官网园首选海立方| 95博彩通| 535棋牌游戏| 大发888游戏充值50| 真人百家乐最高赌注| 娱乐网百家乐的玩法技巧和规则| 百家乐赌博策略论坛| 足球百家乐投注| 百家乐的视频百家乐| 网上百家乐投注法| 百家乐平台租用| 百家乐官网五铺的缆是什么意思| 高档百家乐官网桌子| 百家乐官网赌博经历| 百家乐官网手机版| 百家乐官网998|