金赞娱乐场官网首存送现金,真钱牛牛八号太阳城,赌博堕天录 165(中国)·官方网站

摘要

在開發(fā)出能夠讓這些智能智能體與人類共存的解決方案之前，自動駕駛汽車的廣泛采用不會成為現(xiàn)實。這包括安全有效地與人類駕駛的車輛交互，特別是在沖突和競爭場景中。我們在之前關(guān)于社會意識導(dǎo)航的工作的基礎(chǔ)上，借用了心理學(xué)中的社會價值取向概念，即一個人對他人福利的重視程度，以誘導(dǎo)自動駕駛中的利他行為。與現(xiàn)有的明確模擬人類駕駛員行為并依靠他們的預(yù)期反應(yīng)來創(chuàng)造合作機會的工作相比，我們的交感合作駕駛（SymCoDrive）范式訓(xùn)練利他主義的智能體，在競爭性的駕駛場景中實現(xiàn)安全和平穩(wěn)的交通流，只需通過經(jīng)驗學(xué)習(xí)，無需任何明確協(xié)調(diào)。由于這種利他行為，我們證明了安全性和交通水平指標(biāo)的顯著改善，并得出重要的結(jié)論，智能體的利他主義水平需要適當(dāng)?shù)恼{(diào)整，因為過于利他的智能體也會導(dǎo)致次優(yōu)交通流。

I.簡介

下一代交通系統(tǒng)將通過聯(lián)網(wǎng)的自動駕駛車輛變得更安全、更高效。車對車(V2V)通信使自動駕駛汽車(AVs)能夠構(gòu)成一種大眾智能形式，克服單一智能體以分散方式規(guī)劃的局限性[1]。如果道路上的所有車輛都是連接和自動駕駛的，V2V可以讓它們協(xié)調(diào)和處理需要無私的復(fù)雜駕駛場景，例如，并入和退出高速公路，以及穿過十字路口[2]。

然而，由于自動駕駛汽車和人類駕駛汽車(HVs)的機動性和反應(yīng)時間不同，它們共享的道路自然會成為競爭場景。與完全自動駕駛的情況相比，這里的HV和AV之間的協(xié)調(diào)并不那么直接，因為AV沒有明確的與人類協(xié)調(diào)的手段，因此需要在當(dāng)?shù)乜紤]到它們附近的其他HV和AV。為了進一步闡述這一需求，假設(shè)圖1中描述的合并場景。合并車輛(HV或AV)在高速公路上面對一群混合的AV和HV，需要它們減速以便合并。

圖1：無縫和安全的高速公路并線需要所有的AV共同合作，并考慮到人類駕駛車輛的效用。 (上圖）利己主義的自動駕駛汽車只為自己的效用而優(yōu)化，（下圖）利他主義的自動駕駛汽車在自己的福利上做出妥協(xié)，以顧及人類駕駛的車輛。

如果AVs自顧自地行動，那就得靠高速公路上的HVs來允許并線。由于人類的行為難以預(yù)測和不同，僅依靠人類駕駛員可能導(dǎo)致次優(yōu)甚至不安全的情況。在這個特殊的例子中，假設(shè)是利己主義的AV，并線的車輛要么卡在并線匝道上，無法并線，要么等待HV，在不知道HV是否會減速的情況下冒險切入高速路。

另一方面，利他型自動駕駛汽車可以協(xié)同工作，引導(dǎo)高速公路上的交通，例如，如圖1(b)中AV3所做的那樣，通過減速后面的車輛，以實現(xiàn)無縫和安全的合并。這種利他主義的自動駕駛智能體可以在復(fù)雜的駕駛場景中創(chuàng)造出社會理想的結(jié)果，而不依賴于人類駕駛員的行為或?qū)ζ溥M行假設(shè)。

自動駕駛汽車的利他行為可以通過量化每輛汽車將其他車輛(無論是HV還是AV)的效用納入其局部效用函數(shù)的意愿來形式化。這個概念被定義為社會價值取向（SVO），最近已從心理學(xué)文獻中被用于機器人和人工智能研究[3]。SVO決定了智能體人在他人面前表現(xiàn)出利己主義或利他主義的程度。

圖1(b)展示了AV的利他行為的一個例子，它們?yōu)楹喜⒌腍V創(chuàng)造了一個安全的走廊，并實現(xiàn)了無縫合并。在混合自治的情況下，智能體要么是具有相同的SVO的同質(zhì)性，要么可以直接獲得對方的SVO（通過V2V）。

然而，HV的效用和SVO是未知的，因為它們是主觀的和不穩(wěn)定的，因此無法傳達給AV。

現(xiàn)有的社會導(dǎo)航工作通過預(yù)測人類駕駛者的行為[4]并避免與他們發(fā)生沖突，或者依賴于人類自然愿意或可以被激勵合作的假設(shè)[5]。通過明確地對人類行為進行建模，智能體可以利用合作機會，以實現(xiàn)對人類和自動駕駛智能體都有利的社會目標(biāo)。然而，由于受疲勞、分心和壓力的影響，模型的時間變化以及信念建模技術(shù)對其他智能體行為的可擴展性，人類行為的建模往往具有挑戰(zhàn)性，因此限制了上述方法的實用性。基于模型預(yù)測控制(MPC)的方法通常需要設(shè)計成本函數(shù)和集中協(xié)調(diào)器[6]。因此，它們不適合協(xié)同自動駕駛，因為中央?yún)f(xié)調(diào)是不可行的。

另一方面，數(shù)據(jù)驅(qū)動的解決方案，如強化學(xué)習(xí)，在混合自治多智能體系統(tǒng)中受到挑戰(zhàn)，主要是由于智能體在非穩(wěn)定的環(huán)境中同時進化。

考慮到這些缺點，自動駕駛汽車中的利他主義概念可以分為自動駕駛智能體內(nèi)部的合作和自動駕駛智能體與人類司機之間的共情。將這兩部分分開有助于我們分別探究它們對實現(xiàn)社會目標(biāo)的影響。我們的主要觀點是，確定一個社會效用函數(shù)可以在分散的自動駕駛智能體中誘發(fā)利他主義，并激勵它們相互合作，在沒有明確協(xié)調(diào)或人類SVO信息的情況下共情人類司機。我們所依賴的核心區(qū)別思想是，自動駕駛汽車經(jīng)過訓(xùn)練，可以為所有車輛達到最佳解決方案，學(xué)會僅從經(jīng)驗中隱式地建模人類的決策過程。我們研究利他型自動駕駛汽車在缺乏共情和合作的情況下會變成安全威脅的行為。

換句話說，我們在與圖1中描述的性質(zhì)相似的場景中進行實驗，這些場景基本上要求所有智能體一起工作，任何一個智能體都不能單獨獲得成功。我們的主要貢獻有以下幾點：

● 我們提出了一個數(shù)據(jù)驅(qū)動的框架--交感合作駕駛（SymCoDrive），它結(jié)合了一個分散的獎勵結(jié)構(gòu)來模擬合作和交感，并采用三維卷積深度強化學(xué)習(xí)（DRL）架構(gòu)來捕捉駕駛數(shù)據(jù)中的時間信息，

● 我們展示了調(diào)整汽車中的利他主義水平如何導(dǎo)致不同的新興行為，并影響交通流和駕駛安全，

● 我們在高速公路合并場景中進行了實驗，并證明我們的方法與利己主義的自動駕駛智能體相比，能提高駕駛安全性和社會理想的行為。

II.相關(guān)工作

多智能體強化學(xué)習(xí)。多智能體強化學(xué)習(xí)（MARL）的一個主要挑戰(zhàn)是環(huán)境的非平穩(wěn)性。Foers ter等人提出一個新的學(xué)習(xí)規(guī)則來解決這個問題[7]。

此外，通過從經(jīng)驗重放緩沖器中提取訓(xùn)練樣本進行裝飾的想法變得過時了，可以采用重要性采樣的多智能體推導(dǎo)，從重放緩沖器中刪除過時的樣本[8]。Xie等人也試圖通過使用伙伴策略的潛在表征來緩解這一問題，以實現(xiàn)更可擴展的MARL和伙伴建模[9]。

Foerster等人提出的反事實多智能體（COMA）算法使用集中的批評者和分散的行動者來解決多智能體環(huán)境中的信用分配問題[10]。在集中控制的情況下，對環(huán)境具有完全可觀察性的深度Q網(wǎng)絡(luò)可以用來控制一組智能體的聯(lián)合行動[11]。在混合自治的背景下，現(xiàn)有的文獻側(cè)重于通過對自治智能體（或自治智能體和人類）之間互動的性質(zhì)進行假設(shè)來解決合作和競爭問題[12]。與這些工作相反，我們假設(shè)部分可觀察性和分散的獎勵函數(shù)，并旨在訓(xùn)練交感合作自動駕駛智能體，不假設(shè)人類的行為。

混合自動駕駛中的自動駕駛。人類的駕駛方式可以通過逆向RL或采用統(tǒng)計模型從示范中學(xué)習(xí)[5], [13], [14]。對人類駕駛行為進行建模，可以幫助自動駕駛汽車確定與人類創(chuàng)造合作和互動機會的潛力，以實現(xiàn)安全和高效的導(dǎo)航[15]。此外，人類駕駛員能夠通過觀察鄰近車輛軌跡的細微變化，直觀地預(yù)測它們的下一步行動，并在需要時利用預(yù)測結(jié)果主動行動。受到這一事實的啟發(fā)，Sadigh等人揭示了自動駕駛汽車如何利用人類的這種有遠見的行為來塑造和影響他們的行為。在宏觀層面上，之前的工作已經(jīng)證明了在混合自動駕駛場景中出現(xiàn)的人類行為，并研究如何利用這些模式來控制和穩(wěn)定交通流[16], [17]。與我們的主題密切相關(guān)的是，最近在社交機器人導(dǎo)航方面的工作顯示了與人類合作規(guī)劃和互動的潛力[4]，[18]，[19]。

III.

多車交互問題

部分可觀測隨機對策(POSG)。我們用元組MG:= (Z,s， [Ai]， [oi]， P， [Ti])定義的隨機對策來描述i = 1時的多車交互問題。， N，其中Z是一個有限的智能體集合，s表示狀態(tài)空間，包括N個智能體可以采用的所有可能的形式。在給定時間，智能體接收到局部觀測oi:S→Oi，并基于隨機策略πi: Oi x Ai→[0,1]在動作空間ai ? Ai內(nèi)采取動作。

因此，智能體過渡到一個新的狀態(tài)si,，該狀態(tài)是根據(jù)狀態(tài)轉(zhuǎn)換函數(shù)Pr(s, |s, a): S xA1 x ... xAN → S確定的，并獲得一個獎勵ri : S x Ai → R。目標(biāo)是推導(dǎo)出一個最優(yōu)策略π *，使無限時間范圍內(nèi)未來獎勵的貼現(xiàn)總和最大化。

在部分可觀察隨機對策(POSG)中，狀態(tài)轉(zhuǎn)移和獎勵函數(shù)通常是未知的，智能體只能訪問與狀態(tài)相關(guān)的局部觀測。采用多代理強化學(xué)習(xí)，獨立的MARL代理可以一起工作，克服單一代理的物理限制，并超越他們[20]。在多車問題中，通過一個集中的MARL控制器來控制車輛是相當(dāng)直接的，該控制器對環(huán)境具有完全的可觀察性，并為所有車輛分配一個集中的聯(lián)合獎勵 (Vi, j : ri 三 rj )。然而，這樣的假設(shè)在現(xiàn)實世界的自動駕駛應(yīng)用中是不可行的，我們更關(guān)注分散的情況，即車輛具有部分可觀察性，并且不知道對方的行動。在這種情況下，代理人之間的協(xié)調(diào)預(yù)計將來自于我們引入的分散的獎勵函數(shù)，該函數(shù)使用本地觀察來估計其他車輛的效用。

深度Q網(wǎng)絡(luò)（DQN）。Q-learning已被廣泛應(yīng)用于具有大狀態(tài)空間的強化學(xué)習(xí)問題中，它定義了一個狀態(tài)值函數(shù) Qπ (s, a) := 以得出最優(yōu)策略 π * (s) = arg maxaQ* (s, a) 其中 γ∈ [0, 1) 是一個折扣系數(shù)。 DQN[21]使用一個具有權(quán)重w的神經(jīng)網(wǎng)絡(luò)，通過執(zhí)行小批量梯度下降步驟來估計狀態(tài)-行動價值函數(shù)，即 wi+1 = 其中損失函數(shù)被定義為，

而是對wi處梯度的估計，wo是目標(biāo)網(wǎng)絡(luò)的權(quán)重，在訓(xùn)練中得到定期更新。(s, a, r, s’) 的集合從經(jīng)驗重放緩沖器中隨機抽取，以消除方程（1）中訓(xùn)練樣本的相關(guān)性。當(dāng)代理人的政策在訓(xùn)練過程中發(fā)生變化時，這種機制就會出現(xiàn)問題。

IV.交感合作駕駛

高速公路合并情況。我們的基本場景是一個高速公路的并線匝道，其中一個并線車輛（HV或AV）試圖加入一個HV和AV的混合排，如圖1所示。由于其固有的競爭性質(zhì)，我們特別選擇了這種情況，因為合并車輛的局部效用與巡航車輛的效用是一致的。我們確保只有一個AV向合并的車輛讓步不會使合并成為可能，為了使合并發(fā)生，基本上所有的AV都需要一起工作。在圖1(b)中，AV3必須減速并引導(dǎo)后面的車輛，這些車輛也許無法看到并線的車輛，而AV2和AV1則加速，為并線的車輛打開空間。如果任何車輛不合作或自作主張，交通安全和效率就會受到影響。

形式主義。考慮一個如圖1所示的路段，其中有一組自主車輛Z，一組人類駕駛的車輛V，以及一個任務(wù)車輛M∈Z∪V，可以是AV或HV，并試圖并入高速公路。HVs通常有一個有限的感知范圍，受到遮擋和障礙物的限制。在自動駕駛汽車的情況下，盡管我們假設(shè)沒有明確的協(xié)調(diào)，也沒有關(guān)于其他智能體的行動的信息，但自主智能體通過V2V通信連接在一起，這允許它們共享自己的態(tài)勢感知。利用這種擴展的態(tài)勢感知，代理人可以擴大他們的感知范圍，克服遮擋和視線能見度的限制。因此，雖然每個AV對環(huán)境有獨特的局部觀察，但他們可以看到其擴展感知范圍內(nèi)的所有車輛，即他們可以看到AV的一個子集,和HV的一個子集。

為了模擬混合自動駕駛場景，我們部署了一組混合的HVs和AVs在高速公路上巡航，目標(biāo)是在保持安全的情況下使其速度最大化。人類和自主代理之間的對比是，人類只關(guān)心自己的安全，而利他主義的自主代理試圖為群體的安全和效率進行優(yōu)化。社會價值取向衡量了代理人行為中的利他主義水平。為了系統(tǒng)地研究代理人和人類之間的互動，我們將SVO中的共情和合作概念解耦。具體而言，我們將智能體與人類之間的利他行為視為共情，將智能體之間的利他行為稱為合作。這個定義背后的一個理由是，這兩者在本質(zhì)上是不同的，因為當(dāng)人類不一定愿意幫助代理人時，同情行為可能是單方面。

然而，合作是一種對稱的品質(zhì)，因為所有的AV都部署了相同的政策，正如我們在實驗中看到的，無論人類是否愿意合作，都可以實現(xiàn)群體的社會目標(biāo)。

分散式的獎勵結(jié)構(gòu)。代理人Ii∈Z收到的本地獎勵可以分解為：

利他主義或利己主義的水平可以通過λE、λC和λS的系數(shù)來調(diào)整。方程（2）中的riE 分量表示當(dāng)?shù)氐鸟{駛性能獎勵，這些獎勵來自于行駛距離、平均速度和加速變化的負(fù)成本，以促進車輛的平穩(wěn)和高效的運動。合作獎勵項 ri,jC占觀察者代理的盟友的效用，即除Ii 之外的感知范圍內(nèi)的其他AV。值得注意的是，Ii 只需要V2V信息來計算 RC 而不需要任何明確的協(xié)調(diào)或?qū)ζ渌淼男袆拥牧私狻?/p>

圖2：多通道速度圖的狀態(tài)表示將車輛的速度嵌入像素值中。

交感神經(jīng)獎勵條款, ri,Sk 定義為：

其中uk表示HV的效用，例如它的速度， di,k是觀察者自主代理和HV之間的距離，η和ψ是無尺寸系數(shù)。此外，在我們的駕駛場景中，特定的任務(wù)獎勵項 r kM代表合并機動的成功或失敗，形式為：

在訓(xùn)練過程中，每個代理利用Deep RL對這個分散的獎勵函數(shù)進行優(yōu)化，并學(xué)會在高速公路上行駛，并與盟友合作，創(chuàng)造出對AV和HV都有好處的社會理想形態(tài)。

狀態(tài)-空間和行動-空間。機器人導(dǎo)航問題可以從多個抽象層次來看待：從低層次的連續(xù)控制問題到高層次的元行動規(guī)劃。我們在這項工作中的目的是研究混合自動駕駛的智能體之間、智能體與人之間的交互以及行為方面的問題。因此，我們選擇一個更抽象的層次，將行動空間定義為一組離散的元行動ai∈Rn。

我們用兩種不同的局部狀態(tài)表示法進行實驗，以找到最適合我們問題的表示法。多通道速度圖表示法將AV和HV分成兩個通道，并將其相對速度嵌入像素值中。圖2說明了這種多通道表示法的一個例子。一個剪切的對數(shù)函數(shù)被用來將車輛的相對速度映射成像素值，因為它與線性映射相比顯示出更好的性能，即，

其中Zj 是狀態(tài)表示中第j輛車的像素值， v (l)是其在第k輛車視角下的相對Frenet縱向速度，即，v0 是速度閾值，α 和 β 是無尺寸系數(shù)，1(.) 是Heaviside階梯函數(shù)。這種非線性映射更重視 |v(l)| 較小的相鄰車輛，幾乎忽略了比自我移動得更快或更慢的車輛。

圖3：我們的三維卷積架構(gòu)的深度Q網(wǎng)絡(luò)。

我們又增加了三個通道，嵌入了1）道路布局，2）強調(diào)自我位置的注意力圖，以及3）任務(wù)車輛。

另一個候選方案是占用網(wǎng)格表示，它直接將信息嵌入一個3維的張量oi ∈ Oi的元素中。從理論上講，這種表示與之前的VelocityMap非常相似，它們的對比是占用網(wǎng)格刪除了形狀和視覺特征，如邊緣和角落，并直接向網(wǎng)絡(luò)提供稀疏數(shù)字。更具體地說，考慮一個大小為W x H x F的張量，其中第n個通道是一個W x H矩陣，被定義為：

其中 f = [p,l, d, v(l), v (d) , sin δ, cos δ] 是特征集, p 是顯示車輛存在的二元變量, l 和 d 是相對的Frenet坐標(biāo)，v (l) 和 v (d) 是相對的Frenet速度，δ是相對于全球基準(zhǔn)測量的偏航角。

用深度MARL進行訓(xùn)練。我們用Toghi等人、Mnih等人和Egorov等人在文獻中提出的3種現(xiàn)有架構(gòu)作為我們的Q-learning問題的函數(shù)近似器進行實驗[11]、[21]、[22]。此外，我們還實現(xiàn)了一個三維卷積網(wǎng)絡(luò)，捕捉到了訓(xùn)練情節(jié)中的時間依賴性，如圖3所示。我們網(wǎng)絡(luò)的輸入是10個VelocityMap觀測值的堆棧，即一個10 x (4 x 512 x 64)張量，它捕獲了劇情中的最后10個時間步驟。第五節(jié)至第七節(jié)對這些架構(gòu)的性能進行了比較。

我們離線訓(xùn)練單個神經(jīng)網(wǎng)絡(luò)，并將學(xué)習(xí)到的策略部署到所有代理中，以便實時分布式獨立執(zhí)行。為了解決MARL中的非平穩(wěn)性問題，以半順序的方式訓(xùn)練智能體，如圖4所示。每個代理被單獨訓(xùn)練了k次，而其盟友w-的政策被凍結(jié)。然后，新的政策，w+，被傳播給所有代理，以更新他們的神經(jīng)網(wǎng)絡(luò)。此外，受[23]的啟發(fā)，我們采用了一種新的經(jīng)驗重放機制來補償我們高度傾斜的訓(xùn)練數(shù)據(jù)。

圖4:多智能體訓(xùn)練和政策傳播過程。

一個訓(xùn)練情節(jié)在語義上可以分為兩個部分，在筆直的高速公路上巡航和高速路并線。后者與前者在體驗重放緩沖中的比例很小，因為后者只發(fā)生在每集的短時間內(nèi)。因此，從經(jīng)驗回放緩沖區(qū)中統(tǒng)一取樣會導(dǎo)致與高速公路合并有關(guān)的訓(xùn)練樣本太少。相反，我們將一個樣本從緩沖區(qū)抽出的概率設(shè)定為與它最后得到的獎勵和它與道路上合并點的空間距離成正比。平衡傾斜的訓(xùn)練數(shù)據(jù)集是計算機視覺和機器學(xué)習(xí)中的常見做法，在我們的MARL問題上似乎也是有益的。

V.實驗與測試

A.駕駛模擬器的設(shè)置

我們定制了一個OpenAI Gym環(huán)境[24]來模擬高速路的駕駛和并線場景。在我們的模擬器框架中，運動學(xué)自行車模型描述車輛的運動，并使用閉環(huán)比例積分微分(PID)控制器將元動作轉(zhuǎn)換為低水平的轉(zhuǎn)向和加速度控制信號。特別是，我們選擇一組n=5的抽象動作作為 ai ∈ Ai = [左車道，空閑，右車道，加速，減速]T 。作為自動駕駛領(lǐng)域的一種常見做法，我們用Frenet-Serret坐標(biāo)框架來表達路段和車輛的運動，這有助于我們將道路曲率從方程中剔除，并將控制問題分解為橫向和縱向部分。在我們的模擬環(huán)境中，HV的行為受Treiber等人和Kesting等人提出的橫向和縱向驅(qū)動模型支配[25], [26]。

為了確保我們所學(xué)政策的泛化能力，我們從一個剪切過的高斯分布中抽取所有車輛的初始位置，其平均值和方差經(jīng)過調(diào)整，以確保初始化模擬落入我們所期望的合并場景配置。在測試階段，我們進一步隨機調(diào)整車輛的速度和初始位置，以探測代理處理未見過的和更具挑戰(zhàn)性的情況的能力。

B.計算詳情

使用NVIDIA Tesla V100 GPU和Xeon 6126 CPU @ 2.60GHz，SymCoDrive的PyTorch實現(xiàn)中的一次訓(xùn)練迭代需要大約440ms。我們多次重復(fù)訓(xùn)練過程，以確保所有運行都收斂到類似的新興行為和政策。在我們的硬件上，為15,000個情節(jié)訓(xùn)練Conv3D網(wǎng)絡(luò)大約花了33小時。

政策執(zhí)行頻率被設(shè)定為1Hz，在測試階段對網(wǎng)絡(luò)進行在線查詢大約需要10ms。我們花了大約4650個GPU小時來調(diào)整神經(jīng)網(wǎng)絡(luò)和獎勵系數(shù)，以達到我們實驗的目的。

C.自主變量

我們進行了一組實驗，研究獎勵功能中的共情和合作部分如何影響自動駕駛智能體的行為和總體安全/效率指標(biāo)。我們將圖1中的任務(wù)車輛合并車輛的情況與人類駕駛的任務(wù)車輛的雙場景進行比較。我們定義了2x4環(huán)境，其中任務(wù)車是AV或HV，其他自動駕駛智能體遵循自我主義、只合作、只共情或共情合作的目標(biāo)：

● HV+E.任務(wù)載體是由人驅(qū)動的，自動駕駛智能體的行為是自我主義的，

● HV+C.任務(wù)車是由人類驅(qū)動的，自動駕駛智能體的獎勵中只有合作部分（RC），

●HV+S.任務(wù)車是由人驅(qū)動的，自動駕駛智能體只有共情（RS）元素，

●HV+SC.任務(wù)車是由人類驅(qū)動的，自動駕駛智能體的獎勵中既有同情（RS），也有合作（RC ）的成分。

●AV+E/C/S/SC.與上述情況類似，不同的是任務(wù)車輛是自動駕駛的。

D.依賴性措施

我們實驗的性能可以從效率和安全方面來衡量。每輛車在模擬過程中的平均行駛距離是衡量效率的交通水平。發(fā)生碰撞的事件的百分比表明政策的安全性。計算沒有撞車和成功任務(wù)（并入高速公路）的場景數(shù)量，可以讓我們了解到我們的解決方案的整體效率。

E.假設(shè)

我們研究了三個關(guān)鍵假設(shè)：

●H1.在缺乏合作和共情的情況下，HV將無法安全地并入高速公路。因此，與HV+C和HV+E相比，我們預(yù)計HV+SC的性能會更好。

●H2.一輛自動駕駛?cè)蝿?wù)車只需要它的盟友利他主義就能成功合并。我們不希望看到AV+SC和AV+C方案之間有明顯的差異；但是，我們假設(shè)它們都會優(yōu)于AV+E。

●H3.調(diào)整代理人的利他主義水平會導(dǎo)致不同的新興行為，這些行為對效率和安全的影響是不同的。提高利他主義的水平可能會弄巧成拙，因為它會危及智能體學(xué)習(xí)基本駕駛技能的能力。

圖5:利己型、純合作型和富有共情心的合作型自動代理之間的比較，以及它們?nèi)绾闻c自動(上)或人類駕駛(下)的任務(wù)車輛進行交互。左側(cè)顯示了一組采樣任務(wù)車輛的軌跡，與V-C節(jié)中定義的6個實驗設(shè)置有關(guān)。

F.結(jié)果

我們在隨機初始化的場景中訓(xùn)練SymCoDrive代理15,000集，使用小標(biāo)準(zhǔn)偏差，并在3000個測試集中以4倍大的初始化范圍平均性能指標(biāo)，以確保我們的代理不會在所見的訓(xùn)練集中過度擬合。

1) 合作與共情：為了檢驗我們的假設(shè)H1，我們將重點放在人類駕駛?cè)蝿?wù)車輛的場景，即HV+E, HV+C和HV+SC。圖5中的最后一行說明了我們對這些場景的觀察結(jié)果。很明顯，在獎勵功能中整合合作和共情元素(SC)的智能體比單純合作(C)或利己(E)的智能體表現(xiàn)出更好的性能。這種洞察力也反映在最右下方測量車輛平均行駛距離的柱狀圖中。由于公平和高效的交通流，HV+SC情景下的車輛顯然能成功行駛更遠的距離，而在HV+C和HV+E情景下，失敗的并線嘗試和可能發(fā)生的碰撞使性能惡化。圖5中最左邊的一欄是一組采樣的任務(wù)車輛軌跡的可視化。很明顯，在大多數(shù)事件中，合作的交感智能體成功地合并到高速公路上，而其他(C)和(E)智能體的大多數(shù)嘗試都失敗了。圖6通過比較從HV+E場景中提取的一組任務(wù)車輛軌跡和從HV+SC場景中提取的軌跡，為我們的討論提供了進一步的直觀認(rèn)識。顯然，合作的交感主體使合并成功，而其他利己主義和單純合作的主體則無法做到這一點，這支持了我們的假設(shè)H1。

當(dāng)務(wù)之急是對有自動駕駛?cè)蝿?wù)車輛的場景重復(fù)上述實驗，因為人們可以認(rèn)為HV+C和HV+E中失敗的任務(wù)和碰撞是由于我們?yōu)镠V選擇的駕駛員模型的不足。為了準(zhǔn)確地解決這一論點，圖5的最上面一行顯示了AV+E、AV+C和AV+SC的方案。首先，通過對兩種以自我為主體的場景，即AV+E和HV+E的比較，發(fā)現(xiàn)自動駕駛?cè)蝿?wù)車輛的行為更具創(chuàng)造性，并探索了與公路合并的不同方式，因此AV+E的軌跡樣本比HV+E更廣泛。

接下來，比較利己主義的自動駕駛?cè)蝿?wù)車和人類驅(qū)動的任務(wù)車在碰撞和合并失敗方面的表現(xiàn)，顯示自動駕駛代理通常更有能力找到一種方法來合并到人類和利己主義代理的隊列中。然而，它仍然在超過一半的合并嘗試中失敗。圖5驗證了我們的假設(shè)H2，因為我們可以觀察到，在代理中只增加一個合作部分，即AV+C方案，使任務(wù)車輛幾乎在所有的嘗試中都能并入高速公路。在AV+SC中加入共情元素，可以略微提高安全性，因為它激勵智能體注意那些沒有與他們發(fā)生直接碰撞風(fēng)險的人類。我們認(rèn)為合作是共情的促成因素，并沒有在只有同情的環(huán)境中進行任何實驗，因為其結(jié)果可以從(SC)和(C)的比較中推斷出來。2) 調(diào)整利他主義和新興行為：為了研究假設(shè)H3，我們訓(xùn)練了一組智能體，并改變它們的獎勵系數(shù)，即 λE , λC , λS , 以調(diào)整它們的共情和合作水平。回顧在圖1中描述的駕駛場景，我們特別見證了代理人中兩個關(guān)鍵的新興行為。強烈同情心的代理人在接受訓(xùn)練時，λS /(λC +λE )的比例很高，自然會把人類的利益放在首位，而不是自己的利益。圖7顯示了從兩個場景中提取的一組快照，其中包括強共情代理和弱共情代理。

圖6：一組合并車輛的樣本軌跡顯示，與HV+E中的失敗嘗試相比，HV+SC中的合并嘗試大多成功。

圖7：比較弱交感和強交感的自主代理。(左) "引導(dǎo)型AV"(考慮圖1(b)中的AV3)的速度曲線和(右)樣本快照。

一個強交感智能體（考慮圖1(b)中的AV3）會放慢速度并阻止后面的車輛群，以確保任務(wù)車輛獲得安全的合并路徑。另一方面，弱交感智能體最初會剎車以減緩后面的車輛，然后優(yōu)先考慮自己的利益，加速并超過任務(wù)車輛。盡管這兩種行為都能使任務(wù)車輛成功合并，但圖7中智能體的速度分布描述了強烈共情的智能體如何在其行駛距離(速度曲線下的面積)上妥協(xié)，以最大化任務(wù)車輛的安全性。

在這一觀察的激勵下，我們徹底研究了調(diào)整方程（2）中的獎勵系數(shù)對SymCoDrive代理的性能所產(chǎn)生的影響。如圖8所示，我們從經(jīng)驗上觀察到，在關(guān)心他人和自私自利之間存在一個最佳點，最終使群體中的所有車輛受益。

G.深度網(wǎng)絡(luò)和泛化

我們對第四節(jié)中介紹的網(wǎng)絡(luò)結(jié)構(gòu)進行了訓(xùn)練，并檢驗了它們對初始化隨機性范圍更廣的測試事件的概括能力，圖9顯示了網(wǎng)絡(luò)的訓(xùn)練性能。

圖8:調(diào)整自主智能體的SVO表明，在關(guān)心他人和自私之間存在一個最佳點，最終有利于群體中的所有智能體。

圖9：三種基準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練性能。

當(dāng)在初始化隨機性范圍與訓(xùn)練相同的情節(jié)中進行測試時，所有網(wǎng)絡(luò)都表現(xiàn)出可接受的性能。然而，當(dāng)隨機范圍增加，代理人面臨與他們在訓(xùn)練期間看到的不同的情節(jié)時，他們的表現(xiàn)迅速下降，如表I所述。雖然其他網(wǎng)絡(luò)在訓(xùn)練過程中表現(xiàn)出色，但我們的Conv3D架構(gòu)在更多樣化的測試場景中明顯優(yōu)于他們。我們得出的結(jié)論是，使用VelocityMaps和我們的Conv3D架構(gòu)，智能體學(xué)會了處理更復(fù)雜的看不見的駕駛場景。表二列出了我們用來訓(xùn)練Conv3D架構(gòu)的超參數(shù)。

公式(6)中定義的占用網(wǎng)格狀態(tài)空間表示，在我們的特定駕駛問題中，與VelocityMap表示相比，在所有神經(jīng)網(wǎng)絡(luò)架構(gòu)中表現(xiàn)出較差的性能。我們推測，這是因為占用網(wǎng)格表示沒有受益于VelocityMap狀態(tài)表示中嵌入的道路布局和視覺線索。

我們前面討論的所有實驗都是用VelocityMap表示的，除非另有說明。在調(diào)優(yōu)VelocityMaps之后，我們得出結(jié)論，在狀態(tài)表示中集成一個硬的自我注意映射并沒有顯著的增強，并決定放棄這個通道，將通道的數(shù)量減少到4個。取而代之的是，我們將速度地圖的中心與自我對齊，使30%的觀察框反映自我后面的范圍，其余的顯示前面的范圍。我們注意到這個參數(shù)在訓(xùn)練收斂和產(chǎn)生的行為中起著重要的作用，因為它使智能體能夠在任務(wù)車輛和其他車輛接近之前看到它們。

VI.結(jié)束語

我們解決了在混合自動駕駛環(huán)境中的自動駕駛問題，在這種環(huán)境中，自動駕駛車輛與人類駕駛的車輛進行互動。我們在MARL框架中加入了合作共鳴的獎勵結(jié)構(gòu)，并訓(xùn)練出相互合作的智能體，共情人類駕駛的車輛，因此與自我訓(xùn)練的智能體相比，在競爭性的駕駛場景中，如高速公路并線，表現(xiàn)出更高的性能。

表一:相關(guān)架構(gòu)的性能比較。隨著隨機程度的增加，我們的Conv3D架構(gòu)表現(xiàn)優(yōu)于其他架構(gòu)，智能體面臨著與他們在訓(xùn)練期間看到的不同的情節(jié)。

表二：我們的Conv3DQ網(wǎng)的超參數(shù)列表

局限性和未來的工作。我們目前的獎勵結(jié)構(gòu)包括一個手工制作的標(biāo)記，這取決于駕駛場景，例如，合并或退出高速公路。考慮到不同的駕駛事件，這個標(biāo)記也可以從交互數(shù)據(jù)中學(xué)習(xí)，從而減少對特定任務(wù)獎勵項的需求。我們認(rèn)為合并場景代表了我們觀察到的許多常見交互場景，包括其他需要兩個智能體調(diào)節(jié)速度和相互協(xié)調(diào)的行為，例如退出高速公路。我們只在相同的場景中對訓(xùn)練和測試代理進行了實驗，并沒有在不同的場景中對它們進行交叉驗證。我們希望在未來將這項工作擴展到其他場景。我們相信，給定足夠大的訓(xùn)練數(shù)據(jù)，智能體有望在一般駕駛場景中學(xué)習(xí)相同的利他行為。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4346

瀏覽量
62968
智能體

智能體

+關(guān)注

關(guān)注
1

文章
166

瀏覽量
10613
自動駕駛

自動駕駛

+關(guān)注

關(guān)注
785

文章
13930

瀏覽量
167002

原文標(biāo)題：能與人類駕駛者產(chǎn)生共鳴的合作型自動駕駛汽車技術(shù)

文章出處：【微信號：阿寶1990，微信公眾號：阿寶1990】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

汽車自動駕駛技術(shù)

請問各位老鳥我是新手汽車自動駕駛技術(shù)是怎么回事，是用什么板子開發(fā)的需要應(yīng)用哪些技術(shù)和知識。提問題提得不是很好請各位見諒

發(fā)表于 04-14 20:44

[科普] 谷歌自動駕駛汽車發(fā)展簡史，都來了解下吧！

。　　谷歌2014年4月宣布其自動駕駛汽車技術(shù)迎來“柳暗花明又一村”，在博文中稱測試車輛能應(yīng)對數(shù)千種城市道路交通狀況——過去數(shù)年這一問題一直困擾著它。這是自2012年以來谷歌首次正式更新自動駕駛

發(fā)表于 10-25 11:08

因為「不夠安全」，我們就必須拒絕自動駕駛汽車上路？

銷售。其他正在積極研發(fā)自動駕駛汽車的公司，對待這項新技術(shù)的態(tài)度則介于這兩者之間。他們正嘗試回答這個自動駕駛

發(fā)表于 04-08 11:17

細說關(guān)于自動駕駛那些事兒

和Mobileye合作研發(fā)，不過在特斯拉發(fā)生首起死亡車禍后，Mobileye便宣布停止雙方合作關(guān)系。今年7月，Mobileye宣布和BMW及Intel連手，合作打造全自動駕駛

發(fā)表于 05-15 17:49

自動駕駛的到來

的Telematics收發(fā)芯片，非常適合V2V及V2X等相關(guān)應(yīng)用中。　　相比于傳統(tǒng)的底盤、發(fā)動機等傳統(tǒng)汽車技術(shù)，自動駕駛更多的技術(shù)集中在電子領(lǐng)域，而且核心技術(shù)并沒有被跨國車廠或Tier

發(fā)表于 06-08 15:25

AI/自動駕駛領(lǐng)域的巔峰會議—國際AI自動駕駛高峰論壇

已經(jīng)滲透到了社會生活的方方面面。人工智能在自動駕駛領(lǐng)域?qū)φ麄€汽車出行領(lǐng)域產(chǎn)生顛覆性變革。汽車的人工智能技術(shù)和數(shù)據(jù)后端的最新突破使

發(fā)表于 09-13 13:59

無人駕駛與自動駕駛的差別性

等方面更有重要的差別。無人駕駛汽車具有創(chuàng)造創(chuàng)新性社會價值的潛力，從而深刻影響人們的生活。發(fā)展目的和表現(xiàn)不同：輔助駕駛、自動駕駛的本質(zhì)是汽車駕駛

發(fā)表于 09-28 16:50

車聯(lián)網(wǎng)對自動駕駛的影響

車聯(lián)網(wǎng)與智能駕駛車聯(lián)網(wǎng)和自動駕駛密切相關(guān)，很大程度上可以理解為是對自動駕駛高階版本的增強和補充，通過車與車、車與人、車與交通基礎(chǔ)設(shè)施、車與網(wǎng)絡(luò)的互聯(lián)互通，讓對環(huán)境已經(jīng)具備感知能力的

發(fā)表于 03-19 06:20

如何讓自動駕駛更加安全？

測試時，在有行人穿行的馬路，就要求從每小時20公里的低速開始進行路測。從測試數(shù)據(jù)看，交通擁堵時的并線問題是目前自動駕駛最大的難題。中國汽車技術(shù)研究中心有限公司副總經(jīng)理李洧說，自動駕駛的路測一定

發(fā)表于 05-13 00:26

自動駕駛汽車的處理能力怎么樣？

對環(huán)境和擁堵產(chǎn)生積極影響。市場調(diào)研公司ABI Research預(yù)測：到2030年，道路上四分之一的汽車將會是自動駕駛汽車。行業(yè)專家已經(jīng)為自動駕駛

發(fā)表于 08-07 07:13

汽車技術(shù)變革的重大影響有哪些？

我們正處在汽車技術(shù)巨變的大門口。這次不是自動化變革，雖然自動化變革旋即到來。但這次變革是由現(xiàn)有的且快速發(fā)展的自動化底層技術(shù)推動。即高級

發(fā)表于 05-01 06:45

ADAS視覺傳感技術(shù)，為朝向自動駕駛趨勢發(fā)展做好準(zhǔn)備

來監(jiān)測道路以及危險狀況，甚至有時輔助駕駛者來自動剎車，從而避免撞車。因此，自動緊急剎車系統(tǒng)在新汽車中日益普及。駕駛者監(jiān)控是

發(fā)表于 06-02 08:00

自動駕駛技術(shù)的實現(xiàn)

k隨著汽車電子的日益復(fù)雜化以及汽車電子電氣架構(gòu)(EEA)的升級，人們對于聯(lián)網(wǎng)智能汽車的需求也在逐步上升，大量先進技術(shù)往汽車上應(yīng)用，如高級

發(fā)表于 09-03 08:31

2020年自動駕駛汽車技術(shù)報告

2020年自動駕駛汽車技術(shù)報告

發(fā)表于 03-19 09:23 ?17次下載

自動駕駛汽車技術(shù) | 車載雷達系統(tǒng)

自動駕駛汽車技術(shù) | 車載雷達系統(tǒng)

發(fā)表于 03-20 08:09 ?3291次閱讀

吴忠躺衫网络科技有限公司

搜索歷史

能與人類駕駛者產(chǎn)生共鳴的合作型自動駕駛汽車技術(shù)

評論

汽車自動駕駛技術(shù)

[科普] 谷歌自動駕駛汽車發(fā)展簡史，都來了解下吧！

因為「不夠安全」，我們就必須拒絕自動駕駛汽車上路？

細說關(guān)于自動駕駛那些事兒

自動駕駛的到來

AI/自動駕駛領(lǐng)域的巔峰會議—國際AI自動駕駛高峰論壇

無人駕駛與自動駕駛的差別性

車聯(lián)網(wǎng)對自動駕駛的影響

如何讓自動駕駛更加安全？

自動駕駛汽車的處理能力怎么樣？

汽車技術(shù)變革的重大影響有哪些？

ADAS視覺傳感技術(shù)，為朝向自動駕駛趨勢發(fā)展做好準(zhǔn)備

自動駕駛技術(shù)的實現(xiàn)

2020年自動駕駛汽車技術(shù)報告

自動駕駛汽車技術(shù) | 車載雷達系統(tǒng)