亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于主從博弈的智能車匯流場(chǎng)景決策方法

2021-09-02 06:51:16胡益愷莊瀚洋王春香明a

上海交通大學(xué)學(xué)報(bào) 2021年8期

胡益愷，莊瀚洋，王春香，楊明a,

(上海交通大學(xué) a.自動(dòng)化系；b.密西根學(xué)院；c.系統(tǒng)控制與信息處理教育部重點(diǎn)實(shí)驗(yàn)室，上海 200240)

智能車作為當(dāng)下的研究熱點(diǎn)之一，獲得了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注[1].在車輛的正常行駛過程中經(jīng)常會(huì)遇到上下匝道、車道合并、道路施工等匯流場(chǎng)景，盡管交通法規(guī)對(duì)這些場(chǎng)景有著一些指導(dǎo)性的規(guī)定，但由于場(chǎng)景的獨(dú)特性和駕駛員不同的理解方式，導(dǎo)致匯流過程成為典型的博弈場(chǎng)景.如何有效提升該場(chǎng)景下車輛通行的效率及安全性，是智能車決策系統(tǒng)開發(fā)中的一個(gè)關(guān)鍵問題.

近年來，一些學(xué)者提出了基于車間協(xié)同與車路協(xié)同的方法，即運(yùn)用車輛彼此之間[2-3]以及與道路基礎(chǔ)設(shè)施之間[4-6]的通信來解決交通沖突.雖然基于車與車通訊(V2V)與車聯(lián)網(wǎng)(V2X)的策略能夠提高路口交通的安全性和效率，但其過度依賴于車間通訊設(shè)備以及路側(cè)基礎(chǔ)設(shè)施，在短期內(nèi)仍然難以大范圍推廣.與此同時(shí)，大量的研究工作聚焦于對(duì)單輛智能車的決策研究，例如：基于可達(dá)性分析方法[7]，基于學(xué)習(xí)類方法[8-10]以及基于博弈論的方法[11-13]等.其中，基于博弈的方法被科研工作者視為對(duì)理性決策者之間交互建模的合適工具，并被多名科研人員進(jìn)行討論與實(shí)驗(yàn)驗(yàn)證.文獻(xiàn)[11]將存在交互行為的所有決策個(gè)體視為非合作博弈中的參與者，以各方的狀態(tài)改變作為博弈策略，通過構(gòu)建收益矩陣后求解得到博弈模型的納什均衡，以作為雙方的最優(yōu)駕駛策略組合.該方法雖在匯流場(chǎng)景中取得了優(yōu)異的效果，但其并沒有考慮匯流場(chǎng)景中路權(quán)的差異，忽略了人類駕駛員在實(shí)際駕駛中的禮貌因素，并且缺乏對(duì)車輛感知范圍的合理限制，從而在決策建模時(shí)和實(shí)際產(chǎn)生偏差，降低了決策方法的穩(wěn)健性.

本文提出基于主從博弈(Stackelberg-game)理論的智能車輛決策方法框架，該模型結(jié)合了兩個(gè)參與者的不對(duì)稱角色特性，并賦予了一個(gè)參與者相對(duì)于另一個(gè)參與者的優(yōu)勢(shì)[14-15].該決策方法有效地將匯流場(chǎng)景中的路權(quán)因素考慮其中，例如在匝道口交替通行路段，滿足交替通行規(guī)則的車輛擁有較高的路權(quán)，可以將其視為主從博弈中的領(lǐng)導(dǎo)者，而未獲得交替通行權(quán)限的車輛被合理地視為跟隨者.同時(shí)，本文提出駕駛員合作收益，并考慮車輛的傳感器感知范圍有限性以提升決策方法的安全性、合理性與穩(wěn)健性.本文工作可為智能車輛在匯流場(chǎng)景下運(yùn)用博弈方法解決決策問題的可行性提供理論驗(yàn)證.

1 車輛與環(huán)境建模

建立基于主從博弈的車輛博弈模型，并分別從雙車博弈以及多車博弈進(jìn)行討論.同時(shí)，建立環(huán)境的參數(shù)化模型與以此為基礎(chǔ)的車輛軌跡模型，以提升方法的可遷移性.

1.1 車輛博弈模型

選擇主從博弈作為基礎(chǔ)博弈模型，分別定義al與af為領(lǐng)導(dǎo)車輛和跟隨車輛的決策，Al與Af分別為二者對(duì)應(yīng)的決策集合.在博弈中，參與者通過選擇合適的策略，最大化收益函數(shù)，領(lǐng)導(dǎo)車輛的收益函數(shù)以Rl(s,al,af)表示，跟隨車輛的收益函數(shù)為Rf(s,al,af)，其中s∈S,S={(sl,sf)t}為當(dāng)前時(shí)刻t的車輛集合狀態(tài)空間.根據(jù)主從博弈均衡解的概念[15]，對(duì)兩車博弈進(jìn)行建模，并得到領(lǐng)導(dǎo)車輛的均衡解γl與跟隨車輛的均衡解γf，則有：

(1)

(2)

考慮到該場(chǎng)景下的博弈可以視為完全信息場(chǎng)景，即領(lǐng)導(dǎo)車輛了解跟隨車輛的決策方案，從而式(1)的博弈模型可以轉(zhuǎn)化為

(3)

(4)

當(dāng)環(huán)境中出現(xiàn)眾多車輛時(shí)，現(xiàn)有方法常通過建立兩兩參與者之間的博弈模型后通過均衡解得到最優(yōu)決策，但該方法隨著參與者數(shù)目的增加，計(jì)算復(fù)雜度將呈指數(shù)級(jí)增長[17].考慮到駕駛員的視覺感知范圍以及智能駕駛車輛的傳感器感知范圍有限，并結(jié)合領(lǐng)導(dǎo)車輛與跟隨車輛的從屬關(guān)系，有效地提高多車博弈模型的求解速度，可以表示為

(5)

圖1 匯流場(chǎng)景參數(shù)化建模Fig.1 Parameterized modeling of merging scenario

式中：S(t)為t時(shí)刻環(huán)境中所有車輛的狀態(tài)；sp,q(t)為t時(shí)刻第p輛車與第q輛車之間的相對(duì)狀態(tài)；leader為領(lǐng)導(dǎo)車輛；follower為跟隨車輛；kp為笛卡爾坐標(biāo)系下第p輛車的極限感知范圍；xp為第p輛車的x軸坐標(biāo)；yp為第p輛車的y軸坐標(biāo)；ap為第p輛車的決策；Ap為第p輛車的決策集.該多車博弈模型與現(xiàn)實(shí)匯流場(chǎng)景中駕駛員的交互行為有較高的一致性，人類駕駛員無論是在加速車道還是在主車道都會(huì)對(duì)感知視野內(nèi)不同目標(biāo)分配不同的注意力進(jìn)行判斷與評(píng)估.

1.2 參數(shù)化環(huán)境模型

以參數(shù)組P表征匯流場(chǎng)景的結(jié)構(gòu)特征：

P={lO,lR,lW,lAcc,dR,1,dR,dM,

(6)

1.3 車輛軌跡模型

圖2 匯流場(chǎng)景中的車輛軌跡模型Fig.2 Vehicle path model in merging scenario

2 收益函數(shù)

收益函數(shù)將顯式地量化博弈參與者的目標(biāo)，在匯流場(chǎng)景中，駕駛員以及智能駕駛車輛擁有相同的基本目標(biāo)，可以概括為行駛過程中避免與環(huán)境車輛發(fā)生碰撞，并與環(huán)境車輛保持合理距離；通過并快速到達(dá)目標(biāo)點(diǎn)；控制車輛的加速度，以優(yōu)化車輛舒適性的控制收益；禮貌駕駛員的合作收益.

在計(jì)算收益函數(shù)時(shí)，運(yùn)用了模型預(yù)測(cè)的思想，計(jì)算了未來幀的預(yù)測(cè)收益，從而提高模型的穩(wěn)健性和安全性.考慮到基于車輛運(yùn)動(dòng)學(xué)模型的預(yù)測(cè)過程中會(huì)存在預(yù)測(cè)誤差，針對(duì)收益函數(shù)設(shè)計(jì)了衰減因子，以提升決策方法的穩(wěn)定性.

(7)

式中：Ri(t)為t時(shí)刻博弈參與者的總收益函數(shù)；Ri(st,t+kτ)為總預(yù)測(cè)收益；RAi(st,t+kτ)為安全預(yù)測(cè)收益；RTi(st,t+kτ)為時(shí)間預(yù)測(cè)收益；RCi(st,t+kτ)為舒適性預(yù)測(cè)收益；RGi(st,t+kτ)為合作預(yù)測(cè)收益；τ為預(yù)測(cè)時(shí)間間隔；k為預(yù)測(cè)的時(shí)間幀數(shù)；H為預(yù)測(cè)推演的時(shí)間窗口大?。籹t為t時(shí)刻車輛的狀態(tài)；ω1、ω2、ω3、ω4分別為4項(xiàng)收益的權(quán)重；ξ為衰減因子，其表現(xiàn)形式為預(yù)測(cè)時(shí)間間隔越長的收益在收益項(xiàng)Ri(t)中的占比將會(huì)越小.

同時(shí)，在對(duì)車輛運(yùn)動(dòng)學(xué)建模的過程中，一般對(duì)車輛模型進(jìn)行簡(jiǎn)化，采用車輛二自由度模型[18-19]實(shí)現(xiàn)在預(yù)測(cè)時(shí)間窗口中的車輛狀態(tài)更新.

圖3 車輛安全收益幾何模型Fig.3 Geometric model of vehicle safety benefits

車輛安全是智能車輛行駛中最為重要的收益之一，首先定義車輛的碰撞判定以及安全距離.車輛安全收益幾何模型如圖3所示.其中：粗實(shí)線為車輛碰撞判定區(qū)域；粗虛線為安全預(yù)留區(qū)域；(xt,yt)為t時(shí)刻車輛后軸中心在笛卡爾坐標(biāo)系中的坐標(biāo)，lcf與lcr分別為車輛前、后邊緣距后軸中心的碰撞判定距離；lsf與lsr分別為車輛前、后邊緣距后軸中心的行車安全預(yù)留距離；wc為車輛的碰撞判定車寬；ws為車輛的行車安全預(yù)留車寬；Ac(st,t′)為預(yù)測(cè)時(shí)間幀t′時(shí)刻車輛碰撞判定區(qū)的重疊面積；As(st,t′)為預(yù)測(cè)時(shí)間幀t′時(shí)刻安全預(yù)留區(qū)的重疊面積.其中，安全預(yù)留區(qū)域的參數(shù)組(lsf,lsr,ws)為車速v(t)的函數(shù).安全收益定義如下：

(8)

式中：ω11、ω12分別為碰撞權(quán)重和安全預(yù)留權(quán)重；vi(st,t′)vj(st,t′)為當(dāng)前博弈參與者的速度，即二者速度越大，收益項(xiàng)會(huì)認(rèn)為此隱患越危險(xiǎn)，從而帶來更大的懲罰；I(Ac(st,t′))與I(As(st,t′))為0-1函數(shù)，當(dāng)相應(yīng)的安全區(qū)域出現(xiàn)重疊時(shí)取為1，不重疊時(shí)取為0.

在保證車輛安全的同時(shí)，智能車輛行駛的另一個(gè)重要收益是以較短的時(shí)間到達(dá)目的地，越快的速度將會(huì)得到更多的時(shí)間收益，從而將每一時(shí)刻車輛的速度作為時(shí)間收益，收益函數(shù)定義如下：

RTi(st,t+kτ)=RTi(st,t′)=vt(st,t′)

(9)

式中：vt(st,t′)為預(yù)測(cè)時(shí)間幀t′時(shí)刻研究對(duì)象的速度.

乘客的舒適性亦為決策的收益之一，急動(dòng)度為加加速度，是加速度對(duì)時(shí)間的求導(dǎo)，為衡量車輛控制平順度的重要指標(biāo)，并且直接影響車輛成員對(duì)舒適性的感受.車輛的舒適性預(yù)測(cè)收益可以定義為

RCi(st,t+kτ)=RCi(st,t′)=-J(t′)

(10)

式中：J(t′)為t′時(shí)刻車輛的急動(dòng)度.

考慮到現(xiàn)實(shí)駕駛環(huán)境中，駕駛員在進(jìn)行決策時(shí)，并不采用完全自私?jīng)Q策，而會(huì)考慮到自身決策對(duì)環(huán)境其他駕駛員的影響.本文提出合作預(yù)測(cè)收益RG(st,t+kτ)，以實(shí)現(xiàn)對(duì)駕駛員合作行為的量化建模：

RGi(st,t+kτ)=RGi(st,t′)=-|uj(st,t′)|

(11)

式中：uj(st,t′)為參與者在其博弈環(huán)節(jié)環(huán)境中第j輛車輛的加速度，以表征參與者自身決策對(duì)環(huán)境其他車輛行駛的影響.uj(st,t′)的值越大，代表對(duì)其他車輛的影響越大.當(dāng)車輛所做出的決策會(huì)使環(huán)境中其他車輛的速度發(fā)生變化時(shí)，合作收益將會(huì)減少.智能車輛在進(jìn)行決策過程中，將會(huì)考慮其對(duì)其他博弈參與者帶來的影響，從而表現(xiàn)出與實(shí)際駕駛相符的禮貌性.

本節(jié)從安全收益、時(shí)間收益、控制收益以及合作收益4個(gè)方面對(duì)智能車輛在匯流場(chǎng)景中的決策目標(biāo)收益進(jìn)行定義.將式 (7)～(11)與式 (5)結(jié)合,可得到?jīng)Q策的顯式過程，同時(shí)由于收益函數(shù)均具有顯式物理含義，大大增強(qiáng)了決策方法的可解釋性.通過調(diào)整收益函數(shù)項(xiàng)的權(quán)重系數(shù)以及具體收益函數(shù)中的計(jì)算參數(shù)，即可實(shí)現(xiàn)對(duì)期望目標(biāo)的定向決策優(yōu)化.

3 決策求解方法

本文所提出的決策求解方法，以當(dāng)前時(shí)刻的環(huán)境觀測(cè)為輸入，根據(jù)車輛路權(quán)確定其在主從博弈中的優(yōu)先度，隨后根據(jù)環(huán)境觀測(cè)生成候選軌跡后，計(jì)算從當(dāng)前時(shí)刻向前推演的博弈參與者收益，并使用基于主從模型的博弈方法得到?jīng)Q策計(jì)算結(jié)果：

γ∈A={a1,a2,…,aM}

(12)

式中：γ為博弈參與者的均衡解；ai為車輛的決策，此場(chǎng)景下決策的值為車輛的加速度，ai=ui∈[umin,umax].

決策模塊生成的決策結(jié)果為當(dāng)前時(shí)刻應(yīng)采用的車輛加速度，該結(jié)果將傳遞給車輛的控制模塊，以實(shí)現(xiàn)車輛的縱向控制.車輛的橫向控制由路徑跟蹤模塊實(shí)現(xiàn)，此處不展開討論.所提車輛決策方法流程圖如圖4所示.

圖4 面向匯流場(chǎng)景的決策方法流程圖Fig.4 Flowchart of decision method for merging scenario

4 實(shí)驗(yàn)結(jié)果與分析

本文分別在INTERACTION數(shù)據(jù)集以及NGSIM數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).其中，INTERACTION數(shù)據(jù)集是由加州大學(xué)伯克利分校機(jī)械系統(tǒng)控制實(shí)驗(yàn)室(MSC Lab)等建立的一個(gè)具有國際性、對(duì)抗性、協(xié)作性的數(shù)據(jù)集[20].其匝道收縮場(chǎng)景及加速車道場(chǎng)景如圖5所示.其中：DR_DEU_Merging_MT數(shù)據(jù)集采集地點(diǎn)位于德國，是一個(gè)經(jīng)典的道路收縮場(chǎng)景；DR_CHN_Merging_ZS數(shù)據(jù)集采集地點(diǎn)位于中國，該數(shù)據(jù)集中同時(shí)出現(xiàn)了道路收縮以及加速車道匯流的場(chǎng)景；圖中數(shù)字編號(hào)為所采集的車輛編號(hào).

圖5 INTERACTION 數(shù)據(jù)集Fig.5 INTERACTION dataset

NGSIM數(shù)據(jù)集[21]由美國聯(lián)邦公路局提供，本文采用文獻(xiàn)[11]中所采用的數(shù)據(jù)集NGSIM-US 101.

采用行為預(yù)測(cè)準(zhǔn)確率(ζ)以及平均絕對(duì)誤差(MAE)作為決策方法的評(píng)估指標(biāo).行為預(yù)測(cè)準(zhǔn)確率的定義可以表示為

(13)

(14)

分別基于3個(gè)數(shù)據(jù)集展開了決策實(shí)驗(yàn)，并記錄了ζ與MAE的具體表現(xiàn)，如表1所示.其中，加粗的數(shù)據(jù)為決策表現(xiàn)更優(yōu)的評(píng)價(jià)結(jié)果.通過對(duì)比分析可知，本文方法優(yōu)于文獻(xiàn)[11]中所提出的方法.

表1 決策方法行為預(yù)測(cè)準(zhǔn)確率及其MAETab.1 Prediction accuracies of decision-making method behaviours and their MAE

行為預(yù)測(cè)準(zhǔn)確率與車流量的關(guān)系如圖6所示，其中：V為主路車道車輛數(shù).在不同數(shù)據(jù)集中，隨著主路車道上車流量的增大，本文所提方法與文獻(xiàn)[11]方法相比，行為預(yù)測(cè)準(zhǔn)確率的下降趨勢(shì)較緩，從而論證了本文方法在車流密度較高的場(chǎng)景下有較強(qiáng)的穩(wěn)定性.

通過實(shí)驗(yàn)結(jié)果對(duì)比分析可知，本文所提出的基于主從博弈的智能車輛決策方法在行為預(yù)測(cè)準(zhǔn)確率方面，在INTERACTION數(shù)據(jù)集的表現(xiàn)優(yōu)于文獻(xiàn)[11]，但在NGSIM-US 101數(shù)據(jù)集上的準(zhǔn)確率略低于文獻(xiàn)[11]中的結(jié)果，原因是由于文獻(xiàn)[11]中針對(duì)NGSIM數(shù)據(jù)集中378對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了針對(duì)性的參數(shù)標(biāo)定，所以有一定過擬合現(xiàn)象的產(chǎn)生.在決策輸出的平均絕對(duì)誤差方面，本文方法優(yōu)于對(duì)比文獻(xiàn)中的方法.同時(shí)，隨著主路車道上車流量的增大，本文提出的方法在行為預(yù)測(cè)準(zhǔn)確率和MAE兩個(gè)指標(biāo)上的變化較少，文獻(xiàn)[11]中的指標(biāo)略有下降，從而體現(xiàn)出本文方法的穩(wěn)健性.

圖6 行為預(yù)測(cè)準(zhǔn)確率與車流量關(guān)系Fig.6 Behavior prediction accuracy versus traffic flow

5 結(jié)語

本文提出了一種基于主從博弈的匯流場(chǎng)景智能車決策方法，該方法通過引入路權(quán)的定義，分別構(gòu)建了雙車博弈模型以及多車博弈模型，用以解決匯流場(chǎng)景中的決策問題.此外，本文還設(shè)計(jì)了匯流場(chǎng)景的參數(shù)化模型，增加了決策方法的可遷移性.本文通過設(shè)計(jì)安全收益、時(shí)間收益、控制收益以及合作收益，顯式地構(gòu)成了車輛博弈中的目標(biāo)收益函數(shù)，增加了所提決策方法的合理性與可解釋性.最后，分別基于INTERACTION與NGSIM數(shù)據(jù)集進(jìn)行測(cè)試與分析，驗(yàn)證了所提方法的有效性與穩(wěn)健性.結(jié)果表明，基于主從博弈的決策方法可以和匯流場(chǎng)景中的路權(quán)信息有效結(jié)合，提升決策的合理性.同時(shí)，合作收益的引入可以使無人駕駛車輛解算出更加類人且安全的決策.下一步工作將致力于在更加普適的場(chǎng)景中研究基于博弈方法的智能車決策問題.