宋清源 傅衛(wèi)平 王 雯 高志強(qiáng)周勁草郝大鵬
(1.西安理工大學(xué)機(jī)械與精密儀器工程學(xué)院,陜西西安 710048;2.西安外事學(xué)院工學(xué)院,陜西西安 710077;3.西安航空學(xué)院理學(xué)院,陜西西安 710077)
自動駕駛汽車代替人類駕駛汽車出行將成為未來的必然趨勢;同時,在相當(dāng)長時期內(nèi),自動駕駛汽車將與人類交通參與者(包括行人和人工駕駛的各種機(jī)動與非機(jī)動車輛)共享城市道路.為了在城市復(fù)雜混合交通環(huán)境中安全高效行駛,自動駕駛車輛需要正確估計(jì)人類交通參與者的行為意圖,并像人類駕駛車輛那樣與人類交通參與者自然地相互作用[1-2].否則,面對交通參與者不遵守交通規(guī)則的場景,自動駕駛汽車是寸步難行的[3].人類交通參與者的行為及其相互作用在現(xiàn)實(shí)世界中往往具有明顯的不確定性和非理性,而自動駕駛的“長尾”問題與非理性的行為意圖和不確定的相互作用有關(guān)[4],需要采用正確而有效的認(rèn)知與決策理論進(jìn)行研究.但是,目前尚缺少有關(guān)研究人類交通參與者非理性行為的有效方法.
交叉路口是典型的交通參與者相互作用場景.自動駕駛車輛在無右轉(zhuǎn)指示燈的交叉口即將右轉(zhuǎn)時,會與非機(jī)動車道的其他交通參與者發(fā)生交互行為.目前,對人類交通參與者的認(rèn)知與決策行為研究多基于完全理性的和相互獨(dú)立的假設(shè)[5],并且均采用基于經(jīng)典概率的認(rèn)知與決策理論進(jìn)行研究,然而,已有人類行為認(rèn)知與決策理論的研究結(jié)果表明,人類的行為與經(jīng)典認(rèn)知與決策理論中的完全理性假設(shè)是不相容的[6],基于經(jīng)典概率的認(rèn)知與決策理論不能準(zhǔn)確地描述人類的行為及其相互作用,這使得自主駕駛系統(tǒng)不能有效處理其他交通參與者的非理性行為以及相互作用等固有的不確定性,因而成為影響自主車輛安全運(yùn)行的主要瓶頸之一.而量子理論為研究人類交通參與者不確定性行為(包括非理性行為)及其相互作用提供了一種新途徑.
學(xué)者們將人類交通參與者的人體特征、為動作作為意圖估計(jì)的依據(jù),研究者們進(jìn)行了大量利用人體特征進(jìn)行行為預(yù)測的研究.Koehler等人[7]使用行人運(yùn)動的輪廓推斷行人過街的意圖.該輪廓線的主要特征是行人身體彎曲程度和腿部伸展程度;Kooij等人[8]借助頭部朝向特征估計(jì)行人意圖,他們認(rèn)為,當(dāng)行人面朝接近車輛時,行人更有可能在過街之前與車輛進(jìn)行協(xié)商;Fang等人[9]使用了單目視覺二維姿態(tài)估計(jì)方法預(yù)測行人和騎自行車人的過街行為,經(jīng)典概率模型不適用于真實(shí)場景.這使得上述方法有一定局限性.更多的學(xué)者開始利用基于經(jīng)典概率模型的機(jī)器學(xué)習(xí)去估計(jì)行人意圖.Markus等人[10]將部分可見馬爾科夫(partially observable Markov decision process,POMDP)模型與緊急制動系統(tǒng)結(jié)合,用POMDP預(yù)測行人發(fā)生碰撞的概率,減少不必要的制動;Jos等人[11]用增長的隱馬爾科夫模型(grow hidden Markov models,GHMMs)從在線數(shù)據(jù)中學(xué)習(xí),無需人工干預(yù).實(shí)驗(yàn)表明在基于社會力的運(yùn)動模型中利用GHMM估計(jì)的人的預(yù)期位置,與基于標(biāo)準(zhǔn)恒速模型相比,可以獲得顯著的性能提高,Wu等人[12]提出了一種基于馬爾科夫模型(Markov decision process,MDP)的概率方法來預(yù)測城市環(huán)境中的行人運(yùn)動,Koehler等人[13]等人提出常用的解決復(fù)雜環(huán)境中行人意圖估計(jì)問題的方法是動態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayes network,DBN),它從概率圖形模型中繼承了各種建模方案和大量精確和近似推理和學(xué)習(xí)技術(shù),Kooij等人[8]提出采用DBN和切換線性動力系統(tǒng)(switching linear dynamics system,SLDS)來推斷下一個行人的運(yùn)動,Rudenko等人[15]提出了一種用于行人預(yù)測的DBN,該DBN有兩種運(yùn)動模式(行走和站立).基于經(jīng)典概率模型的機(jī)器學(xué)習(xí)對預(yù)估行人假設(shè)為完全理性,在實(shí)際環(huán)境中行人不一定按照既定的模式運(yùn)動.
絕大多數(shù)研究僅把交通參與者看成是沒有認(rèn)知能力的運(yùn)動物體,假設(shè)其行為是理性的.然而,已經(jīng)有證據(jù)表明,對于人類的某些行為,特別是非理性行為,包括交通環(huán)境中的人類行為,往往偏離基于經(jīng)典概率的行為理論預(yù)期[16],因而可能成為自動駕駛安全導(dǎo)航的潛在風(fēng)險(xiǎn).
量子力學(xué)是上世紀(jì)最偉大的發(fā)現(xiàn),極大地推動著現(xiàn)代科學(xué)技術(shù)的發(fā)展,成為了新興科學(xué)技術(shù)的理論支柱.認(rèn)知領(lǐng)域的學(xué)者發(fā)現(xiàn),量子力學(xué)中干涉和糾纏與人類認(rèn)知中的交互作用有很多相似的特點(diǎn),這一發(fā)現(xiàn)促使量子力學(xué)的數(shù)學(xué)表達(dá)方法被構(gòu)建,并將量子概率引入認(rèn)知領(lǐng)域,嘗試?yán)昧孔恿W(xué)獨(dú)有的特征建立認(rèn)知模型,解釋基于經(jīng)典概率的認(rèn)知決策理論無法解釋的人類認(rèn)知領(lǐng)域難題,建立在量子概率基礎(chǔ)上的量子認(rèn)知決策理論逐漸孕育而生[17],不僅形成了日臻成熟的理論體系,而且得到日益廣泛的應(yīng)用[2].特別是在與無人駕駛技術(shù)最密切相關(guān)的移動機(jī)器人領(lǐng)域初顯的量子端倪[16],更讓人們看到了應(yīng)用量子理論解決自動駕駛認(rèn)知與決策問題的潛力和可能性.量子理論為研究人類交通參與者不確定性行為(包括非理性行為)及其相互作用提供了一種新途徑.量子概率與經(jīng)典機(jī)器學(xué)習(xí)理論(MDP,POMDP,DBN,HMM等)結(jié)合產(chǎn)生的量子認(rèn)知決策理論,為自動駕駛系統(tǒng)認(rèn)知決策研究提供了更為先進(jìn)且有效可行的理論工具.
綜上所述,目前尚缺少考慮人類交通參與者非理性行為的自動駕駛認(rèn)知與決策的系統(tǒng)性方法,雖然量子認(rèn)知與決策理論近年來取得長足發(fā)展,為研究考慮人類交通參與者行為(包括非理性行為)和相互作用的自動駕駛認(rèn)知與決策問題提供了新的方法,但是目前尚無應(yīng)用于自動駕駛領(lǐng)域的研究案例.本文將量子認(rèn)知理論與錨定效應(yīng)相結(jié)合,以交叉路口自動駕駛汽車右轉(zhuǎn)與非機(jī)動車道上的交通參與者發(fā)生交互為背景,分析自動駕駛車輛右轉(zhuǎn)時非機(jī)動車輛和行人的行為意圖及其演化規(guī)律,建立量子決策模型,為自動駕駛車輛行駛提供策略依據(jù).
如圖1所示,自主車即將右轉(zhuǎn),在臨近交叉口處觀察到非機(jī)動車和行人,但對行人或非機(jī)動車的未來狀態(tài)(直行、左轉(zhuǎn)或右轉(zhuǎn))未知.可分情況討論:1)若行人或非機(jī)動車右轉(zhuǎn),則行人或非機(jī)動車占內(nèi)側(cè)道路,自主車占外側(cè)道路,不發(fā)生交互行為,可以忽略;2)若行人或非機(jī)動車直行或者左轉(zhuǎn),都會與自主車發(fā)生交互行為,行人或非機(jī)動車可能會在行進(jìn)過程中發(fā)生不確定性或非理性行為,比較典型且經(jīng)常發(fā)生的行為如行人或非機(jī)動車不遵守交通規(guī)則.行人突然接打電話.非機(jī)動車由于路滑翻車等,這些行為都會影響到交互結(jié)果(發(fā)生碰撞或安全通過).
在自主車與行人或非機(jī)動車發(fā)生交互之前,將真實(shí)交通場景中的停車線(圖中標(biāo)注目標(biāo)線)作為目標(biāo),設(shè)自主車從當(dāng)前位置到目標(biāo)線的時間為T1,行人或者非機(jī)動車從當(dāng)前位置到目標(biāo)線的時間為T2,比較T1與T2的大小,為自主車提前采取正確的決策提供了有效的策略依據(jù).特別需要說明的是,自主車將T1設(shè)置為交互時的參照時間,設(shè)定T1為估測值,將T2設(shè)定為實(shí)際值,若T1 根據(jù)以上分析,在能夠考慮到行人或非機(jī)動車的不確定因素和非理性行為的情況下正確判斷T1與T2的大小,能夠在真實(shí)路況中,做出正確且符合實(shí)際情況的決策,是本次研究的重點(diǎn). 所謂錨定效應(yīng)(anchoring effect)是指當(dāng)人們需要對某個事件做定量估測時,會將某些特定數(shù)值作為目標(biāo)值,目標(biāo)值像錨一樣制約著估測值.在做決策的時候,會不自覺地給予最初獲得的信息過多的重視[18]. 根據(jù)第3.1節(jié)所設(shè)定的場景,圖1中不論自主車還是非機(jī)動車或行人,過了目標(biāo)線之后便是沖突交互區(qū)域,將自主車當(dāng)前位置至目標(biāo)線位置的時間t1設(shè)定為目標(biāo)值,將自主車預(yù)估非機(jī)動車/行人到達(dá)目標(biāo)線位置的時間t2/t3分別設(shè)定為估測值,通過量子認(rèn)知模型結(jié)合錨定效應(yīng),準(zhǔn)確判定t1與t2/t3的大小,從而幫助自主車做出加速通過或減速讓行的決策. 圖1 自動駕駛車輛右轉(zhuǎn)與非機(jī)動車和行人交互場景Fig.1 The scene of autonomous vehicle turning right with nonmotor vehicle and pedestrians interaction 本文將自主車觀測到目標(biāo)線時還未到目標(biāo)線的非機(jī)動車和行人定義為處于錨定條件,自主車未觀測到目標(biāo)線時非機(jī)動車和行人定義為沒有處于錨定條件.在沒有處于錨定條件時,有兩種相互排斥且完全包含所有情形組成的集合,即估測值低于和高于標(biāo)準(zhǔn)值,集合內(nèi)的元素用量子態(tài)的形式表示成{|L>,|H >},其中:|L>表示估測值低于目標(biāo)值,|H >表示估測值高于目標(biāo)值.最終測量時的狀態(tài)可以寫成兩者的疊加態(tài),即|ψ>=α|L>+β|H>,其中α和β均為復(fù)數(shù),且滿足歸一化條件|α|2+|β|2=1.據(jù)量子波幅性質(zhì),估測值低于目標(biāo)值的概率為α,而高于目標(biāo)值的概率為β. 處于錨定條件時,可以用集合{|LL>,|LH >,|HL>,|HH >}來表示所有可能的情況,其中第1個字母表示所處于的錨定條件,L表示低錨定條件,在同等條件下由于非機(jī)動車到達(dá)目標(biāo)線時間比行人用時少,故本文中的低錨定條件表示自主車與非機(jī)動車交互;同理,H表示高錨定條件,在本文中表示自主車與行人交互;第2個字母表示估測值和目標(biāo)值相比,L表示比目標(biāo)值低,H表示比目標(biāo)值高.所以此時可以用函數(shù)來表示: 式中:M表示從未進(jìn)入錨定條件到進(jìn)入錨定條件的過渡矩陣;ψL表示自主車還沒有進(jìn)入錨定條件時,非機(jī)動車或行人到達(dá)目標(biāo)線位置的時間(估測值)低于自主車從當(dāng)前位置到目標(biāo)線位置的時間(目標(biāo)值)的概率波幅函數(shù),同理,ψH與之類似;ψLL表示在低錨定條件下即自主車與非機(jī)動車交互時,估測值比目標(biāo)值低的概率波幅函數(shù),其他與之類似. 當(dāng)自主車進(jìn)入錨定條件進(jìn)行比較估測值與目標(biāo)值時,自主車的信念行為狀態(tài)會依據(jù)收益矩陣動態(tài)地從初始狀態(tài)ψ(0)轉(zhuǎn)變?yōu)樽罱K狀態(tài)ψ(t),這一過程可以用薛定諤方程(式2)的解(式3)描述: 設(shè)矩陣U(t)=e?itHA為酉矩陣(unitary matrix),其中第i行第j列元素的模的平方|Uij(t)|2表示在時間t內(nèi)從狀態(tài)j轉(zhuǎn)變?yōu)闋顟B(tài)i的概率.該矩陣滿足U?U=I,以保證狀態(tài)ψ的內(nèi)積不變,從而確保決策者在決策時轉(zhuǎn)變?yōu)樗锌赡芑鶓B(tài)概率之和保持為I[17].在薛定諤方程中,哈密頓矩陣HA起著關(guān)鍵作用,在上述模型中,哈密頓矩陣僅根據(jù)決策者自身的收益矩陣建立,如下: 其中: 式中:uL,uH分別表示自主車判定估測值比目標(biāo)值低、估測值比目標(biāo)值高的效用函數(shù),在本文中uL=uH=u,取值范圍為u ∈[0,1].特別要說明的是,自主車在行駛過程中始終觀察前方的路況,數(shù)值越趨向1,代表估測值與目標(biāo)值越接近. 在此基礎(chǔ)上,考慮到環(huán)境的不確定因素和非機(jī)動車或行人的非理性行為,加入“認(rèn)知失調(diào)”矩陣[17],“認(rèn)知失調(diào)”矩陣表示的是出現(xiàn)不確定因素和非理性行為時,行為隨信念發(fā)生改變的關(guān)系: 上式建立的意義是:當(dāng)自主車將要做出估計(jì)值比目標(biāo)值低或者高的決策時(行為),第1個/第2個矩陣分別將參與決策的低錨定條件/高錨定條件考慮進(jìn)去(信念).特別要說明的是 式中:γ表示信念與行為的糾纏的參數(shù),其值越大,表示在相同時間內(nèi),這種糾纏的程度越大,取值范圍為γ ∈[0,1].若γ >0那么第1行和最后1行的增長速度要大于中間行,所以,信念和行為一致的狀態(tài)的振幅會增加. 式(4)-(5)本身不足以描述自主車與非機(jī)動車和行人交互的行為,因?yàn)樗鼰o法解釋偏好如何隨回報(bào)而變化.將式(4)-(5)結(jié)合后得到HC=HA+HB.因此,初始狀態(tài)到最終狀態(tài)的時間演化既反映了收益的影響,也反映了“認(rèn)知失調(diào)”的過程. 在MATLAB平臺上進(jìn)行仿真計(jì)算,分為3種情況:1)自主車估測非機(jī)動車到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布;2)自主車估測行人到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布;3)自主車估測非機(jī)動車和行人組成的群體(以下簡稱群體)到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布. 計(jì)算以上3種情況時需要對初始函數(shù)ψ(0)進(jìn)行設(shè)定,在估測非機(jī)動車到達(dá)目標(biāo)線時間時,由于此時行人到達(dá)目標(biāo)線的時間暫不考慮,所以ψHL和ψHH均為0;同理,在估測行人到達(dá)目標(biāo)線時間時,ψLL和ψLH均為0;在估計(jì)群體到達(dá)目標(biāo)線時間時,對各個概率波幅函數(shù)平均分配.特別需要注意的是,量子的概率振幅是模平方的形式,且滿足歸一性:ψ(0)表示如下: 式中ψ1(0),ψ2(0),ψ0(0)分別表示自主車估測非機(jī)動車、行人、群體到達(dá)目標(biāo)線的時間這一過程的初始函數(shù). 與錨定效應(yīng)結(jié)合的新量子決策模型在計(jì)算自主車與非機(jī)動車交互時估測值比目標(biāo)值低的概率分布時,除了要考慮自主車觀測到的非機(jī)動車的狀態(tài)之外,還要將可能出現(xiàn)的行人的狀態(tài)考慮進(jìn)去,最終的結(jié)果是ψLL和ψHL的和的概率振幅.計(jì)算自主車與行人或群體交互時與此同理. 隨著信念與行為糾纏的參數(shù)γ(橫坐標(biāo))從0到糾纏最大值1,代表在真實(shí)道路環(huán)境中自主車與其他交通參與者(非機(jī)動車和行人)交互時非機(jī)動車或行人出現(xiàn)的非理性行為從完全理性至非理性程度逐漸增大,如在完全理性下,非機(jī)動車或行人在到達(dá)路口時速度應(yīng)逐漸降低,待觀察清楚后再起步前進(jìn),但若實(shí)際情形是非機(jī)動車或行人出現(xiàn)非理性行為時,在達(dá)到路口過程中速度非但不降速反而越來越快,則其加速度越大可以理解為信念與行為糾纏的參數(shù)越接近1. 當(dāng)效用函數(shù)分別為u=1,u=0.8,u=0.6,u=0.4,u=0.2及u=0時上述3種情況的概率分布(縱坐標(biāo)),最終得到結(jié)果如圖2-7所示. 圖2 u=1時自主車分別估測非機(jī)動車(上)、行人(中)和群體(下)到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布Fig.2 When u=1,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖3 u=0.8時自主車分別估測非機(jī)動車(上)、行人(中)和群體(下)到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布Fig.3 When u=0.8,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖4 u=0.6時自主車分別估測非機(jī)動車(上)、行人(中)和群體(下)到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布Fig.4 When u=0.6,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖5 u=0.4時自主車分別估測非機(jī)動車(上)、行人(中)和群體(下)到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布Fig.5 When u=0.4,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖6 u=0.2時自主車分別估測非機(jī)動車(上)、行人(中)和群體(下)到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布Fig.6 When u=0.2,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖7 u=0時自主車分別估測非機(jī)動車(上)、行人(中)和群體(下)到達(dá)目標(biāo)線的時間(估測值)與自主車到達(dá)目標(biāo)線的時間(目標(biāo)值)偏差概率分布Fig.7 When u=0,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 在錨定效應(yīng)下圖2-7可以簡化理解:帶菱形線表示非機(jī)動車(上)、行人(中)和群體(下)先到目標(biāo)線的概率,帶三角形線表示自主車先到目標(biāo)線的概率.前文所述,u越趨近于1,代表估測值與目標(biāo)值越接近. 由圖2-7可知,當(dāng)u=1時,即估測值與目標(biāo)值最接近時,自主車估測非機(jī)動車或者行人到達(dá)目標(biāo)線的時間均小于自身到達(dá)目標(biāo)線的時間,在信念與行為糾纏的參數(shù)γ最大時,群體與自主車同時到達(dá)目標(biāo)線.此時自主車應(yīng)該提前減速,等待非機(jī)動車和行人完全通過后再通過,避免交叉口處的擁堵. 當(dāng)u=0.8,γ≥0.9時,自主車比非機(jī)動車先到達(dá)目標(biāo)線,此時自主車應(yīng)加速通過,行人和群體仍然比自主車先到達(dá)目標(biāo)線,但其概率值與u=1時相比略有下降. 當(dāng)u=0.6時,γ≥0.73時自主車比非機(jī)動車先到達(dá)目標(biāo)線位置,其他與u=0.8類似. 當(dāng)u=0.4時,γ≥0.52時自主車比非機(jī)動車先到達(dá)目標(biāo)線位置,其他與u=0.8類似. 當(dāng)u=0.2時,γ≥0.3時自主車比非機(jī)動車先達(dá)到目標(biāo)線位置,其他與u=0.8類似. 當(dāng)u=0時,即估測值與目標(biāo)值相差最大時,自主車比非機(jī)動車先達(dá)到目標(biāo)線位置,此時自主車應(yīng)加速通過;行人在γ=0 時與自主車同時到達(dá),隨著γ增加,行人比自主車先到達(dá)目標(biāo)線位置的概率更大,自主車應(yīng)減速讓行;群體與自主車到達(dá)目標(biāo)線位置的時間順序不再隨著γ的增加而變化,會一直與自主車同時達(dá)到目標(biāo)線位置,此時自主車應(yīng)減速讓行. 自動駕駛車輛需要正確估計(jì)人類交通參與者的不確定及非理性行為意圖,并像人類駕駛車輛那樣與人類交通參與者自然地相互作用.為了驗(yàn)證提出方法的有效性,將本文提出的錨定效應(yīng)下的量子決策模型和累積前景理論模型(非理性行為評價(jià)方法)在同一個數(shù)據(jù)集中評價(jià)其實(shí)驗(yàn)表現(xiàn)情況.下面簡要介紹累積前景理論模型. 累積前景理論(cumulative prospect theory,CPT)由Kahneman和Tversky[19]提出,它以一種統(tǒng)一的方式闡述了許多帶有偏見或非理性的人類行為.與傳統(tǒng)的預(yù)期效用理論(expected utility theory,EUT)相比,CPT在前景的定義中引入了兩個額外的概念:1)P:定義在效用上的值函數(shù)V;2) 定義在累積概率上的決策權(quán)函數(shù)π.每個動作都由下列方程評估: 式中:函數(shù)V是嚴(yán)格遞增函數(shù),u+和u?分別為與參考效用u0相比,u的收益和損失.決策權(quán)重定義為 式中:w±是嚴(yán)格遞增函數(shù),通常,當(dāng)u≥u0(增益)時,V(u)為凸函數(shù),當(dāng)u≤u0(損耗)時,V(u)為凹函數(shù),且損耗比增益更陡峭.圖8(上)顯示了當(dāng)u0=0被設(shè)置為參考效用時值函數(shù)的一個示例,許多實(shí)驗(yàn)研究表明,V和w的代表函數(shù)形式可以寫成 圖8 值函數(shù)(上圖)和權(quán)函數(shù)(下圖)的例子Fig.8 Examples of value and weight functions 式中:α,β,γ,θ ∈(0,1],λ≥1在圖8(下)中,這種決策權(quán)重函數(shù)可以很好地描述人類傾向于高估低概率事件的發(fā)生而低估高概率事件的發(fā)生的觀察到的行為. CPT模型假設(shè)決策者選擇產(chǎn)生式(8)中定義的最大值的行為,即 實(shí)驗(yàn)數(shù)據(jù)集參考[20],選取無信號燈環(huán)形路口為交互地點(diǎn),在該路口處非機(jī)動車、行人及群體出現(xiàn)頻繁,如圖9所示. 圖9 數(shù)據(jù)集(無信號燈環(huán)形路口)中交互場景Fig.9 An interaction scenario in a dataset(a traffic roundabout without lights) 在此數(shù)據(jù)集中共搜集到283次目標(biāo)車右轉(zhuǎn)時與其他交通參與者交互場景,分別用錨定效應(yīng)下的量子決策模型和累積前景理論模型(CPT)對其進(jìn)行驗(yàn)證.錨定效應(yīng)下的量子決策模型中假設(shè)信念與行為糾纏的參數(shù)γ隨著交互處交通流密集程度線性增加,即交互處越擁堵γ越趨近1;CPT中設(shè)定{ap,ay}是判定目標(biāo)車/其他交通參與者先到目標(biāo)線時,目標(biāo)車采取加速通過/減速讓行的動作集,按照文獻(xiàn)[21]中的方法將CPT中的參數(shù)通過逆強(qiáng)化學(xué)習(xí)(inverse reinforcement learning,IRL)的方式獲得,假設(shè)U是由一些特征組成的線性組合,這些特征包括:速度、加速度、緊急制動和安全性. 將兩種模型的驗(yàn)證結(jié)果在下表中展示,結(jié)果表明,錨定效應(yīng)下的量子決策模型的決策正確率要高于累積前景理論模型,根據(jù)文獻(xiàn)[21]的結(jié)果,錨定效應(yīng)下的量子決策模型相比于神經(jīng)網(wǎng)絡(luò)模型結(jié)果接近且不需要大量數(shù)據(jù)驅(qū)動,這使得錨定效應(yīng)下的量子決策模型數(shù)據(jù)效率更高. 從結(jié)果上看,錨定效應(yīng)下的量子決策模型在自主車右轉(zhuǎn)場景決策時更具有優(yōu)勢,主要原因有以下幾點(diǎn):1)CPT模型計(jì)算得到的概率值是基于經(jīng)典概率計(jì)算得出的,并沒有考慮到產(chǎn)生疊加態(tài)時的情況,如在設(shè)置動作集時,僅有加速通過和減速讓車兩個動作,而沒有兩者之間的狀態(tài),在實(shí)際場景中,很多交互車輛都會有猶豫不定的時候,故此方法并沒有從根本上解決非理性的決策問題;2)在文獻(xiàn)[21]中對CPT中的參數(shù)進(jìn)行逆強(qiáng)化學(xué)習(xí)(IRL)時沒有考慮到交互雙方相互作用的影響,導(dǎo)致成功率相對較低;3)錨定效應(yīng)下的量子決策模型相比于CPT模型考慮到了動作集合中的疊加態(tài),舍棄掉完全理性假設(shè),與實(shí)際情況更加相符. 表1 CPT模型與錨定效應(yīng)下的量子決策模型成功率比較Table 1 Success rate comparison between CPT model and quantum decision model under anchoring effect 本文用量子理論與錨定效應(yīng)相結(jié)合,構(gòu)建出新量子決策模型,通過仿真和對比實(shí)驗(yàn),證明了該模型能夠在考慮到其他交通參與者存在非理性行為的情況下正確決策自動駕駛車輛右轉(zhuǎn)行為,與非機(jī)動車、行人及群體交互時能夠像人類駕駛員一樣做出正確合理的決策,確保通行時的安全和高效. 在下一步的研究中,作者將應(yīng)用更加復(fù)雜的交通場景,用量子理論進(jìn)一步探索交通參與者之間的相互作用問題.幫助自動駕駛車輛能夠更加清晰地分析真實(shí)的路況信息,促進(jìn)自動駕駛車輛更加安全和高效.本文為自動駕駛場景中人類交通參與者有限理性行為的研究提供了參考框架.作者相信,隨著量子認(rèn)知與決策理論的進(jìn)一步發(fā)展以及研究者們的不斷探索,其在自動駕駛領(lǐng)域中的應(yīng)用將更為廣泛深入.3.2 錨定效應(yīng)下的量子決策模型構(gòu)建
4 仿真分析
5 實(shí)驗(yàn)分析
5.1 累積前景理論模型(CPT)
5.2 數(shù)據(jù)集
5.3 實(shí)驗(yàn)結(jié)果
6 總結(jié)及展望