冉 巍,陳 慧,楊佳鑫,西村要介,國朝鵬,尹又雨
(1.同濟(jì)大學(xué)汽車學(xué)院,上海 201804;2.株式會(huì)社捷太格特,日本 6 348555;3.捷太格特科技研發(fā)中心(無錫)有限公司,無錫 214161)
隨著汽車智能化不斷提高,自動(dòng)駕駛或高級(jí)駕駛輔助系統(tǒng)(adavanced driver assistance system,ADAS)滲透率越來越高。如何使這些智能汽車按照駕駛員喜好的方式駕駛,提高駕駛員的接受度,已經(jīng)成為一個(gè)亟待解決的問題。決策規(guī)劃是影響智能汽車駕駛方式最主要的部分,其通常分為行為決策和運(yùn)動(dòng)規(guī)劃兩個(gè)部分。決策規(guī)劃系統(tǒng)根據(jù)環(huán)境信息作出下一步行為指令,例如是保持當(dāng)前車道還是換道行駛,向左換道還是向右換道等。運(yùn)動(dòng)規(guī)劃指系統(tǒng)根據(jù)行為決策的指令,規(guī)劃出一條可供車輛行駛的運(yùn)動(dòng)軌跡,比如換道軌跡。運(yùn)動(dòng)規(guī)劃的軌跡除了要求車輛能夠安全且準(zhǔn)確地跟蹤之外,還需要考慮車內(nèi)乘員的舒適性。由于不同駕駛員的喜好駕駛方式存在差異,因此有必要對(duì)行為決策和運(yùn)動(dòng)規(guī)劃方法進(jìn)行個(gè)性化改進(jìn)[1-2]。
決策規(guī)劃通常被看做一個(gè)多目標(biāo)決策問題,一個(gè)很重要的方法是首先對(duì)決策規(guī)劃結(jié)果進(jìn)行采樣,然后設(shè)計(jì)一個(gè)對(duì)多個(gè)特征—常包含安全、舒適、效率等方面,進(jìn)行加權(quán)的成本或獎(jiǎng)勵(lì)函數(shù),最后根據(jù)所有樣本的獎(jiǎng)勵(lì)函數(shù)值大小來選擇最優(yōu)結(jié)果[3-5]。目前,強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)在解決最優(yōu)序列決策規(guī)劃時(shí)展示出很大的潛力[6],越來越多研究通過經(jīng)驗(yàn)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),利用RL方法來實(shí)現(xiàn)自動(dòng)駕駛決策規(guī)劃[7-8]。Xie 等[9]通過RL 方法,設(shè)計(jì)了包括安全性、跟蹤準(zhǔn)確性、操作負(fù)荷和類人一致性在內(nèi)的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)了類人的縱向跟車行為學(xué)習(xí)。
由于這個(gè)成本或獎(jiǎng)勵(lì)函數(shù)描述了設(shè)計(jì)者對(duì)決策規(guī)劃結(jié)果的期望,因此對(duì)決策規(guī)劃結(jié)果有非常重要的影響。要為決策規(guī)劃設(shè)計(jì)一個(gè)準(zhǔn)確的獎(jiǎng)勵(lì)函數(shù),特別是當(dāng)需要考慮不同駕駛員的偏好差異時(shí),是一件非常困難的事情[10]。為此,通過逆強(qiáng)化學(xué)習(xí)(inverse reinforcement learning,IRL)從駕駛員演示中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),再根據(jù)學(xué)習(xí)到的獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)類人駕駛已經(jīng)成為當(dāng)前的主要方法[11-14]。IRL 估計(jì)獎(jiǎng)勵(lì)函數(shù)權(quán)重的方法是通過匹配獎(jiǎng)勵(lì)函數(shù)下的最佳軌跡特征與駕駛員演示軌跡特征[15]。宋東鑒等[16]從動(dòng)機(jī)驅(qū)動(dòng)和可行性評(píng)估兩個(gè)方面根據(jù)經(jīng)驗(yàn)選取了軌跡規(guī)劃特征,設(shè)計(jì)了能夠表征駕駛?cè)苏J(rèn)知特性的獎(jiǎng)勵(lì)函數(shù),通過逆強(qiáng)化學(xué)習(xí)方法對(duì)每個(gè)駕駛員的獎(jiǎng)勵(lì)函數(shù)系數(shù)進(jìn)行學(xué)習(xí)。結(jié)果表明,相比更簡單的獎(jiǎng)勵(lì)函數(shù),根據(jù)認(rèn)知特性設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)能夠更準(zhǔn)確地進(jìn)行類人決策規(guī)劃學(xué)習(xí)。Xu等[3]從安全、舒適、效率以及換道激勵(lì)等多個(gè)方面計(jì)算了軌跡特征并設(shè)計(jì)了獎(jiǎng)勵(lì)函數(shù),采用IRL 方法學(xué)習(xí)了獎(jiǎng)勵(lì)函數(shù)各部分權(quán)重,實(shí)現(xiàn)了對(duì)于高速公路換道決策和換道軌跡規(guī)劃的類人駕駛學(xué)習(xí)。這些獎(jiǎng)勵(lì)函數(shù)包含的特征通常是基于經(jīng)驗(yàn)手動(dòng)選擇的,如何合理選擇特征對(duì)提高學(xué)習(xí)效果也很重要。
另外,雖然這些方法在類人駕駛方面取得了較好的效果,但當(dāng)駕駛員作為“乘客”使用自動(dòng)駕駛功能時(shí),其喜好的駕駛方式與手動(dòng)駕駛的駕駛方式并不完全一致[17]。已有研究發(fā)現(xiàn),即使是激進(jìn)的駕駛員也更喜歡比自身駕駛方式更保守的自動(dòng)駕駛方式[18-19]。一個(gè)可能的原因在于當(dāng)作為“乘客”時(shí),駕駛員沒有對(duì)車輛進(jìn)行控制,其感受到的風(fēng)險(xiǎn)比正在手動(dòng)駕駛車輛的駕駛員要更高[20]。
綜上所述,選擇合適的獎(jiǎng)勵(lì)函數(shù)特征并設(shè)計(jì)符合駕駛員偏好的獎(jiǎng)勵(lì)函數(shù)對(duì)于實(shí)現(xiàn)駕駛員個(gè)性化的決策規(guī)劃至關(guān)重要。之前的研究結(jié)果表明,不同駕駛員在彎道上的軌跡偏好存在顯著差異[21]。因此參考該文研究場(chǎng)景,本文以駕駛員在彎道內(nèi)無其他交通參與者的簡單場(chǎng)景下的過彎偏好軌跡作為研究對(duì)象,以設(shè)計(jì)個(gè)性化的運(yùn)動(dòng)規(guī)劃獎(jiǎng)勵(lì)函數(shù)為目標(biāo),提出了一種量化駕駛員軌跡偏好的模型及模型估計(jì)方法。所估計(jì)出的模型可用作符合駕駛員偏好的個(gè)性化運(yùn)動(dòng)規(guī)劃獎(jiǎng)勵(lì)函數(shù)。
本文的主要貢獻(xiàn)包括:(1)基于效用理論提出了一個(gè)雙層模型來量化駕駛員軌跡偏好與軌跡特征之間的關(guān)系;(2)分別基于評(píng)分和配對(duì)比較兩種評(píng)價(jià)方式,設(shè)計(jì)了偏好模型估計(jì)方法;(3)基于模擬器試驗(yàn)進(jìn)行了評(píng)價(jià)試驗(yàn),驗(yàn)證了提出的模型估計(jì)方法的有效性,并對(duì)兩種評(píng)價(jià)方法下的估計(jì)結(jié)果進(jìn)行了比較。
效用理論已經(jīng)被廣泛用于進(jìn)行多屬性或多目標(biāo)決策建模[22]?;谛в美碚摰碾x散選擇模型也被用于對(duì)人們?nèi)粘3鲂蟹绞降倪x擇進(jìn)行建模,通過對(duì)多個(gè)因素如時(shí)間、成本、舒適度等帶來的不同效用進(jìn)行權(quán)衡,選擇效用最大的出行方式[23]。根據(jù)效用理論,可認(rèn)為駕駛員偏好效用更高的軌跡。本文提出了一個(gè)雙層結(jié)構(gòu)的軌跡偏好模型,對(duì)駕駛員的軌跡效用評(píng)估過程進(jìn)行了建模,如圖1所示。
圖1 基于效用理論的軌跡偏好模型
在上層的效用評(píng)估模型(utility evaluation model,UEM)中,軌跡的效用U通??捎? 部分效用線性加權(quán)而得,包括安全效用US、舒適效用UC和效率效用UE,考慮到存在部分未建模部分,所以再加上一部分隨機(jī)效用ε,可得UEM表達(dá)式:
式中:βS、βC、βE分別表示安全、舒適和效率效用權(quán)重,β=[βS,βC,βE]T為效用權(quán)重向量,不同效用權(quán)重代表了駕駛員對(duì)不同效用項(xiàng)的偏好程度;X=[US,UC,UE]T為UEM 的軌跡效用向量。效用項(xiàng)US、UC、UE不能直接獲取,本文假設(shè)各個(gè)效用項(xiàng)是駕駛員通過對(duì)應(yīng)的軌跡特征(例如橫向偏移量、加速度以及速度等)感知到的。因此,在模型下層,通過駕駛員感知模型(driver perception model,DPM)對(duì)各個(gè)效用項(xiàng)進(jìn)行建模。DPM 包括3 個(gè)部分,分別是安全感知模型(safety perception model,SPM)、舒適感知模型(comfort perception model,CPM)和效率感知模型(efficiency perception model,EPM)。每個(gè)感知模型都能通過類似的線性效用函數(shù)和對(duì)應(yīng)的軌跡特征進(jìn)行計(jì)算。以SPM為例,其計(jì)算方式為
式中:βS=[βS_1,βS_2,...]T為SPM 的軌跡特征權(quán)重向量;XS=[XS_1,XS_2,...]T為SPM 的軌跡特征向量;εS為SPM的隨機(jī)效用。
類似地,可得到CPM 和EPM 的計(jì)算公式。在得到感知模型計(jì)算公式之后,便可通過感知模型和軌跡特征計(jì)算每條軌跡對(duì)應(yīng)的安全、舒適和效率效用。進(jìn)一步可根據(jù)UEM 計(jì)算每一條軌跡的總效用,即對(duì)不同軌跡的偏好。
上述各效用模型中的各個(gè)權(quán)重向量和軌跡特征向量決定了該效用模型對(duì)不同軌跡的主觀感知和偏好,也即代表了駕駛員的偏好。因此,駕駛員軌跡偏好模型的學(xué)習(xí)就變成了軌跡特征的選擇和各模型權(quán)重向量的估計(jì)。
效用或偏好是駕駛員的一種主觀感受,為了估計(jì)效用模型,需要獲取駕駛員對(duì)不同軌跡的主觀評(píng)價(jià)。最常見的主觀評(píng)價(jià)方式是評(píng)分,這廣泛應(yīng)用于主客觀評(píng)價(jià)相關(guān)性研究中[24]。除評(píng)分外,基于比較的方法也用于主客觀評(píng)價(jià)相關(guān)性分析[25]或用戶效用函數(shù)學(xué)習(xí)[26]。鑒于此,本文采用評(píng)分和比較兩種評(píng)價(jià)方式對(duì)模型參數(shù)進(jìn)行估計(jì)。
對(duì)所提出的雙層結(jié)構(gòu)模型,模型估計(jì)分兩步進(jìn)行。第1 步,根據(jù)安全、舒適和效率評(píng)價(jià)及軌跡特征估計(jì)3 個(gè)DPM。第2 步,根據(jù)安全、舒適和效率效用與偏好評(píng)價(jià)建立UEM。為此,本節(jié)介紹建立感知模型所需軌跡特征和各個(gè)模型在兩種評(píng)價(jià)方式下的估計(jì)方法。
為盡可能完整描述軌跡,本文參考駕駛員風(fēng)格識(shí)別綜述文獻(xiàn)[27]、個(gè)性化駕駛輔助系統(tǒng)綜述文獻(xiàn)[2]中總結(jié)的軌跡特征以及本研究小組之前的研究[28],計(jì)算了如表1所示的軌跡特征。
表1 計(jì)算軌跡特征總結(jié)
表中,STLC(straight time to line crossing)指直線跨道時(shí)間,CTLC(curved time to lane crossing)指曲線跨道時(shí)間,TAD(time to anticipate distance)指預(yù)期跨道時(shí)間,表示駕駛員不同的風(fēng)險(xiǎn)感知類型,詳見文獻(xiàn)[28]。WARMS(weighted acceleration root mean square)指加權(quán)加速度均方根值,常作為描述乘坐舒適性的指標(biāo),計(jì)算方式參照文獻(xiàn)[29]。
評(píng)分通常是根據(jù)一個(gè)離散的,如5點(diǎn)或7點(diǎn)李克特量表對(duì)評(píng)價(jià)對(duì)象進(jìn)行打分。這種評(píng)分將效用直接映射到幾個(gè)離散點(diǎn)?;诨貧w分析的相關(guān)性方法是常用的研究評(píng)分和評(píng)價(jià)對(duì)象特征定量關(guān)系的方法[23]。通常,評(píng)分是一種序數(shù)類型的數(shù)據(jù),對(duì)評(píng)分進(jìn)行回歸需要采用序數(shù)回歸的方法。但由于序數(shù)回歸方法相對(duì)復(fù)雜,并且評(píng)分通常是一個(gè)間隔均勻且有明確含義的數(shù)據(jù)類型,因此,線性回歸方法也被廣泛用于建立主觀評(píng)分和客觀指標(biāo)的相關(guān)性模型[30-32]。為了避免通過經(jīng)驗(yàn)選擇軌跡特征的問題,本文采用逐步線性回歸方法用于同時(shí)選擇模型軌跡特征和估計(jì)對(duì)應(yīng)參數(shù),然后再用線性回歸方法對(duì)UEM進(jìn)行參數(shù)估計(jì)。
對(duì)兩個(gè)配對(duì)對(duì)象進(jìn)行比較評(píng)價(jià),能夠挖掘用戶的偏好,從而估計(jì)用戶的效用函數(shù)[25]。對(duì)于一組配對(duì)軌跡(A,B),其效用分別為(UA,UB)。假設(shè)一個(gè)駕駛員,其模型UEM 的效用權(quán)重向量為β,由于UEM包含隨機(jī)效用項(xiàng)ε,因此駕駛員的偏好具有隨機(jī)性。用Pr(A|XA,XB,β)表示UEM 效用權(quán)重向量為β的駕駛員對(duì)于效用向量分別為(UA,UB)的軌跡組(A,B)進(jìn)行比較時(shí),其偏好軌跡為A的概率,即UA高于UB的概率,代入式(1),可得
隨機(jī)效用(εA,εB)可認(rèn)為是獨(dú)立同分布的,但其具體分布未知。根據(jù)中心極限定理,一個(gè)最常見的假設(shè)是正態(tài)分布。基于正態(tài)分布假設(shè),可知Pr(A|XA,XB,β)也為正態(tài)分布,其只能通過查找正態(tài)分布累計(jì)概率函數(shù)表進(jìn)行求解而不能方便得到解析解。因此,一個(gè)更好的假設(shè)是標(biāo)準(zhǔn)Gumbel極值分布(即I 型極值分布),基于該分布能得到易于計(jì)算的解析解[23],如式(4)所示。
上述解的形式即為logistic 函數(shù),常用于二分類問題,可通過邏輯回歸方法進(jìn)行參數(shù)估計(jì)。同樣地,為避免經(jīng)驗(yàn)選擇軌跡特征的問題,本文用逐步邏輯回歸方法對(duì)感知模型進(jìn)行估計(jì),然后用邏輯回歸方法估計(jì)UEM。
為了比較兩種評(píng)價(jià)方法下模型估計(jì)結(jié)果的準(zhǔn)確性,本節(jié)提出了模型估計(jì)結(jié)果準(zhǔn)確性評(píng)價(jià)指標(biāo)??紤]到使用的參數(shù)估計(jì)方法分別為線性回歸和邏輯回歸,本文基于以下2個(gè)指標(biāo)對(duì)估計(jì)準(zhǔn)確性進(jìn)行評(píng)價(jià)。
(1)擬合優(yōu)度GOF
對(duì)于回歸方法,擬合優(yōu)度(goodness-of-fit,GOF)是一個(gè)常用的用于衡量回歸模型對(duì)數(shù)據(jù)結(jié)果擬合程度大小的指標(biāo)。其取值范圍為[0,1],值越接近1,表明模型擬合效果越好。擬合優(yōu)度可通過各種回歸分析軟件直接得到。
(2)擬合準(zhǔn)確度FA
考慮到本文的因變量數(shù)據(jù)分別為分類數(shù)據(jù)(比較)和定序數(shù)據(jù)(評(píng)分),因此模型的擬合準(zhǔn)確度可用模型對(duì)數(shù)據(jù)的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的一致程度進(jìn)行衡量。對(duì)于比較評(píng)價(jià)數(shù)據(jù),模型預(yù)測(cè)結(jié)果為偏好概率。本文借鑒邏輯回歸結(jié)果將概率轉(zhuǎn)化為二分類結(jié)果:
對(duì)于評(píng)分評(píng)價(jià)數(shù)據(jù),線性回歸模型的預(yù)測(cè)結(jié)果為連續(xù)值,將該連續(xù)預(yù)測(cè)值映射到最近的離散評(píng)分值。擬合準(zhǔn)確度(fit accuracy,F(xiàn)A)則是上述預(yù)測(cè)結(jié)果準(zhǔn)確的評(píng)價(jià)次數(shù)(Num_true)與總評(píng)價(jià)次數(shù)(Num_total)的比值:
本章基于駕駛模擬器設(shè)計(jì)了評(píng)價(jià)試驗(yàn),對(duì)提出的軌跡偏好模型以及模型參數(shù)估計(jì)方法的結(jié)果進(jìn)行驗(yàn)證。
(1)模擬器
本試驗(yàn)在固定基座駕駛模擬器上進(jìn)行,其構(gòu)成共4 個(gè)部分,如圖2 所示。軌跡規(guī)劃、跟蹤以及轉(zhuǎn)向系統(tǒng)和踏板的控制通過Matlab/Simulink(2019b)進(jìn)行代碼生成并在實(shí)時(shí)機(jī)(Speedgoat 實(shí)時(shí)目標(biāo)機(jī)性能版,因特爾i7 4.2 GHz,4 核)里進(jìn)行實(shí)時(shí)運(yùn)算,實(shí)時(shí)機(jī)輸出目標(biāo)轉(zhuǎn)向力矩到EPS控制器和加載電機(jī)以便提供反饋力矩給駕駛員。同時(shí),實(shí)時(shí)機(jī)將計(jì)算得到的車輛狀態(tài)信息發(fā)送給電腦端(因特爾i9-7900x,3.3 GHz,16 核)的場(chǎng)景仿真軟件Prescan,其生成的實(shí)時(shí)場(chǎng)景將顯示在一個(gè)分辨率為3840×1080 的曲面顯示屏上。
圖2 駕駛模擬器構(gòu)造(上)及實(shí)物圖(下)
(2)場(chǎng)景
為了方便駕駛員對(duì)不同彎道軌跡進(jìn)行評(píng)價(jià),設(shè)計(jì)了如圖3(a)所示的雙向兩車道的試驗(yàn)場(chǎng)景。其由4 個(gè)完全一樣的彎道組成了一個(gè)封閉的環(huán)形試驗(yàn)場(chǎng)地,每個(gè)彎道由3部分組成,如圖3(b)所示。每個(gè)彎道的入彎和出彎段的形狀一樣,長度為62.83 m,中間圓曲線彎道半徑為120 m,彎道長度為125.67 m,整個(gè)彎道總長為251.3 m。
圖3 封閉試驗(yàn)場(chǎng)景(左)及每個(gè)彎道形狀(右)
為了獲取駕駛員對(duì)不同軌跡的評(píng)價(jià),需要一種能夠生成不同軌跡的規(guī)劃方法以及能夠準(zhǔn)確跟蹤的軌跡跟蹤方法。
(1)軌跡規(guī)劃
本文在文獻(xiàn)[33]中彎道軌跡規(guī)劃方法的基礎(chǔ)上,實(shí)現(xiàn)了多樣性軌跡的生成。軌跡規(guī)劃解耦成路徑規(guī)劃和速度規(guī)劃兩部分。中間彎道內(nèi)的規(guī)劃路徑通過對(duì)文獻(xiàn)[33]中的多種模式路徑進(jìn)行加權(quán)得到,設(shè)置不同權(quán)重便可得到各種不同路徑。在入彎和出彎路段,用三次樣條曲線對(duì)彎道內(nèi)規(guī)劃的路徑和兩端的車道中心線進(jìn)行平滑連接,實(shí)現(xiàn)整個(gè)彎道內(nèi)的平滑路徑規(guī)劃。
在路徑規(guī)劃基礎(chǔ)之上,基于文獻(xiàn)[33]中的非跟隨模式下的速度規(guī)劃方法進(jìn)行了速度規(guī)劃,并做了以下改進(jìn):(1)將目標(biāo)函數(shù)Jerk(加速度導(dǎo)數(shù))最小改成了速度變化量最??;(2)將約束最大允許速度替換成最大允許橫向加速度,用于限制彎道內(nèi)的最大速度。基于該方法,一些規(guī)劃的路徑和速度如圖4所示。
圖4 通過設(shè)置不同規(guī)劃參數(shù)得到的不同彎道路徑(上)和速度曲線(下)
圖中的路徑是在Frenet 坐標(biāo)系下的表示。橫坐標(biāo)縱向距離表示彎道中心線上距離彎道起始點(diǎn)的曲線弧長,縱坐標(biāo)是歸一化的橫向偏移量。-1、0、1 分別代表彎道內(nèi)邊緣、彎道中心線和彎道外邊緣。最終設(shè)置30 組不同的軌跡參數(shù)生成了30 條不同的軌跡用于評(píng)價(jià)試驗(yàn)。
(2)軌跡跟蹤
為了準(zhǔn)確跟蹤規(guī)劃的軌跡,本文使用了文獻(xiàn)[34]中的Stanley 控制器。結(jié)果表明,在不同軌跡下,絕大部分時(shí)候的跟蹤誤差小于5 cm,最大跟蹤誤差小于10 cm,這個(gè)跟蹤性能可以確保規(guī)劃的不同軌跡在跟蹤之后的實(shí)際軌跡具有足夠的差異性,滿足試驗(yàn)需求。
(1)試驗(yàn)人
20 個(gè)駕駛員參與了本次評(píng)價(jià)試驗(yàn),其年齡和相關(guān)駕駛經(jīng)驗(yàn)(年平均駕駛里程)如表2所示。
表2 參與試驗(yàn)駕駛員信息統(tǒng)計(jì)
(2)試驗(yàn)流程
本次評(píng)價(jià)試驗(yàn)分成兩部分,評(píng)分試驗(yàn)和比較試驗(yàn),分別在兩周進(jìn)行,每個(gè)駕駛員都同時(shí)參加了評(píng)分試驗(yàn)和比較試驗(yàn)。在第一次評(píng)分試驗(yàn)正式開始前,先向駕駛員介紹了本次試驗(yàn)的場(chǎng)景以及試驗(yàn)流程,向駕駛員解釋了各量表內(nèi)容和評(píng)價(jià)方法,然后進(jìn)行了預(yù)評(píng)價(jià)試驗(yàn),確保駕駛員完全了解試驗(yàn)流程之后再開始正式試驗(yàn)。
評(píng)分試驗(yàn)正式開始后,駕駛員被要求對(duì)30 條軌跡中的每一條進(jìn)行評(píng)價(jià),回答如表3所示的5點(diǎn)李克特量表,給出對(duì)應(yīng)分?jǐn)?shù)。
表3 評(píng)分用李克特量表
在比較評(píng)價(jià)試驗(yàn)中,駕駛員被要求依次體驗(yàn)兩條軌跡,然后回答如表4 所示評(píng)價(jià)問卷。對(duì)于差異不明顯的軌跡組,允許駕駛員回答“差不多”,即兩條軌跡無明顯區(qū)別。每個(gè)駕駛員比較了30組軌跡。
表4 比較評(píng)價(jià)用問卷
根據(jù)評(píng)價(jià)試驗(yàn)結(jié)果,本節(jié)對(duì)駕駛員喜歡和不喜歡的軌跡進(jìn)行了分析,并根據(jù)提出的軌跡偏好模型估計(jì)方法,使用統(tǒng)計(jì)軟件SPSS 對(duì)兩種評(píng)價(jià)方式下的偏好模型進(jìn)行了估計(jì)并對(duì)比了其結(jié)果。
由于比較方法難以確定每個(gè)駕駛員具體偏好的軌跡,因此根據(jù)駕駛員對(duì)每條軌跡的偏好評(píng)價(jià)分?jǐn)?shù),確定每個(gè)駕駛員的最喜歡和最不喜歡的軌跡,并進(jìn)一步對(duì)所有駕駛員最喜歡和最不喜歡的軌跡進(jìn)行了統(tǒng)計(jì),如圖5 所示。需要注意的是,每個(gè)駕駛員評(píng)分最高或最低的軌跡可能不止1條。
圖5 駕駛員最喜歡和最不喜歡軌跡分布
可以看到,喜歡人數(shù)最多的前兩條軌跡分別是8和11,而最不喜歡人數(shù)最多的前兩條軌跡分別是4和1。這4條軌跡如圖6所示。
圖6 駕駛員最喜歡2條軌跡和最不喜歡2條軌跡的路徑(上)和速度(下)
可以看到,駕駛員喜歡人數(shù)較多的軌跡是彎道速度較低,同時(shí)路徑為居中或略微靠內(nèi)側(cè)的軌跡。駕駛員不喜歡人數(shù)較多的軌跡是彎道內(nèi)速度較高而不減速,同時(shí)路徑過于靠近內(nèi)側(cè)或靠外側(cè)的軌跡。
4.2.1 駕駛員感知模型
采用逐步線性回歸方法對(duì)3 個(gè)感知模型(SPM、CPM 和EPM)進(jìn)行了估計(jì)。考慮到不同駕駛員的偏好差異,對(duì)每個(gè)駕駛員的感知模型單獨(dú)進(jìn)行了估計(jì)。式(7)顯示了其中一個(gè)駕駛員SPM 估計(jì)得到的模型結(jié)果。
式中:Max-TAD和Mean-TAD分別指的是跨道時(shí)間TAD 的最大值和均值;R2即擬合優(yōu)度GOF,其值為0.87,擬合準(zhǔn)確度FA 為87%,即該模型能準(zhǔn)確擬合87%的評(píng)分結(jié)果。進(jìn)一步基于所有駕駛員的數(shù)據(jù),建立了“平均駕駛員”SPM,其結(jié)果如式(8)所示。
式中MeanRight-LateralOffset和MaxLeft-ITLC分別指右側(cè)橫向偏移量平均值和左車道線TLC倒數(shù)的最大值。GOF 為0.21,F(xiàn)A 為37%,表明該模型的評(píng)價(jià)數(shù)據(jù)擬合準(zhǔn)確度比較差。一個(gè)很可能的原因在于不同駕駛員對(duì)安全的感知差異較大,難以通過一個(gè)模型預(yù)測(cè)所有人的偏好。
用同樣的方法,估計(jì)了另外兩個(gè)感知模型CPM和EPM。不同感知模型的GOF和FA如圖7所示。
圖7 基于評(píng)分DPM的模型結(jié)果
可以看到,3 個(gè)感知模型準(zhǔn)確度存在一定差異。從FA來看,EPM模型的準(zhǔn)確度高于其他兩個(gè)感知模型,而SPM 和CPM 的FA 則相差不大。另外,無論從GOF 還是FA 來看,3 個(gè)模型對(duì)單個(gè)駕駛員獨(dú)立建模時(shí)的準(zhǔn)確度均高于所有評(píng)價(jià)的“平均駕駛員”。這表明,不同駕駛員對(duì)安全、舒適、效率的感知均存在較大差異,難以通過一個(gè)模型對(duì)所有駕駛員進(jìn)行準(zhǔn)確建模。
4.2.2 效用評(píng)估模型
基于估計(jì)的感知模型,分別對(duì)每條軌跡的安全、舒適和效率效用(評(píng)分即可視作效用)進(jìn)行計(jì)算,然后對(duì)偏好評(píng)分與各效用進(jìn)行線性回歸來估計(jì)UEM。某駕駛員UEM結(jié)果如式(9)所示。
擬合優(yōu)度為0.87,F(xiàn)A 為70%,表明結(jié)合了DPM的UEM 能較好地?cái)M合駕駛員的偏好評(píng)價(jià)?;趩蝹€(gè)駕駛員數(shù)據(jù)的UEM 和“平均駕駛員”UEM 結(jié)果如圖8所示。
圖8 基于評(píng)分UEM的模型結(jié)果
可以看到,和DPM 結(jié)果一樣,無論從GOF 還是FA來看,UEM獨(dú)立建模時(shí)的準(zhǔn)確度均高于所有駕駛員的“平均”模型的準(zhǔn)確度。
邏輯回歸方法只能對(duì)二分類數(shù)據(jù)進(jìn)行擬合,所以本研究對(duì)于評(píng)價(jià)結(jié)果為“差不多”的數(shù)據(jù)進(jìn)行了剔除。從結(jié)果統(tǒng)計(jì)來看,平均每個(gè)駕駛員在每個(gè)評(píng)價(jià)項(xiàng)中只剔除了0.93條評(píng)價(jià)數(shù)據(jù),因此對(duì)結(jié)果影響很小。
4.3.1 駕駛員感知模型
對(duì)于比較評(píng)價(jià),采用逐步邏輯回歸對(duì)感知模型進(jìn)行了估計(jì)。其中一個(gè)駕駛員估計(jì)得到的軌跡安全比較模型結(jié)果如式(10)所示。
式中的特征表示軌跡A與B軌跡特征的差值,比如MeanLeft_LatOff表示軌跡A與B的左側(cè)橫向偏移量均值的差值。該式表明軌跡A與B的MeanLeft_LatOff差值越大,喜歡軌跡A的概率越小。該模型的GOF 為0.94,F(xiàn)A 為96%,表明該模型能夠非常好地預(yù)測(cè)駕駛員對(duì)兩條軌跡的安全比較結(jié)果。
基于該軌跡比較模型,由2.3 節(jié)可得到該駕駛員SPM如式(11)所示。
同樣的,基于所有駕駛員的數(shù)據(jù)建立“平均駕駛員”SPM,并用相同的方法進(jìn)一步建立了另外兩個(gè)感知模型CPM 和EPM。不同感知模型的GOF 和FA 如圖9所示。
圖9 基于比較DPM的模型結(jié)果
可以看到,對(duì)于3 個(gè)感知模型,每個(gè)駕駛員單獨(dú)建模時(shí)的準(zhǔn)確度均高于所有駕駛員的“平均”模型的準(zhǔn)確度。這表明不同駕駛員對(duì)安全、舒適、效率的感知均存在差異,難以通過一個(gè)模型對(duì)所有駕駛員進(jìn)行準(zhǔn)確建模。
4.3.2 效用評(píng)估模型
與評(píng)分估計(jì)方法類似,基于估計(jì)的感知模型,分別對(duì)每條軌跡的安全、舒適和效率效用進(jìn)行計(jì)算,然后對(duì)偏好比較與各效用進(jìn)行邏輯回歸。某駕駛員估計(jì)的偏好比較模型和UEM 結(jié)果分別如式(12)和(13)所示。
擬合優(yōu)度為0.78,F(xiàn)A為91%,表明該UEM 能很好地?cái)M合駕駛員的偏好比較結(jié)果。基于單個(gè)駕駛員數(shù)據(jù)的UEM 和所有駕駛員的“平均”UEM 結(jié)果如圖10所示。
圖10 基于評(píng)分UEM的模型結(jié)果
可以看到,同樣的,基于單個(gè)駕駛員數(shù)據(jù)的UEM 準(zhǔn)確度均高于所有駕駛員的“平均”模型的準(zhǔn)確度,這和基于評(píng)分的估計(jì)結(jié)果一致。
(1)兩種評(píng)價(jià)方式準(zhǔn)確度比較
兩種評(píng)價(jià)方式下的模型FA對(duì)比如圖11所示。
圖11 兩種評(píng)價(jià)方式下模型FA對(duì)比
可以看到,無論是基于單個(gè)駕駛員數(shù)據(jù)估算的模型還是基于所有駕駛員數(shù)據(jù)的“平均”模型,所有效用模型(UEM 和3 個(gè)DPM)在比較評(píng)價(jià)下的FA 均高于評(píng)分評(píng)價(jià)下的FA。該結(jié)果表明,基于比較的模型能夠更準(zhǔn)確地預(yù)測(cè)評(píng)價(jià)結(jié)果。其中一個(gè)可能的原因在于,評(píng)分結(jié)果的離散值個(gè)數(shù)高于比較結(jié)果導(dǎo)致擬合性能降低。
(2)軌跡特征
不同DPM 軌跡特征是根據(jù)逐步回歸方法進(jìn)行選擇的。因此不同駕駛員,不同模型和不同評(píng)價(jià)方式下選擇的軌跡特征可能是不同的。表5 顯示了不同模型和不同評(píng)價(jià)方式下,被不同駕駛員的DPM 選擇最多的3個(gè)軌跡特征。
表5 模型選擇軌跡特征比較分析
表中特征下的數(shù)字表示該軌跡特征在所有20個(gè)駕駛員的感知模型中,被選擇作為模型特征的感知模型個(gè)數(shù)??梢钥吹剑瑢?duì)于SPM 和CPM,兩種評(píng)價(jià)方式下選擇的軌跡特征存在較高的重合度,表明了安全和舒適與對(duì)應(yīng)軌跡特征存在較為穩(wěn)定的相關(guān)性。同時(shí),不同模型選擇的軌跡特征存在較大差異。另外從特征被選擇次數(shù)最高為7 次來看,不同駕駛員感知模型選擇的軌跡特征存在較大差異,這表明不同駕駛員的感知評(píng)價(jià)過程存在較大差異,證實(shí)了對(duì)不同駕駛員選擇不同軌跡特征的必要性。
針對(duì)目前決策規(guī)劃中常用的獎(jiǎng)勵(lì)函數(shù)不能很好地考慮駕駛員偏好差異以及獎(jiǎng)勵(lì)函數(shù)特征基于經(jīng)驗(yàn)選擇的問題,本文提出了一種基于效用理論的量化駕駛員軌跡偏好的模型。為了充分考慮駕駛員偏好的復(fù)雜性,提出了雙層結(jié)構(gòu)模型。上層的效用評(píng)估模型量化了駕駛員對(duì)軌跡安全、舒適和效率的權(quán)衡過程;下層的駕駛員感知模型則分別量化了安全、舒適、效用與軌跡特征之間的定量關(guān)系。分別基于兩種評(píng)價(jià)方式,評(píng)分和配對(duì)比較,分別設(shè)計(jì)了模型估計(jì)方法,包括軌跡特征選擇和模型參數(shù)估計(jì)。最后,設(shè)計(jì)了駕駛員模擬器評(píng)價(jià)試驗(yàn),對(duì)兩種評(píng)價(jià)方式下的偏好模型結(jié)果進(jìn)行了估計(jì)和比較。結(jié)果表明,提出的模型估計(jì)方法能較為準(zhǔn)確地估計(jì)偏好模型,估計(jì)的模型對(duì)駕駛員的評(píng)價(jià)過程有較為準(zhǔn)確的描述,驗(yàn)證了偏好模型和估計(jì)方法的有效性?;诒容^評(píng)價(jià)估計(jì)的模型結(jié)果更準(zhǔn)確。同時(shí),模型估計(jì)結(jié)果也進(jìn)一步證實(shí)了不同駕駛員的偏好差異和對(duì)駕駛員模型進(jìn)行個(gè)性化估計(jì)的必要性。