郭景華,李文昌,4,羅禹貢,陳 濤,李克強(qiáng)
(1. 廈門大學(xué)機(jī)電工程系,廈門 361005;2. 清華大學(xué)車輛與運(yùn)載學(xué)院,北京 100084;3. 中國(guó)汽車工程研究院股份有限公司,重慶 401122;4. 同濟(jì)大學(xué)汽車學(xué)院,上海 201804)
智能駕駛系統(tǒng)通過現(xiàn)代傳感、人工智能等先進(jìn)技術(shù)輔助或代替駕駛員操控汽車,被認(rèn)為是實(shí)現(xiàn)駕駛員、車輛和交通環(huán)境協(xié)同的有效手段[1]。為降低駕駛員的操作負(fù)擔(dān),提高駕駛員的操控能力和對(duì)智能駕駛系統(tǒng)的接受程度,須對(duì)駕駛員的駕駛習(xí)性進(jìn)行深入研究。建立準(zhǔn)確反映駕駛員跟車行為的駕駛員模型對(duì)于智能駕駛系統(tǒng)控制策略的開發(fā)具有重要的意義。
駕駛員跟車模型描述了單車道相鄰車輛之間的相互作用,國(guó)內(nèi)外學(xué)者建立了多種形式的跟車模型。Bando 等[2]提出了最優(yōu)速度(optimal velocity,OV)模型,該模型假設(shè)車輛的最優(yōu)速度與跟車距離相關(guān),駕駛員通過加減速調(diào)整速度以實(shí)現(xiàn)最優(yōu)車速。文獻(xiàn)[3]中提出一種線性跟車模型,該模型在FVD(full velocity difference)模型[4]的基礎(chǔ)上引入一個(gè)反映駕駛員特性的參數(shù),以體現(xiàn)不同駕駛員的期望跟車距離。上述文獻(xiàn)都是以運(yùn)動(dòng)學(xué)方程或經(jīng)驗(yàn)公式的形式建立數(shù)學(xué)模型。駕駛員跟車時(shí)的決策是一個(gè)復(fù)雜的過程,以數(shù)學(xué)公式所擬合出的跟車模型不足以全面描述駕駛員的行為。
文獻(xiàn)[5]中通過駕駛模擬器采集駕駛員跟車行駛數(shù)據(jù),并使用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)駕駛員的速度規(guī)劃行為。Papathanascpoulou 等[6]通過在意大利那不勒斯采集的駕駛試驗(yàn)數(shù)據(jù),使用局部加權(quán)線性回歸方法擬合駕駛員跟車模型,并將相同的數(shù)據(jù)用于校正Gipps模型進(jìn)行驗(yàn)證。文獻(xiàn)[7]中采集10 多個(gè)駕駛員的高速道路跟車試驗(yàn)數(shù)據(jù),將相對(duì)速度、跟車距離、跟隨車輛速度輸入到自適應(yīng)神經(jīng)模糊推理系統(tǒng)進(jìn)行訓(xùn)練,輸出跟隨車輛的加速度。Khodayari 等[8]設(shè)計(jì)了人工神經(jīng)網(wǎng)絡(luò)以建立駕駛員模型,其中輸入為估計(jì)的反應(yīng)時(shí)間、跟車相對(duì)速度與距離和主車速度,輸出為主車加速度,并使用美國(guó)NGSIM數(shù)據(jù)集進(jìn)行訓(xùn)練。文獻(xiàn)[9]中利用遞歸深度神經(jīng)網(wǎng)絡(luò)建立微觀駕駛員跟車模型,該模型與其他模型的區(qū)別在于采用更多的歷史狀態(tài)而不僅是瞬時(shí)狀態(tài)作為輸入。使用機(jī)器學(xué)習(xí)的方法建立的跟車模型能較好模仿駕駛員行為,且具有較大的靈活性。然而,現(xiàn)有的跟車模型大多是利用國(guó)外的駕駛行為試驗(yàn)數(shù)據(jù)集建立的,這些模型所體現(xiàn)的是國(guó)外道路和駕駛員的跟馳特性。不同國(guó)家在交通、車輛和駕駛風(fēng)格與文化等方面存在一定的差異,這些差異極可能會(huì)造成駕駛行為的明顯差異[10-11]。因此,基于國(guó)外道路數(shù)據(jù)建立的跟車模型不一定適用于描述我國(guó)駕駛員的跟車行為特性。為建立真實(shí)體現(xiàn)我國(guó)駕駛員行為特性的跟車模型,須采集大樣本我國(guó)駕駛員真實(shí)道路駕駛數(shù)據(jù),并利用數(shù)據(jù)驅(qū)動(dòng)的方法對(duì)駕駛員行為進(jìn)行學(xué)習(xí),而當(dāng)前這方面的研究較少。
因此,本文中提出一種基于深度強(qiáng)化學(xué)習(xí)的駕駛員跟車模型。通過我國(guó)自然駕駛數(shù)據(jù)分析了駕駛員跟車行為特性及其影響因素,基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法建立了駕駛員跟車模型,并通過試驗(yàn)驗(yàn)證所建立跟車模型對(duì)駕駛員跟車行為的復(fù)現(xiàn)能力。
本文的數(shù)據(jù)來自我國(guó)大規(guī)模實(shí)車路試的自然駕駛工況數(shù)據(jù)[11],數(shù)據(jù)可劃分為自車行駛數(shù)據(jù)、目標(biāo)物信息和駕駛環(huán)境信息3類。自車數(shù)據(jù)主要包括速度、加速度、加速踏板行程和轉(zhuǎn)向盤轉(zhuǎn)角等;目標(biāo)物信息主要包括目標(biāo)速度、自車與目標(biāo)的間距和目標(biāo)類型等;而駕駛環(huán)境信息是指根據(jù)攝像頭采集的視頻數(shù)據(jù)通過人工標(biāo)定的形式獲取,如天氣、道路類型、信號(hào)燈和標(biāo)志牌等。
由于環(huán)境條件、設(shè)備條件等因素的影響,采集到的數(shù)據(jù)可能不完整和不準(zhǔn)確,如數(shù)據(jù)缺失、數(shù)據(jù)噪聲和數(shù)據(jù)異常等問題。因此,在對(duì)自然駕駛數(shù)據(jù)進(jìn)行分析前須對(duì)原始數(shù)據(jù)進(jìn)行加工處理。
本文針對(duì)自然駕駛數(shù)據(jù)的噪聲進(jìn)行了濾波處理,采用對(duì)稱指數(shù)移動(dòng)均值濾波器(symmetric exponential moving average filter,SEMAF)對(duì)速度和加速度信號(hào)進(jìn)行降噪,其表達(dá)式為
式中:x(tk)為ti(i=1,2,...,n)時(shí)刻的原始數(shù)據(jù);n為數(shù)據(jù)量;為處理后的數(shù)據(jù);T為濾波寬度;dt為數(shù)據(jù)時(shí)間間隔。
跟車指的是主車(跟隨車輛)的位置和速度實(shí)時(shí)受前方車輛影響的駕駛狀態(tài)[10]。圖1 所示為跟車場(chǎng)景示意圖,跟車場(chǎng)景中主要包含相同車道上的一個(gè)前方目標(biāo)車輛和一個(gè)主車。駕駛員在駕駛過程中,通過實(shí)時(shí)道路環(huán)境和周圍車輛信息或交通約束條件和主觀經(jīng)驗(yàn)等對(duì)跟車條件進(jìn)行判斷,并在某段時(shí)間以前方車輛為目標(biāo)車進(jìn)行跟隨行駛。
圖1 跟車場(chǎng)景示意圖
基于上述場(chǎng)景定義,從自然駕駛數(shù)據(jù)中截取符合條件的跟車場(chǎng)景片段數(shù)據(jù),還須進(jìn)一步根據(jù)數(shù)據(jù)特征進(jìn)行經(jīng)驗(yàn)性分析以確定場(chǎng)景辨識(shí)的閾值,從而建立場(chǎng)景自動(dòng)截取算法[12]。從自然駕駛數(shù)據(jù)中人工篩選部分主車跟隨目標(biāo)車行駛的案例片段,通過人工觀看視頻和對(duì)車輛行駛動(dòng)態(tài)參數(shù)分布范圍進(jìn)行分析,定義的場(chǎng)景截取準(zhǔn)則如下。
(1)跟車時(shí),主車與目標(biāo)車的縱向距離不大于120 m。設(shè)立該準(zhǔn)則的目的在于排除主車處于自由行駛的工況。
(2)整個(gè)片段過程中,主車與目標(biāo)車的橫向距離應(yīng)小于5 m。本條準(zhǔn)則用于避免車輛處于大彎道的工況。
(3)跟車片段持續(xù)時(shí)長(zhǎng)應(yīng)大于10 s。該準(zhǔn)則保證主車處于穩(wěn)定的跟車狀態(tài),同時(shí)保證整個(gè)場(chǎng)景片段具有足夠的數(shù)據(jù)以供分析。
(4)跟車過程中,主車速度低于1 m/s 時(shí)則跟車結(jié)束,以保證車輛處于行駛狀態(tài)。
根據(jù)自動(dòng)截取算法進(jìn)行初步篩選后,再通過人工觀看視頻的方式進(jìn)行驗(yàn)證,以剔除無效案例。最終,總計(jì)得到1 147 個(gè)跟車場(chǎng)景片段,累計(jì)有效時(shí)長(zhǎng)1.65×104s,每個(gè)數(shù)據(jù)片段平均時(shí)長(zhǎng)為14.4 s。
對(duì)跟車片段進(jìn)行截取后可獲得大量駕駛員跟車行駛軌跡數(shù)據(jù),以這些數(shù)據(jù)為基礎(chǔ),選擇駕駛員跟車加速度a、速度v、車間距d和相對(duì)速度vr等參數(shù)對(duì)駕駛員跟車行為特性進(jìn)行分析。首先,通過駕駛員行為特征參數(shù)的頻率分布特征總體了解駕駛員跟車行駛時(shí)的行為規(guī)律,其次通過相對(duì)系數(shù)對(duì)駕駛員行為特性的影響因素進(jìn)行分析。
圖2為駕駛員跟車行駛時(shí)主車加速度頻率分布。由圖可知,駕駛員跟車時(shí)的加速度整體大致符合正態(tài)分布,加速度值主要分布在[-1.5 m/s2,1.5 m/s2]區(qū)間內(nèi),表明駕駛員在跟車過程中習(xí)慣保持較為平穩(wěn)的速度跟隨目標(biāo)車行駛。圖3 示出主車速度的分布特征。由圖可知,駕駛員跟車速度主要分布區(qū)間為[8 m/s,18 m/s],個(gè)別駕駛員跟車速度達(dá)到35 m/s,可能的原因?yàn)檫@些數(shù)據(jù)所對(duì)應(yīng)的行駛道路為高速道路,且道路較為暢通。
圖2 主車加速度頻率分布
圖3 主車速度頻率分布
圖4為駕駛員跟車距離的累計(jì)頻率分布,其中25、50、75 3 個(gè)百分位對(duì)應(yīng)的數(shù)值分別為24.19、44.22 和72.19 m,表明駕駛員在較高的速度行駛時(shí)期望保持較大的跟車距離,駕駛員跟車距離越小,越有利于提高交通道路利用率,但過小的距離容易給駕駛員造成心理負(fù)擔(dān),且容易造成交通事故。
圖4 跟車距離累計(jì)頻率分布
圖5 為駕駛員跟車時(shí)相對(duì)速度的頻率分布,相對(duì)速度定義為目標(biāo)車速度與主車速度的差值。從圖中可以看出,駕駛員跟車時(shí)與目標(biāo)車的相對(duì)速度呈明顯的正態(tài)分布,駕駛員在大部分情況下期望以較小的速度差跟隨目標(biāo)車行駛,個(gè)別相對(duì)速度達(dá)到10 m/s。
圖5 相對(duì)速度頻率分布
車頭時(shí)距(time headway,THW)是一個(gè)表征駕駛員跟車行為的重要參數(shù),定義為前后兩車頭部通過道路某一斷面的時(shí)間間隔[13]。THW(單位:s)可以表示為
式中:dx為主車與目標(biāo)車之間的縱向距離;vx為主車的縱向速度。
THW 值越小,說明主車跟隨目標(biāo)行駛的形勢(shì)越緊急,如跟車距離較小或主車速度較高等情況。圖6示出THW 的頻率分布。從圖中可以看出THW 總體符合對(duì)數(shù)正態(tài)分布,主要分布區(qū)間為[1.5 s,3.5 s],說明駕駛員在大部分跟車行駛時(shí)較為從容,與目標(biāo)車形成較為平穩(wěn)的相對(duì)運(yùn)動(dòng)狀態(tài),從而在主觀上達(dá)到安全舒適的感受,個(gè)別THW 值達(dá)到了15 s,可能原因是主車速度較小或跟車距離較大。圖7 為駕駛員跟車THW 值累計(jì)頻率分布。其中25、50、75 3 個(gè)百分位對(duì)應(yīng)的THW 數(shù)值分別為2.11、3.17 和4.65 s。
進(jìn)一步,為更好地利用自然駕駛數(shù)據(jù)建立駕駛員跟車模型,采用Spearman 相關(guān)系數(shù)量化分析駕駛員跟車距離d和相對(duì)速度vr以及THW 與主車速度v和加速度a的相關(guān)性,從而提示這些因素對(duì)駕駛員跟車行為的影響。Spearman相關(guān)系數(shù)是度量?jī)蓚€(gè)等級(jí)變量之間相關(guān)關(guān)系的非參數(shù)指標(biāo),其表達(dá)式為
圖6 THW頻率分布
圖7 THW值累計(jì)頻率分布
式中:R為相關(guān)系數(shù);di為兩個(gè)變量的等級(jí)差;m為樣本數(shù)。
由式(3)可知,相關(guān)系數(shù)取值范圍為[-1,1],相關(guān)系數(shù)的正負(fù)表示兩個(gè)變量呈正相關(guān)和負(fù)相關(guān);相關(guān)系數(shù)值的大小反映兩個(gè)變量的相關(guān)程度。
對(duì)各個(gè)跟車片段中的駕駛員跟車距離d、相對(duì)速度vr和THW 值與加速度和速度的Spearman 相關(guān)系數(shù)進(jìn)行計(jì)算,并得到了顯著性檢驗(yàn)的p值。以0.2為間隔對(duì)相關(guān)系數(shù)分布區(qū)間進(jìn)行劃分,統(tǒng)計(jì)不同參數(shù)與加速度的相關(guān)系數(shù)在各區(qū)間的分布概率,結(jié)果如圖8 所示。從圖8 可知,車間距、THW 值與加速度的相關(guān)系數(shù)在各區(qū)間的分布概率較為均勻,而相對(duì)速度與加速度呈正相關(guān)的概率較大。為更好體現(xiàn)各變量與加速度的相關(guān)性程度,在表1 中列出了相關(guān)系數(shù)的分布。可以看出,各變量與加速度相關(guān)系數(shù)大于0.4 的概率均大于50%。此外,車間距與加速度相關(guān)的概率最高,THW 次之,其中車間距與加速度相關(guān)系數(shù)大于0.4 和0.7 的概率分別為63.12%和34.35%,而相對(duì)速度與加速度相關(guān)系數(shù)大于0.4和0.7 的分布概率最小,分別為53.18%和23.10%。結(jié)果說明駕駛員跟車時(shí)根據(jù)車間距對(duì)加速度進(jìn)行調(diào)整的概率最大,而相對(duì)速度相對(duì)跟車距離和THW 而言,對(duì)駕駛員跟車加速度的影響較小。
圖8 各變量與加速度相關(guān)系數(shù)分布概率
表1 各變量與加速度相關(guān)系數(shù)分布情況
圖9 為各變量與加速度相關(guān)程度的顯著性檢驗(yàn)p值的概率分布情況,其中各變量對(duì)應(yīng)的p值小于0.05 的分布概率均超過90%,說明90%以上的案例中各變量與加速度的相關(guān)性顯著。綜合以上統(tǒng)計(jì)結(jié)果的分析,可以判斷跟車距離、相對(duì)速度、THW 值對(duì)駕駛員跟車加速度都有一定的影響。
圖9 相關(guān)程度顯著性檢驗(yàn)p 值概率分布
圖10所示為各變量與速度相關(guān)系數(shù)的分布概率情況。從圖中可知,各變量與速度相關(guān)系數(shù)絕對(duì)值主要分布在[0.8,1]之間,說明大部分跟車片段中各變量與速度的相關(guān)性較強(qiáng)。跟車距離與速度呈正相關(guān)的概率最大,而相對(duì)速度與加速度主要呈負(fù)相關(guān)的趨勢(shì)。表2 為各變量與速度相關(guān)系數(shù)的分布。其中相關(guān)系數(shù)大于0.4 和大于0.7 的概率分別分布在80%和60%左右,表明各變量大概率與速度具有相關(guān)性,且相關(guān)程度差異不大,表明駕駛員在跟車過程可能綜合這些參數(shù)對(duì)速度進(jìn)行調(diào)整。圖11 為顯著性檢驗(yàn)p值的分布,同樣地,各變量對(duì)應(yīng)的p值小于0.05 的分布概率也都超過90%,表明各變量與速度相關(guān)具有較強(qiáng)的顯著性。
圖10 各變量與速度相關(guān)系數(shù)分布概率
表2 各變量與速度相關(guān)系數(shù)分布情況
圖11 相關(guān)程度顯著性檢驗(yàn)p值概率分布
當(dāng)前的跟車模型大多缺乏個(gè)性化,精度不高[14]。為克服現(xiàn)有跟車模型的限制,提高跟車模型對(duì)駕駛員跟車行為的復(fù)現(xiàn)能力,且由于車輛加速度信息以連續(xù)狀態(tài)存在,本文選擇在連續(xù)動(dòng)作空間中具有很好性能表現(xiàn)的深度確定性策略梯度算法DDPG 設(shè)計(jì)了駕駛員跟車模型框架。將駕駛員跟車軌跡數(shù)據(jù)集輸入到模擬跟車環(huán)境中,讓智能體從經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)駕駛員的決策行為,從而形成從跟車駕駛狀態(tài)到加/減速行為關(guān)系的映射。
DDPG 使用的是基于確定性策略梯度(deter?ministic policy gradient,DPG)的Actor?Critic神經(jīng)網(wǎng)絡(luò)框架,包含一個(gè)基于策略的Actor網(wǎng)絡(luò)和一個(gè)基于價(jià)值的Critic網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)又細(xì)分為在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。此外,DDPG算法同樣采用了經(jīng)驗(yàn)回放池存儲(chǔ)經(jīng)驗(yàn)數(shù)據(jù),在學(xué)習(xí)過程中采用某種策略從中均勻抽取小批量數(shù)據(jù)更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù)。
由第2 節(jié)的分析可知,速度和加速度等駕駛員跟車行為參數(shù)受跟車距離、相對(duì)速度和THW 的影響,而THW 又與跟車距離和速度相關(guān)。所以,本文采用3 個(gè)關(guān)鍵參數(shù)來表征駕駛員在某個(gè)時(shí)刻t所采取動(dòng)作的基準(zhǔn)信息,即第n輛車(假設(shè)為受控車輛)的速度vn,車輛n與前方目標(biāo)車輛n-1 的相對(duì)速度Δv,以及兩車之間的間距s,而駕駛員模型的輸出為車輛n的縱向加速度an(t)。
通過以下表達(dá)式描述環(huán)境狀態(tài)的迭代關(guān)系,即
式中Ts為模擬時(shí)間間隔。
智能體從環(huán)境中獲取當(dāng)前時(shí)刻的狀態(tài)信息,并根據(jù)策略從動(dòng)作空間中選取動(dòng)作,環(huán)境執(zhí)行動(dòng)作后進(jìn)入下一個(gè)狀態(tài)[15-16],同時(shí)智能體因動(dòng)作獲得相應(yīng)的獎(jiǎng)勵(lì)(或懲罰),如此不斷交互直至達(dá)到結(jié)束條件。智能體的目標(biāo)是獲取最大的累積獎(jiǎng)勵(lì),其中評(píng)判智能體所采取動(dòng)作好壞的度量標(biāo)準(zhǔn)通常用獎(jiǎng)勵(lì)函數(shù)表示。因此,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)影響智能體的決策方向,是強(qiáng)化學(xué)習(xí)算法的關(guān)鍵。
駕駛員在現(xiàn)實(shí)跟車中會(huì)根據(jù)駕駛環(huán)境,采取一定的動(dòng)作調(diào)整車輛的縱向運(yùn)動(dòng)狀態(tài),使自車速度和車輛間距離在可接受的安全、舒適范圍內(nèi)。為更好地反映駕駛員的跟車行為特性,應(yīng)盡可能減小模擬狀態(tài)與真實(shí)狀態(tài)之間的誤差。本文采用速度作為性能指標(biāo),以最小化速度誤差為目標(biāo)訓(xùn)練跟車模型。為直觀體現(xiàn)誤差的大小,本文設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)形式為
式中vobs和vsim分別為駕駛員駕駛車速和模擬車速。
設(shè)計(jì)的Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖12所示。其中,Actor網(wǎng)絡(luò)的輸入為跟車狀態(tài)信息,包括主車速度、相對(duì)速度和車間距,輸出為主車的跟車加速度;Critic 網(wǎng)絡(luò)的輸入為跟車狀態(tài)信息和Actor網(wǎng)絡(luò)輸出的加速度,輸出為Q值函數(shù)。Actor網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)均包含4 層結(jié)構(gòu),包括輸入層、兩個(gè)隱層和輸出層,其中隱層分別包含100 個(gè)和50 個(gè)神經(jīng)元。
圖12 Actor和Critic網(wǎng)絡(luò)結(jié)構(gòu)示意圖
為得到較好的模型收斂速度,采用整流線性單元(rectified linear unit,ReLU)激活函數(shù)擬合隱層中的輸入輸出信號(hào)轉(zhuǎn)換關(guān)系,ReLU 激活函數(shù)表達(dá)式為
此外,為限制加速度輸出范圍,在Actor 網(wǎng)絡(luò)輸出層中采用tanh激活函數(shù),使Actor網(wǎng)絡(luò)輸出的加速度保持在[-1,1]范圍內(nèi)。
Critic 網(wǎng)絡(luò)從經(jīng)驗(yàn)回放池取得經(jīng)驗(yàn)樣本后,通過最小化損失函數(shù)以更新策略網(wǎng)絡(luò)參數(shù),損失函數(shù)為
式中:θQ為Q值網(wǎng)絡(luò)參數(shù);θQ′為Critic 網(wǎng)絡(luò)中目標(biāo)網(wǎng)絡(luò)的參數(shù);θμ′為Actor網(wǎng)絡(luò)中目標(biāo)網(wǎng)絡(luò)的參數(shù)。
Actor 網(wǎng)絡(luò)中的目標(biāo)網(wǎng)絡(luò)用于更新價(jià)值網(wǎng)絡(luò)參數(shù),其策略梯度表達(dá)式為
式中θμ為策略網(wǎng)絡(luò)參數(shù)。
每次訓(xùn)練完后,先使用梯度更新在線網(wǎng)絡(luò)的參數(shù),然后更新兩個(gè)目標(biāo)網(wǎng)絡(luò)的參數(shù),其表達(dá)式為
式中τ為軟更新率。
從所有數(shù)據(jù)集中隨機(jī)挑選70%的數(shù)據(jù)片段對(duì)駕駛員模型參數(shù)進(jìn)行訓(xùn)練校正,剩余30%用于對(duì)模型驗(yàn)證。采用每個(gè)訓(xùn)練步數(shù)的總獎(jiǎng)勵(lì)、平均獎(jiǎng)勵(lì)和速度的均方根誤差(root of mean square error,RMSE)作為訓(xùn)練效果的觀測(cè)指標(biāo),RMSE定義為
式中vobs(i)和vsim(i)分別為采集的第i個(gè)真實(shí)車速和模擬車速。
每個(gè)步數(shù)所獲得的總獎(jiǎng)勵(lì)值、獎(jiǎng)勵(lì)均值和RMSE 值如圖13~圖15 所示。由于獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)為誤差平方的形式,因此獎(jiǎng)勵(lì)越小時(shí),誤差越小。由圖13~圖15可以看出,盡管訓(xùn)練步數(shù)設(shè)置為1 200步,在300步左右時(shí)模型便開始收斂。
圖13 訓(xùn)練過程總獎(jiǎng)勵(lì)變化
圖14 訓(xùn)練過程平均獎(jiǎng)勵(lì)變化
圖15 訓(xùn)練過程均方差根誤差曲線
為驗(yàn)證所提出的跟車模型反映駕駛員跟車行為特性的能力,隨機(jī)選擇測(cè)試集中的數(shù)據(jù)對(duì)300~350步中的模型參數(shù)進(jìn)行驗(yàn)證。圖16 展示一個(gè)跟車片段速度和車間距真實(shí)值與模型輸出模擬值的對(duì)比。從圖中可以看出,速度和車間距的仿真結(jié)果能較好地跟隨真實(shí)值,從而說明所建立的DDPG 模型能較好地反映駕駛員跟車行為。
圖16 速度和車間距的模擬與真實(shí)值對(duì)比結(jié)果
為驗(yàn)證所建立的跟車模型性能,采用現(xiàn)有研究中常用的FVD 模型[4]和IDM 模型[17]進(jìn)行對(duì)比試驗(yàn)。采用遺傳算法和自然駕駛數(shù)據(jù)集對(duì)FVD模型和IDM模型的參數(shù)進(jìn)行標(biāo)定,采用速度的均方根百分比誤差(root of mean square percentage error,RMPSE)作為參數(shù)標(biāo)定時(shí)的適應(yīng)度函數(shù),其表達(dá)式為
完成FVD 模型和IDM 模型參數(shù)的標(biāo)定后,在穩(wěn)態(tài)、加速、減速3種不同跟車工況下進(jìn)行對(duì)比,分析所提出的模型與對(duì)比模型在反映駕駛員跟車行為方面的性能表現(xiàn)。圖17~圖19展示了不同工況下駕駛員跟車速度和車間距與3種跟車模型模擬結(jié)果的對(duì)比。
圖17 穩(wěn)態(tài)跟車工況
圖18 加速跟車工況
圖17為穩(wěn)態(tài)跟車工況下的速度和車間距對(duì)比曲線。由圖可見,DDPG 模型輸出的速度和車間距比FVD 和IDM 模型的結(jié)果更接近駕駛員的行駛數(shù)據(jù),表明DDPG 模型更能反映駕駛員的真實(shí)跟車行為。
圖18 為加速跟車工況下的速度和車間距對(duì)比結(jié)果。由圖可見,總體來說,加速跟車工況下,DDPG模型輸出的結(jié)果比兩種對(duì)比模型的結(jié)果能更好地體現(xiàn)駕駛員的跟車行為。
圖19 減速跟車工況
減速跟車工況下的速度和車間距對(duì)比結(jié)果如圖19 所示。由圖可見,總體來說,在減速跟車工況下,DDPG模型能較好地跟隨實(shí)際的速度和車間距。
設(shè)計(jì)跟車場(chǎng)景截取準(zhǔn)則,并從自然駕駛數(shù)據(jù)中篩選出符合條件的典型跟車場(chǎng)景?;谧匀获{駛數(shù)據(jù)對(duì)駕駛員跟車行為進(jìn)行分析,通過駕駛員跟車加速度、速度、車間距、相對(duì)速度和THW 等參數(shù)的頻率分布特征對(duì)駕駛員跟車總體規(guī)律進(jìn)行了分析和統(tǒng)計(jì),并通過相關(guān)系數(shù)分析了車間距、相對(duì)速度、THW等因素對(duì)駕駛員跟車行為的作用機(jī)理,為建立駕駛員跟車模型提供了基礎(chǔ)。最后,采用自然駕駛數(shù)據(jù)對(duì)跟車模型參數(shù)進(jìn)行訓(xùn)練與調(diào)整,基于深度強(qiáng)化學(xué)習(xí)建立了駕駛員跟車模型,結(jié)果表明所提出的DDPG模型能夠真實(shí)體現(xiàn)駕駛員的跟車行為。