紀(jì)少波,張 珂,李 倫,蘇士斌,何紹清,馮遠(yuǎn)宏,張 強
(1.山東大學(xué)能源與動力工程學(xué)院,山東濟(jì)南 250061;2.青島海信網(wǎng)絡(luò)科技股份有限公司,山東青島 256000;3.中國汽車技術(shù)研究中心有限公司,天津 300300)
根據(jù)國家統(tǒng)計局2013—2020年發(fā)布的《中國統(tǒng)計年鑒》,我國道路安全事故發(fā)生情況可以看出近幾年的車禍發(fā)生數(shù)量呈增長趨勢,這表明交通安全問題日漸嚴(yán)重。駕駛員作為交通行為的首要執(zhí)行者、車輛的操控者,是導(dǎo)致交通事故的主要原因。因此,駕駛員在行駛過程中駕駛行為的安全性具有重大的研究價值。
國內(nèi)外學(xué)者多采用無監(jiān)督學(xué)習(xí)模型進(jìn)行駕駛風(fēng)格分類,通過對分類結(jié)果的分析確定駕駛風(fēng)格類別。目前研究駕駛風(fēng)格用的無監(jiān)督學(xué)習(xí)主要有基于劃分、層次、密度及模型等不同方法的聚類方法。基于劃分的無監(jiān)督學(xué)習(xí)聚類方法主要有K均值(Kmeans)和模糊C均值(FCM)。亓航等[1]、徐婷等[2]和余榮杰等[3]研究學(xué)者采用K均值聚類算法分別對出租車、貨車和分時租賃汽車的駕駛行為數(shù)據(jù)進(jìn)行駕駛風(fēng)格分類,發(fā)現(xiàn)不同駕駛風(fēng)格的駕駛員在出行特點、車輛運行參數(shù)及百公里能耗方面都具有差異性。石秀鵬等[4]從車輛軌跡數(shù)據(jù)提取了風(fēng)險指標(biāo)特征,基于這些特征利用FCM算法將駕駛行為聚為4個風(fēng)險等級?;趯哟蔚臒o監(jiān)督學(xué)習(xí)聚類方法主要是層次聚類算法,牛增良等[5]基于大量重特大交通事故數(shù)據(jù)采用模糊聚類、層次聚類對危險駕駛行為劃分層次進(jìn)行分析。基于密度的無監(jiān)督學(xué)習(xí)聚類方法主要是密度聚類(DBSCAN)算法,文江輝[6]從營運車輛監(jiān)控平臺獲取出行高頻時間段的車輛運行數(shù)據(jù),利用DBSCAN算法對不同車輛、不同時間段及不同天氣狀況下駕駛行為進(jìn)行了分類,用于判定車輛駕駛的穩(wěn)定性程度?;谀P偷臒o監(jiān)督學(xué)習(xí)聚類方法主要是利用高斯混合模型(GMM)等模型展開研究,朱冰等[7]基于真實駕駛數(shù)據(jù)采用GMM和KL散度定量地度量駕駛員之間的相似性,實現(xiàn)駕駛員駕駛風(fēng)格分類。李立治等[8]建立了駕駛員駕駛風(fēng)格的數(shù)據(jù)庫,使用K均值、FCM及層次聚類對駕駛風(fēng)格進(jìn)行分類。李卓軒等[9]基于不良駕駛行為特征參數(shù),使用K均值聚類和DBSCAN算法對駕駛風(fēng)格進(jìn)行分類。劉通等[10]基于K均值聚類算法進(jìn)行了駕駛風(fēng)格的分類研究。
已有研究采用的聚類算法多是針對低維數(shù)據(jù)集設(shè)計的,處理高維數(shù)據(jù)集通常會面臨“維災(zāi)難效應(yīng)”,會出現(xiàn)基于距離的度量函數(shù)失效、聚類中心難以確定及計算效率低等問題。本文采用先降維后聚類的研究思路,在對比不同降維及聚類方法的基礎(chǔ)上,提出利用t-SNE和GMM組合算法建立基于駕駛安全的駕駛風(fēng)格分類模型,用于對不同駕駛風(fēng)格進(jìn)行分類。此外,已有研究關(guān)于異常駕駛行為的判定多采用固定閾值,本文在深入分析與駕駛安全相關(guān)的特征參數(shù)變化規(guī)律基礎(chǔ)上,提出多參數(shù)組合閾值邊界線識別危險駕駛行為的方法。本文的研究可以有效改進(jìn)分類效果,提高異常駕駛識別精度。研究內(nèi)容可為運輸企業(yè)的安全運營提供指導(dǎo),為道路安全評估提供參考。
基于車輛的OBD接口,通過CAN總線獲取車輛實時運行數(shù)據(jù),并將采集的數(shù)據(jù)通過無線網(wǎng)絡(luò)發(fā)送至服務(wù)器進(jìn)行處理,數(shù)據(jù)采集流程如圖1所示。駕駛員瞬態(tài)操作數(shù)據(jù)中包含豐富的駕駛行為信息,過低的采樣頻率將導(dǎo)致瞬態(tài)駕駛行為信息丟失;過高的采樣頻率將導(dǎo)致數(shù)據(jù)采集成本增加,數(shù)據(jù)處理難度加大,因此需要合理選擇監(jiān)測頻率。心理學(xué)家認(rèn)為正常人的反應(yīng)時間為0.15~0.4s,最快反應(yīng)時間也高于0.1s。本文數(shù)據(jù)采集頻率設(shè)置為10 Hz,即采集間隔為0.1s,采樣頻率完全可以滿足駕駛行為分析需求。
圖1 車輛監(jiān)測數(shù)據(jù)采集流程Fig.1 Vehicle monitoring data collection process
本文研究數(shù)據(jù)主要來自于北京、成都、天津、上海四座城市的200輛純電動汽車4個月的高頻運行數(shù)據(jù),汽車用途有私家車、網(wǎng)約車、共享汽車。數(shù)據(jù)樣本具有采樣頻率高、車輛用途多樣、駕駛員分布廣泛、出行次數(shù)頻繁等優(yōu)點,適用于駕駛員的駕駛行為分析。
由于原始數(shù)據(jù)是按車輛VIN碼分類儲存的,且采集信號中存在的無效數(shù)據(jù)字段導(dǎo)致原始數(shù)據(jù)體量巨大,影響后續(xù)研究。因此,本文首先剔除了無效字段信號數(shù)據(jù)和充電與靜置片段數(shù)據(jù),形成每車每次獨立的運行數(shù)據(jù)文件??紤]到一次正常行車時長不會過短,且駕駛工況在較短時間內(nèi)變化不會很大,所以結(jié)合車輛的上電狀態(tài)及車速,剔除一次行車時長小于10min和數(shù)據(jù)缺失率超過5%的行程事件。處理后的一次行車事件數(shù)據(jù)如圖2所示。
圖2 一次行車事件數(shù)據(jù)Fig.2 Data in a driving event
數(shù)據(jù)采集和傳輸過程受到干擾可能導(dǎo)致遠(yuǎn)程數(shù)據(jù)管理平臺接收到的數(shù)據(jù)存在波動、異?;蛉笔У葐栴}。為了消除異常數(shù)據(jù)的影響,在進(jìn)行數(shù)據(jù)分析前需要對原始數(shù)據(jù)進(jìn)行質(zhì)量控制。首先對于輕微波動的信號數(shù)據(jù)采用滑動窗口均值濾波方法進(jìn)行處理,效果如圖3所示。采用統(tǒng)計分析和6σ法去除幅值異常的數(shù)據(jù)點;接收的數(shù)據(jù)中存在相鄰數(shù)據(jù)時間差小于采樣時間的問題,這主要是由于網(wǎng)絡(luò)不穩(wěn)導(dǎo)致數(shù)據(jù)重復(fù)發(fā)送造成,將這些冗雜數(shù)據(jù)亦作為異常值剔除,處理后的效果如圖4所示。此外,對少量的缺失數(shù)據(jù)值采用線性插值進(jìn)行填補。
圖3 濾波前后數(shù)據(jù)對比Fig.3 Comparison before and after treatment of filter
圖4 異常值處理效果Fig.4 Treatment of abnormal value
在對原始數(shù)據(jù)進(jìn)行質(zhì)量控制后,參考文獻(xiàn)[11-14]選取與駕駛安全有關(guān)的駕駛行為特征參數(shù)表1所示。通過對事故發(fā)生原因的分析,駕駛員超速、急加速、急減速和急轉(zhuǎn)向等危險駕駛行為是導(dǎo)致事故多發(fā)的重要原因[15]。但在我國現(xiàn)有的相關(guān)交通規(guī)定中未對這些危險駕駛行為進(jìn)行約束,并且交通違章監(jiān)控難以有效辨識,無法及時給予駕駛員危險警示以避免事故的發(fā)生。本文對急加速、急減速、超速、急轉(zhuǎn)向、轉(zhuǎn)向超速和疲勞駕駛等不同危險駕駛行為的判別方法進(jìn)行了研究。
表1 駕駛行為特征參數(shù)Tab.1 Driving behavior characteristic parameters
1.2.1 急加速
對車輛速度與前向加速度參數(shù)進(jìn)行分析得到圖5。使用式(1)對前向加速度與速度關(guān)系中的各分位值進(jìn)行線性擬合,結(jié)果如表2所示。
表2 前向加速度各分位值的擬合參數(shù)Tab.2 The fitting parameters of each quantile value of forward acceleration
圖5 前向加速度分位值隨速度變化關(guān)系Fig.5 The relationship between acceleration quantile value and velocity
式中:x表示車輛速度;β1和β2是擬合參數(shù);R2表示擬合系數(shù)。
文獻(xiàn)[9]將最大加速度閾值設(shè)定為2.78m·s-2,文獻(xiàn)[16-19]將最大加速度閾值設(shè)定為3m·s-2。由圖6可知,前向加速度的峰值隨速度增加呈降低的趨勢,因此,如果將最大加速度閾值設(shè)為固定值,無法準(zhǔn)確反映車輛實際運行情況。為此本文提出了多參數(shù)組合閾值邊界線進(jìn)行危險駕駛行為識別的思路,即隨著車速的變化,最大加速度閾值亦相應(yīng)調(diào)整,根據(jù)前向加速度峰值隨速度的變化規(guī)律,定義了急加速判斷閾值邊界線為第99%分位值,如圖6所示。
圖6 急加速判斷閾值線Fig.6 The judgment threshold line of rapid acceleration
1.2.2 急減速
對車輛速度與制動減速度參數(shù)進(jìn)行分析,各分位值結(jié)果如圖7所示,由圖可見,制動減速度在約25km·h-1時存在拐點,這是由于研究用車輛存在制動能量回收,在25km·h-1時有最大的制動回收力矩。制動減速度各分位值在速度超過100km·h-1變化幅度較小,使用式(2)對制動減速度分位值進(jìn)行分段線性擬合,以速度值25km·h-1為線性擬合分段邊界,結(jié)果如表3所示。
表3 制動減速度各分位值的擬合參數(shù)Tab.3 The fitting parameters of each quantile value of braking deceleration
圖7 制動減速度分位值隨速度變化關(guān)系Fig.7 The relationship between braking deceleration quantile value and velocity
參考急加速閾值線設(shè)定,本文同樣定義了急減速判斷閾值線為第99%分位值,如圖8所示。
圖8 急減速判斷閾值線Fig.8 The judgment threshold line of sharp deceleration
式中:x表示車輛速度;β1、β2、β3、β4是擬合參數(shù);R2表示擬合系數(shù)。
1.2.3 超速
在不同的道路環(huán)境中限速是不同的,在城市道路中,車輛的限速一般為60km·h-1,高速道路中一般最高限速為120km·h-1。文獻(xiàn)[20]認(rèn)為車速在高于80km·h-1就認(rèn)為駕駛員有超速傾向或已經(jīng)在超速行駛了,而車速高于120km·h-1必然是超速行駛了。但準(zhǔn)確的超速行駛行為的識別需要基于不同路段的限速情況進(jìn)行,由于本文缺少道路限速信息,僅采用兩個等級指標(biāo)表征超速行為的嚴(yán)重程度:車速80~120km·h-1的行駛時間占總行駛時間的比例和車速高于120km·h-1行駛時間占總行駛時間的比例。
1.2.4 急轉(zhuǎn)向
對車輛速度與方向盤角速度參數(shù)進(jìn)行分析,各分位值結(jié)果見圖9,隨車速的增加,方向盤角速度持續(xù)降低,為此使用式(3)對方向盤角速度的各分位值進(jìn)行曲線擬合,結(jié)果如表4所示。
圖9 方向盤角速度分位值隨速度變化關(guān)系Fig.9 The relationship between steering wheel angular quantile value and velocity
表4 方向盤角速度各分位值的擬合參數(shù)Tab.4 The fitting parameters of each quantile value of the steering wheel angular velocity
式中:x表示車輛速度;a、b、c是擬合參數(shù);R2表示擬合系數(shù)。
同理,本文定義了急轉(zhuǎn)向判斷閾值線為第99%分位值,閾值線如圖10所示。
圖10 急轉(zhuǎn)向判斷閾值線Fig.10 The judgment threshold line of sharp turning
1.2.5 轉(zhuǎn)向超速
對車輛速度與方向盤轉(zhuǎn)角參數(shù)進(jìn)行對比分析,各分位值結(jié)果見圖11,使用式4對不同方向盤轉(zhuǎn)角下的車速各分位值曲線進(jìn)行擬合,結(jié)果如表5所示。
表5 車速各分位值擬合參數(shù)Tab.5 The fitting parameters of each speed quantile value
圖11 車速各分位值隨方向盤轉(zhuǎn)角變化關(guān)系Fig.11 The relationship between speed quantile value and the steering wheel angle
式中:x表示方向盤轉(zhuǎn)角;a、b、c是擬合參數(shù);R2表示擬合系數(shù)。
同理,本文定義了轉(zhuǎn)向安全車速分界線為第99%分位值,轉(zhuǎn)向超速行為通過該分界線進(jìn)行識別,如圖12所示。
圖12 轉(zhuǎn)向超速判斷閾值線Fig.12 The judgment threshold line of overspeed while turning
1.2.6 疲勞駕駛
統(tǒng)計結(jié)果表明疲勞駕駛造成的交通事故占事故總數(shù)的20%左右,占特大交通事故總數(shù)的40%以上[21]。行車時長是影響疲勞駕駛的直觀因素,本文將單次行車?yán)塾嫊r長超過4h記為疲勞駕駛。
在聚類算法中K均值聚類算法因原理易懂、收斂速度快的優(yōu)點得到廣泛應(yīng)用。但K均值聚類算法結(jié)果受初始聚類中心影響非常大,而且其要求簇的形狀必須是圓形的,若實際樣本點是橢圓分布的,其聚類結(jié)果可能會出現(xiàn)多個圓形的簇混在一起,聚類效果差。高斯混合模型(GMM)可以彌補K均值聚類算法的不足,GMM未將每個樣本點置于明確簇中,而給出了該樣本點在各簇中的概率或可能性,因此能夠有效避免硬分配,并且簇的形狀可以是任意橢圓狀,而不僅局限于圓形。
假設(shè)數(shù)據(jù)集X={x1,x2,…,xn}服從由K個多元高斯分布組成的GMM,即可分為K類。對于每個樣本xi,高斯混合分布的概率密度函數(shù)為
式中:πk是混合系數(shù);μk,σk為每個高斯成分的均值和方差。Nk(xi|μk,σk)為第k個高斯成分的概率密度函數(shù),即xi屬于第k類的概率,可表示為
使用期望最大化(EM)算法對GMM進(jìn)行非線性概率函數(shù)的優(yōu)化。首先根據(jù)類別數(shù)目設(shè)定模型參數(shù)初值(μ0k,σ0k),迭代多次求出參數(shù)(μk,σk),即每一個樣本屬于第k類的概率,由最大后驗概率準(zhǔn)則可知,后驗概率最大的那項類別為該樣本所屬聚類結(jié)果[22]。
為了避免高維數(shù)據(jù)集導(dǎo)致的“維災(zāi)難效應(yīng)”,在利用聚類算法進(jìn)行駕駛風(fēng)格分類時需要提前對駕駛行為數(shù)據(jù)集進(jìn)行降維處理。常見的降維方法有多維尺度分析(MDS)、主成分分析(PCA)、等距特征映射(ISOMAP)和t分布隨機(jī)鄰域嵌入(t-SNE)等[23-24]。文獻(xiàn)[24]指出在處理不同的高維數(shù)據(jù)集時,需要針對數(shù)據(jù)集特點選擇適合的方法。因此本文采用PCA、MDS、t-SNE和ISOMAP 4種降維方法分別對駕駛風(fēng)格特征參數(shù)進(jìn)行降維,再將降維結(jié)果分別輸入GMM算法中進(jìn)行駕駛風(fēng)格聚類。不同降維方法的效果采用輪廓系數(shù)S進(jìn)行對比。
式中:K表示分類數(shù)量;nk表示第k類的觀測值總數(shù);a(i)是觀測值xi與所在第k類其他值的平均距離;b(i)是觀測值xi與其他集群中所有值的平均距離中最小值;Ik表示第k類集群觀測值的索引集。
本文基于駕駛風(fēng)格特征參數(shù)數(shù)據(jù)集比較了不同K取值的輪廓系數(shù),確定最佳聚類K值,由圖13可知將駕駛風(fēng)格特征參數(shù)為3類效果最好。
圖13 不同K取值的輪廓系數(shù)Fig.13 Silhouette coefficient with different values of K
將上述降維方法結(jié)合K均值聚類算法和GMM兩種聚類算法進(jìn)行聚類效果的對比,結(jié)果如表6所示。結(jié)果表明對于本文所用駕駛風(fēng)格數(shù)據(jù)集而言,相對于K均值聚類算法,GMM與每種降維方法組合后普遍表現(xiàn)出更優(yōu)的聚類效果,且t-SNE和GMM組合聚類方法的輪廓系數(shù)最高。因此,本文最終選擇t-SNE和GMM算法把駕駛風(fēng)格特征參數(shù)數(shù)據(jù)集聚為3類駕駛風(fēng)格。
表6 不同降維與聚類算法聚類效果Tab.6 Clustering effect of different dimension reduction and clustering algorithms
駕駛行為是指駕駛員在某一次駕駛過程具體的操作行為,駕駛風(fēng)格是指駕駛員在駕駛時所表現(xiàn)的綜合行為特征,也是駕駛員養(yǎng)成的基本固定的駕駛習(xí)慣。也就是說駕駛行為能夠反映駕駛風(fēng)格,駕駛風(fēng)格從一定程度上決定駕駛行為。為了揭示3種不同駕駛風(fēng)格對應(yīng)的車輛運行特征,本文從監(jiān)測數(shù)據(jù)服務(wù)器接收的私家車與網(wǎng)約車數(shù)據(jù)中,提取同一款純電動車型30名駕駛員一個月的駕駛事件(共2 227次)對應(yīng)的駕駛數(shù)據(jù)。運用t-SNE算法對駕駛數(shù)據(jù)進(jìn)行降維,采用GMM算法對降維后數(shù)據(jù)進(jìn)行駕駛風(fēng)格分類,聚類效果如圖14所示,分類結(jié)果中各特征參數(shù)的平均值如表7所示。
圖14 駕駛風(fēng)格聚類效果Fig.14 Clustering effect of driving style
根據(jù)表7中各類特征參數(shù)平均值結(jié)果,發(fā)現(xiàn)第1類樣本的百公里急加/急減/急轉(zhuǎn)向/轉(zhuǎn)向超速次數(shù)、加(減)速度平均值與標(biāo)準(zhǔn)差都是3類中最高的,而這些參數(shù)都與駕駛粗暴相關(guān),故推斷第1類為激進(jìn)型風(fēng)格;相對而言,第3類樣本的車速、加(減)速度平均值與標(biāo)準(zhǔn)差都是3類中最低的,故推斷第3類為保守型風(fēng)格,推斷第2類為普通型風(fēng)格。保守型的平均速度比激進(jìn)型低約15 km·h-1,這是因為保守型駕駛風(fēng)格為確保行車安全,將車速穩(wěn)定在安全車速以內(nèi)。普通型駕駛風(fēng)格也是熟練駕車人群常用的駕駛風(fēng)格,保持速度穩(wěn)定的能力較強,激進(jìn)型駕駛風(fēng)格對車速控制能力最差。圖15為不同駕駛風(fēng)格對應(yīng)的危險駕駛行為發(fā)生次數(shù)對比結(jié)果,由圖可見,激進(jìn)型駕駛風(fēng)格的危險駕駛行為在高發(fā)區(qū)間的占比最高。說明激進(jìn)型對車輛控制能力最差,危險駕駛行為發(fā)生次數(shù)最多,發(fā)生交通事故的風(fēng)險最高,對于這一類駕駛員群體,可針對性進(jìn)行安全教育,提高駕駛員安全意識,減少交通事故傷亡和損失。相對而言,對于保守型駕駛風(fēng)格而言,危險駕駛行為發(fā)生次數(shù)主要集中在低發(fā)區(qū)。普通型風(fēng)格對應(yīng)的危險駕駛行為發(fā)生次數(shù)介于保守型和激進(jìn)型之間。不同風(fēng)格駕駛員的車輛運行特性分類結(jié)果也驗證了本文提出的分類算法是有效的。
表7 各類特征參數(shù)平均值Tab.7 Average value of various characteristic parameters
圖15 危險駕駛行為發(fā)生次數(shù)分布情況Fig.15 Distribution of the occurrence times of dangerous driving behavior
為提高駕駛員安全認(rèn)知,探究駕駛風(fēng)格劃分方法,本文利用純電動汽車高頻運行數(shù)據(jù)開展研究工作,主要結(jié)論如下:
(1)對駕駛行為數(shù)據(jù)進(jìn)行統(tǒng)計分析,根據(jù)分析結(jié)果提出了采用多參數(shù)組合閾值邊界線進(jìn)行異常駕駛行為的識別,并得到了不同駕駛行為特征參數(shù)的危險駕駛閾值邊界線。
(2)選取了15個與駕駛安全有關(guān)的駕駛風(fēng)格特征參數(shù),對多參數(shù)降維及聚類算法進(jìn)行研究,通過輪廓系數(shù)對2種聚類算法和4種降維方法的性能進(jìn)行評價,結(jié)果表明t-SNE和GMM組合算法分類效果最好。
(3)以t-SNE和GMM組合算法建立了基于駕駛安全的駕駛風(fēng)格分類模型,將駕駛風(fēng)格分為3種類型,不同駕駛風(fēng)格對應(yīng)的車輛運行特性分析結(jié)果驗證了分類算法的有效性。
作者貢獻(xiàn)聲明:
紀(jì)少波:論文研究思路提出及語言組織。
張珂:車輛運行特性統(tǒng)計分析。
李倫:駕駛風(fēng)格分類方法對比。
蘇士斌:試驗樣本方案制定。
何紹清:車輛運行數(shù)據(jù)采集。
馮遠(yuǎn)宏:數(shù)據(jù)接收方法研究。
張強:數(shù)據(jù)預(yù)處理方法研究。