曹 磊,裴莉莉,高 堯,李 偉,戶媛姣
(長(zhǎng)安大學(xué) 信息工程學(xué)院,西安 710064)
隨著我國(guó)道路運(yùn)輸行業(yè)的快速發(fā)展,“兩客一?!钡缆愤\(yùn)輸車輛數(shù)量出現(xiàn)大幅度的增長(zhǎng),在方便人們出行、促進(jìn)地區(qū)經(jīng)濟(jì)水平發(fā)展的同時(shí),也給道路出行和乘客的生命財(cái)產(chǎn)安全帶來了極大的考驗(yàn)[1].
然而,由于“兩客一?!避囕v的特殊性、高風(fēng)險(xiǎn)性,以及路網(wǎng)中“兩客一?!避囕v數(shù)據(jù)的相對(duì)獨(dú)立性和地區(qū)差異[2],各地區(qū)(省)對(duì)于活動(dòng)在本省境內(nèi)的“兩客一?!避囕v缺乏系統(tǒng)性研究和管理,沒有能夠充分挖掘大數(shù)據(jù)背景下研究分析的方法和優(yōu)勢(shì),對(duì)于“兩客一?!敝攸c(diǎn)車輛的跟蹤監(jiān)測(cè)、分析、分布與風(fēng)險(xiǎn)預(yù)測(cè)沒有進(jìn)行深入挖掘,從而不利于政府等監(jiān)管部門的監(jiān)督和決策.
另一方面,交通安全是交通領(lǐng)域的關(guān)鍵問題.交通安全條件由駕駛員,車輛和駕駛環(huán)境決定.先前的研究表明,超過90%的交通事故與不安全的駕駛行為有關(guān).駕駛行為在駕駛風(fēng)險(xiǎn)分析中起著重要作用.但是,在現(xiàn)實(shí)生活中很難衡量駕駛風(fēng)險(xiǎn)[3].因此駕駛模擬器通常用于調(diào)查各種實(shí)驗(yàn)環(huán)境中的駕駛行為[4].諸如自然駕駛研究(NDS)和DriveCam 系統(tǒng)之類的一些車輛儀表技術(shù)已被廣泛用于監(jiān)測(cè)駕駛行為和運(yùn)動(dòng)學(xué)特征[5].現(xiàn)有的大多數(shù)危險(xiǎn)駕駛行為分析都依賴于碰撞數(shù)據(jù)或自我報(bào)告的問卷調(diào)查[6].張輝等[7]通過設(shè)計(jì)分心模擬駕駛試驗(yàn)來采集駕駛?cè)搜蹌?dòng)特征數(shù)據(jù),進(jìn)行駕駛員的分心狀態(tài)判別.侯海晶等[8]利用搭載了眼動(dòng)儀的駕駛模擬器才采集駕駛員感知與操作的數(shù)據(jù),利用這些數(shù)據(jù)對(duì)駕駛員的駕駛風(fēng)格進(jìn)行分類.薛清文等[9]通過采集高精度車輛軌跡數(shù)據(jù)評(píng)估駕駛員的整體駕駛狀態(tài),利用LGBM(Light Gradient Boosting Machine)算法對(duì)危險(xiǎn)駕駛行為進(jìn)行識(shí)別.為了充分探索交通事故中的駕駛行為,重要的是要保持真實(shí)駕駛情況下的駕駛行為習(xí)慣.
對(duì)于危險(xiǎn)駕駛行為的研究,交通事故數(shù)據(jù)傳統(tǒng)上是主要或唯一的數(shù)據(jù)源,但是交通事故在廣義上來說是一個(gè)小概率事件,其所包含的信息很少,因此主動(dòng)采取有效交通安全措施的方法已被忽略.其次,多層次或多結(jié)構(gòu)的模型能夠發(fā)現(xiàn)數(shù)據(jù)中所忽略的對(duì)交通安全的影響因素,對(duì)數(shù)據(jù)的多維度挖掘.最后,國(guó)內(nèi)很少將積累的“兩客一?!避囕v大數(shù)據(jù)用于道路安全以及危險(xiǎn)駕駛研究.
為了填補(bǔ)上述研究空白,本研究的研究目的主要分為以下兩點(diǎn).第一個(gè)目標(biāo)是從宏觀水平上分析不同類型的卡車駕駛員的駕駛習(xí)慣和危險(xiǎn)駕駛的傾向.第二個(gè)目標(biāo)是通過在微觀層次上對(duì)車輛進(jìn)行動(dòng)態(tài)監(jiān)控,在這兩個(gè)水平的基礎(chǔ)上建立一個(gè)多級(jí)模型來對(duì)“兩客一危”的車輛進(jìn)行監(jiān)控和管理.該研究與現(xiàn)有研究的不同之處在于同時(shí)考慮了以下方面:
1)采用真實(shí)的“兩客一?!避囕v駕駛數(shù)據(jù)(并不是來源于模擬器產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)),并根據(jù)多個(gè)指標(biāo)發(fā)現(xiàn)識(shí)別潛在的危險(xiǎn)駕駛行為;
2)使用大規(guī)模數(shù)據(jù)集,本文使用的數(shù)據(jù)集以5 s 的間隔記錄貨車和客車的行車速度,車輛位置,車輛信息相關(guān)的數(shù)據(jù);
3)建立反映“兩客一?!避囕v駕駛員危險(xiǎn)駕駛傾向的多層次模型.
本文使用的數(shù)據(jù)為陜西省境內(nèi)2018年9月至2019年2月共6 個(gè)月的“兩客一危”車輛的行駛數(shù)據(jù),其中每天包含大約25 000 輛車的行駛信息,每個(gè)車輛每天的行程為一個(gè)單獨(dú)的數(shù)據(jù)文件,其中包含的數(shù)據(jù)項(xiàng)如表1所示.
表1 車輛行駛數(shù)據(jù)字段解釋
在原始數(shù)據(jù)集中,隨機(jī)選擇不同日期(包含節(jié)假日、工作日)、不同天氣狀況、一天內(nèi)不同時(shí)段、不同顏色牌照以及不同道路狀況的多類車輛行駛數(shù)據(jù)對(duì)駕駛員的駕駛行為進(jìn)行分析.本文共選擇了9000 輛“兩客一?!避囕v的行程(單位:天)進(jìn)行研究.
在對(duì)字段的篩選中取出與駕駛員危險(xiǎn)駕駛行為相關(guān)的車輛位置信息,例如車輛的GPS 速度,車輛時(shí)間信息與車輛的方向信息.其中車輛的位置信息用于判斷車輛行駛道路類型,速度、時(shí)間與方向信息用于評(píng)判駕駛員的駕駛狀態(tài),在對(duì)數(shù)據(jù)字段進(jìn)行篩選采樣之后,對(duì)現(xiàn)有字段中每輛車每天行程(運(yùn)行時(shí)間大于2 小時(shí))的速度變化信息與方向變化信息計(jì)算方差,形成新的字段.9000 輛車的速度方差與方向方差部分?jǐn)?shù)據(jù)可視化結(jié)果如圖1所示.
圖1 方差示例數(shù)據(jù)
從數(shù)據(jù)可視化圖中可以發(fā)現(xiàn),數(shù)據(jù)中包含大量的零值,而這些零值表示這些車輛的沒有處在行駛狀態(tài),因此需要對(duì)這些零值進(jìn)行清洗,清洗后的數(shù)據(jù)如圖2所示.
圖2 零值清洗后數(shù)據(jù)
同時(shí),在這些數(shù)據(jù)中還有一些由于傳感器的誤差或者其他原因產(chǎn)生的異常數(shù)據(jù),使用箱型圖的方法可以有效檢測(cè)到這些異常值,對(duì)去除零值后的數(shù)據(jù)進(jìn)行箱型圖可視化如圖3所示.
圖3中的“+”表示數(shù)據(jù)中的異常值,將這些異常值從原數(shù)據(jù)中清洗掉,還有7895 輛車的行駛狀態(tài)數(shù)據(jù),之后再對(duì)清洗后的數(shù)據(jù)示例進(jìn)行可視化如圖4所示.
圖3 箱型圖檢測(cè)異常值結(jié)果
圖4 數(shù)據(jù)清洗后結(jié)果
從零值與異常值清洗后的數(shù)據(jù)可視化圖中可以看出,車輛行駛的速度方差和方向方差的數(shù)據(jù)分布不均衡,且波動(dòng)相差較大這將在之后的距離計(jì)算中對(duì)計(jì)算結(jié)果產(chǎn)生影響,因此需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,本文使用的歸一化方法為min-max 歸一化方法,如式(1):
其中,Vi是真實(shí)值,Vi′是規(guī)范化之后的值.
對(duì)歸一化后的數(shù)據(jù)進(jìn)行可視化如圖5所示.
圖5 歸一化數(shù)據(jù)可視化
從圖5中可以看出數(shù) 據(jù)的分布已經(jīng)比較均衡,之后以此數(shù)據(jù)作為輸入樣本對(duì)駕駛情況進(jìn)行聚類分析.
本文采用多層次的模型來對(duì)“兩客一?!避囕v駕駛員的駕駛行為進(jìn)行分析評(píng)價(jià),多層次主要體現(xiàn)在宏觀與微觀兩個(gè)層次.宏觀層面上對(duì)駕駛員的一次行程信息進(jìn)行分析以評(píng)判其駕駛平穩(wěn)性,微觀層面對(duì)駕駛員駕駛車輛在不同速度下的危險(xiǎn)駕駛行為進(jìn)行識(shí)別.多層模型的結(jié)構(gòu)如圖6所示.
圖6 “兩客一?!避囕v行駛狀態(tài)多層評(píng)價(jià)模型
對(duì)車輛行駛數(shù)據(jù)的宏觀層次分析可以使用聚類的方法.聚類分析是一種無監(jiān)督的學(xué)習(xí)技術(shù),可將一組物理或抽象對(duì)象劃分為幾個(gè)相似的聚類以獲得全局?jǐn)?shù)據(jù)圖或?qū)μ囟ň垲愡M(jìn)行進(jìn)一步分析.通過聚類生成的類是一組數(shù)據(jù)對(duì)象,與原始組中的其他對(duì)象(基于相似性進(jìn)行聚類)相比,它們具有更大的相似性.相似性由研究對(duì)象的屬性值確定,相對(duì)距離是一種常用的措施.
本文選擇基于相對(duì)距離的聚類算法K-means 對(duì)數(shù)據(jù)進(jìn)行聚類,該方法能夠?qū)?shù)據(jù)劃分為預(yù)定數(shù)量的聚類(假設(shè)有足夠多的不同情況).
基于距離的算法依靠距離度量(函數(shù))來度量數(shù)據(jù)點(diǎn)之間的相似度.距離度量的標(biāo)準(zhǔn)是歐氏距離、余弦或快速余弦距離.根據(jù)所使用的距離度量將數(shù)據(jù)點(diǎn)分配給最近的群集,該算法認(rèn)為兩個(gè)數(shù)據(jù)對(duì)象的距離越近,相似度就越大;距離越遠(yuǎn),相似度就越小.它基于樣本空間中最有代表性的點(diǎn),迭代地將所有數(shù)據(jù)樣本劃分為不同的類別,使聚類出來的每個(gè)簇的聚合度最高,簇間的分離度最高.對(duì)于距離度量本文采用歐式距離計(jì)算方法計(jì)算,公式如式(2)所示:
其中,xi和xj為計(jì)算距離的兩個(gè)點(diǎn),m為樣本維度數(shù),n為當(dāng)前維度.
K-means 算法因其算法框架清晰簡(jiǎn)單易懂,處理大數(shù)據(jù)集的算法相對(duì)可擴(kuò)展且高效的優(yōu)點(diǎn)其才得到大量的應(yīng)用;當(dāng)數(shù)據(jù)集的類密集且類與類之間的差異明顯時(shí),該算法處理的效果最好.使用該算法對(duì)數(shù)據(jù)進(jìn)行聚類分析的首要任務(wù)就是給出要生成的類的數(shù)目k,k值是否合適可以通過計(jì)算SSE(簇內(nèi)誤差平方和)來評(píng)價(jià).SSE-Kmeans 聚類算法中的核心思想是:
1)在聚類分析中隨著數(shù)據(jù)簇?cái)?shù)k的增加,樣本拆分變得更加復(fù)雜并且精細(xì),而且每個(gè)類別的聚合強(qiáng)度逐漸增加,因此平方誤差和SSE自然降低.
2)如果k小于真實(shí)簇的數(shù)量,則k的增加將大大增加每個(gè)簇的內(nèi)聚性,因此SSE的下降程度將會(huì)很大.并且當(dāng)k達(dá)到真實(shí)簇的數(shù)量時(shí),再通過增加k的值得到的聚合程度的增加將會(huì)迅速變小,因此隨著k值的持續(xù)增加,SSE的下降率迅速下降并逐漸趨于平穩(wěn).也就是說,SSE和聚類類別數(shù)k之間的關(guān)系呈肘形,其中肘形圖中肘部對(duì)應(yīng)的k值就是數(shù)據(jù)中真實(shí)簇的數(shù)量.
對(duì)于一個(gè)特定的d維數(shù)據(jù)集合D=(x1,x2,…,xn),SSE-Kmeans 算法的步驟如圖7所示.
圖7 SSE-Kmeans 算法步驟
對(duì)車輛行駛數(shù)據(jù)的微觀層次分析中使用動(dòng)態(tài)閾值的分析方法.在車輛危險(xiǎn)行駛狀態(tài)的評(píng)判及等級(jí)劃分的研究中,當(dāng)前學(xué)者多采用固定閾值的方法,但是車輛在不同速度的情況下危險(xiǎn)駕駛的評(píng)判應(yīng)當(dāng)也不相同,如速度越快急轉(zhuǎn)向的評(píng)判閾值應(yīng)該越小,因此基于速度的車輛危險(xiǎn)行駛狀態(tài)的動(dòng)態(tài)閾值評(píng)判更符合實(shí)際情況.
Han 等[10]利用車輛黑匣子收集了速度、加速度及橫擺角速度數(shù)據(jù),識(shí)別了急加速、急減速、急轉(zhuǎn)彎、突然換道4 種車輛危險(xiǎn)行駛狀態(tài),并提出了基于不同速度區(qū)間的閾值劃分方法,如表2和圖8所示.
表2 微觀模型動(dòng)態(tài)閾值
圖8 動(dòng)態(tài)閾值分布圖
本文使用上述閾值對(duì)“兩客一?!避囕v每條記錄的行駛狀態(tài)進(jìn)行評(píng)判并記錄,并結(jié)合宏觀模型對(duì)車輛行駛平穩(wěn)狀態(tài)的評(píng)估得到車輛的總體評(píng)價(jià)[11-13].接下來主要介紹宏觀層次模型的應(yīng)用.
對(duì)數(shù)據(jù)使用SSE-Kmeans 聚類算法進(jìn)行聚類首先需要確定簇的個(gè)數(shù)(即k),k值可以通過簇內(nèi)誤差平方和(within-cluster SSE)確定,SSE的計(jì)算方法如式(3)所示:
其中,x(i)表示第i個(gè)數(shù)據(jù)點(diǎn),μ(j)表示j簇的中心,n和m表示樣本的維度.
對(duì)歸一化數(shù)據(jù)進(jìn)行SSE計(jì)算結(jié)果如圖9所示.
圖9中可以看出當(dāng)k值為4 時(shí),正好是手肘的位置,即為最佳聚類簇?cái)?shù).使用SSE-Kmeans 算法對(duì)數(shù)據(jù)進(jìn)行聚類,得到結(jié)果如圖10所示.
圖10中每一個(gè)顏色代表一個(gè)數(shù)據(jù)簇,“X”符號(hào)代表每類數(shù)據(jù)點(diǎn)的中心.
同時(shí)采用基于密度的聚類方法DBSCAN (Eps=0.5,nPts=10)對(duì)數(shù)據(jù)進(jìn)行聚類可以得到的結(jié)果如圖11所示.
圖9 SSE 與k 值的關(guān)系
圖10 SSE-Kmeans 算法聚類結(jié)果圖
圖11 DBSCAN 算法聚類結(jié)果圖
從圖11可以看出,DBSCAN 算法將數(shù)據(jù)聚類為一類.與圖10對(duì)比可知,當(dāng)數(shù)據(jù)量的類密集時(shí),基于密度的聚類算法DBSCAN 對(duì)行駛平穩(wěn)性數(shù)據(jù)的聚類效果并沒有基于相對(duì)距離的算法SSE-Kmeans 對(duì)行駛平穩(wěn)性數(shù)據(jù)的聚類效果好[14,15].因此本文將對(duì)SSE-Kmeans算法的聚類結(jié)果進(jìn)行分析與討論.
圖10中每類的數(shù)據(jù)點(diǎn)數(shù)及每類數(shù)據(jù)點(diǎn)占總數(shù)據(jù)點(diǎn)的比例如圖12所示.
圖12 每類數(shù)據(jù)的分布情況與所占比例
對(duì)聚類結(jié)果從每類數(shù)據(jù)點(diǎn)的特點(diǎn)進(jìn)行分析可以得出以下結(jié)論:
1)第1 類數(shù)據(jù)點(diǎn)(圖10中綠色點(diǎn))代表了這些車輛中行駛最為平穩(wěn)的一些個(gè)體,這些個(gè)體在一天的行程中速度和方向的變化都較為穩(wěn)定,因此處在這一類的車輛駕駛員潛在危險(xiǎn)駕駛的傾向性特別低.
2)第2 類數(shù)據(jù)(圖10中黃色點(diǎn))則代表了車輛速度平穩(wěn)性較好但方向平穩(wěn)性較差的個(gè)體,說明這些車輛在這一天的行程中有可能行駛在彎道較多路況較差的道路上,雖然其方向平穩(wěn)性較差,但是速度變化穩(wěn)定,因此這一類的車輛駕駛員的危險(xiǎn)駕駛傾向比較低.
3)第3 類數(shù)據(jù)(圖10中藍(lán)色點(diǎn))代表了車輛方向平穩(wěn)性較好但速度平穩(wěn)性較差,說明這些車輛在這一天的行程中有可能行駛在彎道較少路況較好的道路上,但由于其速度平穩(wěn)性較差即速度變化較大,好在其方向的變化性較小,因此處在這一類的車輛駕駛員的危險(xiǎn)駕駛傾向也比較低.
4)第4 類數(shù)據(jù)(圖10中紅色點(diǎn))代表了車輛方向平穩(wěn)性較差且速度平穩(wěn)性也較差或者方向平穩(wěn)性較好但速度平穩(wěn)性差的車輛,說明這些車輛在這一天的行程中有可能以很差的速度平穩(wěn)性行駛在路況不好的道路上,或者以很差的速度平穩(wěn)性行駛在路況較好的道路上,但是由于路況較好時(shí)車速也更快其危險(xiǎn)駕駛行為造成的后果也更嚴(yán)重,因此這種特點(diǎn)都說明處于這一類的車輛駕駛員的危險(xiǎn)駕駛傾向比較高.
結(jié)合上面的分析結(jié)果,可以發(fā)現(xiàn)88%的車輛都處于低,或者較低的危險(xiǎn)駕駛傾向區(qū)域,其中有24%的車輛在這一天的行程中速度和方向的平穩(wěn)性均比較低,剩余的12%的車輛在這一天的行程中含有較高的危險(xiǎn)駕駛行為的傾向.聚類結(jié)果分布如圖13.
圖13 聚類結(jié)果分布圖
此外,據(jù)圖13的分布情況可以看出,車輛數(shù)據(jù)點(diǎn)中的大部分都集中在數(shù)據(jù)分布圖的右下方,陜西省內(nèi)的“兩客一?!避囕v主要行駛在彎道較少路況較好的道路上,因此應(yīng)該主要關(guān)注這些車輛的速度以及加速度的變化即可.
當(dāng)需要對(duì)某車輛的行駛平穩(wěn)性進(jìn)行評(píng)價(jià)時(shí),在宏觀層面上首先計(jì)算其行程方向與速度數(shù)據(jù)方差,之后判斷其屬于哪一類數(shù)據(jù)簇,那么其行駛狀態(tài)就具有那一類數(shù)據(jù)的特點(diǎn).同時(shí)在微觀層面上對(duì)其行駛過程中的急加速、急減速、急轉(zhuǎn)向、突然換道次數(shù)進(jìn)行計(jì)算.結(jié)合兩個(gè)層面上的分析結(jié)果對(duì)車輛的形式狀態(tài)以及駕駛員的駕駛習(xí)慣進(jìn)行全面準(zhǔn)確的評(píng)估.
本文采用陜西省內(nèi)的“兩客一?!避囕v的行駛GPS數(shù)據(jù),提出了用以評(píng)價(jià)“兩客一?!避囕v行駛狀態(tài)的多層次模型,其中多層次模型包含宏觀評(píng)價(jià)模型與微觀評(píng)價(jià)模型,宏觀模型基于SSE-Kmeans 算法對(duì)車輛行程的速度與方向方差進(jìn)行聚類分析從而評(píng)價(jià)車輛行程行駛狀態(tài)穩(wěn)定性,微觀模型主要通過動(dòng)態(tài)閾值的方法評(píng)價(jià)車輛行駛中急加速、急減速、急轉(zhuǎn)向的次數(shù).且這些評(píng)價(jià)均與實(shí)際情況相符,能夠較為準(zhǔn)確地對(duì)車輛行駛狀態(tài)進(jìn)行評(píng)價(jià).對(duì)于管理部門而言,能夠根據(jù)該結(jié)果及時(shí)對(duì)有危險(xiǎn)駕駛傾向的駕駛員做出提醒并重點(diǎn)監(jiān)測(cè),提高車輛的安全駕駛程度,降低“兩客一?!避囕v的事故發(fā)生率,從而保障人民的生命財(cái)產(chǎn)安全,提高運(yùn)輸效率、應(yīng)急處置和政策決策能力.