張建波,孫建平,徐春玲,郭鏡霞,溫慧敏,宋國(guó)華
(1.北京交通大學(xué),交通運(yùn)輸學(xué)院,北京 100044;2.北京交通發(fā)展研究院,城市交通運(yùn)行仿真與決策支持北京市重點(diǎn)實(shí)驗(yàn)室,城市交通北京市國(guó)際科技合作基地,北京 100073)
駕駛員特征是影響道路交通運(yùn)行效率與安全的關(guān)鍵因素。文獻(xiàn)[1]統(tǒng)計(jì)表明,超過90%的道路交通事故與駕駛員的危險(xiǎn)行為直接或間接相關(guān)。隨著車載自診斷系統(tǒng)(On-board Diagnostics,OBD)、車聯(lián)網(wǎng)等技術(shù)的發(fā)展,駕駛員畫像與聚類研究[2]已經(jīng)成為道路安全管理、駕駛輔助系統(tǒng)開發(fā)等諸多工作的重要支撐。
現(xiàn)有的駕駛員特征分析與聚類模型十分豐富,如K-means,層次聚類和DBSCAN(Density-Based Spatial Clustering of Applications with Noise)等;模型輸入?yún)?shù)則因數(shù)據(jù)來源(主要有OBD、駕駛模擬器、自然駕駛和仿真等)的不同而存在差異。Wang等[3]利用駕駛實(shí)驗(yàn)平臺(tái)采集駕駛員行為數(shù)據(jù)從謹(jǐn)慎性、穩(wěn)定性、沖突傾向性和熟練性等4 個(gè)方面評(píng)估駕駛員特質(zhì)。吳堅(jiān)等[4]通過動(dòng)態(tài)虛擬仿真系統(tǒng)采集駕駛員駕駛過程中的制動(dòng)踏板數(shù)據(jù)用于駕駛員分類模型的訓(xùn)練。Fugiglando等[5]則利用OBD采集公交數(shù)據(jù)進(jìn)行K-means聚類。Yao等[6]基于OBD和全球定位系統(tǒng)(Global Positioning System,GPS)數(shù)據(jù)采集車輛在特定線型道路上的左轉(zhuǎn)數(shù)據(jù),利用動(dòng)態(tài)時(shí)間歸整算法(Dynamic Time Warping,DTW)和隱含馬爾柯夫模型(Hidden Markov Model,HMM)聚類駕駛行為特性。
但少有研究在聚類分析中考慮不同交通運(yùn)行條件變化(如設(shè)施類型、平均速度、交通相等)對(duì)駕駛員駕駛行為特征的隨機(jī)性影響。上述研究中關(guān)于駕駛行為特征適用于各種交通條件的基本假設(shè)與實(shí)際應(yīng)用模型(如機(jī)動(dòng)車排放模型(Motor Vehicle Emission Simulator,MOVES))中的基本假設(shè)是不一致的。近期的部分研究也關(guān)注到了這一問題[7]。Zhai 等[8]考慮時(shí)段、道路類型和氣象條件等因素提出考慮情景感知的駕駛員評(píng)估方法。Martinelli等[9]在駕駛員特征聚類中區(qū)分了城市道路和高速公路的設(shè)施條件。然而,交通運(yùn)行條件對(duì)駕駛員特征聚類結(jié)果的影響并沒有得到充分分析。
本文旨在分析交通運(yùn)行條件(道路類型和平均速度)對(duì)駕駛行為特征的影響,提出一種改進(jìn)的駕駛員聚類方法,以提高駕駛員聚類面向不同數(shù)據(jù)采集和交通場(chǎng)景時(shí)的適用性和可靠性。
本文利用“智駕盒子”采集了北京市部分私人小汽車的脫敏運(yùn)動(dòng)軌跡數(shù)據(jù)。該設(shè)備以1 s的時(shí)間粒度實(shí)時(shí)采集運(yùn)行車輛的位置、速度、油耗和發(fā)動(dòng)機(jī)運(yùn)行參數(shù)。經(jīng)過預(yù)處理,共篩選出2020年5月315 名駕駛員在20 個(gè)工作日的駕駛行為數(shù)據(jù)3400余萬條,駕駛員的平均駕車時(shí)長(zhǎng)達(dá)到29.7 h。小汽車的運(yùn)行軌跡數(shù)據(jù)依據(jù)車輛行駛路徑實(shí)時(shí)匹配了道路類型(包括快速路、主干路和次支路)等信息。本文利用的車輛瞬時(shí)運(yùn)行軌跡數(shù)據(jù)主要包括車輛id、記錄時(shí)間、道路類型、車輛瞬時(shí)速度和加速度等。全部樣本數(shù)據(jù)的統(tǒng)計(jì)情況如表1所示。
表1 車輛軌跡數(shù)據(jù)的統(tǒng)計(jì)情況Table 1 Statistics of vehicle motion data
本節(jié)旨在分析道路類型和運(yùn)行速度對(duì)駕駛員駕駛行為特征參數(shù)的不確定性影響。
首先,根據(jù)道路類型將軌跡數(shù)據(jù)切分為快速路和非快速路兩類。隨后以30 s 的時(shí)間長(zhǎng)度將單一道路類型條件下的車輛運(yùn)行軌跡切分為短軌跡片段;計(jì)算短軌跡片段的平均速度并以10 km·h-1為標(biāo)準(zhǔn)劃分速度區(qū)間,由此得到分道路類型(快速路和非快速路)和平均速度([0,10) km·h-1,[10,20) km·h-1,…,[80,90) km·h-1)的分類軌跡數(shù)據(jù)池。平均速度及速度區(qū)間的計(jì)算公式為
式中:N為樣本數(shù);vi為車輛逐秒軌跡中的第i秒速度(km·h-1);為軌跡片段的平均速度(km·h-1);bv為速度區(qū)間編號(hào);n為表示速度區(qū)間的整數(shù)(8 ≥n≥0)。
軌跡分類如圖1所示,210 s的逐秒軌跡被切分為7個(gè)短軌跡片段,并根據(jù)道路類型和平均速度對(duì)其進(jìn)行分類。這有助于真實(shí)反映不同交通運(yùn)行條件下駕駛行為差異。而時(shí)長(zhǎng)30 s 的軌跡切片結(jié)果可以與多種模型的實(shí)際需求相耦合,這些模型通?;?,3,5 min 等不同集計(jì)粒度(例如浮動(dòng)車數(shù)據(jù)集計(jì)的5 min,快速路機(jī)動(dòng)車工況分布集計(jì)的180 s等)。
圖1 駕駛行為估計(jì)切片分類示例Fig.1 Example of splitting vehicle motion segments
由文獻(xiàn)[10]證明在相同的速度區(qū)間下,主干路和次支路的小汽車運(yùn)行工況分布具有較高一致性,因此本文將主干路、次支路合并歸類為非快速路。這一道路類型的分類方法能保證車輛軌跡的連續(xù)性,降低對(duì)數(shù)據(jù)量的要求。
最后由分類數(shù)據(jù)計(jì)算得到不同道路類型和平均速度樣本的駕駛行為特征參數(shù),需注意的是,當(dāng)短軌跡片段時(shí)長(zhǎng)不足20 s 時(shí),將其歸類為無效數(shù)據(jù),不參與后續(xù)的駕駛員特征參數(shù)計(jì)算。
以速度變異系數(shù)和加速度標(biāo)準(zhǔn)差為例,實(shí)證分析不同交通運(yùn)行條件下的駕駛行為特征參數(shù)的可變性。速度變異系數(shù)和加速度標(biāo)準(zhǔn)差計(jì)算公式為
式中:F為分類數(shù)據(jù)的樣本量;c為速度變異系數(shù);σ為分類數(shù)據(jù)的速度標(biāo)準(zhǔn)差;為分類數(shù)據(jù)的平均速度(km·h-1);s為分類數(shù)據(jù)的加速度標(biāo)準(zhǔn)差;ai為分類樣本中的第i秒瞬時(shí)加速度(m·s-2);為分類樣本平均加速度(m·s-2)。
如圖2所示,無論是快速路還是非快速路,速度變異系數(shù)都隨著平均速度的增加而減小,而加速度標(biāo)準(zhǔn)差則隨著平均速度的增大呈現(xiàn)先增大后減小的趨勢(shì)。對(duì)于每個(gè)平均速度區(qū)間,非快速路上的速度變異系數(shù)和加速度標(biāo)準(zhǔn)差均高于快速路上的統(tǒng)計(jì)結(jié)果。這證實(shí)了在不同的交通條運(yùn)行件下,駕駛行為在速度和加速度變化方面存在顯著差異。交通運(yùn)行條件的不同會(huì)顯著地影響駕駛員的行為特征。
圖2 不同交通條件下駕駛員速度和加速度特征對(duì)比Fig.2 Comparison of driver speed and acceleration characteristics under different traffic characteristics
如圖3所示,加速度分布也因交通運(yùn)行條件的不同而存在差異。在快速路條件下,平均速度區(qū)間20 km·h-1的加速度分布比50 km·h-1區(qū)間更為分散,而相同速度區(qū)間下,非快速路的加速度分布比快速路路上的加速度分布更為分散。
圖3 不同交通條件下駕駛員加速度分布對(duì)比Fig.3 Comparison of acceleration distribution under different traffic conditions
本節(jié)提出一個(gè)改進(jìn)的考慮交通運(yùn)行條件影響的駕駛員特征聚類方法。整個(gè)聚類方法包括軌跡片段歸類和高斯混合模型聚類兩個(gè)步驟。
González 等[11]利用軌跡數(shù)據(jù)證明了利用速度和加速度變化檢測(cè)危險(xiǎn)駕駛行為的可行性,并認(rèn)為基于真實(shí)駕駛行為數(shù)據(jù)的駕駛員分析是最客觀的。Ma等[12]則對(duì)駕駛員激進(jìn)性評(píng)估算法進(jìn)行了比較研究,指出高斯混合模型(Gaussian Mixture Model,GMM)對(duì)激進(jìn)行為的特征參數(shù)具有更強(qiáng)的魯棒性??紤]上述因素,本文提出的駕駛員特征聚類方法如圖4所示,主要流程包括:首先對(duì)軌跡數(shù)據(jù)進(jìn)行切片和分類處理,隨后提取穩(wěn)定的易獲取的駕駛行為特征參數(shù);基于高斯混合模型聚類獲取駕駛員特征標(biāo)簽。
圖4 考慮交通特征差異的駕駛員特征聚類方法Fig.4 Improved driver clustering framework
Step 1 機(jī)動(dòng)車軌跡片段歸類與參數(shù)提取。
將機(jī)動(dòng)車軌跡數(shù)據(jù)按道路類型分為快速路和非快速路兩個(gè)數(shù)據(jù)集,再以30 s的時(shí)間長(zhǎng)度對(duì)連續(xù)軌跡進(jìn)行切片處理。依據(jù)軌跡片段的平均速度對(duì)其進(jìn)行分類,由此得到帶有道路類型和平均速度區(qū)間標(biāo)簽的軌跡片段數(shù)據(jù)池,作為駕駛員特征聚類的基礎(chǔ)數(shù)據(jù)。最后提取駕駛員在不同交通運(yùn)行條件下的駕駛行為基本特征參數(shù),包括:速度變異系數(shù)(Speed Variation Coefficient,SVC),加速度標(biāo)準(zhǔn)差(Acceleration Standard Deviation,ASD),減速度均值(m?s-2,Deceleration Mean,DM)。
駕駛行為特征參數(shù)既要能反映駕駛員特征與交通運(yùn)行條件之間的關(guān)聯(lián)性[13],也要易于獲取,能夠從不同數(shù)據(jù)來源中獲得,以提升聚類方法的適用性。速度變異系數(shù)能在反映駕駛行為中速度波動(dòng)水平的同時(shí)剔除速度量綱的影響,加速度標(biāo)準(zhǔn)差體現(xiàn)了駕駛員的加減速波動(dòng)性,而減速度均值則能夠體現(xiàn)車輛減速的強(qiáng)度水平。相比于加速度,減速度更能體現(xiàn)駕駛員自身特征,降低車輛性能的約束。最后,對(duì)于每個(gè)駕駛員,總共有3 類特征參數(shù)(速度變異系數(shù)、加速度標(biāo)準(zhǔn)差和減速度均值)乘2個(gè)道路類型(快速路和非快速路)再乘5 個(gè)平均速度區(qū)間(vˉ=10、20、30、40和50),共計(jì)30 個(gè)特征值輸入到聚類模型中。
Step 2 基于典型特征參數(shù)的高斯混合模型聚類。
將上述典型交通運(yùn)行條件下的駕駛行為特征參數(shù)作為輸入,采用無監(jiān)督機(jī)器學(xué)習(xí)的高斯混合模型對(duì)駕駛員類型進(jìn)行聚類。
本文選擇高斯混合模型進(jìn)行駕駛員特征聚類。高斯混合模型是一種具有無監(jiān)督學(xué)習(xí)特性的聚類方法,其優(yōu)勢(shì)是可以用概率形式表示事物的非線性或隨機(jī)性特征。高斯混合模型P(x)通過多維高斯模型概率分布的混合表示可以擬合出任意形狀的數(shù)據(jù)分布,即
式中:m為模型中基本高斯分布函數(shù)的個(gè)數(shù);wi為第i個(gè)高斯分布的混合系數(shù);ui為第i個(gè)高斯分布的均值;σi為第i個(gè)高斯分布的標(biāo)準(zhǔn)差。
上述聚類框架具有兩個(gè)優(yōu)勢(shì):一方面,駕駛員的軌跡片段分類能有效降低交通運(yùn)行條件對(duì)駕駛員駕駛行為特征的不確定性干擾,使得利用實(shí)際交通運(yùn)行狀態(tài)下機(jī)動(dòng)車軌跡數(shù)據(jù)的駕駛員特征研究具有更好的可比性(在不同駕駛員之間)和更為穩(wěn)定的穩(wěn)定性(針對(duì)同一駕駛員);另一方面,高斯混合模型是一種基于無監(jiān)督學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,高斯混合模型對(duì)于聚類邊緣并沒有嚴(yán)格的硬空間約束,更符合駕駛員駕駛行為的隨機(jī)性特點(diǎn)。
利用改進(jìn)的聚類方法對(duì)315 名駕駛員數(shù)據(jù)進(jìn)行聚類,討論分析是否考慮交通運(yùn)行條件影響對(duì)駕駛員聚類效果的影響。
在案例中,駕駛員聚類結(jié)果被分為激進(jìn)、普通和保守這3 類,其占比分別為37.5%、45.7%和16.8%。聚類完成后的駕駛員駕駛行為特征參數(shù)統(tǒng)計(jì)如圖5所示,不同類型駕駛員的駕駛行為特征均值在不同的交通運(yùn)行條件下顯著不同。在相同的道路類型和平均速度條件下,駕駛員類型越激進(jìn),其平均的速度變異系數(shù)、加速度標(biāo)準(zhǔn)差和減速度均值均更大。這些參數(shù)均表明,駕駛行為激進(jìn)性與其聚類標(biāo)簽具有一致性。
圖5 不同類型駕駛員特征參數(shù)的對(duì)比Fig.5 Comparison of driving-behavior parameter means of different types of drivers
為進(jìn)一步分析改進(jìn)方法的聚類結(jié)果,將前文案例結(jié)果與原方法所獲得的駕駛員聚類結(jié)果進(jìn)行對(duì)比。此處將原聚類方法定義為不考慮交通運(yùn)行條件影響而直接計(jì)算駕駛行為參數(shù)進(jìn)行駕駛員聚類的方法。也就是說兩種聚類方法除了是否考慮交通運(yùn)行條件影響計(jì)算輸入?yún)?shù)外,樣本數(shù)據(jù)、特征指標(biāo)與高斯混合聚類模型均保持一致。
兩種方法聚類得到的駕駛員類型比例如表2所示??梢钥吹?,只有52.7%的駕駛員被兩種方法歸為同一類型,而47.3%的駕駛員被歸為不同類型。是否考慮交通運(yùn)行條件會(huì)顯著影響駕駛員聚類結(jié)果。在考慮交通運(yùn)行條件影響后,保守型駕駛員的比例從9.5%變?yōu)?7.5%,而約一半(7.0%/15.9%)原來歸類為激進(jìn)型的駕駛員被重新歸類為普通型,更有約一半(7.9%/16.8%)在改進(jìn)方法中歸類為激進(jìn)型的駕駛員在一般方法中被歸類為普通型。這些現(xiàn)象表明,是否考慮交通運(yùn)行條件(道路類型和平均速度)的影響會(huì)對(duì)駕駛員聚類結(jié)果產(chǎn)生顯著影響。
表2 兩種方法的駕駛員聚類結(jié)果對(duì)比Table 2 Comparison of results of different driver clustering methods (%)
由于本文進(jìn)行的駕駛員特征聚類是一種無監(jiān)督聚類,駕駛員在聚類前沒有確定的駕駛員類型標(biāo)簽,因此難以直接驗(yàn)證改進(jìn)聚類模型的準(zhǔn)確性。作為補(bǔ)充,本文選取Davies Bouldin Index(DBI)和Calinski-Harabaz Index(CHI)兩個(gè)指標(biāo)進(jìn)一步分析兩種方法的聚類效果。DBI表示分類適確性,為任意兩類別的類內(nèi)樣本到類中心平均距離之和與兩類中心點(diǎn)間的距離比。類內(nèi)距離越小,類間距離越大,DBI 指數(shù)會(huì)越小。CHI 則定義為組間離散度與組內(nèi)離散度的比值,CHI 越大表明聚類效果越好。計(jì)算公式分別為
式中:K為聚類的類別數(shù);gi為第i個(gè)類別的中心,為類別i中所有點(diǎn)到中心的平均距離;SB為組間分離度;SW為組內(nèi)緊密度;nk為第k個(gè)類別中的樣本數(shù);ck為第k個(gè)類別的中心;c為樣本集合的中心;Ck為第k個(gè)類別的樣本集;ci為Ck中的第i樣本。
由上述兩種方法得到的聚類結(jié)果計(jì)算得到評(píng)價(jià)指標(biāo),對(duì)比結(jié)果如表3所示。改進(jìn)聚類方法的兩個(gè)指標(biāo)都優(yōu)于原方法的聚類結(jié)果,改進(jìn)方法的駕駛員聚類結(jié)果在類內(nèi)聚合和類間分離方面都有較好的表現(xiàn)。
表3 兩種方法的駕駛員聚類結(jié)果評(píng)價(jià)Table 3 Evaluation on results of different driver clustering methods
本文基于車輛運(yùn)行軌跡數(shù)據(jù)分析了交通運(yùn)行條件對(duì)駕駛行為的不確定性影響,并提出一種改進(jìn)的駕駛員聚類方法,以適應(yīng)不同交通條件下駕駛行為的變化特性。主要結(jié)論如下:
(1)軌跡分析表明不同交通運(yùn)行條件下的駕駛行為可變性是顯著的,在較高的平均速度區(qū)間和高等級(jí)道路上駕駛行為表現(xiàn)更穩(wěn)定。駕駛員特征聚類需要考慮降低交通運(yùn)行條件變化對(duì)聚類結(jié)果可靠性的不利影響。
(2)為提高聚類模型的適用性和可靠性,提出一種改進(jìn)的駕駛員聚類方法。通過建立考慮道路類型和平均速度條件的車輛運(yùn)行軌跡切片和分類方法,提高了駕駛行為特征參數(shù)可靠性與可對(duì)比性。并通過高斯混合模型建立駕駛員特征的無監(jiān)督聚類模型。
(3)聚類案例分析表明,改進(jìn)模型在類內(nèi)聚集和類間分離方面表現(xiàn)更好。就每種駕駛員類型而言,改進(jìn)模型與原始模型的聚類結(jié)果存在顯著差異,表明忽略交通運(yùn)行條件會(huì)產(chǎn)生不可靠的駕駛員聚類結(jié)果。