鄧天民,朱 杰,朱凱家,屈治華
(1.重慶交通大學 交通運輸學院,重慶 400074;2.云南省交通投資建設集團有限公司,云南 昆明 650100;3.重慶科技學院 智能技術與工程學院,重慶 401331)
營運客車作為社會運輸服務的主體,在道路運輸系統(tǒng)中扮演著重要角色,通過辨識營運客車駕駛員群體的駕駛風格,針對性開展駕駛安全訓練,可有效提高營運客車行車的安全性[1]。
駕駛風格是表征駕駛員駕駛習慣的整體性評價指標。文獻[2]表明:駕駛員的駕駛風格激進程度越高,在駕駛過程中越容易出現(xiàn)急變速、頻繁換道、超速行駛等不良駕駛行為,其事故發(fā)生率也增高。如何度量駕駛風格是對駕駛員進行風格分類的關鍵。根據(jù)數(shù)據(jù)來源不同,大致可分為基于問卷量表的駕駛風格主觀度量方法和基于駕駛行為特征的駕駛風格客觀度量方法。
基于問卷量表的駕駛風格度量方法是通過讓駕駛員填寫問卷并統(tǒng)計得分,評定其駕駛風格[3-5]。該方法由于問卷填寫主觀性較高、缺少客觀數(shù)據(jù)支撐、調查數(shù)據(jù)量有限等原因,難以得到高精度的駕駛風格調查結果。相較于問卷調查,從駕駛數(shù)據(jù)中提取駕駛行為特征參數(shù)可客觀評價駕駛風格,通過實車實驗[6-10]、模擬駕駛[11-14]等方法可從車速控制、跟馳車距、換道控制、轉向控制等維度采集駕駛數(shù)據(jù),主要利用聚類實現(xiàn)駕駛風格辨識。
總體而言,現(xiàn)有研究存在下列不足:① 駕駛風格辨識工作需大量駕駛行為數(shù)據(jù)做支撐,但通過實車實驗或駕駛模擬器獲取的數(shù)據(jù)存在時間跨度短、駕駛場景少、樣本規(guī)模偏小等問題,無法準確反映駕駛員的駕駛習慣;② 在實車實驗或模擬駕駛實驗中,被試駕駛員已知自己處于實驗過程,可能會有意識地回避一些危險駕駛行為,導致數(shù)據(jù)失真。為此,筆者基于多位營運車輛駕駛員的長期駕駛數(shù)據(jù),結合iForest算法和Bisecting K-means聚類實現(xiàn)駕駛風格辨識。
筆者聚焦營運客車駕駛員駕駛風格識別,屬于分類問題,且所研究的駕駛員風格是未知的,故選擇了無監(jiān)督學習中的聚類方法對駕駛風格進行聚類識別。在眾多聚類方法中,Bisecting K-means算法是一種實現(xiàn)簡單、運用廣泛的經(jīng)典劃分算法,具有較高的伸縮性和時效性。
由于駕駛行為是駕駛員狀態(tài)、路況、天氣等多種因素耦合作用結果,同一駕駛員在相同時空場景中采取的駕駛行為不可能一成不變,在某些特殊場景下可能會產(chǎn)生異于常態(tài)駕駛數(shù)據(jù)的離群點,影響最終聚類效果。
綜上,筆者從優(yōu)化聚類中心選擇角度出發(fā)提高Bisecting K-means駕駛風格聚類質量。在進行駕駛風格聚類過程中,每次迭代都構建iForest模型判定數(shù)據(jù)離群程度并產(chǎn)生聚類中心候選集,優(yōu)化初始聚類中心選取,并完成駕駛風格辨識。
筆者利用iForest算法判斷識別樣本離群程度,選擇低離群度數(shù)據(jù)生成聚類中心候選集。iForest算法[15,16]將數(shù)量少、遠離大部分集群點且密度低的數(shù)據(jù)認為是離群點,符合文中對駕駛風格離群數(shù)據(jù)的定義。與傳統(tǒng)離群點檢測方法不同,iForest算法通過切分數(shù)據(jù)空間來識別離群點,無需對正常點建模。
定義1(孤立樹iTree):iTree具有二叉搜索樹結構,其存在兩種節(jié)點:外部節(jié)點(無子節(jié)點)與內部節(jié)點(具有2個子節(jié)點,即左子節(jié)點和右子節(jié)點)。
定義2〔路徑長度h(x)〕:數(shù)據(jù)x從根節(jié)點遍歷iTree直到遇到外部節(jié)點結束時經(jīng)過的邊數(shù)定義為路徑長度h(x)。
1.1.1 iForest模型構建
iForest算法對隨機抽取駕駛數(shù)據(jù)進行子采樣,通過隨機選取特征屬性值對子樣本集進行劃分,直到iTree節(jié)點中只存在一個數(shù)據(jù)或一組相同數(shù)據(jù),則構建完成一棵iTree。每訓練一棵iTree即產(chǎn)生一組數(shù)據(jù)劃分規(guī)則,若干組數(shù)據(jù)劃分規(guī)則組成iForest模型。其訓練過程如圖1。
圖1 iTree訓練過程Fig.1 The training process of iTree
1.1.2 離群程度計算
由于iForest算法的隨機劃分策略,離群程度越高數(shù)據(jù)點,其路徑長度通常越短,故統(tǒng)計各數(shù)據(jù)點的路徑長度,以此計算孤立值來判定該點離群程度。將駕駛數(shù)據(jù)遍歷iForest模型,計算孤立值,如式(1):
(1)
式中:x為數(shù)據(jù)點;r為iTree中的數(shù)據(jù)量;z為構成iForest模型的iTree數(shù)目;E(h(x))為數(shù)據(jù)點x在iForest模型中的平均路徑長度;c(r)用于標準化E(h(x));表示r個數(shù)據(jù)點建立的二叉搜索樹平均路徑長度,其中τ為歐拉常數(shù),τ=0.5 772 156 649;s(x,r)為數(shù)據(jù)點x的孤立值。
由式(1)可知:
1)當s(x,r)趨近1時,數(shù)據(jù)離群程度較高,則該數(shù)據(jù)點為離群點的可能性極高;
2)當s(x,r)趨近0時,數(shù)據(jù)離群程度較低,該數(shù)據(jù)點很可能是正常點。
基于上述分析,數(shù)據(jù)點孤立值越大,越有可能是離群點,將孤立值按升序排序,選擇排序后的孤立值序列第1個拐點值作為離群點與正常點的臨界值,若數(shù)據(jù)點孤立值小于該臨界值,則將該點加入聚類中心候選集。
基于1.1節(jié),筆者采用Bisecting K-means算法進行駕駛風格聚類,其算法流程如下:
1)輸入:駕駛風格特征數(shù)據(jù)集為D,簇的數(shù)目為K,iTree數(shù)目為z,iTree子采樣量為r;
2)輸出:K個簇;
Step 1:將數(shù)據(jù)集D歸為一個簇w0,加入簇集W。
Step 2:計算簇集W中各簇誤差平方和SSE,如式(2):
(2)
式中:wi為第i個簇;mi為簇wi的聚類中心;dist(x,mi)為數(shù)據(jù)點x到聚類中心mi的歐式距離。
選取誤差平方和最大的簇wmax進行二分。
Step 3:從簇wmax中隨機抽取r個數(shù)據(jù)組成子樣本,用于訓練iTree。重復訓練z棵iTree組成的iForest模型。
Step 4:基于Step3構建的iForest模型計算簇wmax中各數(shù)據(jù)點xi的孤立值s(xi),對于升序排序的孤立值序列的首個拐點值s0,若s(xi) Step 5:從聚類中心候選集M中任選2個點作為初始聚類中心,并以歐式距離作為度量值,基于最小距離原則分配簇wmax的樣本點,產(chǎn)生2個簇wa和wb。 Step 6:分別計算wa和wb的平均值點以更新聚類中心,重新劃分樣本點。直到兩個簇的聚類中心不再變化,將這兩個簇加入簇集W。 Step 7:重復Step 3至Step 6,直到簇集W中包含K個簇,算法停止。 當前針對駕駛風格辨識的研究大都以車速波動程度、加減速幅度來表征駕駛激進程度,但在實際駕駛過程中,由于道路線形變化導致的進彎減速與出彎加速屬于駕駛員正常操作行為,由此產(chǎn)生的車速波動與直道行駛過程中的車速波動對辨識駕駛風格不具有等效性;同時考慮到相鄰彎道之間的夾直線距離較短,導致短直道上駕駛員操縱行為受制于兩端彎道,無法準確反映駕駛風格。為此,筆者只針對長直道工況下的駕駛行為進行研究。 實驗數(shù)據(jù)為重慶市某客運線路30位營運客車駕駛員在2019年4月1日至2019年6月30日共91 d的駕駛數(shù)據(jù),數(shù)據(jù)包括車輛標識、采集時間、經(jīng)度、緯度、車速、衛(wèi)星信號標識、道路限速值等內容,數(shù)據(jù)采集時間間隔為5 s。利用高清衛(wèi)星圖結合AutoCAD擬合來獲取道路線形參數(shù),根據(jù)經(jīng)緯度提取長直道路段駕駛數(shù)據(jù),共獲取約400萬條原始數(shù)據(jù)記錄,以此進行駕駛風格辨識。 需要特別指出的是:受地形及道路設計規(guī)范限制,道路中絕對直線路段里程較少,故文中選取的長直道路段包括了直線路段和大半徑平曲線路段(半徑超過350 m)。選取道路為重慶市某雙車道縣級公路,交通量較少,其線形如圖2,各路段單元長度及限速值見表1。 圖2 道路線形Fig.2 Road alignment 表1 路段單元長度及限速值Table 1 Section unit length and speed limit 2.3.1 類簇數(shù)目標定 在進行駕駛風格識別之前需確定所要劃分的類簇數(shù)目K。筆者將兩種工況的駕駛風格辨識參數(shù)集分別聚為2~4類,選擇DBI(davies-bouldin index)系數(shù)作為聚類效果評價指標,以聚類效果最優(yōu)的K值作為駕駛風格識別算法輸入?yún)?shù),如式(3)。 (3) 式中:K為簇的數(shù)目;Sa、Sb分別表示簇a、b的數(shù)據(jù)與聚類中心ma、mb的標準差;dist(ma,mb)表示簇a、b聚類中心的歐氏距離。 由式(3)可知:分子越小說明簇內數(shù)據(jù)相似度越大,分母越大說明簇間相似度越小,因此DBI系數(shù)越小,表示聚類結果越優(yōu)。 不同K值的DBI系數(shù)見表2。當K=3時,DBI系數(shù)均達到最優(yōu),因此確定類簇數(shù)目K=3。 表2 聚類效果評價Table 2 Evaluation of clustering effect 2.3.2 iForest參數(shù)標定 iForest算法需要標定2個參數(shù):iTree數(shù)目z,每棵iTree子采樣量r。由文獻[15-16]可知:每棵iTree樣本集只需包含少量數(shù)據(jù)就能使iForest算法的識別結果準確且有效,樣本集數(shù)據(jù)量較多反而會因數(shù)據(jù)點相互重疊干擾孤立過程,降低算法檢測離群點能力。對于iForest模型構建,若iTree數(shù)量太少,導致數(shù)據(jù)采樣稀疏而將正常點識別為離群點,影響最終聚類結果;若iTree數(shù)目太多,則會額外增加算法時間。 綜上,筆者設置iTree子采樣量r=256;基于此,測試iTree數(shù)目取值為50~500(以50為步長)時,孤立值序列升序排序后的首個拐點值,結果如圖3;當iTree數(shù)量達到300時結果趨向穩(wěn)定,因此設置iTree數(shù)目z=300。 圖3 孤立值序列升序排序的首個拐點值收斂情況Fig.3 The convergence of the value of the first inflection point of ascending sequence of isolated values 對長直道工況下的駕駛數(shù)據(jù)進行預處理后,提取駕駛風格辨識參數(shù)并進行歸一化,利用文中所提出的駕駛風格識別方法進行聚類,聚類結果如圖4。 圖4 駕駛風格聚類結果Fig.4 Clustering results of driving style 根據(jù)圖4,SC1(圓形簇)呈現(xiàn)出加速度標準差、超速傾向系數(shù)偏低的特點,說明車速較低,且車輛處于相對穩(wěn)定的行駛狀態(tài);SC2(矩形簇)各維度指標較SC1在數(shù)值上有所增高,但又低于SC3(三角形簇),表現(xiàn)出“適中”特性;SC3的超速傾向系數(shù)偏高,大部分超過0.6,表現(xiàn)出較高的行車速度和超速傾向,同時其加速度標準差也較大,反映駕駛員在行車過程中頻繁踩踏加速踏板和制動踏板。從SC1到SC3,駕駛風格特征參數(shù)均值呈上升趨勢,代表駕駛風格激進程度都在增加。故筆者定義駕駛員駕駛風格標簽為:謹慎型、普通型、激進型。由此統(tǒng)計了30位駕駛員駕駛數(shù)據(jù)在各簇中分布情況,并完成駕駛風格辨識,其結果見表3。 表3 駕駛數(shù)據(jù)分布情況及駕駛風格辨識結果Table 3 Driving data distribution and driving style recognition results 由表3可知:簇SC3的數(shù)據(jù)量偏少,除了編號為12、13、16、18、24的駕駛員以外,其余駕駛員都具有明顯的謹慎型或普通型駕駛風格特征。其次:12、13、16、18、24號駕駛員駕駛數(shù)據(jù)較平均的分布于簇SC1、SC2,反映出謹慎型駕駛風格和普通型駕駛風格的數(shù)據(jù)量相差不大,從數(shù)據(jù)分布上無法進行駕駛風格辨識。 通過計算這5位駕駛員數(shù)據(jù)分布中心到簇SC1、SC2聚類中心的距離,按照距離最小原則進行駕駛風格歸類,計算結果見表4。12、18、24號駕駛員的數(shù)據(jù)分布中心更接近簇SC2聚類中心,13、16號駕駛員的數(shù)據(jù)分布中心則更接近簇SC1聚類中心,因此認為12、18、24號駕駛員駕駛風格為普通型,13、16號駕駛員屬謹慎型駕駛風格。 表4 5位駕駛員數(shù)據(jù)分布中心到各簇聚類中心距離Table 4 Distance between data distribution center of 5 drivers and cluster center of each cluster 上述5位駕駛員分屬簇SC1、SC2的數(shù)據(jù)量相差不大的現(xiàn)象,其原因可能是文中基于聚類方法進行駕駛風格分類,根據(jù)數(shù)據(jù)分布特性劃分類簇而非依賴某一絕對閾值,這就導致相鄰邊界不同類簇數(shù)據(jù)間的差異性較小,而上述5位駕駛員數(shù)據(jù)分布中心位于簇SC1、SC2的分界線附近,對類簇從屬并沒有表現(xiàn)出明顯偏向,從而造成這些駕駛員屬于簇SC1、SC2的數(shù)據(jù)量相差不大。 對全部30位營運客車駕駛員的駕駛風格進行辨識,其中謹慎型11人,普通型19人,激進型0人。該結論符合營運客車駕駛員駕駛技能熟練、安全意識強的事實。 筆者提出一種基于初始聚類中心優(yōu)選的Bisecting K-means駕駛風格聚類算法,同時為解決傳統(tǒng)的量表調查和駕駛實驗方法難以獲取多種行車環(huán)境下駕駛數(shù)據(jù)問題,利用長時期營運客車行駛數(shù)據(jù)進行聚類,實現(xiàn)了營運客車駕駛員駕駛風格辨識,該方法同樣適用于其他駕駛員群體。 筆者僅針對長直道路段駕駛數(shù)據(jù)進行研究,但實際上不同駕駛員在彎道、坡道也會表現(xiàn)出不同的駕駛行為,后續(xù)研究應繼續(xù)關注豎曲線要素與平曲線要素相結合時對駕駛員駕駛行為影響。2 實 驗
2.1 實驗數(shù)據(jù)與路段單元劃分
2.2 聚類指標選取
2.3 駕駛風格辨識算法參數(shù)標定
3 討 論
4 結 語