彭?xiàng)潡潱?凱,陳 峰
(山東理工大學(xué)交通與車(chē)輛工程學(xué)院,山東淄博255091)
隨著城市汽車(chē)保有量的快速增長(zhǎng),我國(guó)交通特別是城市交通發(fā)生了前所未有的變化,給城市道路交通帶來(lái)了巨大壓力.盡管采取了各種方法和措施緩解道路擁擠狀況,但是在目前國(guó)家嚴(yán)格控制土地資源的政策導(dǎo)向下,城市交通擁擠狀況必將持續(xù)下去.為了緩解城市道路交通擁擠的壓力,在城市路網(wǎng)中提供實(shí)時(shí)路況信息顯得尤為重要,而對(duì)交通擁擠水平進(jìn)行分類是實(shí)時(shí)路況信息發(fā)布的基礎(chǔ).我國(guó)同濟(jì)大學(xué)的郝媛等[1]依據(jù)城市快速路交通流實(shí)測(cè)數(shù)據(jù),在對(duì)交通流狀態(tài)進(jìn)行劃分的基礎(chǔ)上,定性和定量地分析了常發(fā)性交通擁擠的特征,進(jìn)而提出了“狀態(tài)跳轉(zhuǎn)”的概念和判別方法,揭示了擁擠形成過(guò)程;北京交通大學(xué)的石征華等[2]提出了與交通流三參數(shù)有關(guān)的擁擠度系數(shù)的概念,并針對(duì)快速路的實(shí)際狀況,運(yùn)用模糊數(shù)學(xué)中的綜合評(píng)價(jià)方法,對(duì)城市快速路擁擠度進(jìn)行判別;Pattara-Atikom W等[3]從CDT(Cell Dwell Time)和道路交通擁擠程度的關(guān)系研究入手,依據(jù)主干線上的CDT測(cè)量數(shù)據(jù)采用單閾值和模糊邏輯方法來(lái)估計(jì)道路交通擁擠程度;Porikli F等[4]提出一個(gè)無(wú)人監(jiān)督、低延遲的交通擁擠估計(jì)算法,該算法直接在壓縮域提取擁擠特征,并采用高斯混合隱馬爾可夫模型(GM-HMM)來(lái)檢測(cè)交通狀況,通過(guò)計(jì)算信度評(píng)分,評(píng)估檢測(cè)結(jié)果的可靠性.
本文通過(guò)構(gòu)建一個(gè)決策樹(shù)學(xué)習(xí)模型以分類道路交通擁擠水平,利用數(shù)據(jù)平滑技術(shù)降低噪聲,使用滑動(dòng)窗口瞬時(shí)抽樣技術(shù)得出車(chē)輛運(yùn)行模式,并結(jié)合駕駛員的感知評(píng)價(jià),驗(yàn)證并校正決策樹(shù)學(xué)習(xí)模型的分類精度,以期最大限度地減少對(duì)數(shù)據(jù)的依賴性.
交通數(shù)據(jù)的采集是做好交通擁擠水平劃分至關(guān)重要的一部分.文中采用了一套全球定位系統(tǒng)(GPS)進(jìn)行道路數(shù)據(jù)采集,采集的數(shù)據(jù)包括時(shí)間、日期、車(chē)輛行駛的速度以及位置坐標(biāo)等信息.此外,我們還使用攝像機(jī)(固定在測(cè)試車(chē)輛的前儀表盤(pán)附近)獲取車(chē)輛行駛過(guò)程中道路的交通狀況.
以往的研究將交通擁擠水平的評(píng)價(jià)指標(biāo)分為:時(shí)間、速度、服務(wù)水平、交通信號(hào)周期等[5],這些指標(biāo)中一些指標(biāo)便于客觀采集,而另一些指標(biāo)卻只能給出主觀評(píng)價(jià).為了消除指標(biāo)的主觀干擾,減少指標(biāo)數(shù)據(jù)維度,提高算法的實(shí)時(shí)性,這里只采用車(chē)輛行駛即時(shí)速度作為交通擁擠水平的主要評(píng)價(jià)指標(biāo).在車(chē)輛行駛中,會(huì)出現(xiàn)車(chē)輛行駛速度與交通擁擠狀況不相匹配的現(xiàn)象,例如在通過(guò)彎道或者交通路口時(shí)車(chē)速會(huì)明顯降低,而此時(shí)的道路通行狀況可能良好.圖1是擁擠水平和即時(shí)速度的分布圖,從圖1中可以觀察到當(dāng)車(chē)速較低(如5km/h)時(shí),交通擁擠水平可能同時(shí)呈現(xiàn)出1=Jam,2=Heavy和3=Light 3種狀態(tài).
圖1 即時(shí)速度和擁擠水平分布示意圖
為此,本文在實(shí)驗(yàn)過(guò)程中,挑選駕齡在5年以上有經(jīng)驗(yàn)的11名測(cè)試者,通過(guò)觀看測(cè)試車(chē)輛行駛過(guò)程中錄制的視頻資料,獲得他們對(duì)道路交通3種狀態(tài)(Light,Heavy和Jam)的感知評(píng)價(jià),應(yīng)用多數(shù)投票的方法將道路擁擠水平按3種狀態(tài)進(jìn)行分類,去除不真實(shí)數(shù)據(jù).通過(guò)駕駛員的感知評(píng)價(jià),可以彌補(bǔ)采集數(shù)據(jù)對(duì)道路交通狀況的不真實(shí)揭示.
在繁忙的道路交通環(huán)境中,采集的車(chē)輛即時(shí)行駛速度數(shù)據(jù)具有波動(dòng)大、且分布不均的特性,影響分類精度.為此,本文采用滑動(dòng)平均法[6]對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,設(shè)MVt為t時(shí)刻的移動(dòng)平均速度,且
在計(jì)算中取ξ=3,得到的結(jié)果如圖2所示.
圖2 車(chē)輛即時(shí)速度與平滑速度(ξ=3)
在城市道路交通中,車(chē)輛的行駛狀態(tài)必然受到交通流量疏密變化的影響,也必然改變著車(chē)輛的移動(dòng)方式.因此,一般意義上講,通過(guò)對(duì)車(chē)輛移動(dòng)模式變化的發(fā)掘和提取,可以揭示道路交通擁擠狀態(tài)變化規(guī)律.為此,通過(guò)對(duì)GPS設(shè)備采集到的車(chē)輛行駛即時(shí)速度的平滑處理和駕駛員投票分類處理,可去除數(shù)據(jù)波動(dòng)對(duì)移動(dòng)模式變化的影響,從而為準(zhǔn)確發(fā)掘和提取車(chē)輛移動(dòng)模式提供條件.
為了揭示車(chē)輛移動(dòng)模式,以車(chē)輛的歷史即時(shí)速度數(shù)據(jù)為基礎(chǔ)考察車(chē)輛行駛速度與對(duì)應(yīng)的道路交通擁擠水平之間的關(guān)系.圖3展示了某一時(shí)間段內(nèi)速度變化與對(duì)應(yīng)路段擁擠水平之間的契合度,縱向坐標(biāo)同時(shí)反映了擁擠水平,其中擁擠水平分別為10=Jam,20=Heavy和30=Light.
從圖3可以看出,當(dāng)車(chē)輛以較高速度行駛時(shí),同時(shí)也表明道路交通狀況為自由流(即圖3的1~4時(shí)間段);當(dāng)車(chē)速降到一個(gè)較低的范圍時(shí),意味著道路交通處在擁擠狀態(tài)(即圖3的5~7時(shí)間段).當(dāng)車(chē)速降到更低的范圍時(shí),意味著道路交通處在堵塞狀態(tài)(即圖3的13~27時(shí)間段).
圖3 車(chē)輛的行駛速度及道路交通擁擠水平
為了從不斷采集的數(shù)據(jù)中發(fā)掘和提取車(chē)輛移動(dòng)模式,本文采用滑動(dòng)窗口技術(shù)[7],即在數(shù)據(jù)流上設(shè)定一個(gè)窗口,在每一個(gè)窗口S0,S1,…,Sδ-1內(nèi)瞬時(shí)抽取車(chē)輛速度數(shù)據(jù),δ(δ>0)稱為窗口長(zhǎng)度.為了提高數(shù)據(jù)處理速度,將參數(shù)值δ設(shè)置為3,這就意味著可以通過(guò)一系列的3個(gè)連續(xù)的行駛速度來(lái)獲取車(chē)輛移動(dòng)模式.
將3個(gè)連續(xù)時(shí)間點(diǎn)移動(dòng)平均速度的表示定義如下:
MVt:t時(shí)刻的移動(dòng)平均速度;
MVt-1:t-1時(shí)刻的移動(dòng)平均速度;
MVt-2:t-2時(shí)刻的移動(dòng)平均速度.
此外,引入一個(gè)新的參數(shù)AMVt來(lái)表示每一個(gè)窗口下車(chē)輛平均速度,以此反映車(chē)輛移動(dòng)模式的變化.參數(shù)AMVt是通過(guò)計(jì)算MVt(ξ=5)來(lái)實(shí)現(xiàn)的.表1給出了t時(shí)刻MVt、AMVt計(jì)算以及移動(dòng)方式提取過(guò)程.AMVt計(jì)算過(guò)程如下:AMVt在時(shí)刻t=17:00:30的值是通過(guò)從時(shí)刻t=17:00:00到t=17:00:30的即時(shí)速度求平均值得到的.最后一列Level表示駕駛員對(duì)于擁擠度水平的主觀評(píng)價(jià).
表1 通過(guò)即時(shí)速度計(jì)算平均速度的樣例
在捕獲車(chē)輛移動(dòng)模式過(guò)程中,由于MVt和AMVt的計(jì)算省略了前3個(gè)數(shù)據(jù),因此,從時(shí)間17:00:00到17:25:30每隔10s記錄的數(shù)據(jù)中共挖掘出154個(gè)車(chē)輛移動(dòng)模式事例,其中60個(gè)表示堵塞(Jam),65個(gè)表示擁擠(Heavy),只有29個(gè)表示自由流(Light).顯然,由于數(shù)據(jù)采集中噪聲的干擾和屬性缺失等因素,數(shù)據(jù)挖掘中表現(xiàn)為“擁擠”的類樣本數(shù)量較多,而表現(xiàn)為“自由流”的數(shù)據(jù)過(guò)少,造成類分布不平衡.Weiss實(shí)驗(yàn)研究表明,以分類精度為準(zhǔn)則的分類學(xué)習(xí)通常會(huì)導(dǎo)致少數(shù)類樣本的識(shí)別率較低,這樣的分類器傾向于把一個(gè)樣本預(yù)測(cè)為多數(shù)類樣本.因此,分類不平衡將會(huì)導(dǎo)致在數(shù)據(jù)分類學(xué)習(xí)中比較差的準(zhǔn)確性[8-9],需要對(duì)數(shù)據(jù)進(jìn)行平衡分布處理.
為此,本文采用基于錯(cuò)分樣本點(diǎn)改進(jìn)過(guò)抽樣法處理不平衡數(shù)據(jù)[10],該方法采用AdaBoost-SVM-OBMS算法來(lái)解決不平衡數(shù)據(jù)集分類中少數(shù)類分類困難的問(wèn)題.該算法在錯(cuò)分樣本點(diǎn)周?chē)凑找欢ㄒ?guī)則產(chǎn)生新的樣本點(diǎn),以錯(cuò)分樣本點(diǎn)指導(dǎo)產(chǎn)生新樣本,在一定程度上避免了目前算法盲目產(chǎn)生新樣本點(diǎn)的缺點(diǎn),使得非平衡過(guò)抽樣更具有針對(duì)性.從本質(zhì)上講,該算法利用后驗(yàn)知識(shí)即錯(cuò)分樣本信息,指導(dǎo)合成新的樣本.?dāng)?shù)據(jù)類平衡處理產(chǎn)生348個(gè)車(chē)輛移動(dòng)模式事例,其中116個(gè)表示堵塞(Jam),122個(gè)表示擁擠(Heavy),只有110個(gè)表示自由流(Light).
將預(yù)處理的數(shù)據(jù)用來(lái)訓(xùn)練和評(píng)估分類模型,為此本文選擇5個(gè)屬性作為訓(xùn)練模型的輸入?yún)?shù).前3個(gè)屬性是MVt、MVt-1、MVt-23個(gè)連續(xù)的平均速度所代表的移動(dòng)模型,第4個(gè)屬性是AMVt,最后一個(gè)屬性是Level.我們選用決策樹(shù)(J48)算法,利用Weka軟件平臺(tái)進(jìn)行數(shù)據(jù)處理,產(chǎn)生決策樹(shù)模型來(lái)對(duì)道路擁擠水平進(jìn)行分類.
此模型的目標(biāo)屬性是評(píng)價(jià)水平Level,采用10重交叉驗(yàn)證,分析時(shí)的參數(shù)采用默認(rèn)設(shè)置,即:缺省置信值confidenceFactor設(shè)定在25%,覆蓋實(shí)例數(shù)量最小值minNumObj的缺省值是2,numFolds是決定用于減少誤差修剪法的數(shù)據(jù)的數(shù)量,其中一枝用于修剪,其余的用于建立決策樹(shù),這里設(shè)置為3.分類模型樹(shù)如圖4所示,生成的決策樹(shù)有47個(gè)節(jié)點(diǎn),其中有24個(gè)葉節(jié)點(diǎn).構(gòu)建這個(gè)模型花費(fèi)0.03s,模型的根節(jié)點(diǎn)AMVt是確定道路交通擁擠水平最重要因素.
圖4 J48生成的決策樹(shù)
本文將市區(qū)主要干線的交通狀況作為數(shù)據(jù)采集對(duì)象,這些路線連接主要商業(yè)區(qū)域,公司企業(yè)及高密度住宅區(qū),車(chē)流量較大,是市區(qū)交通流主要疏導(dǎo)線路.?dāng)?shù)據(jù)的收集選擇在17:00:00~17:25:30的晚高峰進(jìn)行.行車(chē)的速度取決于駕駛員對(duì)周?chē)?chē)輛流量的判斷,同時(shí)車(chē)載攝像機(jī)將實(shí)時(shí)記錄整個(gè)行車(chē)過(guò)程.
根據(jù)決策樹(shù)(J48)算法進(jìn)行數(shù)據(jù)運(yùn)算,得到訓(xùn)練結(jié)果,訓(xùn)練結(jié)果顯示:擁擠水平評(píng)價(jià)的準(zhǔn)確度達(dá)到89.94%,平方差為0.226 9,精確范圍從0.864到0.942.模型分類評(píng)價(jià)分別采用“真陽(yáng)性率”(True Positive Rate,TP Rate)和“假陽(yáng)性率”(False Positive Rate,F(xiàn)P Rate)表示,其變化范圍是0.808~0.950和0.031~0.067.表2為擁擠度分類精度結(jié)果,其中Jam行的真陽(yáng)性率的含義是:實(shí)際為Jam而且被評(píng)價(jià)為Jam的比例,假的性率的含義是實(shí)際不為Jam而被評(píng)價(jià)為Jam的比例,等等.
表2 擁擠度分類精度結(jié)果
從表2中我們可以看到,最高的真陽(yáng)性率是出現(xiàn)在Light等級(jí)的0.95,這就表示當(dāng)?shù)缆窊頂D水平是Light的時(shí)候,分類模型對(duì)道路擁擠水平評(píng)價(jià)的真陽(yáng)性率為95%.最低的真陽(yáng)性率是出現(xiàn)在Heavy等級(jí),可以解釋為當(dāng)?shù)缆窊頂D水平為Heavy時(shí),分類模型對(duì)道路擁擠水平評(píng)價(jià)的真陽(yáng)性率為80.8%的正準(zhǔn)確率.一般而言,在Heavy擁擠等級(jí)中會(huì)出現(xiàn)一些錯(cuò)誤的評(píng)價(jià),因?yàn)镠eavy等級(jí)正好處于Light和Jam的等級(jí)之間.在劃分不是很清楚的時(shí)候,會(huì)把Heavy錯(cuò)誤評(píng)價(jià)為L(zhǎng)ight或Jam.這些錯(cuò)誤的評(píng)價(jià)加入到模型中時(shí),會(huì)被認(rèn)為是噪音并且需要清除掉.
圖5表示的擁擠度水平錯(cuò)誤分類,圖中‘×’號(hào)代表著分類正確的例子,‘□’代表著分類錯(cuò)誤的例子.
圖5 擁擠度水平錯(cuò)誤分類分布圖
本文采用的研究方法對(duì)交通數(shù)據(jù)的依賴性較低,僅利用GPS設(shè)備采集的數(shù)據(jù)就可以滿足數(shù)據(jù)量的要求.訓(xùn)練結(jié)果顯示擁擠水平評(píng)價(jià)的準(zhǔn)確度達(dá)到89.94%,平方差為0.226 9.因此,該方法能夠較準(zhǔn)確地評(píng)價(jià)道路擁擠水平.
[1] 郝媛,徐天東,孫立軍.城市快速路常發(fā)性交通擁擠分析[J] .交通與計(jì)算機(jī),2007,25(2):91-94.
[2] 石征華,侯忠生.城市快速路擁擠度判別方法研究[J] .交通與計(jì)算機(jī),2006,24(5):20-23.
[3] Pattara.a(chǎn)tikom W,Peachavanish R.Estimating road traffic congestion from cell dwell time using neural network[C] //The 7th International Conference on ITS Telecommunications(ITST 2007).Sophia Antipolis:2007:1-6.
[4] Porikli F,Li X.Traffic congestion estimation using hmm models without vehicle tracking[C] //Intelligent Vehicles Symposium.Parma:2004:188-193.
[5] Lomax J T,Tuner S M,Shunk G,et al.National cooperative highway research program report 398:quantifying congestion:final report[R] .Washington D.C.:Transportation research board,1997.
[6] 裴益軒,郭民.滑動(dòng)平均法的基本原理及應(yīng)用[J] .火炮發(fā)射與控制學(xué)報(bào),2001(1):21-23.
[7] 李俊奎,王元珍.可重寫(xiě)循環(huán)滑動(dòng)窗口:面向高效的在線數(shù)據(jù)流處理[J] .計(jì)算機(jī)科學(xué),2007,34(12):51-53.
[8] Drown D J,Khoshgoftaar T M,Narayanan R.Using evolutionary sampling to mine imbalanced data[C] //Proceedings of the 6th International Conference on Machine Learning and Applications(ICMLA 2007).OH:2007:363-368.
[9] 楊明,尹軍梅,吉根林.不平衡數(shù)據(jù)分類方法綜述[J] .南京師范大學(xué)學(xué)報(bào):工程技術(shù)版,2008,8(4):7-12.
[10] 王春玉,蘇宏業(yè),渠瑜,等.一種基于過(guò)抽樣技術(shù)的非平衡數(shù)據(jù)集分類方法[J] .計(jì)算機(jī)工程與應(yīng)用,2011,47(1):139-143.