李 根,孫 璐*,2
(1.東南大學交通學院,南京210096;2.美國天主教大學土木工程系,華盛頓20064,美國)
近年來,很多研究[1-4]都認為交織區(qū)匯入行為是引發(fā)瓶頸路段擁堵的原因之一,交織區(qū)頻繁的不合理匯入行為會引發(fā)交通擁堵乃至主線交通流的失效.因此,對于高速公路交織區(qū)匝道車輛的匯入行為進行準確地建模顯得非常重要.匯入位置是高速公路匝道匯入行為中最重要的行為之一.準確地建立匯入位置模型、預測匝道車輛的匯入位置,對于提高微觀交通仿真模型的準確性、評價匝道的服務(wù)水平、設(shè)計匝道的長度及交通管理措施的提出都有著十分重要的意義.
通過錄像采集數(shù)據(jù),Polus等[5]分析了4條加速車道匯入位置的特點.Ahammed等[6]通過對加拿大的多條加速車道的錄像分析,建立匯入位置與加速車道長度、交通量之間的關(guān)系.然而這些模型都是基于宏觀歷史數(shù)據(jù)對匯入位置的均值進行估計的模型,并沒有考慮具體的交通流狀態(tài)對匯入位置的影響,也不能用于個體車輛匯入位置的預測.
Chu等[7]假設(shè)車輛的匯入位置服從正態(tài)分布,分析了交通狀態(tài),加速車道長度等對于匯入位置的均值和方差的影響,建立了位置的均值與方差和解釋變量之間的線性模型.Weng等[8]假設(shè)匯入位置服從對數(shù)正態(tài)分布,建立了匯入位置與交通流密度、速度之間的模型.這類模型能夠較好地體現(xiàn)匯入位置的隨機性,但是也只能體現(xiàn)匯入位置的均值和方差與影響因素之間的線性關(guān)系,而駕駛行為是一個非常復雜的非線性過程,線性模型不能準確地反映影響因素對匯入位置的實際影響.
為了克服以上缺點,本文提出運用梯度提升決策樹(GBDT)的方法對高速公路交織區(qū)車輛匯入位置進行建模并對模型進行訓練和測試,試圖通過數(shù)據(jù)挖掘的方法來深度挖掘車輛匯入位置與解釋變量之間的隱性關(guān)系.本文還分析了車輛進入匝道時的初始橫向位置對匯入位置的影響,證明了匯入行為是一個包括橫向行為和縱向行為的二維行為.最終,本文將GBDT模型和Lognoraml模型進行了對比,并分析了各變量的重要性及對于匯入位置的影響.
Freiman[9]在1999年提出梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法.GBDT的基礎(chǔ)是對決策樹中的回歸樹的迭代優(yōu)化.基于梯度提升(Gradient Boosting)迭代的思想,GBDT在每次迭代時通過最小化其損失函數(shù),在減少殘差的梯度方向新建立1棵弱決策樹,最后將所有樹的結(jié)論累加起來得到最終預測結(jié)果[10].
我們將駕駛員的匯入位置用y表示,影響駕駛員匯入位置的變量用x表示,N表示用于訓練的樣本數(shù).GBDT建模過程如下.
(1)初始化學習器.
式中:γ為估計使損失函數(shù)極小化的常數(shù)值,它是只有1個根節(jié)點的樹;L(yi,γ)為損失函數(shù).
在GBDT模型中,對于回歸問題采用的損失函數(shù)為均方誤差損失函數(shù)(Square Error Loss).
(2)對于迭代輪數(shù)m=1,2,…,M,計算此時的負梯度為
根據(jù)所有的樣本及其負梯度方向(xi,rmi),i=1,2,…,N,得到1棵由J個葉子節(jié)點組成的決策樹,其對應的葉子節(jié)點區(qū)域為Rmj,j=1,2,…,J,各個葉子節(jié)點的最佳殘差擬合值為
本輪得到的學習器為
其中
(3)經(jīng)過M輪迭代,得到最終的決策模型為
根據(jù)變量在迭代過程中被選為回歸樹的分裂變量的次數(shù),以及其在分裂過程中對于模型精度的提高,可以得到每個變量的重要程度[10]為
本文采用美國聯(lián)邦公路局的NGSIM研究項目中所得到的車輛軌跡數(shù)據(jù).我們選取其中的高速公路US101路段上采集的車輛軌跡數(shù)據(jù),該路段全長640 m,包含了5條普通車道、1條進口匝道、1條出口匝道及2條匝道之間的集散車道,如圖1所示.NGSIM提供的軌跡數(shù)據(jù)包括車輛的位置、速度、加速度、車型、車頭時距等,時間精度為0.1 s/幀[11].該項目的數(shù)據(jù)是目前最為全面準確的高精度車輛軌跡大數(shù)據(jù),被很多國家的很多研究人員用來進行微觀交通流、宏觀交通流、交通行為預測、交通仿真等方面的研究.
圖1 US101線形與采集路段Fig.1 U.S.Highway 101 study corridor from NGSIM
本文研究的是高速公路交織區(qū)匝道車輛匯入位置,具體而言,就是車輛由輔助車道開始匯入主線時相對輔助車道起始位置(即匝道與主路標線交界處)的縱向距離,如圖2所示.由于部分處于錄像開始階段和結(jié)束階段的數(shù)據(jù)不能提供完整交通流狀態(tài),因此我們對數(shù)據(jù)進行了全面的檢查和篩選,最終一共得到了366組數(shù)據(jù)
車輛匯入位置的分布及其基本統(tǒng)計量分別如圖3和表1所示.可以看出,車輛匯入位置分布的最大峰值在35 m左右,呈現(xiàn)出非常明顯的拖尾及多峰特性,匯入位置的均值為92.44 m,中位數(shù)為60.98 m,標準差為72.54 m,采用單一的分布模型難以描述其特性.
圖2 匯入位置的定義Fig.2 Definition of merging position
圖3 匯入位置的分布圖Fig.3 Distribution of merging location
根據(jù)以往研究[5-8]的結(jié)果,影響車輛匯入位置的因素主要有主線相鄰車道的交通流密度K、輔助車道交通流密度Km、匯入車輛在進入輔助車道時的初始速度V,以及匯入車輛與主線車流和輔助車道車流的速度差DV、DVm.然而匯入行為是典型的強制換道行為,而換道行為主要體現(xiàn)的是車輛在道路橫向的行為,因此我們猜想匝道車輛的匯入位置與車輛進入輔助車道時的初始橫向位置X也可能有一定的關(guān)系,因此本文將初始橫向位置X也作為影響因素引入模型中.
表1 匯入位置分布的統(tǒng)計量Table 1 Basic statics of the distribution of merging location
匯入位置與各變量之間的散點關(guān)系如圖4所示.匯入位置與選取的各變量之間的相關(guān)系數(shù)及其P值如表2所示.與我們猜想的一樣,匝道車輛進入輔助車道時的初始橫向位置X與匯入位置之間有較強的相關(guān)性.而輔助車道的車流密度與匯入位置之間的相關(guān)性則接近于0,其他參數(shù)與匯入位置之間也存在顯著的相關(guān)性.
GBDT模型的表現(xiàn)由決策樹數(shù)量M,單棵決策樹葉子數(shù)J及學習效率R這3個參數(shù)決定.本文采用美國Salford公司開發(fā)的數(shù)據(jù)挖掘軟件Salford Systems建立GBDT模型.根據(jù)以往的研究[9-10]經(jīng)驗并結(jié)合本文模型的樣本數(shù)量,我們將J和R分別設(shè)定為6和0.01.Salford Systems軟件可以根據(jù)目標函數(shù)自動確定決策樹數(shù)量M,最終得到其最佳的決策樹數(shù)量M為289.
本文還利用相同的數(shù)據(jù)建立了Lognormal模型并進行衛(wèi)隊,根據(jù)對變量系數(shù)的檢驗及其P值,K、Km及DVm這3個變量沒有進入模型,得到的具體的模型為
式中:ε~N(0,0.56)為正態(tài)分布.
表3給出了2種模型的AIC,BIC和R2,可以看出,本文模型在3種精度指標上都有較大幅度的提高,說明本文提出的GBDT方法對于建立匯入位置模型是較為合適的.
圖4 匯入位置與各變量之間的散點關(guān)系圖Fig.4 Relations between merging location and exploratory variables
表2 匯入位置與各變量之間的相關(guān)性系數(shù)Table 2 Correlation coefficients between merging location and exploratory variables
表3 GBDT與Lognormal模型對比Table 3 Comparison between GBDT model and Lognormal Model
GBDT模型通過變量在迭代過程中被選為回歸樹的分裂變量次數(shù),以及其在分裂過程中對于模型精度的提高來確定變量在模型中相對重要性,其重要性變量通過式(7)來計算,Salford System軟件根據(jù)最后得到的決策樹,給出了相對重要性,如圖5所示.可以看出,影響匝道車輛匯入位置的最重要的變量是X,這與我們在前面的相關(guān)性分析是一致的.我們猜想,很多匝道車輛駕駛員在進入輔助車道之前已經(jīng)通過對主線交通狀態(tài)的觀察確定匯入的策略,如果主線交通流狀態(tài)較好或者駕駛員希望早匯入主線,駕駛員就通過調(diào)整車輛在車道的初始橫向位置,貼近主線車道并擇機匯入,因此當橫向距離較小時,初始橫向位置與匯入距離之間呈現(xiàn)較強的正相關(guān)性;如果主線交通流狀態(tài)比較擁堵或者駕駛員希望晚點匯入主線車道,駕駛員可能通過調(diào)整車輛的初始橫向位置,相對遠離主線車道,并通過增加橫向距離來提高對相鄰車道的觀察距離,因此,此時初始橫向位置與匯入位置之間仍然呈現(xiàn)正相關(guān)性.
圖6是解釋變量對匯入位置的偏效應.可以看出每個變量對匯入位置的影響都有著較強的非線性關(guān)系.對于初始橫向位置X,當X在[1,3]m的時候,匯入位置隨著橫向距離的增加而變遠,呈現(xiàn)出較強的相關(guān)性.對于與主線車流速度差DV,當DV在[-1,8]m/s的時候,大致呈現(xiàn)匯入位置隨著速度差的增加而變遠的趨勢;但在[4,6]m/s有所波動,說明GBDT模型能夠深度挖掘匯入位置與變量之間的隱性關(guān)系.對于初始速度V,當V在[14.5,16.5]m/s的時候,匯入位置隨著速度的增加而迅速變遠,呈現(xiàn)出較強的相關(guān)性.
DVm、K和Km均沒有進入Lognormal模型,然而在本文提出的GBDT模型,盡管其相對重要性較低,但是仍然對匯入位置有一定的影響,GBDT模型能夠挖掘并發(fā)現(xiàn)其中的影響關(guān)系.從圖6可以看出,DVm與匯入位置有非常明顯的非線性關(guān)系,在速度差[-3,0]m/s上,匯入位置隨著速度差絕對值的減少而變遠;在[0,2.5]m/s上,匯入位置隨著速度差的增加而由遠變近;在[2.5,4]m/s上,匯入位置又隨著速度差的增加而變遠.對于主線交通流密度,當密度在[0,50]veh/km/l的時候,對于匯入位置幾乎沒有影響;然而在[50,70]veh/km/l,匯入位置隨著主線交通流密度的增加而增加,說明當主線交通流密度較低的時候,車輛的匯入位置主要與駕駛員的個人駕駛行為有關(guān),而當主線交通流密度較高時,交通流狀態(tài)處于不穩(wěn)定流或擁堵狀態(tài),由于駕駛員難以找到可以匯入的間隙而導致匯入位置變遠.輔助車道交通流密度對于匯入位置的影響最小,只有當密度在[10,20]veh/km/l的時候,對于匯入位置有一定的影響.
圖5 變量相對重要性Fig.5 Relative importance of variables
圖6 各變量對預測結(jié)果的偏效應Fig.6 Partial effects of variables
本文提取NGSIM數(shù)據(jù)庫中高速公路US101的匯入車輛軌跡數(shù)據(jù),建立了基于GBDT的高速公路交織區(qū)的匝道車輛匯入位置模型.匯入行為是一個典型的強制換道行為,是車輛在道路橫向和縱向2個方向上的駕駛行為,因此我們分析了匝道車輛在進入輔助車道時的初始橫向位置與匯入位置之間的關(guān)系.通過與Lognormal模型的對比,本文提出的GBDT模型大幅度提高了AIC,BIC和R2這3個指標.
所有采用的解釋變量中,初始橫向位置對于匯入位置模型的重要性最高,這說明匯入行為是一個在橫向與縱向2個方向上的二維駕駛行為,兩者之間有著重要的聯(lián)系.本文還對解釋變量的偏效應進行了分析,表明解釋變量與匯入位置之間呈現(xiàn)較強的非線性關(guān)系,說明本文提出的GBDT模型不僅能夠提供更準確的匯入距離預測值,還能夠深度挖掘匯入位置與變量之間隱藏關(guān)系,能夠提高微觀交通仿真的準確性.
在后續(xù)研究中,將采集更多不同地點的數(shù)據(jù)對模型進行比較和驗證,并進一步挖掘與分析引發(fā)各變量變化的原因,同時考慮將駕駛員的個體差異性加入到模型中,使模型的精度進一步的提高.
[1]HOU Y,EDARA P,SUN C.Modeling mandatory lane changing using bayes classifier and decision trees[J].IEEE Transactions on Intelligent Transportation Systems,2014,15(2):647-655.
[2]CASSIDY M J,BERTINI R L.Some traffic features at freeway bottlenecks[J].Transportation Research Part B:Methodological,1999,33(1):25-42.
[3]SARVI M,KUWAHARA M.Microsimulation of freeway ramp merging processes under congested traffic conditions[J]. IEEE Transactions on Intelligent Transportation Systems,2007,8(3):470-479.
[4]PATIRE A D,CASSIDY M J.Lane changing patterns of bane and benefit:Observations of an uphill expressway[J].Transportation Research Part B,2012,15(4):656-666.
[5]POLUS A, LIVNEH M. Comments on flow characteristics on acceleration lanes[J].Transportation Research Part A:General,1987,21(1):39-46.
[6]AHAMMED M A,HASSAN Y,SAYED T A.Modeling driver behavior and safety on freeway merging areas[J].Journal of Transportation Engineering,2008,134(9):370-377.
[7]CHU T D,MIWA T,MORIKAWA T.An analysis of merging maneuversaturban expressway merging sections[J].Procedia-Social and Behavioral Sciences,2014(138):105-115.
[8]WENG J,MENG Q.Modeling speed-flow relationship and merging behavior in work zone merging areas[J].Transportation Research Part C: Emerging Technologies,2011,19(6):985-996.
[9]FRIEDMAN JH.Stochasticgradientboosting[M].Elsevier Science Publishers B.V.,2002.
[10]FRIEDMAN J H,MEULMAN J J.Multiple additive regression trees with application in epidemiology[J].Statistics in Medicine,2003,22(9):1365-1381.
[11]ALEXIADIS V,COLYAR J,HALKIAS J,et al.The next generation simulation program[J].Ite Journal,2004,74(8):22-26.