袁見,劉福強,安琨,鄭喆,馬萬經(jīng)*,俞秋田
(1.同濟大學(xué),道路與交通工程教育部重點實驗室,上海 201804;2.麥吉爾大學(xué),土木工程系,蒙特利爾H3A0C3,加拿大;3.浙江數(shù)智交院科技股份有限公司,杭州 310000)
以往,常規(guī)信控路口的緩堵思路為對排隊較長的相位增加時空資源,而對上游路口應(yīng)如何調(diào)整則缺乏參考依據(jù)。車流溯源能為上下游路口管控方案的聯(lián)合優(yōu)化指引方向,是量化診斷擁堵成因,實現(xiàn)從“緩堵”向“治堵”突破的關(guān)鍵之一。要獲取車輛的完整來源路徑,需要在待溯源路段上游完整布設(shè)可識別車輛身份的攝像頭等傳感設(shè)備[1]。因此,如何利用覆蓋范圍更廣的低滲透率軌跡數(shù)據(jù)進行信息挖掘就成了關(guān)鍵。
全樣本軌跡重構(gòu)是目前最接近于車流溯源的技術(shù)手段,其目的在于基于已有軌跡數(shù)據(jù),估計其他無定位信息車輛的完整軌跡?,F(xiàn)有快速路場景的全樣本軌跡重構(gòu)主要聚焦于主干線的車輛軌跡重構(gòu),很少涉及上下匝道車輛[2],因而難以進行溯源分析。在城市信控場景中,現(xiàn)有軌跡重構(gòu)方法通常先基于抽樣軌跡重構(gòu)交通波幾何特征,再假設(shè)所有車輛服從均勻分布[3],進而推算得到路口或干線的單車道直行車流全樣本軌跡[4-5]。除單車道場景外,唐克雙等[6]融合視頻車牌和線圈流量數(shù)據(jù),提出一種支持多車道場景換道的軌跡重構(gòu)方法。針對上游存在固定檢測器的場景,學(xué)者通過并引入跟馳、換道等多種約束條件,生成并篩選出最合理的軌跡運行狀態(tài)[7]。然而,車流溯源還需要知道直行車輛在支線上的具體駛?cè)肼范闻c駛離路段。上述系列方法雖應(yīng)用了多源數(shù)據(jù),能基于檢測器判斷支線駛?cè)胲囕v數(shù)量、基于車道功能判斷車輛駛離情況,卻不能支撐上下游駛?cè)?、駛離車輛的精準拼接,因而并未具備完整行駛路徑的連續(xù)追蹤能力。
交通波作為一種反映車輛密度變化的特征,已被廣泛應(yīng)用于排隊長度、延誤分析等交通運行狀態(tài)分析中[8]。其中,集結(jié)波反映了車輛排隊隊尾位置隨時間變化的曲線,是需求與交通時空資源供給相互作用后的結(jié)果,一定程度上反映了交通需求特征。然而,鮮有研究探討過交通波用于溯源的可行性,以及基于交通波特征的具體溯源方法。現(xiàn)有研究表明,只需要20%及以上的浮動車滲透率,即可實現(xiàn)對交通波特征的高質(zhì)量估計[9-10]。根據(jù)Sun等[11]的研究結(jié)果,在一個周期內(nèi)即便只有一輛車有代表性軌跡,也能擁有較高的交通波估計精度。因此,只要驗證交通波特征能夠為車流溯源提供正向信息,則基于交通波特征的車流溯源方法就具備現(xiàn)實可行性。
對此,本文結(jié)合集結(jié)波幾何特征和信號配時參數(shù),探索集結(jié)波在車道級車流溯源方面的應(yīng)用潛力,并基于真實場景數(shù)據(jù)集NGSIM 對提出的方法效果進行測試。
車流溯源包括網(wǎng)絡(luò)層面、路段層面兩種不同的分析尺度。目前,大部分溯源研究均為網(wǎng)絡(luò)層面。這類研究通常以行程時間、流量等以路段為基本單位的信息為輸入。然而,這類信息通常采集時間范圍長且不按車道統(tǒng)計,因而網(wǎng)絡(luò)層面溯源難以支撐單車道、單信號周期的溯源分析。對此,本文從微觀層面提出一種面向城市道路上下游相鄰路段的車流溯源場景:設(shè)待溯源路段包含M條車道,上游來源路段總數(shù)為N,總觀測信號周期數(shù)為T,一條集結(jié)波包含特征參數(shù)數(shù)量為Q。則第m條車道在第t個信號周期的集結(jié)波特征集合為,車輛來源真實值集合為,其中,q和n分別為特征參數(shù)索引和上游來源路段索引。則車流溯源問題的目標在于基于特征參數(shù)fm,t,估計得到盡可能準確的ym,t。這一研究場景設(shè)定能對單車道、單周期內(nèi)的車輛進行分析,局限性在于推算連續(xù)多路段溯源結(jié)果時,由于中間路段僅有部分車輛駛?cè)氪菰绰范?,對某一部分車輛進行精確溯源,在這一框架下還較為困難。
現(xiàn)實應(yīng)用中,可通過在上下游路段架設(shè)臨時檢測器以獲取ym,t真實值,以便用于相關(guān)模型的訓(xùn)練以及結(jié)果驗證。在評價指標方面,使用均方誤差(Mean Square Error,MSE)和平均絕對值誤差(Mean Absolute Error,MAE)作為模型評價指標。
交通波的提出借鑒了流體力學(xué)理論,當(dāng)交通狀態(tài)發(fā)生變化引起車隊密度改變時,其分界面會在車流中傳播,其在時空二維上會形成幾何多邊形。在車道層面,交通波可以理解為排隊長度隨時間變化的曲線。當(dāng)車輛到達路口減速形成排隊,就產(chǎn)生了集結(jié)波,這一過程就如同“石子”落入水中產(chǎn)生的“漣漪”。通過對漣漪形態(tài)的判斷,能夠反推出石子的大小。在這一靈感的促使下,本節(jié)探尋基于交通波獲取車流來源的可能性。
為量化分析交通波特征,構(gòu)建交通波的若干參數(shù)如表1 所示。集結(jié)波斜率集結(jié)波持續(xù)時長,覆蓋最大排隊長度。為便于理解,圖1(a)列舉了交通波圖示場景;圖1(b)為一個源自NGSIM(Next Generation Simulation)數(shù)據(jù)集的真實交通波案例。該案例設(shè)置tr=0,圖中只顯示每輛車軌跡在該信號周期內(nèi)的第1 個停車點位的位置信息。集結(jié)波斜率采用線性回歸擬合得到??梢钥吹?,該集結(jié)波總計由7輛車組成,起始時空位置為(-0.40,1.67),結(jié)束時空位置為(15.10,43.06),斜率為2.654,交通波持續(xù)時長為15.5 s,覆蓋最大排隊長度為41.39 m。
圖1 研究場景及具體交通波參數(shù)示例Fig.1 Research scenario and specific example of traffic shockwave
表1 基于交通波的車流溯源模型特征參數(shù)表Table 1 Parameters of shockwave-based traffic flow tracing model
為驗證交通波應(yīng)用于溯源分析的可行性,采用NGSIM 數(shù)據(jù)集進行統(tǒng)計分析。圖2(a)為數(shù)據(jù)采集范圍的俯視圖,分析區(qū)域及上游路段已用陰影與文字進行標識。
圖2 NGSIM數(shù)據(jù)采集場景及交通波特征點識別結(jié)果Fig.2 NGSIM data scenarios and results of traffic shockwave feature identification
數(shù)據(jù)預(yù)處理包括車輛距離停車線距離計算、信號配時方案提取、集結(jié)波特征點識別與參數(shù)提取這3 個步驟。各條車道的軌跡數(shù)據(jù)單獨處理,預(yù)處理部分結(jié)果如圖2(b)所示??梢钥吹剑岢龅淖R別邏輯能夠準確地識別出軌跡中與集結(jié)波相關(guān)的特征點。最后,采用線性擬合即可得到集結(jié)波的斜率。
需要注意的是,可行性分析的目的是分析不同來源車輛的交通波特征差異,這里知道車輛的準確來源,可將交通波按照來源進行精確切分,因而單周期內(nèi)可能存在多條交通波。在后續(xù)的模型輸入中,由于現(xiàn)實中并不能知道交通波中不同來源車輛的分界點,因而在一個信號周期內(nèi),一條車道的輸入信息只有一條交通波參數(shù)。
為分析不同來源車輛交通波的時空分布特征是否具有顯著差異,將不同信號周期的集結(jié)波映射到一個信號周期內(nèi),并從一維(車輛初次停車時刻)和三維(集結(jié)波起始時空位置及覆蓋長度)分別分析,使用數(shù)據(jù)為圖2中分析區(qū)域車道1~車道3。
(1)信號周期內(nèi)車輛初次停車時刻分布
對不同來源車輛在信號周期中的初次停車時刻進行統(tǒng)計,設(shè)紅燈啟亮?xí)r刻為0 時刻,統(tǒng)計結(jié)果如圖3 所示。其中,101 與102 分別代表上游直行到達與上游右轉(zhuǎn)到達車輛??梢钥吹?,來自101車輛的停車時刻主要集中在30~60 s,而來自102的車輛則集中在0~40 s。這說明,不同來源車輛在初次停車時刻這一維度上已有明顯的統(tǒng)計特征差異。
圖3 信號周期內(nèi)車輛首次停車時刻及分布特征曲線Fig.3 Distribution of vehicles'first stop time during traffic signal cycle
(2)集結(jié)波三維分布特征
為尋找不同來源車輛在交通波層面更為顯著的統(tǒng)計特征差異,從集結(jié)波起點所處的時間位置、起點離停車線距離、覆蓋最大排隊長度這3個層面對其特征進行分析。采集到3 條車道在20 個信號周期內(nèi)總計86條集結(jié)波,其特征參數(shù)可視化如圖4所示,圖中3 個二維散點圖分別為3 項特征在二維平面上的兩兩組合??梢钥吹剑? 項特征參數(shù)在二維層面上均有一定程度的相互分離特征。更進一步,將其在三維層面進行組合,可以看出較為明顯的區(qū)分。這充分說明在這一場景下,不同來源車輛所形成的交通波特征確實具有差異性。綜上,基于集結(jié)波特征進行溯源分析具有一定可行性。
圖4 NGSIM交通波特征參數(shù)多投影面統(tǒng)計分析Fig.4 NGSIM multi-projection statistical analysis of traffic shockwave parameters
考慮到不同場景下交通波特征受多種因素影響,并且這些因素之間的關(guān)系可能呈非線性,因此使用機器學(xué)習(xí)的方法對該問題進行建模分析,以捕獲輸入特征之間的非線性關(guān)系。
由于模型輸入的各項特征量綱不一致,為提高模型訓(xùn)練效果,需對數(shù)據(jù)進行歸一化處理。本文采用Min-Max 歸一化和Z-Score 兩種方法,以為例,計算方法為
結(jié)合問題特征,測試兩種數(shù)據(jù)輸入模式:模式1,只輸入自身車道交通波特征;模式2,除輸入自身車道交通波特征之外,還輸入同路段同周期其他車道的交通波特征。兩種輸入模式如圖5 左下方所示。以路段1 為例,模式1 輸入的是路段1 本身的參數(shù)與標簽,而模式2 則在模式1 的基礎(chǔ)上額外增加路段2 和路段3 的交通波特征參數(shù)(輸入特征數(shù)量為模式1的3倍)。第2種輸入數(shù)據(jù)的形式主要考慮為:在流量相對穩(wěn)定的情況下,不同車道流量分布會造成不同的交通波特征。因此,同一個路段不同車道的交通波特征是存在一定關(guān)聯(lián)性的。進而,在對車道進行溯源分析時,其他車道的信息同時也能夠為其提供一定的信息量,有可能提升溯源模型的準確程度,也有可能提升對訓(xùn)練所需數(shù)據(jù)量的需求。后續(xù)將對這兩種輸入模式的效果差異進行測試分析。
圖5 溯源模型兩種輸入模式及數(shù)據(jù)格式示例Fig.5 Two input modes and data format example of flow tracing model
在機器學(xué)習(xí)模型中,分別構(gòu)建線性回歸(Linear Regression)、決策樹回歸(Decision-Tree Regression)、隨機森林回歸(Random Forest Regression)和梯度提升回歸(Gradient Boosting Regression)這4 種代表性多輸出回歸模型進行測試。這4種模型之間有一定遞進關(guān)系,復(fù)雜度逐漸增加,能夠應(yīng)對更復(fù)雜的數(shù)據(jù)關(guān)系。所有模型均基于開源程序庫sklearn展開測試。同時,多輸出回歸模型可以處理具有多個目標變量的情況,每個目標變量都是一個獨立的回歸問題。因此,模型輸出數(shù)量可與來源數(shù)量一致,可適用于具有不同拓撲結(jié)構(gòu)場景。以車道1為例,整理后的參數(shù)及標簽數(shù)據(jù)形式如圖5右側(cè)所示。其中,模式1 輸入的變量為5個,模式2輸入的變量為15個。為驗證模型效果,整個數(shù)據(jù)集將按照7∶3 的比例劃分為訓(xùn)練集和測試集。
由于現(xiàn)實中不同時段交通需求水平及分布特征不同,車道功能及信號配時方案也可能不同。因此,為降低模型訓(xùn)練難度,本文提出模型的定位為分時段訓(xùn)練模型,即應(yīng)用于早高峰與晚高峰的模型并非使用同一數(shù)據(jù),而是分別使用對應(yīng)時段的數(shù)據(jù)訓(xùn)練。
(1)實驗設(shè)計
案例分析選擇圖2 中的待溯源路段。該路段總計有5條車道,包括1條直左車道,2條直行車道,1 條直右車道,1 條右轉(zhuǎn)車道。由于直左車道流量過少(2000 s 內(nèi)僅有25 輛車)以及右轉(zhuǎn)車道不受信號燈控制,無法形成足夠的交通波樣本,因此,僅對編號2、3、4 這3 條車道進行溯源分析。3 個車道單信號周期內(nèi)到達車輛數(shù)分布直方圖如圖6 所示。從統(tǒng)計結(jié)果來看,單車道在單周期內(nèi)最多到達車輛數(shù)約為17 輛,平均值約為10 輛。這一數(shù)據(jù)將為后續(xù)模型效果提供參考依據(jù)。
圖6 3個車道單信號周期內(nèi)到達車輛數(shù)分布直方圖Fig.6 Distribution histogram of number of arriving vehicles within a single cycle in 3 lanes
其次,在數(shù)據(jù)量方面,由于NGSIM原始數(shù)據(jù)采樣時長有限(總計2000 s,20個信號周期),單車道僅有20 個樣本數(shù)據(jù),不足以支撐機器學(xué)習(xí)算法的模型訓(xùn)練需求。為探究得到有效模型具體所需要的數(shù)據(jù)量,需要在不同日期同時段內(nèi)多次進行數(shù)據(jù)采樣過程。對此,本文假設(shè)不同日期同時段內(nèi)的數(shù)據(jù)具有相似特征,并引入高斯噪聲對現(xiàn)有數(shù)據(jù)加入隨機波動,以模擬現(xiàn)實中同時段內(nèi)多次采樣過程,擴樣倍數(shù)分別為1倍、2倍、5倍、10倍。為克服模型隨機性的影響,每個結(jié)果采用50 次測試結(jié)果的平均值。
(2)結(jié)果分析
基于上述實驗設(shè)計方案,對基于Min-Max歸一化和Z-Score歸一化得到的結(jié)果分別列舉進行對比分析,得到3 條車道的溯源誤差平均值如表2 所示。對比兩種歸一化方式發(fā)現(xiàn),采用Z-Score 歸一化方法整體效果相對更優(yōu),特別是在數(shù)據(jù)量提升到5倍(100個信號周期)及以上時,隨機森林回歸與梯度提升回歸效果有明顯優(yōu)勢。使用線性回歸方法時,使用兩種歸一化方式無明顯區(qū)別。橫向?qū)Ρ葍煞N數(shù)據(jù)輸入模式:在數(shù)據(jù)量較少的情況下,發(fā)現(xiàn)輸入模式1 的發(fā)揮更優(yōu),而輸入模式2 的誤差則非常高,尤其是線性回歸;當(dāng)數(shù)據(jù)量提升時,輸入模式2的優(yōu)勢逐漸體現(xiàn);當(dāng)數(shù)據(jù)量提升到5 倍及以上時,輸入模式2 效果反超并優(yōu)于輸入模式1。這說明,輸入模式2由于輸入變量數(shù)量提升,因此對數(shù)據(jù)量的要求相對更高,同時模型的潛力也更大。特別是在Z-Score 歸一化方法下,當(dāng)數(shù)據(jù)量達到10 倍時,梯度提升回歸模型的MAE 能夠低至0.01,僅占平均流量的0.10%,且誤差最大不超過5.90%。這一實驗結(jié)果也能為現(xiàn)實溯源應(yīng)用提供指導(dǎo),當(dāng)采集數(shù)據(jù)量有限時(采集時長低于4000 s,或覆蓋周期數(shù)量少于40 個),宜采用輸入模式1。即便只有20 個信號周期的初始數(shù)據(jù),輸入模式1所取得的最差結(jié)果中,MAE為2.36,約占圖6顯示平均流量的23.60%,而同場景下的輸入模式2,最大誤差可達到50.80%。
表2 基于NGSIM數(shù)據(jù)集的溯源模型效果Table 2 Performance of flow tracing model based on NGSIM dataset
最后,為分析各模型在不同數(shù)據(jù)精度下的適應(yīng)性,給初始數(shù)據(jù)定位附加不同上限的正態(tài)分布誤差,進行靈敏性分析,得到結(jié)果如圖7所示。其中,數(shù)據(jù)采用Min-Max歸一化方法處理,初始數(shù)據(jù)擴樣系數(shù)為10 倍。由于測試場景路段為80 m,50 m 的誤差上限已能夠覆蓋全路段,因此設(shè)置50 m 為實驗分析上限??梢钥吹剑S著數(shù)據(jù)誤差上限的提升,模型的誤差也在提升。以圖7(a)MSE 為例,對比5 m與50 m定位精度,線性回歸、決策樹回歸、隨機森林回歸、梯度提升回歸的誤差提升比例分別為36.4%、34.4%、143.3%、93.6%。最后兩種方式雖然誤差上升明顯,但仍比前兩種方式要好。可以看到,不同模型對誤差的適應(yīng)能力有所差異。所有模型在數(shù)據(jù)誤差較大時,整體并未出現(xiàn)失效現(xiàn)象。其原因可能在于,模型在訓(xùn)練時也將誤差作為特征之一進行學(xué)習(xí)。在實際應(yīng)用中,應(yīng)結(jié)合數(shù)據(jù)量、數(shù)據(jù)質(zhì)量進行綜合考慮,進而選擇最為合適的方法。
圖7 不同定位誤差場景下模型靈敏性分析Fig.7 Sensitivity analysis under different levels of data errors
基于NGSIM數(shù)據(jù)集對不同來源的車流交通波統(tǒng)計分析發(fā)現(xiàn),交通波中蘊含著車輛來源信息。對此,本文嘗試引入交通波特征信息,結(jié)合信號配時參數(shù),提出一種車道級車流溯源方法。基于真實數(shù)據(jù)集測試發(fā)現(xiàn),通過交通波特征進行溯源分析具有可行性,所構(gòu)建模型在不同的數(shù)據(jù)量、特征參數(shù)歸一化處理方法下效果各有不同。結(jié)合本文研究結(jié)果,在現(xiàn)實應(yīng)用中應(yīng)根據(jù)實際的數(shù)據(jù)情況,包括數(shù)據(jù)量、源數(shù)據(jù)精度等,靈活采用合適的數(shù)據(jù)處理方式與特定的機器學(xué)習(xí)模型?;谲嚨赖乃菰唇Y(jié)果,可為上下游路口管控方案的聯(lián)合優(yōu)化指引方向。未來可以進一步研究具備多場景通用性、可遷移性、適用于連續(xù)多路段的車流溯源模型,并探索不同來源數(shù)量下的模型效果。