葉秀秀 馬曉鳳▲ 鐘 鳴 黃傳明
(1.武漢理工大學智能交通系統(tǒng)研究中心 武漢430063;2.武漢理工大學國家水運安全工程技術研究中心 武漢430063;3.武漢市公安局交通管理局 武漢430030)
短時交通預測是城市智能交通系統(tǒng)的重要部分,能為出行者提供出行路徑參考,也可為交通管理者制定交通控制和交通誘導決策提供依據(jù)。目前,短時交通流預測理論研究已經(jīng)相對成熟,預測模型主要分為:①基于統(tǒng)計方法的模型,如歷史平均法[1]、時間序列模型[2]等;②基于非線性系統(tǒng)理論的方法,如小波理論模型[3]等;③人工智能算法,近年來相關學者多使用該類方法進行交通流預測研究,如Chen等[4]針對交通流具有時變和非線性的特點提出改進的小波神經(jīng)網(wǎng)絡短時交通流預測模型,其預測誤差比傳統(tǒng)的小波神經(jīng)網(wǎng)絡減小了14.994%;馮微等[5]基于深度學習構建短時交通流參數(shù)預測模型,實現(xiàn)對大規(guī)模路網(wǎng)速度參數(shù)預測;④多種算法組合應用,如Asif Raza等[6]采用遺傳算法對人工神經(jīng)網(wǎng)絡進行優(yōu)化并結合局部加權回歸進行短時交通流預測。以上方法主要為基于單個路段的交通流特性對該路段進行交通流預測研究。為提高預測精度及更全面的挖掘交通流變化規(guī)律,許多學者進行了基于路網(wǎng)時空特性的交通流預測研究,如李巧茹等[7]針對交通流量時間序列具有混沌特性進行相空間重構,并在此基礎上構建PSO-GPR模型短時交通流預測模型;Alireza Ermagun等[8]基于路網(wǎng)交通流數(shù)據(jù)提取路網(wǎng)的網(wǎng)絡權值矩陣進行短時交通流預測,該權值矩陣在交通流預測精度高于傳統(tǒng)的空間相關性方法且具有隨時間變化的穩(wěn)定性和魯棒性。
上述交通流預測方法是基于目標路段及相關路段歷史交通流進行模型訓練,適用于有檢測器路段。但是隨著城鎮(zhèn)化及城市路網(wǎng)的快速擴張,檢測器難以覆蓋路網(wǎng)的所有路段,如武漢市路網(wǎng)空間化后有ID的路段共有5萬多條,其中有檢測器的路段只占10.48%。因此,要實現(xiàn)路網(wǎng)的宏觀管理,無檢測器路段的交通流預測將是路網(wǎng)交通流預測不可缺少的一部分。但是,國內(nèi)外對于無檢測器路段交通流預測理論研究還處于發(fā)展階段。張赫等[9]利用交叉口的相關性采用聚類分析、逐步回歸分析及主成分分析分別進行無檢測器路段的交通流預測,其中主成分分析法計算工作量大于另外2種方法,該方法能夠包含的交通信息量更多并且預測精度更高,其中聚類分析和主成分分析是早期研究中應用較多的方法[10-11]?;诨疑A測模型(GM)預測所需原始數(shù)據(jù)少的特點,相關學者采用改進的GM、GM與神經(jīng)網(wǎng)絡的組合算法(GNN)等方法,以路段觀測數(shù)據(jù)進行模型訓練和交通流量預測,基于目標路段觀測數(shù)據(jù)的改進GM算法和GNN算法,其預測平均相對誤差可減小2%~10%[12-13]。此外,王志建[14]利用遺傳算法改進的逐步回歸分析法進行無檢測器交叉口流量預測,相對于早期聚類分析法和主成分分析法,該方法對無檢測器路段流量預測平均相對誤差減小了11%和6%;郭沂鑫[15]首次將PNN概率神經(jīng)網(wǎng)絡應用在無檢測器交叉口的歸類中,實驗結果顯示PNN分類模式預測模型具有一定的穩(wěn)定性,優(yōu)于傳統(tǒng)的分類方法。由于交通流量具有不確定性和復雜性等特點,數(shù)學解析的硬分類模型在解決交通流問題中存在局限性,對此張明輝[16]提出采用模糊C均值(FCM)聚類方法對城市路網(wǎng)中各個交叉口進行模糊聚類,基于該方法進行無檢測器路段的短時交通流預測易于實現(xiàn)且預測精度較高。
以上利用路段聚類、回歸分析等統(tǒng)計方法及人工智能算法對無檢測器路段進行交通流預測研究中,仍需要一定數(shù)量的無檢測器路段歷史數(shù)據(jù)進行模型訓練,這些歷史數(shù)據(jù)一般來源于浮動車數(shù)據(jù)及人工采集等,采集手段有限,且存在采集精度差、成本高、實時性差等不足。因此,需要發(fā)掘新的方法以解決大量無檢測器路段的交通流預測問題,這樣才能在大規(guī)模全路網(wǎng)的快速預測和應用中具有可操作性和實用性。筆者提出1種基于上游路段空間特征影響度系數(shù)的交通流預測方法,對路網(wǎng)中所有路段均有檢測器的交叉口進行數(shù)據(jù)挖掘和規(guī)律分析,獲取路段空間特征影響度系數(shù)。然后選取無檢測器路段為案例研究對象,基于空間特征影響度系數(shù)、案例空間特征及其上游路段交通流量,進行該案例的流量預測計算及驗證。
城市道路交通是1個復雜的系統(tǒng),交通流受多種因素的影響,表現(xiàn)出非線性、不確定性等特性。由于道路之間相互連通,上下游交通狀態(tài)之間的具有一定的相關性,該相關性可以使用上下游的流量關系來表示。
圖1 交叉口路段空間關系示意圖Fig.1 Spatial relationship between intersections
圖1 為武漢市路網(wǎng)2個交叉口上下游空間示意圖。其中,次干道8462路段的上游有8461和8463這2個路段,二者分別為次干道及支路;次干道170770的上游路段為170769、42045及42044,其中,170769為次干道,4045及42044路段則是支路。路段8462、170770及其上游2019年2月15日的交通流情況見圖2。
圖2 上下游路段交通流關系示例Fig.2 Cases of the traffic flow relationship between upstream and downstream roads
從圖2中可看出,在上下游的流量關系中,不同道路類型的路段流量變化情況具有一定的差異,道路類型相同的路段其交通流變化趨勢相似,且上游路段數(shù)量對下游路段交通流也會有一定的影響。
為明確空間特征對路段交通流量是否具有相關性,本文基于武漢市路網(wǎng)信息數(shù)據(jù)獲取以下3個空間特征。
1)路段道路類型,分為快速路、主干道、次干道、快速路輔路及支路,屬于分類變量。為簡化建模數(shù)量、提升計算速度,根據(jù)道路等級、功能及寬度等因素,本研究將高速路和快捷路劃分為快速路,輔路劃分為快速路輔路,匝道及轉(zhuǎn)向?qū)S玫绖澐譃橹?。其中快速路路段?39個,主干道路段共391個,次干道路段共621個,快速路輔路路段共143,支路路段共890個。
2)相鄰路段數(shù)量,相鄰上游路段數(shù)量或下游路段數(shù)量,屬于數(shù)值變量。
3)相鄰路段道路類型,相鄰上游或下游路段的道路類型,劃分方法同1)。
交通高峰期時路段擁堵顯著、路段交通流變化規(guī)律性強,針對武漢市2 285個卡口檢測器早高峰交通流量數(shù)據(jù)及對應的空間特征數(shù)據(jù),利用SPSS進行Spearman相關性分析,結果見表1。由表1相關性分析結果可知:路段流量與路段道路類型、相鄰路段數(shù)量及相鄰路段道路類型3類空間特征均呈現(xiàn)顯著性相關,其中路段流量與路段道路類型的相關性最大;相鄰路段空間特征與路段流量的相關性中,相鄰上游路段特征與流量間的相關系數(shù)大于下游路段。
由此,考慮從路段道路類型及相鄰路段數(shù)等空間特征出發(fā),挖掘路網(wǎng)中有檢測器路段的空間特征對交通流分配的影響度,利用無檢測器路段相鄰路段的交通流數(shù)據(jù)及空間特征影響度系數(shù),進行無檢測器路段交通流預測。
表1 路段特征與流量的相關性分析Tab.1 Correlation analysis of road characteristics and traffic flow
交叉口上下游各個路段間的交通流存在著一定的分/合流關系,交叉口中目標路段的交通流量y與其n個上游路段(或下游路段)的流量x1,x2,…,x n間的流量分配權重模型[17-18]為
式中:y為目標路段交通流量,veh/15 min;x1,x2,…,x n為n個上游(或下游)的交通流量,veh/15 min;θ0,θ1,θ2,…,θn為交通流權重系數(shù)。
令θ為n+1的列向量,見式(2)。令X b為(m,n+1)的矩陣;n為自變量個數(shù);m為訓練樣本,見式(3)。
目前,在回歸分析中參數(shù)估計應用最多的算法是最小二乘法,該方法是以誤差的平方和最小為準則,依據(jù)觀測數(shù)據(jù)估計線性模型中未知參數(shù)的1種基本參數(shù)估計方法?;诼肪W(wǎng)拓撲交通流數(shù)據(jù),采用最小二乘法求解交通流分配權重,結果見式(4)。
求出向量θ,即模型的具體回歸系數(shù),基于路網(wǎng)拓撲的交通流分配權重模型求解完成。
以往研究無檢測器路段交通流未來變化規(guī)律的成果中,一般先通過臨時布點采集交通流數(shù)據(jù),再構建預測模型進行預測[17,19-20],適用于對單一或若干道路開展研究。但是由于城市內(nèi)無檢測器路段數(shù)量大、分布廣,如武漢市近90%的路段為無檢測器路段或檢測器失效路段,要在小時間粒度條件下獲取大量無檢測器路段的交通流樣本數(shù)據(jù)十分困難,導致無檢測器路段因缺少歷史數(shù)據(jù)不能開展交通流分配權重模型的訓練。
從表1的相關性分析結果可知,交叉口上下游路段的交通流分配系數(shù)是路段道路類型、上游路段數(shù)量等多個空間特征綜合作用的結果,即每個交通流分配系數(shù)與多個空間特征變量之間存在一定的相關性。本文在大量有檢測器的交叉口路段交通流分配權重模型訓練結果的基礎上,再次采用多元線性回歸方法深入挖掘空間特征對交通流分配權重的影響規(guī)律,提取路段空間特征對交通流分配權重的影響度系數(shù)。進而基于該影響度系數(shù)、目標無檢測器路段的空間特征以及相鄰路段交通流數(shù)據(jù),可實現(xiàn)無檢測器路段短時交通流預測。該預測方法從城市路網(wǎng)中有檢測器交叉口的海量數(shù)據(jù)中挖掘路段空間特征對交通流分配權重的影響度系數(shù),在模型訓練及目標無檢測器路段交通流預測過程中無需將目標路段的歷史數(shù)據(jù)作為輸入,能夠?qū)崿F(xiàn)城市大規(guī)模路網(wǎng)中大量無檢測器路段交通流的快速、實時及準確預測。
對某一無檢測器路段,若其所有上游路段或者下游路段均有檢測器數(shù)據(jù),此方法能夠有效地對該路段進行交通流預測。本文針對無檢測器路段所有上游都有檢測器數(shù)據(jù)的情況進行建模,其他情況可參照該方法進行,其模型步驟如下。
1)路網(wǎng)有檢測器路段回歸方程訓練。
基于交叉口上下游各個路段間的交通流的分/合流關系,交叉口中單個路段的交通流量y與其n個上游路段(或下游路段)的流量x1,x2,…,xn間的交通流分配權重可根據(jù)歷史交通流數(shù)據(jù)采用2.1中路網(wǎng)拓撲的交通流分配權重模型求出。對路網(wǎng)中路段本身及其上游均有檢測器的路段進行統(tǒng)計(k個),采用多元線性回歸算法分別對k個路段及其上游的歷史交通流數(shù)據(jù)進行回歸分析,可以獲得各路段與其上游路段的交通流分配權重方程。
式中:y j為第j個路段流量,veh/15 min;X j為其上游路段的流量組成的向量;θj為回歸方程的參數(shù)向量(j=1,2,…,k)。
2)空間特征影響度系數(shù)回歸分析。在1)的基礎上,再次利用多元線性回歸對空間特征和交通流分配權重進行回歸分析,研究空間特征對交叉口交通流分配權重的影響度系數(shù)。在式(5)交通流分配權重計算結果中,以k個回歸方程的交通流回歸參數(shù)向量及對應路段的空間特征為訓練樣本,進一步挖掘路段空間特征對交通流分配權重的影響度規(guī)律。其詳細過程為將目標路段道路類型f1、上游道路數(shù)量f2及上游路段的道路類型f3作為自變量,對回歸方程回歸系數(shù)向量θ中的常數(shù)項θ0及偏回歸參數(shù)θi分別作為因變量,進行多元線性回歸分析。構建空間特征與交通流權重參數(shù)間的回歸方程過程中,需要綜合考慮目標路段道路類型、上游路段數(shù)量及上游路段道路類型3項空間特征對交通流分配權重的影響。θ0作為交通流分配權重模型的常數(shù)項,其回歸方程構建應同時考慮前2項空間特征以及所有上游道路類型的影響;θi作為交通流分配權重模型的偏回歸參數(shù),前2項空間特征與該參數(shù)對應的上游道路類型為主要影響因素,即常數(shù)項的及偏回歸參數(shù)回歸方程,見式(6)。
式中:θ0為路段回歸方程的常數(shù)項;θi為路段回歸預測方程中第i個上游路段對應的偏回歸參數(shù)為第i個上游路段的道路類型為n個上游的道路類型綜合值。
根據(jù)式(5)中各個路段交通流分配權重回歸模型及其對應的空間特征求解式(6),獲得上游空間特征影響度向量見式(7)和式(8)。
其中:A為空間特征對預測方程常數(shù)項θ0的影響度向量;B為偏回歸參數(shù)θi的空間特征影響度系數(shù)向量。
3)基于空間特征影響度系數(shù)的交通流預測。通過向量A和B可求出無檢測器路段上游流量分配權重向量θ,再結合上游各路段交通流X就能對目標路段交通流y進行預測。如,對于具有單個上游的無檢測器路段,空間特征分別為目標路段道路類型f1、上游道路數(shù)量f2及上游路段的道路類型f3,則其交通流預測方程為
對于具有2個上游的無檢測器路段,空間特征分別為目標路段道路類型、上游道路數(shù)量上游路段的道路類型為則其交通流預測方程為
其他情況以此類推。
數(shù)據(jù)來源于武漢市智慧決策系統(tǒng),該系統(tǒng)對武漢市地磁檢測器、卡口電警、線圈檢測器共計5 869個點位、20 713個檢測器進行管理。系統(tǒng)中路網(wǎng)含50 400多個路段,路段是路網(wǎng)中道路的有向劃分單元,具有唯一的ID編號,本文選取武漢市路網(wǎng)中交叉口各路段均安裝卡口電警檢測器且檢測器正常工作的共135個路段進行數(shù)據(jù)挖掘和訓練,將16176、170239路段用于模型驗證。其中,路段16176為主干道,位于二環(huán)線內(nèi)靠近長江二橋,其上游只有1個主干道路段16176;路段170239為次干道,位于三環(huán)線外,離主城區(qū)較遠,具有4個上游路段170217、170238、170240、170273,前2個的道路類型為次干道,后2個為支路。
案例中使用的交通流數(shù)據(jù)以15 min的數(shù)據(jù)增量周期為1個時段,利用箱型圖法對所選路段2019年2月14日—3月3日的交通流數(shù)據(jù)進行分時段的交通流閾值計算,在此基礎上進行數(shù)據(jù)清洗并利用歷史平均法進行數(shù)據(jù)填補。路段空間特征數(shù)據(jù)為智慧決策系統(tǒng)空間化信息提取結果,其中路段道路類型分為輔路、支路、次干道、主干道、快速路及高速路6類,將其分別賦予編號1~6。
由于城市路網(wǎng)交通流具有明顯的時變特征,不同時間段流量變化規(guī)律不同,選取07:00—09:00的早高峰數(shù)據(jù)進行研究,其他時段可參照此流程進行。利用多元線性回歸算法對訓練數(shù)據(jù)進行回歸計算,獲得68組上下游交通流分配權重,并基于權重數(shù)據(jù)和路段空間特征數(shù)據(jù)進行回歸分析,計算空間特征影響度系數(shù)。最終獲得空間特征影響度系數(shù)向量分別為
利用以上方程及上游路段交通流量分別對16176及170239路段進行交通流預測計算。
針對2019年2月14日3月3日每天上午07:00—09:00共161個時段進行交通流預測驗證,圖3為16176及170239路段實際交通流量與基于空間特征影響度系數(shù)預測的交通流對比情況,其預測的交通流與實際交通流變化趨勢相近。
圖3 路段交通流實際值與預測值對比Fig.3 Comparison of actual and predicted traffic flow of roads
采用絕對百分比誤差(absolute percentage error,APE)對路段空間特征影響度系數(shù)模型進行預測性能評價,見式(15)。
式中:y為實際流量值,veh/15 min;y?為預測流量值,veh/15 min。
由模型得到的預測結果絕對百分比誤差曲線見圖4,可以看出:本文所提出的路段空間特征影響度系數(shù)模型在不需要預測目標路段歷史交通流的情況下,以路段的空間特征及上游路段交通流量數(shù)據(jù)作為預測因子,得到單個上游的路段預測結果絕對百分比誤差曲線波動情況穩(wěn)定,對于多個上游的路段預測結果絕對百分比誤差曲線波動的幅度較大。
圖4 交通流預測絕對百分比誤差Fig.4 APE of traffic flow prediction
路段16176和170239預測APE進行平均值及百分位值的統(tǒng)計,結果見表2,其中,PR表示百分位數(shù)值,表示在此樣本值以下的樣本數(shù)占總樣本數(shù)的百分比。對主城區(qū)的主干道路段16176的預測平均誤差為8.96%,對非主城區(qū)的次干道路段170239的預測平均誤差為22.82%,預測效果較好。
表2 預測絕對百分比誤差統(tǒng)計Tab.2 Statistics of forecasted APE%
本次研究是基于路網(wǎng)有檢測器路段數(shù)據(jù)進行數(shù)據(jù)挖掘,研究目標路段道路類型、上游的路段數(shù)量及其道路類型等空間特征對交通流分配權重的影響,數(shù)據(jù)源為武漢市卡口電警檢測器的流量數(shù)據(jù)。以下對本文提出的模型及案例中造成誤差的原因進行分析。
1)由課題組調(diào)研數(shù)據(jù)可知,目前武漢市卡口電警數(shù)量超過檢測器總數(shù)的50%,且44%左右的卡口電警沒有數(shù)據(jù)記錄,而有過車記錄數(shù)占總記錄的比例大于0.5的只有30%左右。本文獲取的卡口電警數(shù)據(jù)源存在部分數(shù)據(jù)異常及數(shù)據(jù)缺失問題,在進行數(shù)據(jù)預處理過程中,采用箱型圖法和歷史平均法進行數(shù)據(jù)清洗,且清洗數(shù)量較大。經(jīng)過數(shù)據(jù)清洗后,能夠增加可用數(shù)據(jù)樣本,但是清洗數(shù)據(jù)與實際數(shù)據(jù)不可避免地存在誤差,對模型訓練精度有一定的影響。
另外,本文在訓練數(shù)據(jù)的選取上,需要選取上下游均有卡口檢測器且具有大量的歷史數(shù)據(jù)的路段數(shù)據(jù)作為訓練樣本,在現(xiàn)有檢測器完好率的情況下,滿足篩選條件的相對較少,使得模型在數(shù)據(jù)挖掘過程中樣本數(shù)據(jù)覆蓋不夠全面,對模型精度產(chǎn)生不利影響。在后續(xù)研究中可以通過增加訓練集樣本、增大樣本在路網(wǎng)中的覆蓋度來提高模型的準確度。具體措施為將多種檢測器數(shù)據(jù)融合結果作為訓練集;對模型進行改善,再將只有部分上游或下游路段有數(shù)據(jù)的情況歸入訓練集。
2)對路段交通流有影響的空間影響因素較多,本文目前只對目標路段道路類型、上游的路段數(shù)量及其道路類型3種空間特征進行研究,未考慮路段所處的地形、土地利用類型等因素的影響,特征影響度在未來研究中仍可進一步完善和提高。
另外,對訓練樣本數(shù)據(jù)進行空間分析發(fā)現(xiàn),滿足訓練標準的數(shù)據(jù)主要來源于主城區(qū)且布設檢測器較多的密集路網(wǎng)區(qū)域,因此對非主城區(qū)路段預測時其誤差會相較于主城區(qū)路段大。如案例研究中的170239路段,其離主城區(qū)較遠,且其為交通量不大的次干道,所以預測結果APE較大,預測效果明顯次于16176路段。
3)現(xiàn)有無檢測器路段交通流預測研究中主要分為基于無檢測器路段自身歷史交通流及路網(wǎng)中相關路段交通流2類數(shù)據(jù)進行無檢測器路段流量預測,這些研究主要針對路段交通流變化規(guī)律進行研究,未考慮路段空間時不變特征對路段流量產(chǎn)生的影響。本文基于第2類數(shù)據(jù),在大量有檢測器交叉口交通流分配權重基礎上,進一步深入挖掘道路類型及相鄰路段的數(shù)量等空間特征對交通流分配權重的影響規(guī)律,進而將大量有檢測器數(shù)據(jù)獲取的規(guī)律應用于無檢測器路段進行交通流預測。
另外,目前主流的無檢測器路段預測方法需要將一定數(shù)量的無檢測器路段流量數(shù)據(jù)作為訓練數(shù)據(jù),但目前大部分城市路網(wǎng)中無檢測器路段占比在90%左右,對無檢測器路段進行交通流采樣不僅耗費大量時間和人力,同時也難以滿足城市路段交通流預測實時性的需求。本文通過研究路段空間時不變特征對交叉口交通流分配權重的影響度系數(shù),實現(xiàn)在不需要無檢測器路段交通流數(shù)據(jù)作為訓練數(shù)據(jù)的情況下,將從海量有檢測器路段挖掘的規(guī)律應用至無檢測器路段,從而實現(xiàn)城市大規(guī)模路網(wǎng)中大量無檢測器路段快速、準確的預測。
路網(wǎng)短時交通流預測對城市交通控制、誘導及居民出行至關重要,現(xiàn)階段無檢測器路段在城市路網(wǎng)中仍占有很大的比重,且其歷史數(shù)據(jù)難以獲取,因此對無檢測器路段交通流預測進行研究具有十分重要的意義。針對此問題,筆者在現(xiàn)有研究基礎上,研究路段空間特征對交通流分配的影響度系數(shù),并基于此進行無檢測器路段交通流預測。針對武漢市上下游均有卡口電警檢測器的交叉口數(shù)據(jù)進行數(shù)據(jù)篩選和分析,在采用多元回歸獲得上游路段交通流分配權重基礎上,再次利用多元線性回歸對路段空間特征和交通流分配權重進行分析,得出空間特征權重的影響度系數(shù),最后結合路段空間特征及上游交通流進行無檢測器路段交通流預測。
案例結果表明,所提出的方法能夠在不需要無檢測器路段歷史數(shù)據(jù)的情況下,基于路段空間特征及上游路段交通流即可對下游無檢測器路段的交通流預測進行預測,能夠為交通管理者制定交通決策提供一定的參考。