楚瀟蓉 山東理工大學(xué)建筑工程學(xué)院 胡玉龍 中國交通通信信息中心
逯躍鋒 中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室
隨著全球定位系統(tǒng)的快速發(fā)展,人們可以快速方便地獲取GPS定位數(shù)據(jù)。軌跡數(shù)據(jù)存在大量的道路信息,且具有成本低、來源廣,現(xiàn)勢性高等特點,成為道路交通流預(yù)測的研究熱點。國內(nèi)外學(xué)者對于交通流預(yù)測進行了大量研究,并取得了一定的成果。歷史平均法模型相對簡單,但不能反映交通流的時變性,1981 年,Stephanedes 在交通控制系統(tǒng)中應(yīng)用了歷史平均模型。賀國光等根據(jù)時間序列模型理論和方法構(gòu)建了行駛時間預(yù)測模型,并通過仿真實驗進行了評估;唐毅等人對時間序列模型加以改進,動態(tài)選取樣本數(shù)據(jù)并使用ARIMA(p,d,0)模型進行識別,實驗表明該模型對不同的交通狀況具有較好的適應(yīng)性。王翔等人利用高速公路收費站數(shù)據(jù),使用交叉驗證方法計算K 值,改進了K 近鄰非參數(shù)回歸方法,該方法具有較好的預(yù)測精度。目前交通流預(yù)測面臨的一個問題是大多數(shù)短時交通流預(yù)測算法仍然使用固定的環(huán)路檢測器來獲取交通數(shù)據(jù),由于交通流的復(fù)雜性,單一的模型具有一定的局限性,多模型組合是未來發(fā)展的一個趨勢。
交通流是指在道路上連續(xù)行駛的汽車形成的車流,廣義上還包括其他類型車輛形成的車流和人們行走形成的人流。不同的參數(shù)對于道路交通來說代表不同的含義,可以據(jù)此研究道路交通流的變化規(guī)律和特征,同時也可以輔助道路規(guī)劃和交通管控。它主要包括交通流量、交通流速度、交通流密度這三個基本參數(shù)。
非參數(shù)回歸方法是一種非線性的統(tǒng)計建模方法。非參數(shù)回歸方法對數(shù)據(jù)的分布和應(yīng)用沒有具體的限制,該方法非常靈活,主要取決于歷史數(shù)據(jù)。其中狀態(tài)向量、距離度量函數(shù)和預(yù)測函數(shù)是影響該方法的關(guān)鍵要素,需要根據(jù)不同的研究對象來進行確定。狀態(tài)向量越能夠描繪對象的特征、距離度量方式越能體現(xiàn)相近狀態(tài)的相似性,預(yù)測結(jié)果的準確度也越高。
狀態(tài)向量是指能夠影響被研究對象的因素組成的向量,它能夠代表數(shù)據(jù)庫中的數(shù)據(jù)特征,是實時數(shù)據(jù)與歷史數(shù)據(jù)比較的標準,描述研究對象的狀態(tài)向量可以有多個維度,這里主要從時間和空間兩個維度定義狀態(tài)向量。
在時間維度上,預(yù)測時間段t+1 時刻的狀態(tài)與前n-1 個時間段的狀態(tài)是相關(guān)聯(lián)的。由于每個時間段與待預(yù)測時間段的接近程度不同,其影響權(quán)重也是不同的,本文采用指數(shù)權(quán)重來表示不同時間段的權(quán)重。時間狀態(tài)向量由目標路段前若干個時段的交通流和相鄰時段間交通流的變化趨勢組成,其定義為:
交通流的狀態(tài)還與相鄰路段的狀態(tài)有關(guān),本文將狀態(tài)向量從時間維度擴展到時間和空間兩個維度即形成時空狀態(tài)向量,其定義為:
度量函數(shù)用來度量當前狀態(tài)向量與歷史狀態(tài)向量間的相似性。結(jié)合上文中的時間狀態(tài)向量和時空狀態(tài)向量,這里的度量函數(shù)也定義為時間度量函數(shù)和時空度量函數(shù)。
時間度量函數(shù)指的是當前和歷史時間狀態(tài)向量間的距離,其定義為:
時空度量函數(shù)指的是當前時空狀態(tài)和歷史時空狀態(tài)向量的距離,其定義為:
近年來,有不少學(xué)者通過驗證發(fā)現(xiàn),基于秩次加權(quán)法的性能更好,因此本文選取該方法作為預(yù)測函數(shù)中的權(quán)函數(shù),其定義為:
最終的預(yù)測函數(shù)為:
本文的實驗數(shù)據(jù)來源于是2018 年2 月份的某地車輛軌跡數(shù)據(jù)。
原始軌跡數(shù)據(jù)覆蓋范圍大,數(shù)據(jù)量多,造成數(shù)據(jù)加載等困難,首先截取出研究區(qū)域范圍內(nèi)的數(shù)據(jù),然后篩選出符合時間要求的數(shù)據(jù)。數(shù)據(jù)屬性信息包括車輛ID、GPS 時間、GPS 經(jīng)度、GPS 緯度、GPS 速度、經(jīng)度、緯度等7 個字段。截取出實驗范圍后,選擇預(yù)測路段,預(yù)測路段如圖1 所示。
圖1 預(yù)測路段圖
由于天氣、樹木遮擋等因素,設(shè)備會出現(xiàn)定位誤差,導(dǎo)致存在一定的錯誤數(shù)據(jù),需對重復(fù)數(shù)據(jù)和偏移數(shù)據(jù)進行預(yù)處理。將預(yù)處理后的軌跡數(shù)據(jù)存儲在數(shù)據(jù)庫中,前27 天的數(shù)據(jù)存入歷史數(shù)據(jù)庫,第28 天的數(shù)據(jù)存入當前數(shù)據(jù)庫。本文以10 分鐘為預(yù)測時間間隔,預(yù)測18:10~18:50 這五個時間段的交通流量和交通流速度,這里的交通流速度指路段的平均速度。
在時空狀態(tài)向量中有2 個參數(shù)需要確定,通過多次實驗可得,時間狀態(tài)向量中的追溯時間d 的取值為1,預(yù)測函數(shù)中近鄰數(shù)量k 的取值為5。
分別對使用時空狀態(tài)向量預(yù)測的交通流速度和交通流量預(yù)測值和僅使用時間狀態(tài)向量預(yù)測的交通流速度和交通流量預(yù)測值使用平均絕對百分比誤差(Mean Absolute Percent Error, MAPE)進行精度評價,評價結(jié)果如下表所示。
表1 模型精度評價
從上表中可以看出使用時空狀態(tài)向量模型預(yù)測的精度比僅使用時間狀態(tài)向量模型預(yù)測的精度高,且MAPE 值都在15%以內(nèi)。根據(jù)MAPE 模型預(yù)測能力評價表,一般MAPE ≤20%,就認為模型預(yù)測是有效的。時空狀態(tài)向量的MAPE 均在15%以內(nèi),故模型的預(yù)測能力較好。在預(yù)測不同路段時可以根據(jù)路段實際情況調(diào)整參數(shù)設(shè)置。
(1)本文將時間和空間兩個因素加入預(yù)測模型,實驗表明時間和空間兩個因素共同影響著交通流的變化,利用這兩個因素對交通流進行預(yù)測更準確。
(2)本文在對軌跡數(shù)據(jù)的預(yù)處理方面還有待提高,尤其是軌跡數(shù)據(jù)量較大,會造成空間存儲和查詢方面的問題,后期對這一方面進行研究。