何 堅, 朱 喆, 王偉東, 于衛(wèi)國
(1.北京工業(yè)大學信息學部, 北京 100124;2.上海銀聯(lián)商務技術開發(fā)中心, 上海 200070)
自20世紀末以來,智慧交通系統(tǒng)(intelligent transport system, ITS)在世界各國得到大力提倡和快速發(fā)展, 駕駛員通過ITS可以方便地獲取感興趣的交通信息[1]. 停車誘導信息(parking guidance information, PGI)子系統(tǒng)作為 ITS的一個重要組成部分,可以為駕駛員提供所需的停車信息,使駕駛員找到最適合自己的停車場[2]. 已有PGI通常是通過事先部署的傳感器獲取實時的停車場空余泊位數(shù),并將停車場的信息提供給駕駛員,駕駛員在參考后決定前往哪個停車場[3]. 停車信息在駕駛員駛向停車場的過程中是動態(tài)變化的,駕駛員在前往停車場過程中收到的停車泊位空余數(shù)量與到達停車場后的實際泊位空余數(shù)量可能會有較大差距,導致到達停車場后駕駛員需要花費更多時間和油耗搜索可用停車場[4].
在相關研究中,停車可用性即停車泊位可用數(shù)量. 停車泊位占用率由可用停車泊位數(shù)量與泊位總數(shù)計算占比得出. 在為駕駛員提供實時停車泊位占用率情況下,結(jié)合停車場周圍線路的車流量等信息預測未來一段時間內(nèi)停車泊位占用率,可以幫助駕駛員高效地尋找到合適的停車場,避免因為停車場車輛流動造成的負面影響[5]. 其中,應用車流量和停車場信息等數(shù)據(jù)建立分析模型,進而預測未來停車泊位占用率的技術一直受到廣泛關注[6]. 依據(jù)預測方法是否需要用戶反饋的實時數(shù)據(jù),可分為實時在線預測(on-line)和線下預測(off-line).
在線預測通過與用戶互動,由用戶積極參與并提供實時信息進行預測. 在這種情況下,停車可用性預測大多作為智能停車系統(tǒng)的一部分,作為為用戶提供停車方案的考量因素之一,根據(jù)用戶提供的信息,考慮用戶偏好,進而為用戶提供個性化的服務. 例如,Caicedo等[7]采用概率模型和模擬停車預測技術開發(fā)了一個智能停車預約系統(tǒng)(intelligent parking reservation, IPR); Rajabioun等[8]實現(xiàn)了一個停車引導和信息系統(tǒng),其中包含了基于停車可用性概率分布的預測算法;Nandugudi等[9]依靠眾包系統(tǒng),通過用戶速度的改變判斷用戶的停車信息,并依此計算停車可用性. 上述智能停車系統(tǒng)功能豐富、擴展性強,其中依靠眾包系統(tǒng)的方式尤其具有消耗資源少、開放性強的優(yōu)勢,但這種在線預測的方式面臨的一個較大困難就是需要一定數(shù)量的用戶參與.
線下預測使用一些容易獲取的公開數(shù)據(jù)進行預測,具有不依賴用戶實時數(shù)據(jù)的特點. 時間序列建模是此類方式中一種很流行的技術. 例如:Ziat等[10]對異質(zhì)時間序列使用表示學習方法,對交通和泊位占用情況進行聯(lián)合預測;Vlahogianni等[11]使用神經(jīng)網(wǎng)絡對泊位占用時間序列進行預測,并應用生存分析預測停車位在隨后的時間空閑的概率. 這些方法很好地預測了時間依賴的停車行為,但對于基于空間區(qū)域的停車行為關注較少. 因此,有研究人員在對時間序列預測的基礎上集合空間因素進行停車泊位占用率預測研究. 例如:王豐元等[12]從空間維度分析土地特征和路網(wǎng)流量,在此基礎上建立預測模型;Rajabioun等[13]提出了基于時間和空間相關性的停車可用性自回歸模型. 上述方法在使用歷史數(shù)據(jù)的基礎上建立了完備的時空模型,考慮到了停車信息的時間相關性和空間相關性,但對諸如天氣等一些可能對預測結(jié)果有幫助的影響因素尚未考慮. 此外,也有研究人員不考慮時間序列特征,只從天氣、交通擁擠狀況等多維度因素進行預測研究. 例如,Pflügler等[14]使用多維度的公開數(shù)據(jù)對停車可用性進行了預測,并根據(jù)各個因素對改進預測的貢獻進行評估,研究結(jié)果表明:時間、周末、天氣等對停車泊位數(shù)據(jù)預測有顯著影響,事件、假日等因素的影響較弱.
針對已有線下停車泊位預測技術存在的問題,本文提出了一種基于時空多維度因果關系的停車泊位分析模型,它可以在對時間和空間關系挖掘的同時,關注天氣等更多影響因素,同時結(jié)合神經(jīng)網(wǎng)絡技術對停車泊位占用率進行預測. 本文借鑒了諾貝爾經(jīng)濟學獎獲得者Granger的因果關系思想,即如果對一個時間序列的預測能夠因為引入另一個時間序列的歷史作為已知而改進,則另一個時間序列構(gòu)成了這一序列的一個原因[15]. 同時,引入了空間相關性擴展這個概念,并應用于停車泊位因果關系分析. 由于影響停車泊位占用率的因素可能有很多,難以確定不同因素是否對停車泊位占用率有影響以及影響的大小. 對此,本文進一步引入神經(jīng)網(wǎng)絡,并通過歐盟FP7項目提供的CityPulse大數(shù)據(jù)進行樣本訓練,學習不同時空因果關系對停車泊位占用率影響的效應關系[16],進而實現(xiàn)停車泊位占用率的準確預測.
在停車泊位時空相關性分析基礎上,建立停車泊位占用率多維時空因果關系模型,并建立基于神經(jīng)網(wǎng)絡的停車泊位占用率預測算法.
CityPulse數(shù)據(jù)集中奧胡斯市某一停車場在2014年8月18日至24日一周內(nèi)停車泊位使用數(shù)量的變化趨勢如圖1所示. 由圖可見,該停車場星期一至星期五工作日的停車泊位使用數(shù)量的變化趨勢相似,即各時段線形相似,周末雖有起伏,但曲線形狀基本相似,表明停車泊位可用數(shù)量的變化規(guī)律是以d為單位呈周期性變化的,同時有顯著的相似性.
Pflügler等[14]認為位置和交通因素是影響泊位占用率的重要原因. 從定性分析角度看,當?shù)缆吩谕\噲鲋苓吳揖嚯x比較近時,道路上行駛的車輛才有進入停車場的可能性,相關性比較強. 隨著停車場與道路間距離的增大,車輛的目的地難以確定,相關性因此而減弱. 因此,可以停車場為中心,自內(nèi)而外計算停車場周圍道路車流量對停車泊位數(shù)量的影響(道路車流量對停車泊位預測精度的影響),并根據(jù)影響程度對停車場進行空間上的劃分,直接反映停車泊位數(shù)量與周邊道路的空間相關性. 圖2所示為本文在參考借鑒Mathur等[17]對停車區(qū)域的劃分后,針對CityPulse數(shù)據(jù)集中奧胡斯市的停車場按照停車場與道路距離及停車場周圍道路數(shù)量進行的區(qū)塊劃分,以其中3個停車場為例,其中紅色圓點為停車場.
時間序列建模是解決停車信息預測問題的有效方法. 格蘭杰因果關系模型主要是基于時間序列角度,對經(jīng)濟變量的因果關系進行分析,因此,考慮將格蘭杰因果關系做適當變型,嘗試將其引入停車信息預測中. 為了在關注時間相關性的同時,也考慮空間相關性及多因素的影響,本文將格蘭杰因果關系做適當擴展,即將空間相關性和多因素引入到格蘭杰因果關系模型中,并應用于停車泊位占用率預測.
為了定量描述空間相關性因素,本文針對CityPulse數(shù)據(jù)進行統(tǒng)計分析后,確定引入停車場周圍道路對泊位影響程度作為停車場的空間描述屬性,并以此來對城市中的停車場進行劃分,即以停車場為圓心,以其周圍盡可能多地影響停車泊位數(shù)量的臨近道路為屬性,選擇適當長度的半徑以畫圓的方式對停車場進行劃分. 圖3所示為奧胡斯市一處停車場周邊道路的劃分. 圖中紅色標記為停車場位置,黑色圓圈為劃分區(qū)域,藍色標記為選取的道路.
(1)
(2)
式中:zq(q=1,…,Q)表示Q維度的相關因素向量,如溫度、濕度等;wj3代表相關因素的影響程度;其他變量同式(1)中的相應變量.
在時空因果關系模型中影響停車場占用率的因素有多種,不同影響因素之間可能會有相關性. 同時,單個影響因素也可能有復雜的深層特征,使用傳統(tǒng)的自回歸方法難以分析不同影響因素間的復雜關系,導致停車泊位占用率的預測結(jié)果不夠準確. 因此,本文引入神經(jīng)網(wǎng)絡作為預測算法. 神經(jīng)網(wǎng)絡具有以下優(yōu)點:
1) 神經(jīng)網(wǎng)絡可以處理多維度的相關性強的數(shù)據(jù),即使在不能明確多維屬性的相互關聯(lián)的情況下.
2) 與一般機器學習方法相比,神經(jīng)網(wǎng)絡對規(guī)律復雜的特征分析表現(xiàn)更好.
3) 神經(jīng)網(wǎng)絡可以通過學習不斷完善模型,具有易修改性、靈活性和成長性強的優(yōu)點.
基于上述優(yōu)點,本文將神經(jīng)網(wǎng)絡與時空因果關系結(jié)合,預測未來停車泊位占用率. 傳統(tǒng)神經(jīng)網(wǎng)絡算法表述為
y=σ(wh…σ(w2·σ(w1·x+θ1)+θ2)…+θh)+θ
(3)
式中:x為包含n個輸入的列向量;σ為激活函數(shù);w為權重矩陣;θ為偏置;h為隱含層個數(shù);y為輸出值.
在式(3)基礎上,將時空特征和多維度因素融合的神經(jīng)網(wǎng)絡描述為
(4)
在此假設只有一個隱含層,隱含層神經(jīng)元個數(shù)為K. 式中:j1=t,j2=T+p+t,j3=2T+P+q+t;y、xp分別為停車泊位占用率的時空因果關系因素向量;zq為Q維度的相關影響因素向量. 神經(jīng)網(wǎng)絡輸入神經(jīng)元數(shù)量與多維度數(shù)據(jù)的維度相對應,由上述y、x、z的維度共同決定.
課題組采用歐盟FP7項目公開的CityPulse數(shù)據(jù)集(可在http:∥iot.ee.surrey.ac.uk:8080/index.html下載)進行算法驗證.
在使用這些數(shù)據(jù)之前參考了與該網(wǎng)站資源有關的研究資料[18]. 研究使用的原始數(shù)據(jù)集包括約55 000條停車數(shù)據(jù)、約87 000條車流量數(shù)據(jù)以及約17 000條天氣數(shù)據(jù). 不同數(shù)據(jù)的取樣周期略有差異,根據(jù)最大取樣周期對數(shù)據(jù)進行預處理,使這些數(shù)據(jù)的取樣周期同步為30 min.
針對數(shù)據(jù)集中車流量、天氣等數(shù)據(jù)取值單位和范圍不同等特征,采用
(5)
X=X*(Xmax-Xmin)+Xmin
(6)
對數(shù)據(jù)進行歸一化和反歸一化處理. 式中:X為原始數(shù)據(jù);X*為歸一化后數(shù)據(jù);Xmax、Xmin分別為原始數(shù)據(jù)的最大值、最小值.
為了有效地應用時空特性,將時間相關的有效數(shù)據(jù)劃分了3個時間段,每段0.5 h. 例如,若預測0.5 h后的停車泊位占用率,則使用當前數(shù)據(jù)、此前0.5 h的數(shù)據(jù)、此前1.0 h的數(shù)據(jù)用于預測. 同理,在訓練時使用此前0.5 h的數(shù)據(jù)、此前1.0 h的數(shù)據(jù)、此前1.5 h的數(shù)據(jù)預測此時的停車泊位占用率. 本文使用的數(shù)據(jù)以該停車場為圓心,方圓1 km為半徑,提取其中6條道路數(shù)據(jù)作為空間因素相關數(shù)據(jù),并提取區(qū)域內(nèi)氣溫、濕度等環(huán)境數(shù)據(jù).
為了能客觀評價預測效果,本文使用平均絕對誤差(mean absolute error, MAE)衡量預測效果. MAE的計算公式為
(7)
式中:X*為預測值;X為實際值;N為總樣本數(shù).
不同時間的停車泊位使用情況有明顯差異,此外有研究指出了一些可能影響停車泊位使用情況的因素[13-14]. 以時間因素為對照,分別驗證其他因素是否為停車泊位占有率的格蘭杰原因,即對預測結(jié)果產(chǎn)生影響,并據(jù)此確定基于多維時空因果關系的神經(jīng)網(wǎng)絡輸入. 用于驗證的停車場總?cè)萘繛?6輛車,驗證結(jié)果如表1所示.
表1 不同因素對停車泊位占用率的影響
確定神經(jīng)網(wǎng)絡的輸入包括星期、時間共2個輸入神經(jīng)元,涵蓋了一周7×24 h內(nèi)的所有時間,包含時間滯后的天氣信息(如空氣壓強、露點、濕度、溫度、風向、風速)共24個輸入神經(jīng)元,包含時間滯后的6條道路車流量信息共24個輸入神經(jīng)元以及3個輸入神經(jīng)元為此前的停車泊位占用率,共計53個輸入神經(jīng)元. 輸出神經(jīng)元的個數(shù)為1,輸出為停車泊位占用率預測值. 隱含層的設計根據(jù)經(jīng)驗和實驗效果,取2個隱含層,隱含層的神經(jīng)元個數(shù)分別為7、5. 本文采用了反向傳播(back propagation, BP)神經(jīng)網(wǎng)絡,這種算法應用廣泛,結(jié)構(gòu)簡單,方便用于數(shù)學分析[19]. 隱含層和輸出層的激活函數(shù)選擇對數(shù)S形轉(zhuǎn)移函數(shù),訓練函數(shù)使用梯度下降自適應學習率訓練函數(shù).
在生成神經(jīng)網(wǎng)絡的訓練集和驗證集時,將泊位占用率以0.1為間隔將數(shù)據(jù)平均分為10個區(qū)間,計算各區(qū)間之間的比例,并根據(jù)比例在各個區(qū)間隨機選取數(shù)據(jù). 由于數(shù)據(jù)存在缺失的原因,選擇其中一個停車場自2014年8月至10月的數(shù)據(jù)為例,包含2 452條預處理后的停車數(shù)據(jù)以及相關天氣數(shù)據(jù)、附近道路車流量數(shù)據(jù)做訓練. 其中,選取共200條數(shù)據(jù)作為驗證集,其余作為訓練集,并保證在每個區(qū)間的訓練數(shù)據(jù)與原數(shù)據(jù)的比例相等. 部分預處理后的訓練樣本如表2所示.
表2 部分用于實驗的訓練樣本
本文采用Matlab進行算法實現(xiàn),并利用上述預處理后的數(shù)據(jù)進行仿真驗證. 針對CityPulse中的數(shù)據(jù)集,根據(jù)實際歷史值對0.5 h后的泊位占用率做預測,然后將預測結(jié)果與實際占用率做比較分析. 在上述實驗中停車場總?cè)萘繛?6輛車,因為停車場的計數(shù)信息是每0.5 h更新一次,所以驗證的預測滯后也是0.5 h的倍數(shù). 如果數(shù)據(jù)的采集頻率更高,那么模型可以預測時間粒度更小的未來時刻停車泊位占用率,預測精度隨時間的增長而下降.
為了衡量添加時空因果關系和多維度影響因素后的模型的性能,使用不同預測方法對相同數(shù)據(jù)集進行預測[20]. 分別采用基于空間因素(道路信息)和天氣因素使用神經(jīng)網(wǎng)絡進行預測、基于時間序列使用線性回歸進行預測、基于時間序列使用神經(jīng)網(wǎng)絡進行預測、基于單一時間點的時空和天氣因素使用神經(jīng)網(wǎng)絡進行預測、基于時空因果關系因素(包括含時間滯后的天氣因素)使用神經(jīng)網(wǎng)絡進行預測的方法,預測包括0.5 h后和1.0 h后的停車泊位占用率,實驗結(jié)果反歸一化如表3所示.
實驗結(jié)果表明,對于總?cè)萘繛?6輛車的方法的停車場,使用基于時間序列的線性回歸方法對0.5 h后和1.0 h后的停車泊位預測誤差分別為3.753、5.034,基于時間序列的神經(jīng)網(wǎng)絡方法的預測誤差分別為3.021、3.866. 與線性回歸相比,神經(jīng)網(wǎng)絡預測誤差較小,預測精度更高. 時間相關性是一個很重要的因素,與僅包含道路、天氣的預測結(jié)果5.486、6.372相比,添加時間因素后,預測誤差降低至3.021、3.866,預測精度有顯著提升. 在考慮時間相關性的情況下,添加空間和天氣因素對提高預測精度有幫助,誤差下降至2.562、3.475. 添加時空因果關系(加入時間滯后),預測精度進一步提升,誤差下降至最低2.488、3.418. 多維度輸入的預測結(jié)果如圖4所示. 圖中顯示有一些點偏離回歸趨勢,可能的原因有很多,比如道路突發(fā)事件、周邊突發(fā)活動等.
表3 不同時空相關預測方法的泊位預測結(jié)果比較
為驗證本文提出方法的有效性,本文將相同訓練集和驗證集應用在其他基于時空相關性的停車泊位預測方法中做橫向?qū)Ρ?,包括Vlahogianni等[11]提出的基于時間序列的神經(jīng)網(wǎng)絡及生存分析預測方法和Rajabioun等[13]提出的基于時空相關性的自回歸預測方法. 計算MAE及絕對誤差AE小于20%、10%的預測結(jié)果占全部預測結(jié)果的比例,將實驗結(jié)果反歸一化,如表4所示.
表4 不同時空相關預測方法的泊位預測結(jié)果比較
實驗結(jié)果表明,對比使用神經(jīng)網(wǎng)絡及生成分析方法的預測誤差2.791、3.739和使用自回歸方法的預測誤差2.716、3.679,多維時空因果關系的神經(jīng)網(wǎng)絡預測方法誤差較小,絕對誤差小于20%、10%的預測結(jié)果占比更大,預測精度更高.
1) 本文提出了停車泊位占用率多維時空因果關系模型,并建立了基于神經(jīng)網(wǎng)絡的停車泊位占用率預測算法,可依據(jù)駕駛員預計到達停車場的時間,估算其到達時的停車泊位占用率,進而為駕駛員選擇停車場提供決策依據(jù).
2) 采用歐盟FP7項目提供的CityPulse數(shù)據(jù)集進行仿真實驗,本文方法與其他基于時空相關性的停車泊位預測方法相比,預測誤差更小,預測精度更高,證明了算法的有效性.