黃敏,毛鋒,錢宇翔,沙志仁
(1. 中山大學智能工程學院,廣東 廣州 510006;2.廣東智能交通系統(tǒng)重點實驗室,廣東 廣州 510006;3. 廣東方緯科技有限公司,廣東 廣州 510006)
進入大數據時代,交通運輸管理和控制變得更加數據驅動[1-2]。近年來,大城市的出租車上都配備GPS傳感器。在城市交通系統(tǒng)中,出租車在滿足城市出行需求方面發(fā)揮著至關重要的作用。因其方便、舒適、快捷,已經成為城市中短距離出行的重要交通工具[3]。然而,現階段出租車服務存在一個矛盾。一方面,出租車空載率較高;另一方面,乘客搭乘出租車困難。這種現象隱含著出租車存在運行效率低的問題,也在一定程度上導致了環(huán)境污染和交通擁堵[4]。為了提高出租車服務的運行效率,一個重要的手段就是提高城市每個區(qū)域不同時段乘客出租車需求預測的準確性?,F有的交通預測方法可以分為兩類:基于時間信息方法和基于時空信息方法。大多數預測方法是利用時間信息來預測交通,并且交通數據總是表示為時間序列。最常見的方法是自回歸積分滑動平均模型(ARIMA)[5],通過挖掘交通流的時間變化模式,然后利用該信息進行預測。ARIMA模型假設未來時刻的交通量和歷史時刻交通量成線性關系。一般來說,未來交通量和歷史時刻交通量之間是非線性關系,且存在不確定性。因此,學者們又提出了許多非參數方法來表示交通量時間序列的不確定性和非線性關系,以及預測交通。如:支持向量回歸(SVR)模型[6-8],人工神經網絡(ANNs)[9-10]和貝葉斯網絡[11-12]。直觀地說,如果只利用時間信息預測交通,預測準確性是不夠的,特別是需要預測多個位置的交通情況。為了提高交通預測的準確性,研究者們進一步提出了使用交通時空特征信息的預測方法。常見的方法有輸入向量包含時空信息的深度學習[13],多變量時間序列方法[14-15]和基于張量的方法[16-17]。 這些方法利用由時間特征和空間特征組成的信息進行交通預測,它們通常比基于時間信息的方法能實現更好的預測效果。
對相關文獻進行回顧之后,在以前的工作中發(fā)現了兩個局限:① 基于時間信息的方法(SVR方法,ANNs方法等)忽略了交通空間維度包含的信息,僅僅使用時間維度的信息用于預測。而,交通系統(tǒng)是一個時空維度高度相關的系統(tǒng)[18];② 基于時空信息的方法,一個難點在于確定用于交通預測的時空特征信息,尤其是空間維度的特征信息。時空特征信息的確定將很大程度影響預測精度。上述所有方法,很難說在任何情況下一種方法明顯優(yōu)于其他方法。一個重要原因是,交通預測準確性很大程度取決交通時空特征信息的選擇。但研究表明[13],在使用深度學習方法進行交通預測時,具有良好的預測能力和魯棒性。本文結合基于時空信息方法和深度學習方法,提出一種使用dropconnect方法的深度學習網絡CorrelationNet, 用以預測乘客出租車需求。 該方法包括兩個階段:時空特征選擇和dropconnect正則化[19]。 在第一階段,分別分析乘客出租車需求在時間維度上和歷史時刻出租車需求的相關性,以及在空間維度上和附近區(qū)域出租車需求的相關性,并根據相關性分析結果確定用于交通預測的時空特征信息。另外,所設計的深度神經網絡添加了時空相關性分析機制,形成了新的深度學習網絡CorrelationNet。 在第二階段則使用dropconnect訓練新的深度學習網絡CorrelationNet,以防過度擬合。研究成果能有效提高乘客出租車需求預測的有效性。
DN=(d1,d2,…,dN)
(1)
(2)
其中,f1(·)表示乘客歷史出租車需求到未來時刻乘客出租車需求的映射函數。
基于時間信息的方法僅利用交通的時變特征信息,該方法需要解決的關鍵問題是,選擇前幾個歷史時段的乘客出租車需求用于未來時刻的預測。本文利用相關性分析來確定用于預測未來乘客出租車需求的歷史時段數目,并確定和各個區(qū)域乘客出租車需求相關性大的相鄰區(qū)域。 本文采用的相關性分析指標是皮爾遜相關系數。
(3)
其中,k表示用于預測乘客未來出租車需求的歷史時段數目,wi表示第i個時段乘客出租車需求對于未來時刻預測的相關權重。
(4)
(5)
(6)
通過計算di與其前k個時間間隔的時間特征之間的皮爾遜系數,可以得到一個相關系數矩陣:
(7)
(8)
其中,cov(di,dj)表示di、dj之間協(xié)方差,D(di)表示di方差。
將乘客出租車需求表示成時間序列,通常未來時刻乘客出租車需求與其前幾個時段需求相關。一般地,相關系數大的值,其對應的時間特征之間的相關性也大。對于每個時間間隔,通過移除相關系數小的時間特征,并確定h個時間特征用于乘車出租車需求預測。
1.2.2 空間相關性分析 乘客出租車需求空間相關性分析類似于時間相關性分析。不同之處在于,空間相關性分析只計算區(qū)域乘客出租車需求與其相鄰區(qū)域的皮爾遜系數。一個重要原因是在大城市,土地通常被規(guī)劃為不同的功能區(qū)域。城市居民在相同的功能區(qū)域具有相似的出行模式。因此,本文假設每個區(qū)域乘客出租車需求和其相鄰區(qū)域乘客出租車需求存在很大相關性。
(9)
對于每個區(qū)域Rj(j=1,2,…,M),計算與其相鄰區(qū)域dk,Rk∈A(Rj)的皮爾遜系數,可以得到區(qū)域Rj和其相鄰區(qū)域的相關系數向量Σj={Σj,k,Rk∈A(Rj)},并有:
(10)
對于每個區(qū)域Rj(j=1,2,…,M),將確定2個空間維度上和其乘客出租車需求相關性大的區(qū)域。本文只選擇2個空間相關性大的區(qū)域的原因是一些區(qū)域只有三個相鄰的區(qū)域,如果選擇3個或更多的空間特征用于預測,可能導致過擬合。
通過時空相關性分析,選擇用于乘客出租車需求預測的時空特征信息后,本文的研究問題可以進一步描述為:
對于多個區(qū)域Rj(j=1,2,…,M),在時間T(第i時間段內),將各個區(qū)域的時空特征信息綜合考慮,表示為:
X=(x1,x2,…,xM)T
Rj1,Rj2∈A(Rj)
(11)
(12)
其中,f2(·)表示乘客歷史出租車需求時空特征信息到未來時刻乘客出租車需求的映射函數。
本文采用深度學習方法來預測每個區(qū)域乘客出租車需求。盡管已經確定了用于預測的時空特征特征,但有些選擇的特征信息也可能和未來乘客出租車需求相關性小,甚至可能不相關。本文通過在神經網絡全連接層使用dropconnect[19]方法來表示這種不相關性。圖1給出了dropconnect網絡的圖示。
圖1 Dropconnect網絡
在dropconnect網絡,隨機地將節(jié)點中的每個與其相連的輸入權重以1-p的概率變?yōu)?。在訓練階段期間,神經網絡全連接層就會隨機變成各種稀疏的連接層,以減少過擬合。實驗表明,dropconnect可以提高神經網絡的泛化能力,提高預測準確性。
對于一個全連接網絡,假設輸入層是x,權重參數為W,偏置參數為b,激勵函數為a(·),輸出層為y,則可以將全連接層輸出用公式(13)表示:
y=a(Wx+b)
(13)
在神經網絡全連接層使用dropconnect方法時,輸出層可以表示為公式(14):
y=a((P·W)x+b)
(14)
其中,P是掩膜矩陣,它的每一個元素都滿足二項伯努利分布Pij~Bernouli(p)。
本文提出使用dropconnect方法的CorrelationNet用于乘客出租車需求預測,具體框架如圖2。和深度神經網絡比較,本文設計的神經網絡,在輸入層和特征空間之間添加了時空相關性分析機制,這種新的神經網絡稱之為CorrelationNet。同時將dropconnect應用于神經網絡每個隱藏層的全連接。 Lv等[13]指出,用神經網絡進行交通預測,隱藏層的最佳數量至少為2且不超過5,本文中的CorrelationNet由三層隱藏層組成。
圖2 使用dropconnect的CorrelationNet
本文在時間維度,將1天分成N個時間段;在空間維度,將實驗區(qū)域劃分成M個等面積的小區(qū)域。本文的主要目的是根據乘客歷史出租車需求時空特征信息,預測M個區(qū)域未來的乘客出租車需求。
從圖2可以看出,乘客出租車需求預測主要包含兩個步驟:時空特征選擇和模型學習。在步驟一,采用時空相關性分析,選擇和未來乘客出租車需求相關性大的時空特征信息。通過相關性分析,從M×N維輸入特征信息中選擇M×(h+2)維時空特征信息用于預測。步驟二的模型學習是個監(jiān)督學習問題。本文設計的CorrelationNet在每層隱藏層使用dropconnect方法。在隱藏層1,dropconnect權重參數矩陣維度是(h+2)×n1,并采用Relu函數作為激勵函數,就可以在隱藏層1得到M×n1維數據,并作為隱藏層2的輸入。經過三個隱藏層,最終在輸出層得到M×1維數據作為預測結果。
(15)
(16)
廣州位于中國南部,是廣東省的省會,常住人口約1 500萬人。為了評估新的深度學習網絡CorrelationNet的性能,將該算法應用于廣州市乘客出租車需求預測中。本文使用平均絕對誤差(MAE)和均方誤差(MSE)來評估預測方法的準確性,并將實驗結果與支持向量回歸(SVR)方法,人工神經網絡(ANN)方法的預測結果進行對比。
實驗數據集是來自廣州市1 800多輛出租車在2015年6月1日至6月24日之間的6億多條GPS記錄。每條記錄包含出租車ID,GPS記錄時間,GPS記錄的位置信息(經緯度),出租車的速度,出租車載客狀態(tài)等。 通過地圖匹配和檢測出租車載客狀態(tài)變化,可以對出租車每次載客的行駛路徑復原。
首先,確定乘客出租車需求預測的時間間隔。在交通預測問題中,時間間隔通常取5到30 min,進行短期交通預測。HCM[20]推薦使用15 min作為時間間隔,以利于后期的交通分析。然后,要解決的另一個重要問題是區(qū)域劃分。通常,出租車司機在某個區(qū)域下客后,他們會行駛到該區(qū)域及附近區(qū)域乘客經常搭乘出租車的地點。這樣的區(qū)域不能劃分太大,否則出租車司機就需要花費較長時間在該區(qū)域尋找需要搭乘出租車的乘客。本文采用Veloso等[21]在研究中的區(qū)域劃分方法,使用500 m×500 m的小方格將實驗區(qū)域劃分成等面積的小區(qū)域。通過該方法,可以將實驗區(qū)域劃分為983個小區(qū)域,本文選擇了983個小區(qū)域中的200個小區(qū)域進行實驗,選擇的區(qū)域如圖3所示。圖3中,一些區(qū)域無乘客搭乘出租車的數據,則刪除這些區(qū)域。
圖3 實驗區(qū)域乘客出租車需求熱力圖
很多指標可以評價實際觀測值和預測值之間的誤差,從而評估所提出預測方法的性能。本文使用兩個指標:平均絕對誤差(MAE)和均方誤差(MSE)來評估預測方法的準確性。該兩個指標的定義如下:
(17)
(18)
將所提出的深度學習網絡CorrelationNet的實驗結果,與支持向量回歸(SVR),人工神經網絡(ANN)和CorrelationNet方法的預測結果進行對比。 SVR和ANN方法是基于時間信息的預測方法。SVR法是通過尋找函數,擬合未來乘客出租車需求和歷史乘客出租車需求的線性及非線性關系。ANN法是將歷史乘客出租車需求輸入神經網絡,通過最小化乘客出租車需求觀測值和預測值的誤差平方和訓練網絡,然后進行預測。后兩種方法是基于時空信息的預測方法,差別是CorrelationNet方法在神經網絡的各層隱藏層沒有使用dropconnect。文中,使用廣州市2015年6月1日至6月21日之間工作日的出租車GPS數據進行實驗。以6月1日至6月5日、以及6月8日至6月12日的數據作為訓練集, 6月15日至6月19日的數據作為測試集。
表1給出了四種方法對測試數據集的預測結果。從表中可以看到,SVM方法在0~15 min和15~30 min時段內,乘客出租車需求預測優(yōu)于ANN方法。這表明SVR方法是一種相對先進的預測模型,優(yōu)于其它許多預測方法。將ANN方法與CorrelationNet方法進行比較,可以看出基于時空信息的方法比僅利用時間信息的方法擁有更好的性能。對比基于時空的兩種方法,可以看到使用dropconnect的CorrelationNet方法比CorrelationNet方法有更好的預測效果。這是因為在CorrelationNet中使用dropconnect可以減少過擬合,提高預測精度。另外,基于時空信息的兩種方法比基于時間信息的兩種方法,能達到更好的預測效果。在所有四種方法中,使用dropconnect的CorrelationNet方法具有最好的預測效果,這表明本文提出的方法更適合于乘客出租車需求預測。
圖4-5可視化了四種方法的預測結果。從圖中可以看出,對于0~15 min和15~30 min時段內的乘客出租車需求預測,使用dropconnect的CorrelationNet方法和SVR方法都可以達到不錯的預測結果。但,使用dropconnect的CorrelationNet方法在擬合偏差點方面比SVR方法具有更好的性能。對于ANN方法和CorrelationNet方法,可以看到一些區(qū)域乘客出租車需求預測結果是負值,和實際不符。這解釋了使用dropconnect的CorrelationNet方法性能優(yōu)于CorrelationNet方法的原因:當采用CorrelationNet方法進行預測時,利用訓練數據集訓練的網絡過擬合,因此它無法在測試數據集上達到良好的預測性能。
圖4 [0,15]min SVR, ANN, CorrelationNet and CorrelationNet with dropconnect方法的可視化預測結果
圖5 [15,30]min SVR, ANN, CorrelationNet and CorrelationNet with dropconnect方法的可視化預測結果
表1 SVR,ANN, CorrelationNet,CorrelationNet with dropconnect預測結果對比
深度學習和大數據挖掘, 在交通管理和控制方面的應用引起了學者關注。本文提出一種使用dropconnect的CorrelationNet方法,用于乘客出租車需求預測。該方法可以自動提取用于出租車需求預測的時空特征信息,并且減少過擬合,提高預測精度。實例證明,本文的預測算法在預測效果方面優(yōu)于SVR, ANN及CorrelationNet方法,更適合用于乘客出租車需求預測。利用該算法更有助于提高出租車服務和運行效率,使出租車在城市出行中變得更有競爭力。
出租車GPS數據不可避免的問題是數據缺失。在未來的工作中,將研究在不同數據缺失率情況下各方法的預測效果。此外,還將引入基于張量的方法以預測乘客出租車需求。