張國興,李亞東,張磊,樊慶富,李想
中國礦業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇徐州221116
基于SDZ-RNN的出租車出行目的地預(yù)測方法
張國興,李亞東,張磊,樊慶富,李想
中國礦業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇徐州221116
隨著城市化進程加快,城市中出租車數(shù)量在急劇增加,大大方便了人們出行。出租車所帶來的一系列問題也成為城市化建設(shè)中不可忽略的部分。其中,出租車目的地預(yù)測問題頗為引人關(guān)注,正確預(yù)測出租車出行目的地對于城市交通合理規(guī)劃起著至關(guān)重要的作用。城市中許多出租車都搭載全球定位系統(tǒng)GPS(Global Positioning System),出租車在運行過程中產(chǎn)生了大量GPS軌跡數(shù)據(jù),使得預(yù)測出租車目的地成為可能。
出租車目的地預(yù)測方法有多種,Mahmassani H S[1]基于滾動式預(yù)測模型,通過時間序列方法預(yù)測出租車出行目的地,但是此方法具有一定的滯后性。Tang J等[2]將出租車目的地預(yù)測問題轉(zhuǎn)換為動態(tài)規(guī)劃問題,但是此方法需要耗費大量資源。Xue A Y等[3]運用低階馬爾科夫方法進行出租車目的地預(yù)測,但是馬爾科夫預(yù)測方法僅僅依賴于前面2到3個GPS點,當(dāng)一條軌跡中相互依賴點的個數(shù)較多時,馬爾科夫預(yù)測方法并不能很好地解決這種軌跡點之間的長期依賴關(guān)系[4]。
為了解決這種長期依賴關(guān)系,de Brébisson A等[5]采用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)等預(yù)測方法來對出租車出行目的地進行預(yù)測,取得了不錯的效果。因為RNN的層與層之間是有關(guān)聯(lián)的,所以RNN的隱藏層能夠在預(yù)測過程中儲存這種軌跡點之間的長期依賴關(guān)系[6],從而很好地解決軌跡點之間的長期依賴問題。Hochreiter[7]也針對需要解決的長期依賴問題,在RNN的基礎(chǔ)上提出了一種LSTM[8](Long Short-Term Memory)模型,被廣泛應(yīng)用于時間序列數(shù)據(jù)來解決長期依賴關(guān)系。而Tang S[9]針對用戶可能需要的短期興趣,提出了一種BLSTM(Bidirectional Long Short-Term Memory)模型,在MovieLens[10]數(shù)據(jù)集上效果顯著。
但是RNN預(yù)測方法在解決長期依賴過程中,隨著數(shù)據(jù)量的增大,RNN的隱藏層對較小的擾動變得十分敏感,較小的擾動就會導(dǎo)致RNN產(chǎn)生的中間狀態(tài)中的錯誤成分在傳播過程中被指數(shù)級放大,最終導(dǎo)致預(yù)測的準(zhǔn)確率不夠高。
為了限制這種狀態(tài)中錯誤成分的傳輸,保證正確成分的傳輸,Hinton[11]等提出了dropout,概率性地完全保留或者直接舍棄某些輸出狀態(tài)。dropout雖然能在一定程度上遏制錯誤狀態(tài)的傳輸[12],但它設(shè)置某一些神經(jīng)元的激活函數(shù)為0,一定程度上舍棄了正確的輸出狀態(tài)。Krueger D[13]提出了一種改進的方法zoneout[13]。zoneout用它本身激活函數(shù)隨機地代替一些神經(jīng)元激活函數(shù),并不能很好地根據(jù)狀態(tài)本身來做出合適的選擇。2017年,Rocki K[14-15]等在zoneout的基礎(chǔ)上提出了一種概率化舍棄或保留前一次迭代所產(chǎn)生的輸出狀態(tài)的方法SDZ(Surprisal-Driven Zoneout)[14],SDZ能夠根據(jù)狀態(tài)本身來確定該狀態(tài)的傳輸情況,以此來最大限度地保證狀態(tài)中正確成分的傳輸,遏制錯誤成分的傳輸。
由于SDZ能夠根據(jù)狀態(tài)本身來最大限度地保證該狀態(tài)中正確成分的傳輸,所以將SDZ應(yīng)用于RNN中,提出一種基于SDZ-RNN的出租車目的地預(yù)測方法:SRTDP。該方法采用SDZ來概率化神經(jīng)元狀態(tài)在隱藏層的傳輸,遏制狀態(tài)中錯誤成分的傳輸,保證狀態(tài)中正確成分的傳輸,從而降低擾動對RNN的影響,使得預(yù)測出的狀態(tài)與實際狀態(tài)更加接近,提高預(yù)測的準(zhǔn)確率。同時,SDZ的使用使得SRTDP中參數(shù)更新變成了部分更新,而不是像普通RNN預(yù)測方法中需要更新全部參數(shù),降低了訓(xùn)練完成所耗費的時間。
出租車目的地預(yù)測以出租車GPS軌跡數(shù)據(jù)為輸入,通過軌跡數(shù)據(jù)的內(nèi)在關(guān)系,預(yù)測出租車目的地。
定義1出租車軌跡序列Tk。Tk={Pk1,Pk2,…,Pki,…,Pkn},軌跡序列Tk中共有n個GPS點,其中Pki(n≥i≥1)代表軌跡序列中每一個GPS數(shù)據(jù)點,每一個GPS點包含經(jīng)緯度信息。
定義2預(yù)測的目的地x。預(yù)測目的地就是通過RNN預(yù)測出軌跡序列目的地的GPS點,其中包括對出租車目的地預(yù)測的經(jīng)度λx和緯度φx,即x(λx,φx)。
定義3Haversine距離DH和等距形公式距離DE。半正矢距離公式可以計算出預(yù)測目的地x和真實目的地y之間的距離:
其中λy,λx分別代表真實目的地y和預(yù)測目的地x的經(jīng)度,φy,φx分別代表其緯度,R代表地球半徑取值為6 371 km。通過計算DH(x,y)返回真實目的地y和預(yù)測目的地x兩地之間的距離,單位為km。
為簡化計算,使用近似的等矩形公式來計算兩地之間的距離:
2.2.1 SDZ(Surprisal-Driven Zoneout)
在SDZ中,通過Zt來控制狀態(tài)的傳輸。Zt的生成以及Zt如何影響神經(jīng)元輸出如圖1所示。
圖1 SDZ結(jié)構(gòu)
SDZ是在原始LSTM上增加了一個反饋環(huán),如圖1中虛線所示。這個反饋環(huán)能夠根據(jù)當(dāng)前獲得的前一次迭代神經(jīng)元輸出pt-1,產(chǎn)生一個參數(shù)Zt來影響該神經(jīng)單元的記憶狀態(tài)ct(可以理解通過Zt來過濾ct)。
在圖1中,st定義如下:
其中ft,it,ot代表相應(yīng)門限的輸出狀態(tài),ut代表在激活函數(shù)tanh的作用下處理輸入數(shù)據(jù)和隱藏層狀態(tài)形成的值。W,U,V代表各個分支的權(quán)重,ht-1代表在t-1時刻隱藏層的狀態(tài),b代表各個門限的偏移量。
設(shè)置一個變量St,使得這個變量等于t-1時刻輸出層的輸出pt-1減去t時刻的輸入數(shù)據(jù)xt。由變量St作用產(chǎn)生zt,公式如下:
其中公式(10)中τ代表一個閾值參數(shù),用于保持數(shù)值穩(wěn)定,WTet是一個隱藏層狀態(tài)h→神經(jīng)元輸出et的權(quán)重矩陣。同時zt攜帶參數(shù)更新的信息,由zt可以確定哪些參數(shù)需要更新而不是更新全部參數(shù)。根據(jù)zt的值簡化成一個參數(shù)zt,當(dāng)zt≤0時,表明誤差較大,將其舍去,故取zt為0;當(dāng)zt>0,表明相鄰狀態(tài)之間的差距較小,故取Zt=zt,公式如下:
Zt決定了神經(jīng)單元的記憶狀態(tài)ct。特殊的,當(dāng)Zt=0時,St將不會參與決定神經(jīng)單元的記憶狀態(tài),也就意味著沒有參數(shù)需要更新,公式如下:
從公式(12)中可以看出反饋環(huán)作用于t-1時刻神經(jīng)單元的記憶狀態(tài)ct-1,形成t時刻的神經(jīng)單元記憶狀態(tài)ct。在預(yù)測過程中,反饋環(huán)的加入使得SRTDP能夠最大限度地傳輸狀態(tài)中的正確成分,從而很好地消除擾動,增強SRTDP的魯棒性。
公式(13)、(14)表明激活函數(shù)tanh作用于ct,作用后的ct點乘輸出門限控制后的輸出狀態(tài)ot,從而得到在t時刻隱藏層狀態(tài)ht。由隱藏層到輸出層的輸出et:
Softmax回歸即為公式(16)得到概率分布p,進而得出預(yù)測目的地點x。
其中C為聚類點的個數(shù)。
2.2.2 基于SDZ-RNN的目的地預(yù)測方法框架
本文基于SDZ-RNN的目的地預(yù)測方法的關(guān)鍵在于:如何將SDZ整合到RNN中?;赟DZ-RNN的出租車目的地預(yù)測方法如圖2所示。
圖2中基于SDZ-RNN的目的地預(yù)測方法在輸入層將軌跡序列Tk和軌跡相關(guān)的嵌入數(shù)據(jù)包括出租車編號、一年的周數(shù)、一周的天數(shù)、一天的刻數(shù)、日期類型、站臺叫車起點和電話叫車起點共7種嵌入數(shù)據(jù)結(jié)合作為輸入數(shù)據(jù),其中軌跡序列按順序輸入到上述模型中,每個GPS點又包含經(jīng)緯度;從7種嵌入數(shù)據(jù)中各隨機選取10個。軌跡相關(guān)的嵌入數(shù)據(jù)充當(dāng)了軌跡的特征,原始軌跡數(shù)據(jù)和相應(yīng)的特征共同作為該方法的輸入。軌跡特征的加入使得預(yù)測過程中分類更加準(zhǔn)確從而提高了預(yù)測的準(zhǔn)確率。
圖2 基于SDZ-RNN的出租車目的地預(yù)測方法
隱藏層采用M個ReLU(Rectified Linear Unit)神經(jīng)元,對應(yīng)的激活函數(shù)也為ReLU。該函數(shù)將小于0的值過濾掉,大于0的值保持不變。通過激活函數(shù)將非線性元素加入到SRTDP中,增加了SRTDP的非線性映射學(xué)習(xí)能力。
輸出是對每個聚類點產(chǎn)生概率估計后所計算出的預(yù)測目的地。所以在原始輸出層神經(jīng)元的個數(shù)N由對軌跡數(shù)據(jù)聚類后產(chǎn)生的聚類個數(shù)C來確定,聚類算法采用的MeanShift(詳見theano)。假設(shè)在原始輸出層每個輸出神經(jīng)元對應(yīng)的原始輸出為ei(i≤N),在Softmax層將ei轉(zhuǎn)變成一個對應(yīng)聚類點的概率分布pi,見公式(16),進而得出預(yù)測的目的地。
整合SDZ到RNN中如圖2所示。在計算過程中,前一次迭代輸出層神經(jīng)元的輸出pt-1和xt(xt代表在t時刻模型的輸入數(shù)據(jù))作為后一次迭代輸入層神經(jīng)元的輸入,Zt由SDZ根據(jù)pt-1產(chǎn)生,輸入層神經(jīng)元的輸入在激活函數(shù)ReLU和Softmax的作用下產(chǎn)生神經(jīng)元輸出pt,pt又通過SDZ產(chǎn)生下一次迭代的Zt。如此循環(huán),在迭代完一次batch(訓(xùn)練的一次樣本)之后,將公式(3)得出的值作為損失函數(shù)來計算預(yù)測目的地和實際目的地之間的差距。由于Zt中攜帶參數(shù)更新信息,通過更新部分參數(shù)而不是全部參數(shù)使得SRTDP的訓(xùn)練時間減少;同時SDZ中的反饋環(huán)的加入提高了SRTDP的魯棒性,使之在隱藏層能夠輕松地應(yīng)對小的擾動,從而提高預(yù)測準(zhǔn)確率。
2.2.3 SRTDP提高精度和速度
傳統(tǒng)的RNN預(yù)測方法不能根據(jù)輸出層神經(jīng)元的輸出pt進行動態(tài)調(diào)整隱藏層神經(jīng)元的輸出ht,單純地將前一次迭代輸出層神經(jīng)元的輸出pt-1直接作為后一次迭代輸入層神經(jīng)元的輸入。應(yīng)用SDZ使得SRTDP加入一個反饋環(huán),可以根據(jù)pt-1來設(shè)置一個參數(shù)Zt,動態(tài)調(diào)整pt-1傳入后一次迭代過程,同時攜帶參數(shù)更新信息,這樣做的好處在于當(dāng)pt-1較小時(即預(yù)測結(jié)果越正確),相鄰的數(shù)據(jù)點也會被充分利用來預(yù)測目的地,進而可以提高預(yù)測準(zhǔn)確率,同時部分參數(shù)的更新也節(jié)約了時間。把SDZ應(yīng)用于文獻[5]中RNN來預(yù)測出租車出行目的地,改變神經(jīng)元輸出pt的影響方式。
在使用SRTDP預(yù)測方法時,改進了文獻[5]中RNN預(yù)測方法輸出神經(jīng)元的輸出pt在相鄰兩次迭代之間的傳遞方式,通過設(shè)置Zt來過濾前一次迭代神經(jīng)元的輸出pt-1,并且最大限度地保證pt-1中正確成分的傳播以及遏制錯誤成分的傳播,以此來保證神經(jīng)單元的記憶狀態(tài)ct能夠更加契合真實的單元狀態(tài),提高預(yù)測的準(zhǔn)確率;SDZ中Zt攜帶參數(shù)更新的信息,由Zt可以確定哪些參數(shù)需要更新而不是更新全部參數(shù),降低了訓(xùn)練完成時間。同時,SDZ由LSTM構(gòu)成,在解決長期依賴問題方面比RNN預(yù)測方法更有優(yōu)勢。
本文以波爾圖出租車軌跡數(shù)據(jù)[5]為實驗數(shù)據(jù)集。該數(shù)據(jù)集包含了2013年7月1日到2014年6月30日期間,在波爾圖(葡萄牙)采集的442輛出租車的軌跡數(shù)據(jù),軌跡數(shù)據(jù)包括:GPS點集合、出租車編號、一年的周數(shù)、一周的天數(shù)、一天的刻數(shù)、日期類型、站臺叫車起點和電話叫車起點。
首先隨機抽取原始數(shù)據(jù)集中15萬條軌跡數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,然后對抽取的軌跡數(shù)據(jù)做非空檢查,若該軌跡GPS點集合為空,則刪除該條軌跡數(shù)據(jù)。經(jīng)過處理,共獲得149 259條軌跡。
測試數(shù)據(jù)采用文獻[5]中所用的320條軌跡數(shù)據(jù)。
實驗程序采用Python2.7編寫,使用theano、fuel、blocks等第三方庫。實驗操作系統(tǒng)采用Ubuntu16.04。實驗硬件環(huán)境:CPU四核,Core i5處理器2.3 GHz,內(nèi)存為8 GB。
3.2.1 實驗內(nèi)容
首先,采用MeanShift聚類算法對提取到的149 259條軌跡訓(xùn)練數(shù)據(jù)的GPS點集合進行聚類得到1 379個簇,即公式(16)中,C=1 379。隱藏層神經(jīng)元個數(shù)M取值為500,原始輸出層神經(jīng)元個數(shù)。設(shè)置一個固定的學(xué)習(xí)率η=0.01,設(shè)置一個較低的學(xué)習(xí)率是為了保持訓(xùn)練過程的相對穩(wěn)定;動量系數(shù)α=0.9,主要為了改變梯度變化的幅度;權(quán)重初始值W為0.1,偏移量初始值b為0.01,設(shè)置較小的參數(shù)初始化是為了打破層與層之間的對稱性;batch_size為200,即每次訓(xùn)練在訓(xùn)練集中取200個樣本進行訓(xùn)練。在確定好初始參數(shù)之后,將GPS軌跡數(shù)據(jù)和對應(yīng)的嵌入數(shù)據(jù)共同作為SRTDP算法的輸入,SDZ-RNN開始訓(xùn)練。
模型訓(xùn)練完成之后,采用3.1節(jié)中測試數(shù)據(jù)集來測試訓(xùn)練好的模型。
3.2.2 結(jié)果分析
為了評估SRTDP在出租車目的地預(yù)測上的性能,將SRTDP預(yù)測方法的精度和速度與文獻[5]中的RNN預(yù)測方法作比較。使用平均距離誤差(Average Distance Error,ADE)和預(yù)測準(zhǔn)確率(Prediction Accuracy,PA)來量化SRTDP的性能。平均距離誤差(ADE)通過平均化每條軌跡的真實目的地和預(yù)測目的地之間的距離計算得出。真實目的地和預(yù)測目的地之間的距離在1.0 km之內(nèi)視為預(yù)測正確。
SRTDP預(yù)測方法和文獻[5]中的RNN預(yù)測方法的比較結(jié)果如圖3和圖4所示。
圖3 平均距離誤差比較
圖4 預(yù)測準(zhǔn)確率比較
在圖3中,SRTDP預(yù)測方法和文獻[5]中RNN預(yù)測方法的平均距離誤差(ADE)都隨著迭代次數(shù)的增加而降低,并且SRTDP預(yù)測方法的平均距離誤差(ADE)明顯低于文獻[5]中RNN預(yù)測方法。從圖3中還可以得出,SRTDP預(yù)測方法的最小平均距離誤差是2.24 km,而文獻[5]中RNN預(yù)測方法的只有3.14 km[5]。在最小平均距離誤差方面,SDZ-RNN比RNN降低了28%。在圖4中,SRTDP預(yù)測方法的預(yù)測準(zhǔn)確率(PA)明顯高于文獻[5]中RNN預(yù)測方法。SRTDP預(yù)測方法的最大預(yù)測準(zhǔn)確率是0.731,而文獻[5]中RNN預(yù)測方法只有0.611。在預(yù)測準(zhǔn)確率方面,SRTDP預(yù)測方法比文獻[5]中RNN預(yù)測方法提高了大約12%。SRTDP預(yù)測方法的精度優(yōu)于文獻[5]中RNN預(yù)測方法,因為SDZ的使用保證了隱藏層狀態(tài)中的正確成分的傳輸,遏制了錯誤成分的傳輸,使得預(yù)測出的狀態(tài)與真實狀態(tài)更加接近,進而提高預(yù)測的準(zhǔn)確率。
由公式(12)可知Zt參與決定了ct的形成,從而影響了預(yù)測的準(zhǔn)確率,在SRTDP預(yù)測方法中通過對Zt取不同的值來觀察Zt的敏感性,如圖5所示。
圖5 Zt取值不同時預(yù)測的平均距離誤差
在圖5中,Zt的取值越低使得平均距離誤差越低。當(dāng)Zt取0.3時,最小的平均距離誤差為2.55 km。當(dāng)Zt取值較低時意味著相鄰狀態(tài)之間的差距很小,預(yù)測出的狀態(tài)與真實狀態(tài)之間變化不大,進而降低了預(yù)測的平均距離誤差。
為了驗證SRTDP預(yù)測方法在解決長期依賴方面的優(yōu)勢,從數(shù)據(jù)集中挑選出GPS點多于200個的軌跡。SRTDP預(yù)測方法和文獻[5]中RNN預(yù)測方法在解決長期依賴方面的比較如圖6和圖7所示。
圖6 長期依賴的平均距離誤差比較
圖7 長期依賴的預(yù)測準(zhǔn)確率比較
在圖6和圖7中,SRTDP預(yù)測方法在解決長期依賴方面明顯好于文獻[5]中RNN預(yù)測方法,預(yù)測準(zhǔn)確率明顯提高,平均距離誤差大幅度降低。這是因為SRTDP預(yù)測方法中SDZ是由LSTM構(gòu)成的,在數(shù)量增大時仍然能夠很好地解決長期依賴。
最后,比較SRTDP預(yù)測方法和文獻[5]中RNN預(yù)測方法針對同樣的數(shù)據(jù)集模型訓(xùn)練完成所需要的時間,比較結(jié)果如圖8所示。
圖8 兩種方法的時間比較
在圖8中,SRTDP預(yù)測方法和模型訓(xùn)練完成的時間耗費明顯低于文獻[5]中RNN預(yù)測方法,SRTDP預(yù)測方法的最好結(jié)果是17 837 s,而文獻[5]中RNN預(yù)測方法的最好結(jié)果只有19 205 s,SRTDP預(yù)測方法在時間耗費方面比文獻[5]中RNN預(yù)測方法降低了7%,因為SRTDP預(yù)測方法通過每次更新部分參數(shù),而并不是像文獻[5]中RNN預(yù)測方法一樣每次更新全部的參數(shù),從而節(jié)省了時間。
為了進一步驗證SRTDP在精度和速度方面的優(yōu)勢,將SRTDP與采用dropout的RNN預(yù)測方法(dropout-RNN)和采用zoneout的RNN預(yù)測方法(zoneout-RNN)在預(yù)測準(zhǔn)確率,平均距離誤差,解決長期依賴和訓(xùn)練完成時間方面進行比較。
在圖9中,SRTDP預(yù)測方法的平均距離誤差(ADE)低于dropout-RNN方法和zoneout-RNN方法。對比三種方法的平均距離誤差的最小值,dropout-RNN為2.90 km,zoneout-RNN為2.73 km,而SRTDP只有2.24 km。在圖10中,SRTDP預(yù)測方法的預(yù)測準(zhǔn)確率(PA)也明顯高于dropout-RNN方法和zoneout-RNN方法,dropout-RNN的最大預(yù)測準(zhǔn)確率為0.645,zoneout-RNN為0.690,而SRTDP高達0.731。SRTDP能夠使得預(yù)測產(chǎn)生的狀態(tài)與真實狀態(tài)更加接近,提高預(yù)測準(zhǔn)確率。
圖9 平均距離誤差比較
圖10 預(yù)測準(zhǔn)確率比較
SRTDP、dropout-RNN和zoneout-RNN在解決長期依賴方面的比較如圖11和圖12所示。
圖11 長期依賴的平均距離誤差比較
圖12 長期依賴的預(yù)測準(zhǔn)確率比較
在圖11和圖12中,SRTDP預(yù)測方法在解決長期依賴方面明顯好于dropout-RNN方法和zoneout-RNN方法,預(yù)測準(zhǔn)確率明顯提高。
在圖13中,SRTDP、dropout-RNN和zoneout-RNN的訓(xùn)練完成時間相差不大。對比三種方法的最短訓(xùn)練完成時間,SRTDP為17 837 s,dropout-RNN為18 000 s,zoneout-RNN為17 900 s。三種方法在訓(xùn)練完成時間上基本一致。
圖13 訓(xùn)練完成時間比較
從實驗可以得出,SRTDP預(yù)測方法在精度和速度上都優(yōu)于文獻[5]中RNN預(yù)測方法。在時間耗費相差不大的基礎(chǔ)上,SRTDP預(yù)測方法比dropout-RNN和zoneout-RNN降低了預(yù)測的平均距離誤差,提高了預(yù)測的準(zhǔn)確率,在解決長期依賴方面也更有優(yōu)勢。
本文利用軌跡數(shù)據(jù),對出租車出行目的地進行預(yù)測,對比文獻[5]中已有的RNN預(yù)測方法,提出了一種將基于SDZ-RNN的出租車目的地預(yù)測方法:SRTDP。SRTDP預(yù)測方法能夠動態(tài)地改變神經(jīng)元輸出狀態(tài)在相鄰神經(jīng)元之間的傳輸,并且通過設(shè)置Zt來過濾前一神經(jīng)元的輸出狀態(tài),以此來保證神經(jīng)元記憶單元狀態(tài)能夠更加契合真實的單元狀態(tài),進而提高預(yù)測的準(zhǔn)確率;同時Zt攜帶的參數(shù)更新信息確定了哪些參數(shù)需要更新而不是更新全部參數(shù),節(jié)約了時間。實驗表明,SRTDP預(yù)測方法降低了預(yù)測的平均距離誤差,提高了預(yù)測的準(zhǔn)確率,在解決長期依賴方面也更有優(yōu)勢。
[1] Mahmassani H S.Dynamic network traffic assignment and simulation methodology for advanced system management applications[J].Networks and Spatial Economics,2001,1(3/4):267-292.
[2] Tang J,Song Y,Miller H J,et al.Estimating the most likely space-time paths,dwell times and path uncertainties from vehicle trajectory data:A time geographic method[J].Transportation Research Part C:Emerging Technologies,2016,66:176-194.
[3] Xue A Y,Zhang R,Zheng Y,et al.Destination prediction by sub-trajectory synthesis and privacy protection againstsuchprediction[C]//IEEEInternationalConference on Data Engineering,2013:254-265.
[4] Besse P C,Guillouet B,Loubes J M,et al.Destination prediction by trajectory distribution based model[J].IEEE Transactions on Intelligent Transportation System,2016.
[5] de Brébisson A,Simon é,Auvolat A,et al.Artificial neural networks applied to taxi destination prediction[J].arXiv preprint arXiv:1508.00021,2015.
[6] Baskar M K,Karafiát M,Burget L,et al.Residual memory networks:Feed-forward approach to learn long-term temporal dependencies[C]//2017 IEEE International ConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),2017:4810-4814.
[7] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[8] Endo Y,Nishida K,Toda H,et al.Predicting destinations from partial trajectories using recurrent neural network[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining.Cham:Springer,2017:160-172.
[9] Tang S,Wu Z,Chen K.Movie recommendation via BLSTM[C]//International Conference on Multimedia Modeling.Cham:Springer,2017:269-279.
[10] MovieLens[EB/OL].[2017-03-20].https://grouplens.org/datasets/movielens/Keogh.
[11] Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[12] Tan Y K,Xu X,Liu Y.Improved recurrent neural networks for session-based recommendations[C]//Proceedings of the 1st Workshop on Deep Learning for Recommender Systems,2016:17-22.
[13] Krueger D,Maharaj T,Kramár J,et al.Zoneout:Regularizing rnns by randomly preserving hidden activations[J].arXiv preprint arXiv:1606.01305,2016.
[14] Rocki K,Kornuta T,Maharaj T.Surprisal-driven zoneout[J].arXiv preprint arXiv:1610.07675,2016.
[15] Rocki K M.Surprisal-driven feedback in recurrent networks[J].arXiv preprint arXiv:1608.06027,2016.
ZHANG Guoxing,LI Yadong,ZHANG Lei,et al.Taxi travel destination prediction based on SDZ-RNN.Computer Engineering andApplications,2018,54(6):143-149.
ZHANG Guoxing,LI Yadong,ZHANG Lei,FAN Qingfu,LI Xiang
College of Computer Science and Technology,China University of Mining and Technology,Xuzhou,Jiangsu 221116,China
In the prediction of the taxi destination,the traditional Markov prediction method relies only on the first 2 to 3 GPS points,and does not apply to trajectories that have very long dependencies.In order to solve the long-term dependencies,this paper uses Recurrent Neural Network(RNN)to predict the taxi destination,this is because the multiple hidden layers of RNN can store this dependencies.However,with the increasing amount of data,the hidden layers of RNN is very sensitive to small perturbations and the perturbations will be exponentially enlarge in the latter part of prediction,reducing the prediction accuracy.In order to improve the prediction accuracy of taxi destination and reduce the training time,this paper applies SDZ to RNN,and proposes a new taxi destination prediction method based on SDZ-RNN(SRTDP).SDZ can not only improve the robustness of SRTDP,but also reduce the training time by adopting partial update instead of full update.Experiments show that SRTDP is superior to RNN prediction method in accuracy and speed,the prediction accuracy is improved by 12%,and the training completion time is reduced by 7%.
taxi destination prediction;recurrent neural networks;SRTDP method;prediction accuracy
在預(yù)測出租車目的地時,傳統(tǒng)的馬爾科夫預(yù)測方法僅僅依賴于前面2到3個GPS點,對于那種具有很長依賴關(guān)系的軌跡并不適用。為了解決這種長期依賴關(guān)系,采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)進行出租車目的地預(yù)測,因為RNN的多個隱藏層能夠存儲這種依賴關(guān)系。但是隨著數(shù)據(jù)量的增大,RNN的隱藏層對較小的擾動變得十分敏感,較小的擾動就會被指數(shù)級放大,最終導(dǎo)致預(yù)測準(zhǔn)確率降低。為了提高預(yù)測準(zhǔn)確率,同時縮短訓(xùn)練時間,將SDZ應(yīng)用到RNN中,提出一種基于SDZ-RNN的出租車目的地預(yù)測方法(SRTDP)。SDZ不但能夠提高SRTDP的魯棒性,而且SDZ采用局部更新而不是全部更新的方式,降低了訓(xùn)練時間。實驗表明,SRTDP在精度和速度上都優(yōu)于RNN預(yù)測方法,預(yù)測準(zhǔn)確率提高了12%,訓(xùn)練完成時間降低了7%。
出租車目的地預(yù)測;循環(huán)神經(jīng)網(wǎng)絡(luò);SRTDP方法;預(yù)測準(zhǔn)確率
2017-07-07
2017-09-12
1002-8331(2018)06-0143-07
A
TP312
10.3778/j.issn.1002-8331.1707-0110
中央高?;究蒲袠I(yè)務(wù)費專項資金(No.2014XT04);教育部博士點基金(No.20110095110010);江蘇省自然科學(xué)基金(No.BK20130208)。
張國興(1993—),男,碩士研究生,研究領(lǐng)域為移動對象軌跡數(shù)據(jù)挖掘,E-mail:zhangguoxing@cumt.edu.cn;李亞東(1993—),男,碩士研究生,研究領(lǐng)域為移動對象軌跡數(shù)據(jù)挖掘;張磊(1977—),男,博士,副教授,研究領(lǐng)域為移動對象軌跡數(shù)據(jù)挖掘;樊慶富(1993—),男,碩士研究生,研究領(lǐng)域為移動對象軌跡數(shù)據(jù)挖掘;李想(1993—),女,碩士研究生,研究領(lǐng)域為移動對象軌跡數(shù)據(jù)挖掘。