(西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055)
近年來,隨著我國旅游人數(shù)的急劇增長,旅游景區(qū)景點飽和、游客擁擠等問題也日益突顯出來,進而影響游客的出游體驗和旅游業(yè)發(fā)展。因此,準確地預(yù)測區(qū)域旅游客流量能夠為景區(qū)管理者快速決策提供幫助,從而避免游客聚集,提高游客的安全性,進一步推動旅游業(yè)的持續(xù)發(fā)展。
目前,流量預(yù)測的方法較多,主要分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)的流量預(yù)測方法,如線性回歸法[1-2]、灰色預(yù)測法[3-4]、ARIMA法[5]、人工神經(jīng)網(wǎng)絡(luò)[6-9]等,這些方法很難準確預(yù)測波動性強、復(fù)雜非線性的區(qū)域旅游客流量,并且無法學(xué)習(xí)空間相關(guān)性。
隨著深度學(xué)習(xí)的發(fā)展,研究者將其運用在交通流量[10-12]、客流量[13-15]、燃氣負荷量[16]等流量預(yù)測上。Y.F.Li等人[17]采用長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)方法對旅游流量進行預(yù)測,實驗表明LSTM方法比自回歸集成移動平均(ARIMA)模型和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)有更好的預(yù)測效果,充分利用了旅游客流量數(shù)據(jù)的時間維度。但此方法沒有利用空間屬性,X.Zhan等人[18]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的交通流預(yù)測方法,使用浮動車的GPS軌跡數(shù)據(jù)來估算全市的交通量。X.Ma 等[19]提出了一種大規(guī)模交通網(wǎng)絡(luò)速度預(yù)測的深度卷積神經(jīng)網(wǎng)絡(luò),將時空矩陣轉(zhuǎn)換為圖像作為 CNN 的輸入??梢钥闯觯瑔我坏纳窠?jīng)網(wǎng)絡(luò)無法充分利用時空數(shù)據(jù)的多屬性特征。J.Zhang等人提出了一種基于深度學(xué)習(xí)的時空殘差網(wǎng)絡(luò)模型ST-ResNet,使用殘差網(wǎng)絡(luò)來模擬人群流量在時間上的相關(guān)性,將城市劃分為均勻的網(wǎng)格并使用ST-ResNet模型預(yù)測每個地區(qū)人群流入量和流出量[20-21]。段宗濤等人也將出租車GPS數(shù)據(jù)和天氣數(shù)據(jù)等轉(zhuǎn)化為柵格數(shù)據(jù),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)構(gòu)建了出租車需求預(yù)測模型[22]。
雖然以上方法考慮到了時空數(shù)據(jù)的多屬性問題,但是,區(qū)域客流量易受季節(jié)性影響,短期相關(guān)性更強,且波動性強。針對以上問題,本文提出用于區(qū)域客流量預(yù)測的改進Quad-ResNet模型,利用殘差網(wǎng)絡(luò)模擬時空數(shù)據(jù)的時間與空間特征,并且利用全連接網(wǎng)絡(luò)模擬季節(jié)性影響。為了驗證方法的可行性,在陜西省寶雞市扶風(fēng)縣法門鎮(zhèn)真實序列數(shù)據(jù)集上測試了Quad-ResNet模型與LSTM、CNN、ST-ResNet模型的性能,發(fā)現(xiàn)Quad-ResNet模型性能優(yōu)于LSTM、CNN、ST-ResNet模型。
本文的其余部分組織如下。第一節(jié)介紹基于時空殘差網(wǎng)絡(luò)的區(qū)域客流量預(yù)測方法。第二節(jié)討論了幾種選定模型的實驗設(shè)計和性能。最后,第三部分是結(jié)論。
htm,n= |{pi∈(m,n)∧pi∈P} |
(1)
式中,P是t時刻旅游景區(qū)中行人的位置點集合;pi是集合P中的一個位置點;pi∈(m,n)表示位置點pi在網(wǎng)格(m×n)內(nèi);|·|表示集合的基數(shù)。
1.2.1 空間影響
根據(jù)地理學(xué)第一定律可知,任何事物都是與其他事物相關(guān)的,且鄰近事物之間的相關(guān)性可能更強,距離越近的事物關(guān)聯(lián)可能越緊密[23]。因此,旅游景區(qū)相鄰區(qū)域的客流量會因為人群的移動而相互影響,即存在空間鄰近性。距離較遠的區(qū)域之間也可能相互影響,兩個相似區(qū)域的客流量變化情況呈現(xiàn)出一定的相關(guān)性,即為空間的相似性。
1.2.2 時間影響
旅游景區(qū)某一時刻區(qū)域客流量會受到前幾個時刻的影響,根據(jù)時間間隔的長短可以具體分為鄰近性、相似性、周期性、趨勢性。
1.2.2.1 鄰近性
圖1為五分鐘間隔所有區(qū)域總流量折線圖,從中可以看到,0∶00~6∶00客流量較少且逐漸減少,6∶00~12∶00客流量不斷增加,12∶30左右出現(xiàn)當(dāng)日的一個高峰,然后不斷振蕩直到20∶00,之后客流量開始逐步減少。對于一天各個時刻的客流量來說,每個時刻的客流量均會受到鄰近的前幾個時刻的影響,而且它也會影響之后幾個時刻的客流量,體現(xiàn)了區(qū)域客流量的鄰近性。
圖1 區(qū)域流量鄰近性
1.2.2.2 相似性
圖2將12∶00區(qū)域的客流量依次與11∶00、10∶00、9∶00區(qū)域客流量做差,差值大于10的區(qū)域用白色表示,其余區(qū)域用黑色表示。從圖2中可以看到,白色區(qū)域從整體上看屬于少數(shù),說明大部分區(qū)域客流量相差不大,體現(xiàn)了時間上的相似性。
圖2 區(qū)域流量相似性
1.2.2.3 周期性
圖3顯示了連續(xù)五天的區(qū)域客流量,從圖3可以看到每天的客流量變化趨勢是大體相同的,每天同一時刻的客流量與1天前、2天前的客流量存在相似性,呈現(xiàn)出區(qū)域客流量的周期性。
圖3 區(qū)域流量周期性
1.2.2.4 趨勢性
圖4顯示了時長為6個月,間隔為1周,每早8∶00的客流量,隨著氣溫變暖,同一時刻客流量增多,體現(xiàn)了區(qū)域客流量的趨勢性。
圖4 區(qū)域流量趨勢性
1.2.3 季節(jié)性影響
在區(qū)域客流量相關(guān)的研究中經(jīng)常會提到“季節(jié)性”這個概念,它反映了由于天氣因素、日歷效應(yīng)和時機決策的不同,客流量在時間分布上的不均勻,最終導(dǎo)致旅游市場具有明顯的淡旺季。具體在區(qū)域客流量的研究上,需要考慮的因素分為天氣和法定節(jié)假日等。
基于時空殘差網(wǎng)絡(luò)的區(qū)域客流量預(yù)測方法Quad-ResNet模型的整體架構(gòu)如圖5所示,模型主要分為5個部分,通過4個殘差網(wǎng)絡(luò)分別來模擬時間的鄰近性、相似性、周期性和趨勢性,一個兩層全連接網(wǎng)絡(luò)模擬季節(jié)性影響。殘差網(wǎng)絡(luò)由一個卷積層、L個殘差單元和一個卷積層組成,這種結(jié)構(gòu)可以模擬空間鄰近性和相似性。4個殘差網(wǎng)絡(luò)的輸出op[L + 2]、oq[L + 2]、or[L + 2]、os[L + 2]通過參數(shù)矩陣融合為of,of與全連接網(wǎng)絡(luò)的輸出oe進行融合。最后,通過Tanh函數(shù)將融合后的輸出映射到[-1,1]。
圖5 Quad-ResNet模型整體架構(gòu)
4個殘差網(wǎng)絡(luò)結(jié)構(gòu)是相同的,以鄰近性部分為例。應(yīng)用BN(Batch Normalization)[24]后殘差單元的計算如式(2)、式(3)所示:
a[l+1]=w[l+1]*g(a[l])
(2)
a[l+2]=w[l+2]*g(a[l+1])+a[l]
(3)
式中,*表示卷積操作;g表示激活函數(shù)ReLU;w[l+1]、w[l+2]是可學(xué)習(xí)參數(shù)。
鄰近性部分、相似性部分、周期性部分與趨勢性部分通過參數(shù)矩陣進行融合,融合后的輸出of如式(4)所示:
(4)
式中,*表示Hadamard積;wp、wq、wr、ws是可學(xué)習(xí)的參數(shù),分別用來調(diào)整鄰近性、相似性、周期性、趨勢性的影響程度。
(5)
模型采用MSE(Mean Square Error,均方誤差)來計算損失,損失函數(shù)L(θ)如式(6)所示:
(6)
2.1.1 實驗數(shù)據(jù)集
原始流量數(shù)據(jù)來源騰訊位置大數(shù)據(jù)網(wǎng)站,爬取陜西省寶雞市扶風(fēng)縣法門鎮(zhèn)2018年1月1日~2018年6月30日的APP定位數(shù)據(jù),時間間隔為5分鐘,轉(zhuǎn)換為區(qū)域客流量數(shù)據(jù)后,共包含52 128個時刻。
采用扶風(fēng)縣的歷史天氣數(shù)據(jù)作為法門鎮(zhèn)旅游景區(qū)的天氣數(shù)據(jù),天氣數(shù)據(jù)包含日期、天氣狀況、氣溫、風(fēng)力風(fēng)向這四個屬性。節(jié)假日數(shù)據(jù)來源于開放API,工作日標識為0,周末休息日標識為1,法定節(jié)假日標識為2。
2.1.2 超參數(shù)設(shè)置
Quad-ResNet模型使用Adam優(yōu)化算法進行訓(xùn)練,batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.0001,損失函數(shù)設(shè)置為MSE。鄰近性時間間隔的單位為1個時刻,相似性時間間隔的單位為1個小時,周期性時間間隔的單位為1天,趨勢性時間間隔的單位為1周。由于數(shù)據(jù)集的時間間隔是5分鐘,因此鄰近性時間間隔p=1,相似性時間間隔q=12,周期性時間間隔r=288,趨勢性時間間隔s=2016。
2.1.3 模型評估標準
采用RMSE(Root Mean Squared Error,均方根誤差)對模型進行評價,RMSE的計算如式(7)所示。RMSE越小則說明模型的誤差越小、精度越高。
(7)
2.1.4 參數(shù)選擇實驗
參數(shù)選擇實驗主要是對鄰近性序列長度、周期性序列長度、相似性序列長度、趨勢性序列長度與殘差單元數(shù)量進行選擇。
以鄰近性序列長度選擇實驗為例,實驗結(jié)果如圖6(a)所示。從圖中可以看到,隨著lp變大,RMSE首先減小然后平穩(wěn)最后增大。lp=0時,表示不使用鄰近性部分,導(dǎo)致RMSE很大,說明鄰近性部分有助于提高模型的精度。lp=2時,RMSE最小,表明此時模型的精度最高。lp=6時RMSE反而比之前更大,說明較長的鄰近性序列不但無法提升模型的精度反而可能導(dǎo)致模型的精度下降。因此,最終選取鄰近性序列長度lp=2,此時模型的誤差最小,精度最高。根據(jù)圖6(b)~6(e)所示,最終選取周期性序列長度lr=3,相似性序列長度lq=4,趨勢性序列長度ls=1,殘差單元數(shù)量為4。
圖6 參數(shù)選擇實驗結(jié)果圖
2.2.1 實驗設(shè)計
為了驗證模型的有效性,本文選取了3個模型ST-ResNet,LSTM,CNN與Quad-ResNet做性能比較,其中深度學(xué)習(xí)模型ST-ResNet,LSTM,CNN設(shè)置的參數(shù)值與Quad-ResNet中的保持一致。
2.2.2 實驗結(jié)果分析
各個模型的預(yù)測結(jié)果如表1示,從表可以看出Quad-ResNet模型的RMSE最小,說明該模型的預(yù)測精度最高。LSTM-3、LSTM-6、LSTM-12模型的RMSE只比Quad-ResNet模型的RMSE稍大一些,說明LSTM模型能夠有效地捕獲短期的時間相關(guān)性,并且得到較好的預(yù)測結(jié)果,但是空間相關(guān)性對于預(yù)測結(jié)果也有著重要的影響,不能只考慮時間相關(guān)性,否則無法進一步地提升精度。
表1 實驗結(jié)果對比表
LSTM-3、LSTM-6、LSTM-12、LSTM-144、LSTM-288模型的RMSE比較接近,明顯小于LSTM-2016模型,同時,隨著lookback的增加,模型的RMSE先減小后增大,說明LSTM模型可能很難捕獲非常長期的時間相關(guān)性(例如,一天、一周)。
CNN模型的RMSE明顯比Quad-ResNet、LSTM-3、LSTM-6、LSTM-12、LSTM-144、LSTM-288模型大,僅僅略小于LSTM-2016模型,說明淺層的CNN可能很難捕獲到足夠的空間相關(guān)性,導(dǎo)致模型的預(yù)測精度不佳。
ST-ResNet模型的RMSE大于Quad-ResNet模型,這是由于ST-ResNet模型只考慮了時間的鄰近性、周期性、趨勢性,沒有考慮時間的相似性,導(dǎo)致模型的精度無法進一步地提升,說明短期的時間相關(guān)性對區(qū)域客流量預(yù)測精度的影響明顯大于長期的時間相關(guān)性。鄰近性、相似性屬于短期的時間相關(guān)性,周期性、趨勢性屬于長期的時間相關(guān)性。Quad-ResNet模型考慮了時間的相似性,因此實驗結(jié)果好于ST-ResNet模型。
綜合以上各個結(jié)論可以得出,本文提出的針對區(qū)域客流量預(yù)測的Quad-ResNet模型的預(yù)測結(jié)果較好,該模型對時間相關(guān)性和空間相關(guān)性的考慮比較周全,具有一定的泛化能力,同時該模型在訓(xùn)練和預(yù)測上的操作明顯比LSTM模型更簡單方便,證明Quad-ResNet模型是一個優(yōu)秀高效的模型,適用于區(qū)域客流量的預(yù)測。
本文提出了一種基于時空殘差網(wǎng)絡(luò)的區(qū)域客流量預(yù)測方法,即根據(jù)行人定位數(shù)據(jù)、天氣和節(jié)假日數(shù)據(jù)預(yù)測每個地區(qū)的客流量,從而找到旅游景區(qū)的客流量熱點區(qū)域。本文選取了3個模型與 Quad-ResNet模型做性能比較,證明Quad-ResNe模型更適合區(qū)域客流量的預(yù)測。但是還有一些方面需要完善,本文的區(qū)域流量是通過行人數(shù)據(jù)得到的,如果可以融合更多的交通流量,比如自行車軌跡數(shù)據(jù)、出租車軌跡數(shù)據(jù)等其他數(shù)據(jù),在此基礎(chǔ)上預(yù)測的結(jié)果應(yīng)該更符合真實情況。本文考慮的影響因素也并不代表所有影響,未考慮到突發(fā)事件或一些未知的原因,如果可以挖掘出其他影響因素進行分析,從而增強預(yù)測模型的實際意義,進一步提高模型的精確性。