張 敏,卿粼波,王 巧,才虹麗,陳 楊
(1 四川大學(xué) 電子信息學(xué)院,成都 610065;2 四川通信科研規(guī)劃設(shè)計有限責(zé)任公司,成都 610065)
城市區(qū)域人流量預(yù)測在智慧交通系統(tǒng)中具有重大現(xiàn)實意義。例如,當(dāng)區(qū)域人流量過大、人群聚集程度較高時,如果不能及時察覺潛在的風(fēng)險,進(jìn)行科學(xué)的疏導(dǎo)和控制,很容易發(fā)生踩踏等事件[1-2]。城市區(qū)域人流量預(yù)測在智慧交通系統(tǒng)中具有重大現(xiàn)實意義,人群流動建模為日益嚴(yán)峻的交通狀況、公共衛(wèi)生安全、資源配置、風(fēng)險評估等問題提供有效的決策支持[3]。
在城市區(qū)域人流量預(yù)測問題中,傳統(tǒng)的建模思路難以同時有效的處理時序的兩級周期性和空間依賴性問題。2017 年,Zhang 等人[4]建立了基于深度殘差網(wǎng)絡(luò)的城市人流量預(yù)測模型ST-ResNet。其后,研究人員在此基礎(chǔ)上陸續(xù)提出了ConvGRU[5]等一系列模型,將每個網(wǎng)格區(qū)域的人流量用規(guī)則矩陣表征卷積輸入,表征人流量預(yù)測中的空間依賴關(guān)系。文獻(xiàn)[6]中提出了DeepSTN+模型,結(jié)合區(qū)域的功能特性,能夠捕捉更大范圍空間的依賴關(guān)系。文獻(xiàn)[7]中使用空間卷積,來構(gòu)建預(yù)測不規(guī)則區(qū)域的人流量模型MVGCN 等等。然而,上述傳統(tǒng)的區(qū)域人流量預(yù)測模型,沒有充分挖掘人流量數(shù)據(jù)的時間特征,雖利用深度學(xué)習(xí)進(jìn)行預(yù)測,但在數(shù)據(jù)量不足時,訓(xùn)練數(shù)據(jù)的性能會顯著下降。
本文數(shù)據(jù)來源于CCF 2020 重點區(qū)域人群密度預(yù)測[8],在Top1[9]模型基礎(chǔ)上,針對以上問題,考慮時序特征的兩級周期性,一方面利用圖神經(jīng)網(wǎng)絡(luò)(GNN)[10]提取空間特征,另一方面將空間區(qū)域特性因素納入其中,構(gòu)建模型預(yù)測城市區(qū)域未來一周分小時的人流量分布。
城市區(qū)域人流量預(yù)測相比一般的時序預(yù)測問題具有時序特征、區(qū)域特征,而時間特征具有兩級周期性。圖1 為一個星期內(nèi),北京市內(nèi)兩種類型區(qū)域24小時人流量統(tǒng)計圖。圖中很明顯地展示了城市區(qū)域人流量預(yù)測的時序特征與區(qū)域特性。
(1)天級別周期性:體現(xiàn)了每個區(qū)域在一天內(nèi)小時級別的周期性。例如圖中兩個區(qū)域人流量,由于人們每日作息影響呈現(xiàn)周期性變化,即早晨和晚上人流量驟減,中午達(dá)到高峰。
(2)周級別周期性:體現(xiàn)了每個區(qū)域周級別的周期性。圖中兩個區(qū)域人流量受工作日的人群出行規(guī)律的影響,工作日和周末的人流量差異較為明顯。
(3)區(qū)域特性:由于人的移動是發(fā)生在物理世界中,直接受到區(qū)域?qū)傩缘挠绊?。從圖中也可看出人流量的分布與功能區(qū)之間存在相關(guān)性。例如,北京站整體人流量較高,所以在構(gòu)建模型時應(yīng)當(dāng)充分考慮區(qū)域類型與時間的相關(guān)性對人流量的影響。
本文提出的基于混合時空感知網(wǎng)絡(luò)模型的完整網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。其中包括分為數(shù)據(jù)層、特征層和融合層。數(shù)據(jù)層選擇區(qū)域歷史人流量和區(qū)域?qū)傩詳?shù)據(jù)作為模型的輸入。首先進(jìn)行特征提取得到兩個級別的時序特征,通過圖神經(jīng)網(wǎng)絡(luò)(GNN)[10]提取空間特征;將時序特征和空間特征輸入到回歸樹模型和規(guī)則模型,對未來人流量進(jìn)行連續(xù)預(yù)測;最后融合功能類型、時間影響因子、區(qū)域特性因子輸出預(yù)測值。
1.3.1 時序特征提取
本文對相關(guān)數(shù)據(jù)進(jìn)行特征提取,得到區(qū)域人流量兩級時序特征。人流量具有天級別和周級別的兩級周期性,所以選擇預(yù)測方式分為水平方向預(yù)測與垂直方向預(yù)測,如圖3 所示。
圖3 兩級時序特征提取Fig.3 Two level sequential feature extraction
其中,水平方向預(yù)測主要基于歷史數(shù)據(jù)每天的相同小時進(jìn)行預(yù)測,這樣訓(xùn)練24 個回歸樹模型進(jìn)行預(yù)測,將預(yù)測的序列長度縮短到了7,垂直方向預(yù)測主要對歷史訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)計建模。
1.3.2 空間特征提取
本文利用圖神經(jīng)網(wǎng)絡(luò),對不規(guī)則的空間特征進(jìn)行提取。其基本原理如下:
將城市區(qū)域人流量的相關(guān)數(shù)據(jù)抽象成空間內(nèi)有意義的模式與特征后,再將圖轉(zhuǎn)化成代數(shù)形式來對空間特征進(jìn)行提取。
圖4 為以定點i計算出的核大小為1 的圖卷積。而定點i與4 個一階相鄰定點的空間依賴關(guān)系則為圖4 中的f(1)、f(2)、f(3)、f(4)。
圖4 區(qū)域人流量空間特征提取Fig.4 Extraction of spatial characteristics of regional passenger flow
本文使用LightGBM[11]和XGBoost[12]兩模型預(yù)測人群密度預(yù)測值flowi,d,h。其中,growthi,h表示區(qū)域i在第h小時的增長趨勢因子,ph和qh表示第h小時對應(yīng)的兩個模型,則第i個區(qū)域在第d天第h小時的人流量預(yù)測值為:
區(qū)域特性因子wp主要是計算同一時刻t內(nèi),遷入某一區(qū)域的人流量PE與遷出這一地區(qū)的人流量PR的比值,如公式(2)。
最后融合周級別周期因子α與天級別的影響因子β,可得到基于規(guī)則統(tǒng)計模型的人流量預(yù)測值為:
根據(jù)現(xiàn)實需求,本文選取的數(shù)據(jù)集包括北京市2020-01-17~2020-02-15 重點區(qū)域信息、100 個類別的重點區(qū)域小時級別的人群密度數(shù)據(jù)、城市間遷入遷出指數(shù)、網(wǎng)格聯(lián)系強度。預(yù)測接下來9 天北京市重點區(qū)域的人流量。所以要預(yù)測的序列長度為216,屬于長期序列預(yù)測問題。數(shù)據(jù)集的統(tǒng)計信息見表1。
表1 數(shù)據(jù)集統(tǒng)計信息Tab.1 Statistical information of data set
基于本文所構(gòu)建的模型,用均方根誤差RMSE(Root Mean Square Error)作為模型預(yù)測效果的評價指標(biāo)。
其中,ε表示城市的區(qū)域總數(shù);k表示預(yù)測的時間區(qū)間總數(shù);φ是預(yù)測值;是真實值。
為了驗證本文模型在區(qū)域人流量預(yù)測問題上的可行性,選擇以下基準(zhǔn)預(yù)測方法進(jìn)行對比。預(yù)測方法包括:時間序列預(yù)測模型和基于深度學(xué)習(xí)的預(yù)測模型。主要有長短期記憶網(wǎng)絡(luò)(LSTM)[13]、自回歸積分滑動平均模型(ARIMA)[14]、以及基礎(chǔ)方法(base)。
(1)ARIMA 模型:自回歸積分滑動平均模型,是時間序列預(yù)測模型中非常經(jīng)典的預(yù)測方法,ARIMA的預(yù)測結(jié)果較好,但模型對數(shù)據(jù)要求較高。
(2)LSTM 模型:長短期記憶模型是一種循環(huán)神經(jīng)網(wǎng)絡(luò),擅長處理序列類型的數(shù)據(jù)。
混合時空感知模型預(yù)測結(jié)果見表2。
表2 實驗結(jié)果Tab.2 Experimental results
本文提出一種基于混合時空感知網(wǎng)絡(luò)模型,用于解決城市區(qū)域人流量預(yù)測問題。該模型可以對影響區(qū)域人流量的兩類因素(即空間信息和時間信息)進(jìn)行建模,根據(jù)天周期性和周周期性進(jìn)行預(yù)測,將時序特征和空間特征分別輸入回歸樹模型和統(tǒng)計規(guī)則模型,對未來人群密度進(jìn)行連續(xù)預(yù)測。進(jìn)一步對回歸樹模型和統(tǒng)計規(guī)則模型的預(yù)測結(jié)果進(jìn)行加權(quán)求和,融合后效果顯著。通過對北京重點區(qū)域人流量數(shù)據(jù)驗證,證明本文提出的模型具有良好的效果。
當(dāng)前大部分的城市區(qū)域人流量預(yù)測模型都只考慮了某種單一的數(shù)據(jù)集,實際上,本模型可以考慮其他因素用于改進(jìn)城市區(qū)域人流量預(yù)測。為了驗證模型的魯棒性,不同城市需要用到更多的數(shù)據(jù)來驗證時空變化對預(yù)測精度的影響。同時為提高訓(xùn)練效率,可減少迭代次數(shù)以提高訓(xùn)練結(jié)果的準(zhǔn)確性。