游 蘭,張涵鈺,韓凡宇,金 紅,崔海波,何 渡,汪坤鈺,鄭巧仙
(1.湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,湖北 武漢 430062;2.湖北省科技信息研究院,湖北 武漢 430071)
城市人群熱點(diǎn)指的是一個(gè)相較其他區(qū)域具有更多的人類活動(dòng)、居民出行次數(shù)以及交通流量較大的地理區(qū)域[1],相關(guān)預(yù)測研究對于城市感知和公共安全應(yīng)急決策具有重要的實(shí)際意義[2]。
近年來,許多國內(nèi)外學(xué)者圍繞基于出租車軌跡的城市熱點(diǎn)區(qū)域展開研究。這些方法大多使用空間聚類方法進(jìn)行城市熱點(diǎn)區(qū)域的空間規(guī)律分析,主要預(yù)測較短時(shí)間范圍內(nèi)的熱點(diǎn)趨勢[3-4]。城市人群熱點(diǎn)區(qū)域往往伴隨時(shí)空環(huán)境變化而快速演化,存在典型的空間相關(guān)性和時(shí)間相關(guān)性特點(diǎn)[5]。如何發(fā)掘利用熱點(diǎn)區(qū)域的時(shí)空相關(guān)性是精準(zhǔn)預(yù)測城市人群熱點(diǎn)變化趨勢的關(guān)鍵。
傳統(tǒng)時(shí)空數(shù)據(jù)預(yù)測研究常常采用單一卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks,CNNs)或循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNNs)進(jìn)行建模,忽略了時(shí)空同時(shí)相關(guān)性。同時(shí),也未考慮生活作息、天氣和環(huán)境等因素對城市人群活動(dòng)可能造成的影響[6]。通過結(jié)合卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)模型,可用于捕捉時(shí)空演變規(guī)律[7]。
近年來,混合神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用在各個(gè)研究領(lǐng)域,如游戲策略、語音識(shí)別等[8-10]。如何將城市人群的作息規(guī)律用于時(shí)空熱點(diǎn)預(yù)測是研究的難點(diǎn)。因此,該文提出了一種面向城市人群時(shí)空熱點(diǎn)預(yù)測的深度混合神經(jīng)網(wǎng)絡(luò)模型(CNN-Seq2Seq-Attention,CSA)結(jié)合生活作息規(guī)律的時(shí)空相關(guān)性對人群熱點(diǎn)分布進(jìn)行預(yù)測。
貢獻(xiàn)包括3個(gè)方面:
(1)提出一種基于城市人群生活作息的不等長時(shí)間片段劃分方法。通過在數(shù)據(jù)中區(qū)分不同作息時(shí)間片段中人群熱點(diǎn)的空間分布差異,幫助預(yù)測模型更準(zhǔn)確地捕獲不同作息片段間的人群流動(dòng)規(guī)律,從而提高城市熱點(diǎn)預(yù)測的準(zhǔn)確性。
(2)針對城市人群活動(dòng)中存在的高度時(shí)空相關(guān)性現(xiàn)象,提出了一種深度混合神經(jīng)網(wǎng)絡(luò)模型(CSA)用于城市人群熱點(diǎn)預(yù)測。該模型通過CNN提取不同區(qū)域網(wǎng)格間的空間相關(guān)性特征,并結(jié)合Seq2Seq和Attention注意力機(jī)制,對人群熱點(diǎn)在連續(xù)特征日中同等時(shí)間片段的時(shí)間相關(guān)性進(jìn)行建模。通過對人群熱點(diǎn)的時(shí)空屬性進(jìn)行多維建模,從而有效避免神經(jīng)網(wǎng)絡(luò)模型在預(yù)測時(shí)考慮因素不全的問題。
(3)采用了大規(guī)模真實(shí)的出租車軌跡數(shù)據(jù)進(jìn)行實(shí)驗(yàn),與傳統(tǒng)模型及其他預(yù)測神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了對比實(shí)驗(yàn),驗(yàn)證了CSA模型的有效性和優(yōu)越性,并對城市人群熱點(diǎn)變化規(guī)律進(jìn)行相關(guān)分析。
對于未來時(shí)空人群熱點(diǎn)預(yù)測,大多數(shù)學(xué)者常使用時(shí)序模型來處理時(shí)空數(shù)據(jù)。常見的時(shí)序預(yù)測模型包括移動(dòng)平均自回歸模型(ARMA)及其變種,如差分整合移動(dòng)平均自回歸模型(ARIMA)等[11-12]。上述模型難以發(fā)掘時(shí)空數(shù)據(jù)中的空間相關(guān)性規(guī)律。
在城市熱點(diǎn)預(yù)測研究中,越來越多的學(xué)者通過多種神經(jīng)網(wǎng)絡(luò)的結(jié)合來得到更為高效、準(zhǔn)確率更高的模型。Ma等人[13]通過二維時(shí)空矩陣將時(shí)空交通動(dòng)力學(xué)轉(zhuǎn)化為能夠描述交通流時(shí)空關(guān)系的圖像,并將CNN應(yīng)用到該圖像上提取出交通特征。Zhang等人[14]提出了基于CNN的深度時(shí)空模型(Deep-ST),該模型將時(shí)空數(shù)據(jù)網(wǎng)格化,并將模型分為最近、近期和遠(yuǎn)期三個(gè)模塊進(jìn)行卷積操作,后通過通道進(jìn)行數(shù)據(jù)連接,還加入了天氣、節(jié)假日特征進(jìn)行特征融合來進(jìn)行城市交通量的預(yù)測。 Zhang等人[15]在原有模型基礎(chǔ)上,提出了時(shí)空殘差網(wǎng)絡(luò)(ST-ResNet)。ResNet殘差模塊的加入使模型還能對遠(yuǎn)空間相關(guān)特征進(jìn)行卷積挖掘。 Deep-ST和ST-ResNet模型若要對未來多個(gè)時(shí)間片段的城市熱點(diǎn)情況進(jìn)行預(yù)測,需要通過迭代的方式完成。
基于CNN和RNN的各自特點(diǎn),越來越多的研究者在城市交通數(shù)據(jù)的預(yù)測中將兩種神經(jīng)網(wǎng)絡(luò)結(jié)合使用。Srivastava等人[16]提出使用RNN來對時(shí)空數(shù)據(jù)進(jìn)行預(yù)測。由于LSTM節(jié)點(diǎn)內(nèi)部的門結(jié)構(gòu)較為復(fù)雜,數(shù)據(jù)中相當(dāng)一部分信息在壓縮過程中被丟棄。Rodrigues等人[17]提出了一種結(jié)合字嵌入、一維CNN、RNN和注意力機(jī)制的模型來預(yù)測出租車需求量。Du等人[18]提出一種基于卷積LSTM和注意力機(jī)制的深度學(xué)習(xí)模型(STATF)來處理城市交通流預(yù)測任務(wù),考慮了交通流數(shù)據(jù)中的時(shí)空相關(guān)性,能更好地預(yù)測城市交通流。Lai等人[19]提出一種基于卷積LSTM和Stack-LSTM的模型(STPM),能夠同時(shí)捕捉事務(wù)時(shí)間依賴性、空間相關(guān)性與外部影響因素,對公交車到站時(shí)間的預(yù)測較準(zhǔn)確。這些研究已經(jīng)開始關(guān)注交通預(yù)測中的時(shí)間或空間相關(guān)性.
Wang等人[20]借助百度熱力圖,并結(jié)合Arc GIS,分析了武漢主城區(qū)人口在工作日和休息日流動(dòng)的時(shí)空特征。Wang等人[21]對傳統(tǒng)基于DBSCAN算法進(jìn)行了改進(jìn),更好地實(shí)現(xiàn)了出行熱點(diǎn)的聚類分析,為緩解交通壓力、改善居民出行體驗(yàn)提供一定參考。Liu等人[22]使用圖卷積算子來探索區(qū)域之間的相關(guān)性以建立多模態(tài),并將帶有注意力機(jī)制的基于圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于模型,以更好地建立相關(guān)區(qū)域關(guān)聯(lián)。
該文提出的CSA模型結(jié)合了RNN中的Seq2Seq神經(jīng)網(wǎng)絡(luò),動(dòng)態(tài)地呈現(xiàn)出軌跡數(shù)據(jù)的長期時(shí)間特征。通過Seq2Seq提取的長期時(shí)間特征,再將Attention融入模型中來學(xué)習(xí)連續(xù)多天之間的城市熱點(diǎn)變化關(guān)系。采用基于城市人群生活作息的時(shí)間片段劃分方法,將一天內(nèi)的24小時(shí)劃分成不等長的時(shí)間片段。并通過特征融合,提高模型的準(zhǔn)確性。
該文提出的CSA模型采用城市人群分布的歷史時(shí)空特征對未來一段時(shí)間的城市人群分布進(jìn)行預(yù)測,充分考慮了城市人群的空間相關(guān)性、時(shí)間相關(guān)性、生活作息規(guī)律等特征。
CSA模型包括四個(gè)部分,模型結(jié)構(gòu)框架如圖1所示。模型利用城市熱點(diǎn)分布的近期歷史數(shù)據(jù)預(yù)測后續(xù)連續(xù)多天的城市熱點(diǎn)變化趨勢。
圖1 CSA模型框架
在圖1中,①顯示了CSA模型的CNN部分。CSA模型利用CNN中的濾波器提取熱點(diǎn)區(qū)域的局部區(qū)域信息,并通過迭代卷積和池運(yùn)算提取較遠(yuǎn)區(qū)域的空間相關(guān)特征。
②是時(shí)間劃分的語義特征部分。該文將時(shí)間段特征分開劃分,在CNN提取特征向量后,將時(shí)間段特征作為特征向量的一個(gè)維度,對每個(gè)特征向量所處的時(shí)間段進(jìn)行縫合和標(biāo)記。
在③中,Seq2Seq編碼器通過對卷積網(wǎng)絡(luò)提取的城市空間特征進(jìn)行時(shí)間序列特征提取,通過LSTM的可記憶性提取該時(shí)間段的最近趨勢特征。解碼器使用LSTM對下一時(shí)期的城市熱點(diǎn)區(qū)域進(jìn)行明確的時(shí)間序列預(yù)測。
④為注意力機(jī)制部分。該文將一周7天標(biāo)識(shí)為不同的特征日,并在模型中引入注意機(jī)制,以自適應(yīng)地獲取特征日之間的關(guān)系。
(1)
(2)
未來m天的人群流量為該文的預(yù)測目標(biāo)。設(shè)學(xué)習(xí)函數(shù)為h(·),該函數(shù)使用歷史n天的流量預(yù)測未來m天的流量,如公式(3)。
(3)
城市不同區(qū)域人群熱點(diǎn)之間可能存在某種空間模式下的聯(lián)系,這種模式可能是并發(fā)關(guān)系,也可能是前后關(guān)系。比如,某個(gè)繁華的商圈附近的區(qū)域會(huì)由于緊鄰該商圈而出現(xiàn)人流量、交通量較多的情況,因此不同的熱點(diǎn)區(qū)域之間可能存在空間模式下的并發(fā)關(guān)系。上下班高峰期時(shí),由于人們是從工作區(qū)域回到生活區(qū)域,因此在高峰期前半段時(shí)間,工作區(qū)域及其附近的區(qū)域人流量大、交通密度高,后半段時(shí)間則是生活區(qū)域以及附近的區(qū)域人流量大、交通密度高,因此熱點(diǎn)區(qū)域之間可能存在空間模式下的先后關(guān)系。所以城市熱點(diǎn)區(qū)域的分布具有空間相關(guān)性。
當(dāng)CNN在圖像處理上應(yīng)用時(shí),能夠通過濾波器最大程度地利用圖片的局部信息對事物進(jìn)行特征提取,然后根據(jù)提取出來的特征對該事物進(jìn)行分類或者預(yù)測[23]。
CNN通常由N層組成,假設(shè)在CNN第l層的輸入為M*N*K的矩陣,那么第l層用來提取空間特征的濾波器可以被描述為M*N*K的矩陣,故第l層的輸入可以由以下式子表示:
(4)
其中,l∈{1,2,…,N},W為l-1層濾波器中的權(quán)重值。
圖1中①為文中模型的CNN部分,利用CNN中的濾波器提取熱點(diǎn)區(qū)域的局部區(qū)域信息,并通過反復(fù)的卷積和池化操作,提取出較遠(yuǎn)地區(qū)的空間相關(guān)特征。
該模型將時(shí)間分為不同的特征日,同時(shí)根據(jù)人們的作息時(shí)間特點(diǎn)將一天劃分為不同的時(shí)間片段。在CNN提取特征向量后,將時(shí)間片段特征作為特征向量的一個(gè)維度,對每個(gè)特征向量所處的時(shí)間片段進(jìn)行拼接標(biāo)記,以此來提高模型的預(yù)測準(zhǔn)確率。
基于城市人群的時(shí)空活動(dòng)規(guī)律分析,考慮一天中不同時(shí)間片段下城市熱點(diǎn)區(qū)域分布不同的情況,根據(jù)人們的作息時(shí)間特點(diǎn)將一天的24小時(shí)進(jìn)行了時(shí)間片段劃分,共分為表1中的8個(gè)時(shí)間片段。若將24小時(shí)視作集合D,D可表示為:
表1 時(shí)間分段
D={ti|0≤i≤7}
時(shí)間分段見表1。
表1展示了一天24小時(shí)劃分成的8個(gè)時(shí)間片段以及各時(shí)間段的作息特點(diǎn)。其中,由于t0時(shí)段人們的出行流量較低,故未對該時(shí)間段的熱點(diǎn)區(qū)域進(jìn)行分析。
對于一周7天而言,人們的出行規(guī)律也有差異,城市的熱點(diǎn)區(qū)域分布在一周7天內(nèi)也會(huì)存在差異。為了進(jìn)一步提高對未來一周的熱點(diǎn)區(qū)域分布的預(yù)測準(zhǔn)確性,將一周劃分為7個(gè)特征日。一周7天用集合W表示為:
W={Mon,Tue,Wed,Thu,Fri,Sat,Sun}
因此,W可被描述為:
W={Di|1≤i≤7}
為了捕獲人群熱點(diǎn)的時(shí)間相關(guān)性以及預(yù)測未來一段時(shí)間的熱點(diǎn)區(qū)域分布,使用Seq2Seq[24]作為熱點(diǎn)預(yù)測模型。其中,LSTM[25]和GRU[26]常用作Seq2Seq模型的編碼器和解碼器。
Seq2Seq模型利用兩個(gè)RNN,其中一個(gè)RNN作為encoder,即編碼器,負(fù)責(zé)將輸入序列壓縮成中間狀態(tài)向量C,生成的狀態(tài)向量C稱作是這個(gè)輸入序列的語義。另一個(gè)RNN作為decoder,即解碼器,負(fù)責(zé)將中間狀態(tài)向量C進(jìn)行解碼。
通常情況下,Seq2Seq只會(huì)產(chǎn)生一個(gè)語義向量。該文使用的Seq2Seq模型中的RNN單元為LSTM。
CSA模型通過在Seq2Seq模型的編碼器與解碼器之間加入Attention機(jī)制考慮特征日對人群熱點(diǎn)預(yù)測的影響,使得捕獲的時(shí)間相關(guān)性符合人群每周的出行規(guī)律,提高了預(yù)測準(zhǔn)確度。
公式如下:
P(yt|{y1,y2,…,yi-1},X)=g(yi-1,si,ci)
(5)
si=f(si-1,yi-1,ci)
(6)
(7)
式中,g函數(shù)代表的是非線性激活函數(shù),si表示解碼器i時(shí)刻的隱藏狀態(tài),這里的條件概率與每個(gè)目標(biāo)輸出yi相對應(yīng)的內(nèi)容向量ci有關(guān)。在Seq2Seq模型中,只有一個(gè)語義向量c·s為隱藏層輸出。式7中ci是由編碼時(shí)的隱藏向量序列(h1,…,hTx)按權(quán)重相加得到的。
將隱藏向量序列按權(quán)重相加,表示在生成第j個(gè)輸出時(shí)的注意力分配是不同的。aij的值越高,表示第i個(gè)輸出在第j個(gè)輸入上分配的注意力越多,在生成第i個(gè)輸出的時(shí)候受第j個(gè)輸入的影響也就越大。
aij的權(quán)重值由第i-1個(gè)輸出隱藏狀態(tài)si-1和輸入中各個(gè)隱藏狀態(tài)共同決定,即:
eij=b(si-1,hj)
(8)
(9)
si-1先與每個(gè)h分別計(jì)算得到一個(gè)數(shù)值eij,然后使用softmax函數(shù)得到i時(shí)刻的輸出在Tx個(gè)輸入隱藏狀態(tài)中的注意力分配向量。這個(gè)分配向量也就是計(jì)算式(7)中ci的權(quán)重。
城市出租車不受線路和時(shí)間的約束,是最靈活、覆蓋范圍最廣的軌跡數(shù)據(jù),且精度較高、較少涉及隱私問題,常被作為軌跡數(shù)據(jù)研究和應(yīng)用的主要數(shù)據(jù)集。
軌跡點(diǎn)g具有T_TargetID(車牌號(hào))、T_UTCTime(時(shí)間戳)、T_Longtitude(經(jīng)度)、T_Latitude(緯度)、T_Speed(行駛速度)、T_Heading(行駛方向)、T_Status(搭客狀態(tài))等屬性。由于建立的模型只需要考慮軌跡點(diǎn)所在的時(shí)間和所處位置,因此只保留了T_UTCTime 、T_Longtitude 和T_Latitude 這三個(gè)屬性特征值。
該文使用了中國武漢某區(qū)域內(nèi)三個(gè)月的出租車數(shù)據(jù)進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集的統(tǒng)計(jì)信息如表2所示。
表2 數(shù)據(jù)集概況
將武漢市緯度在30.515 224至30.630 852,經(jīng)度在114.254 328至114.379 643的區(qū)域劃分成為14×15的網(wǎng)格,每個(gè)網(wǎng)格的長和寬大約為1.0 km。
此外,由于RNN算法對數(shù)字較為敏感,直接將軌跡點(diǎn)數(shù)帶入訓(xùn)練會(huì)導(dǎo)致誤差較大。在代入訓(xùn)練前,采用Min-Max方法將區(qū)域軌跡點(diǎn)數(shù)歸一化到[-1,1]范圍內(nèi),最終在比較預(yù)測值和真實(shí)值時(shí),再將預(yù)測值重新還原到原來的數(shù)字。歸一化算法如下:
(10)
其中,p為歸一化前的任一時(shí)間區(qū)域網(wǎng)格軌跡數(shù)目,pmax為所有時(shí)間區(qū)域網(wǎng)格軌跡點(diǎn)數(shù)目的最大值,pmin為所有時(shí)間區(qū)域網(wǎng)格軌跡點(diǎn)數(shù)目的最小值,p'為歸一化后的網(wǎng)格點(diǎn)軌跡數(shù)目。
文中模型對比方法如下:
(1)PreHA:將上一周某個(gè)時(shí)間片段該區(qū)域的軌跡點(diǎn)個(gè)數(shù),作為下一周該時(shí)間段該區(qū)域下的軌跡點(diǎn)個(gè)數(shù)。
(2)HA:將前幾周該時(shí)間片段下該區(qū)域的軌跡點(diǎn)個(gè)數(shù)平均值,作為下一周該時(shí)間片段該區(qū)域下的軌跡點(diǎn)個(gè)數(shù)。
(3)ARIMA模型:是一種廣泛應(yīng)用的時(shí)間序列預(yù)測方法。
(4)Seq2Seq:不考慮空間相關(guān)性,訓(xùn)練Seq2Seq模型利用前兩周數(shù)據(jù)對下一周的區(qū)域軌跡點(diǎn)個(gè)數(shù)進(jìn)行預(yù)測。
(5)CNN_Seq2Seq:考慮空間相關(guān)性和時(shí)間相關(guān)性,使用CNN和Seq2Seq聯(lián)合預(yù)測。
該文使用均方根誤差RMSE(Root Mean Square Error)作為模型預(yù)測效果的評價(jià)指標(biāo):
(11)
在訓(xùn)練集上驗(yàn)證模型的準(zhǔn)確性,對比實(shí)驗(yàn)中使用的濾波器數(shù)目分別為16、32和64,每個(gè)濾波器都為3*3的大小。其中Seq2Seq模型編碼器和解碼器的步長分別為14和7。模型訓(xùn)練時(shí)的學(xué)習(xí)速率大小為0.001。卷積操作后的激活函數(shù)和輸出層的激活函數(shù)分別為ReLU和Tanh。
模型的超參數(shù)設(shè)置如表3所示。
表3 超參數(shù)設(shè)置
3.5.1 不同參數(shù)影響對比
針對CSA模型中各種參數(shù)設(shè)置對時(shí)間預(yù)測的影響進(jìn)行一系列實(shí)驗(yàn),選取實(shí)現(xiàn)平均誤差最低的模型參數(shù),具體包括CSA中LSTM_num、卷積層數(shù)等對特征日、時(shí)間片段的影響。將實(shí)驗(yàn)結(jié)果繪制成圖2和圖3。其中,圖像的橫軸代表特征日(W1~7定義見2.3節(jié))和特征時(shí)間片段(t1~7定義見2.3節(jié))。圖像的縱軸代表均方根誤差(RMSE)。圖像繪制的曲線代表各模型參數(shù)對特征日、特征時(shí)間片段的均方根誤差影響。
(a)LSTM_num對特征日的作用效果
(a)卷積層數(shù)對特征日的作用效果
圖2展示了CSA模型中LSTM個(gè)數(shù)對特征日、特征時(shí)間片段的均方根誤差影響效果。比較3種LSTM個(gè)數(shù)參數(shù),當(dāng)參數(shù)值為250時(shí),平均RMSE最小。
圖3展示了CSA模型中卷積層數(shù)對特征日、特征時(shí)間片段的均方根誤差影響效果。比較4種卷積層數(shù)參數(shù),當(dāng)參數(shù)值為2時(shí),平均RMSE最小。
綜上所述,在CSA模型中時(shí)間特征維度為20,濾波器數(shù)目為32,LSTM_num為250和卷積層數(shù)為2時(shí),模型訓(xùn)練出的效果達(dá)到最佳狀態(tài),RMSE=73.265 542 5。
3.5.2 與不同模型對比
將CSA模型與3.3節(jié)提到的5種基準(zhǔn)模型進(jìn)行對比。如圖4所示,較為傳統(tǒng)的PreHA、HA和ARIMA時(shí)序模型沒有神經(jīng)網(wǎng)絡(luò)算法(CNN、CNN-Seq2seq)的實(shí)驗(yàn)效果好。在對比實(shí)驗(yàn)的3個(gè)神經(jīng)網(wǎng)絡(luò)模型中,CSA模型較Seq2Seq而言,不僅能夠利用CNN提取空間特征,還能夠在Attention機(jī)制的作用下,較CNN_Seq2Seq模型而言,又提高了準(zhǔn)確率。因此,在6個(gè)模型中,CSA模型效果最好。
圖4 模型實(shí)驗(yàn)結(jié)果
為了驗(yàn)證人們每周的出行規(guī)律以及每日的生活作息規(guī)律能夠被CSA模型學(xué)習(xí)并產(chǎn)生作用,隨機(jī)采用了一組城市人群流量熱點(diǎn)的預(yù)測結(jié)果進(jìn)行了城市熱點(diǎn)的時(shí)空熱力分析及可視化對比。
圖5中(a)~(d)是2014年3月4日周二7:00-8:59、18:00—20:59以及前一周周二2月25日相應(yīng)時(shí)間段的時(shí)空熱力分布。其中,序號(hào)①對應(yīng)的是漢口火車站及周邊區(qū)域。序號(hào)②對應(yīng)的是武漢市洪山區(qū)光谷廣場及周圍住宅區(qū)。從四張圖可以看出,序號(hào)①區(qū)域即漢口火車站附近在大多數(shù)時(shí)間片段下人流量遠(yuǎn)遠(yuǎn)高于其它區(qū)域。對比圖(a)(b)與圖(c)(d)可以看出,相同特征日的人流量熱點(diǎn)分布具有很大相似性。由此證明,CSA模型通過劃分每周的特征日以及每日的不等長時(shí)間片段考慮了出行規(guī)律和作息規(guī)律對人群流量的影響。并且這些規(guī)律能被CSA模型學(xué)習(xí)并產(chǎn)生作用。這是CSA模型預(yù)測準(zhǔn)確度高于其余模型的重要原因。
(a)2014年3月4日7:00-8:59
挖掘和利用熱區(qū)的時(shí)空相關(guān)性是精準(zhǔn)預(yù)測城市人群熱點(diǎn)變化的關(guān)鍵難點(diǎn)。基于城市熱點(diǎn)區(qū)域的時(shí)間相關(guān)性、空間相關(guān)性特點(diǎn)以及城市居民生活作息規(guī)律,提出了一種面向城市人群時(shí)空熱點(diǎn)預(yù)測的深度混合神經(jīng)網(wǎng)絡(luò)模型CSA。CSA模型結(jié)合了Seq2Seq神經(jīng)網(wǎng)絡(luò)以動(dòng)態(tài)呈現(xiàn)軌跡數(shù)據(jù)的長時(shí)時(shí)間特征,通過Seq2Seq提取的長期時(shí)間特征反映熱點(diǎn)區(qū)域的近段時(shí)間的趨勢變化。根據(jù)Attention機(jī)制能夠有效得到Seq2Seq中編碼器序列各時(shí)間點(diǎn)對解碼器序列各時(shí)間點(diǎn)的不同重要程度,將其融入模型。
實(shí)驗(yàn)采用中國武漢某區(qū)域內(nèi)三個(gè)月的真實(shí)出租車軌跡數(shù)據(jù)進(jìn)行實(shí)驗(yàn),展開了大量對比實(shí)驗(yàn)和分析,驗(yàn)證了CSA模型的效果和優(yōu)勢。但CSA模型仍有不足,例如天氣、節(jié)假日對居民出行有一定影響,城市熱點(diǎn)區(qū)域會(huì)有不同的變化。在后續(xù)研究中,會(huì)繼續(xù)將天氣、休假等因素加入考慮。