姜 山,丁治明,朱美玲,嚴(yán) 瑾,徐馨潤
1(中國科學(xué)院大學(xué),北京 100049)
2(中國科學(xué)院 軟件研究所,北京 100190)
3(大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100190)
時(shí)空圖建模(spatiotemporal graph modeling,簡稱STGM)是分析系統(tǒng)中各組件的空間關(guān)系和時(shí)間趨勢的一項(xiàng)重要技術(shù),時(shí)空圖建模技術(shù)屬于圖數(shù)據(jù)管理領(lǐng)域中有關(guān)圖結(jié)構(gòu)數(shù)據(jù)的上層應(yīng)用.如圖1 所示:在時(shí)空圖中,每個(gè)節(jié)點(diǎn)都有動態(tài)輸入特征.時(shí)空圖建模的目標(biāo)是:在給定圖結(jié)構(gòu)的情況下,對每個(gè)節(jié)點(diǎn)的動態(tài)特征進(jìn)行建模.這里的屬性特指圖結(jié)構(gòu)中節(jié)點(diǎn)的信號輸入屬性特征,如建模圖結(jié)構(gòu)下各節(jié)點(diǎn)的特征變化趨勢,從而完成對圖節(jié)點(diǎn)特征的預(yù)測分析.此外,時(shí)空圖建模技術(shù)具有廣泛的應(yīng)用場景,比如對城市道路交通參數(shù)預(yù)測[1]、出租車需求量預(yù)測[2]、行為識別[3]等.近年來,在深度學(xué)習(xí)技術(shù)的成功推動下,研究人員借鑒卷積網(wǎng)絡(luò)(convolution neural network,簡稱CNN)[4]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,簡稱RNN)[5]和深度自動編碼器(deep autoencoder,簡稱DAE)[6]的思想,定義和設(shè)計(jì)了用于處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型[7].隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,時(shí)空圖建模越來越受到研究者的廣泛關(guān)注.
Fig.1 Spatiotemporal graph modeling圖1 時(shí)空圖建模
時(shí)空圖建模是通過圖中節(jié)點(diǎn)間的依賴關(guān)系構(gòu)建圖節(jié)點(diǎn)的動態(tài)輸入[8].特別地,在城市道路短時(shí)交通速度和流量預(yù)測中,將安置在城市道路上的各個(gè)探測傳感器看作是節(jié)點(diǎn),那么布置在城市路網(wǎng)的交通傳感器就構(gòu)成一個(gè)圖形結(jié)構(gòu),圖中節(jié)點(diǎn)的連接邊是通過兩個(gè)節(jié)點(diǎn)的歐式距離來判定.由于城市道路中各交通參數(shù)受各種因素制約,比如一條道路上的交通過度擁擠將會導(dǎo)致進(jìn)入該道路的前序道路交通速度的降低,即一條道路的參數(shù)狀態(tài)會影響其相連接的另一輸入道路的交通狀態(tài),因此在對每條道路上的交通參數(shù)時(shí)間序列數(shù)據(jù)進(jìn)行建模時(shí),理應(yīng)將城市交通探測系統(tǒng)構(gòu)成的圖形結(jié)構(gòu)作為一種固有結(jié)構(gòu)先驗(yàn)知識來建模節(jié)點(diǎn)間相互依賴關(guān)系.
圖結(jié)構(gòu)具有豐富的空間屬性模式,對圖中各節(jié)點(diǎn)賦予時(shí)間依賴,則其就成為時(shí)空圖結(jié)構(gòu).如何同時(shí)捕捉圖的空間和時(shí)間相關(guān)性,是時(shí)空圖建模研究的核心難點(diǎn)問題.時(shí)空圖建模的傳統(tǒng)方法要么集中在圖結(jié)構(gòu)的關(guān)系性建模上,要么集中在節(jié)點(diǎn)級的時(shí)序建模上,往往忽略節(jié)點(diǎn)的空間關(guān)聯(lián)關(guān)系和時(shí)間關(guān)聯(lián)關(guān)系.由于現(xiàn)實(shí)世界中各網(wǎng)絡(luò)節(jié)點(diǎn)不僅受當(dāng)前狀態(tài)的影響,還要受到其領(lǐng)域節(jié)點(diǎn)的影響,此外還要受到歷史狀態(tài)累積的影響,因此,未考慮節(jié)點(diǎn)間的時(shí)空依賴關(guān)系的傳統(tǒng)建模方法顯然是不能捕獲節(jié)點(diǎn)間的長時(shí)間時(shí)空趨勢.本文主要瞄準(zhǔn)于靜態(tài)網(wǎng)絡(luò)場景下的時(shí)空圖建模,旨在同時(shí)捕獲圖結(jié)構(gòu)隱藏的時(shí)空依賴關(guān)系,并對節(jié)點(diǎn)特征進(jìn)行預(yù)測分析.本文在圖譜卷積操作的基礎(chǔ)上,針對現(xiàn)有時(shí)空圖建模的問題現(xiàn)狀,研究并提出了一個(gè)基于圖小波卷積神經(jīng)網(wǎng)絡(luò)的時(shí)空圖建模方法,稱為GWNN-STGM(graph wavelet convolutional neural network for spatiotemporal graph modeling).
在GWNN-STGM 模型中設(shè)計(jì)了一個(gè)圖小波卷積神經(jīng)網(wǎng)絡(luò)層,并在該網(wǎng)絡(luò)層中設(shè)計(jì)并引入了一個(gè)自適應(yīng)鄰接矩陣進(jìn)行節(jié)點(diǎn)嵌入學(xué)習(xí),使得模型能夠在不需要結(jié)構(gòu)先驗(yàn)知識的情況下,從數(shù)據(jù)集中自動發(fā)現(xiàn)隱藏的結(jié)構(gòu)信息.此外,采用堆疊的擴(kuò)張因果卷積來捕獲圖節(jié)點(diǎn)的時(shí)間相關(guān)性.隨著隱含層數(shù)目的增加,堆疊式的擴(kuò)張因果卷積神經(jīng)網(wǎng)絡(luò)(dilated causal convolutional neural network,簡稱DCCNN)[9]的感受野大小呈指數(shù)級增長.因此,GWNN-STGM 利用堆疊的擴(kuò)張因果卷積處理具有長時(shí)序列的時(shí)空圖形數(shù)據(jù),能夠有效地捕獲圖節(jié)點(diǎn)的時(shí)間相關(guān)性.
STGM 是分析系統(tǒng)中各組件的空間關(guān)系和時(shí)間趨勢的一項(xiàng)重要技術(shù).在對時(shí)空圖建模過程中,通常假設(shè)各對象之間的顯式連接關(guān)系是預(yù)先確定的,現(xiàn)有的方法大多捕捉固定圖形結(jié)構(gòu)的空間依賴性,但是這種顯式圖結(jié)構(gòu)不一定能夠真實(shí)地反映節(jié)點(diǎn)間依賴關(guān)系,并且由于數(shù)據(jù)中存在不完整的連接,可能會丟失隱藏的空間連接關(guān)系.得力于深度學(xué)習(xí)技術(shù)的發(fā)展,目前,研究者對時(shí)空圖建模的研究主要分為兩個(gè)方向[8]:一類是將圖卷積網(wǎng)絡(luò)(graph convolutional neural network,簡稱GCN)集成到RNN 中,從而構(gòu)建圖卷積遞歸神經(jīng)網(wǎng)絡(luò);另一類是將GCN集成到CNN 中,構(gòu)建圖卷積神經(jīng)網(wǎng)絡(luò).歸納起來,這兩類方法要么將GCN 集成到RNN 中,要么將GCN 集成到CNN 中.現(xiàn)有的時(shí)空圖建模方法雖然能夠有效地將圖形結(jié)構(gòu)信息進(jìn)行整合,但是也存在兩個(gè)明顯的缺點(diǎn).
? 首先,現(xiàn)有的時(shí)空圖建模都是在假設(shè)數(shù)據(jù)的圖形結(jié)構(gòu)能夠反映節(jié)點(diǎn)之間真實(shí)依賴關(guān)系的情況下進(jìn)行建模,但是在面對節(jié)點(diǎn)間的連接不需要參考兩個(gè)節(jié)點(diǎn)之間的相互依賴關(guān)系時(shí)以及兩個(gè)節(jié)點(diǎn)之間沒有連接但是存在相互依賴關(guān)系時(shí),這樣的建模方法顯然不可取.這樣的情況在推薦系統(tǒng)中是較為常見的,比如:兩個(gè)用戶是具有連接關(guān)系的,但是他們可能對產(chǎn)品有不同的偏好程度;兩個(gè)用戶具有相似的產(chǎn)品偏好,但是他們沒有連接關(guān)系;
? 其次,目前對時(shí)空圖建模的研究還不能有效地捕獲時(shí)間相關(guān)性特征.雖然有學(xué)者通過引入注意模型[10]來動態(tài)調(diào)整圖中節(jié)點(diǎn)間的連接權(quán)重,一定程度上解決了空間相關(guān)性的建模,但是缺乏對時(shí)間相關(guān)性的建模.有學(xué)者將RNN 和長短期記憶網(wǎng)絡(luò)(long short-term memory,簡稱LSTM)模型引入到時(shí)空圖建模問題中[11?13],但是在處理長距離序列數(shù)據(jù)時(shí)往往需要非常耗時(shí)的迭代計(jì)算,并且存在梯度消失情況.
此外,近年來,動態(tài)圖神經(jīng)網(wǎng)絡(luò)在建?;虿蹲骄W(wǎng)絡(luò)的結(jié)構(gòu)和性質(zhì)方面取得了新的進(jìn)展[14],相比于靜態(tài)網(wǎng)絡(luò)來說,動態(tài)圖神經(jīng)網(wǎng)絡(luò)強(qiáng)調(diào)了網(wǎng)絡(luò)中節(jié)點(diǎn)和邊的出現(xiàn)順序和時(shí)間.因此,節(jié)點(diǎn)的鄰域并不是同時(shí)形成的,得到的快照網(wǎng)絡(luò)結(jié)構(gòu)是一段時(shí)間內(nèi)鄰域的累積結(jié)構(gòu).雖然動態(tài)圖神經(jīng)網(wǎng)絡(luò)能夠建模動態(tài)圖結(jié)構(gòu),但是需要動態(tài)記錄每個(gè)時(shí)間戳下的圖結(jié)構(gòu),在生物分子領(lǐng)域、醫(yī)藥等領(lǐng)域有著非常大的應(yīng)用場景.對于圖網(wǎng)絡(luò)結(jié)構(gòu)變化不明顯的應(yīng)用場景下,動態(tài)記錄圖網(wǎng)絡(luò)結(jié)構(gòu)是不明智的,如交通路網(wǎng),因?yàn)榈缆肪W(wǎng)絡(luò)物理狀態(tài)多為固定模型.
圖卷積網(wǎng)絡(luò)已經(jīng)被證明是圖形上一類函數(shù)的通用逼近器[7],并且已成功應(yīng)用于多種學(xué)習(xí)任務(wù),包括圖節(jié)點(diǎn)嵌入[15]、圖節(jié)點(diǎn)間的鏈接預(yù)測[16]和圖分類[17]等.圖卷積網(wǎng)絡(luò)有力地推動了對圖結(jié)構(gòu)的學(xué)習(xí)和建模的能力.圖卷積網(wǎng)絡(luò)有兩大主流:基于頻譜的方法和基于空間的方法.基于頻譜的方法在頻域中從圖信號處理的角度引入濾波器來定義圖卷積,其中,圖卷積操作被定義為從圖信號中去除噪聲.基于空間的方法將圖卷積表示為從圖中節(jié)點(diǎn)鄰域聚合節(jié)點(diǎn)的特征信息,并進(jìn)行特征信息更新.特別地,當(dāng)圖卷積網(wǎng)絡(luò)的算法在圖節(jié)點(diǎn)層級運(yùn)行時(shí),通常將圖池化(graph pooling)[18]模塊與圖卷積層進(jìn)行交錯(cuò)運(yùn)算,更進(jìn)一步地將圖特征信息向更深層次轉(zhuǎn)化,最終形成更高級別的圖形結(jié)構(gòu).無論是基于頻譜的方法還是基于空間的方法,圖的鄰接矩陣通常被認(rèn)為是先驗(yàn)知識,這種先驗(yàn)知識是以結(jié)構(gòu)的形式存在,并且在學(xué)習(xí)訓(xùn)練過程中是固定不變的,或者是不經(jīng)常變動的.文獻(xiàn)[19]提出利用高斯核函數(shù)來學(xué)習(xí)圖結(jié)構(gòu)中節(jié)點(diǎn)鄰居的權(quán)重.文獻(xiàn)[20]將注意力模型引入到圖卷積神經(jīng)網(wǎng)絡(luò)模型,通過利用注意力機(jī)制更新圖中節(jié)點(diǎn)鄰居的權(quán)重參數(shù),從而完成動態(tài)調(diào)整圖的結(jié)構(gòu).文獻(xiàn)[21]設(shè)計(jì)了一個(gè)圖節(jié)點(diǎn)自適應(yīng)信息傳輸路徑網(wǎng)絡(luò)層,并用這個(gè)網(wǎng)絡(luò)層來提取圖中節(jié)點(diǎn)鄰域的信息,從而為更新節(jié)點(diǎn)連接關(guān)系提供節(jié)點(diǎn)的依賴信息.針對圖形結(jié)構(gòu)數(shù)據(jù)的分類問題,文獻(xiàn)[22]設(shè)計(jì)了基于距離度量的自適應(yīng)學(xué)習(xí)圖形的鄰接矩陣,學(xué)習(xí)生成的鄰接矩陣受圖節(jié)點(diǎn)輸入信息的約束.盡管這些圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法能夠?qū)W習(xí)圖結(jié)構(gòu),但是他們都必須依賴于預(yù)先定義好的圖結(jié)構(gòu).由于時(shí)空圖的輸入是動態(tài)的,這些建模方法仍然不能同時(shí)捕捉圖的空間和時(shí)間相關(guān)性.因此,迫切需要設(shè)計(jì)一種同時(shí)捕獲空間和時(shí)間相關(guān)關(guān)系的時(shí)空圖建模模型與方法.
盡管基于空間的方法構(gòu)建的圖卷積神經(jīng)網(wǎng)絡(luò)取得了一些初步的成功,并提供了一個(gè)將歐式空間的CNN 推廣到圖形數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一靈活框架,但是如何確定節(jié)點(diǎn)的合適鄰域大小,仍然是一個(gè)難點(diǎn)問題.相比于基于空間的方法,基于圖譜的方法構(gòu)建的圖卷積是通過圖傅里葉變換和卷積定理定義卷積操作.基于圖譜的方法利用圖的傅里葉變換將圖節(jié)點(diǎn)域中定義的信號轉(zhuǎn)換為頻譜域,如基于圖的Laplacian 矩陣的特征向量所張成的空間,然后在頻譜域中定義濾波器,并對圖信息進(jìn)行濾波操作,這樣就保持與CNN 類似的權(quán)重共享特性.但是需要求解圖的特征向量,當(dāng)圖較大時(shí),對圖的Laplacian 矩陣特征分解是非常耗時(shí)的.
文獻(xiàn)[23]利用圖小波變換替代圖傅里葉變換,定義了譜圖卷積并提出了圖小波神經(jīng)網(wǎng)絡(luò).該模型無需進(jìn)行圖的Laplacian 矩陣特征分解運(yùn)算,有效地降低了神經(jīng)網(wǎng)絡(luò)的計(jì)算資源的消耗.圖小波神經(jīng)網(wǎng)絡(luò)與頻譜神經(jīng)網(wǎng)絡(luò)的區(qū)別在于圖小波神經(jīng)網(wǎng)絡(luò)具有明顯3 個(gè)優(yōu)點(diǎn).
(1)不需要對Laplacian 矩陣進(jìn)行特征分解就可以快速得到圖小波矩陣,因此效率明顯提升;
(2)圖小波矩陣是稀疏的,而Laplacian 矩陣的特征向量構(gòu)成的矩陣多是稠密的.相比于圖傅里葉變換操作,圖小波變換操作可以更加容易使用稀疏運(yùn)算庫,因此具有更高的計(jì)算效率;
(3)圖小波網(wǎng)絡(luò)在節(jié)點(diǎn)域具有局部化特性,反映了以每個(gè)節(jié)點(diǎn)為中心的信息擴(kuò)散.
盡管圖小波神經(jīng)網(wǎng)絡(luò)能夠一定程度上解決圖譜圖卷積網(wǎng)絡(luò)的計(jì)算效率問題,并且具有一定的局部特性,這種特性對圖的空間相關(guān)性建模是有利的,但是仍然缺乏時(shí)空圖建模的能力.
時(shí)空圖建模方法可以劃歸為兩類:一類是基于遞歸神經(jīng)網(wǎng)絡(luò)層(RNN)構(gòu)建的圖卷積遞歸神經(jīng)網(wǎng)絡(luò);另一類是將基于卷積神經(jīng)網(wǎng)絡(luò)層(CNN)構(gòu)建的圖卷積神經(jīng)網(wǎng)絡(luò).基于RNN 構(gòu)建的圖卷積網(wǎng)絡(luò)主要是通過利用圖卷積操作運(yùn)算對傳遞給RNN 單元的輸入和隱狀態(tài)進(jìn)行濾波處理,并以此來建模圖的時(shí)空依賴關(guān)系.
文獻(xiàn)[14]針對圖鏈接預(yù)測和節(jié)點(diǎn)分類的問題,通過使用RNN 建模GCN 參數(shù)變化狀態(tài)來捕獲圖序列的動態(tài)性,無需借助節(jié)點(diǎn)嵌入運(yùn)算沿時(shí)間維度進(jìn)行圖卷積處理.文獻(xiàn)[12]通過使用圖卷積對傳遞給RNN 單元的輸入和隱狀態(tài)進(jìn)行濾波來捕獲時(shí)空依賴性,該方法能夠?qū)Χ虝r(shí)的圖序列數(shù)據(jù)進(jìn)行時(shí)空建模,但是無法處理較長時(shí)間的數(shù)據(jù).文獻(xiàn)[24]將自然語言處理領(lǐng)域中時(shí)空注意機(jī)制引入到圖卷積神經(jīng)網(wǎng)絡(luò)中,并適當(dāng)提高了圖卷積神經(jīng)網(wǎng)絡(luò)模型對時(shí)空圖數(shù)據(jù)的建模的性能.文獻(xiàn)[25]提出了一種快速圖卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),用于預(yù)測具有圖結(jié)構(gòu)的數(shù)據(jù)序列.結(jié)合有門控RNN 單元和圖卷積層的新模型架構(gòu),其可以提高訓(xùn)練階段的數(shù)值穩(wěn)定性,但是依然涉及大量的待訓(xùn)練參數(shù),在短時(shí)序列數(shù)據(jù)時(shí)空建模具有較好性能.基于RNN 的圖卷積神經(jīng)網(wǎng)絡(luò)方法的最主要缺點(diǎn)是對于長時(shí)序列來說效率明顯降低,并且在與圖卷積網(wǎng)絡(luò)相結(jié)合時(shí),存在梯度爆炸現(xiàn)象,訓(xùn)練階段不易收斂.文獻(xiàn)[26]針對稀疏的、無結(jié)構(gòu)的和無序的點(diǎn)云數(shù)據(jù)分類預(yù)測的問題,提出一種鏈接動態(tài)圖神經(jīng)網(wǎng)絡(luò)模型,對點(diǎn)云數(shù)據(jù)進(jìn)行分類和分段預(yù)測.該模型凍結(jié)特征提取器,使用動態(tài)圖鏈接圖的層次特征,并重新訓(xùn)練分類器,很大程度上提高了網(wǎng)絡(luò)模型的預(yù)測性能.
基于RNN 的圖卷積神經(jīng)網(wǎng)絡(luò)和基于CNN 的圖卷積神經(jīng)網(wǎng)絡(luò)的模型方法在保持較好的計(jì)算結(jié)果的同時(shí),都需要進(jìn)行多層疊加或者使用圖的池化模塊來擴(kuò)大圖卷積神經(jīng)網(wǎng)絡(luò)模型的接受域或感受野,因此也帶來了更高的計(jì)算消耗,計(jì)算效率有待進(jìn)一步提升.
文中首先給出了時(shí)空圖建模問題的形式化定義,其次詳細(xì)介紹了圖譜卷積、圖小波卷積和時(shí)間卷積,最后給出了本文設(shè)計(jì)的用于時(shí)空圖建模的總體模型架構(gòu).
圖(graph)定義.圖一般表示為G=(V,E,A),其中,V是圖G的節(jié)點(diǎn)集合,E是圖G中邊的集合,A是圖G中的鄰接矩陣.使用vi∈V表示圖的第i個(gè)節(jié)點(diǎn),eij=(vi,vj)∈E表示圖G中節(jié)點(diǎn)vi指向節(jié)點(diǎn)vj的連接邊,|V|=n和|E|=m分別表示圖G中的節(jié)點(diǎn)集合V的元素?cái)?shù)量和邊集合E的元素?cái)?shù)量.A∈Rn×n,鄰接矩陣A中元素滿足公式:
對于給定圖G和它的鄰接矩陣A,則圖G的拉普拉斯矩陣L∈Rn×n表示為
圖屬性(graph attribute)定義.在圖G中,每個(gè)節(jié)點(diǎn)都有各自的信號特征或?qū)傩蕴卣?一般用矩陣X∈Rn×d表示圖G的屬性特征,表示圖G中節(jié)點(diǎn)vi的屬性向量,具有圖屬性特征的圖稱為屬性圖(attributed graph).
時(shí)空圖(spatiotemporal graph)定義.時(shí)空圖表示為Gt=(V,E,Xt),Xt∈Rn×d.時(shí)空圖是在一般圖上進(jìn)行擴(kuò)展定義的,其中,節(jié)點(diǎn)的屬性矩陣Xt是隨時(shí)間t呈動態(tài)變化狀態(tài).
問題描述:在給定一個(gè)圖G和它的H個(gè)歷史屬性特征情況下,求解未來N個(gè)時(shí)間步長下圖G的屬性特征矩陣,即求解一個(gè)映射函數(shù)f使其滿足如下關(guān)系:
其中,Xt?H?1,…,t∈Rn×d×H,Xt+1,…,t+N∈Rn×d×N.
由于圖結(jié)構(gòu)沒有類似于歐式空間中圖像數(shù)據(jù)的自然連接順序,因此標(biāo)準(zhǔn)卷積運(yùn)算不能直接用于圖結(jié)構(gòu)的非歐式空間數(shù)據(jù).圖卷積的形式化圖譜定義[27]的提出,為圖形式結(jié)構(gòu)數(shù)據(jù)的處理提供了一個(gè)嶄新的思路,將深度學(xué)習(xí)中常用于圖像的卷積運(yùn)算擴(kuò)展到圖數(shù)據(jù)上.圖譜方法是通過圖傅里葉變換和卷積定理來定義卷積操作.圖譜卷積是利用圖的傅里葉變換將圖節(jié)點(diǎn)域中定義的圖信號或特征變換至頻譜域中,再利用圖頻域?yàn)V波理論進(jìn)行特征提取處理,最后將信號進(jìn)行逆變換至節(jié)點(diǎn)域的重要操作.圖譜卷積層定義為
其中,*G表示圖卷積操作運(yùn)算符,ke為卷積核,此處的x∈Rn為圖G上的信號,⊙為矩陣的Hadamard 乘積,gθ為濾波核,U為圖G的拉普拉斯矩陣L的特征向量矩陣.在圖譜域中,稱為圖傅里葉變換,稱為圖傅里葉逆變換.按照公式(4)定義的圖譜卷積存在明顯的缺陷.
? 首先,需要求解拉普拉斯矩陣L的特征值數(shù)組和特征向量矩陣,計(jì)算很耗時(shí),計(jì)算復(fù)雜度為O(n3),不適用于大圖運(yùn)算;
? 其次,求解出來的U和UT為稠密矩陣,在進(jìn)行傅里葉變換運(yùn)算時(shí)效率低下;
? 最后,基于圖傅里葉變換定義的卷積操作覆蓋整個(gè)圖的節(jié)點(diǎn)域,卷積操作不具備局部鄰域特性.
針對上述缺陷,文獻(xiàn)[27]提出了利用切比雪夫多項(xiàng)式K階截?cái)鄟斫茷V波核gθ,如下:
其中,θ∈RK是切比雪夫近似多項(xiàng)式系數(shù)向量.但是,公式(5)定義的卷積濾波核具有一定的限制性,這不利于對在圖上定義更一般的卷積運(yùn)算.比如對切比雪夫多項(xiàng)式K階截?cái)鄷r(shí),K越大,越不利于保持卷積的局部鄰域特性;而K越小,又很難近似濾波核gθ,且使得近似誤差增大.
利用圖小波變換來代替圖傅里葉變換來定義圖譜卷積,如下:
其中,ψs=UGsUT=(ψs1,ψs2,…,ψsn),為尺度矩陣[28],表明熱擴(kuò)散核函數(shù)尺度范圍;s為尺度參數(shù),控制節(jié)點(diǎn)鄰域范圍.在圖譜域中,稱為圖小波變換,圖小波逆變換.ψs和可以通過SGWT[29]算法進(jìn)行快速的多項(xiàng)式近似求解,其計(jì)算復(fù)雜度為O(mK),K為切比雪夫多項(xiàng)式階數(shù).ψs和通常是稀疏的,可以進(jìn)行稀疏矩陣運(yùn)算,同時(shí)又是局部的,每個(gè)圖小波對應(yīng)于圖上的一個(gè)信號,該信號從一個(gè)中心節(jié)點(diǎn)向外部擴(kuò)散出去,受尺度參數(shù)s的靈活控制,所以在節(jié)點(diǎn)域具有局部特性.
與基于圖傅里葉變換定義的圖卷積操作相比,基于圖小波變換定義圖卷積具有更高的計(jì)算效率.充分利用圖小波變換的優(yōu)勢,我們定義圖小波卷積操作如下:
其中,W∈Rd×q是待學(xué)習(xí)的參數(shù)矩陣,Θ∈Rn×n是圖卷積核的對角矩陣,
為了學(xué)習(xí)時(shí)空圖的空間依賴項(xiàng)和圖小波卷積網(wǎng)絡(luò)隱藏層的空間依賴項(xiàng),我們定義了自適應(yīng)鄰接矩陣,并將其引入到圖小波卷積層中,自適應(yīng)鄰接矩陣無需圖的結(jié)構(gòu)先驗(yàn)信息,直接從數(shù)據(jù)集中自學(xué)習(xí),動態(tài)關(guān)聯(lián)和發(fā)現(xiàn)網(wǎng)絡(luò)隱藏層的空間依賴關(guān)系.自適應(yīng)鄰接矩陣定義如下:
其中,Us∈Rn×r為源節(jié)點(diǎn)信息的動態(tài)嵌入矩陣和Ut∈Rn×r為目標(biāo)節(jié)點(diǎn)信息的動態(tài)嵌入矩陣,為源節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)間的空間依賴權(quán)重.其中,α和β分別為SoftMax 函數(shù)和ReLu 函數(shù),它們的作用分別是消除弱空間依賴關(guān)系和對空間依賴關(guān)系進(jìn)行規(guī)范化處理,從而減小不平衡現(xiàn)象造成的誤差.引入自適應(yīng)鄰接矩陣后,我們修改公式(7),并定義新的圖小波卷積層如下:
公式(10)定義的圖卷積可解釋為匯聚來自不同階鄰域的變換特征信息,因此用其捕獲隱藏的空間相關(guān)性.
在時(shí)空圖建模中,另一個(gè)最重要的任務(wù)是進(jìn)行時(shí)間相關(guān)性的建模.采用擴(kuò)展因果卷積(dilated causal convolution,簡稱DCC)[9]作為時(shí)間卷積層來捕捉圖節(jié)點(diǎn)的時(shí)間趨勢.特別地,在擴(kuò)展因果卷積網(wǎng)絡(luò)中,允許通過增加網(wǎng)絡(luò)層深度來獲得指數(shù)級增長的感受野,從而有效擴(kuò)大對時(shí)序列數(shù)據(jù)處理的歷史范圍.具體而言,擴(kuò)展因果卷積是在因果卷積基礎(chǔ)上引入擴(kuò)展率,通過跳過部分輸入來使濾波核可以應(yīng)用于大于濾波核本身長度的區(qū)域,并且擴(kuò)展率隨著層深度進(jìn)行指數(shù)級增長,因此感受野也隨著增大.
假設(shè)在節(jié)點(diǎn)vi,給定一個(gè)1 維時(shí)間序列x∈RH和一個(gè)濾波核,則擴(kuò)展因果卷積定義如下:
其中,*dc為擴(kuò)展因果卷積運(yùn)算符;K*為擴(kuò)展因果卷積核尺寸大小;d為擴(kuò)展因子(dilation factor,簡稱DF),d數(shù)值的大小控制著跳躍距離,即每d步就選擇一個(gè)輸入.
為了更加清晰地描述擴(kuò)展因果卷積的作用,我們將因果卷積與擴(kuò)展因果卷積進(jìn)行示意,如圖2 所示.在圖2中,通過疊加多個(gè)卷積層,以增加卷積運(yùn)算的感受域.對于給定圖中節(jié)點(diǎn)vi的歷史特征序列,在具有同樣的網(wǎng)絡(luò)層數(shù)的情況下,因果卷積(如圖2 左所示)的感受域明顯小于擴(kuò)展因果卷積(如圖2 右所示)的感受域.一般情況下,在擴(kuò)展因果卷積層中,隨著卷積層數(shù)的加深,擴(kuò)展因子成指數(shù)增加,模型的感受域也成指數(shù)增大.在圖2 中,擴(kuò)展因果卷積感受野在每一層上分別擴(kuò)大了1 倍、2 倍和4 倍.使得通過堆疊有限深度的網(wǎng)絡(luò)層,擴(kuò)展因果卷積就能夠捕獲較長序列數(shù)據(jù)間的相關(guān)性,從而有效節(jié)省了計(jì)算資源.與基于RNN 的方法相比,DCC 具有明顯的優(yōu)勢,DCC能夠以非遞歸的方式處理長時(shí)序列數(shù)據(jù),這種非遞歸的處理方式有利于并行加速,同時(shí),擴(kuò)展因果卷積有效緩解了梯度爆炸問題[5].
Fig.2 Schematic diagram of causal convolution (left)and dilated causal convolution (right)圖2 因果卷積(左)與擴(kuò)展因果卷積(右)示意圖
門控機(jī)制(gating mechanism)在對序列數(shù)據(jù)建模問題中被證明是有效的[5],為了能夠充分建模時(shí)間維度上的非線性關(guān)系,引入門控機(jī)制,并定義門控時(shí)間卷積層,定義如下:
其中,Θ1和Θ1為模型待學(xué)習(xí)參數(shù);⊙為矩陣的Hadamard 乘積;δ和σ分別為Tanh 函數(shù)和Sigmod 函數(shù),原則上可以將δ和σ的定義式可以推廣至其他任意激活函數(shù)形式.Tanh 函數(shù)和Sigmod 函數(shù)曲線如圖3 所示.
Fig.3 Curves between Tanh and Sigmod圖3 Tanh 函數(shù)和Sigmod 函數(shù)曲線
本節(jié)將描述面向時(shí)空圖建模的圖小波卷積神經(jīng)網(wǎng)絡(luò)總體架構(gòu),該架構(gòu)將圖小波卷積層和門控時(shí)間卷積層結(jié)合起來,完成屬性圖的時(shí)空關(guān)系建模和預(yù)測.網(wǎng)絡(luò)模型結(jié)構(gòu)定義如下.
? 輸入層(或第0 層):
? 第l卷積層:
(1)門控時(shí)間卷積運(yùn)算
(2)圖小波卷積運(yùn)算
? 輸出層:
其中,ReLU為非線性激活函數(shù)[30],Y∈Rn×d×N,L為架構(gòu)的總卷積層數(shù),MLP為多層感知機(jī)或線性全連接層[31].
面向時(shí)空圖建模的圖小神經(jīng)網(wǎng)絡(luò)總體架構(gòu)通過疊加多個(gè)時(shí)空層,以處理不同時(shí)間層次的空間依賴關(guān)系.即:在最淺層,圖卷積接收短期時(shí)間信息;在最深層,圖卷積處理長期時(shí)間信息.選擇平均絕對誤差(mean absolute error,簡稱MAE)為模型的目標(biāo)函數(shù),并使用梯度下降法進(jìn)行訓(xùn)練.MAE定義如下:
本節(jié)主要對本文提出的模型進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)中選用公共交通網(wǎng)絡(luò)數(shù)據(jù)集METR-LA 和PEMS-BAY[5]對模型進(jìn)行驗(yàn)證.實(shí)驗(yàn)數(shù)據(jù)中,數(shù)據(jù)記錄的采樣間隔是5 分鐘,METR-LA 中共有207 個(gè)網(wǎng)絡(luò)傳感器節(jié)點(diǎn)(或網(wǎng)絡(luò)圖節(jié)點(diǎn))和1 515 個(gè)邊,PEMS-BAY 中共有325 個(gè)網(wǎng)絡(luò)傳感器節(jié)點(diǎn)和2 369 個(gè)邊.本實(shí)驗(yàn)按照采樣時(shí)間順序?qū)W(wǎng)絡(luò)節(jié)點(diǎn)屬性特征數(shù)據(jù)進(jìn)行提取,并按照訓(xùn)練數(shù)據(jù)集:驗(yàn)證數(shù)據(jù)集:測試數(shù)據(jù)集為7:1:2 的比率策略進(jìn)行數(shù)據(jù)集劃分,在訓(xùn)練過程中對數(shù)據(jù)集進(jìn)行了隨機(jī)shuffle操作,實(shí)驗(yàn)中采用與文獻(xiàn)[8]一致的膨脹因子的參數(shù)設(shè)置.
本實(shí)驗(yàn)運(yùn)行環(huán)境為Intel(R)Xeon(R)Gold 5218CPU@2.30GHz,NVIDIA GeForce GTX2080GPU,顯存32GB.設(shè)置歷史觀測步長和預(yù)測窗口大小均為12,即利用過去一小時(shí)時(shí)段(12×5 分鐘)的觀測值來預(yù)測下一個(gè)小時(shí)的特征.模型中卷積層數(shù)l=2,M=2.訓(xùn)練過程中對參數(shù)數(shù)量采用隨機(jī)丟棄策略,丟棄率(dropout rate)設(shè)置為0.3.采用隨機(jī)初始化方式對模型中的參數(shù)進(jìn)行初始化,模型的訓(xùn)練優(yōu)化器為Adam,并且學(xué)習(xí)率設(shè)置為0.0001.
為測試模型的性能,我們選用ARIMA,DCRNN[32],STGCN[33],Graph WaveNet[8]模型作為參考基準(zhǔn)模型進(jìn)行對比實(shí)驗(yàn),具體描述見表1.在實(shí)驗(yàn)過程中,選用平均絕對誤差(mean absolute errors,簡稱MAE)、平均絕對百分比誤差(mean absolute percentage errors,簡稱MAPE)和均方根誤差(root mean squared errors,簡稱RMSE)這3 種度量函數(shù)為模型性能的評估指標(biāo).
Table 1 Experimental baseline models表1 實(shí)驗(yàn)對照的基準(zhǔn)方法模型
3.3.1 模型性能對比分析
基于METR-LA 和PEMS-BAY 實(shí)驗(yàn)數(shù)據(jù),表2 給出了設(shè)計(jì)的模型和基線模型的性能統(tǒng)計(jì)結(jié)果.表2 中分別列出了15 分鐘預(yù)測、30 分鐘預(yù)測和60 分鐘預(yù)測的誤差值(或稱性能).可以明顯地看出,本文提出的模型在兩個(gè)數(shù)據(jù)集上都取得了較好的性能結(jié)果.
Table 2 Performance comparison of our model and other baseline models表2 設(shè)計(jì)的模型與基準(zhǔn)模型的性能對比
具體地,本文提出的模型比時(shí)間模型ARIMA 有很大的優(yōu)勢.在表2 中,60 分鐘時(shí)窗的模型預(yù)測MAE 數(shù)值在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上均比時(shí)間模型ARIMA 要低49.71%(METR-LA)和43.44%(PEMS-BAY).與時(shí)空模型相比,本文的神經(jīng)網(wǎng)絡(luò)模型性能均優(yōu)于Graph WaveNet 模型、STGCN 模型和DCRNN 網(wǎng)絡(luò)模型.與基準(zhǔn)模型集中性能最佳的Graph WaveNet 模型相比,可以看出,在15 分鐘預(yù)測時(shí),本文的模型僅取得了較小的性能提升;在數(shù)據(jù)集METR-LA 和PEMS-BAY 上,MAE 均只降低了0.01.在30 分鐘時(shí)長窗口期下,本文模型的MAE 在METR-LA 和PEMS-BAY 數(shù)據(jù)集上分別降低了0.03 和0.04.但是隨著預(yù)測時(shí)間窗口的增大,在60 分鐘預(yù)測時(shí)長窗口期下,我們模型的MAE 分別降低了0.05 和0.8.這表明:本文提出的模型具有更大的時(shí)空作用域,特別是模型中疊加了門控時(shí)間卷積層,該層使用擴(kuò)張因果卷積和門控機(jī)制,擴(kuò)張因果卷積層能使模型的感受野成指數(shù)增加,并使我們的模型能處理更大時(shí)長的數(shù)據(jù),這個(gè)特性對于時(shí)空關(guān)系建模非常有利.此外,統(tǒng)計(jì)了本文模型與最佳基準(zhǔn)模型Graph WaveNet[8]在預(yù)測時(shí)間窗口序列N={1,2,…,12}中的平均性能結(jié)果,見表3.在實(shí)驗(yàn)數(shù)據(jù)集METR-LA 上,本文設(shè)計(jì)的模型性能數(shù)值MAE,RMSE 和MAPE 分別比Graph WaveNet 模型的性能數(shù)值低0.07%,0.02%和1.8%.在PEMS-BAY 上,模型的性能依然取得了提升.因此,本文提出的模型更適合于屬性圖網(wǎng)絡(luò)的時(shí)空關(guān)系預(yù)測.
Table 3 Comparison of average performance with the best benchmark model in the prediction window area表3 在預(yù)測窗口區(qū)內(nèi)與最佳基準(zhǔn)模型的平均性能對比
3.3.2 自適應(yīng)鄰接矩陣對模型作用分析
在模型中,為了學(xué)習(xí)時(shí)空圖的空間依賴項(xiàng)和圖小波卷積網(wǎng)絡(luò)隱藏層的空間依賴項(xiàng),我們設(shè)計(jì)了自適應(yīng)鄰接矩陣,并將其引入到圖小波卷積層中,直接從數(shù)據(jù)集中以端到端的形式自學(xué)習(xí),動態(tài)關(guān)聯(lián)和發(fā)現(xiàn)網(wǎng)絡(luò)隱藏層的空間依賴關(guān)系.圖4~圖6 分別繪制了引入自適應(yīng)鄰接矩陣網(wǎng)絡(luò)模型(gwcn-Ady)和未引入自適應(yīng)鄰接矩陣網(wǎng)絡(luò)模型(gwcn),在METR-LA 數(shù)據(jù)集上的不同預(yù)測時(shí)間窗口區(qū)內(nèi)的平均絕對誤差MAE、平均絕對百分比誤差MAPE和均方根誤差RMSE 性能曲線.在預(yù)測窗口時(shí)間長為5 分鐘時(shí),引入矩陣和未引入矩陣的模型在MAE,MAPE 和RMSE 上的性能均差別很小,這表明自適應(yīng)鄰接矩陣對短時(shí)預(yù)測性能提升作用不明顯.隨著預(yù)測時(shí)長的增加,引入自適應(yīng)鄰接矩陣的模型性能與未自適應(yīng)鄰接矩陣的模型性能之間的差異也在增大,在60 分鐘時(shí)長預(yù)測時(shí),引入矩陣的模型性能優(yōu)勢較為明顯.這表明,引入自適應(yīng)鄰接矩陣能夠有助于關(guān)聯(lián)和發(fā)現(xiàn)網(wǎng)絡(luò)隱藏層的空間依賴關(guān)系.
Fig.4 Curves of MAE performance with the length of the prediction window圖4 MAE 性能隨預(yù)測窗口長度變化曲線
Fig.5 Curves of MAPE (%)performance with the length of the prediction window圖5 MAPE(%)性能隨預(yù)測窗口長度變化曲線
Fig.6 Curves of RMSE performance with the length of the prediction window圖6 RMSE 性能隨預(yù)測窗口長度變化曲線
為進(jìn)一步驗(yàn)證自適應(yīng)鄰接矩陣能夠關(guān)聯(lián)和發(fā)現(xiàn)網(wǎng)絡(luò)隱藏層的空間依賴關(guān)系的能力,圖7 展示了在METRLA 數(shù)據(jù)集上學(xué)習(xí)得到的的熱力圖(圖7 中間).選取前30 個(gè)節(jié)點(diǎn),發(fā)現(xiàn)第16 個(gè)節(jié)點(diǎn)(圖左側(cè)選區(qū))能夠很好地關(guān)聯(lián)其他非直接與其物理相連的節(jié)點(diǎn)信息(實(shí)際路網(wǎng)節(jié)點(diǎn)的物理連接關(guān)系圖7 右),進(jìn)一步驗(yàn)證了自適應(yīng)鄰接矩陣能夠關(guān)聯(lián)和發(fā)現(xiàn)網(wǎng)絡(luò)隱藏層的空間依賴關(guān)系的作用,更說明了復(fù)雜的交通路網(wǎng)具有一定的空間關(guān)聯(lián)性,而自適應(yīng)鄰接矩陣能夠捕捉這種遠(yuǎn)距離的空間關(guān)聯(lián)關(guān)系.
Fig.7 Heatmap of the matrix (right)and the connection between the nodes in the road network (right)on the METR-LA dataset圖7 METR-LA 數(shù)據(jù)集中學(xué)習(xí)得到的矩陣熱力圖(左)和實(shí)際路網(wǎng)中部分節(jié)點(diǎn)間的物理連接關(guān)系(右)
3.3.3 圖小波變換矩陣的稀疏性分析
本文利用圖小波變換矩陣替換圖傅里葉變換矩陣定義圖卷積網(wǎng)絡(luò)層.除了提高預(yù)測精度外,圖小波變換在空間域和頻譜域都具有稀疏性.以METR-LA 和PEMS-BAY 數(shù)據(jù)集為例,說明了圖小波變換的稀疏性.
在METR-LA 數(shù)據(jù)集中共有207 個(gè)節(jié)點(diǎn),因此,圖小波變換矩陣,圖傅里葉變換矩陣UT∈R207×207.表4 中第一行列出了和UT的稀疏度(或稱非零元素的密度百分比),的非零元素占比為30.09%,UT的非零元素占比為99.98%.在PEMS-BAY 數(shù)據(jù)集中共有325 個(gè)節(jié)點(diǎn),圖小波變換矩陣圖傅里葉變換矩陣UT∈R325×325.表4 中第2 行列出了和UT的稀疏度,的非零元素占比為21.81%,UT的非零元素占比為98.7%.因此,圖小波變換矩陣遠(yuǎn)比圖傅里葉變換矩陣UT稀疏.更具稀疏性的圖小波變換不僅加快了計(jì)算速度,而且能夠很好地捕獲以每個(gè)節(jié)點(diǎn)為中心的相鄰空間拓?fù)潢P(guān)系,這個(gè)特性對空間關(guān)系建模是有利的.
Table 4 Non-zero element statistics of the wavelet transform matrix and the Fourier transform matrix表4 圖小波變換矩陣與傅立葉變換矩陣非零元素統(tǒng)計(jì)
3.3.4 尺度因子大小對模型性能的影響分析
在圖小波卷積層中,尺度因子s控制著每個(gè)節(jié)點(diǎn)信息的擴(kuò)散鄰域大小,節(jié)點(diǎn)鄰域信息動態(tài)關(guān)聯(lián)著中心節(jié)點(diǎn)的屬性特征變化趨勢,因此,選取合適的尺度因子將有助于模型性能的提升.為了探究圖小波變換矩陣中尺度因子s大小對模型性能的影響,統(tǒng)計(jì)了在s=1,2,3,5,10,15,20 時(shí),模型在數(shù)據(jù)集METR-LA 上的MAE 性能曲線.
Fig.8 Curves of MAE performance of the proposed model at different scale factors with the prediction window time圖8 不同尺度因子下,模型的MAE 性能隨預(yù)測窗口時(shí)間長變化曲線
圖8 繪制了在不同尺度因子s參數(shù)下的MAE 曲線,在預(yù)測時(shí)間窗口小于40 分鐘時(shí),不同的參數(shù)對網(wǎng)絡(luò)模型的MAE 影響差異性不明顯.這表明在執(zhí)行短期預(yù)測任務(wù)時(shí),即使使用較小的尺度因子參數(shù),圖小波神經(jīng)網(wǎng)絡(luò)模型能夠很好地捕獲網(wǎng)絡(luò)節(jié)點(diǎn)間隱藏的空間關(guān)系,并且尺度因子s越大,對模型MAE性能提升越不明顯.圖9 繪制了不同尺度因子s對模型進(jìn)行較大預(yù)測窗口時(shí)的MAE 曲線.在預(yù)測時(shí)窗大于45 分鐘時(shí),不同的尺度因子參數(shù)對模型的MAE 影響具有明顯的差異.當(dāng)s=1 時(shí),模型的MAE曲線和s=15 時(shí)的MAE 性能曲線幾乎重合,并且s=1 和s=15 時(shí),模型的MAE 曲線均在s=2,3,5,10,20 時(shí)的MAE曲線下方.這表明,選用合適的尺度參數(shù)對模型的性能是有積極的作用.此外,在s=1 和s=15 時(shí),本文提出的圖小波神經(jīng)網(wǎng)絡(luò)模型的MAE 曲線趨于一致.這一實(shí)驗(yàn)性結(jié)論為確定圖小波變換矩陣中尺度因子s的大小提供了參考,即,s=1 是圖小波神經(jīng)網(wǎng)絡(luò)模型在沒有確定最佳尺度因子參數(shù)情況下的最佳選擇.
Fig.9 Curves of MAE performance of the proposed model at different scale factors with the prediction window time (at the larger prediction time window)圖9 不同尺度因子對模型MAE 性能隨預(yù)測窗口時(shí)間長度的變化曲線(較大的預(yù)測時(shí)間窗口)
3.3.5 模型抗干擾對比分析
為了驗(yàn)證本文模型的抗干擾能力,本實(shí)驗(yàn)利用過去1 小時(shí)時(shí)段(12×5 分鐘)的觀測值來預(yù)測下一個(gè)小時(shí)的特征,歷史觀測時(shí)間窗口大小為12.設(shè)置了4 組對比實(shí)驗(yàn),分別為:(1)在整個(gè)輸入窗口期添加0 均值的高斯噪聲;(2)僅在歷史時(shí)間點(diǎn)6 添加非高斯噪聲;(3)在歷史時(shí)間點(diǎn)1、歷史時(shí)間點(diǎn)6 和歷史時(shí)間點(diǎn)12 添加非高斯噪聲;(4)在全部的歷史時(shí)間點(diǎn)添加非高斯噪聲.圖10 繪制了不同噪聲下的曲線圖(在數(shù)據(jù)集METR-LA 上,以0 節(jié)點(diǎn)為例).
Fig.10 Outputs of the modelat different inputnoises sequence圖10 模型在不同輸入噪聲序列下的輸出曲線
在圖10 中:對輸入序列不加任何噪聲時(shí),模型的輸出較為平穩(wěn);當(dāng)對輸入序列全部施加0 均值且標(biāo)準(zhǔn)差為0.15 的高斯噪聲時(shí),模型的預(yù)測輸出變化較為明顯,即在短時(shí)預(yù)測時(shí)窗內(nèi)(30 分鐘內(nèi))偏差較大,但是隨著預(yù)測時(shí)間窗的增加,模型具有較好預(yù)測收斂性,在預(yù)測時(shí)間窗末期(30 分鐘~60 分鐘之內(nèi)),加高斯噪聲后模型的預(yù)測輸出和未加高斯噪聲時(shí)的預(yù)測輸出趨于一致,這表明模型對長時(shí)預(yù)測具有較好的抗干擾性.當(dāng)對輸入序列中第5個(gè)值(即輸入時(shí)間窗的30 分鐘點(diǎn))增加一個(gè)很大的整數(shù)噪聲(本次實(shí)驗(yàn)選定為整數(shù)100),模型的預(yù)測輸出比未加噪聲時(shí)的預(yù)測輸出要略大,但總體上較為平緩.隨著對輸入序列進(jìn)行多點(diǎn)位增加噪聲(噪聲整數(shù)100),模型的預(yù)測輸出均比未加噪聲時(shí)的輸出要大,在短時(shí)預(yù)測時(shí)間窗口內(nèi)偏差較為明顯,但是隨著預(yù)測時(shí)間窗的增加,模型的預(yù)測偏差逐漸減小,這說明模型對長時(shí)預(yù)測具有一定的抗干擾性.綜上所述,本文的模型對短時(shí)預(yù)測的抗噪聲能力較弱,對長時(shí)預(yù)測的抗干擾能力較強(qiáng),對于具有高斯噪聲的輸入,模型的短時(shí)預(yù)測性能失效.正因?yàn)檫@種特性,本文提出的模型不能應(yīng)對時(shí)序或時(shí)空異常數(shù)據(jù)的檢測;相反,其具有較強(qiáng)的抗干擾性,因此,該模型可以應(yīng)用在具有強(qiáng)噪聲網(wǎng)絡(luò)環(huán)境下的時(shí)空預(yù)測場景.
3.3.6 其他實(shí)驗(yàn)補(bǔ)充分析
除了與傳統(tǒng)時(shí)序預(yù)測模型和靜態(tài)圖神經(jīng)網(wǎng)絡(luò)模型實(shí)驗(yàn)對比分析外,還將模型與動態(tài)圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了實(shí)驗(yàn)對比.因此,這部分主要講述與動態(tài)圖神經(jīng)網(wǎng)絡(luò)在本實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)性結(jié)論.
動態(tài)網(wǎng)絡(luò)相比于靜態(tài)網(wǎng)絡(luò)來說,更強(qiáng)調(diào)了網(wǎng)絡(luò)中節(jié)點(diǎn)和邊的出現(xiàn)順序和時(shí)間.在現(xiàn)實(shí)中,圖網(wǎng)絡(luò)結(jié)構(gòu)主要是通過節(jié)點(diǎn)和邊的順序添加而形成的,理應(yīng)被視為一個(gè)有節(jié)點(diǎn)與其鄰居之間交互事件驅(qū)動的動態(tài)過程.因此,節(jié)點(diǎn)的鄰域并不是同時(shí)形成的,圖網(wǎng)絡(luò)結(jié)構(gòu)屬于一種快照網(wǎng)絡(luò)結(jié)構(gòu),是一段時(shí)間內(nèi)鄰域的累積.為了構(gòu)造這種動態(tài)的網(wǎng)絡(luò)結(jié)構(gòu),我們隨機(jī)統(tǒng)計(jì)了在輸入時(shí)間窗口內(nèi)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)特征的時(shí)間分布,去除了最小Top10 對應(yīng)的網(wǎng)絡(luò)節(jié)點(diǎn),并以此獲得了12 個(gè)圖結(jié)構(gòu)的時(shí)間快照(其中,12 是指12 個(gè)歷史觀測,按5 分鐘一個(gè)觀測,1 小時(shí)為12 個(gè)觀測點(diǎn)),每個(gè)圖結(jié)構(gòu)時(shí)間快照構(gòu)成了圖結(jié)構(gòu)序列,在訓(xùn)練過程中,隨著時(shí)間步驟依次動態(tài)改變這種圖結(jié)構(gòu).為了能夠與動態(tài)圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比,我們改造了EvolveGCN 模型[14],因?yàn)樵糆volveGCN 對圖節(jié)點(diǎn)的分類、邊的分類和節(jié)點(diǎn)間連接預(yù)測效果好.為了使其能夠?qū)r(shí)序特征預(yù)測,我們將EvolveGCN 模型每個(gè)時(shí)間戳下的節(jié)點(diǎn)嵌入進(jìn)行了線性疊加并經(jīng)過了ReLU 函數(shù)處理,最后接入一個(gè)感知機(jī)層,以此獲得對時(shí)序特征預(yù)測的能力,修改后的EvolveGCN 模型結(jié)構(gòu)如圖11 所示.
Fig.11 Modified EvolveGCN model圖11 修改后的EvolveGCN 模型結(jié)構(gòu)
圖12 中,在METR-LA 數(shù)據(jù)集上的MAE 曲線(左)在短時(shí)預(yù)測(小于30 分鐘)修改EvolveGCN 模型的MAE比所提出GWNN-STGM 模型的MAE 要大.但是隨著預(yù)測時(shí)長的增加,修改EvolveGCN[14]模型的MAE 要低于GWNN-STGM 模型.這表明在METR-LA 數(shù)據(jù)集上,動態(tài)圖結(jié)構(gòu)下的EvolveGCN(修改)模型能夠?qū)﹂L時(shí)預(yù)測具有較好的性能.在PEMS-BAY 數(shù)據(jù)集上的MAE 曲線(右)發(fā)現(xiàn):EvolveGCN(修改)模型的MAE 在15 分鐘預(yù)測時(shí)長內(nèi),比GWNN-STGM 模型的MAE 低;在大于15 分鐘預(yù)測時(shí)長時(shí),EvolveGCN(修改)模型的MAE 數(shù)值均比GWNN-STGM 模型高.這表明在PEMS-BAY 數(shù)據(jù)集上,動態(tài)圖結(jié)構(gòu)下的EvolveGCN(修改)模型不能夠很好地進(jìn)行長時(shí)預(yù)測.其中最主要原因是,構(gòu)造產(chǎn)生的動態(tài)圖結(jié)構(gòu)不能完全真實(shí)反映現(xiàn)實(shí)世界中物理路網(wǎng)的真實(shí)狀態(tài).
Fig.12 MAE conducted by the GWNN-STGM (ours)and the modified EvolveGCNon datasets圖12 本文GWNN-STGM 模型和修改后的EvolveGCN 模型在實(shí)驗(yàn)數(shù)據(jù)集下預(yù)測的MAE 曲線
本文提出了一種新的時(shí)空圖建模的圖小波卷積神經(jīng)網(wǎng)絡(luò)模型.提出的圖小波卷積神經(jīng)網(wǎng)絡(luò)通過將圖小波卷積層和擴(kuò)展因果卷積層結(jié)合起來,有效地捕獲了時(shí)空圖節(jié)點(diǎn)間屬性特征的時(shí)空相關(guān)性.提出了利用自適應(yīng)鄰接矩陣從數(shù)據(jù)中動態(tài)學(xué)習(xí)隱層空間依賴關(guān)系的有效方法.本文提出的模型在兩個(gè)公共交通網(wǎng)絡(luò)數(shù)據(jù)集上的性能優(yōu)于其他最新的基準(zhǔn)方法,這表明本文的圖小波卷積神經(jīng)網(wǎng)絡(luò)模型在從輸入數(shù)據(jù)中探索時(shí)空結(jié)構(gòu)方面具有一定的潛力.
為了進(jìn)一步探究模型的性能,通過對模型的抗干擾能力實(shí)驗(yàn)分析,發(fā)現(xiàn)本文模型對短時(shí)預(yù)測的抗噪聲能力較弱,對長時(shí)預(yù)測的抗干擾能力較強(qiáng),對于具有高斯噪聲的輸入,模型的短時(shí)預(yù)測性能失效.因此,模型不能應(yīng)對時(shí)序或時(shí)空異常數(shù)據(jù)的檢測場景;相反,其具有較強(qiáng)的抗干擾性,因此,提出的模型可以應(yīng)用在具有強(qiáng)噪聲網(wǎng)絡(luò)環(huán)境下的時(shí)空預(yù)測場景.此外,將模型與動態(tài)圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了實(shí)驗(yàn)對比分析,發(fā)現(xiàn)僅依靠統(tǒng)計(jì)節(jié)點(diǎn)的時(shí)序特征提取網(wǎng)絡(luò)結(jié)構(gòu)時(shí)間快照的方法構(gòu)造的動態(tài)圖結(jié)構(gòu)破壞了圖結(jié)構(gòu)的完整時(shí)空依賴信息,因此不能完全真實(shí)反映現(xiàn)實(shí)世界中物理路網(wǎng)的真實(shí)狀態(tài).
在未來的工作中,將繼續(xù)探索本文模型在其他應(yīng)用領(lǐng)域的嘗試,主要包含3 個(gè)方面:(1)探索本文模型在大圖結(jié)構(gòu)下的時(shí)序預(yù)測性能,因?yàn)殡S著信息技術(shù)的發(fā)展,大圖結(jié)構(gòu)中的數(shù)據(jù)的分析挖掘價(jià)值愈發(fā)突出;(2)探索本文模型在動態(tài)圖結(jié)構(gòu)下的性能,特別是針對多連接關(guān)系的動態(tài)圖結(jié)構(gòu)領(lǐng)域的時(shí)序預(yù)測;(3)探索本文模型在圖節(jié)點(diǎn)分類、連接關(guān)系預(yù)測等多個(gè)領(lǐng)域的應(yīng)用.