傅穎穎 ,張豐 *,杜震洪 ,劉仁義
(1.浙江大學浙江省資源與環(huán)境信息系統(tǒng)重點實驗室,浙江杭州310028;2.浙江大學地理信息科學研究所,浙江 杭州 310027)
2013年,我國遭遇有觀測記錄以來最嚴重的霧霾天氣[1],污染最嚴重的京津冀地區(qū)日均PM2.5濃度高達500 μg·m-3,嚴重影響了人們的生產(chǎn)生活和身體健康。研究表明,當 PM2.5濃度超過 115 μg·m-3時,身體將感到嚴重不適[2]。因此,利用歷史數(shù)據(jù)高效準確地預測未來的PM2.5濃度,具有重大的現(xiàn)實意義。
目前,根據(jù)PM2.5濃度預測模型類別可將其分為化學機理模型、時空分析模型和深度學習神經(jīng)網(wǎng)絡(luò)模型3種。ZHANG等[3]采取“氣象化學+傳輸機制”組合對PM2.5濃度進行在線實時預測;徐文等[4]運用時空自回歸移動平均模型預測我國華北地區(qū)的日均PM2.5濃度;范竣翔等[5]使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型,基于過去48 h的空氣質(zhì)量和氣象數(shù)據(jù)預測未來1 h的 PM2.5濃度;黃婕等[6]將我國大陸地區(qū)的空氣質(zhì)量監(jiān)測站點數(shù)據(jù)處理成時序數(shù)據(jù),將Stacking集成策略與卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)相融合,預測未來1 h的PM2.5濃度。
然而,上述研究都局限于PM2.5濃度的單步預測,即利用歷史PM2.5濃度序列預測未來某時段的PM2.5濃度,尚未有研究開展對PM2.5濃度的多步預測。目前對多步預測的研究主要集中在自然語言處理領(lǐng)域和工業(yè)領(lǐng)域,例如,在自然語言處理領(lǐng)域,“編碼器-解碼器”的序列-序列(Seq2Seq)預測模型已廣泛應(yīng)用于機器翻譯,為提高機器翻譯的精度,文獻[7]提出了注意力機制模型;在工業(yè)領(lǐng)域,CHEN等[8]考慮規(guī)則風電網(wǎng)中風速的時空相關(guān)性,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)單元,實現(xiàn)了風速的多步預測;GUO等[9]將全注意力機制應(yīng)用于時間序列,預測未來分鐘級時間窗內(nèi)秒級的網(wǎng)絡(luò)流量。但上述研究均未涉及非歐式空間數(shù)據(jù)及其特征提取。
根據(jù)已有研究,針對PM2.5小時濃度多步預測問題,本文以自然語言處理領(lǐng)域中的Seq2Seq預測模型為基礎(chǔ),集合圖卷積神經(jīng)網(wǎng)絡(luò)提取非歐式空間數(shù)據(jù)特征的能力以及注意力機制自適應(yīng)關(guān)注特征的能力,提出了融合圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的PM2.5小時濃度多步預測模型,旨在一次性準確預測未來連續(xù)多個時間步的PM2.5濃度。通過實驗,驗證和分析了模型的有效性和優(yōu)越性。
PM2.5小時濃度多步預測問題本質(zhì)上是利用一個時間序列預測另一個時間序列的問題,即利用歷史M個連續(xù)時間步的PM2.5濃度數(shù)據(jù),預測未來N個連續(xù)時間步的PM2.5濃度,通過觀測窗口xobs=[xt-M+1,…,xt]對預測窗口xpre=[xt+1,…,xt+N]進行預測,PM2.5小時濃度多步預測示意如圖1所示。
圖1 PM2.5小時濃度多步預測Fig.1 Multi-step prediction of PM2.5hourly concentrations
每個空氣質(zhì)量監(jiān)測站點都有各自的時間序列,可將某一時刻所有空氣質(zhì)量監(jiān)測站點的PM2.5濃度數(shù)據(jù)的空間分布抽象成一張無向拓撲圖。先提取該站點每個時間步上的空間特征,形成空間特征時間序列,再對基于空間特征時序依賴關(guān)系的時間序列解碼,得到目標PM2.5濃度序列。
通過單位根檢驗(ADF)和全局空間自相關(guān)分析,簡要說明PM2.5小時濃度的時空關(guān)聯(lián)性。
用ADF對北京市2015—2016年的PM2.5小時濃度序列進行平穩(wěn)性檢驗,實驗結(jié)果如表1所示。假設(shè)序列存在單位根,ADF得到的統(tǒng)計檢驗值為-13.0573,小于99%,95%,90%3種置信區(qū)間的臨界值,且p值接近于0,因此拒絕原假設(shè)。也就是說,從研究時間范圍看,PM2.5小時濃度序列是平穩(wěn)的,PM2.5小時濃度數(shù)據(jù)的歷史和現(xiàn)狀具有代表性和可延續(xù)性。
表1 PM2.5小時濃度序列單位根檢驗結(jié)果Table 1 ADF results of PM2.5hourly concentrations
將北京市2015—2016年22個空氣質(zhì)量監(jiān)測站點的PM2.5小時濃度數(shù)據(jù)按照春季(3—5月)、夏季(6—8月)、秋季(9—11月)、冬季(12—次年2月)劃分,分別匯總得到各監(jiān)測站點在不同季節(jié)的PM2.5小時濃度均值,使用GeoDA軟件進行全局空間自相關(guān)分析,分析結(jié)果以Moran’s I散點圖的形式展示,見圖2。春、夏、秋、冬4個季節(jié)PM2.5小時濃度全局空間自相關(guān) Moran’s I分別為 0.510,0.611,0.601,0.469,各季節(jié)北京市PM2.5小時濃度均呈較高的空間自相關(guān)性,空間集聚特征顯著,其中春、冬兩季的空間自相關(guān)性較弱,夏、秋兩季的空間自相關(guān)性較強。
由地理學第一定律[10]及1.2節(jié)的空間分析可知,PM2.5小時濃度在空間上具有相關(guān)性。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[11],其實質(zhì)是在規(guī)則矩陣上平移共享參數(shù)的過濾器,同時計算中心像素點與相鄰像素點的加權(quán)和,從而實現(xiàn)空間特征的提取,其核心是平移不變性。然而,在進行空間特征提取時,由于PM2.5小時濃度來自空氣質(zhì)量監(jiān)測站點的記錄數(shù)據(jù),每個監(jiān)測站點鄰近的站點數(shù)不一定相同,無法保證平移不變性,因此,無法直接使用CNN提取空間特征??紤]某一時刻所有監(jiān)測站點的PM2.5小時濃度數(shù)據(jù)的空間分布可以被抽象成一張無向拓撲圖,因此,本文選擇圖卷積神經(jīng)網(wǎng)絡(luò),以有效提取拓撲圖數(shù)據(jù)結(jié)構(gòu)的空間特征。
將某時刻S個空氣質(zhì)量監(jiān)測站點的PM2.5小時濃度數(shù)據(jù)的空間分布抽象為一張空間圖,記為G=(V,E,A),其中,V∈RS×P為點集,P為每個站點的屬性維度;E∈RS×S為邊集,表示各站點之間的連通性;A∈RS×S為G的空間鄰接矩陣,元素Aij表征圖節(jié)點vi和vj之間的相對空間關(guān)系?;谡军c之間的空間距離構(gòu)建鄰接矩陣A。若站點vi的地理坐標為(loni,lati),i∈[0,S),則站點vi和站點vj的空間距離為G中每個站點都會產(chǎn)生采樣頻率一致的污染物濃度序列數(shù)據(jù),由此組成圖序列數(shù)據(jù),見圖3。
圖卷積操作發(fā)生在空間維度,首先只考慮一個時間片上的空間圖G。圖卷積神經(jīng)網(wǎng)絡(luò)層接受某時間片上的G,通過某種卷積操作提取空間特征,然后,將G中每個節(jié)點的原始特征轉(zhuǎn)化為具有各自空間特征的隱層。由于圖數(shù)據(jù)無法保持平移不變,因此,與卷積神經(jīng)網(wǎng)絡(luò)類似,用過濾器在空域上進行特征提取顯得極為不便。圖卷積神經(jīng)網(wǎng)絡(luò)提取特征最常用的是圖譜理論方法[12],傅里葉變換可從空域變換至頻域求解,通過拉普拉斯矩陣將網(wǎng)格數(shù)據(jù)中的卷積操作推廣至圖結(jié)構(gòu)數(shù)據(jù)[13]。
由于對圖信號進行卷積后再做傅里葉變換等于對圖信號進行傅里葉變換后的乘積[14],所以圖的卷積等價為
其中,g為圖過濾器,x為圖信號,*表示卷積,F(xiàn)和F-1分別為傅里葉變換與逆變換。傅里葉變換與逆變換的關(guān)鍵是求得基e-2πit·v和基e2πiv·t(其中,v為頻域中的變量,t為空域中的變量,i為虛數(shù)單位)。拉普拉斯算子是實對稱矩陣,具有良好的性質(zhì),如易進行特征分解,且其特征向量是傅里葉變換基[15]。在圖G中,拉普拉斯算子L可用圖的度數(shù)矩陣D∈RS×S和鄰接矩陣A∈RS×S表示:
其中,di為節(jié)點vi的度。拉普拉斯算子L的特征分解式為
其中,UT對應(yīng)傅里葉變換基 e-2πit·v,U對應(yīng)傅里葉逆變換基 e2πiv·t,Λ為特征值組成的對角矩陣,記作
又由式(3),圖G的卷積等價為
由式(6),可將UTg看作參數(shù)為L的函數(shù)g(L),進一步將其看作參數(shù)為θ的函數(shù)gθ(Λ)。為降低計算復雜度,對gθ(Λ)做切比雪夫多項式的K階截斷近似[12]:
其中,取K=1,λmax=2,此時可得圖卷積的一階線性近似:
令 θ= θ"0=-θ"1,記圖 卷積為
將θ看作權(quán)值,加上激活層,可得最終的圖卷積神經(jīng)網(wǎng)絡(luò)的前向傳播式為
由于采用的是切比雪夫多項式的一階近似,圖卷積只能建立一階鄰居依賴,若建立K階鄰居依賴,需堆疊多個圖卷積層。本文采用兩層圖卷積神經(jīng)網(wǎng)絡(luò),前向傳播式為
其中,H0為節(jié)點集V,H2為圖卷積神經(jīng)網(wǎng)絡(luò)的最終輸出特征。神經(jīng)網(wǎng)絡(luò)通過反向傳播修改參數(shù)矩陣W1和W2,以獲得鄰接節(jié)點的最優(yōu)特征組合,即提取站點間的空間關(guān)系。
由于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)可以很好地關(guān)聯(lián)上下文信息,故常被用于序列數(shù)據(jù)建模[16]。Seq2Seq模型,又稱編碼器-解碼器模型,是RNN的一個重要變種。編碼器將輸入向量編碼成一個長度固定的上下文向量,解碼器將上下文向量解碼為目標序列。Seq2Seq模型最常見的結(jié)構(gòu)是用2個RNN結(jié)構(gòu)充當編碼器和解碼器,編碼器RNN的最后一個隱狀態(tài)作為上下文變量[17]。
本文選擇門控循環(huán)單元(gated recurrent unit,GRU)作為編碼器和解碼器。普通RNN在時間序列較長的情況下易出現(xiàn)梯度消失或梯度爆炸等問題[18],長 短 期 記 憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)通過引入的3個門函數(shù)控制信息傳遞,以克服長距離記憶消失的問題[19],GRU為LSTM網(wǎng)絡(luò)中一種效果較好的變體,其結(jié)構(gòu)較簡單、且容易訓練。
圖卷積神經(jīng)網(wǎng)絡(luò)提取的空間特征組成時間序列矩陣,作為編碼器的整體輸入,編碼器每次接受一個時間步的輸入向量,經(jīng)GRU門函數(shù),輸出該時間步的輸出向量和狀態(tài)向量,然后將狀態(tài)向量與下一個時間步的輸入向量同時輸入編碼器,循環(huán)至輸入序列的最后時間步。編碼器最終輸出的為壓縮了輸入序列整體信息的狀態(tài)向量和輸出序列矩陣。輸出的狀態(tài)向量將作為解碼器的初始狀態(tài)向量,而解碼器的輸入向量在訓練階段和預測階段有所不同。在訓練階段,采用 Teacher Forcing 策略[20],取上一個時間步的真實數(shù)據(jù)作為當前時間步的輸入向量,神經(jīng)網(wǎng)絡(luò)將參數(shù)快速更新至合適的值;在預測階段,則將上一個時間步的輸出向量作為當前時間步的輸入向量,因此不可避免地會產(chǎn)生誤差累積,造成預測精度衰減。編碼器-解碼器模型的工作示意如圖4所示。
圖4 編碼器-解碼器模型的工作示意Fig.4 Schematic diagram of encoder-decoder model
編碼器-解碼器模型的缺陷是上下文向量的表征能力有限,無法包含輸入序列的所有信息,從而限制,解碼器的解碼能力。研究發(fā)現(xiàn),注意力機制可以有效緩解序列預測模型中的信息衰減[7]。由于編碼器將更多信息分散地保存在每個時間步的輸出向量中,注意力機制允許解碼器不只依靠上下文向量完成解碼,而是在每個時間步上考慮編碼器的所有輸出向量,通過分配權(quán)重,加權(quán)求和得到解碼器在當前時間步最關(guān)注的信息。
其中,WQ為dx×dq維的Query參數(shù)矩陣,WK為dx×dk維的Key參數(shù)矩陣,WV為dx× dv維的Value參數(shù)矩陣,dq=dk。WQ、WK、WV的作用與全連接神經(jīng)網(wǎng)絡(luò)中的權(quán)重矩陣類似,需要通過反向傳播算法更新參數(shù)。目標值與Query參數(shù)矩陣相乘使得目標值從dx維度的xtk向量映射為dq維度的Q向量,同理,xts-te矩陣映射為元素維度為dk的K矩陣和元素維度為dv的V矩陣。K與V都是對依賴序列的另一種表達,區(qū)別是K用于衡量目標值與依賴序列的相關(guān)性,即求解權(quán)值,V用于計算權(quán)值與依賴序列的加權(quán)和,即求解注意力機制的輸出。xtk向量可來自依賴序列xts-te,也可來自其他序列,若來自依賴序列xts-te,則稱該注意力機制為自注意力。
目標值與依賴序列之間的關(guān)系為
其中,softmax為深度學習中的softmax激活函數(shù),將數(shù)據(jù)歸一化(0,1)區(qū)間:
將權(quán)值矩陣與依賴序列加權(quán)求和,可得注意力向量
為提高目標值與依賴序列之間注意力的表達能力,增強注意力的廣度和深度,文獻[7]進一步提出了多頭注意力機制(multi-head attention)概念,即使用H組(WQ、WK、WV)參數(shù)矩陣,計算同一組目標值和依賴序列的H次注意力機制,得到H個注意力向量,將H個注意力向量拼接成一個向量,作為注意力機制的最終輸出結(jié)果。
本文提出的PM2.5小時濃度多步預測模型可簡寫為GCN_Attention_Seq2Seq,由圖卷積神經(jīng)網(wǎng)絡(luò)、GRU編碼器和GRU解碼器3部分堆疊而成,其中,GRU編碼器和GRU解碼器與多頭注意力機制連接,GRU解碼器內(nèi)部使用多頭自注意力機制以提取待解碼時間步的輸入與已解碼的所有輸出間的關(guān)系。
圖5 GCN_Attention_Seq2Seq模型結(jié)構(gòu)Fig.5 Model structure of GCN_Attention_Seq2Seq
圖5 為處于預測模式的GCN_Attention_Seq2Seq模型結(jié)構(gòu),處于訓練模式時,解碼器每個時間步的輸入都由實測值代替。圖5說明如下:
①編碼器最后一個時間步的輸出經(jīng)過全連接層得到預測值,該預測值經(jīng)圖卷積操作后作為解碼器第一個時間步的輸入。
②將編碼器最后一個時間步的狀態(tài)向量作為解碼器的初始狀態(tài)向量。
③解碼器在解碼當前時間步時,將該步的輸入向量作為目標值、已解碼得到的所有輸出向量作為依賴序列,計算得到自注意力向量。自注意力向量用于衡量解碼器內(nèi)當前時間步的輸入對解碼器當前所有輸出的依賴程度。自注意力向量與上一步輸出的狀態(tài)向量相加作為新狀態(tài)向量。
④解碼器在解碼當前時間步時,將第③步得到的新狀態(tài)向量作為目標值,將編碼器的輸出矩陣作為依賴序列,計算得到注意力向量。
⑤將第④步得到的注意力向量作為輸入當前時間步的最終狀態(tài)向量,用于解碼。
本文將最原始的編碼器-解碼器(Seq2Seq)模型和使用圖卷積神經(jīng)網(wǎng)絡(luò)、未使用注意力機制的編碼器-解碼器(GCN_Seq2Seq)模型作為對照模型,以說明圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的作用。3個模型在編碼器部分無區(qū)別,而在解碼器部分,GCN_Attention_Seq2Seq模型較其他2個模型增加了多頭注意力機制和多頭自注意力機制。
實驗樣本為2015年1月1日至2016年12月29日北京市36個空氣質(zhì)量監(jiān)測站點的空氣污染物小時濃度數(shù)據(jù),污染物包括 PM2.5、PM10、NO2、CO、O3和SO2共6種,數(shù)據(jù)來源于中國環(huán)境監(jiān)測總站的全國城市空氣質(zhì)量實時發(fā)布平臺。由于監(jiān)測站點采集到的原始數(shù)據(jù)有不同程度的缺失,故去除數(shù)據(jù)缺失率大于2%的污染物和監(jiān)測站點,最終保留了22個空氣質(zhì)量監(jiān)測站點和 PM2.5、SO2、NO2、O3共 4 種污染物,共形成382 998條原始空氣質(zhì)量記錄數(shù)據(jù)。空氣質(zhì)量監(jiān)測站點分布及其拓撲圖如圖6所示。
首先,對原始記錄數(shù)據(jù)進行預處理。然后,對382 998條記錄以時間為行索引、站點ID為列索引進行排列,規(guī)整為17 410行。每一行的各站點間用“#”號間隔,每個站點中的污染物濃度屬性用“,”間隔。缺失值用線性插值的方式補全。最后,將17 410條數(shù)據(jù)按8∶1∶1的比例劃分為訓練集、驗證集和測試集,以訓練集中每種污染物的最大值為標準對訓練集、驗證集和測試集進行最大值歸一化。
圖6 空氣質(zhì)量監(jiān)測站點分布及其拓撲圖Fig.6 Distribution and topology of air quality monitoring stations
本文研究的PM2.5小時濃度多步預測屬序列預測問題,也是回歸問題,因此采用均方根誤差(root mean squared error,RMSE)、平均絕對誤差(mean absolute error,MAE)以 及 擬 合 指 數(shù)(index of agreement,IA)3個指標計算預測序列與實測序列之間的差,并用其評價預測效果。訓練模型所用的超參數(shù)如表2所示。實驗硬件環(huán)境為處理器為Intel(R)Xeon(R)CPU E5-2650 v4@2.20 GHz、GPU為GeForce GTX 1080 Ti、內(nèi)存為64 GB的服務(wù)器,軟 件 環(huán) 境 為 Python 3.6.0、PyTorch 1.0.0、CUDA 9.0。
表2 訓練模型超參數(shù)Table 2 Parameters of training model
將訓練數(shù)據(jù)組織為觀察窗口24 h、預測窗口3 h的時間序列,分別訓練GCN_Attention_Seq2Seq模型、GCN_Seq2Seq模型和Seq2Seq模型;將測試數(shù)據(jù)組織為觀察窗口24 h、預測窗口分別為3,6,9,12,15,18 h的時間序列,用訓練好的3個模型分別對6組測試數(shù)據(jù)進行預測。表3列出了3個模型在22個站點中的預測精度。由表3可知,無論是最好情況、平均情況還是最差情況,GCN_Attention_Seq2Seq模型的3項指標均為最優(yōu),3 h預測窗口的平均IA最高可達98.3%,GCN_Seq2Seq模型次之,Seq2Seq模型最差。GCN_Attention_Seq2Seq模型的平均RMSE比GCN_Seq2Seq模型低17.5%,比Seq2Seq模型低24.3%。結(jié)果表明,在Seq2Seq模型中,考慮空氣質(zhì)量監(jiān)測站點之間的空間關(guān)系是必要的,且增加注意力機制可顯著提高模型的預測精度。
表3 3個模型的預測精度Table 3 Prediction accuracy of three models
由于每個模型的最好情況、平均情況、最差情況對模型預測能力反映的趨勢是一致的,圖7為平均情況下隨預測窗口的加長,3個模型的RMSE、MAE、IA指標變化情況。從3個指標的整體看,隨著預測窗口的加長,GCN_Attention_Seq2Seq模型的誤差與2個對照模型的分化越來越大,誤差顯著低于2個對照模型,當預測窗口小于12 h時,3個模型的RMSE均迅速升高,MAE緩慢升高,IA快速下降;當預測窗口大于12 h時,RMSE、MAE、IA均開始趨于穩(wěn)定,趨于穩(wěn)定后,Seq2Seq和GCN_Seq2 Seq模型的RMSE高居60及以上、MAE在40及以上,GCN_Attention_Seq2Seq模型的RMSE則在50左右、MAE在30左右。從IA單項指標看,隨預測窗口的加長,GCN_Attention_Seq2Seq模型的IA始終保持在0.8以上,而Seq2Seq和GCN_Seq2Seq模型的IA則由最初的大于0.9分別降至0.6和0.7,結(jié)果表明,隨著預測窗口的加長,GCN_Attention_Seq 2Seq模型的預測精度衰減率比未使用注意力機制的模型低得多,原因是編碼器和解碼器之間以及解碼器內(nèi)部使用了注意力機制,使得解碼器不再只依靠編碼器最后一個時間步的狀態(tài)向量完成解碼,而是在每個時間步上均考慮了編碼器的所有輸入向量,通過分配權(quán)重,加權(quán)求和得到解碼器在當前時間步最關(guān)注的信息,從而降低了信息遺漏和記憶衰減。
為更清晰地說明注意力機制有助于減少信息遺漏和記憶衰減,本文提出以精度衰減率指標φ表示當前時間步的預測值與實測值的RMSE相較于前一時間步的增加幅度,即預測精度衰減的程度,計算式為
圖7 3個模型的指標變化對比Fig.7 Comparison diagram of indicator changes of three models
圖8 當觀察窗口為24 h、預測窗口為15 h時各個時間步的預測精度衰減率Fig.8 Prediction accuracy attenuation rate of each time step when the observation window is 24 h and the prediction window is 15 h
本文選取GCN_Attention_Seq2Seq和GCN_Seq2Seq模型,給予24 h的觀察窗口,預測之后15 h內(nèi)的PM2.5小時濃度,并計算預測窗口中每個時間步的精度衰減率φ,見圖8。GCN_Attention_Seq2Seq模型在15 h預測窗口中的平均預測精度衰減率為6.32%,GCN_Seq2Seq模型在15 h預測窗口中的平均預測精度衰減率為11.62%,GCN_Attention_Seq 2Seq模型的預測精度衰減率顯著小于GCN_Seq2 Seq模型,表明注意力機制對特征的自適應(yīng)關(guān)注可實現(xiàn)對數(shù)據(jù)特征的有效利用,提高深度學習模型的應(yīng)用效果。在15 h的預測窗口中,前2 h的精度衰減率較大,后續(xù)精度衰減率起伏較平緩,但GCN_Attention_Seq2Seq模型的預測精度衰減率始終低于GCN_Seq2Seq模型,且起伏更為平緩。GCN_Attention_Seq2Seq模型的預測精度衰減率起伏較為平緩的原因可能與自注意力機制發(fā)揮作用有關(guān),預測窗口中已取得的預測結(jié)果為后續(xù)預測提供了更豐富的上下文信息。
以上分析足以表明,在PM2.5小時濃度多步預測中,注意力機制能減少信息遺漏和記憶衰減,降低預測精度衰減率,提高多步預測能力。
圖9為2015年8月14日至2016年8月14日3個模型在云崗空氣質(zhì)量監(jiān)測站點針對觀察窗口24 h、預測窗口3 h,在預測窗口第一個時間步上的實測值和預測值折線圖。由圖9可知,GCN_Attention_Seq2 Seq模型的預測值和實測值的擬合度稍好于GCN_Seq2Seq模型,顯著好于Seq2Seq模型。
考慮PM2.5小時濃度數(shù)據(jù)的時空相關(guān)性以及原始編碼器-解碼器模型容易發(fā)生記憶衰減,本文利用圖卷積神經(jīng)網(wǎng)絡(luò)的對非歐式空間數(shù)據(jù)提取特征的能力以及注意力機制的自適應(yīng)關(guān)注特征的能力,提出了融合圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的PM2.5小時濃度多步預測模型。以2015—2016年北京市22個空氣質(zhì)量監(jiān)測站點的空氣質(zhì)量數(shù)據(jù)為樣本,設(shè)計并訓練了GCN_Attention_Seq2Seq,GCN_Seq2Seq,Seq2Seq 3種深度學習模型,在測試集上的驗證結(jié)果表明,GCN_Attention_Seq2Seq模型的平均RMSE比GCN_Seq2Seq模型低17.5%,比Seq2Seq模型低24.3%;GCN_Attention_Seq2Seq模型在15 h預測窗口中的平均預測精度衰減率為6.32%,顯著低于GCN_Seq2Seq模型的11.62%,證實了圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機制有助于提升PM2.5小時濃度多步預測的精度,注意力機制有助于減緩多步預測中的預測精度衰減。本文方法在時間序列上使用了注意力機制,取得了良好效果。下一步工作將重點研究注意力機制在空間特征提取中的作用。