毛文婧,王衛(wèi)林,焦利民,劉安寶
1.武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079;2.福建經(jīng)緯測繪信息有限公司,福建 福州 350001
隨著世界經(jīng)濟和城市化快速發(fā)展,許多城市都面臨空氣污染問題[1-2]。PM2.5是指在空氣中直徑小于2.5 μm的懸浮顆粒,是造成空氣污染的主要來源,PM2.5濃度的增加會嚴(yán)重危害人體的身體健康和生態(tài)環(huán)境[3-6]。實現(xiàn)全國大范圍區(qū)域內(nèi)的大氣污染物濃度的高精度時空預(yù)報和分析對大氣污染物的聯(lián)防聯(lián)控和公眾環(huán)境大氣質(zhì)量信息服務(wù)具有重要的現(xiàn)實意義。
目前,大氣污染物濃度時空預(yù)報的方法主要包括物理模型的方法和統(tǒng)計模型的方法。物理模型的方法是基于大氣污染物形成的機制和原理,進行演化、模擬從而通過數(shù)學(xué)的方式構(gòu)建模型從而推演出污染物的時空分布[7-8]。然而,該方法難以基于物理方程準(zhǔn)確描述大氣污染濃度與外部特征之間的關(guān)系,且計算量巨大等問題使其難以用于大范圍區(qū)域的空間化模擬[9]。統(tǒng)計模型的方法主要以統(tǒng)計學(xué)為基礎(chǔ),通過擬合歷史的污染物數(shù)據(jù)與外部特征的定量關(guān)系,從而預(yù)測未來大氣污染的分布,此類方法精度較高且相對于物理模型易于實現(xiàn),應(yīng)用更加廣泛[10],常用的統(tǒng)計模型包括機器學(xué)習(xí)模型[11-14]和人工神經(jīng)網(wǎng)絡(luò)模型[15-16],基于機器學(xué)習(xí)模型的方法能很好地擬合大氣污染物與外部特征間的數(shù)值關(guān)系,但是其更適用于小樣本數(shù)據(jù)致使無法充分捕捉大氣污染物自身的時空依賴特征[17]。
隨著計算機能力的增強,人工神經(jīng)網(wǎng)絡(luò)的模型逐漸應(yīng)用于大氣污染物濃度的時空預(yù)報任務(wù)中,特別是基于深度學(xué)習(xí)的模型(含有兩層或兩層以上的隱藏層)由于其自適應(yīng)、自組織、自學(xué)習(xí)能力決定了其在空間預(yù)測任務(wù)中能表現(xiàn)良好的性能[18-19]。其中,反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)通過并入氣象因素(例如,相對濕度、溫度和風(fēng)速)、土地使用類型、人口、道路網(wǎng)絡(luò)等多種外源的變量能很好地實現(xiàn)PM2.5濃度空間化展示[20-22],但是,此模型空間化的精度有待改善,難以廣泛應(yīng)用于未來實時的預(yù)測。研究發(fā)現(xiàn)基于長短期記憶(LSTM)網(wǎng)絡(luò)的模型擅長捕獲時間序列數(shù)據(jù)中的長時間依賴性[23-24]。LSTM模型是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的變體,能有效解決RNN產(chǎn)生的梯度爆炸或者梯度消失等問題,使其能更有效地學(xué)習(xí)長時間序列數(shù)據(jù)的特征[25]。許多研究者通過建立基于長短期記憶(LSTM)網(wǎng)絡(luò)的模型來預(yù)測未來時刻監(jiān)測站點的PM2.5濃度的變化,并取得不錯的預(yù)測結(jié)果[26-29]。目前基于LSTM的模型一般能在未來1 h的PM2.5濃度預(yù)測任務(wù)中表現(xiàn)優(yōu)秀,但長期預(yù)測的精度普遍較低。目前的研究預(yù)測PM2.5濃度的范圍大都為區(qū)域小尺度范圍,很少有對全國大尺度范圍實現(xiàn)較高精度的PM2.5濃度預(yù)測,并且大多研究預(yù)測的是各個空氣質(zhì)量監(jiān)測站未來PM2.5濃度的變化,很少有全國大范圍精細(xì)空間化的預(yù)報結(jié)果,僅僅對PM2.5濃度的區(qū)域預(yù)測和分析難以獲取全國尺度的PM2.5濃度時空分布狀況從而為整個中國的宏觀監(jiān)測提供足夠的信息。
針對以上問題,本文通過構(gòu)建基于深度學(xué)習(xí)的多層LSTM迭代預(yù)報模型和改進的S-BPNN空間化模型實現(xiàn)全國大范圍內(nèi)精細(xì)空間化的PM2.5濃度預(yù)報。主要貢獻如下:①在PM2.5的時空相關(guān)性和影響因素分析基礎(chǔ)上,將全國范圍內(nèi)PM2.5監(jiān)測站進行自適應(yīng)分區(qū)并分別構(gòu)建非線性和自適應(yīng)的多層LSTM迭代預(yù)測模型,該模型結(jié)合最佳時滯,利用迭代的方式通過多層雙向LSTM捕獲PM2.5濃度的長時間依賴特征,從而可以保持較高的時間相關(guān)性,從而預(yù)測各個監(jiān)測站點未來24 h PM2.5濃度的變化;②結(jié)合預(yù)報模型,再利用改進的空間反向傳播神經(jīng)網(wǎng)絡(luò)(S-BPNN)空間化模型,該模型通過顧及監(jiān)測站點的空間相關(guān)性對預(yù)報模型的預(yù)報結(jié)果進行全國大范圍精細(xì)化制圖,實現(xiàn)PM2.5濃度的空間預(yù)報;③基于預(yù)測模型和空間化模型搭建大氣污染物濃度預(yù)報的智能化在線信息原型系統(tǒng)從而發(fā)布全國大范圍的PM2.5濃度時空預(yù)報。
本文獲取了2016-01-01—2019-12-31共4年全國范圍內(nèi)1286個空氣質(zhì)量監(jiān)測站點的PM2.5監(jiān)測數(shù)據(jù)(http:∥106.37.208.233:20035/),相應(yīng)的輔助數(shù)據(jù)包括氣象數(shù)據(jù)(CMDC:http:∥data.cma.cn/en),建筑用地數(shù)據(jù)(http:∥www.dsac.cn/),道路長度數(shù)據(jù)(http:∥www.openstreetmap.org/),人口密度數(shù)據(jù)(https:∥web.ornl.gov/sci),歸一化的植被指數(shù)(NDVI)(https:∥web.ornl.gov/sci)數(shù)據(jù)和高程(DEM)(http:∥www.gscloud.cn/)數(shù)據(jù)。圖1顯示了所有空氣質(zhì)量監(jiān)測站點地理位置分布和對應(yīng)2019年的平均PM2.5濃度。如圖1所示,我國PM2.5濃度較高的區(qū)域集中在京津冀及周邊地區(qū)、汾渭平原和西北部的一些城市,京津冀及周邊地區(qū)和汾渭平原的人口數(shù)量密集,是我國重工業(yè)集中區(qū)域,區(qū)域性的大氣污染問題較為嚴(yán)重,而西北地區(qū)如烏魯木齊、伊犁等城市風(fēng)沙較大,沙塵天氣較多,以及城市特殊的地理位置導(dǎo)致污染物難以散去,導(dǎo)致PM2.5濃度較高。
圖1 研究區(qū)域內(nèi)空氣質(zhì)量監(jiān)測站點的分布Fig.1 Distribution of air quality monitoring stations in the study area
首先,基于PM2.5站點的空間相關(guān)性對所有監(jiān)測站點進行自適應(yīng)分區(qū),再利用歷史時刻的實測PM2.5監(jiān)測數(shù)據(jù)和氣象數(shù)據(jù)基于深度學(xué)習(xí)的方法分別建立預(yù)報模型,從而預(yù)測各個監(jiān)測站未來時刻的PM2.5濃度值,其中氣象數(shù)據(jù)包括降水量(PRE)、氣壓(PRS)、相對濕度(RHU)、日照(SSD)、溫度(TEM)及風(fēng)向風(fēng)速(WIN),氣象數(shù)據(jù)通過反距離加權(quán)空間插值的方式匹配到各個PM2.5監(jiān)測站點。然后,結(jié)合氣象數(shù)據(jù),建筑用地數(shù)據(jù),道路長度數(shù)據(jù),人口密度數(shù)據(jù),NDVI數(shù)據(jù)和DEM數(shù)據(jù)進行空間化建模,對PM2.5濃度預(yù)報結(jié)果進行精細(xì)化制圖,從而實現(xiàn)全國大范圍尺度的PM2.5濃度空間預(yù)報,以實時評估全國的PM2.5濃度空間分布特征。最后,基于研究的大氣污染物預(yù)報模型和空間化模型,初步生成大氣污染物濃度預(yù)報平臺原型系統(tǒng),從而發(fā)布大氣污染物濃度的預(yù)報結(jié)果。表1列出了選取數(shù)據(jù)的統(tǒng)計特征。
表1 試驗數(shù)據(jù)的統(tǒng)計特征Tab.1 Statistical characteristics of experimental data
氣象條件是影響大氣污染物濃度的重要因素,并且大氣污染物濃度具有一定的時間特征[30-31]。圖2展示了2016-01-01—2019-12-31全國日均PM2.5濃度值。由圖2可知,PM2.5濃度具有明顯的季節(jié)特征,由于受到污染源排放和氣象條件影響,PM2.5濃度一年表現(xiàn)為“冬季普遍偏高,春秋次之,夏季最輕”。冬季,溫度的降低會致使大氣污染不易擴散從而累積,并且釆暖期的燃煤量需求變大也導(dǎo)致污染物的排放增加;夏季,氣象條件的變化如溫度的增高、降水量的增加等,有利于降低PM2.5濃度。因此在進行PM2.5濃度預(yù)測中,本文考慮將大氣污染的時間特征(季節(jié)特征、月份特征、天特征)的獨熱編碼(one-hot)作為預(yù)測模型的輔助輸入。圖3展示了2019-01-01—2019-12-31所有監(jiān)測站日均PM2.5濃度、降水量、氣壓、相對濕度、日照、溫度及風(fēng)向風(fēng)速值,通過PM2.5濃度與同時期的氣象數(shù)據(jù)進行對比分析,可以發(fā)現(xiàn)PM2.5濃度值與降水量、濕度、氣壓、溫度呈現(xiàn)明顯的負(fù)相關(guān),氣象條件是大氣污染關(guān)鍵的影響外因,當(dāng)風(fēng)速很小,大氣靜穩(wěn),近地面逆溫,濕度較高等情況容易產(chǎn)生重污染,在本文中將歸一化的氣象數(shù)據(jù)和時間數(shù)據(jù)的one-hot編碼作為PM2.5預(yù)測模型的輔助數(shù)據(jù),增加這些輔助數(shù)據(jù)能提高模型的預(yù)測能力。
圖2 1月1日—12月31日全國日均PM2.5濃度值(2016—2019年)Fig.2 Daily average PM2.5 concentration values in China from January 1 to December 31 (2016—2019)
圖3 2019-01-01—2019-12-31日平均觀測PM2.5濃度值與降水量,氣壓量,濕度,日照量,溫度和風(fēng)速的關(guān)系Fig.3 The relationship diagram of daily averaged observed PM2.5 and PRE,PRS,RHU,SSD,TEM,WIN from January 1 to December 31 (2016—2019)
1.3.1 時間相關(guān)性分析
利用最大互信息系數(shù)分析PM2.5數(shù)據(jù)的時間相關(guān)性,最大互信息系數(shù)(maximal information coefficient,MIC)是用來度量兩個變量之間線性或非線性關(guān)聯(lián)強度[32],其公式為
(1)
式中,x和y分別代表時滯前后的PM2.5數(shù)據(jù);a和b分別為x和y方向上的網(wǎng)格數(shù)量;B為可變變量,一般設(shè)置為數(shù)據(jù)量的0.6次方。
圖4顯示了全國范圍為內(nèi)隨機選取的100個空氣質(zhì)量監(jiān)測站0~20 h時間間隔的最大信息相關(guān)系數(shù)變化情況。由圖4可知,相關(guān)系數(shù)隨時滯的增大而減小,時滯越小,相關(guān)程度越強,這說明了PM2.5數(shù)據(jù)具有顯著的時間相關(guān)性,這些發(fā)現(xiàn)同樣可為預(yù)測任務(wù)選擇合適的時滯。
圖4 100個隨機選擇站點之間的最大信息相關(guān)系數(shù)Fig.4 MIC between 100 randomly selected stations
1.3.2 空間相關(guān)性分析
單個站點的PM2.5濃度監(jiān)測值往往會受到區(qū)域范圍內(nèi)污染物的影響,距離較近的PM2.5監(jiān)測站點之間往往空間相關(guān)程度較強[22]。本文綜合考慮全國范圍內(nèi)各個站點的PM2.5污染程度和地理位置,以自相關(guān)系數(shù)為衡量標(biāo)準(zhǔn),研究最佳相關(guān)分區(qū),將所有站點劃分到68個區(qū)域,再分別進行建模預(yù)測未來的PM2.5濃度。
利用莫蘭指數(shù)(Moran’s I)評估各個分區(qū)內(nèi)的PM2.5監(jiān)測站的空間相關(guān)性,以下分別為全局莫蘭指數(shù)I和全局莫蘭檢驗數(shù)Z的計算公式
(2)
(3)
以各個監(jiān)測站2016—2019年P(guān)M2.5平均值作為觀測矩陣,區(qū)域內(nèi)各個監(jiān)測站點之間距離的倒數(shù)作為空間權(quán)重矩陣從而計算全局莫蘭指數(shù)和顯著性檢驗值。圖5(a)和(b)分別顯示了每個分區(qū)的全局莫蘭指數(shù)和顯著性檢驗值。由圖5可知,每個區(qū)域在顯著性為0.05水平下,全局莫蘭指數(shù)Z都大于1.96,莫蘭指數(shù)皆大于0.4,且大部分區(qū)域都大于0.5,個別區(qū)域甚至大于0.9,表明了PM2.5濃度具有一定區(qū)域效應(yīng),在一定區(qū)域范圍內(nèi)的PM2.監(jiān)測站之間具有顯著的空間相關(guān)性。
圖5 各個分區(qū)的空間相關(guān)性統(tǒng)計情況Fig.5 Spatial correlation statistics of each partition
長短期記憶(LSTM)網(wǎng)絡(luò)是通過門控機制和狀態(tài)變量控制循環(huán)信息的傳遞。本文基于在68個分區(qū)區(qū)域分別建立多層LSTM迭代預(yù)測模型,該預(yù)測模型能夠同時對同一個區(qū)域內(nèi)的多個PM2.5監(jiān)測站進行協(xié)同訓(xùn)練,并一次性得到該區(qū)域內(nèi)各個監(jiān)測站未來24 h的PM2.5預(yù)測值。該模型的總體結(jié)構(gòu)如圖6所示,此模型以各個區(qū)域內(nèi)的所有監(jiān)測站PM2.5時滯歷史數(shù)據(jù)作為模型的主要輸入,結(jié)合合適的時滯r,然后通過雙向LSTM層和全連接層的組合進行迭代預(yù)測,將預(yù)測未來24 h的時間段分為24/r個區(qū)間,以時滯r=8為例,將進行3次迭代預(yù)測任務(wù)(輸出1:未來1~8 h,輸出2:未來9~16 h,輸出3:未來17~24 h),每次輸出作為下一次迭代預(yù)測的輸入,直到迭代任務(wù)結(jié)束,其中r=12時,預(yù)測結(jié)果最好(具體試驗見3.1節(jié))。另外,為了減少迭代預(yù)測中的誤差累積,最后一個輸出為該時間段預(yù)測的平均值。將迭代預(yù)測的所有輸出結(jié)果再結(jié)合輔助輸入(氣象數(shù)據(jù)和時間數(shù)據(jù))通過全連接層訓(xùn)練,最后輸出該區(qū)域各個監(jiān)測站未來1~12 h實時,13~24 h的平均PM2.5預(yù)測值。
圖6 多層LSTM迭代模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 The network structure of multi-layer LSTM iterative model
預(yù)測模型整體流程圖如圖7所示,主要包括3個步驟。
圖7 預(yù)測模型整體流程Fig.7 Overall flow chart of prediction model
(1)由于考慮PM2.5監(jiān)測站點間顯著的時空相關(guān)性,以每個區(qū)域各個PM2.5監(jiān)測站點的歷史序列數(shù)據(jù)作為模型的主要輸入,以氣象數(shù)據(jù)和時間數(shù)據(jù)作為輔助輸入,通過多層LSTM迭代預(yù)測模型進行訓(xùn)練,得到未來24 h PM2.5濃度的預(yù)測值。
(2)通過模型的預(yù)訓(xùn)練得出初步的PM2.5預(yù)測值,結(jié)合PM2.5觀測值,計算損失函數(shù),這里以均方誤差作為損失函數(shù),損失函數(shù)的公式為式(4),再通過反向傳播的方式調(diào)整網(wǎng)絡(luò)的權(quán)重參數(shù),使結(jié)果最優(yōu)化。
(3)將樣本數(shù)據(jù)集以75%和25%劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,以RMSE,MAE,R2作為精度指標(biāo),評估預(yù)測模型是否存在過擬合或者欠擬合的現(xiàn)象,若是的話,則回到步驟1,調(diào)整預(yù)測模型的網(wǎng)絡(luò)結(jié)構(gòu)。通過上述3個步驟得到68個分區(qū)內(nèi)各個監(jiān)測站點最終的PM2.5預(yù)測值。
(4)
式中,N表示總的樣本數(shù)目;i表示當(dāng)前樣本;Pi表示當(dāng)前樣本的預(yù)測值;Oi表示當(dāng)前樣本的觀測值。
基于多層LSTM迭代模型預(yù)測的PM2.5監(jiān)測站點值難以在空間上進行展示,因此,應(yīng)采用相應(yīng)的模型進行空間化建模從而對PM2.5預(yù)報結(jié)果進行精細(xì)化制圖,以實時評估區(qū)域的PM2.5空間分布特征。相關(guān)研究表明空氣質(zhì)量的空間分布會受到氣象特征、地理環(huán)境以及人類活動等多重影響[33],本文考慮輸入影響特征時,分別考慮了氣象因素、空間相關(guān)因素和物理因素。
本文在空間化神經(jīng)網(wǎng)絡(luò)(S-BPNN)模型[22]的基礎(chǔ)上做出進一步改進,改進的空間化模型的結(jié)構(gòu)如圖8所示。
圖8 空間化模型網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Network framework of the spatial model
該模型網(wǎng)絡(luò)結(jié)構(gòu)主要由輸入層、隱藏層和輸出層組成,其中輸入層是由每個網(wǎng)格點的所有特征組成的,包括主要輸入和輔助輸入。首先,將全國劃分將近為10萬個10 km×10 km的網(wǎng)格點。由PM2.5濃度時空分析可知,PM2.5濃度具有高度的空間相關(guān)性,對于每個網(wǎng)格單元的PM2.5濃度與其空間距離最近的m個網(wǎng)格單元的PM2.5濃度具有顯著的相關(guān)性,所以將各個網(wǎng)格點的空間滯后變量(SLV)特征作為主要輸入,計算公式見式(5)
(5)
式中,m表示空間鄰近網(wǎng)格單元數(shù);wsi表示第i個鄰近網(wǎng)格的權(quán)重;ds表示空間距離。
基于相關(guān)研究證明,當(dāng)m=3時,模型性能表現(xiàn)最佳[22,33-34]。然后,將主要輸入變量輸入到隱藏層,通過兩層全連接層的訓(xùn)練后,結(jié)合輔助輸入再通過一層全連接層進行訓(xùn)練,其中輔助輸入由站點的經(jīng)緯度、DEM、NDVI、建筑面積、人口密度、道路長度以及6個氣象特征數(shù)據(jù)共13個特征數(shù)據(jù)組成。最后,輸出各個網(wǎng)格點在t時刻的PM2.5預(yù)測值。
本文獲取了2016—2019年共35 064 h的數(shù)據(jù),基于PM2.5濃度顯著的時空相關(guān)性,利用時間序列填補法和鄰近站點填補法處理缺失值。基于時間相關(guān)性分析,并且為保證每次迭代預(yù)測的時間間隔一致,本文隨機選取5個分區(qū)模型分別在[3,4,6,8,12]中選擇時滯r進行試驗,得到每個時滯下各個分區(qū)模型試驗精度指標(biāo)的平均值結(jié)果,由表2可知,當(dāng)r=12時,模型預(yù)測性能表現(xiàn)最好。
表2 不同時滯的選擇對模型性能的影響分析Tab.2 Analysis of the influence of different time delays on model performance
為了驗證預(yù)測模型的性能以及捕捉時間序列的能力,圖9展示了全國地區(qū)2019年1月1日—12月31日的日均PM2.5觀測值和多層LSTM迭代模型預(yù)測的PM2.5濃度的變化曲線。由圖9可知,PM2.5預(yù)測值與觀測值的時間變化趨勢之間存在一致性,表明多層LSTM迭代模型能很好地預(yù)測未來PM2.5濃度的時間序列變化。
PM2.5預(yù)測值和觀測值的回歸圖如圖10所示。本文不僅預(yù)測了2019年365天的PM2.5日均值(圖10(a)),也預(yù)測了基于每小時樣本未來24 h的PM2.5平均值(圖10(b))。圖10(c)—(f)為1年4個時間段基于每小時樣本的回歸評價圖,其中圖10(a)和圖10(b)的R2分別為0.96和0.88,并且從圖10(c)—(f)和表3可以看出,PM2.5濃度具有明顯的時間特征,表3為預(yù)測模型的時段精度評價,可知預(yù)測模型在4個時間段總體表現(xiàn)良好,其中每年1—2月和9—12月R2值在0.90以上,這表明多層LSTM迭代模型總體能實現(xiàn)較高精度的PM2.5濃度預(yù)測。由圖9和圖10可知,模型的預(yù)測能力隨時間的變化很明顯,在6—8月期間,存在明顯的PM2.5濃度低值高估的現(xiàn)象,如圖10所示,PM2.5濃度預(yù)測值和觀測值之間的線性回歸方程的斜率小于1并且截距大于0,可以推斷出預(yù)報結(jié)果有低估高濃度和高估低濃度的趨勢,其預(yù)測結(jié)果的區(qū)間往往小于觀測值的區(qū)間,從側(cè)面也反映了PM2.5濃度預(yù)測的復(fù)雜性。
圖9 基于多層LSTM迭代模型的預(yù)測結(jié)果Fig.9 Forecast results based on multi-layer LSTM iterative model
利用2016—2019年每個PM2.5監(jiān)測站實時的數(shù)據(jù),采用十折交叉驗證的方式評估模型的性能。表4為改進的S-BPNN空間化模型和S-BPNN模型十折交叉驗證結(jié)果。由表4可知,S-BPNN模型訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的平均R2分別為0.77和0.75,而改進的S-BPNN模型R2分別為0.88和0.87,RMSE和MAE值都小于S-BPNN模型的值,RMSE和MAE的值分別提高了24.31%和25.33%,而且對比改進的S-BPNN模型和S-BPNN模型誤差的標(biāo)準(zhǔn)差,可以發(fā)現(xiàn)改進的S-BPNN模型各項誤差的波動較小,表明了改進的S-BPNN模型通過改變模型的網(wǎng)絡(luò)結(jié)構(gòu),將空間滯后變量作為主要輸入,其他特征數(shù)據(jù)作為輔助輸入,可以實現(xiàn)更高的精度和穩(wěn)定性,且適當(dāng)增加隱藏層的層數(shù)可以提高模型的預(yù)測性能。本文基于預(yù)報模型預(yù)測的2020年7月29日未來24 h的PM2.5濃度,結(jié)合改進的S-BPNN空間化模型繪制了中國在空間分辨率為10 km時未來1~12 h、13~24 h和1~24 h PM2.5濃度的平均分布圖,圖11展示了基于改進的S-BPNN模型全國大范圍PM2.5預(yù)測值的空間分布(未來1 h、6 h、12 h、13~24 h平均和1~24 h平均)。如圖11所示,從季節(jié)上看,全國在夏季的PM2.5濃度值普遍偏低,全國大范圍地區(qū)的PM2.5濃度值都低于30 μg/m3。從時間上看,PM2.5濃度值具有顯著的時間相關(guān)性,相隔時間越短,其PM2.5濃度變化較小。從空間上看,我國PM2.5濃度值偏高地區(qū)主要集中于華北地區(qū),這與該地區(qū)的產(chǎn)業(yè)發(fā)展,地理位置與氣候條件等密切相關(guān)。
圖11 基于改進的S-BPNN模型的全國大范圍PM2.5預(yù)測值空間分布Fig.11 Spatial distribution of predicted PM2.5 concentrations in large-scale area based on improved S-BPNN model
表4 S-BPNN和改進的S-BPNN模型十折交叉驗證結(jié)果Tab.4 10-fold cross-validation results of S-BPNN and improved S-BPNN model
基于預(yù)報模型和空間化模型,建立大氣污染物濃度預(yù)報原型系統(tǒng),以此發(fā)布全國連續(xù)空間PM2.5濃度的預(yù)報結(jié)果?;贛ySQL數(shù)據(jù)庫為運行核心,原型系統(tǒng)主要包括數(shù)據(jù)管理、模型預(yù)測、實時預(yù)警及可視化展示4個模塊,其中,數(shù)據(jù)管理模塊用于實時大氣污染物濃度、氣象等數(shù)據(jù)實時的錄入、管理等;模型預(yù)測模塊主要基于多層LSTM迭代預(yù)報模型和改進的S-BPNN網(wǎng)絡(luò)空間化模型,實現(xiàn)未來時刻大氣污染物的時空預(yù)報;實時預(yù)警模塊主要基于大氣污染物預(yù)報的結(jié)果,實時評估大氣污染物濃度的污染程度;可視化模塊主要實時展示一定時期內(nèi)的大氣污染物濃度信息,實現(xiàn)相關(guān)信息的統(tǒng)計分析。圖12為大氣污染物濃度預(yù)報原型系統(tǒng)的架構(gòu)圖,包括以下3個步驟。
圖12 大氣污染物濃度預(yù)報原型系統(tǒng)架構(gòu)Fig.12 Architecture diagram of the prototype system of atmospheric pollutant concentration forecast
(1)基于爬蟲程序分別在全國城市空氣質(zhì)量實時發(fā)布平臺(http:∥113.108.142.147:20035/)和中央氣象臺(http:∥www.nmc.cn/publish/forecast/)爬取小時尺度的大氣污染監(jiān)測站點數(shù)據(jù)以及未來7天的氣象站點數(shù)據(jù),并將爬取的數(shù)據(jù)入庫。
(2)利用2016年1月1日—2019年12月31日的實時PM2.5監(jiān)測數(shù)據(jù)和氣象數(shù)據(jù),將全國各個站點分為68個區(qū)域并分別建模,訓(xùn)練得到滿足監(jiān)測精度的多層LSTM迭代預(yù)測模型,通過讀取數(shù)據(jù)庫中實時更新的站點數(shù)據(jù),將數(shù)據(jù)輸入已訓(xùn)練的多層LSTM迭代預(yù)測模型庫中,其中輸入的氣象數(shù)據(jù)是基于GDAL進行實時空間插值的數(shù)據(jù)。同時借助于武漢大學(xué)超算中心(http:∥hpc.whu.edu.cn/),從而實時預(yù)測出未來24 h的PM2.5濃度變化,并將PM2.5預(yù)測值實時存儲到數(shù)據(jù)庫內(nèi),其中,采用武漢大學(xué)超算中心作為模型計算的平臺,可提升模型的運行效率和穩(wěn)定性。
(3)讀取數(shù)據(jù)庫存儲的預(yù)測數(shù)據(jù),將數(shù)據(jù)傳入應(yīng)用層,并結(jié)合改進的S-BPNN空間化模型,生成實時預(yù)報結(jié)果的空間化影像圖,應(yīng)用層主要包括B/S網(wǎng)站,B/S網(wǎng)站(http:∥218.85.23.37:20104/)是基于ArcGIS API將模型預(yù)測的結(jié)果數(shù)據(jù)進行發(fā)布。B/S網(wǎng)站的重要功能包括預(yù)測結(jié)果的實時發(fā)布、數(shù)據(jù)的統(tǒng)計分析等,基本功能包括底圖切換、地名和地名快捷選擇等。預(yù)測結(jié)果也可以發(fā)布至移動端,方便用戶用移動終端獲取相關(guān)信息。
以上步驟如此循環(huán),可以實現(xiàn)監(jiān)測站點未來時刻的PM2.5預(yù)報以及對預(yù)測結(jié)果的空間化展示,并可實時在線發(fā)布區(qū)域的PM2.5空間分布特征數(shù)據(jù)以及統(tǒng)計后的PM2.5濃度變化的特征數(shù)據(jù)。
本文通過全國內(nèi)1286個空氣質(zhì)量站點的PM2.5歷史數(shù)據(jù),通過分析PM2.5濃度的時空相關(guān)性和影響因素,通過結(jié)合多層LSTM迭代預(yù)測模型和改進的S-BPNN模型從而實現(xiàn)全國大范圍PM2.5濃度空間化預(yù)報,由于如PM10、O3、SO2等大氣污染物都為長時間序列數(shù)據(jù),且皆具有顯著的時空相關(guān)性,并且會受到氣象等特征的影響,本文的方法可以根據(jù)實際情況選擇合適的影響因素和時滯,也適用于全國大范圍其他大氣污染物(PM10、O3、SO2等)的時空預(yù)報。對全國大范圍大氣污染進行實時的時空預(yù)報可以提前有針對性地治理環(huán)境污染,降低大氣污染物治理成本,從而提升大氣污染物治理的效率。
本文構(gòu)建的預(yù)報模型和空間化模型精度RMSE分別為6.11 μg/m3和16.62 μg/m3,相比于國家發(fā)布的《環(huán)境質(zhì)量標(biāo)準(zhǔn)》(http:∥www.mee.gov.cn/ywgz/fgbz/bz/bzwb/dqhjbh/dqhjzlbz/201203/W020120410330232398521.pdf)中的PM2.5二級24 h平均濃度限值為75 μg/m3,模型的誤差較小,在可接受的誤差范圍之內(nèi),并不會影響模型的應(yīng)用。但提出的模型也存在一定的局限性,如各個站點的PM2.5濃度預(yù)測值會存在高值低估和低值高估的現(xiàn)象,由于西藏地區(qū)監(jiān)測站點數(shù)量較少,該地區(qū)的PM2.5濃度空間化預(yù)報存在一定的偏差等。大氣污染空間化預(yù)報是一個復(fù)雜的問題,地面排放數(shù)據(jù)、遙感AOD(aerosol optical depth)數(shù)據(jù)等對PM2.5濃度預(yù)報也具有重要的作用。因此在未來的研究中,將應(yīng)用這些數(shù)據(jù)建立基于深度學(xué)習(xí)的模型去改善存在的問題,從而提高全國大氣污染時空預(yù)報的精度。
本文利用深度學(xué)習(xí)的方法分別構(gòu)建了多層LSTM迭代預(yù)報模型和改進的S-BPNN空間化模型,不僅可以提供各個站點未來的PM2.5濃度預(yù)報結(jié)果,而且能發(fā)布空間大范圍連續(xù)覆蓋的未來實時PM2.5濃度預(yù)報結(jié)果。本文基于PM2.5監(jiān)測站的歷史數(shù)據(jù),考慮PM2.5濃度具有一定的區(qū)域效應(yīng),在一定范圍內(nèi)的各個監(jiān)測站點間PM2.5濃度具有顯著的時空相關(guān)性,將所有站點進行自適應(yīng)分區(qū)并分別建立預(yù)報模型,同時結(jié)合空間化模型將預(yù)報結(jié)果空間化,以此搭建大氣污染濃度預(yù)報原型系統(tǒng)從而實現(xiàn)全國PM2.5濃度高時空精度的實時預(yù)報,與此同時,根據(jù)監(jiān)測的結(jié)果可實時更新預(yù)報模型和空間化模型的數(shù)據(jù)輸入與輸出,進一步優(yōu)化PM2.5濃度預(yù)報結(jié)果。本文研究可對區(qū)域的大氣污染物濃度進行實時預(yù)警,輔助相關(guān)政府部門制定相關(guān)大氣污染物聯(lián)防聯(lián)控預(yù)案,并可以對公眾環(huán)境空間質(zhì)量信息服務(wù)提供有力的支持。