孟春陽,謝劭峰,魏朋志,張亞博,唐友兵,熊 思
(1.桂林理工大學 測繪地理信息學院,廣西 桂林 541006; 2.湖北科技學院 資源環(huán)境科學與工程學院,湖北 咸寧 437100)
PM2.5是指大氣中空氣動力學當量直徑小于或等于2.5 μm的顆粒物,是空氣污染的主要來源,可以直接進入肺泡,危害人類安全。
近年來,國內(nèi)外眾多學者利用多種方法對PM2.5濃度進行預測研究。文獻[1]利用快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)與長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡結(jié)合的方法,建立PM2.5濃度預測模型,對PM2.5濃度進行預測。文獻[2]通過獲取的觀測數(shù)據(jù),采用主成分分析法處理,構(gòu)建鷹潭市PM2.5濃度預測模型。文獻[3]對于存在缺陷的多元線性回歸和時間序列模型進行優(yōu)化,提出了基于多元時間序列的PM2.5濃度預測的方案。文獻[4]對預測因子利用遺傳算法進行優(yōu)化后的神經(jīng)網(wǎng)絡建立PM2.5濃度的預測模型,并對模型預測結(jié)果進行可行性分析。文獻[5]通過數(shù)據(jù)分析廣西主要城市PM2.5濃度和大氣可降水量(Precipitable Water Vapor,PWV)的變化,構(gòu)建多元線性回歸-差分自回歸移動平均(MLR-ARIMA)模型,對3市PM2.5濃度變化進行短期預測。文獻[6]采用反距離加權(quán)插值獲得的PWV和風速值,建立3種模型對中南地區(qū)4省1區(qū)2年春節(jié)期間進行PM2.5濃度估算。文獻[7]研究PM2.5濃度的空間覆蓋格局,利用中國中南地區(qū)的340個PM2.5濃度數(shù)據(jù),建立6個插值模型,分析不同時段PM2.5濃度的變化規(guī)律。文獻[8]利用國際GNSS服務(International GNSS Service,IGS)提供的天頂對流層延遲產(chǎn)品,研究其與霧霾之間的相關(guān)性。文獻[9]等運用貝葉斯時空模型對京津冀區(qū)域的PM2.5濃度變化建立預測模型。文獻[10]通過對各個季節(jié)PM2.5濃度預測,利用主成分分析法(Principal Component Analysis,PCA)進行數(shù)據(jù)降維,分析各個季節(jié)以及氣象因素對PM2.5濃度的影響。文獻[11]采用2013—2016年P(guān)M2.5與臭氧數(shù)據(jù)分析其相關(guān)性,發(fā)現(xiàn)PM2.5與臭氧之間存在明顯的季節(jié)變化,且PM2.5濃度逐年有降低趨勢,而臭氧越來越難以控制。文獻[12]選取北京有霧霾和無霧霾2個時間期,分別在2個時期分析AQIZTD和反演得到的PWV之間的相關(guān)性,研究結(jié)果表明在3個時期的大部分時間內(nèi)三者均相關(guān)性顯著。文獻[13]采用了基于深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)的反演模型,對PM2.5濃度進行反演,并將反演得到的進行驗證,結(jié)果表明反演得到的PM2.5濃度精度高、相關(guān)性強,能夠分析其時空演變特征及季節(jié)變化特征。文獻[14]通過北京市2019—2021年空氣質(zhì)量指數(shù)(AQI)以及6大污染物濃度變化,采用ARIMA模型和神經(jīng)網(wǎng)絡分析AQI與污染物之間的相關(guān)性,研究結(jié)果表明PM2.5,PM10和O3對AQI影響最大且有明顯的季節(jié)性趨勢。
上述研究主要結(jié)合大氣污染物、氣象因素等方面與PM2.5進行相關(guān)性分析,對PM2.5濃度進行預測,且均取得了較好的預測結(jié)果,但缺少對2020年爆發(fā)至今的新冠肺炎疫情期間的城市PM2.5濃度變化規(guī)律及預測模型適用性研究。2020年初,新冠肺炎疫情爆發(fā),全國人口流動、車輛出行以及工業(yè)生產(chǎn)等大幅度降低,PM2.5濃度相比2019年整體有下降[15],因此疫情期間的城市PM2.5濃度變化情況有一定的研究價值。本文通過ARIMA,BP神經(jīng)網(wǎng)絡和PSO-BP三種模型比較在2019年與2020年疫情期間預測PM2.5濃度的適用性,為疫情期間的PM2.5濃度預測與防治工作提供一定的理論基礎(chǔ)與改進思路。
ARIMA模型全稱為自回歸積分滑動平均(Auto regressive Integrated Moving Average,ARIMA)模型,其中ARIMA(p,d,q)稱為差分自回歸移動平均模型,AR是自回歸,p為自回歸項,MA為移動平均,q為移動平均項數(shù),d為時間序列成為平穩(wěn)時所做的差分次數(shù),該模型可表示為[16]:
(1)
式中,L為滯后算子;Φ(L)為L的SAR多項式;Δd=(1-L)d,d為差分階數(shù);c為差分;Θ(L)為L的SMA多項式;E為期望;Var為方差;εt和εs為誤差;yt為單變量時間序列。
BP(Back Propagation)神經(jīng)網(wǎng)絡是根據(jù)誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡中的一種,它由信息的前向傳播和誤差的反傳播組成,是應用面最廣的神經(jīng)網(wǎng)絡模型之一。通過外部輸入信息被輸入層上的每個神經(jīng)元接收,之后由它們傳遞給中間層的神經(jīng)元,中間層可以根據(jù)信息轉(zhuǎn)換的能力設計為單隱藏層或多隱藏層,將信息進一步處理,再通過最后一個隱藏層傳遞到輸出層上的每個神經(jīng)元。信息的處理結(jié)果由輸出層導出到外部,當實際輸出和預期輸出相互矛盾時,就會進行誤差的反傳播。通過輸出層,每個權(quán)重根據(jù)誤差的梯度下降進行修訂,并逐層反向傳播到隱藏層和輸入層,BP神經(jīng)網(wǎng)絡模型的基本公式為[17]:
(2)
式中,W為權(quán)重;n為層數(shù);η為學習率;E為誤差函數(shù)的梯度 ;αΔW(n-1)為全權(quán)重增量。
(Particle Swarm Optimization)PSO算法是由Kennedy和Eberhart通過對于鳥類攝食行為的研究所提出的一種群體智能優(yōu)化算法。在算法中,每個粒子代表問題的潛在解決方案,并具有由適應度函數(shù)確定的適應度值,其速度決定粒子運動的方向和距離,并根據(jù)自己和其他粒子的運動經(jīng)驗動態(tài)調(diào)整,從而實現(xiàn)解決方案空間中的個體化優(yōu)化。由于PSO算法較強的全局優(yōu)化能力,能夠大大提高神經(jīng)網(wǎng)絡的泛化能力,通過PSO優(yōu)化BP神經(jīng)網(wǎng)絡的過程中,神經(jīng)網(wǎng)絡的權(quán)重和閾值映射到PSO算法的粒子,將最優(yōu)個體的權(quán)值和閾值分配給BP神經(jīng)網(wǎng)絡,實現(xiàn)網(wǎng)絡訓練。PSO的適應度函數(shù)是神經(jīng)網(wǎng)絡的輸出誤差,其公式為[18-19]:
(3)
式中,ni為訓練集的樣本個數(shù);Oiq,Tiq分別是訓練樣本q在第i粒子的位置所確定的權(quán)值和閾值的輸出。
針對BP神經(jīng)網(wǎng)絡、ARIMA等傳統(tǒng)模型預測精度不高等缺點,通過采用粒子群算法對BP神經(jīng)網(wǎng)絡模型進行優(yōu)化,通過粒子適應度確定個體最優(yōu)和群體最優(yōu)位置,設定模型粒子數(shù)量為10,迭代次數(shù)為30,當誤差達到預期目標后,模型根據(jù)最優(yōu)權(quán)閾值得到最佳預測結(jié)果,3種模型算法具體流程如圖1所示。
圖1 模型流程Fig.1 Model of the process
在2020年1月—3月新冠疫情期間,上海、長春、武漢和北京4市累計出現(xiàn)新冠患者51 147人。4市在疫情爆發(fā)后均采取嚴格的進出城市及人員外出的限制政策,武漢市采用封城來減少疫情期間人群流動和車輛出行等,對PM2.5濃度變化有一定影響。針對不同城市的疫情情況,根據(jù)城市間人口流動及人口密度不同的情形下,研究模型在2019年非疫情期間與2020年疫情期間的PM2.5濃度預測對比,及其在2個時期的整體適用性。
本文建模分別選取4個城市2019年與2020年的1月—3月的小時數(shù)據(jù)。其中大氣污染物數(shù)據(jù)為SO2,NO2,CO,O3,PM10以及PM2.5小時數(shù)據(jù)資料,來源于天氣后報(http://www.tianqihoubao.com/aqi/);氣象資料采用氣溫、氣壓、濕度和風速4要素的小時觀測數(shù)據(jù),來源于中國氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn);通過IGS提供的小時ZTD的數(shù)據(jù),來源于美國國家航空和航天局(https://cddis.nasa.gov/archive/gnss/products/troposphere)。
建模之前需要對影響PM2.5濃度的因素進行相關(guān)性分析,以確保對變量的適用性。本文采用非參數(shù)分析法分別對2019年與2020年的1月—3月上海、長春、武漢和北京4個城市的PM2.5影響因子進行相關(guān)性分析,結(jié)果如表1和表2所示。
表1 4城市PM2.5濃度與空氣污染物相關(guān)性Tab.1 Correlation between PM2.5 concentration and air pollutants in 4 cities
表2 4城市PM2.5濃度與氣象因素和ZTD相關(guān)性Tab.2 Correlation between PM2.5 concentration and meteorological factors and ZTD in 4 cities
由表1可知,PM2.5與PM10,SO2,NO2,CO均為正相關(guān),與O3呈負相關(guān)性,其中4個城市在2019年與2020年1月—3月中,PM2.5與PM10,SO2,NO2,CO,O3之間存在強相關(guān)性。從表2可以看出,風速對PM2.5影響最大,均呈現(xiàn)負相關(guān)性,在整體的氣象因素中相關(guān)性最強,溫度、濕度和氣壓次之。對于PM2.5與ZTD的相關(guān)性分析中,長春與北京2市呈正相關(guān),上海與武漢2市呈負相關(guān)。由整體相關(guān)性可知,4個城市的PM2.5與各因素之間相關(guān)性顯著,可以用于建模分析。
為分別探究上海、長春、武漢和北京4個城市在2019年與2020兩年中1月—3月的小時PM2.5濃度變化規(guī)律及特征,現(xiàn)將4個城市1月—3月的PM2.5小時數(shù)據(jù)變化情況組成一個連續(xù)時間序列進行分析,為保證時間對比一致性,將2020年2月29日數(shù)據(jù)舍去,其變化趨勢如圖2所示。
根據(jù)圖2中4個城市在2019年和2020年1月—3月的小時PM2.5濃度值變化情況可以看出,上海與武漢2市在2020年1月—3月的PM2.5濃度值基本低于2019年;北京市PM2.5濃度在2020年1月底與2月上旬有短暫波動高于2019年變化,整體變化趨勢中大部分時間弱于2019年;長春市在2020年1月中,PM2.5濃度基本高于2019年,在2月和3月低于2019年,其中在2020年1月份中PM2.5小時最高濃度高達400 μg/m3,其原因可能為春季降雨較少,加之疫情期間居家人口增加、城市供暖需求增大,導致濃度飛速上升。
(a) 上海PM2.5濃度變化
(b) 長春PM2.5濃度變化
(c) 武漢PM2.5濃度變化
(d) 北京PM2.5濃度變化圖2 四市PM2.5小時濃度值變化Fig.2 Hourly change of PM2.5 concentration in four cities
從整體上看,4個城市在2020年1月—3月的PM2.5濃度基本要低于2019年。在2020年1月—3月疫情期間,武漢市作為疫情的重災區(qū),在1月封城后,PM2.5濃度出現(xiàn)顯著下降趨勢,空氣質(zhì)量相比較2019年有極大的改善;上海市在此期間人群流動及外出的減少,導致濃度基本低于2019年;北京和長春2市由于疫情的影響,在1月—3月供暖期間供暖需求大幅增加,出現(xiàn)短暫PM2.5濃度大幅波動。在疫情的影響,人群流動性、工廠生產(chǎn)和日常出行量等的減少,空氣質(zhì)量有效改善,但對于重工業(yè)及供暖城市,疫情期間PM2.5依舊遠超標準值,因此由于疫情影響的PM2.5濃度降低并沒有解決污染源頭問題,因此PM2.5的防治工作依舊要繼續(xù)。本文分別選取4市2019年與2020年1月1日—3月29日的數(shù)據(jù)作為模型訓練集,預測未來2個時期的48 h PM2.5濃度變化,并與3月30日和31日數(shù)據(jù)進行對比。選取3種模型分別對于城市疫情期與非疫情期2個時期的預測研究是富有意義的,對比2個時期的PM2.5濃度變化規(guī)律及預測精度,對未來時間內(nèi)在疫情影響下的城市PM2.5濃度預測有著至關(guān)重要的作用。
為了更加直觀對比模型對于數(shù)據(jù)的適用性,本文采用均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)以及平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)對模型估算的結(jié)果的進行精度評估:
(4)
為了驗證ARIMA,BP神經(jīng)網(wǎng)絡和PSO-BP三種模型在疫情期與非疫情期的預測能力,分別選取2019年與2020年1月1日—3月29日的PM2.5濃度、大氣污染物、氣象因素以及ZTD的小時數(shù)據(jù)進行建模,預測4市2個時期未來48 h的PM2.5濃度數(shù)據(jù),并與3月30日和31日實測值對比。其中上海、長春、武漢和北京4市在每個時期1月1日—3月29日的PM2.5濃度訓練樣本有效數(shù)據(jù)的個數(shù)分別為2 109,2 106,2 112和2 102,大氣污染物、氣象要素及ZTD為影響因素,PM2.5濃度預測樣本個數(shù)為48,各模型預測結(jié)果如圖3和圖4所示,其中(a)和(c)為4市2019年預測結(jié)果,(b)和(d)為4市2020年預測結(jié)果。
(a) 上海(2019年)
(b) 上海(2020年)
(c) 長春(2019年)
(d) 長春(2020年)圖3 上海市、長春市預測結(jié)果對比Fig.3 Comparison of forecast results in Shanghai and Changchun
(a) 武漢(2019年)
(b) 武漢(2020年)
(c) 北京(2019年)
(d) 北京(2020年)圖4 武漢市、北京市預測結(jié)果對比Fig.4 Comparison of forecast results in Wuhan and Beijing
由圖3和圖4可以看出,各模型總體變化趨勢相同,4個城市在非疫情期和疫情期的預測適用性均良好,可以基本模擬出預測未來48 h的整體PM2.5濃度變化趨勢。從非疫情期和疫情期2個時期中的PM2.5真實值曲線對比可以看出,由于新冠肺炎疫情的影響,上海與武漢2市相較往年人群出行、中轉(zhuǎn)及各類交通量均出現(xiàn)減少,并且武漢市在疫情期采取了嚴格的封城措施,導致2市疫情期PM2.5濃度遠低于非疫情期;在1月—3月期間北京與長春處于供暖時期,其中北京市由于疫情期間供暖時間由每年3月15日24時停止延長至3月31日24時,加之人流減少,居家人口增加,供暖及用電高于往年,2市的PM2.5濃度疫情期高于非疫情期。由3個模型對于4市PM2.5濃度預測曲線與實測PM2.5濃度曲線對比可以看出,ARIMA模型在2019年上海市、2020年武漢市和BP神經(jīng)網(wǎng)絡模型在2019年武漢市、2020年上海與北京2市的預測結(jié)果與實測值有偏差,其余時期預測結(jié)果均較好。PSO-BP模型在2個時期中預測曲線趨勢基本貼合實測曲線趨勢,預測效果均較好,在3個模型中PSO-BP在2個時期中預測曲線與實測曲線均最為貼近,預測準確性高,說明PSO-BP模型相較于另外2個模型具有更好的模型適用性。
為了更加準確地對比各模型預測結(jié)果的精度及模型適用性,采用RMSE,MAE,MAPE三種評價指標進行評定,結(jié)果如表3所示。
表3 四市模型預測精度Tab.3 Forecast accuracy of the four-city model
由表3中各個模型預測3月30日和31日的PM2.5濃度的預測精度可以看出,ARIMA模型在2019年長春、武漢、北京3市和2020年上海、長春、北京3市的RMSE,MAE,MAPE的值均低于BP神經(jīng)網(wǎng)絡模型,BP神經(jīng)網(wǎng)絡模型在2019年上海市和2020年武漢市的RMSE,MAE,MAPE的值低于ARIMA值,PSO-BP模型在2019和2020年的預測精度均優(yōu)于ARIMA模型和BP神經(jīng)網(wǎng)絡模型。
由圖3、圖4和表3可知,上海、武漢2市在非疫情期PM2.5濃度基本為10~110 μg/m3,而在疫情期PM2.5濃度為0~40 μg/m3,說明由于疫情管控使得2個城市在此期間空氣質(zhì)量得到改善,對比3個模型預測精度可知,PSO-BP模型相比ARIMA模型和BP模型,在上海和武漢2市非疫情期RMSE分別提升73.5%,22.6%和39.4%,71.2%,MAE提升了76.8%,17.8%和36.0%,69.9%;疫情時期RMSE分別提升49.0%,82.9%和70.2%,12.4%,MAE提升了48.5%,82.7%和67.0%,13.2%。長春、北京2市在非疫情期PM2.5濃度為0~80μg/m3,在疫情期PM2.5濃度為10~100 μg/m3。由圖3、圖4曲線對比可以看出,疫情期PM2.5濃度基本高于非疫情期,考慮到是由于疫情因素,人口外出減少,供暖需求的加大所導致,對比模型在長春、北京2市的預測精度可以看出,PSO-BP模型預測精度最高,其RMSE值相比ARIMA 模型、BP模型在長春和北京2市非疫情期提升31.3%,39.3%和23.1%,42.5%,MAE值提升20.0%,40.8%和23.3%,37.3%;疫情時期RMSE提升25.1%,25.3%和41.2%,71.8%,MAE提升了23.2%,27.0%和45.4%,72.8%。對比MAPE的值可以看出,PSO-BP模型的誤差均要小于ARIMA模型和BP模型,且PSO-BP模型在上海、長春、武漢和北京4個城市中,疫情期的數(shù)值要小于非疫情期,說明疫情期間PSO-BP模型預測準確度更高。通過4個城市的分析可以看出,PSO-BP模型相較于ARIMA模型和BP模型,RMSE和MAE在疫情期的整體提升數(shù)值要優(yōu)于非疫情期,MAPE在疫情期整體優(yōu)于非疫情期,則說明在疫情期間PSO-BP模型預測結(jié)果準確度更高,模型適用性更優(yōu),更加適合疫情時期的城市PM2.5濃度預測工作。
本文探索了上海、長春、武漢和北京4個城市疫情前后2年1月—3月的PM2.5濃度變化規(guī)律,綜合結(jié)果分析,4市均由于新冠肺炎疫情的出現(xiàn),疫情年的PM2.5濃度相比較非疫情年出現(xiàn)了降低趨勢。根據(jù)模型在4市對于PM2.5濃度預測的適用性可知,PSO-BP模型在預測結(jié)果及精度均優(yōu)于ARIMA模型和BP神經(jīng)網(wǎng)絡模型,同時通過2個時期的RMSE,MAE,RMSE的值對比分析可知,PSO-BP模型在疫情期間的模型適用性會表現(xiàn)更好。但是由預測結(jié)果來看,這3種預測模型的結(jié)果對于疫情期間的短期PM2.5濃度預測的精度都還有很大的改進空間,通過預測疫情期間的城市PM2.5濃度變化,能為疫情期間城市空氣質(zhì)量治理提供一些借鑒意義。