孟春陽 謝劭峰 魏朋志 唐友兵 張亞博 熊 思
1 桂林理工大學(xué)測繪地理信息學(xué)院,桂林市雁山街319號,541006 2 湖北科技學(xué)院資源環(huán)境科學(xué)與工程學(xué)院,湖北省咸寧市咸寧大道88號,437100
大氣顆粒物PM2.5能夠深入人體肺部,損害肺功能[1]。楊忠等[2]使用粒子群優(yōu)化算法(particle swarm optimization,PSO)對支持向量回歸模型進(jìn)行優(yōu)化,并結(jié)合加權(quán)因子進(jìn)行PM2.5預(yù)測;李建更等[3]通過建立互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(complementary ensemble empirical mode decomposition, CEEMD)和支持向量回歸的組合模型(CEEMD-SVR)預(yù)測PM2.5濃度;謝劭峰等[4]使用WPA(wolf pack algorithm)和WOA(whale optimization algorithm)2種算法對BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化;Chen等[5]使用SVR與Elman結(jié)合的方法對武漢的PM2.5濃度進(jìn)行預(yù)測,并與多元線性回歸、BP神經(jīng)網(wǎng)絡(luò)、SVR模型預(yù)測結(jié)果進(jìn)行對比;王勇等[6]根據(jù)PWV與ZTD之間的聯(lián)系探究ZTD與PM2.5的相關(guān)性;查艷芳[7]使用優(yōu)化后的灰狼算法(grey wolf optimize,GWO)對支持向量回歸模型進(jìn)行優(yōu)化,使用武漢市的日均大氣污染物及氣象數(shù)據(jù)等建立模型,對PM2.5濃度進(jìn)行預(yù)測。
上述研究均采用模型優(yōu)化或結(jié)合大氣污染資料、氣象資料、PWV、ZTD等多方面因素對PM2.5濃度進(jìn)行建模預(yù)測,結(jié)果表現(xiàn)良好,但多數(shù)研究僅針對單一城市的空氣質(zhì)量進(jìn)行預(yù)測,未考慮到模型在不同城市的適用性。相較于BP及其優(yōu)化模型,SVR及其優(yōu)化模型的性能更佳,對于高維數(shù)據(jù)問題具有更強(qiáng)的處理能力[8]。
考慮到不同海拔城市PM2.5濃度存在差異,且相較于春、夏、秋3個(gè)季節(jié),冬季的PM2.5濃度波動幅度較大、受影響因素較多、預(yù)測難度較大,因此本文結(jié)合冬季的大氣污染物、氣象因素、ZTD的小時(shí)數(shù)據(jù)資料,選取SVR及其優(yōu)化模型預(yù)測5個(gè)不同海拔城市的PM2.5濃度變化情況。
SVR模型的基本思路是:將與預(yù)測變量非線性相關(guān)的原始輸入空間通過非線性映射函數(shù)(核函數(shù))映射到高維特征空間上,得到一個(gè)盡可能適合擬合訓(xùn)練集樣本的模型。常用的方法是在樣本標(biāo)簽和模型預(yù)測值之間構(gòu)造一個(gè)損失函數(shù),通過最小化損失函數(shù)確定函數(shù)模型。建立一個(gè)考慮輸出向量的數(shù)據(jù)集,SVR的目標(biāo)是基于給定的數(shù)據(jù)集S找到多元回歸函數(shù)來預(yù)測未知物體的期望輸出性質(zhì)。SVR模型如下[9]:
(1)
灰狼優(yōu)化算法GWO通過模擬灰狼的狩獵過程搜索代理獲取最優(yōu)值,尋找到灰狼捕獵時(shí)的最優(yōu)位置,從而計(jì)算得到最佳參數(shù)[10]。將參數(shù)代入SVR模型中建立GWO-SVR模型,獲取最優(yōu)值的具體過程如下。
1)灰狼首先對獵物進(jìn)行追蹤、包圍:
(2)
2)通過騷擾讓獵物停止移動,對獵物發(fā)動攻擊:
(3)
鯨魚優(yōu)化算法WOA通過模擬鯨魚搜索、合圍及狩獵等一系列行為在全局中尋找到最優(yōu)值,進(jìn)而輸出全局最優(yōu)個(gè)體[11]。將最優(yōu)參數(shù)代入SVR模型建立WOA-SVR模型,具體過程如下。
1)識別獵物的位置,對獵物進(jìn)行合圍:
(4)
2)通過螺旋搜索,采用環(huán)形游動噴出氣泡來驅(qū)趕獵物,最后游向水面捕食獵物:
(5)
天鷹算法AO是根據(jù)天鷹在捕食獵物過程中的自然行為提出的一種基于種群的優(yōu)化方法[12],可以用來搜索模型的最優(yōu)參數(shù)。天鷹狩獵可分為4種方式,具體過程如下。
1)識別獵物區(qū)域,采用垂直彎腰高飛的方式選取最佳狩獵區(qū)域,進(jìn)行攻擊:
(XM(t)-Xbest(t)×rand)
(6)
2)從高空發(fā)現(xiàn)獵物區(qū)域,在獵物區(qū)域的上方盤旋,使用短滑翔攻擊的輪廓飛行:
X2(t+1)=Xbest(t)×Levy(D)+
XR(t)+(y-x)×rand
(7)
3)確定獵物區(qū)域,準(zhǔn)備好著陸和攻擊后采用低飛慢降攻擊:
X3(t+1)=(Xbest(t)-XM(t))×α-
rand+((UB-LB)×rand+LB)×δ
(8)
4)當(dāng)天鷹接近獵物時(shí),會根據(jù)獵物的隨機(jī)移動規(guī)律在陸地行走并抓住獵物:
X4(t+1)=QF×Xbest(t)-(G1×X(t)×
rand)-G2×Levy(D)+rand×G1
(9)
式中,X1,2,3,4(t+1)為下一次迭代t的解,Xbest(t)為最佳解,XM(t)為位置均值,rand為[0,1]的隨機(jī)值,Levy(D)為飛行分布函數(shù),XR(t)為[1,N]的隨機(jī)解,UB為上界,LB為下界,QF為質(zhì)量函數(shù),G1、G2為跟蹤獵物時(shí)的各種運(yùn)動,X(t)為第t次迭代時(shí)的當(dāng)前解。
根據(jù)目標(biāo)需要選擇算法捕獲最優(yōu)參數(shù),將最優(yōu)參數(shù)代入SVR模型中建立AO-SVR模型。AO算法優(yōu)化SVR模型的基本步驟如下:
1)導(dǎo)入并讀取數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理,初步建立SVR模型。
2)初始化天鷹算法的種群數(shù)量及其迭代次數(shù),確認(rèn)懲罰參數(shù)C和核懲罰參數(shù)g的取值范圍。
3)依據(jù)天鷹捕獵的4種方法選取最優(yōu)的適應(yīng)度函數(shù),并作為天鷹捕獵時(shí)與獵物的最佳距離,通過搜索確定天鷹捕獵的最佳位置。
4)根據(jù)天鷹捕獵所在的最優(yōu)位置,獲取最優(yōu)的懲罰參數(shù)和核懲罰參數(shù)。
5)將獲取到的最優(yōu)參數(shù)值加入到SVR中,通過多次訓(xùn)練,確定最終優(yōu)化的SVR預(yù)測模型。
6)將測試數(shù)據(jù)分為訓(xùn)練集和預(yù)測集導(dǎo)入到優(yōu)化后的AO-SVR模型中,將結(jié)果與預(yù)測集進(jìn)行對比,分析模型具體誤差。
AO-SVR算法流程見圖1。
圖1 AO-SVR算法流程Fig.1 AO-SVR algorithm flow chart
各個(gè)城市間的PM2.5濃度具有時(shí)空差異性,通常會隨海拔的升高而降低,且東部、北部城市的PM2.5濃度通常高于西部、南部城市[13]。本文選取海拔呈遞減趨勢的拉薩(3 656 m)、烏魯木齊(918 m)、長春(237 m)、武漢(35 m)、上海(5 m)等5個(gè)城市作為實(shí)驗(yàn)對象。由于PM2.5濃度在冬季波動最大,因此選取2020-01的數(shù)據(jù)進(jìn)行建模。使用的數(shù)據(jù)主要包括:SO2、NO2、CO、O3、PM10及PM2.5的逐小時(shí)大氣污染物濃度數(shù)據(jù);氣溫、氣壓、相對濕度、風(fēng)級的逐小時(shí)氣象數(shù)據(jù);IGS提供的逐小時(shí)ZTD數(shù)據(jù)。為確定各要素與PM2.5之間的相關(guān)性,通過SPSS軟件對大氣污染物、氣象因素及ZTD數(shù)據(jù)進(jìn)行相關(guān)性分析,使用Spearman相關(guān)系數(shù)進(jìn)行計(jì)算,結(jié)果見表1和表2。
表1 PM2.5與大氣污染物相關(guān)性Tab.1 Correlation of PM2.5 and atmospheric pollutants
表2 PM2.5與氣象因素及ZTD相關(guān)性Tab.2 Correlation of PM2.5 and meteorological factors and ZTD
由表1和表2可知,5個(gè)城市的PM2.5與PM10、SO2、NO2、CO、相對濕度、氣壓基本呈正相關(guān),與O3、溫度、風(fēng)級基本呈負(fù)相關(guān);PM2.5與拉薩、武漢的ZTD呈正相關(guān),與烏魯木齊、長春、上海的ZTD呈負(fù)相關(guān)。PM2.5與空氣污染物、氣象因素及ZTD的相關(guān)性顯著,在對PM2.5濃度進(jìn)行建模預(yù)測時(shí),可將上述因子作為預(yù)測輸入。
為探究不同海拔的5個(gè)城市在2020-01的PM2.5濃度變化趨勢,將5個(gè)城市PM2.5濃度小時(shí)數(shù)據(jù)組成一個(gè)連續(xù)時(shí)間序列進(jìn)行整體變化趨勢對比(圖2)。
圖2 PM2.5變化趨勢Fig.2 Variation trend of PM2.5
由圖2可知,在1月份供暖期間,拉薩的PM2.5濃度為0~75 μg/m3,空氣質(zhì)量良好;烏魯木齊、長春的PM2.5濃度波動較大,整體濃度偏高,可能是因?yàn)?020-01疫情嚴(yán)重,人流量及車流量均有所降低,但供暖及用電量高于往常年份,導(dǎo)致PM2.5濃度整體偏高;該時(shí)段內(nèi)武漢疫情封城,PM2.5濃度降低,短時(shí)期內(nèi)空氣質(zhì)量得到改善;上海在疫情影響下人流量及車流量有所減少,且1月中有19 d降雨,極大改善了空氣質(zhì)量。烏魯木齊、長春的海拔高于武漢、上海,但在疫情、供暖、天氣等因素的影響下,烏魯木齊、長春的PM2.5濃度均高于武漢和上海,且波動變化更為劇烈,說明在冬季僅依靠海拔高低無法準(zhǔn)確判斷PM2.5的變化趨勢。通過模型預(yù)測不同海拔的城市在冬季的PM2.5濃度變化,能為PM2.5濃度預(yù)測及其變化趨勢研究提供借鑒,對未來空氣環(huán)境治理也具有指導(dǎo)意義。
分別采用SVR、GWO-SVR、WOA-SVR和 AO-SVR四種回歸模型對5個(gè)城市2020-01的PM2.5濃度進(jìn)行預(yù)測,選取表1、2中各城市在 0.01 級別相關(guān)性顯著的因素作為因子集,預(yù)測模型中每種因子采用的時(shí)間長度完全一致,數(shù)據(jù)采樣率為1 h。各城市1月份的樣本數(shù)據(jù)集長度均為744 h,選取前720 h的數(shù)據(jù)作為訓(xùn)練樣本集,后24 h作為校驗(yàn)樣本集,使用訓(xùn)練樣本集進(jìn)行建模,將模型預(yù)測的24 h PM2.5數(shù)據(jù)與校驗(yàn)樣本集PM2.5數(shù)據(jù)進(jìn)行分析對比。
5個(gè)城市4種模型的預(yù)測結(jié)果與預(yù)測相對誤差絕對值見圖3、4。
圖3 2020-01-31預(yù)測結(jié)果Fig.3 Prediction results of January 31, 2020
由圖3可見,4種模型的預(yù)測結(jié)果與觀測值之間具有相似的變化趨勢,但相較于基礎(chǔ)SVR模型,優(yōu)化后的SVR模型預(yù)測結(jié)果的整體趨勢更優(yōu),其中AO-SVR模型最貼近實(shí)際觀測值。從2020-01-31的數(shù)據(jù)可以看出,拉薩全天PM2.5濃度均為優(yōu);烏魯木齊、長春PM2.5濃度在10:00開始降低并在15:00左右開始回升,其中,長春的回升幅度更明顯,PM2.5濃度在晚間突破240 μg/m3。查詢資料可知,長春常住人口遠(yuǎn)多于烏魯木齊,且疫情階段居家人數(shù)增多,供暖需求加大,導(dǎo)致污染加重;武漢、上海在疫情的影響下,人流量和車流量有所減少,但人均用電量增加,使得PM2.5濃度值并未出現(xiàn)大幅度降低,均呈現(xiàn)升-降-升的變化趨勢。由圖4可見,模型預(yù)測的相對誤差隨時(shí)間的增長不斷增加,SVR模型相對誤差的增大趨勢最顯著,在拉薩和上海2市共有7 h的誤差比例超過40%。WOA-SVR模型的誤差比例基本低于GWO-SVR模型,AO-SVR模型相對誤差變化趨勢表現(xiàn)最好,整體趨勢隨時(shí)間的增長而降低,在烏魯木齊的24:00,相對誤差比例僅為0.04%。
圖4 2020-01-31相對誤差Fig.4 The relative error of January 31, 2020
為更好地展示模型的預(yù)測結(jié)果,采用RMSE、MAE和MAPE來判斷模型的適用性、對比模型的預(yù)測精度,各模型預(yù)測精度結(jié)果見表3:
表3 各模型預(yù)測精度對比Tab.3 Comparison of prediction accuracy of each model
(10)
由表3可知,對于海拔不同的5個(gè)城市,4種模型的適用性均表現(xiàn)良好,但GWO-SVR、WOA-SVR、AO-SVR模型的RMSE要顯著低于SVR模型,說明3種算法對于SVR模型都有一定程度的優(yōu)化,使得誤差的離散性減小。由RMSE可以看出,AO-SVR模型的效果最好,相比于SVR模型,拉薩、烏魯木齊、長春、武漢和上海的RMSE分別提高33.9%、56.3%、56.2%、63.8%和68.1%,其中上海市的優(yōu)化程度最高。從5個(gè)城市的MAE和MAPE指標(biāo)來看,GWO-SVR、WOA-SVR、AO-SVR模型對于SVR模型均有一定程度的提升,WOA-SVR模型的優(yōu)化效果要稍優(yōu)于GWO-SVR,其中上海的優(yōu)化程度最明顯。相比于SVR模型,GWO-SVR與WOA-SVR模型的MAE指標(biāo)分別提高54.0%和61.0%,MAPE指標(biāo)分別提高61.6%和68.7%。由整體數(shù)據(jù)可知,AO-SVR模型在5個(gè)城市的PM2.5預(yù)測中表現(xiàn)最為出色,相比于SVR模型,AO-SVR模型的MAE和MAPE在拉薩提高32.4%和38.4%,在烏魯木齊提高58.5%和58.8%,在長春提高57.1%和46.1%,在武漢提高60.6%和58.3%,在上海提高75.3%和77.0%。由此可見,相較于SVR模型,AO-SVR模型在5個(gè)城市的PM2.5預(yù)測精度均有所提升,武漢、上海的MAE和MAPE提高最多,可能是由于烏魯木齊、長春的數(shù)據(jù)波動幅度相對較大,數(shù)據(jù)的穩(wěn)定性以及整體水平對模型預(yù)測精度存在一定程度的影響。通過圖2、3和表3可知,相比于SVR模型,GWO-SVR、WOA-SVR、AO-SVR模型預(yù)測精度均有明顯改善;AO-SVR模型在4個(gè)模型中的預(yù)測值最貼合實(shí)際觀測值,在多種因素的影響下,表現(xiàn)出較為優(yōu)秀的適用性,能展現(xiàn)不同海拔城市冬季PM2.5的趨勢變化規(guī)律。
本文基于5個(gè)不同海拔城市的2020-01大氣污染物、氣象因素以及ZTD的小時(shí)數(shù)據(jù),利用SVR、GWO-SVR、WOA-SVR、AO-SVR四種模型對PM2.5濃度進(jìn)行預(yù)測和對比。實(shí)驗(yàn)結(jié)果表明,AO-SVR模型的預(yù)測結(jié)果整體精度最高,且對于不同海拔城市PM2.5濃度變化的預(yù)測均有很好的適用性。
本文僅預(yù)測了不同海拔城市24 h的 PM2.5濃度變化,后續(xù)可考慮增加數(shù)據(jù)量并增加預(yù)測時(shí)長,對不同海拔城市的PM2.5濃度變化趨勢作更深入的探究。