張鈺潔,王 鈺,楊杏麗
(1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006;2.山西大學(xué) 現(xiàn)代教育技術(shù)學(xué)院,山西 太原 030006)
霧霾天氣是一種大氣污染狀態(tài),霧霾是對(duì)大氣中各種懸浮顆粒物含量超標(biāo)的籠統(tǒng)表述。霧霾的主要成分包括PM2.5顆粒物、PM10顆粒物、臭氧、二氧化氮、二氧化硫和一氧化碳等,尤其是由有毒物質(zhì)如重金屬和致癌物質(zhì)等組成的有機(jī)化合物PM2.5(空氣動(dòng)力學(xué)當(dāng)量直徑小于等于2.5微米的顆粒物)被認(rèn)為是造成霧霾天氣的“元兇”[1-2]。
PM2.5對(duì)人類健康的危害極大,會(huì)導(dǎo)致心血管和心肺部疾病、呼吸系統(tǒng)問(wèn)題,增加癌癥的發(fā)病幾率,也可能會(huì)造成嬰兒的畸形發(fā)育等[3-4]。另外,PM2.5霧霾污染對(duì)氣候變化和生態(tài)環(huán)境也有很大影響,PM2.5濃度的增加可能是極端天氣和氣候事件增加的主要原因之一,如引起城市大氣酸雨、光化學(xué)煙霧現(xiàn)象,導(dǎo)致大氣能見度下降,極大阻礙空中、水面和陸面交通的正常運(yùn)行。
因此,準(zhǔn)確監(jiān)測(cè)霧霾變化,獲取霧霾相關(guān)信息,尤其是及時(shí)準(zhǔn)確預(yù)報(bào)霧霾污染物的濃度,對(duì)于大氣科學(xué)、大氣環(huán)境監(jiān)測(cè)、氣候分析、氣象預(yù)報(bào)、環(huán)境保護(hù)、國(guó)民經(jīng)濟(jì)和軍事等諸多方面均具有重要意義[5-6]。
目前,文獻(xiàn)中已經(jīng)提出了多種霧霾污染濃度的預(yù)測(cè)模型和技術(shù),如差分自回歸滑動(dòng)平均(Autoregressive Integrated Moving Average,ARIMA)模型[7]、多元線性回歸模型[8]、季節(jié)性差分自回歸滑動(dòng)平均(Seasonal Autoregressive Integrated Moving Average,SARIMA)模型[9]、向量自回歸模型[10]、支持向量機(jī)(Support Vector Machine,SVM)模型[11]、決策樹[12]、隨機(jī)森林[13-14]、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long and Short-Term Memory,LSTM)[15-17]等。進(jìn)一步,朱旭輝等[18]針對(duì)單個(gè)SVM方法的不魯棒問(wèn)題,通過(guò)使用多數(shù)投票算法對(duì)多個(gè)SVM模型進(jìn)行選擇性集成,給出了一種集成的霧霾天氣預(yù)測(cè)方法,實(shí)驗(yàn)結(jié)果表明集成后的SVM方法具有更高的精度和魯棒性。劉夢(mèng)煬等[19]構(gòu)建了一種基于LSTM和全連接神經(jīng)網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò)模型,并提出了數(shù)據(jù)桶劃分的訓(xùn)練方式來(lái)解決由于訓(xùn)練數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)存在較長(zhǎng)時(shí)間間隔導(dǎo)致精度下降的問(wèn)題,進(jìn)而實(shí)現(xiàn)PM2.5濃度的精確預(yù)測(cè)。然而,上述方法都僅僅使用了霧霾數(shù)據(jù)本身的信息,但實(shí)際上溫度、壓力、相對(duì)濕度等氣象因子對(duì)于霧霾的預(yù)測(cè)都有顯著的影響。為此,該文考慮融合溫度、壓力、相對(duì)濕度的氣象數(shù)據(jù)和霧霾數(shù)據(jù)給出更為準(zhǔn)確的霧霾預(yù)測(cè)結(jié)果。
然而發(fā)現(xiàn),簡(jiǎn)單融合三個(gè)常用氣象因子的ARIMAX霧霾預(yù)測(cè)模型并不能得到滿意的預(yù)測(cè)結(jié)果。這是因?yàn)殪F霾的形成和發(fā)展過(guò)程是非常復(fù)雜的,這些模型可能無(wú)法充分有效地模擬復(fù)雜的霧霾過(guò)程,從而無(wú)法捕獲重要的深度語(yǔ)義特征,造成預(yù)測(cè)結(jié)果不準(zhǔn)確。
特別地,深度神經(jīng)網(wǎng)絡(luò)模型由于其強(qiáng)大的特征表示能力得到了極大的關(guān)注,為此,該文考慮將深度卷積神經(jīng)網(wǎng)絡(luò)模型提取的深度語(yǔ)義特征融入到ARIMAX模型,給出一種新的霧霾序列預(yù)測(cè)框架。首先,由于卷積神經(jīng)網(wǎng)絡(luò)[20]能夠自動(dòng)準(zhǔn)確地學(xué)習(xí)圖像空間相關(guān)性等深度語(yǔ)義信息,將數(shù)值氣象因子數(shù)據(jù)轉(zhuǎn)化為圖像數(shù)據(jù);然后,基于具有優(yōu)越性能的ResNet-50 (Residual Network-50)卷積神經(jīng)網(wǎng)絡(luò)模型[21]提取氣象因子圖像序列中的深層特征,進(jìn)一步采用主成分分析(Principal Component Analysis,PCA)技術(shù)處理高維特征,得到最佳深度語(yǔ)義特征組合;最后,用簡(jiǎn)單有效的ARIMAX模型建模捕獲霧霾的時(shí)間序列相關(guān)信息。
ARIMAX模型是指帶回歸項(xiàng)的ARIMA模型,又稱擴(kuò)展的ARIMA模型,通過(guò)回歸項(xiàng)的引入進(jìn)一步提高模型的預(yù)測(cè)效果。此模型把輸出序列表示為隨機(jī)波動(dòng)的過(guò)去值和預(yù)測(cè)因子序列的過(guò)去值的結(jié)合,即:
其中,Yt表示輸出序列,{X1t},{X2t},…,{Xkt}表示輸入變量序列,{εt}為回歸殘差序列,{at}為零均值白噪聲序列,B為滯后操作算子,Θi(B)為第i個(gè)輸入變量的自回歸系數(shù)多項(xiàng)式,Φi(B)為第i個(gè)輸入變量的滑動(dòng)平均系數(shù)多項(xiàng)式,li為第i個(gè)輸入變量的滯后階數(shù),且:
Φ(B)=1-φ1B-…-φpBp
Θ(B)=1-θ1B-…-θqBq
ResNet-50模型是目前深度學(xué)習(xí)中的主流卷積神經(jīng)網(wǎng)絡(luò)模型,其內(nèi)部的殘差塊使用了跳躍連接,極大地緩解了梯度消失問(wèn)題,克服了由于網(wǎng)絡(luò)深度加深而產(chǎn)生的學(xué)習(xí)效率變低與準(zhǔn)確率無(wú)法有效提升的問(wèn)題。因此,該文使用ResNet-50模型提取深度語(yǔ)義圖像特征。具體地,ResNet-50模型的網(wǎng)絡(luò)結(jié)構(gòu)如表1所列,它包含了49個(gè)卷積層、1個(gè)全連接層,總共由16個(gè)殘差塊組成,如圖1所示,每個(gè)殘差塊包含3個(gè)卷積層、1個(gè)跳轉(zhuǎn)連接和激活函數(shù)。經(jīng)過(guò)前五部分的卷積計(jì)算,輸出7×7×2 048的特征圖,然后池化層將其轉(zhuǎn)化成一個(gè)2 048維特征向量。
表1 RestNet-50結(jié)構(gòu)
圖1 殘差塊網(wǎng)絡(luò)結(jié)構(gòu)
提出的預(yù)測(cè)框架如圖2所示。
圖2 預(yù)測(cè)框架
首先,將三因素氣象因子數(shù)值型數(shù)據(jù)轉(zhuǎn)化為三通道氣象因子圖像,即根據(jù)目標(biāo)城市和鄰近城市的經(jīng)緯度等相關(guān)信息生成目標(biāo)城市和鄰近城市的地圖,并用歸一化后的三個(gè)基本氣象因子數(shù)值數(shù)據(jù)填充相應(yīng)城市地圖的像素,生成三通道氣象因子圖,其中溫度、氣壓和相對(duì)濕度各對(duì)應(yīng)t時(shí)刻圖像的一個(gè)通道。繼而運(yùn)用ResNet-50模型提取三通道氣象因子圖像深度語(yǔ)義特征,每個(gè)圖像的特征均為2 048維。由于圖像的特征維度較高,可能對(duì)后續(xù)的預(yù)測(cè)性能帶來(lái)不好的影響。因此,用PCA技術(shù)進(jìn)行降維,使用MSE評(píng)價(jià)準(zhǔn)則選取主成分的最優(yōu)個(gè)數(shù),該個(gè)數(shù)記為n*,使用前n*個(gè)主成分得到最優(yōu)的特征組合,即{X1t},{X2t},…,{Xn*t}。該組合包含了數(shù)據(jù)氣象因子的大部分信息,作為后續(xù)ARIMAX模型的Xt,PM2.5序列數(shù)據(jù)作為ARIMAX模型中的Yt。由于ARIMAX模型要求輸入的時(shí)間序列數(shù)據(jù)是平穩(wěn)序列,因此在建立模型前檢驗(yàn){X1t},{X2t},…,{Xn*t},PM2.5序列的平穩(wěn)性和方差齊性。若數(shù)據(jù)是平穩(wěn)的,則運(yùn)用最優(yōu)特征組合和PM2.5數(shù)據(jù)建立ARIMAX模型實(shí)現(xiàn)PM2.5的高精度多步預(yù)測(cè)。若數(shù)據(jù)不平穩(wěn),則對(duì)數(shù)據(jù)進(jìn)行差分變換至平穩(wěn)序列再建立模型。具體地,融合深度卷積神經(jīng)網(wǎng)絡(luò)特征的ARIMAX霧霾PM2.5濃度預(yù)測(cè)算法過(guò)程如下:
輸入:三因素氣象數(shù)據(jù)、PM2.5數(shù)據(jù);
a)數(shù)值數(shù)據(jù)轉(zhuǎn)化為三通道圖像
b)ResNet-50提取圖像特征,特征維數(shù)為2 048
c)forn=1 to 2 048
End
e)將前n*個(gè)主成分{X1t},{X2t},…,{Xn*t}作為最佳特征組合
f)檢驗(yàn){X1t},{X2t},…,{Xn*t},PM2.5序列的平穩(wěn)性
g)如果序列是平穩(wěn)的,則轉(zhuǎn)到第i步,否則第h步
h)對(duì)數(shù)據(jù)進(jìn)行(一次或多次)差分操作
i)檢驗(yàn)方差齊性,如果序列是異方差,轉(zhuǎn)到第j步,否則轉(zhuǎn)到第k步
j)對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)變換,轉(zhuǎn)到第g步
k)識(shí)別模型,確定p和q
輸出:預(yù)測(cè)值。
為了驗(yàn)證提出的霧霾預(yù)測(cè)框架的有效性,收集了一個(gè)數(shù)據(jù)量大小為1 826的PM2.5 濃度和氣象因子數(shù)據(jù)集,并在此數(shù)據(jù)集上將提出的預(yù)測(cè)框架與廣泛使用的ARIMA模型、三因素ARIMAX模型、多元回歸模型、ResNet-多元回歸模型、LSTM模型和SVM模型在四個(gè)常用的性能評(píng)價(jià)指標(biāo)上進(jìn)行了對(duì)比。
主要收集了山西省11個(gè)城市(太原、大同、朔州、忻州、陽(yáng)泉、呂梁、晉中、長(zhǎng)治、晉城、臨汾、運(yùn)城)2015年1月至2019年12月的空氣質(zhì)量和氣象數(shù)據(jù):(a)主要空氣污染源PM2.5濃度數(shù)據(jù);(b)三個(gè)基本氣象因子:溫度、氣壓和相對(duì)濕度數(shù)據(jù)。然后,將三個(gè)基本氣象因子數(shù)值數(shù)據(jù)轉(zhuǎn)化為圖像數(shù)據(jù)。具體地,根據(jù)目標(biāo)城市和鄰近城市的經(jīng)緯度等相關(guān)信息生成目標(biāo)城市和鄰近城市的地圖,并用歸一化后的三個(gè)基本氣象因子數(shù)值數(shù)據(jù)填充相應(yīng)城市地圖的像素,生成1 826張的三通道氣象因子圖像,如圖3所示。
圖3 三通道氣象因子圖
基于生成的圖像,通過(guò)ResNet-50模型提取2 048維特征,繼而為了保證模型的預(yù)測(cè)精度,采用PCA降維,找到最佳的特征組合。經(jīng)過(guò)實(shí)驗(yàn),如圖4所示,因子個(gè)數(shù)為34時(shí)得到了最小的RMSE,即34維特征為PCA提取的最佳特征組合。最后,基于上述34維重要深度語(yǔ)義特征和PM2.5序列,經(jīng)過(guò)平穩(wěn)性、方差齊性和白噪聲檢驗(yàn)后,建立ARIMAX模型預(yù)測(cè)PM2.5濃度。例如,在大同市地區(qū),大同市氣象和霧霾序列數(shù)據(jù)通過(guò)平穩(wěn)性、方差齊性和白噪聲檢驗(yàn)后,建立ARIMAX(2,1,3)模型,對(duì)大同市未來(lái)PM2.5濃度進(jìn)行預(yù)測(cè)。
圖4 特征個(gè)數(shù)與RMSE變化關(guān)系
使用幾種常用的霧霾污染預(yù)測(cè)評(píng)價(jià)指標(biāo)評(píng)估預(yù)測(cè)模型性能:皮爾遜相關(guān)系數(shù)(Pearson’s Correlation Coefficient,PCC)、均方誤差(Mean Square Error,MSE)、均方根誤差(Root Mean Squared Error,RMSE)和平均絕對(duì)誤差(Mean Absolute Error,MAE),它們的表達(dá)式如下:
將該文提出的方法與LSTM模型、SVM(三因素)模型、多元回歸(三因素)模型、ResNet-多元回歸模型、ARIMA模型、ARIMAX(三因素)模型進(jìn)行比較:
(1)LSTM模型:原始LSTM模型,直接使用PM2.5序列建立模型。
(2)SVM(三因素)模型:直接使用三個(gè)氣象因子作為PM2.5預(yù)測(cè)的影響因素,建立SVM回歸模型。
(3)多元(三因素)模型:直接使用三個(gè)氣象因子作為PM2.5預(yù)測(cè)的影響因素,建立多元回歸模型。
(4)ResNet-多元回歸模型:首先使用ResNet神經(jīng)網(wǎng)絡(luò)提取三通道氣象因子圖深度語(yǔ)義特征,經(jīng)過(guò)主成分分析找到最佳特征組合,繼而基于最佳特征組合建立多元回歸模型。
(5)ARIMA模型:僅使用PM2.5序列建立ARIMA模型。
(6)ARIMAX(三因素)模型:直接使用三個(gè)氣象因子作為PM2.5預(yù)測(cè)的影響因素,建立ARIMAX模型。
表2~表5給出了11個(gè)城市的平均MSE、RMSE、MAE和PCC值對(duì)于1、3、5、7天的長(zhǎng)短期PM2.5預(yù)測(cè)的多個(gè)模型的對(duì)比結(jié)果,圖5給出了預(yù)測(cè)長(zhǎng)度為1天時(shí),各個(gè)城市的多個(gè)模型的MSE、RMSE、MAE和PCC對(duì)比結(jié)果。
表2 其他模型與提出框架對(duì)四種度量的1天PM2.5濃度預(yù)測(cè)比較
表3 其他模型與提出框架對(duì)四種度量的3天PM2.5濃度預(yù)測(cè)比較
表4 其他模型與提出框架對(duì)四種度量的5天PM2.5濃度預(yù)測(cè)比較
接著,鑒于單純使用ARIMA模型預(yù)測(cè)PM2.5濃度模型性能較差,該文將影響霧霾濃度的三個(gè)氣象因子加入到ARIMA模型,建立了三因素ARIMAX模型。在1、3、5、7天長(zhǎng)短期PM2.5預(yù)測(cè)下,提出的預(yù)測(cè)框架在四個(gè)指標(biāo)下始終優(yōu)于三因素ARIMAX模型。在某些情況下,提出的預(yù)測(cè)框架改進(jìn)達(dá)到了10%~30%。例如,如表5所列,在7天PM2.5濃度預(yù)測(cè)的情況下,所提出的預(yù)測(cè)框架分別與三因素ARIMAX模型的MSE、RMSE、MAE和PCC度量進(jìn)行比較,性能提高了27.9%、16.5%、15.5%、27.2%。這是因?yàn)椋F霾的形成和發(fā)展過(guò)程是非常復(fù)雜的,而直接將三因素?cái)?shù)據(jù)建模可能無(wú)法充分有效地模擬復(fù)雜的霧霾過(guò)程,從而導(dǎo)致模型性能較低。這一原因在多元回歸中也得到了驗(yàn)證。例如,在四個(gè)粒度下,使用卷積神經(jīng)網(wǎng)絡(luò)提取的特征作為自變量建立的多元回歸模型的性能均遠(yuǎn)遠(yuǎn)超過(guò)直接用三個(gè)氣象因素建立的多元回歸模型的性能。
表5 其他模型與提出框架對(duì)四種度量的7天PM2.5濃度預(yù)測(cè)比較
圖5 山西省11個(gè)城市的七種模型的四種評(píng)價(jià)指標(biāo)比較
首先,在1、3、5、7天長(zhǎng)短期PM2.5預(yù)測(cè)下,提出的預(yù)測(cè)框架在四個(gè)指標(biāo)下始終優(yōu)于ARIMA模型。例如,如表2所列,在預(yù)測(cè)時(shí)長(zhǎng)為1天時(shí),11個(gè)城市的平均MSE、RMSE、MAE和PCC值,ARIMA模型分別為992.043、30.978、21.486、0.632,而提出的預(yù)測(cè)框架分別為327.135、17.275、12.958、0.769,顯著優(yōu)于ARIMA模型。這些結(jié)果驗(yàn)證了單純使用ARIMA模型預(yù)測(cè)PM2.5濃度是遠(yuǎn)遠(yuǎn)不夠的,ARIMA模型無(wú)法考慮到影響霧霾濃度的因素,導(dǎo)致預(yù)測(cè)結(jié)果不準(zhǔn)確。
然后,該文使用卷積神經(jīng)網(wǎng)絡(luò)提取的特征作為自變量建立多元回歸模型,實(shí)驗(yàn)結(jié)果驗(yàn)證了單獨(dú)利用卷積提取圖像特征做預(yù)測(cè)是有缺陷的,這樣的預(yù)測(cè)模型只關(guān)注了數(shù)據(jù)之間深度語(yǔ)義特征,如空間相關(guān)性,忽略了序列相關(guān)性,而ARIMA模型更擅長(zhǎng)捕獲序列相關(guān)性進(jìn)行短期預(yù)測(cè),進(jìn)而驗(yàn)證了提出的預(yù)測(cè)框架能夠同時(shí)利用序列相關(guān)性和空間相關(guān)性等信息進(jìn)行建模的有效性。另外,提出的預(yù)測(cè)框架在1、3、5和7天長(zhǎng)短期PM2.5預(yù)測(cè)和四個(gè)指標(biāo)下的性能始終優(yōu)于SVM模型和LSTM模型,產(chǎn)生了最佳的實(shí)驗(yàn)結(jié)果。
最后,給出了預(yù)測(cè)長(zhǎng)度為1時(shí),山西省每個(gè)城市的七個(gè)預(yù)測(cè)模型的MSE、RMSE、MAE和PCC值的對(duì)比結(jié)果。如圖5所示,ARIMA模型、三因素ARIMAX模型、多元回歸模型、ResNet-多元回歸模型、LSTM模型和SVM模型在MSE、RMSE和MAE度量下的線條明顯高于提出的預(yù)測(cè)框架的線條,上述六個(gè)模型在PCC度量下的線條明顯低于提出的預(yù)測(cè)框架的線條。這進(jìn)一步證實(shí)了提出的預(yù)測(cè)框架無(wú)論是11個(gè)城市的平均結(jié)果還是各個(gè)城市獨(dú)立結(jié)果上均展示了最優(yōu)的性能,進(jìn)一步驗(yàn)證提出預(yù)測(cè)框架的有效性。
綜上所述,該文提出了一個(gè)融合卷積神經(jīng)網(wǎng)絡(luò)特征的ARIMAX霧霾序列預(yù)測(cè)框架。運(yùn)用ResNet-50卷積神經(jīng)網(wǎng)絡(luò)捕獲霧霾影響因素序列中的深度語(yǔ)義特征,如鄰近城市的霧霾的空間相關(guān)信息,用ARIMAX模型建模捕獲霧霾的時(shí)間序列相關(guān)信息。在真實(shí)的空氣質(zhì)量和氣象數(shù)據(jù)集(中國(guó)山西省)上驗(yàn)證了提出的霧霾PM2.5濃度預(yù)測(cè)框架的有效性。實(shí)驗(yàn)結(jié)果表明,在1、3、5、7天長(zhǎng)短期PM2.5濃度預(yù)測(cè)中,提出的預(yù)測(cè)框架始終優(yōu)于當(dāng)前廣泛使用的ARIMA模型、三因素ARIMAX模型、多元回歸模型、ResNet-多元回歸模型、LSTM模型和SVM模型。