鄧國(guó)取, 陳 虎
(河南科技大學(xué) 管理學(xué)院,河南 洛陽(yáng) 471023)
空氣質(zhì)量與人類日常健康生活息息相關(guān)。作為生命的四大要素之一,空氣在維持生態(tài)系統(tǒng)方面起著重要作用。近年來,人類活動(dòng)嚴(yán)重加劇了空氣污染程度,空氣質(zhì)量已成為全社會(huì)廣泛關(guān)注的焦點(diǎn)問題。因此研究影響空氣質(zhì)量的因素,合理預(yù)測(cè)空氣質(zhì)量(Air Quality Forecasting,AQF)對(duì)大氣污染監(jiān)管和治理有著重要的現(xiàn)實(shí)意義[1]。目前的研究將AQF分為短期AQF(Short Air Quality Forecasting,SAQF)、中期AQF和長(zhǎng)期AQF。中長(zhǎng)期AQF通常用作較長(zhǎng)時(shí)間內(nèi)的空氣質(zhì)量預(yù)測(cè),主要用于規(guī)劃工業(yè)用地或居住區(qū)的分布以及實(shí)現(xiàn)中長(zhǎng)期精細(xì)化預(yù)報(bào),為污染防控和達(dá)標(biāo)規(guī)劃提供更多的提前量。SAQF常用于輔助調(diào)控短期內(nèi)的交通網(wǎng)絡(luò),還可輔助個(gè)人出行,預(yù)防本人過度暴露于外部污染環(huán)境中。因此,SAQF對(duì)社會(huì)發(fā)展和人們的日常生活都具有重要意義。
SAQF常用的是混合預(yù)測(cè)模型,為克服支持向量回歸(Support Vector Regression,SVR)在處理海量數(shù)據(jù)方面的不足, GHAEMI等[2]首次建立了基于Hadoop平臺(tái)的分布式計(jì)算模型。SHAH等[3]引入人工蜂群誤差最小化的參數(shù)優(yōu)化算法思想和SVR結(jié)合用于空氣質(zhì)量預(yù)測(cè),所提出的混合模型具有更高的預(yù)測(cè)性能。但廣泛使用的算法包括蟻群優(yōu)化(Ant Colony Optimization,ACO),遺傳算法(Genetic Algorithm,GA)等算法不能很好地存儲(chǔ)粒子信息。同時(shí),上述算法參數(shù)優(yōu)化時(shí)間較長(zhǎng),不能最大程度發(fā)揮SVR算法的優(yōu)勢(shì)[4,5]。隨著計(jì)算機(jī)性能的不斷提高,研究人員在早期神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Recurrent Neural Network,LSTM)對(duì)空氣質(zhì)量進(jìn)行預(yù)測(cè),但忽略了多因素對(duì)單一空氣污染物的影響[6-8]。
目前,國(guó)內(nèi)外學(xué)者對(duì)空氣質(zhì)量的研究主要集中對(duì)空氣質(zhì)量指數(shù)(Air Quality Index,AQI)的研究。國(guó)內(nèi)學(xué)者大多是基于2012年3月國(guó)家發(fā)布的空氣質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)《環(huán)境空氣質(zhì)量標(biāo)準(zhǔn)》(GB 3095-2012),將PM2.5,PM10,SO2,CO,NO2和O3這6種污染物用統(tǒng)一的AQI作為評(píng)價(jià)標(biāo)準(zhǔn)。羅宏遠(yuǎn)等[9]提出AQI不僅可以直觀地呈現(xiàn)出空氣質(zhì)量的變化趨勢(shì),還可直接服務(wù)于政府工作者和相關(guān)群體。部分研究表明,除6大污染物以外,氣象因素如氣溫、天氣、風(fēng)速、風(fēng)向等也是影響AQI預(yù)測(cè)的重要因素[10,11]。許文軒等[12]在華北地區(qū)AQI的時(shí)空分布規(guī)律研究中引入空間異質(zhì)性和空間相關(guān)性的思想,分析了經(jīng)濟(jì)和自然因素對(duì)空氣質(zhì)量產(chǎn)生的影響。但現(xiàn)有大多數(shù)研究在測(cè)量AQI時(shí)多采用污染物濃度或氣象等直接因素,忽略了社會(huì)發(fā)展過程中工業(yè)化和城市化等直接或間接因素對(duì)AQI的影響。龔光彩等[13]以北京市為例,建立了沒有考慮社會(huì)經(jīng)濟(jì)因素的區(qū)域環(huán)境關(guān)聯(lián)模型。事實(shí)上,AQI是直接因素和間接因素的綜合表現(xiàn)結(jié)果,用單一的直接因素測(cè)量AQI不夠充分,可能存在測(cè)量誤差,從而會(huì)降低模型的預(yù)測(cè)精度。李靜萍和周景博[14]首次采用結(jié)構(gòu)方程模型(Structural Equation Model,SEM)分析工業(yè)化和城市化對(duì)城市空氣質(zhì)量的影響,不僅可以用觀測(cè)變量代替不可測(cè)的潛變量,還可以容許測(cè)量指標(biāo)存在的誤差,從而能更精確地估計(jì)各因素對(duì)空氣質(zhì)量的影響。
綜上所述,本研究基于歷史氣象數(shù)據(jù),首先使用相關(guān)方法篩選影響空氣質(zhì)量預(yù)測(cè)的重要?dú)庀笠蛩?并構(gòu)建結(jié)構(gòu)方程模型探究經(jīng)濟(jì)社會(huì)發(fā)展中工業(yè)化和城市化兩大指標(biāo)對(duì)空氣質(zhì)量的影響,篩選出對(duì)空氣質(zhì)量影響較大的非氣象影響因素;其次為提高實(shí)驗(yàn)數(shù)據(jù)的規(guī)律性,依托SVR處理小樣本的優(yōu)勢(shì),運(yùn)用K-means聚類算法把數(shù)據(jù)拆分成若干類別的小規(guī)模數(shù)據(jù);最后將粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)與SVR結(jié)合,建立混合PSO-SVR模型提高空氣質(zhì)量的預(yù)測(cè)精度,以期為社會(huì)生產(chǎn)發(fā)展和人民生活提供服務(wù)。
支持向量機(jī)是一種常用的判別方法,它遵循SRM原理,在處理小樣本和高維特征空間問題上具有獨(dú)特的優(yōu)勢(shì)。支持向量機(jī)最初用于解決模式識(shí)別問題,但近年來通過引入不敏感損失函數(shù)ε來處理非線性回歸估計(jì)問題。支持向量機(jī)用于解決回歸問題時(shí)被稱為支持向量回歸(Support Vector Regression,SVR),其主要思想是通過使用非線性函數(shù)將數(shù)據(jù)集xi(i=1,…,n)映射到一個(gè)高維特征空間。具體關(guān)系表示為:
f(x)=ωTφ(x)+b
(1)
其中,f(x)為輸出值,ω和b為系數(shù),φ(x)為非線性映射函數(shù),可以將輸入值轉(zhuǎn)換為高維特征空間。ω和b的調(diào)控值如下:
(2)
其中,Rε()是經(jīng)驗(yàn)風(fēng)險(xiǎn),C是正則化參數(shù),也即懲罰因子。
(3)
(4)
K(xi,xj)=φ(xi)φ(xj)
(5)
目前研究中常用的有3類核函數(shù),包括多項(xiàng)式核函數(shù)、Sigmoid核函數(shù)和高斯核函數(shù)。多項(xiàng)式核函數(shù)是維數(shù)最高的且該類函數(shù)的計(jì)算靈也較大,從而導(dǎo)致該類函數(shù)的誤差值較高。對(duì)于Sigmoid函數(shù)而言,只有部分?jǐn)?shù)值符合Mercer定理?xiàng)l件,其適用局限性導(dǎo)致部分?jǐn)?shù)值無(wú)法保證函數(shù)的正定性。而高斯核函數(shù)在SVR研究中是最常用的一種,也被稱為徑向基核函數(shù)(Radial Basis Function,RBF)。該函數(shù)可以將數(shù)據(jù)映射到無(wú)限維,且計(jì)算復(fù)雜度相對(duì)更低。因此本研究采用RBF作為支持向量回歸的核函數(shù),函數(shù)的定義為:
(6)
在SVR模型中,預(yù)測(cè)精度主要受不敏感損失變量ε、徑向基核系數(shù)變量γ以及懲罰因子c等變量的影響。構(gòu)建PSO-SVR混合模型的目的就是進(jìn)行參數(shù)尋優(yōu),找到SVR中最佳參數(shù)組合以此來提高預(yù)測(cè)精度。在進(jìn)行SVR回歸預(yù)測(cè)前,需要確定懲罰因子c、徑向基核系數(shù)變量γ和不敏感損失變量ε。懲罰因子c過小會(huì)導(dǎo)致預(yù)測(cè)精度大幅降低,從而導(dǎo)致泛化能力變差,但c過大將會(huì)導(dǎo)致容忍度較低,從而預(yù)測(cè)精度降低。在進(jìn)行參數(shù)尋優(yōu)過程中,本研究將以懲罰因子c較小的原則進(jìn)行選擇。徑向基核系數(shù)變量γ控制SVR對(duì)輸入變量的敏感程度。不敏感損失變量ε表示容忍模型誤差的能力,代表擬合邊界的寬度,在實(shí)驗(yàn)過程中應(yīng)盡可能多的使樣本位于擬合邊界上。因此,為達(dá)到參數(shù)組合的最優(yōu),采用粒子群優(yōu)化算法對(duì)參數(shù)進(jìn)行選擇。
粒子群優(yōu)化是在迭代優(yōu)化的基礎(chǔ)上發(fā)展起來的種群計(jì)算技術(shù)。首先,初始化一組粒子,然后通過跟蹤單個(gè)極值pibest和全局極值pgbest來更新這些粒子在下一次迭代中的速度和位置;當(dāng)發(fā)現(xiàn)這兩個(gè)端點(diǎn)后,PSO算法將對(duì)每個(gè)粒子的速度和距離進(jìn)行識(shí)別。
假設(shè)在i維搜索空間中存在m個(gè)粒子。第i個(gè)粒子表示為xi=(xi1,…,xid),其中i=1,…,m。也就是說,第i個(gè)粒子的位置為xi。第i個(gè)粒子的速度也是一個(gè)矢量,用vi=(vi1,…,vid)表示。該粒子的最優(yōu)位置為pi=(pi1,…,pid),而整個(gè)種群的最優(yōu)位置為pg=(pg1,…,pgd)。標(biāo)準(zhǔn)的粒子群算法更新了現(xiàn)有的粒子群算法,具體的定義如下:
(7)
(8)
(9)
混合PSO-SVR算法的整體流程如圖1所示。
圖1 聚類混合PSO-SVR建模流程圖
首先采用逐步回歸的方法將污染物數(shù)據(jù)、氣象數(shù)據(jù)和時(shí)間特征數(shù)據(jù)進(jìn)行降維處理;其次為更好體現(xiàn)SVR對(duì)小樣本數(shù)據(jù)處理的優(yōu)勢(shì),采用K-means對(duì)降維處理后的數(shù)據(jù)進(jìn)行聚類劃分;最后將聚類劃分后的小樣本數(shù)據(jù)輸入到PSO-SVR模型中進(jìn)行數(shù)值預(yù)測(cè)。具體步驟如下:
步驟1在進(jìn)行逐步回歸降維處理前,假設(shè)實(shí)驗(yàn)數(shù)據(jù)中存在c條樣本數(shù)據(jù),n個(gè)自變量(特征處理后的變量數(shù)據(jù)),則該集合可表示為X=(X1,…,Xn),本研究中的因變量AQI用Y表示,如下所示:
Y=β0+βiXi+ε,i=1,…,n
(10)
步驟2建立因變量Y與自變量子集{Xτ1,X1},…,{Xτ1,Xn}的二元回歸模型,共有n-1個(gè),再次計(jì)算回歸系數(shù)以及對(duì)應(yīng)的F檢驗(yàn)統(tǒng)計(jì)量的值為Fk″(k?S1) ,令Fτ2″為其中的最大值;在給定顯著性水平α=0.05下,對(duì)應(yīng)的臨界值為F(2),當(dāng)Fτ2″≥F(2),則將Xτ2加入到回歸模型中,否則結(jié)束變量引入過程。
步驟3重復(fù)步驟2的操作,得到本研究最終的所需要的方程模型如下:
(11)
步驟4選擇l個(gè)質(zhì)心,將經(jīng)過特征編碼后的原始數(shù)據(jù)乘上對(duì)應(yīng)的系數(shù)βi后,將新的數(shù)據(jù)集Yτ輸入到K-means聚類算法中得到l個(gè)數(shù)據(jù)集合,分別為u1,…,ul∈Rn,Yτi∈Rn,i=1,…,c,計(jì)算數(shù)據(jù)集Yτ中每一個(gè)樣本到質(zhì)心uj的歐氏距離,不斷更新集合的質(zhì)心,將其歸為l個(gè)集合,具體計(jì)算公式如下:
(12)
步驟5將每個(gè)集合Si中的30%作為測(cè)試集,最后輸入到PSO-SVR模型中得到S(Si,P(c,γ,ε))即為AQI的預(yù)測(cè)結(jié)果。
本研究借助Python相關(guān)工具PyCharm收集中國(guó)氣象總局發(fā)布的2017年1月1日至2019年12月31日全國(guó)34個(gè)省份的歷史空氣質(zhì)量指數(shù)(AQI)以及氣象因素(溫度、風(fēng)向、風(fēng)力、降雨、壓強(qiáng)以及濕度等,通過計(jì)算近三年各地區(qū)年均AQI顯示,北京市,天津市,山東省,河北省,山西省,陜西省,河南省,安徽省,新疆等9個(gè)地區(qū)的空氣污染在近三年中表現(xiàn)較為嚴(yán)重,為驗(yàn)證混合模型的優(yōu)越性,將以北京市,天津市以及其他7個(gè)地區(qū)省會(huì)城市的氣象數(shù)據(jù)為基礎(chǔ),同時(shí)使用數(shù)據(jù)采集器收集中國(guó)空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)發(fā)布的2017年1月至2019年12月這9個(gè)城市的每日六大污染物濃度。然后將AQI,氣象因素、污染物及工業(yè)化和城市化因素作樣本數(shù)據(jù)展開研究。
研究選擇均方誤差(Root Mean Square Error,RMSE)和平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)來檢驗(yàn)所提出的混合模型的預(yù)測(cè)性能。其計(jì)算公式為:
(13)
(14)
(15)
(16)
本研究選擇GA-SVR,BPNN,XGBoost和LSTM四個(gè)模型分別對(duì)加入工業(yè)化和城市化因素的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行測(cè)試。選擇GA-SVR模型的原因是,為了對(duì)比突出PSO優(yōu)化參數(shù)效果比GA算法更適用于該模型。選擇人工神經(jīng)網(wǎng)絡(luò)ANN中的BPNN模型,主要原因是該模型在實(shí)驗(yàn)數(shù)據(jù)較少時(shí),通過徑向基神經(jīng)元和線性神經(jīng)元建立廣義回歸神經(jīng)網(wǎng)絡(luò)較穩(wěn)定,從而保證較好的預(yù)測(cè)效果。選擇XGBoost模型的原因是可以提供并行樹提升,進(jìn)而能快速準(zhǔn)確地解決大樣本數(shù)據(jù),但由于短期空氣質(zhì)量預(yù)測(cè)的樣本數(shù)據(jù)規(guī)模有限,采用該模型可能會(huì)由于樣本數(shù)量導(dǎo)致模型訓(xùn)練效果不夠優(yōu)良,從而降低預(yù)測(cè)精度。選擇LSTM的原因是隨著計(jì)算機(jī)性能的不斷提高,在早期神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和LSTM等得到應(yīng)用,其中,LSTM在六大污染物濃度預(yù)測(cè)上的效果優(yōu)于其它模型。本研究選擇Tensorflow框架下Keras中的LSTM方法和混合模型PSO-SVR進(jìn)行比較,探究二者在高峰值的擬合效果,以此進(jìn)一步驗(yàn)證混合模型的優(yōu)良性。如表1所示,展示了9個(gè)城市在5種模型下測(cè)驗(yàn)后的平均結(jié)果。
表1 模型的評(píng)價(jià)指標(biāo)
BPNN,XGBoost和LSTM模型在本研究中采用實(shí)驗(yàn)前設(shè)置的默認(rèn)參數(shù)。通過實(shí)驗(yàn)可知,混合PSO-SVR的評(píng)價(jià)指標(biāo)優(yōu)于其他模型、模型的預(yù)測(cè)時(shí)間也是最短,進(jìn)一步驗(yàn)證了本研究提出的混合PSO-SVR模型的優(yōu)良性。
本研究將粒子群算法和支持向量回歸、結(jié)構(gòu)方程模型和K-means聚類相結(jié)合,構(gòu)建了非等權(quán)聚類混合PSO-SVR模型,并以中國(guó)地區(qū)的9大城市為例進(jìn)行了性能測(cè)試。首先對(duì)數(shù)據(jù)進(jìn)行初步預(yù)處理,分析時(shí)間影響因素以及氣象影響因素,然后結(jié)合經(jīng)濟(jì)社會(huì)發(fā)展中工業(yè)化和城市化影響因素構(gòu)建結(jié)構(gòu)方程模型,最終將最優(yōu)變量組合輸入基于K-means聚類的混合PSO-SVR模型,同時(shí)進(jìn)行比較分析驗(yàn)證所提出的混合模型的性能。結(jié)果顯示混合模型在預(yù)測(cè)精度和運(yùn)行時(shí)間方面都占據(jù)一定的優(yōu)勢(shì)。本研究的主要貢獻(xiàn)可歸納如下:(1)不僅計(jì)算了影響AQI的最優(yōu)的氣象變量組合,而且還引入結(jié)構(gòu)方程模型探究了經(jīng)濟(jì)社會(huì)中工業(yè)化和城市化因素對(duì)空氣質(zhì)量的非直接影響,以此提高了AQI預(yù)測(cè)精度;(2)引入無(wú)監(jiān)督聚類算法K-means,增強(qiáng)了建模數(shù)據(jù)的規(guī)律性,減少了單次數(shù)據(jù)預(yù)測(cè)量,提高了預(yù)測(cè)精度的同時(shí)縮短了運(yùn)行時(shí)間。此外,借助 PSO優(yōu)化算法實(shí)現(xiàn)參數(shù)的自動(dòng)選擇,克服了SVR收斂過早問題;(3)通過選取中國(guó)地區(qū)具有代表性的2個(gè)直轄市和7個(gè)省會(huì)城市進(jìn)行模型的檢驗(yàn),驗(yàn)證了該模型的可實(shí)用性;同時(shí)選擇GA-SVR,BPNN,XGBoost和LSTM四個(gè)模型做對(duì)比,進(jìn)一步驗(yàn)證了加入工業(yè)化和城市化因素后,本研究提出的混合PSO-SVR模型優(yōu)于其他四個(gè)模型,在高峰值的擬合中表現(xiàn)較為穩(wěn)定。空氣質(zhì)量的變化對(duì)自然生態(tài)系統(tǒng)和經(jīng)濟(jì)社會(huì)的影響正在加速,重視并提高我國(guó)對(duì)空氣質(zhì)量狀況的預(yù)測(cè),加強(qiáng)氣候變化研究至關(guān)重要。因此為增強(qiáng)本研究所提出的模型的適應(yīng)度和準(zhǔn)確度,下一步工作將重點(diǎn)研究工業(yè)化和城市化進(jìn)程對(duì)大氣污染物濃度的影響,盡可能為綠色經(jīng)濟(jì)社會(huì)發(fā)展提出針對(duì)性的政策和建議。