甘露情 劉媛華
摘 要:建立有效的空氣質(zhì)量指數(shù)預(yù)測模型,可以為個人出行及相關(guān)部門治理大氣污染提供指導(dǎo)。選取北京市的歷史空氣數(shù)據(jù)以及氣象數(shù)據(jù)作為研究對象,建立基于BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)和SVR(Support Vector Regression)支持向量機(jī)回歸的BP-SVR組合預(yù)測模型。首先利用灰狼優(yōu)化算法分別對BP模型和SVR模型參數(shù)進(jìn)行尋優(yōu);然后運用該組合模型對空氣質(zhì)量指數(shù)進(jìn)行預(yù)測。實驗結(jié)果表明,BP-SVR模型的平均絕對百分誤差、均方根誤差、平均絕對誤差均小于單一預(yù)測模型,分別為0.217 5、37.032 0、25.157 5。BP-SVR組合模型具有更高的預(yù)測精度,泛化能力更強(qiáng),可以對空氣質(zhì)量指數(shù)進(jìn)行有效預(yù)測。
關(guān)鍵詞:空氣質(zhì)量指數(shù)預(yù)測;灰狼算法;BP模型;SVR模型;BP-SVR模型
DOI:10. 11907/rjdk. 201217
中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)010-0080-04
Abstract: Establishing an effective air quality index prediction model can provide guidance for individual travel and related departments to control air pollution. The historical air data and meteorological data of Beijing were selected as research objects, and a BP-SVR combined prediction model based on BP (Back Propagation) neural network and SVR (Support Vector Regression) support vector machine regression was established. First, the gray wolf optimization algorithm was used to optimize the parameters of the BP model and the SVR model, and then the combined model was used to predict the air quality index. Experimental results show that the average absolute percentage error, root mean square error, and average absolute error of the BP-SVR model are smaller than that of a single prediction model, which are 0.2175, 37.032 0, and 25.157 5, respectively. The BP-SVR combination model has higher prediction accuracy and stronger generalization ability, and can effectively predict the air quality index.
Key Words: air quality index prediction; gray wolf algorithm; BP model; SVR model; BP-SVR model
0 引言
我國工業(yè)化進(jìn)程不斷加快,能源消耗量持續(xù)增加,產(chǎn)生大量的污染顆粒,導(dǎo)致我國空氣污染日趨嚴(yán)峻[1-2]。近些年,我國眾多城市出現(xiàn)大規(guī)模霧霾天氣的頻率越來越高,特別是2015年北京發(fā)生史上最嚴(yán)重霧霾,PM2.5濃度峰值接近1 000μg/m3。空氣污染不但會對人體健康造成傷害,還會造成交通停滯等問題,對社會經(jīng)濟(jì)造成重大損失[3]。目前亟需建立模型對空氣質(zhì)量指數(shù)進(jìn)行有效預(yù)測,減少大氣污染對人體的危害,還可為相關(guān)部門治理大氣污染提供數(shù)據(jù)支持。
國內(nèi)外早期主要從數(shù)值模型和統(tǒng)計模型角度預(yù)測空氣質(zhì)量指數(shù),數(shù)值模型需要對污染物有充分認(rèn)識,數(shù)據(jù)采集難度較大。統(tǒng)計模型計算簡單,然而空氣質(zhì)量數(shù)據(jù)具有非線性特點,用線性模型進(jìn)行預(yù)測難以取得較好結(jié)果。由于神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的非線性擬合能力,越來越多的學(xué)者采用神經(jīng)網(wǎng)絡(luò)對空氣質(zhì)量指數(shù)進(jìn)行預(yù)測。如Mishra等[4]分別建立人工神經(jīng)網(wǎng)絡(luò)和多元線性回歸模型對印度德里的PM2.5值進(jìn)行預(yù)測,實驗結(jié)果證明神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度更高;呂霽洲[5]首先提出簡化AQI計算模型并進(jìn)行驗證,又提出采用BP神經(jīng)網(wǎng)絡(luò)模型對AQI進(jìn)行預(yù)測,對北京某地區(qū)空氣質(zhì)量進(jìn)行預(yù)測,結(jié)果表明當(dāng)數(shù)據(jù)量足夠時可以達(dá)到很高的預(yù)測精度。單一預(yù)測模型初始參數(shù)設(shè)置會對預(yù)測結(jié)果產(chǎn)生較大影響,為了進(jìn)一步提高預(yù)測精度,越來越多學(xué)者提出將單一模型與其它方法相結(jié)合的混合模型。Feng等[6]提出將小波分析和軌跡分析與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型,并應(yīng)用于PM2.5濃度預(yù)測;張楠等[7]采用改進(jìn)灰狼算法優(yōu)化支持向量機(jī)回歸模型,構(gòu)建空氣質(zhì)量指數(shù)預(yù)測模型,對太原市空氣質(zhì)量進(jìn)行預(yù)測,結(jié)果表明該模型具有更高的預(yù)測精度;吳慧靜等[8]利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)構(gòu)建空氣質(zhì)量指數(shù)預(yù)測模型,對許昌市空氣質(zhì)量進(jìn)行預(yù)測驗證,并與單一神經(jīng)網(wǎng)絡(luò)對比,表明該模型具有更高的預(yù)測精度。目前,空氣質(zhì)量指數(shù)預(yù)測鮮少考慮氣象因素影響,且很少將兩種預(yù)測模型進(jìn)行組合預(yù)測。本文在分析空氣質(zhì)量影響因素過程中考慮氣象條件,利用灰狼優(yōu)化算法分別對神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)參數(shù)進(jìn)行優(yōu)化,再對空氣質(zhì)量分別加以預(yù)測,將兩者預(yù)測結(jié)果作非線性處理,得到空氣質(zhì)量指數(shù)最終預(yù)測結(jié)果。
1 基于GWO算法的BP神經(jīng)網(wǎng)絡(luò)與SVR優(yōu)化
1.1 灰狼優(yōu)化算法
灰狼優(yōu)化算法(GWO)是由澳大利亞學(xué)者M(jìn)irjalili等[9]提出的一種群智能優(yōu)化算法。灰狼處于食物鏈的頂層,內(nèi)部擁有非常嚴(yán)格的社會等級制度[10]。GWO算法將狼群根據(jù)適應(yīng)能力大小從高到低分成a、b、d、w 4個等級[11]。數(shù)學(xué)模型如下:
(1)包圍獵物?;依撬阉鳙C物時需接近并包圍獵物,該行為數(shù)學(xué)模型為:
式中,t是算法當(dāng)前迭代次數(shù),[A]和[C]是協(xié)同系數(shù)向量,[Xp]表示獵物當(dāng)前位置向量,[Xt] 表示灰狼在第t次迭代時的位置向量,在整個迭代過程中,[a]的值從2線性降到0;[r1]和[r2]是[0,1]中的隨機(jī)向量。
(2)狩獵。搜索獵物過程中,假設(shè)a、b、d在識別潛在獵物位置具有較強(qiáng)能力,因此根據(jù)種群中最好的3只灰狼的位置信息更新其余搜索代理位置信息,數(shù)學(xué)表達(dá)式如下:
(3)攻擊獵物?;依遣东@到獵物,即GWO算法找到最優(yōu)解。[A]的值會隨著[a]的線性遞減而變化,當(dāng)|[A]|>1,灰狼遠(yuǎn)離獵物;|[A]|<1,灰狼攻擊獵物,找到最優(yōu)解。
1.2 GWO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)參數(shù)尋優(yōu)
BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)最主要的特點是信號前向傳播,誤差反向傳播[12-13]。本文采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)為3層,分別為輸入層、隱含層、輸出層。網(wǎng)絡(luò)初始權(quán)值和閾值的隨機(jī)性對BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測性能影響較大,使其容易陷入局部最優(yōu)解,收斂速度慢[14-16]。因此,本文利用GWO算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,提高模型預(yù)測精度。
具體步驟如下:①確定神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),隨機(jī)初始化權(quán)值和閾值;②初始化灰狼算法參數(shù),初始化不同等級灰狼的位置向量;③計算灰狼適應(yīng)度值,若優(yōu)于原來的適應(yīng)度值,則將該狼的適應(yīng)度值作為最佳適應(yīng)度值,否則保持原有結(jié)果繼續(xù)迭代;④達(dá)到最大迭代次數(shù),輸出最優(yōu)權(quán)值和閾值,否則繼續(xù)步驟③進(jìn)行迭代尋優(yōu);⑤將最優(yōu)權(quán)值和閾值輸入BP神經(jīng)網(wǎng)絡(luò),并進(jìn)行下一步預(yù)測。
1.3 基于GWO優(yōu)化算法的SVR參數(shù)尋優(yōu)
支持向量機(jī)最早由Vapnik提出,具有較好泛化性能,需優(yōu)化參數(shù)少、計算簡單[17-18]。但SVR模型預(yù)測精度受懲罰參數(shù)c和核函數(shù)參數(shù)g影響較大,目前對參數(shù)選取并沒有公認(rèn)統(tǒng)一的最佳方法[19-20]。本文利用灰狼優(yōu)化算法全局搜索能力強(qiáng)的優(yōu)點,在更大范圍內(nèi)對SVR的c和g參數(shù)進(jìn)行尋優(yōu)。具體步驟如下:①初始化支持向量機(jī)參數(shù)范圍;②初始化灰狼算法參數(shù),確定灰狼數(shù)量,初始化不同等級灰狼位置向量;③以均方根誤差作為優(yōu)化的目標(biāo)函數(shù)值,計算灰狼適應(yīng)度值;④更新灰狼位置向量,計算更新后的灰狼適應(yīng)度,若適應(yīng)度值優(yōu)于原來最佳適應(yīng)度值,則將該灰狼適應(yīng)度值作為最佳適應(yīng)度值,否則繼續(xù)迭代;⑤若達(dá)到最大迭代次數(shù),輸出最優(yōu)參數(shù)c和g,否則返回步驟④繼續(xù)迭代;⑥將最優(yōu)參數(shù)c和g輸入SVR模型中進(jìn)行訓(xùn)練和預(yù)測。
2 BP-SVR組合模型
由于空氣質(zhì)量數(shù)據(jù)具有非線性和時序性特征,用單一模型對其進(jìn)行預(yù)測,準(zhǔn)確率不高。BP神經(jīng)網(wǎng)絡(luò)模型能夠較好模擬非線性數(shù)據(jù),適合中長期預(yù)測,泛化能力強(qiáng)。SVR模型是一種短期的基于時間序列的回歸模型。將兩者進(jìn)行組合預(yù)測,能提高模型預(yù)測精度。
組合模型結(jié)構(gòu)如圖1所示,將經(jīng)過預(yù)處理的數(shù)據(jù)集分成訓(xùn)練集(Traindata)和測試集(Testdata),先將訓(xùn)練數(shù)據(jù)集分別輸入GWO-BP和GWO-SVR算法中進(jìn)行訓(xùn)練,得到最優(yōu)BP模型(M1)和SVR模型(M2),再將測試集分別輸入BP和SVR模型中,得到兩組預(yù)測結(jié)果R1和R2。大多數(shù)組合模型將預(yù)測結(jié)果進(jìn)行直接相加處理,忽略簡單線性處理弊端。本文利用人工神經(jīng)網(wǎng)絡(luò)對組合模型的權(quán)重系數(shù)進(jìn)行優(yōu)化,對兩組預(yù)測結(jié)果賦予最佳權(quán)重系數(shù),得到最終預(yù)測值。首先將真實數(shù)據(jù)(P)和兩組預(yù)測數(shù)據(jù)組成新的數(shù)據(jù)集(Newdata),將數(shù)據(jù)集分成訓(xùn)練集(Newdata_Train)和測試集(Newdata_Test);再利用BP神經(jīng)網(wǎng)絡(luò)算法對新的訓(xùn)練集進(jìn)行訓(xùn)練,得到第2個BP模型(M3);最后將測試集(newdata_test)輸入模型(M3)進(jìn)行預(yù)測,得到最終預(yù)測結(jié)果。
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)預(yù)處理
本文數(shù)據(jù)來源于中國環(huán)境監(jiān)測總站和中國氣象局,選取北京市2013年12月2日-2017年2月28日的AQI數(shù)據(jù)和6種污染物數(shù)據(jù),以及同時期氣象數(shù)據(jù),共1 184天數(shù)據(jù)。污染物數(shù)據(jù)包括NO2、CO、PM2.5、PM10、SO2、O3,氣象數(shù)據(jù)包括風(fēng)速、氣壓、氣溫。實驗中將前一天的空氣污染物數(shù)據(jù)以及當(dāng)天氣象數(shù)據(jù)作為輸入因素,當(dāng)日的AQI數(shù)據(jù)作為輸出量。輸入模型前先對數(shù)據(jù)作歸一化處理,消除因數(shù)量級不同對預(yù)測精度造成的影響。
3.2 模型訓(xùn)練
(1)GWO-BP算法中,灰狼數(shù)量為30,迭代次數(shù)為100。經(jīng)過訓(xùn)練,當(dāng)BP神經(jīng)網(wǎng)絡(luò)隱含層數(shù)量為10個時,誤差最小,因此BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為9-10-1。GWO-SVR算法中的灰狼種群數(shù)量為30,迭代次數(shù)為100。
(2)將經(jīng)過預(yù)處理后數(shù)據(jù)集中的1 000組數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù)(Traindata),剩余的186組數(shù)據(jù)作為測試集數(shù)據(jù)(Testdata)。利用訓(xùn)練集數(shù)據(jù)訓(xùn)練GWO-BP和GWO-SVR算法,得到模型M1和M2。利用模型M1和M2對測試集數(shù)據(jù)進(jìn)行預(yù)測,將得到的兩組預(yù)測結(jié)果R1和R2和真實數(shù)據(jù)組成新的數(shù)據(jù)集(Newdata)。從新的數(shù)據(jù)集中選取100組數(shù)據(jù)作為新的訓(xùn)練集(Newdata_Train),剩余的86組數(shù)據(jù)作為新的測試數(shù)據(jù)集(Newdata_Test)。利用Newdata_Train訓(xùn)練新的BP神經(jīng)網(wǎng)絡(luò),當(dāng)隱含層數(shù)量為5時,預(yù)測精度最高,得到模型M3。將新的測試集輸入模型M3中得到最終預(yù)測值。
3.3 實驗結(jié)果分析
將本文提出的BP-SVR組合模型、BP模型及SVR模型進(jìn)行對比,驗證本文空氣質(zhì)量指數(shù)預(yù)測模型有效性。將相同數(shù)據(jù)集輸入BP和SVR模型中,實驗結(jié)果如圖2所示。
由圖2可以看出,本文提出的BP-SVR模型比單一BP模型和SVR模型數(shù)據(jù)預(yù)測擬合能力更強(qiáng)。BP-SVR模型預(yù)測趨勢更接近于真實值,但仍有部分點預(yù)測效果較差。
模型誤差曲線對比如圖3所示。
由圖3可以看出,BP-SVR組合模型比單一BP預(yù)測模型和SVR預(yù)測模型具有更小的預(yù)測誤差。為了對不同模型預(yù)測結(jié)果作進(jìn)一步分析,引入3個量化評價指標(biāo),即平均絕對百分誤差(MAPE)、均方根誤差(RMSE)、平均絕對誤差(MAE),結(jié)果如表1所示。
由表1可以看出,BP-SVR組合預(yù)測模型的均方根誤差、平均絕對誤差、平均絕對誤差百分比均明顯小于單一BP模型和SVR模型,模型預(yù)測精度提高,數(shù)據(jù)擬合能力更強(qiáng)。
4 結(jié)語
空氣質(zhì)量指數(shù)預(yù)測是一個復(fù)雜問題,不僅受污染顆粒影響,還受氣象因素影響較大。對其進(jìn)行有效預(yù)測,可為人們?nèi)粘Ia(chǎn)活動及空氣污染治理提供指導(dǎo)。本文在考慮氣象因素的基礎(chǔ)上,針對單一預(yù)測模型精度不高的問題,提出BP-SVR組合預(yù)測模型,對空氣質(zhì)量指數(shù)進(jìn)行預(yù)測。根據(jù)誤差對比和指標(biāo)評價結(jié)果可知,BP-SVR模型預(yù)測精度比單一預(yù)測模型更高,擬合能力更強(qiáng)。因此,該模型可有效應(yīng)用于空氣質(zhì)量指數(shù)預(yù)測,但仍有部分點預(yù)測效果不佳。后續(xù)將對數(shù)據(jù)進(jìn)行離群點檢測,進(jìn)一步提高模型預(yù)測精度。
參考文獻(xiàn):
[1] 王繼志,楊元琴,周春紅,等. 霧霾能見度天氣分析與預(yù)測方法研究[C]. 中國氣象學(xué)會會議論文集,2007:152-156.
[2] 齊甜方,蔣洪迅,石曉文. 面向多源數(shù)據(jù)沈陽市 PM2.5濃度預(yù)測研究及實證分析[J]. 系統(tǒng)工程,2018(5):104-115.
[3] 王建州,楊文棟. 基于非線性修正策略的空氣質(zhì)量預(yù)警系統(tǒng)研究[J]. 系統(tǒng)工程理論與實踐,2019,39(8):2139-2151
[4] MISHRA D,GOYAL P,UPADHYAY A.Artificial intelligence based approach to forecast PM2.5 during haze episodes:A case study of Delhi,India[J]. Atmospheric Environment,2015,102:239-248.
[5] 呂霽洲. 基于AQI和BP神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量評價及預(yù)測[J]. 電子世界,2018,38(11):23-24.
[6] FENG X,LI Q,ZHU Y J,et al. Artificial neural networks forecasting of PM2.5 pollution using air mass trajectory based geographic model and wavelet transformation[J]. Atmospheric Environment,2015,107: 118-128.
[7] 張楠,王鵬,白艷萍,等. 基于MGWO-SVR的空氣質(zhì)量預(yù)測[J]. 數(shù)學(xué)的實踐與認(rèn)識,2018,49(8):159-165.
[8] 吳慧靜,赫曉慧. 基于GA-BP神經(jīng)網(wǎng)絡(luò)的空氣質(zhì)量指數(shù)預(yù)測研究[J]. 安徽師范大學(xué)學(xué)報,2019,63(4):360-365.
[9] MIRJALILI S, MIRJALILI S M,LEWIS A.Grey wolf optimizer [J].? Advance In Engineering Software,2014(5):46-61.
[10] 楊書杰,葉霞,李俊山. 基于灰狼算法的BP神經(jīng)網(wǎng)絡(luò)圖像回復(fù)算法[J]. 微電子學(xué)與計算機(jī),2018,47(3):19-22,27.
[11] 徐達(dá)宇,丁帥. 改進(jìn)GWO優(yōu)化SVM的云計算資源負(fù)載短期預(yù)測研究[J].? 計算機(jī)工程與應(yīng)用,2015,52(12): 1-7.
[12] 李雪,顧沈明,年浩. 改進(jìn)粒子群算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的糧食產(chǎn)量預(yù)測[J]. 閩南師范大學(xué)學(xué)報(自然科學(xué)版),2014(1):56-61.
[13] 祝翠玲,蔣志方,王強(qiáng). 基于B-P神經(jīng)網(wǎng)絡(luò)的環(huán)境空氣質(zhì)量預(yù)測模型[J]. 計算機(jī)工程與應(yīng)用,2007,44(22):223-227.
[14] 馬曉敏,王新. 基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)改進(jìn)[J]. 云南大學(xué)學(xué)報(自然科學(xué)版),2013,35(A2):34-38.
[15] 付曉明,王福林,尚家杰. 基于多子代遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)[J]. 計算機(jī)仿真,2016,33(3):258-263.
[16] 馬秋芳. 改進(jìn)PSO優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)短時交通流預(yù)測[J]. 計算機(jī)仿真,2019,35(4):94-98,323.
[17] 尹琪,胡紅萍,白艷萍,等. 基于GA-SVM的太原市空氣質(zhì)量指數(shù)預(yù)測[J]. 數(shù)學(xué)的實踐與認(rèn)識,2017,48(12):113-120.
[18] 倪志偉,朱旭輝,程美英. 基于人工魚群和分形維數(shù)融合 SVM 的空氣質(zhì)量預(yù)測方法[J]. 模式識別與人工智能,2016,28(12):1122-1131.
[19] 王小川,史峰,郁磊,等. MATLAB神經(jīng)網(wǎng)絡(luò)43個案例分析[M]. 北京:北京航空航天大學(xué)出版社,2013.
[20] 高帥,胡紅萍,李洋,等. 基于MFO-SVM的空氣質(zhì)量指數(shù)預(yù)測[J]. 中北大學(xué)學(xué)報,2018,40(4):373-379.
(責(zé)任編輯:孫 娟)