馮曉秀,高志文,李風(fēng)軍,虎雪嬌
1.寧夏大學(xué)數(shù)學(xué)計(jì)算機(jī)學(xué)院,寧夏 銀川 750021
2.西安建筑科技大學(xué)環(huán)境與市政工程學(xué)院,陜西 西安 710055
基于LS?SVR、BP?ANN和MLR模型的PM10濃度預(yù)測(cè)
馮曉秀1,高志文1,李風(fēng)軍1,虎雪嬌2
1.寧夏大學(xué)數(shù)學(xué)計(jì)算機(jī)學(xué)院,寧夏 銀川 750021
2.西安建筑科技大學(xué)環(huán)境與市政工程學(xué)院,陜西 西安 710055
利用寧東能源化工基地PM10和氣象監(jiān)測(cè)數(shù)據(jù),分別采用LS?SVR、BP?ANN和傳統(tǒng)MLR模型預(yù)測(cè)PM10濃度變化。結(jié)果表明,較BP?ANN模型、MLR模型,LS?SVR模型能更好地刻畫(huà)PM10濃度與各氣象因素間的非線性相依關(guān)系,更準(zhǔn)確地預(yù)測(cè)PM10濃度。
LS?SVR;BP?ANN;MLR;PM10;預(yù)測(cè)
為了解未來(lái)空氣質(zhì)量狀況,合理安排工作與出行,環(huán)境空氣質(zhì)量預(yù)測(cè)和預(yù)報(bào)具有重要意義[1?7]。環(huán)境空氣質(zhì)量已有的預(yù)測(cè)方法[1?4]基本上需要構(gòu)造影響因素與預(yù)測(cè)結(jié)果間的函數(shù)關(guān)系,并合理確定權(quán)重值。多元線性回歸(MLR)模型[1?2],可以對(duì)一些線性關(guān)系的濃度變化趨勢(shì)進(jìn)行很好的預(yù)測(cè),而對(duì)PM10濃度與氣象條件之間呈較強(qiáng)的非線性關(guān)系的情況就具有很大的局限性。人工神經(jīng)網(wǎng)絡(luò)(ANN),雖可以克服這一缺陷,能建立非常復(fù)雜的非線性映射,較好地反映PM10濃度與氣象參數(shù)之間的非線性關(guān)系,但其拓?fù)浣Y(jié)構(gòu)需要結(jié)合經(jīng)驗(yàn)試湊,很難小樣本訓(xùn)練,在訓(xùn)練過(guò)程中易陷入局部極小值。
支持向量機(jī)(SVM)以小樣本的統(tǒng)計(jì)學(xué)習(xí)理論(SLT)為基礎(chǔ),具有簡(jiǎn)潔的數(shù)學(xué)形式、直觀的幾何解釋以及良好的泛化能力,有效避免了局部極值,克服了“維數(shù)災(zāi)難”,且人為設(shè)置的參數(shù)少,便于使用。最小二乘優(yōu)化的支持向量回歸機(jī)(LS? SVR)已廣泛應(yīng)用于圖像噪聲處理、結(jié)構(gòu)探傷等研究領(lǐng)域[9?11],但在環(huán)境領(lǐng)域的應(yīng)用鮮有報(bào)道。該文以寧東能源化工基地PM10濃度為例,分別利用基于LS?SVR、帶誤差反傳算法(BP)的ANN及MLR進(jìn)行PM10的預(yù)測(cè)和比較分析,以期為空氣質(zhì)量預(yù)測(cè)預(yù)報(bào)探索適合的模型算法。
1.1 SVR原理
利用SVM解決非線性映射問(wèn)題與分類(lèi)問(wèn)題類(lèi)似,還是通過(guò)引入核函數(shù)將低維的非線性回歸問(wèn)題轉(zhuǎn)化為高維的線性回歸問(wèn)題。其原理是根據(jù)給定的訓(xùn)練集:
式中:xi∈X=Rn是輸入,yi∈Y=R是輸出,尋找一個(gè)實(shí)值函數(shù)f(x),并用來(lái)推斷任一輸入x所對(duì)應(yīng)的輸出y[9]。分類(lèi)問(wèn)題所求的超平面,實(shí)際上就是回歸問(wèn)題的解。這樣的SVM稱(chēng)為支持向量回歸機(jī)(SVR)。
SVM的拓?fù)涞慕Y(jié)構(gòu)與一個(gè)3層前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)類(lèi)似。其中隱層節(jié)點(diǎn)對(duì)應(yīng)于輸入樣本與一個(gè)支持向量的內(nèi)積核函數(shù),而輸出節(jié)點(diǎn)對(duì)應(yīng)于隱層輸出的線性組合。圖1給出了SVM的拓?fù)浣Y(jié)構(gòu)示意圖。
圖1 SVM拓?fù)浣Y(jié)構(gòu)
回歸問(wèn)題的求解可利用最小二乘法,用以加快求解速度,能更好更快地進(jìn)行預(yù)報(bào),這樣的模型稱(chēng)為L(zhǎng)S?SVR[9]。
1.2 數(shù)據(jù)源
利用寧東環(huán)境監(jiān)測(cè)站4個(gè)環(huán)境空氣點(diǎn)位的PM10濃度小時(shí)值,監(jiān)測(cè)時(shí)段分別為冬季(2012年1月1—31日)、春季(2012年3月15日至4月15日)、夏季(2012年6月10日至7月15日)、秋季(2012年8月20日至9月22日),每天監(jiān)測(cè)24 h。同時(shí)收集氣象數(shù)據(jù)包括風(fēng)速、溫度、相對(duì)濕度、日照、降雨量等。所有的模型選取其中的1 000組原始數(shù)據(jù)用于學(xué)習(xí)訓(xùn)練,另外選取800組數(shù)據(jù)用于驗(yàn)證。
2.1 輸入信號(hào)選取
大氣顆粒物PM10的濃度受多種氣象條件的影響,通過(guò)參考文獻(xiàn)[3?5]以及實(shí)地調(diào)研,決定選取的輸入?yún)?shù)有初始濃度風(fēng)速(v,m/s)、溫度(T,℃)、相對(duì)濕度(H,%)、壓力(p,kPa)、降雨量(R,mm)、日照(S,h)。
2.2 LS?SVR預(yù)測(cè)模型
采用Matlab7.8建立LS?SVR模型,LS?SVR模型中的核函數(shù)一般需要構(gòu)造,且必須滿(mǎn)足Mercer定理,考慮到適用性以及便捷性,選取徑向基函數(shù)中的Gauss函數(shù):
式中:xi為訓(xùn)練數(shù)據(jù)點(diǎn),σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍,這一寬度越小,就越具有選擇性[1]。
建立模型時(shí)要對(duì)搜集到的輸入數(shù)據(jù)進(jìn)行歸一化,常用的歸一化函數(shù)有指數(shù)函數(shù)法、最大最小值法[3]等,研究采用最大最小值法進(jìn)行歸一化處理。歸一化處理后,使用交叉驗(yàn)證的方法選擇參數(shù)(σ,c)=(10,5)作為模型參數(shù)對(duì)模型進(jìn)行訓(xùn)練和驗(yàn)證,最后通過(guò)計(jì)算預(yù)測(cè)結(jié)果的相對(duì)誤差來(lái)評(píng)價(jià)模型精度。
2.3 BP?ANN預(yù)測(cè)模型
利用Matlab7.8中的ANN工具箱建立BP?ANN預(yù)測(cè)模型。BP?ANN預(yù)測(cè)模型中輸入信號(hào)與LS?SVR模型相同,即輸入層有7個(gè)節(jié)點(diǎn);輸出層為PM10濃度,所以只有一個(gè)節(jié)點(diǎn);隱層節(jié)點(diǎn)的選取利用經(jīng)驗(yàn)公式
式中:n為輸入層神經(jīng)元數(shù),m為輸出層神經(jīng)元數(shù)[11]。傳遞函數(shù)選取最常用的S型函數(shù):
2.4 MLR預(yù)測(cè)模型
利用Matlab 7.8統(tǒng)計(jì)工具箱建立MLR模型,來(lái)與LS?SVR及BP?ANN建立的模型進(jìn)行比較。利用的多元線性回歸模型如下:
式中:xi為第i個(gè)輸入變量的值;y為實(shí)測(cè)PM10濃度;常數(shù)項(xiàng)b0和回歸系數(shù)bi通過(guò)最小二乘法獲得;εi為回歸誤差,回歸求解的過(guò)程事實(shí)上就是使平均誤差ε最小的過(guò)程。
3.1 模型精度比較
表1給出了3種模型的預(yù)測(cè)統(tǒng)計(jì)結(jié)果,在方差相同的情況下,LS?SVR模型的預(yù)測(cè)相對(duì)誤差最小,命中率最高。
表1 預(yù)測(cè)統(tǒng)計(jì)結(jié)果
圖2給出了3種模型預(yù)測(cè)值與實(shí)測(cè)值相關(guān)性,圖2(a)、圖2(b)、圖2(c)分別為MLR、BP?ANN、LS?SVR預(yù)測(cè)模型的結(jié)果。經(jīng)顯著性水平α=0.05相關(guān)系數(shù)顯著性檢驗(yàn)后,MLR預(yù)測(cè)模型的相關(guān)系數(shù)(r)僅為0.50,BP?ANN預(yù)測(cè)模型R為0.83,LS?SVR預(yù)測(cè)模型(r)最高為0.97,且斜率也更接近于1,說(shuō)明該模型預(yù)測(cè)值與實(shí)測(cè)值具有顯著相關(guān)性。
圖3利用全年實(shí)測(cè)值以及各模型預(yù)測(cè)值的24 h各時(shí)刻均值,展示了各模型在時(shí)間序列下的擬合程度,其誤差比較見(jiàn)表2??梢?jiàn),LS?SVR預(yù)測(cè)模型曲線更切合實(shí)測(cè)值曲線,能更好地預(yù)測(cè)PM10濃度變化;BP?ANN模型整體預(yù)測(cè)效果也較為理想,但是傍晚時(shí)段的預(yù)測(cè)結(jié)果偏差較大;MLR預(yù)測(cè)模型與實(shí)際結(jié)果的擬合程度相差太多,該模型僅僅能預(yù)測(cè)PM10濃度的平均變化趨勢(shì)。
圖3 預(yù)測(cè)值與實(shí)際測(cè)量值全年24 h變化
表2 不同預(yù)測(cè)模型的誤差比較
3.2 影響因素分析
因?yàn)長(zhǎng)S?SVR、BP?ANN模型均為非線性映射,所以無(wú)法直接輸出每個(gè)影響參數(shù)的權(quán)值大小,但由MLR預(yù)測(cè)模型可粗略看出各參數(shù)影響。利用Matlab7.8統(tǒng)計(jì)工具箱建立的MLR預(yù)測(cè)模型如下:
式中:ρ(PM10)為預(yù)測(cè)質(zhì)量濃度,ρ(PM010)為初始質(zhì)量濃度,可見(jiàn),初始濃度、降雨量、風(fēng)速、溫度、壓力等是影響PM10濃度的重要因素。
利用LS?SVR模型進(jìn)行預(yù)測(cè),給出了不同降雨量下大氣顆粒物PM10濃度模擬值的24 h變化,見(jiàn)圖4。
圖4 不同降雨量下PM10濃度模擬值的24 h變化
降雨量增加可以明顯降低PM10濃度,平均減少量為17.28%。但是如果繼續(xù)增加降雨量,PM10濃度減少量也將會(huì)下降,不會(huì)呈現(xiàn)等差比例的下降。說(shuō)明可以通過(guò)增加降水或者類(lèi)降水(灑水車(chē))的方法來(lái)降低PM10濃度。PM10濃度影響因素有很多,各因素之間是一種非線性關(guān)系,所以當(dāng)降水的影響因素飽和之后,它的影響將逐漸減少,而其他因素將會(huì)占主導(dǎo)地位,這也是持續(xù)增加降水量PM10濃度減少量變小的原因。
較BP?ANN模型、傳統(tǒng)的MLR模型,LS?SVR預(yù)測(cè)模型可以很好預(yù)測(cè)大氣顆粒物PM10濃度,可以作為預(yù)測(cè)PM10濃度的首選算法。控制各污染源(如火電、煤礦、煤化工等)的排放,增加降水或者類(lèi)降水可有效降低PM10濃度。
[1]石靈芝.城市大氣顆粒物PM10源解析與濃度預(yù)測(cè)及氣象因素影響研究[D].長(zhǎng)沙:中南大學(xué),2011.
[2]石靈芝,鄧啟紅,路嬋,等.基于BP人工神經(jīng)網(wǎng)絡(luò)的大氣顆粒物PM10質(zhì)量濃度預(yù)測(cè)[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2012.5,43(5):1 969?1 974.
[3]周?chē)?guó)亮,劉希玉,武魯英.BP神經(jīng)網(wǎng)絡(luò)模型在空氣質(zhì)量級(jí)別評(píng)價(jià)中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(2):392?394.
[4]王燦星,侯樹(shù)強(qiáng).杭州市區(qū)大氣中PM10等污染物的預(yù)測(cè)研究[J].儀器儀表學(xué)報(bào),2004,25(4):780?781.
[5]龔識(shí)懿,馮加良.上海地區(qū)大氣相對(duì)濕度與PM10濃度和大氣能見(jiàn)度的相關(guān)性分析[J].環(huán)境科學(xué)研究,2012,25(6):628?632.
[6]殷永文,程金平,段玉森,等.上海市霾期間PM2.5、PM10污染與呼吸科、兒童呼吸科門(mén)診人數(shù)的相關(guān)分析[J].環(huán)境科學(xué),2011,32(7):1 894?1 898.
[7]包貞,馮銀廠,焦荔,等.杭州市大氣PM2.5和PM10污染特征及來(lái)源解析[J].中國(guó)環(huán)境監(jiān)測(cè),2010,26(2):44?48.
[8]Tecer L H.Prediction of SO2and PM10concentrations in a coastal mining area using an artificial neural network[J].Polish Journal of Environmental Studies,2007,16(4):633?638.
[9]漸令.支持向量機(jī)在高爐爐溫預(yù)報(bào)中的應(yīng)用[D].杭州:浙江大學(xué),2006.
[10]孫紅星,趙楠楠,徐心和.基于SVM的模糊推理在圖像降噪中的建模與仿真[J].系統(tǒng)仿真學(xué)報(bào),2006,18(26):3 276?3 279.
[11]韓立群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京:北京郵電大學(xué)出版社,2007.
[12]Mouhammd A,Alaa F S,Hossam F.Prediction of PM10and TSP airpollution parametersusing artificial network autoregressive,external input model:a case syudy in Salt,Jordan[J].Middle?East Journal of Scientific Research,2013,14(7):999?1 009.
[13]Ana R,F(xiàn)rank R,Pedro G L.Air quality prediction using neural networks with stochastic variables[J]. Atmospheric Environment,2013(79):822?830.
Prediction of PM10Concentrations Based on LS?SVR,BP?ANN and MLR Models
FENG Xiao?xiu1,GAO Zhi?wen1,LI Feng?jun1,HU Xue?jiao2
1.School of Mathematics and Computer Science,Ningxia University,Yinchuan 750021,China
2.College of Environmental and Municipal Engineering,Xi’an University of Architecture and Technology,Xi’an 710055,China
Using ambient PM10concentrations and meteorological data of Ningdong Energy and Chemistry Industry Base,predicted PM10concentrations variation based on LS?SVR,BP?ANN and traditional MLR models,respectively.It was shown that the LS?SVR model could better depict the nonlinear dependency relationship between PM10concentrations and meteorological factors,more accurately predict PM10concentrations,comparing to BP?ANN and MLR.
LS?SVR;BP?ANN;MLR;PM10;prediction
X831.03
A
1002?6002(2014)06?0138?04
2013?11?20;
2014?04?14
國(guó)家自然科學(xué)基金資助項(xiàng)目(61063020,11261042)
馮曉秀(1990?),女,寧夏鹽池人,在讀碩士研究生.
李風(fēng)軍