張惠儀
摘 要:隨著我國經(jīng)濟的發(fā)展,污染越來越嚴重,開展空氣質(zhì)量檢測很有必要。為了尋找一種預(yù)報方法對空氣污染進行實時的監(jiān)督和預(yù)報,以廣州市4年的空氣污染指數(shù)(API)和相對應(yīng)的逐日氣象數(shù)據(jù)資料為基礎(chǔ),進行空氣質(zhì)量的研究。鑒于不同季節(jié)API值的變化有所差別這一原因,分別建立逐步回歸分析模型和BP神經(jīng)網(wǎng)絡(luò)模型對廣州四季的API值進行預(yù)測。通過比較兩種模型的均方百分比誤差和預(yù)報準確率,發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)的預(yù)報效果優(yōu)于逐步回歸分析。
關(guān)鍵詞:空氣污染指數(shù);逐步回歸分析;BP神經(jīng)網(wǎng)絡(luò);預(yù)報準確率
中圖分類號:X831 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.21.029
空氣對人們的身體健康起著直接的作用,而空氣環(huán)境質(zhì)量間接影響著人們的生活質(zhì)量。空氣環(huán)境質(zhì)量通常采用空氣污染指數(shù)(Air Pollution Index,簡稱“API”)這一指標對空氣質(zhì)量進行評估??諝馕廴绢A(yù)報是在未來的空氣質(zhì)量狀況不明確的情況下對其作出的預(yù)測,正如天氣預(yù)報一樣。很早之前,其他國家已經(jīng)開展了空氣污染預(yù)報工作,比如加拿大、美國、英國等。
近幾年,國內(nèi)外的許多學(xué)者對此作了很多學(xué)術(shù)研究并取得一定的預(yù)報效果。比如Boznar M等在1993年提出利用人工神經(jīng)網(wǎng)絡(luò)方法對紹什塔尼最大熱電廠周圍的污染物SO2濃度進行預(yù)測;荷蘭的Var Der Wal利用主成分分析法與時間序列分析法對PM10的濃度變化進行預(yù)測;王寧等通過分析API與各種氣象因子之間的關(guān)系,找出影響總懸浮顆粒物擴散的因子并給予相應(yīng)的權(quán)值,于是得出相應(yīng)的判定準則對空氣質(zhì)量等級進行預(yù)報;董亞龍等通過對銅川市區(qū)、新區(qū)的3種污染物進行CAPPS模式預(yù)報,得出不同污染物的預(yù)測準確率存在較大的區(qū)別,不同季節(jié)的預(yù)測準確率也各不相同。其中,PM10>SO2>NO2。
然而在此之前,這種方法還沒有被提出并應(yīng)用于大氣污染預(yù)報。在過去大氣污染預(yù)測領(lǐng)域的應(yīng)用中,往往選取大氣污染物的濃度作為預(yù)測因子進行預(yù)測。鑒于大氣污染物存在一定的不可預(yù)測性,本文不同于之前的大氣污染預(yù)測主要表現(xiàn)為:針對目前天氣預(yù)報的精確度越來越高這一特點,嘗試選取氣象因子作為API的預(yù)測,并且建立逐步回歸分析和BP神經(jīng)網(wǎng)絡(luò)兩種預(yù)測模型。通過對這兩種模型的預(yù)報效果進行分析比較,尋找一種有效的預(yù)報方法。
1 相關(guān)理論
1.1 逐步回歸分析
逐步回歸的主要工作是根據(jù)全部自變量中按其對y的顯著程度來提取變量,剔除對因變量顯著程度小的變量,剩余的逐
步引入回歸方程,其目的是建立“最優(yōu)”回歸方程。逐步回歸分析的實施過程由以下步驟完成:①計算每一步引入的變量的偏回歸平方和。②取使得偏回歸平方和最小的變量并對其進行顯著性檢驗。如果在預(yù)先設(shè)定的水平下顯著相關(guān),則不剔除該變量,當然回歸方程的其他變量也會被保留下來;反之,則需要把該變量剔除。③需要按照偏回歸平方和從小到大依次檢驗回歸方程的其他變量??傊?,被保留的都是顯著的。④要分別對第2步和第3步中未被引入到回歸方程的變量計算偏回歸平方和,選取使得其最大的變量并對其再次進行顯著性檢驗。在第2步設(shè)定的水平下,如果不顯著,則不剔除該變量,而是將它引入回歸方程。⑤循環(huán)第2,3,4步,直至既不產(chǎn)生新變量,又無變量被剔除則結(jié)束。
1.2 BP神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)(Neural Network)一般也被稱為人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),是科學(xué)家們從生物學(xué)和信息處理的角度出發(fā),通過借助數(shù)學(xué)和物理的方法對人腦神經(jīng)網(wǎng)絡(luò)進行抽象后建立的簡化模型。在此之前,他們不僅在對人腦的結(jié)構(gòu)、組成和基本工作單元方面取得了深刻的認識,還對生物的神經(jīng)元、神經(jīng)系統(tǒng)等研究方面也有了突破性的進展。BP神經(jīng)網(wǎng)絡(luò)的算法流程為:①初始化網(wǎng)絡(luò)權(quán)重,設(shè)定誤差函數(shù)、計算精度值及最大學(xué)習(xí)次數(shù);②向前傳播輸入(前饋型網(wǎng)絡(luò));③反向誤差傳播;④網(wǎng)絡(luò)權(quán)重與神經(jīng)元偏置調(diào)整;⑤判斷結(jié)束。算法結(jié)束的條件是學(xué)習(xí)次數(shù)大于設(shè)定值或者誤差滿足預(yù)設(shè)精度。如果條件不成立,則進入下一輪學(xué)習(xí)。
2 廣州市空氣質(zhì)量特征分析
本文綜合運用了生態(tài)環(huán)境學(xué)、大氣污染學(xué)、數(shù)學(xué)、統(tǒng)計學(xué)等學(xué)科原理,重點分析了廣州2008—2012年這4年逐日的API值的資料以及同期的氣象因子監(jiān)測資料。以空氣污染指數(shù)為數(shù)據(jù)基礎(chǔ),初步分析了廣州的環(huán)境空氣質(zhì)量及空氣污染特征;同時利用API數(shù)據(jù)以及同期的氣象因子數(shù)據(jù)資料進行相關(guān)性分析,確定影響API的氣象因子。
2.1 廣州市空氣質(zhì)量統(tǒng)計分析
選取廣州市2009—2011年API值及相應(yīng)的空氣質(zhì)量等級數(shù)據(jù)進行基本的統(tǒng)計分析。圖1為廣州市各月份良好天數(shù)分布。
由圖1知,1月到5月份處于增長狀態(tài),5月到10月處于基本的穩(wěn)定狀態(tài),到11,12月份出現(xiàn)明顯降低的情況。
圖2為廣州市分季節(jié)污染天數(shù)分布。由圖2可知,2009—2011年廣州市夏季的污染天數(shù)最少,證明該地區(qū)夏季的空氣質(zhì)量較優(yōu),冬季的空氣質(zhì)量明顯較差。不同的季節(jié)氣候?qū)е虏煌目諝赓|(zhì)量,為了更好地對廣州市空氣污染指數(shù)進行預(yù)報,在第4部分將對廣州市分季節(jié)建立預(yù)報模型。
2.2 氣象因子的相關(guān)性分析
上述已經(jīng)對廣州市2008-04-01—2012-03-31的空氣質(zhì)量分季節(jié)進行了統(tǒng)計分析,發(fā)現(xiàn)不同季節(jié)的空氣質(zhì)量有很大的差別。本文收集了廣州市4年的氣象數(shù)據(jù),共有17個氣象因子。表1為廣州市各氣象因子符號及意義。
雖然17個氣象因子代表不同的信息,但是并不是所有的氣象因子都對API值的預(yù)測有意義。反而如果將不起作用的因子拿來預(yù)測API,會影響預(yù)報準確率。于是為了更好地預(yù)測API值,本節(jié)針對氣象特點,采用軟件SPSS對API值與各氣象因子進行相關(guān)性分析,尋找API與各氣象因子的聯(lián)系。在這里,通過計算Pearson相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)來描述API與各個氣象因子的線性相關(guān)程度。表2為廣州市四季與API顯著相關(guān)的氣象因子。
3 逐步回歸和BP神經(jīng)網(wǎng)絡(luò)模型預(yù)報API
本部分采用逐步回歸分析方法和BP神經(jīng)網(wǎng)絡(luò)對API值進行分季節(jié)預(yù)報??紤]到篇幅,下面只對夏季分別建立兩種模型及檢驗。其他三個季節(jié)的模型建立與夏季一樣。
3.1 數(shù)據(jù)的準備及預(yù)處理
建立模型的數(shù)據(jù)庫包括2008-04-01—2012-03-31廣州市17個氣象因子值和API值,分春、夏、秋、冬季節(jié)建立4個數(shù)據(jù)集。將空值和缺失值刪除后,廣州市春、夏、秋、冬四季樣本個數(shù)分別為360,354,356,361,其中,測試樣本春季60個,夏季54個,秋季56個,冬季61個,其余作為訓(xùn)練樣本。另外,為了將氣象因子數(shù)據(jù)去掉量綱的影響,把17個氣象因子數(shù)據(jù)歸一化。
3.2 逐步回歸模型的建立及檢驗
3.2.1 逐步回歸模型的建立
本部分利用SPSS軟件對廣州市的17個氣象因子和API值進行逐步回歸分析,得出廣州市春、夏、秋、冬四季相關(guān)性較大的氣象因子。其中,與夏季相關(guān)的因子有7個,分別是x1,x6,x8,x9,x10,x11,x14.
對夏季的數(shù)據(jù)建立多元回歸模型如下:
最后,為了比較實際值與預(yù)測值之間的精確誤差,采用兩種評價指標,即平均絕對百分比誤差( )和均方百分比誤差( )以及預(yù)報準確率。
其中,平均絕對百分比誤差為:
均方百分比誤差為:
API值預(yù)報的準確率為:
式(4)中:yi和 分別為實際值和預(yù)測值;n為測試樣本的個數(shù)。
3.2.2 夏季逐步回歸模型預(yù)報結(jié)果分析
圖3和圖4分別為夏季API擬合曲線和夏季API預(yù)測誤差曲線。
由表3可以看出,逐步回歸預(yù)報夏季API值的準確率高達85%以上,由于夏季的測試樣本API值波動小,逐步回歸預(yù)報對平穩(wěn)數(shù)據(jù)的預(yù)測較好。
3.3 BP神經(jīng)網(wǎng)絡(luò)模型的建立及檢驗
3.3.1 神經(jīng)網(wǎng)絡(luò)的設(shè)計
BP神經(jīng)網(wǎng)絡(luò)是否能有效、便捷地逼近非線性函數(shù),關(guān)鍵由網(wǎng)絡(luò)的結(jié)構(gòu)、初始值的選取以及網(wǎng)絡(luò)參數(shù)3部分決定。由于初始值包括初始權(quán)值和初始閾值,它們的選取都是隨機的,不能控制。所以在使用BP神經(jīng)網(wǎng)絡(luò)時,只有調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),確定網(wǎng)絡(luò)參數(shù),才能提高訓(xùn)練精度。表4為預(yù)測API神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
本文采用傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)方法預(yù)測廣州市四季的API值,將廣州市1 200 d的氣象數(shù)據(jù)作為網(wǎng)絡(luò)的輸入數(shù)據(jù)導(dǎo)入。同時進行了誤差檢驗,用Matlab軟件繪制了預(yù)測值與實際值的擬合曲線和誤差曲線。預(yù)測結(jié)果如圖5和圖6所示。
由圖5和圖6可以看出,對夏季54個樣本數(shù)據(jù)的BP網(wǎng)絡(luò)預(yù)測值與API實際值的擬合度很高,大體趨勢擬合較準確,只有個別樣本的預(yù)測值與實際值的誤差較大。該季節(jié)預(yù)測樣本數(shù)據(jù)的實際API值極差較小,這是BP模型效果較好的一個原因。預(yù)測值與實際值的誤差在[-10,10]之間不斷波動,波動較小。
從定量的角度去分析與預(yù)測模型的準確率如表5所示。
由表5可以直觀地看出,夏季模型預(yù)報準確率達到88%左右,平均絕對百分比誤差低于13%,均方百分比誤差也在3%以下,預(yù)報效果較好。由第3部分相關(guān)性分析中可以發(fā)現(xiàn)夏季的特征因子有7個,而且與API的相關(guān)性都較強,BP網(wǎng)絡(luò)模型效果佳。
4 結(jié)論
本文采用逐步回歸分析和BP神經(jīng)網(wǎng)絡(luò)對廣州市夏季的API值進行預(yù)測的結(jié)果都比較理想,MAPEA的值控制在12%左右,MSPE的值控制在3%以下,預(yù)報的正確率較高。但總體來說,與逐步回歸分析預(yù)測API值對比,神經(jīng)網(wǎng)絡(luò)的效果明顯比較好。
參考文獻
[1]白鶴鳴,沈潤平,師華定,等.基于BP神經(jīng)網(wǎng)絡(luò)的空氣污染指數(shù)預(yù)測模型研究[J].環(huán)境科學(xué)與技術(shù),2013(03):186-189.
[2]Boznar M,lesjak M,Mlakar P.A neural network-based method for the short-term Predictions of ambient S02 concentrations in highly Polluted industrial areas of complex terrain.Atmospheric Env -ironment Part B Urban Atmosphere,1993,27(2):221-230.
[3]Van Der Wal,J.T.How contribute emission of PM10 and meteorology to concentrations of fine particles in the Netherlands.Aerosol Seienee,1996,27(27):681-682.
[4]王寧,王新國,胡中明,等.利用氣象參數(shù)制作空氣污染潛勢預(yù)報的方法研究[J].吉林氣象,2001(01):15-18.
[5]董亞龍,吳寧.CAPPS模式在銅川空氣質(zhì)量預(yù)報中的效果檢驗[J].陜西氣象,2004(05):13-16.
[6]康劍,艾靜.回歸分析法在衛(wèi)寧平原地下水脆弱性研究中的應(yīng)用[J].中國水運(下半月),2014,14(3):230-231,266.
[7]劉天舒.BP神經(jīng)網(wǎng)絡(luò)的改進研究及應(yīng)用[D].哈爾濱:東北農(nóng)業(yè)大學(xué),2011.
[8]王頂.大慶市PM_(10)污染預(yù)測的研究[D].成都:西南交通大學(xué),2011.
[9]覃登攀.基于遺傳算法和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的南寧市空氣質(zhì)量預(yù)報研究[D].南寧:廣西大學(xué),2008.
〔編輯:劉曉芳〕