化虎蝶,王晨祥
(大連海事大學環(huán)境科學與工程學院,遼寧 大連 116026)
近年來,隨著我國經濟的飛速發(fā)展,能源消耗量急劇增加,機動車保有量幅度大增,各種污染物濃度升高,細顆粒物和臭氧的污染加劇,空氣污染問題尤為突出??諝馕廴静粌H導致大氣能見度降低,空氣質量下降,影響人們的正常出行生活,更有研究表明[1],霧霾中的細顆粒物會增加呼吸系統(tǒng)、心血管系統(tǒng)以及肺癌等疾病的發(fā)病風險,威脅人類健康,空氣質量問題亟待解決。
解決空氣嚴重污染問題離不開空氣質量的有效預測,目前已有多種普遍采用的預測模型,但均存在一些缺陷或不足,如:灰色預測模型僅適用于中長期預測[2];時間序列預測模型過度突出時間因素在模型中的作用;城市空氣污染預報模式系統(tǒng)預報準確率低,僅為68%[3];人工神經網絡模型僅輸入輸出節(jié)點可見,中間節(jié)點是隱藏變量,且易發(fā)生數(shù)據(jù)的過擬合,白鶴鳴等基于BP神經網絡預測北京市空氣污染指數(shù),其預測精度秋季最高,為89%[4-5]。而貝葉斯網絡因其具有多源信息綜合表達、節(jié)點全部可見、雙向推理、可處理不完整數(shù)據(jù)、有效表達變量間的非線性關系等優(yōu)點,已成為處理不確定性問題的重要工具,廣泛應用于智能推理、診斷、決策、預測、風險分析等方面[6]。
大氣環(huán)境是一個多因素耦合狀態(tài)下的復雜系統(tǒng),充滿不確定性,將貝葉斯網絡引入大氣環(huán)境質量研究可以有效地處理其不確定性問題。目前國內外關于將貝葉斯網絡應用于空氣質量預測的研究尚處于探索階段[7-9]。鑒于此,本文利用大連市2014—2016年空氣質量指數(shù)(Air Quality Index,AQI)日均值及同期污染物(SO2、NO2、O3、CO、PM10、PM2.5)日均值數(shù)據(jù),利用貝葉斯網絡技術構建了反映各污染物與空氣質量級別之間因果關系及其相互影響的貝葉斯網絡模型,對大連市的空氣質量進行了預測與評價,以期提供更加準確、客觀的空氣質量信息,為改善和提高大連市的空氣質量提供一定的理論依據(jù)。
貝葉斯網絡(Bayesian Networks)最早在1988年由Judea Pearl提出,是一種基于概率論和圖論的不確定性推理網絡,是復雜聯(lián)合條件概率分布的圖形表達形式[10]。貝葉斯網絡是一個二元組S=
P(Bi|A)=P(Bi)P(A|Bi)∑ni=1P(Bi)P(A|Bi)
(1)
式中:事件B1,B2,…,Bn均為樣本空間Ω的劃分,兩兩互斥,且P(Bi)>0;P(Bi)為事件Bi發(fā)生的概率;P(A|Bi)為在已知事件Bi發(fā)生時,事件A發(fā)生的概率。
貝葉斯網絡的組成和構建分為三個步驟:①確定變量節(jié)點和變量域;②貝葉斯網絡學習,包括結構學習和參數(shù)學習,確定網絡拓撲圖和條件概率表;③貝葉斯網絡推理[12-13]。
我國目前采用空氣質量指數(shù)(AQI)來表征空氣質量狀況,對空氣污染的程度進行分級,提示對人體健康的影響,參評的污染物包括6種:二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)、可吸入顆粒物(PM10)、細顆粒物(PM2.5),根據(jù)6種參評污染物濃度計算得出空氣質量分指數(shù)(Individual Air Quality Index,IAQI),從中選取最大值為空氣質量指數(shù)AQI,取值的范圍為0~500。由于6種污染物來源廣泛、成分復雜[14],使空氣質量的預測充滿不確定性。
污染物是導致空氣質量下降的最直接原因,也是確定大氣環(huán)境質量等級的依據(jù),因此本文選取6種污染物為空氣質量預測模型的預測因子與AQI共7個隨機變量,并利用公式(2)計算各預測因子與AQI的互信息值(Mutual Information,MI)(見表1),度量預測因子與AQI間的依賴程度,互信息閾值設為0.01Bits[15-16]?;バ畔⒂嬎愎綖?/p>
MI(X,Y)=∑rii∑rjjp(xi,yj)logp(xi,yj)p(xi)p(yj)〗
(2)
式中:X、Y為隨機變量;ri、rj分別表示隨機變量X、Y的取值個數(shù);xi、yj分別表示隨機變量X、Y取第i、j個的屬性值;p(xi、yj)為X、Y狀態(tài)分別為xi、yj時的概率;p(xi)、p(yj)分別表示X、Y狀態(tài)分別為xi、yj時的概率。
表1 預測因子與AQI間的互信息值
由表1可見,各變量的互信息值均大于0.01Bits,表明選取的各變量作為大連市空氣質量主要預測因子是恰當、合理的。
貝葉斯網絡方法與其他許多機器學習算法、分類算法一樣需要處理樣本數(shù)據(jù)的離散屬性,故需要對樣本數(shù)據(jù)進行離散化處理,本文對樣本數(shù)據(jù)的離散化處理主要依據(jù)《環(huán)境空氣質量標準》(GB 3095—2012標準)、專家知識等,各變量離散化后的標準屬性值見表2。
表2 空氣質量預測因子離散化后的標準屬性值
將各變量劃分為4個等級,分別為1級、2級、3級、4級,其中AQI對應的4個等級分別表示空氣質量清潔、優(yōu)良、污染和重污染。
本文以收集到的大連市2014—2016年的空氣質量相關數(shù)據(jù)為樣本數(shù)據(jù),本著若觀測數(shù)據(jù)中一個值缺失,則取前后兩個數(shù)據(jù)的平均值,連續(xù)三個數(shù)據(jù)缺失,則將其剔除的原則,對數(shù)據(jù)進行清洗后,得到可用數(shù)據(jù)為1 096組??倲?shù)據(jù)包括訓練數(shù)據(jù)和驗證數(shù)據(jù)兩部分,其中訓練數(shù)據(jù)用于構造貝葉斯網絡模型,驗證數(shù)據(jù)用于模型驗證,同時對2017年5月1日至15日大連市的空氣質量進行了預測與分析。
將貝葉斯網絡工具箱(Bayes Net Toolbox,BNT)[17]導入MATLAB軟件進行貝葉斯網絡模型的構建和推理,確定變量節(jié)點與變量域后,選擇1992年Cooper等提出的基于貝葉斯評分與爬山搜索的K2算法[18]學習網絡結構,這是一個結構優(yōu)化的過程,即利用評分函數(shù)找到與已有數(shù)據(jù)匹配程度最高的結構。該算法要求給定節(jié)點順序,利用貝葉斯評分評價模型與數(shù)據(jù)的匹配度,進而通過爬山搜索找到最佳網絡結構,節(jié)點順序由前文計算的互信息值確定。然而完全依賴數(shù)據(jù)構建網絡結構不是很可靠[19],故還需要結合專家知識對網絡結構進行調整。
由于搜索評分算法本身的弱點,使用K2算法從數(shù)據(jù)中學習網絡結構后,變量節(jié)點間可能存在多邊、少邊、或者弧方向的錯誤[20],故結合專家知識并查閱相關研究后,對仿真出的網絡結構進行了適當調整。鑒于BNT可視化能力的限制,本文在MATLAB軟件中仿真出網絡結構后,結合微軟貝葉斯網絡工具箱繪出網絡結構并進行推理,得到貝葉斯網絡結構,見圖1。
圖1 貝葉斯網絡結構Fig.1 Bayesian Network structure
由圖1網絡結構中有向邊的指向關系可知,預測因子間存在著直接或間接的因果影響關系, 例如對于預測因子中的O3,SO2和NO2對其均有直接影響,而其又直接影響AQI;對于網絡結構中目標節(jié)點AQI,直接對其產生因果影響的預測因子為O3、PM10、PM2.5,而SO2等其他3個預測因子與AQI間存在間接的因果關系。
貝葉斯網絡結構構建完成后,需要選擇合適的參數(shù)學習算法從數(shù)據(jù)中挖掘每個變量的條件概率分布。由于網絡結構中所有變量均可以觀察且數(shù)據(jù)完整,故選用最大后驗算法(Maximum A Posteriori,MAP)計算變量的先驗概率及條件概率[21]。本文充分利用貝葉斯網絡的雙向推理能力,選擇聯(lián)合樹推理算法[22-23]進行推理,一方面用因果推理驗證模型的有效性和預測準確性,另一方面用診斷推理分析預測因子在不同的空氣質量級別下發(fā)生的概率,并分析大連市空氣污染的主要貢獻者。
首先從總體樣本中隨機選取986組數(shù)據(jù),運用MAP法對大連市空氣質量進行貝葉斯網絡參數(shù)學習,完成貝葉斯網絡預測模型的構建,并用未參與訓練的110組數(shù)據(jù)驗證模型的有效性;同時,由于大連市AQI以及6種污染物具有顯著的四季變化特征,故對春(3~5月)、夏(6~8月)、秋(9~11月)、冬(12~次年2月)四季分別建立了貝葉斯網絡預測模型,為了使預測模型具有良好的合理性和代表性,訓練數(shù)據(jù)采用從各季節(jié)的數(shù)據(jù)集中隨機選取的方法,春、夏、秋、冬四季分別選取248組、248組、246組、244組訓練數(shù)據(jù),28組、28組、27組、27組測試數(shù)據(jù);最后運用貝葉斯網絡的診斷推理功能,分析在不同的空氣質量級別下6種污染物發(fā)生的概率,從概率的角度解釋污染物在不同的空氣質量級別下發(fā)生的概率,并確定大連市空氣污染的主要貢獻者。
根據(jù)建立的貝葉斯網絡預測模型,利用未參與訓練的測試數(shù)據(jù)進行驗證,若驗證值與監(jiān)測值處于同一等級,則認為模型具有有效性。利用建立的貝葉斯網絡模型對大連市全年和春、夏、秋、冬四季的空氣質量進行了驗證,其驗證結果見圖2和圖3。
由圖2可見,大連市全年驗證組數(shù)據(jù)85%以上的驗證值與監(jiān)測值處于同一等級,即驗證準確;統(tǒng)計失真的12組數(shù)據(jù)發(fā)現(xiàn),驗證值與監(jiān)測值差值均為1級,說明得出的驗證值較監(jiān)測值偏差不大。
圖2 利用貝葉斯網絡模型對大連市全年的空氣質量驗證結果Fig.2 Validation results of Bayesian Network model for the annual air quality of Dalian City
圖3 利用貝葉斯網絡模型對大連市四季的空氣質量驗證結果Fig.3 Validation results of Bayesian Network model for seasonal air quality of Dalian City
由圖3可見,整體上大連市春、夏、秋、冬四季驗證組數(shù)據(jù)85%以上的驗證值與監(jiān)測值處于同一等級,即驗證準確;統(tǒng)計失真組數(shù)據(jù)發(fā)現(xiàn),春、夏、秋季驗證值與監(jiān)測值的差值均為1級,冬季最大差值出現(xiàn)2級,說明冬季模型的預測精度較低。
本文將貝葉斯網絡模型對大連市春、夏、秋、冬四季和全年空氣質量的預測結果與模糊綜合評價法的預測結果進行了對比,并分析了兩種方法的預測精度,詳見表3。
表3 兩種方法預測精度對比(%)
由表3可見,貝葉斯網絡模型對大連市春、夏、秋、冬四季和全年空氣質量的預測精度分別為89.29%、92.86%、88.89%、85.19%、89.09%,均高于模糊綜合評價法;冬季的預測精度為85.19%,低于全年的預測精度89.09%。分析影響貝葉斯網絡模型預測精度的因素主要有離散區(qū)間劃分、訓練數(shù)據(jù)量的限制等。此外,大連市秋冬季節(jié)燃煤供暖,造成空氣污染嚴重,空氣質量級別變化大,也是冬季貝葉斯網絡模型的預測精度在四季中最低的原因;同時由于大連市的降水60%~70%均發(fā)生在夏季,故夏季構建的貝葉斯網絡最具有代表性,其模型預測精度在四季中也最高。
本文利用構建的貝葉斯網絡模型對大連市2017年5月1日至15日的空氣質量進行了預測,即通過輸入數(shù)據(jù),更新條件概率,得出AQI的后驗概率,并按照概率取最大值的原則將概率值轉換為對應的空氣污染級別,從而得到了預測結果。本文將貝葉斯網絡模型的預測結果與模糊綜合評價法的評價結果和官方的監(jiān)測值進行了對比,詳見表4。
表4 貝葉斯網絡模型與模糊綜合評價法預測結果的比較
由表4可見,貝葉斯網絡模型的預測結果優(yōu)于模糊綜合評價法,兩者預測精度分別為86.67%、66.67%;貝葉斯網絡模型預測失真組的預測值與監(jiān)測值的差值均為1級,而模糊綜合評價法預測失真組的預測值與監(jiān)測值的差值差別較大,且基本發(fā)生于極端天氣,而貝葉斯網絡模型基本不受極端天氣的影響。整體上表明貝葉斯網絡模型對大連市空氣質量的預測具有良好的泛化能力和預測精度。
本文在建好的貝葉斯網絡模型中,通過貝葉斯網絡的診斷推理功能分析了大連市空氣質量處于不同級別時各污染物發(fā)生的概率,其結果見圖4。
圖4 大連市各污染物發(fā)生的概率與空氣質量級別的 因果關系圖Fig.4 Probability chart of the pollutants with different air quality levels in Dalian City
由圖4可見,當空氣質量為污染等級時,處于前三位的概率為0.732 9>0.683 3>0.656 5,對應的污染物分別為O3、PM2.5、PM10,即空氣處于污染等級時,三者中O3發(fā)生的概率最大,PM2.5次之,PM10發(fā)生的概率最小;當大連市空氣質量為重污染等級時,處于前三位的概率為0.748 2>0.728 7>0.724 9,對應的污染物分別為PM2.5、O3、PM10,即空氣處于重污染等級時,三者中PM2.5發(fā)生的概率最大,O3次之,PM10發(fā)生的概率最小。由此說明PM2.5和O3是大連市空氣污染的主要貢獻者。
(1) 本文針對大連市空氣質量建立了四季和全年的貝葉斯網絡預測模型,并利用貝葉斯網絡的因果推理功能對建立的貝葉斯網絡模型進行了驗證,結果表明:貝葉斯網絡模型對大連市四季和全年空氣質量的預測精度均高于85%,說明該模型能從概率的角度較好地描述空氣質量與各污染物間的非線性關系,故將貝葉斯網絡應用于空氣質量預測是可行的。
(2) 本文利用建立的貝葉斯網絡模型預測了大連市2017年5月1日至15日的空氣質量,并與模糊綜合評價法的預測結果進行了對比,結果表明:貝葉斯網絡模型的預測精度更高,且模型預測失真組的誤差較小,模型的預測結果基本不受極端天氣的影響。
(3) 本文利用貝葉斯網絡的診斷推理功能分析了造成大連市空氣質量下降的主要污染物,從概率的角度得出PM2.5和O3是大連市空氣污染的主要貢獻者。而燃煤、汽車尾氣以及工業(yè)排放等是大連市大氣污染物的主要排放源,污染源排放出顆粒物等一次污染物的同時還會生成一些細顆粒物、臭氧等二次污染物。故建議大連市應加強空氣質量的監(jiān)測,建立更全面的空氣污染預警預報機制,同時準確查明主要污染物來源,強化污染物排放管控,以提高空氣質量。
(4) 本文將貝葉斯網絡引入到城市空氣質量預測研究中,利用數(shù)據(jù)樣本構建網絡結構,使推理結果更加準確,目前還未見有相關文獻,故本文尚屬于探索性研究。但由于受數(shù)據(jù)樣本的限制等,本文只選取了6種污染物作為預測因子,在今后的研究中還需要進一步考慮氣象因子、區(qū)域環(huán)境因子等對城市空氣質量的影響。另外,本文利用貝葉斯網絡模型只是對空氣質量等級做出預測,并未預測出空氣質量指數(shù),從而影響了模型的預測精度,且導致模型應用存在一定的局限性,這將是今后需要進一步研究的方向。
[1] 闞海東.霧霾天氣下的細顆粒物污染和居民健康[J].中華預防醫(yī)學雜志,2013,47(6):491-493.
[2] 陶興煥,陳志德.灰色理論模型在環(huán)境空氣質量預測中的應用[J].環(huán)境,2013(S1):45,51.
[3] 朱玉強.幾種空氣質量預報方法的預報效果對比分析[J].氣象,2004,30(10):30-33.
[4] 白鶴鳴,沈潤平,師華定,等.基于BP神經網絡的空氣污染指數(shù)預測模型研究[J].環(huán)境科學與技術,2013(3):186-189.
[5] 張茹,張學楊,陸洪光,等.基于層次分析和主成分分析的城市空氣質量評價——以徐州市為例[J].安全與環(huán)境工程,2017,24(3):103-107.
[6] Jensen F V.IntroductiontoBayesianNetworks[M].Berlin:Springer,1996.
[7] 王勤耕,夏思佳,萬祎雪,等.當前城市空氣污染預報方法存在的問題及新思路[J].環(huán)境科學與技術,2009,32(3):189-192.
[8] 劉志龍,諸雪征,梁婷,等.基于貝葉斯網絡的大氣環(huán)境質量評價模型研究[C]//全國風與大氣環(huán)境學術會議論文集.北京:中國氣象學會,2008:486-491.
[9] 夏思佳.中小城市空氣質量概率預報方法研究[D].南京:南京大學,2010.
[10]張連文,郭海鵬.貝葉斯網引論[M].北京:科學出版社,2006:31-44.
[11]Marchette D J.Bayesian networks and decision graphs[J].Technometrics,2003,45(2):178-179.
[12]易玉枚,廖可兵,易燦南.基于BN的模糊系統(tǒng)事故風險管理輔助分析[J].安全與環(huán)境工程,2015,22(3):105-110.
[13]Darwiche A.Bayesian networks[J].CommunicationsoftheACM,2010,53(12):80-90.
[14]郝津川,李偉.大氣PM2.5的污染特征及防控治理[C]//2014中國環(huán)境科學學會學術年會.成都:中國環(huán)境科學學會,2014:1-5.
[15]Viola P A,Wells Iii W M.Alignment by maximization of mutual information[J].InternationalJournalofComputerVision,1997,24(2):137-154.
[16]金焱,胡云安,張瑾,等.互信息與爬山法相結合的貝葉斯網絡結構學習[J].計算機應用與軟件,2012,29(9):122-125.
[17]Murphy K P.The Bayes Net Toolbox for Matlab[J].ComputingScience&Statistics,2001,33:2-8.
[18]Cooper G F,Herskovits E.A Bayesian method for the induction of probabilistic networks from data[J].MachineLearning,1992,9(4):309-347.
[19]黃影平.貝葉斯網絡發(fā)展及其應用綜述[J].北京理工大學學報,2013,33(12):1211-1219.
[20]Heckerman D,Dan G,Chickering D M.Learning Bayesian networks:the combination of knowledge and statistical data[J].MachineLearning,1995,20(3):197-243.
[21]Sun X,Druzdzel M J,Yuan C.Dynamic weighting A* search-based MAP algorithm for Bayesian networks[C]//Proceedingsofthe20thInternationalJointConferenceonArtificialIntelligence.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,2007:2385-2390.
[22]Pearl J.Non-bayesian Formalisms for Managing Uncertainty—Probabilistic Reasoning in Intelligent Systems[M]//Pearl J.ProbabilisticReasoninginIntelligentSystems:NetworksofPlausibleInference.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1988:415-466.
[23]Kahle D,Savitsky T,Schnelle S.Junction tree algorithm[EB/OL].(2008-09-09)[2017-07-17].https://www.cs.helsinki.fi/u/bmmalone/probabilistic-models-spring-2014/JunctionTreeKahle.pdf.