盛凱 張平華
【摘 要】要想確保預測模型有良好的擬合效果,必須要構建多元回歸模型以及機器學習預測模型,以此預測PM2.5質(zhì)量濃度。本文在介紹改善輸入因子的基礎上,分別介紹了多元線性回歸預測模型和機器學習算法預測模型,希望可以為有需要的人提供參考意見。
【關鍵詞】氣象因素;PM2.5;質(zhì)量濃度預測模型
中圖分類號: X513 文獻標識碼: A 文章編號: 2095-2457(2019)05-0146-002
通常,影響環(huán)境空氣質(zhì)量的重要大氣污染物是大氣細顆粒物PM2.5,正確預測其質(zhì)量濃度具有重要的意義。采用氣象參數(shù)以及其他因素輸入預測PM2.5質(zhì)量濃度時,最主要的方法有兩種,分別是多元回歸預測模型和機器學習預測模型,這兩種模型都可以科學合理的預測PM2.5質(zhì)量濃度,所以普遍應用于各個城市的環(huán)境保護監(jiān)測中心,對我們了解空氣質(zhì)量做出很大的貢獻。
1 改善輸入因子
為了確保預測結果是準確,應當在輸入氣象因素的基礎上講不同類型的變量融入進去,而這些變量主要包括周期因素和污染物質(zhì)量濃度基礎值。周期因素,就是考慮人為因素和自然因素考慮污染物的周期變動影響,融入日變量、月變量以及季節(jié)變量。污染物質(zhì)量濃度基礎值,也就是前一天6個污染物的質(zhì)量濃度日均值。[1]這種因素考慮到各種氣象條件下,前一天氣態(tài)污染物和顆粒物的轉化情況,很有可能影響PM2.5質(zhì)量濃度,其最終取值是此監(jiān)測點位置的質(zhì)量濃度24小時日均值。其中,就季節(jié)變量來講,各個季節(jié)污染物是不同的,所以其變化規(guī)律也是不同。結合某市2018年實際的氣候特點可以將季節(jié)變量劃分成春夏秋冬四個階段內(nèi)。結合某市環(huán)境保護監(jiān)測中心發(fā)布的12個區(qū)域監(jiān)測點1個小時平均PM2.5質(zhì)量濃度,經(jīng)過換算后得出季節(jié)平均值,并且將其歸一化。這里的假定該取值也可以在將來幾年來使用,也就是說加入將來幾年來季節(jié)變化對污染物變化造成的影響趨勢是不發(fā)生改變的。在季節(jié)變量的前提下月變量考到各個月份的氣候特點很有可能或多或少的影響人為污染源,所以可以將每年的3月到8月劃分成冷暖季。
2 構建基于氣象因素的 PM2.5質(zhì)量濃度預測模型
2.1 多元線性回歸預測模型
多元線性回歸模型側重于研究單一的因變量和多自變量之間的線性關系。本次研究采用SPSS Statistics 20 逐步回歸的方式,建成多元線性回歸模型:Y=bo+∑biXi+ε,常數(shù)項是bo,回歸系數(shù)是bi,回歸誤差是ε。運用最小二乘法求出回歸系數(shù)與常數(shù)項。逐步回歸法利用對偏有關系數(shù)最大的變量作為回歸系數(shù)明顯性檢驗,由此鑒定其是否都已經(jīng)進入回歸方程。首先的選擇對預測值做出最大貢獻且與判定條件相符合的變量剔除。根據(jù)這個過程重復,一直到?jīng)]有任何的變量被引入。該處必須要構建基于兩種類型輸入因子的MLR預測模型。第一,以氣象因素為基礎的MLR傳統(tǒng)預測模型;第二,以污染物質(zhì)量濃度基礎值、周期因素已經(jīng)氣象因素為基礎的MLR綜合預測模型。
相對于傳統(tǒng)的僅僅考慮氣象因素的預測模型而言,經(jīng)過逐步回歸總共有氣象因素10個,輸入MLR綜合預測模型,同時也會改變輸入模型的氣象因素,之所以存在該情況關鍵在于但兩個或者兩個的預測輸入變量之間發(fā)生線性有關關系,這樣就會導致使用最小二乘法預測的模型參數(shù)穩(wěn)定性較差,為了確保自變量具有一定的獨立性。[2]但提高模型變量時,需要通過多重共線性將具備相關關系的自變量剔除,所以造成該模型中的系數(shù)或者變量出現(xiàn)重大的改變。而最大風速依舊是影響PM2.5質(zhì)量濃度的關鍵因素,次要因素是日最高氣溫、平均相對濕度等等。
加強PM2.5效應的影響因素主要有降雨量、SO2基礎值以及CO基礎值等等,而去除PM2.5效應的影響因素主要有平均水汽壓、日最低氣壓、日照時間、最大風速以及小型蒸發(fā)量等等。在模型中平均風速與降雨量都沒有充分體現(xiàn)在PM2.5在傳統(tǒng)意義上所提到的去除效應,其與使用兩者的日均值當做預測輸入有密切關系。[4]大量的研究結果表明,盡管降雨過程可以顯著的去除PM2.5,但是由于降雨前后空氣相對濕度較高,很有可能導致擴散條件惡劣,造成PM2.5質(zhì)量濃度在短時間內(nèi)驟然增加,所以短時間的降雨往往不會使PM2.5質(zhì)量濃度值下降,反而會增加。風速去除PM2.5效應具體表現(xiàn)在最大風速,也就是每天去除PM2.5效應的主要風速因素是最大風速。就影響較為嚴重的幾個因素來講,都包括平均相對濕度以及最大風速,表示這兩個氣象因素都可以將PM2.5效應去除。本次研究所引用的輸入因子進到MLR綜合預測模型后,其污染物質(zhì)量濃度基礎值分別是SO2、CO等等,周期因素分別有月變量以及日變量,表示其也直接影響PM2.5質(zhì)量濃度。
2.2 機器學習算法預測模型
采用機器學習算法,可以對輸入變量進行自動分析,而且得出規(guī)律,再按照規(guī)律預測輸出。為了對各種算法的預測效果進行比較,可以通過支持向量機和BP神經(jīng)系統(tǒng)進行預測,這兩種都是機器學習算法。首先,支持向量機的網(wǎng)絡結構在形式方面類似于神經(jīng)網(wǎng)絡,但是區(qū)別在于其是基于優(yōu)化技術和數(shù)學方式,這種方式的主要理論是統(tǒng)計學理論,以找到最小的結構風險來加強學習防滑能力,從而實現(xiàn)最小化的經(jīng)驗風險。其次,BP神經(jīng)網(wǎng)絡,這是一種反向傳播算法,主要是由輸出層、輸入層以及隱含層三部分組成,這種方式通常缺乏科學的理論引導,其預測結果主要依靠使用人員的方法所獲得,所以經(jīng)常存在泛化能力不高以及過擬合等情況。根據(jù)各種算法的基本原理,其預測輸入選擇污染物濃度基礎值等其他數(shù)據(jù),建模時使用MATLAB R2011b。
3 結語
總而言之,本次研究通過構建不同的預測模型,比較和預測PM2.5質(zhì)量濃度,得出以下這些結論:第一,預測模型影響PM2.5質(zhì)量濃度預測結果,基礎是18個氣象因素,而且引進污染物質(zhì)質(zhì)量濃度基礎值6個、周期因素3個當做輸入因子來預測,這樣能夠?qū)M2.5質(zhì)量濃度日變化反映出來;第二,與多元回歸建模預測相比之下,機器學習算法建模的預測結果更加準確,其可以迅速地找到每個輸入因子和PM2.5質(zhì)量濃度之間的非線性影響規(guī)模。
【參考文獻】
[1]王珍珍,孫麗,李志文,馬澤源.2016年南昌市PM_(10)和PM_(2.5)質(zhì)量濃度變化研究[J].內(nèi)蒙古師范大學學報(自然科學漢文版),2019,48(01):34-39.
[2]盧文,王紅磊,朱彬,施雙雙,康暉.南京江北2014~2016年PM2.5質(zhì)量濃度分布特征及氣象和傳輸影響因素分析[J/OL].環(huán)境科學學報:1-10[2019-03-07].https://doi.org/10.13671/j.hjkxxb.2018.0439.
[3]張亮林,潘竟虎,賴建波,魏石梅,王云,張大弘.基于GWR降尺度的京津冀地區(qū)PM2.5質(zhì)量濃度空間分布估算[J/OL].環(huán)境科學學報:1-10[2019-03-07].https://doi.org/10.13671/j.hjkxxb.2018.0428.
[4]熊興隆,崔雅峰,馬愈昭.基于消光系數(shù)的機場PM_(2.5)質(zhì)量濃度神經(jīng)網(wǎng)絡預測模型[J].科學技術與工程,2017,17(32):274-279.
[5]楊云,付彥麗.基于T-S模型模糊神經(jīng)網(wǎng)絡的PM2.5質(zhì)量濃度預測[J].陜西科技大學學報(自然科學版),2015,33(06):162-166.