楊國穎
(蘭州石化職業(yè)技術學院,甘肅 蘭州 730060)
空氣污染對生態(tài)環(huán)境和人類健康危害巨大,雖然國家監(jiān)測控制站點(國控點)對“兩塵四氣”有監(jiān)測數(shù)據(jù),且較為準確,但布控較少,數(shù)據(jù)發(fā)布時間滯后較長且花費較大,無法給出實時空氣質量的監(jiān)測和預報。某公司自主研發(fā)的微型空氣質量檢測儀花費小,可對某一地區(qū)空氣質量進行實時網(wǎng)格化監(jiān)控氣象參數(shù)。在國控點近鄰所布控的自建點,微型空氣質量檢測儀所采集的數(shù)據(jù)與該國控點同一時間的數(shù)據(jù)存在一定的差異,因此,需要利用國控點每小時的數(shù)據(jù)對國控點近鄰的自建點數(shù)據(jù)進行校準[1-2]。
多元線性回歸模型的表達式為:
其中,β0,β1,…,βp的p+1個未知參數(shù),稱為回歸系數(shù)。Y是因變量,而X0,X1,…,Xp是p個一般變量,即自變量。ε是隨機誤差,期望值為零時滿足正態(tài)分布N(0,σ2)。
對空氣質量數(shù)據(jù)校準這一實際問題,(Xi1,Xi2,…,Xip;yi),i=1,2,…,n,
如何利用國控點數(shù)據(jù),對自建點數(shù)據(jù)進行校準,選用多元線性回歸模型[3-5]。
國控點數(shù)據(jù)為PM2.5、PM10、CO、NO2、SO2、O3共6個監(jiān)控數(shù)據(jù),時間從2018/11/14 10:00至2019/6/11 15:00,每小時統(tǒng)計一次,共計4200條數(shù)據(jù)。自建點數(shù)據(jù)從2018/11/14 10:02 至2019/6/11 16:32,時間間隔5 分鐘內統(tǒng)計一次,共234717條數(shù)據(jù)。對自建點數(shù)據(jù)進行處理,按照如10:00至10:59 分為一小時間隔,統(tǒng)計平均值。時間從2018/11/14 10:00至2019/6/11 16:00,共計4920條數(shù)據(jù)。
分整點統(tǒng)計數(shù)據(jù),自建點4920條,國控點4200條,經初步比對,發(fā)現(xiàn)自建點和國控點均存在同一整點數(shù)據(jù)缺失情況,共有數(shù)據(jù)4983條,國控點缺失整點數(shù)據(jù)783條,自建點缺失數(shù)據(jù)63條。
進一步整理數(shù)據(jù),剔除國控點缺失的783條和自建點缺失的63條數(shù)據(jù),得到分整點統(tǒng)計有效數(shù)據(jù)4137條。
以國控點PM2.5為因變量,自建點11項數(shù)據(jù)為自變量建立多元線性回歸模型[6-8]。
運用EXCEL數(shù)據(jù)分析工具箱,初步對國控點PM2.5進行回歸分析。
相關系數(shù)R=0.9530,回歸方程是顯著的,且具有95.3%的可信度。
回歸方程中的x5(SO2)、x6(O3)都是不顯著的,剔除x5(SO2)、x6(O3),再次進行回歸分析,發(fā)現(xiàn)x7(風速)p值為0.076456>0.05。
繼續(xù)剔除x7(風速)做多元線性回歸。從數(shù)據(jù)結果可以看出回歸方程是顯著的,且常數(shù)項和各線性項p值均<0.05,說明此時線性回歸方程比較滿意。
可認為去除的3個自變量的系數(shù)為0,由此得到,國控點PM2.5回歸方程(除SO2、O3、風速):
y1=451.1230318+0.79243789x1+0.026076364x2+9.294 645509x3+0.078989972x4+0*x5+0*x6+0*x7-0.428006512x8-0.030787605x9-0.193950075x10-0.341499422x11
判定系數(shù)R-squared為0.9082,擬合程度非常好。
結論:國控點PM2.5 分整點預測值只需要自建點PM2.5、PM10、CO、NO2、壓強、降水量、溫度、濕度等8個數(shù)據(jù),所獲得的回歸方程擬合度較好。
采用此方法可對國控點PM10、CO、NO2、SO2、O3其余5個指標逐一進行回歸分析。
國控點PM10回歸方程(除O3、風速):
y2=1287.600945+0.73533212x1+0.128642561x2+29.33321913x3+0.333424129x4+0.091232141x5+0*x6+0*x7-1.188444349x8-0.073684566x9-1.164787458x10-1.132177353x11
判定系數(shù)R-squared為0.6714,擬合程度較好。
國控點CO回歸方程(除SO2):
y3=25.22694251+0.008571466x1-0.001009743x2+0.441 219094x3+0.002203022x4+0*x5+0.00075464x6-0.1319257x7-0.02410081x8+0.000381987x9-0.020357718x10-0.00319-9927x11
判定系數(shù)R-squared為0.5064,擬合程度較好。
國控點NO2回歸方程(除CO、SO2):
y4=1331.278773+0.538119567x1-0.258976809x2+0*x3+0.411834389x4+0*x5-0.0951238x6-17.28883773x7-1.219421357x8-0.030514553x9-1.692427105x10-0.64718301x11
判定系數(shù)R-squared為0.5320,擬合程度較好。
國控點SO2回歸方程(除溫度、濕度):
y5=-373.850039-0.160919861x1+0.122208283x2+31.8 6182596x3+0.056660302x4-0.054798036x5+0.100801897x6-5.769067647x7+0.359102275x8+0.017623515x9+0*x10+0*x11
判定系數(shù)R-squared為0.4126,擬合程度較好。
國控點O3回歸方程(除降水量):
y6=-755.359663+0.958786185x1-0.5708725x2-14.3186506x3-0.576558562x4+0.06212603x5+0.569078 55x6+15.74438408x7+0.77063655x8+0*x9+2.65918267 7x10-0.209917002x11
判定系數(shù)R-squared為0.8002,擬合程度較好。
由此可得到國控點PM2.5、PM10、CO、NO2、SO2、O3等6項數(shù)據(jù)與自建點PM2.5、PM10、CO、NO2、SO2、O3、風速、壓強、降水量、溫度、濕度等11項分整點數(shù)據(jù)的回歸方程。
利用上述給出的6個回歸方程,針對自建點測出的數(shù)據(jù)進行校準,即通過多元線性回歸方程把自建點監(jiān)測數(shù)據(jù)處理后對外發(fā)布[9-10]。
本文自建點11項數(shù)據(jù)是按照實時統(tǒng)計(間隔在5分鐘內)分整點求得平均值,因此我們在研究分整點數(shù)據(jù)的基礎上分析認為,空氣質量數(shù)據(jù)的變化有一定的連續(xù)性,相鄰數(shù)據(jù)的變化遵循一定的規(guī)律。我們將回歸方程運用到自建點234717條數(shù)據(jù)中,得到自建點隨時對外發(fā)布的校準數(shù)據(jù)。
表1 自建點11項分整點數(shù)據(jù)校準發(fā)布數(shù)據(jù)
表2 自建點11項分整點數(shù)據(jù)校準發(fā)布數(shù)據(jù)殘差
表3 自建點11項隨時監(jiān)測數(shù)據(jù)234717條校準發(fā)布
進一步對分整點數(shù)據(jù)校準發(fā)布和隨時數(shù)據(jù)校準發(fā)布研究,發(fā)現(xiàn)一些數(shù)據(jù)小于0,呈負數(shù)出現(xiàn)。在實際監(jiān)測中,這是不可能出現(xiàn)的,即構建的多元線性回歸模型存在一定的誤差,主要原因是雖然本文對國控點和自控點的數(shù)據(jù)進行了整理校對,但對存在的異常數(shù)據(jù)沒有剔除,部分自建點的數(shù)據(jù)經分析針對國控點的數(shù)據(jù)高出2倍甚至更多,在初步構建模型時未刪除,樣本數(shù)據(jù)的有效性受到一定的影響,模擬精度降低。
針對以上數(shù)據(jù)分析,作11 元線性回歸,建立y關于x1,x2,…,x11的回歸模型如下:
判定系數(shù)R-squared為0.908,擬合程度較好。
x5、x6的p值為0.68356、0.42959均大于0.05,即回歸方程中的線性項x5、x6均是不顯著的,x5最不顯著,其次是x6。
xi多元線性回歸共線性判斷,回歸模型的判定系數(shù)為,得到方差膨脹因子:
VIFi越大說明線性相關越顯著,即存在共線性。通過計算,自建點VIF值分別為21.4928、26.6358、2.4873、1.6134、1.1576、2.2826、1.3750、7.1922、1.4545、10.0520、2.5397。由此可知,自變量x2中等程度共線性,x1、x2、x10共線性嚴重。
運用MATLAB工具箱繪制預測校準數(shù)據(jù)的殘差直方圖和殘差正態(tài)概率圖,如圖1所示。
圖1 多元線性回歸殘差直方圖和殘差正態(tài)概率圖
根據(jù)學生化殘差尋找異常值,針對國控點PM2.5,自建點共出現(xiàn)195條異常數(shù)據(jù),見表4。
表4 自建點異常數(shù)據(jù)(國控PM2.5)
需要提高模型的精度和準度,剔除195項異常值,并將不顯著項x5、x6去掉,重新建立多元線性回歸模型[11-13]。
判定系數(shù)R-squared由0.908提高到0.942,擬合程度明顯提高。
剔除異常數(shù)據(jù)后,x7風速的p=0.00044527<0.05,顯著性檢驗為顯著。
在前面建立的模型解析中,因沒有剔除異常數(shù)據(jù),導致x7在進一步的顯著性檢驗中判定為不顯著項,模型擬合的精度和準度發(fā)生偏差。
國控點其余5個自變量(PM10、CO、NO2、SO2、O3)的分析求解類同于國控點PM2.5的解法。
表5 國控點PM2.5與自建點PM2.5分整點對應值倍數(shù)表
本文建立了多元線性回歸分析模型,利用國控點的分整點數(shù)據(jù),對自建點數(shù)據(jù)進行校準。模型雖然去除變量和剔除異常數(shù)據(jù)提高了精度,但由于自建點數(shù)據(jù)過于繁雜,在判斷異常數(shù)據(jù)上對樣本數(shù)據(jù)的分析還存在一定不足,比如國控點PM2.5與自建點PM2.5的值相比,高達10倍的數(shù)據(jù)也有出現(xiàn)。
對超出3倍以上的34條數(shù)據(jù)分析,僅有自建點第592條,自建點PM2.5是國控點PM2.5數(shù)值5倍左右的數(shù)據(jù)在回歸模型中被判定為異常數(shù)據(jù)予以剔除。所以在超出高倍數(shù)情況下,建立的回歸模型默認為是有效數(shù)據(jù),這里有進一步討論的空間和價值[14-16]。