張宇玉
(山西機(jī)電職業(yè)技術(shù)學(xué)院,山西 長治 046011)
對(duì)“兩塵四氣”(PM2.5、PM10、CO、NO2、SO2、O3)濃度的實(shí)時(shí)監(jiān)測可以及時(shí)掌握空氣質(zhì)量,對(duì)污染源采取相應(yīng)措施。國控點(diǎn)監(jiān)測數(shù)據(jù)準(zhǔn)確但是布控較少,自建點(diǎn)可對(duì)空氣質(zhì)量進(jìn)行實(shí)時(shí)網(wǎng)格化監(jiān)控,并同時(shí)監(jiān)測溫度、濕度、風(fēng)速、氣壓、降水等氣象參數(shù)?;?019年全國大學(xué)生數(shù)學(xué)建模競賽D題國控點(diǎn)和自建點(diǎn)的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行探索性分析,包括描述性統(tǒng)計(jì)分析、分類匯總各項(xiàng)指標(biāo)、觀察“兩塵四氣”隨時(shí)間變化的規(guī)律和對(duì)“兩塵四氣”6個(gè)指標(biāo)和5個(gè)氣象參數(shù)做兩兩相關(guān)分析。對(duì)造成數(shù)據(jù)差異的因素進(jìn)行單因素方差分析,并建立多元逐步回歸模型確定絕對(duì)誤差與氣象參數(shù)的數(shù)量變化規(guī)律。最后將氣象參數(shù)一一對(duì)應(yīng)代入回歸方程,利用國控點(diǎn)數(shù)據(jù)對(duì)自建點(diǎn)數(shù)據(jù)進(jìn)行校準(zhǔn)。
依據(jù)國控點(diǎn)和自建點(diǎn)的“兩塵四氣”濃度數(shù)據(jù)和溫度、濕度、風(fēng)速、氣壓、降水氣象參數(shù)數(shù)據(jù)進(jìn)行探索性數(shù)據(jù)分析。主要從以下幾點(diǎn)考慮:
(1)數(shù)據(jù)預(yù)處理,刪除重復(fù)項(xiàng)數(shù)據(jù);
(2)對(duì)國控點(diǎn)和自建點(diǎn)“兩塵四氣”濃度和氣象參數(shù)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析;
(3)利用Excel數(shù)據(jù)透視功能分類匯總各項(xiàng)指標(biāo);
(4)作“兩塵四氣”隨時(shí)間變化的散點(diǎn)圖,觀察變化規(guī)律;
(5)作“兩塵四氣”6個(gè)指標(biāo)的兩兩相關(guān)分析和5個(gè)氣象參數(shù)的兩兩相關(guān)分析。
首先利用SPSS軟件“分析—描述統(tǒng)計(jì)—描述”過程[2]對(duì)“兩塵四氣”6個(gè)指標(biāo)分別進(jìn)行描述性統(tǒng)計(jì)分析,結(jié)果如表1所示(以國控點(diǎn)為例,自建點(diǎn)數(shù)據(jù)處理過程同)。
表1 國控點(diǎn)“兩塵四氣”描述統(tǒng)計(jì)分析
結(jié)果分析:
(1)從表1可以看出6個(gè)指標(biāo)的平均值、標(biāo)準(zhǔn)偏差、方差、偏度、峰度、最小值和最大值等統(tǒng)計(jì)量值。
(2)CO的標(biāo)準(zhǔn)偏差和方差都很小,說明CO數(shù)據(jù)的離散程度很??;NO2和SO2的標(biāo)準(zhǔn)偏差和方差較小,說明數(shù)據(jù)的離散程度較小;PM2.5、PM10和O3的標(biāo)準(zhǔn)偏差和方差很大,說明對(duì)應(yīng)數(shù)據(jù)的離散程度很大。這個(gè)特點(diǎn)從最大值和最小值也得到了印證。
(3)“兩塵四氣”的偏度均>0,而且偏度值大小差不多,說明它們的數(shù)據(jù)分布都是右偏,即直方圖中有一條長尾拖在右邊,偏斜程度相當(dāng)。
(4)“兩塵四氣”的峰度值均>0,說明數(shù)據(jù)的分布比標(biāo)準(zhǔn)正態(tài)分布更陡峭。其中PM10的峰度值為46.782,大大超出了其他指標(biāo)的峰度值,說明PM10的數(shù)據(jù)分布更尖峰。
利用Matlab軟件[3]作“兩塵四氣”隨時(shí)間變化的散點(diǎn)圖,如圖1所示。
圖1 國控點(diǎn)“兩塵四氣”隨時(shí)間(小時(shí))變化的散點(diǎn)圖
從圖1可以看出國控點(diǎn)“兩塵四氣”隨時(shí)間(小時(shí))變化沒有明顯的線性變化關(guān)系,但是具有明顯的周期性和季節(jié)性。PM2.5、PM10、CO、SO2隨時(shí)間變化還具有明顯的季節(jié)性,冬季的數(shù)值較大,夏季的數(shù)值較?。籓3隨時(shí)間變化也具有明顯的季節(jié)性,不過是冬季較小,夏季較大;NO2隨時(shí)間變化的規(guī)律沒有明顯的變化趨勢(shì)。
將國控點(diǎn)的數(shù)據(jù)導(dǎo)入SPSS軟件,進(jìn)行變量之間的相關(guān)分析,經(jīng)過“分析—相關(guān)—雙變量”過程[2]228-236,結(jié)果:PM2.5與PM10的相關(guān)系數(shù)為0.816,說明具有極強(qiáng)的正相關(guān);PM2.5與CO的相關(guān)系數(shù)為0.662,CO與PM10的相關(guān)系數(shù)為0.582,說明它們具有較強(qiáng)的正相關(guān);其他變量間的相關(guān)系數(shù)小于0.4,說明相關(guān)性很弱。
通過查閱資料發(fā)現(xiàn),自建點(diǎn)的數(shù)據(jù)可能會(huì)發(fā)生零點(diǎn)漂移和量程漂移,導(dǎo)致誤差發(fā)生的原因可能是氣象因素[1]。所以我們主要從以下4個(gè)方面考慮:
(1)將自建點(diǎn)與國控點(diǎn)“兩塵四氣”的數(shù)據(jù)一一對(duì)應(yīng),作單因素方差分析,從中發(fā)現(xiàn)兩組數(shù)據(jù)是否存在顯著性差異;
(2)計(jì)算自建點(diǎn)與國控點(diǎn)兩塵四氣6個(gè)指標(biāo)兩組數(shù)據(jù)的平均相對(duì)誤差,從而比較“兩塵四氣”中數(shù)據(jù)誤差的大??;
(3)作“兩塵四氣”6個(gè)指標(biāo)兩組數(shù)據(jù)的絕對(duì)誤差與氣象參數(shù)的相關(guān)分析;
(4)作“兩塵四氣”6個(gè)指標(biāo)兩組數(shù)據(jù)的絕對(duì)誤差與氣象參數(shù)的多元回歸分析,從而得到絕對(duì)誤差與氣象參數(shù)的確定的數(shù)量變化規(guī)律。
為了與國控點(diǎn)數(shù)據(jù)進(jìn)行比較,首先利用Excel數(shù)據(jù)透視表功能對(duì)自建點(diǎn)與國控點(diǎn)的數(shù)據(jù)進(jìn)行匯總,篩選出“兩塵四氣”6個(gè)指標(biāo)每天的平均值,并一一匹配比較。
利用Excel對(duì)自建點(diǎn)與國控點(diǎn)“兩塵四氣”的每個(gè)指標(biāo)兩兩一組作單因素方差分析,結(jié)果如表2所示(以PM2.5為例,其他指標(biāo)的數(shù)據(jù)方差分析同理可得)。
表2 PM2.5兩組數(shù)據(jù)的方差分析
結(jié)果分析:6個(gè)指標(biāo)的兩組數(shù)據(jù)F統(tǒng)計(jì)量均大于F檢驗(yàn)的臨界值,P均遠(yuǎn)小于0.05,表明自建點(diǎn)與國控點(diǎn)6個(gè)指標(biāo)的數(shù)據(jù)有顯著性差異。
計(jì)算6個(gè)指標(biāo)對(duì)應(yīng)的自建點(diǎn)與國控點(diǎn)兩組數(shù)據(jù)的MRE(平均相對(duì)誤差),結(jié)果如表3所示。
表3 自建點(diǎn)與國控點(diǎn)兩組數(shù)據(jù)的MRE
結(jié)果分析:NO2、SO2的MRE很大,它們的數(shù)據(jù)差異很大;PM2.5、O3的MRE較大,它們的數(shù)據(jù)差異較大;PM10、CO的MRE較小,它們的數(shù)據(jù)差異較小,勉強(qiáng)在可接受范圍內(nèi)。
2.2.1 “兩塵四氣”自建點(diǎn)與國控點(diǎn)的絕對(duì)誤差與5個(gè)氣象參數(shù)的相關(guān)分析
查閱資料可知:導(dǎo)致零點(diǎn)漂移的原因是溫度變化、元件老化等因素引起,最主要因素是溫度的變化。導(dǎo)致量程漂移的原因是受溫度、壓強(qiáng)、濕度等外界變化或儀器本身性能不穩(wěn)定所致[4]。鑒于以上原因,我們先計(jì)算自建點(diǎn)與國控點(diǎn)“兩塵四氣”6個(gè)指標(biāo)對(duì)應(yīng)兩組數(shù)據(jù)的絕對(duì)誤差,再做絕對(duì)誤差與氣象參數(shù)的相關(guān)分析。結(jié)果分析:“兩塵四氣”自建點(diǎn)與國控點(diǎn)的絕對(duì)誤差與5個(gè)氣象參數(shù)的相關(guān)系數(shù)均較小,表明它們的相關(guān)性很弱。
2.2.2 “兩塵四氣”自建點(diǎn)與國控點(diǎn)的絕對(duì)誤差與5個(gè)氣象參數(shù)的逐步回歸模型
多元線性回歸方程的建立:[2]
y=β0+β1x1+…+βmxm+ε
式中β0,β1…βm表示方程的回歸系數(shù)。
用國控點(diǎn)和自控點(diǎn)采集數(shù)據(jù)的絕對(duì)誤差作為兩組數(shù)據(jù)的差異,公式如下:
α=|y-x|
利用SPSS軟件“分析—回歸—線性”過程[2]247-272,得到“兩塵四氣”兩組數(shù)據(jù)的絕對(duì)誤差與氣象參數(shù)的回歸結(jié)果:6個(gè)指標(biāo)的最終回歸模型的概率P-值均小于0.05,通過了顯著性檢驗(yàn),置信區(qū)間均不包括零點(diǎn),表示建立的線性回歸模型是恰當(dāng)?shù)?。將得到?個(gè)指標(biāo)絕對(duì)誤差與氣象參數(shù)的回歸方程進(jìn)行整理,如表4所示。
表4 “兩塵四氣”絕對(duì)誤差與氣象參數(shù)的回歸方程
我們利用 Matlab 編程將氣象因素一一對(duì)應(yīng)代入所得回歸方程,得出絕對(duì)誤差的預(yù)測值,用預(yù)測絕對(duì)誤差與真實(shí)的絕對(duì)誤差作比較,求它們的相對(duì)誤差,從而校準(zhǔn)自建數(shù)據(jù)。公式如下:
部分計(jì)算結(jié)果如表5所示。
表5 校準(zhǔn)誤差百分比表
結(jié)果顯示,誤差百分比除個(gè)別異常數(shù)據(jù),其他誤差比例均在1%以內(nèi),模型合理。
本文利用描述性統(tǒng)計(jì)分析、分類匯總、繪制散點(diǎn)圖、相關(guān)分析等方法對(duì)數(shù)據(jù)進(jìn)行了充分的探索性分析,以大量的圖表顯示,直觀清楚,推理?xiàng)l理嚴(yán)謹(jǐn);利用單因素方差分析數(shù)據(jù)的差異,發(fā)現(xiàn)兩組數(shù)據(jù)存在顯著性差異;利用多元逐步回歸模型建立了兩組數(shù)據(jù)的絕對(duì)誤差與氣象參數(shù)的數(shù)量變化規(guī)律,從而實(shí)現(xiàn)對(duì)自建點(diǎn)數(shù)據(jù)的校準(zhǔn),模型檢驗(yàn)效果達(dá)到預(yù)期。本文使用的統(tǒng)計(jì)方法和建立的模型簡潔可行,易于推廣,可以為類似空氣質(zhì)量數(shù)據(jù)的分析與校準(zhǔn)提供參考。
黑龍江生態(tài)工程職業(yè)學(xué)院學(xué)報(bào)2021年5期