吳玲玲,杜趙杭,韓凱波,陳一飛,趙 怡
(南京鐵道職業(yè)技術(shù)學(xué)院,江蘇 南京210031)
本文選取的空氣質(zhì)量監(jiān)測國控點(diǎn)數(shù)據(jù)時間跨度為2018年11月14日10:00~2019年6月11日15:00,共4200個樣本;自建點(diǎn)數(shù)據(jù)時間跨度為2018年11月14日10:02~2019年6月11日16:32,共234717個樣本。我們首先對自建點(diǎn)數(shù)據(jù)進(jìn)行預(yù)處理,將自建點(diǎn)數(shù)據(jù)處理為以一小時為間隔的樣本,再對自建點(diǎn)數(shù)據(jù)中降水?dāng)?shù)據(jù)進(jìn)行處理,最后將國控點(diǎn)數(shù)據(jù)與自建點(diǎn)數(shù)據(jù)進(jìn)行匹配,得到4065個樣本進(jìn)行研究[1]。
由于國控點(diǎn)數(shù)據(jù)是以一小時為間隔的樣本,因此將自建點(diǎn)的數(shù)據(jù)同樣處理為一小時間隔。采取的方案是,選取相應(yīng)于國控點(diǎn)時間前15分鐘和后15分鐘區(qū)間的數(shù)據(jù)取平均值(除降水?dāng)?shù)據(jù))。自建點(diǎn)數(shù)據(jù)中有降水量數(shù)據(jù)在某時段遞增,然后清零。選取自建點(diǎn)降水?dāng)?shù)據(jù)中相應(yīng)于國控點(diǎn)時間前5分鐘和后5分鐘區(qū)間內(nèi)最后一個時刻的記錄作為該整點(diǎn)的累積降水量。通過Excel統(tǒng)計,見圖1(a),發(fā)現(xiàn)清零出現(xiàn)兩次。另降水?dāng)?shù)據(jù)存在一些奇異點(diǎn),將奇異點(diǎn)的數(shù)值通過前后時刻數(shù)據(jù)的對比進(jìn)行訂正。訂正方法如下[1-2]:第一步,找出奇異點(diǎn)對應(yīng)的時刻,對該時刻前后5分鐘的數(shù)據(jù)進(jìn)行分析,找出錯誤數(shù)據(jù),將前后數(shù)據(jù)對比并訂正,數(shù)據(jù)質(zhì)量明顯提高,見圖1(b);第二步,若某整點(diǎn)數(shù)據(jù)缺測,根據(jù)前后數(shù)據(jù)進(jìn)行訂正。若前后數(shù)據(jù)相同,將缺測數(shù)據(jù)記為相同值;若前后數(shù)據(jù)不相同,仍記為缺測。然后用后一整點(diǎn)的累積降水量減去前一整點(diǎn)的累積降水量得到該整點(diǎn)的降水?dāng)?shù)據(jù),遇缺測情況記為缺測。
圖1 降水量國控點(diǎn)和自建點(diǎn)數(shù)據(jù)概率分布圖
利用Matlab軟件對國控點(diǎn)和自建點(diǎn)數(shù)據(jù)中的PM2.5、PM10數(shù)據(jù)進(jìn)行統(tǒng)計特征分析,包括平均值、標(biāo)準(zhǔn)差、最大值、最小值,并進(jìn)行兩組數(shù)據(jù)的對比[2-3(]見表1)。
從表1可以發(fā)現(xiàn),PM2.5國控點(diǎn)數(shù)據(jù)與自建點(diǎn)數(shù)據(jù)的標(biāo)準(zhǔn)差相差不大,最值也相當(dāng),但自建點(diǎn)數(shù)據(jù)的平均值較國控點(diǎn)數(shù)據(jù)的平均值偏大很多。PM10自建點(diǎn)數(shù)據(jù)的標(biāo)準(zhǔn)差比國控點(diǎn)大很多,說明自建點(diǎn)數(shù)據(jù)分布更離散,并且自建點(diǎn)數(shù)據(jù)的平均值也較國控點(diǎn)數(shù)據(jù)的平均值大很多,而國控點(diǎn)數(shù)據(jù)的最大值接近自控點(diǎn)數(shù)據(jù)最大值的兩倍。
表1 兩種污染物國控點(diǎn)與自建點(diǎn)數(shù)據(jù)的統(tǒng)計特征
分別繪制國控點(diǎn)和自建點(diǎn)數(shù)據(jù)的概率分布圖(見圖2)。PM2.5兩組數(shù)據(jù)分布狀況較一致,都呈單峰型分布。PM10國控點(diǎn)數(shù)據(jù)絕大部分分布在200以內(nèi),而自建點(diǎn)數(shù)據(jù)主要分布在350以內(nèi),存在量程漂移。
圖2 PM2.5和PM10國控點(diǎn)和自建點(diǎn)數(shù)據(jù)概率分布圖
接著,對PM2.5、PM10國控點(diǎn)數(shù)據(jù)和自建點(diǎn)數(shù)據(jù)繪制散點(diǎn)圖(見圖3(a)、圖4(a))。利用國控點(diǎn)數(shù)據(jù)與自建點(diǎn)數(shù)據(jù)做差,對差值繪制PM2.5偏差概率分布圖(見圖3(b)、圖4(b))。在圖3(a)中,對比線A表征自建點(diǎn)數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)完全相同。大部分散點(diǎn)集中在對比線附近,因此兩組數(shù)據(jù)的偏差不是太大。大部分散點(diǎn)在對比線上方,說明自建點(diǎn)數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)之間存在負(fù)偏差。在圖3(b)中,自建點(diǎn)數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)之間存在整體負(fù)偏差,且為單峰型分布,峰值左右較對稱,類似正態(tài)分布的特征。在圖4(a)中,大部分散點(diǎn)集中在對比線A上方,自建點(diǎn)數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)之間存在明顯的負(fù)偏差,且散點(diǎn)在對比線上下分布得不均勻,上面明顯多于下面。此外,國控點(diǎn)的數(shù)據(jù)主要在0~200的范圍內(nèi),而自建點(diǎn)數(shù)據(jù)在0~350的范圍內(nèi)。在圖4(b)中,自建點(diǎn)數(shù)據(jù)與國控點(diǎn)數(shù)據(jù)之間存在整體負(fù)偏差,且為單峰型分布,峰值左側(cè)的概率高于右側(cè),呈偏態(tài)分布。
圖3 PM2.5散點(diǎn)圖和偏差概率分布圖
圖4 PM10散點(diǎn)圖和偏差概率分布圖
通過偏差、相關(guān)系數(shù)、均方根誤差三個統(tǒng)計量對兩組數(shù)據(jù)的整體特征進(jìn)行統(tǒng)計分析。三種統(tǒng)計量的計算方法如下。
兩組數(shù)據(jù)的偏差(bias)計算公式:
其中,Xi為自建點(diǎn)每個小時的數(shù)據(jù),Yi為國控點(diǎn)每個小時的數(shù)據(jù),n為數(shù)據(jù)個數(shù)。我們定義當(dāng)bias大于0為正偏差,小于0為負(fù)偏差。
兩組數(shù)據(jù)的相關(guān)系數(shù)(rXY)計算公式:
其中,Xi,Yi,n同上,X為自建點(diǎn)數(shù)據(jù)的平均值,Y為國控點(diǎn)數(shù)據(jù)的平均值。
兩組數(shù)據(jù)的均方根誤差(RMSE)計算公式:
其中,Xi,Yi,n同上。
計算PM2.5自建點(diǎn)數(shù)據(jù)相對于國控點(diǎn)數(shù)據(jù)的偏差、相關(guān)系數(shù)和均方根誤差,見表2。兩組數(shù)據(jù)的偏差為-16.18,明顯存在整體負(fù)偏差;兩組數(shù)據(jù)的相關(guān)系數(shù)為0.91,說明兩組數(shù)據(jù)的變化趨勢一致;兩組數(shù)據(jù)的均方根誤差為22.85,表示兩組數(shù)據(jù)存在較大差異。而PM10兩組數(shù)據(jù)的偏差為-38.74,明顯存在整體負(fù)偏差;兩組數(shù)據(jù)的相關(guān)系數(shù)為0.65,說明兩組數(shù)據(jù)的變化趨勢較一致;兩組數(shù)據(jù)的均方根誤差為65.67,達(dá)到平均值的一半,表示兩組數(shù)據(jù)存在較大差異。
表2 PM2.5、PM10國控點(diǎn)與自建點(diǎn)數(shù)據(jù)校準(zhǔn)前后統(tǒng)計量
由圖3(b)發(fā)現(xiàn)PM2.5自建點(diǎn)數(shù)據(jù)明顯存在負(fù)偏差,并且自建點(diǎn)開始的數(shù)據(jù)要明顯高于國控點(diǎn)的數(shù)據(jù),兩種數(shù)據(jù)的最大值相當(dāng),兩組數(shù)據(jù)的差異可能由零點(diǎn)漂移產(chǎn)生。而PM10的自建點(diǎn)數(shù)據(jù)明顯存在整體負(fù)偏差,并且國控點(diǎn)的數(shù)據(jù)主要在0~200的范圍內(nèi),而自建點(diǎn)數(shù)據(jù)在0~350的范圍內(nèi),兩組數(shù)據(jù)的量程不一致。圖4(b)中的偏態(tài)分布,也有可能是量程不一致造成的。我們利用自建點(diǎn)數(shù)據(jù)進(jìn)行一元線性回歸,將數(shù)據(jù)進(jìn)行校準(zhǔn)。
根據(jù)兩種數(shù)據(jù)中的PM2.5數(shù)據(jù)建立一元線性回歸校準(zhǔn)方程:
其中,XPM25i為自建點(diǎn)每個小時的數(shù)據(jù),為自建點(diǎn)每個小時的校準(zhǔn)數(shù)據(jù)。
對PM10數(shù)據(jù)建立一元線性回歸校準(zhǔn)方程:
其中,XPM10i為自建點(diǎn)每個小時的數(shù)據(jù),為自建點(diǎn)每個小時的校準(zhǔn)數(shù)據(jù)。
下面對數(shù)據(jù)校準(zhǔn)前后進(jìn)行比較[4]。從圖5(a)、圖5(b)可以發(fā)現(xiàn),PM2.5訂正后的自建點(diǎn)數(shù)據(jù)負(fù)偏差明顯消失,且零點(diǎn)漂移的現(xiàn)象也明顯減小。在偏差概率分布圖中,0附近的概率最大。通過表2可知,校準(zhǔn)后自建點(diǎn)數(shù)據(jù)的負(fù)偏差變?yōu)?0.01,顯著減小,均方差根誤差也明顯減小。說明PM2.5的自建點(diǎn)數(shù)據(jù)得到了有效的校準(zhǔn),數(shù)據(jù)質(zhì)量明顯提高。從圖6(a)、圖6(b)可以發(fā)現(xiàn),PM10訂正后的自建點(diǎn)數(shù)據(jù)負(fù)偏差明顯消失,且量程漂移的現(xiàn)象也明顯減小。在偏差概率分布圖中,峰值位于0附近,偏態(tài)分布也趨于正態(tài)分布特征。通過表2可知,校準(zhǔn)后自建點(diǎn)數(shù)據(jù)的負(fù)偏差變?yōu)?0.46,顯著減小,均方差根誤差為32.26,也明顯改善,同時兩組數(shù)據(jù)的相關(guān)系數(shù)也進(jìn)一步提高。說明PM10的自建點(diǎn)數(shù)據(jù)得到了有效的校準(zhǔn),數(shù)據(jù)質(zhì)量明顯提高。
圖5
圖6
本文針對某公司研發(fā)的微型空氣質(zhì)量監(jiān)測儀提供的實(shí)時空氣污染物數(shù)據(jù),分別對PM2.5和PM10兩種污染物自建點(diǎn)數(shù)據(jù)進(jìn)行了深入數(shù)據(jù)分析和詳細(xì)的差異因素分析,并根據(jù)不同污染物數(shù)據(jù)誤差特點(diǎn)給出了相應(yīng)的一元線性回歸校準(zhǔn)方案,校準(zhǔn)后的數(shù)據(jù)質(zhì)量明顯提高。該校準(zhǔn)方案在業(yè)務(wù)上實(shí)踐性強(qiáng),對空氣質(zhì)量監(jiān)測儀的數(shù)據(jù)有一定的訂正效果。為微型空氣質(zhì)量監(jiān)測儀后期能夠提供更準(zhǔn)確的實(shí)時空氣質(zhì)量監(jiān)測數(shù)據(jù)以及傳感器的改進(jìn)提供了參考方案。