段 峰,王 杰
(1.銅陵職業(yè)技術學院基礎部,安徽銅陵244061;2.安慶師范大學經(jīng)濟與管理學院,安徽安慶246133)
空氣污染對生態(tài)環(huán)境和人類健康危害巨大,隨著國家環(huán)保戰(zhàn)略的提出,治理空氣污染被提到了空前的高度。通過對“兩塵四氣”(PM2.5、PM10、CO、NO2、SO2、O3)濃度的實時監(jiān)測,可以及時掌握空氣質(zhì)量,對污染源采取相應措施?!皟蓧m四氣”濃度的實時監(jiān)測主要有兩種方式,一是國家控制站監(jiān)測,二是社會機構(gòu)應用微型空氣質(zhì)量監(jiān)測儀進行監(jiān)測[1]。
雖然國家監(jiān)測控制站點(國控點)對“兩塵四氣”有監(jiān)測數(shù)據(jù),且較為準確,但因為國控點的布控較少,數(shù)據(jù)發(fā)布時間滯后且花費較大,無法給出實時快速的空氣質(zhì)量監(jiān)測結(jié)果和預報。國內(nèi)許多公司積極響應國家環(huán)保戰(zhàn)略,自主研發(fā)了各種微型空氣質(zhì)量監(jiān)測儀。這種空氣質(zhì)量監(jiān)測儀造價相對較低,可對某一地區(qū)空氣質(zhì)量進行實時網(wǎng)格化監(jiān)控,并同時監(jiān)測風速、壓強、降水量、溫度、濕度等氣象參數(shù)。這些監(jiān)測儀所使用的電化學氣體傳感器在長時間使用后會產(chǎn)生一定的零點漂移和量程漂移[2],非常規(guī)氣態(tài)污染物濃度變化對傳感器存在交叉干擾,以及天氣因素對傳感器的影響,它們都造成微型空氣質(zhì)量監(jiān)測儀所采集的數(shù)據(jù)與該地同一時間國控點采集的數(shù)據(jù)存在一定的差異。下面通過探索性數(shù)據(jù)分析方法來尋找數(shù)據(jù)的差異以及產(chǎn)生差異的主要原因。
探索性數(shù)據(jù)分析[3](EDA)是指對觀察或調(diào)查所得到的原始數(shù)據(jù),在盡量少的先驗假設下通過作圖、制表、方程擬合和計算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法,該方法在20世紀70年代由美國統(tǒng)計學家J.K.Tukey提出。與傳統(tǒng)的數(shù)理統(tǒng)計分析方法相比較,EDA是一種更加貼合實際情況的分析方法,它強調(diào)讓數(shù)據(jù)自身“說話”,發(fā)現(xiàn)蘊含在數(shù)據(jù)中的深層信息。從20 世紀80 年代開始,EDA 技術和方法被逐漸應用到各個領域。
以2019 年全國大學生數(shù)學建模競賽D 題[4]《空氣質(zhì)量數(shù)據(jù)的校準》附件1 和附件2 的數(shù)據(jù)為基礎。附件1給出了從2018年11月14日至2019年6月11日共4 200組整點時刻的“兩塵四氣”數(shù)據(jù);附件2給出了相同時間段內(nèi)分鐘時刻的“兩塵四氣”數(shù)據(jù)和5個天氣因素(風速、壓強、降水量、溫度、濕度)數(shù)據(jù)。本文將國控點和自建點相同時刻的監(jiān)測數(shù)據(jù)提取出來如表1所示,這是最能體現(xiàn)國控點和自建點監(jiān)測誤差的數(shù)據(jù)。
表1 相同時刻國控點與自建點“兩塵四氣”監(jiān)測數(shù)據(jù)對照表
利用Excel對國控點數(shù)據(jù)和自建點數(shù)據(jù)分別求均值和標準差,結(jié)果如表2所示。
表2 相同時刻“兩塵四氣”監(jiān)測數(shù)據(jù)的均值與標準差表
從均值看,國控點和自建點監(jiān)測數(shù)據(jù)在均值方面差異顯著,PM2.5、PM10、NO2和O3這4種污染物的國控點均值顯著小于自建點均值;CO和SO2兩種污染物的國控點均值顯著大于自建點均值。從波動看,除CO和O3兩種污染物的國控點波動比自建點波動大外,PM2.5、PM10、NO2和SO2這4種污染物的國控點波動都顯著小于自建點的波動。這說明自建點的微型監(jiān)測儀發(fā)生了顯著的零點漂移和量程漂移。
根據(jù)表1 數(shù)據(jù),利用Matlab 軟件[5]繪制“兩塵四氣”的國控點數(shù)據(jù)與自控點數(shù)據(jù)隨時間變化的趨勢圖,見圖1。
圖1 國控點數(shù)據(jù)與自控點數(shù)據(jù)隨時間變化的趨勢圖
圖1傳達出的信息非常粗略,可描述為:國控點監(jiān)測數(shù)據(jù)與自控點監(jiān)測數(shù)據(jù)差異顯著,出現(xiàn)了明顯的奇異點(圖中針狀點對應的數(shù)據(jù))。但認真比對表1數(shù)據(jù)發(fā)現(xiàn),PM10數(shù)據(jù)中明顯的奇異點是國控點數(shù)據(jù)導致,具體出現(xiàn)在2019年2月19日14時,國控點PM10數(shù)據(jù)突然變大到985,而其前后整點時間數(shù)據(jù)為27和29,同時刻自建點數(shù)據(jù)為81。自建點SO2數(shù)據(jù)和O3數(shù)據(jù)一般變化不大,但一旦變化起來,數(shù)值差異太大,例如2019年1月23日一天自建點的SO2數(shù)據(jù)和O3數(shù)據(jù)忽高忽低,變化很大,而當天的國控點數(shù)據(jù)卻比較穩(wěn)定,這說明自建點的微型監(jiān)測儀發(fā)生了比較嚴重的零點漂移和量程漂移,具體數(shù)據(jù)見表3。
表3 國控點與自建點同時刻點對應奇異數(shù)據(jù)
通過圖1還可以發(fā)現(xiàn),數(shù)據(jù)變化及振蕩趨勢有非常粗略的一致性,不能看出時間因素對兩組數(shù)據(jù)差異的影響,也就是數(shù)據(jù)差異與時間因素沒有顯著的關系。
將表1數(shù)據(jù)等距分割為100個區(qū)間,統(tǒng)計各區(qū)間上出現(xiàn)的數(shù)據(jù)個數(shù),并轉(zhuǎn)化為頻率,然后用Matlab的histogram函數(shù)[6]繪制直方圖,見圖2。
圖2 國控點數(shù)據(jù)與自控點數(shù)據(jù)直方圖
圖2 表明兩組數(shù)據(jù)有更加明顯的差異:同一個區(qū)間,自控點數(shù)據(jù)相對國控點數(shù)據(jù)整體上差異很大,其中PM2.5、PM10、NO2和O3的國控點數(shù)據(jù)顯著小于自建點數(shù)據(jù),CO 和SO2國控點數(shù)據(jù)卻大于自建點數(shù)據(jù),這與表2給出的兩組數(shù)據(jù)均值結(jié)果完全吻合。
自建點數(shù)據(jù)與國控點數(shù)據(jù)之差就是自建點誤差,用Matlab做出“兩塵四氣”隨時間變化的誤差圖,如圖3所示。
圖3 國控點與自控點數(shù)據(jù)誤差隨時間變化圖
在CO的誤差圖中,可以發(fā)現(xiàn)自建點數(shù)據(jù)都有一致小于國控點數(shù)據(jù)的趨勢,其他污染物這一現(xiàn)象不明顯。另外,所有污染物誤差圖中誤差線都包括“0”在內(nèi),說明盡管誤差存在,但兩組數(shù)據(jù)基本上都在同一個水平上,自建點數(shù)據(jù)的誤差是可以進行有效校正的。最后,通過誤差圖可以看到,時間因素對誤差沒有明顯的影響。
以上從數(shù)字特征和圖形特征兩方面揭示了國控點監(jiān)測數(shù)據(jù)與自建點監(jiān)測數(shù)據(jù)的特征,通過不同的視角分析二者存在明顯差異。那么,差異性存在的原因是什么呢?從賽題給出的數(shù)據(jù),不妨嘗試尋找自建點數(shù)據(jù)與國控點數(shù)據(jù)絕對誤差與附件2所提供的五個天氣因素(風速、壓強、降水量、溫度、濕度)之間的關系。
在自建點、國控點同時刻點數(shù)據(jù)中,對“兩塵四氣”數(shù)據(jù)求絕對誤差,并提取同時刻點自建點數(shù)據(jù)中的5個天氣因素數(shù)據(jù),建立絕對誤差數(shù)據(jù)與氣象參數(shù)數(shù)據(jù)的關系表,見表4。
表4 自建點與國控點對應時刻絕對誤差與自建點氣象參數(shù)數(shù)據(jù)
由于污染物數(shù)據(jù)的絕對誤差受到天氣因素的影響,影響因子比較多,故采用灰色關聯(lián)度分析法?;疑P聯(lián)度分析法[7]是根據(jù)因素之間發(fā)展趨勢的相似或相異程度,作為衡量因素間關聯(lián)程度的一種方法。它利用數(shù)據(jù)序列曲線的貼近度來判斷各因素之間的關聯(lián)度。一般情況下,曲線之間越貼近,相應序列之間的關聯(lián)度就越大,反之就越小。下面分4個步驟進行。
第一步:選取空氣污染物PM2.5、PM10、CO、NO2、SO2、O3的濃度絕對誤差數(shù)列為參考數(shù)列,5個天氣因素風速、壓強、降水量、溫度、濕度數(shù)列為比較數(shù)列,其中參考數(shù)列記為x0(i),比較數(shù)列記為xj(i)。第二步:對參考數(shù)列和比較數(shù)列進行無量綱化處理。不妨采用極差法,令
第三步:計算關聯(lián)度系數(shù)
將表4 國控點與自建點對應時刻絕對誤差與自建點氣象參數(shù)數(shù)據(jù)代入式(1)(2),取ρ=0.5,利用Matlab 編程計算,可得各空氣污染物PM2.5、PM10、CO、NO2、SO2、O3濃度誤差與各氣象參數(shù)的關聯(lián)系數(shù),部分結(jié)果見表5。
表5 空氣污染物濃度誤差與各氣象參數(shù)的關聯(lián)系數(shù)表
第四步:計算關聯(lián)度。按照關聯(lián)度公式
將表5 中的關聯(lián)系數(shù)代入式(3),可計算出空氣污染物PM2.5、PM10、CO、NO2、SO2、O3濃度的相對誤差與5個氣象因素的關聯(lián)度。顯然,關聯(lián)度越大,氣象因素影響就越大。計算結(jié)果如表6所示。
表6 各污染物濃度誤差與各氣象因素的關聯(lián)度
由表6可知,壓強和風速是導致污染物濃度誤差的重點氣象因素,(1)導致PM2.5濃度誤差的氣象因素由強到弱排序依次為:壓強,風速,溫度,濕度,降水量;(2)導致PM10濃度誤差的氣象因素由強到弱排序依次為:壓強,風速,溫度,濕度,降水量;(3)導致CO濃度誤差的氣象因素由強到弱排序依次為:壓強,風速,濕度,溫度,降水量;(4)導致NO2濃度誤差的氣象因素由強到弱排序依次為:壓強,風速,溫度,濕度,降水量;(5)導致SO2濃度誤差的氣象因素由強到弱排序依次為:壓強,風速,降水量,溫度,濕度;(6)導致O3濃度誤差的氣象因素由強到弱排序依次為:風速,壓強,降水量,溫度,濕度。
綜上所述,EDA明確了國控點、自建點數(shù)據(jù)的差異性是顯著的、可視化的。盡管自建點監(jiān)測數(shù)據(jù)存在較大的誤差,但自建點數(shù)據(jù)與國控點數(shù)據(jù)基本上都在同一個水平,可以對自建點數(shù)據(jù)進行校準、修正[8]。造成數(shù)據(jù)差異與自建點微型監(jiān)測儀發(fā)生的零點漂移和量程漂移和5個天氣因素有關,而與時間因素關系不明顯。
通過關聯(lián)度分析,文中給出了6個污染物監(jiān)測數(shù)據(jù)誤差與5個氣象因素之間的關聯(lián)度數(shù)據(jù),給出了5個氣象因素對自建點監(jiān)測誤差影響的強弱排序,這些數(shù)據(jù)和結(jié)果是進行誤差校準的重要依據(jù),為數(shù)據(jù)校準提供了充分的條件。因此,以5個天氣因素為自變量,建立數(shù)學模型來校準數(shù)據(jù)就順理成章了。