章 俊 倪 薇
?
數(shù)據(jù)挖掘技術(shù)在水質(zhì)自動(dòng)監(jiān)測(cè)站管理中的應(yīng)用
章俊倪薇
水質(zhì)自動(dòng)監(jiān)測(cè)站的水質(zhì)數(shù)據(jù)質(zhì)量和儀器狀態(tài)、外界環(huán)境(水、電、天氣等)、運(yùn)維狀態(tài)等息息相關(guān),干擾因素很多,因此水質(zhì)數(shù)據(jù)經(jīng)常會(huì)有異常值產(chǎn)生,而且有些異常數(shù)據(jù)很難依靠人工判斷,處理難度較大。近年來(lái),由于大數(shù)據(jù)的迅速發(fā)展,使得數(shù)據(jù)挖掘技術(shù)逐漸成熟,各種挖掘算法被廣泛運(yùn)用于數(shù)據(jù)處理,并有許多成功應(yīng)用的案例。本文嘗試使用數(shù)據(jù)挖掘技術(shù)對(duì)新汴河團(tuán)結(jié)閘水質(zhì)自動(dòng)監(jiān)測(cè)站2014年1~6月的水質(zhì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行處理,剔除異常值,使有效數(shù)據(jù)能夠均勻分布,從而提高數(shù)據(jù)質(zhì)量和規(guī)范性,并通過(guò)人工監(jiān)測(cè)數(shù)據(jù)進(jìn)行驗(yàn)證,取得了好的效果。
數(shù)據(jù)挖掘有很多成熟的技術(shù),但是在水質(zhì)處理和預(yù)測(cè)計(jì)算方面運(yùn)用的并不多。本文分析水質(zhì)數(shù)據(jù)的特點(diǎn),就單個(gè)水質(zhì)參數(shù)而言,除非遇到突發(fā)性水污染事故,否則數(shù)據(jù)變化幅度不大,且都是正實(shí)數(shù),不包含向量等復(fù)雜數(shù)據(jù)。目前水質(zhì)自動(dòng)監(jiān)測(cè)站每天上傳監(jiān)測(cè)數(shù)據(jù)2~4條,頻度不大。聚類分析法處理數(shù)據(jù)過(guò)程簡(jiǎn)單易懂,實(shí)用性較強(qiáng),選擇聚類分析法可以方便地解決數(shù)據(jù)處理問(wèn)題,達(dá)到預(yù)期效果。
聚類分析是依據(jù)樣本間關(guān)聯(lián)的度量標(biāo)準(zhǔn)將其自動(dòng)分成幾個(gè)類,且使同一類中的樣本相似,而屬于不同類的樣本相異的一組方法。一個(gè)聚類分析系統(tǒng)的輸入是一組樣本和一個(gè)度量?jī)蓚€(gè)樣本間相似度(或相異度)的標(biāo)準(zhǔn),聚類分析的輸出是數(shù)據(jù)集的幾個(gè)類(簇),這些類構(gòu)成一個(gè)分區(qū)或分區(qū)結(jié)構(gòu)。聚類分析的一個(gè)附加結(jié)果是對(duì)每個(gè)類的綜合描述,這種結(jié)果對(duì)于進(jìn)一步深入分析數(shù)據(jù)集的特征尤為重要。這樣應(yīng)用聚類分析法可以將水質(zhì)數(shù)據(jù)中的離群數(shù)據(jù)即異常數(shù)據(jù)剔除掉,提高數(shù)據(jù)質(zhì)量。
聚類分析可以根據(jù)聚類中心點(diǎn)來(lái)進(jìn)行數(shù)據(jù)篩選,一方面可以剔除孤立點(diǎn),另一方面還可以剔除一些距離中心點(diǎn)過(guò)遠(yuǎn)的異常數(shù)據(jù),不僅可以剔除異常數(shù)據(jù),還可以使過(guò)濾后的數(shù)據(jù)具有良好的規(guī)范性。
本文選擇的水質(zhì)影響因子為高錳酸鹽指數(shù)(CODmn)與氨氮(NH4),這兩項(xiàng)都是影響水質(zhì)的重要指標(biāo),具有很強(qiáng)的代表性。根據(jù)新汴河團(tuán)結(jié)閘水質(zhì)自動(dòng)監(jiān)測(cè)站從2014年1~6月的日監(jiān)測(cè)數(shù)據(jù),去除各種不完整數(shù)據(jù)后共有798組。按照月份分期,將每個(gè)月的數(shù)據(jù)分為3組(按旬劃分),選取K-平均算法進(jìn)行聚類分析,剔除樣本數(shù)目過(guò)少的類。在計(jì)算中,如果每組的數(shù)據(jù)樣本數(shù)少于該月樣本總數(shù)的10%,剔除該類,并重新進(jìn)行劃分計(jì)算并不斷重復(fù)此過(guò)程,直到最終劃分的類中沒(méi)有少于樣本總數(shù)10%的類,確保沒(méi)有異常樣本點(diǎn),從而使所獲得的數(shù)據(jù)具有較好的規(guī)范性。
應(yīng)用聚類分析法時(shí)采用SPSS(StatisticalPackagefortheSocial Science)軟件,其是目前世界上最著名的數(shù)據(jù)分析軟件。SPSS最突出的特點(diǎn)是操作界面友好,使用Windows的窗口方式即可展示各種管理和分析數(shù)據(jù)方法的功能,使用對(duì)話框就可展示出各種功能選擇項(xiàng),無(wú)需編程,只根據(jù)需要進(jìn)行圖形用戶界面操作就可以實(shí)現(xiàn)數(shù)據(jù)的分析和處理。
在本文聚類分析研究中采用K-平均算法,其具體流程:(1)任意選擇3個(gè)樣本作為初始類的中心;(2)根據(jù)類中對(duì)象的平均值,將每個(gè)樣本重新聚合到最相似的類;(3)更新類的平均值,即計(jì)算每個(gè)樣本由樣本的平均值,將其作為中心點(diǎn);(4)重復(fù)(2)、(3)直到不再發(fā)生變化。
使用K-平均算法進(jìn)行聚類,根據(jù)各個(gè)類的樣本數(shù)目來(lái)剔除孤立點(diǎn)。第一次聚類結(jié)果見(jiàn)表1。
從表1中選取樣本數(shù)少于該月樣本總數(shù)10%的類進(jìn)行剔除,得到新的數(shù)據(jù)并繼續(xù)進(jìn)行聚類和剔除異常樣本,經(jīng)過(guò)6次迭代最終得到不再有少于樣本總數(shù)10%的類存在的表,其結(jié)果見(jiàn)表2。
每個(gè)月都有樣本被剔除,因?yàn)樗|(zhì)變化非常復(fù)雜,受很多因素影響,本文在剔除異常數(shù)據(jù)時(shí)是以水域某一時(shí)段(某月)內(nèi)的通常狀況為標(biāo)準(zhǔn),對(duì)于非正常狀態(tài)對(duì)水域的影響因素考慮較少,為避免過(guò)多的刪除數(shù)據(jù),規(guī)定在某一時(shí)段內(nèi)(某月)因機(jī)械或者人為等因素產(chǎn)生一些異常數(shù)據(jù)不應(yīng)該大于該時(shí)段內(nèi)所有監(jiān)測(cè)數(shù)據(jù)的30%,若大于此上限,說(shuō)明該月可能存在一些水質(zhì)異常變化,比如突發(fā)水污染事故,則這些偏離常規(guī)的監(jiān)測(cè)值也是水質(zhì)真實(shí)狀態(tài)的反映,不應(yīng)被刪除。經(jīng)過(guò)6次迭代聚類,最終結(jié)果樣本總數(shù)為583,剔除的樣本數(shù)占原樣本總數(shù)的27%,說(shuō)明2014年上半年團(tuán)結(jié)閘水質(zhì)自動(dòng)監(jiān)測(cè)站的水質(zhì)數(shù)據(jù)不是很穩(wěn)定。
表1 K-平均算法聚類結(jié)果表
表2 K-平均算法聚類結(jié)果表
圖1 高錳酸鹽指數(shù)相關(guān)性圖
圖2 氨氮指數(shù)相關(guān)性圖
新汴河團(tuán)結(jié)閘水質(zhì)自動(dòng)監(jiān)測(cè)站位于皖蘇兩省省界,該站人工監(jiān)測(cè)數(shù)據(jù)采用淮河流域水環(huán)境監(jiān)測(cè)中心監(jiān)測(cè)成果,數(shù)據(jù)具有很高的準(zhǔn)確性和規(guī)范性。
因?yàn)槊總€(gè)月人工數(shù)據(jù)與自動(dòng)監(jiān)測(cè)站數(shù)據(jù)相比樣本數(shù)過(guò)少,因此對(duì)其采取復(fù)制插值法,即每個(gè)人工數(shù)據(jù)復(fù)制一樣的數(shù)量使其樣本總數(shù)滿足分析要求。相關(guān)性分析一樣采用SPSS軟件進(jìn)行,并采用距離法,度量采用余弦來(lái)計(jì)算相似度矩陣,計(jì)算結(jié)果如圖1和圖2所示。
其中聚類相關(guān)性是指經(jīng)過(guò)6次聚類后的數(shù)據(jù)與人工監(jiān)測(cè)數(shù)據(jù)的相關(guān)度,原始相關(guān)度是指自動(dòng)監(jiān)測(cè)站原始監(jiān)測(cè)數(shù)據(jù)與人工監(jiān)測(cè)數(shù)據(jù)的相關(guān)度。
從圖1和圖2中可以看出,無(wú)論是高錳酸鹽指數(shù)因子還是氨氮因子,經(jīng)過(guò)聚類后的數(shù)據(jù)與人工監(jiān)測(cè)數(shù)據(jù)都表現(xiàn)出很高的相關(guān)度,尤其是數(shù)據(jù)變化幅度較大的高錳酸鹽指數(shù)相關(guān)度提升更為明顯。這說(shuō)明了經(jīng)過(guò)數(shù)據(jù)挖掘處理后的數(shù)據(jù)更能反映實(shí)際水質(zhì)狀況,比原始監(jiān)測(cè)數(shù)據(jù)質(zhì)量更好,規(guī)范性更強(qiáng)。綜上所述,通過(guò)新汴河團(tuán)結(jié)閘2014年1~6月的水質(zhì)數(shù)據(jù)驗(yàn)證,說(shuō)明數(shù)據(jù)挖掘技術(shù)能夠較好的剔除水質(zhì)自動(dòng)監(jiān)測(cè)站監(jiān)測(cè)數(shù)據(jù)中的異常值,提高數(shù)據(jù)質(zhì)量和規(guī)范性,更好地反映水質(zhì)實(shí)際狀況,為水資源保護(hù)工作提供技術(shù)支撐■
(作者單位:淮河流域水資源保護(hù)局233001南京市循環(huán)經(jīng)濟(jì)促進(jìn)中心210008)