張 峰 薛惠鋒 WANG Wei 宋曉娜 萬(wàn) 毅
(1.中國(guó)航天系統(tǒng)科學(xué)與工程研究院研究生部, 北京 100048;2.紐約州立賓漢姆頓大學(xué)湯瑪士·華生工程與應(yīng)用科學(xué)學(xué)院, 賓漢姆頓 NY 13902;3.泰山學(xué)院商學(xué)院, 泰安 271000; 4.水利部水資源管理中心, 北京 100053)
水資源監(jiān)測(cè)異常數(shù)據(jù)模態(tài)分解-支持向量機(jī)重構(gòu)方法
張 峰1薛惠鋒1WANG Wei2宋曉娜3萬(wàn) 毅4
(1.中國(guó)航天系統(tǒng)科學(xué)與工程研究院研究生部, 北京 100048;2.紐約州立賓漢姆頓大學(xué)湯瑪士·華生工程與應(yīng)用科學(xué)學(xué)院, 賓漢姆頓 NY 13902;3.泰山學(xué)院商學(xué)院, 泰安 271000; 4.水利部水資源管理中心, 北京 100053)
完備真實(shí)的水資源監(jiān)測(cè)數(shù)據(jù)是支撐數(shù)據(jù)分析與決策的基本前提。在梳理現(xiàn)階段水資源監(jiān)測(cè)異常數(shù)據(jù)的基礎(chǔ)上,提出運(yùn)用移動(dòng)平均擬合初篩來(lái)直觀辨識(shí)異常監(jiān)測(cè)數(shù)據(jù),進(jìn)而選取集合模態(tài)分解對(duì)非可直觀辨識(shí)異常監(jiān)測(cè)數(shù)據(jù)進(jìn)行挖掘的方法。將剔除異常監(jiān)測(cè)值后的時(shí)序數(shù)據(jù)作為基于粒子群優(yōu)化最小二乘支持向量機(jī)模型的模擬樣本,并利用其恢復(fù)所剔除的異常監(jiān)測(cè)數(shù)據(jù)。對(duì)水務(wù)公司日取水量監(jiān)測(cè)數(shù)據(jù)的實(shí)證分析結(jié)果表明,通過(guò)移動(dòng)平均擬合與模態(tài)分解可較大限度地保留含有異常數(shù)據(jù)的特征向量并實(shí)現(xiàn)數(shù)據(jù)的有效重構(gòu),相比傳統(tǒng)的統(tǒng)計(jì)方法其具有更好的適用性;運(yùn)用粒子群優(yōu)化的最小二乘支持向量機(jī)可進(jìn)一步提高對(duì)剔除異常值數(shù)據(jù)的擬合效果,且符合水資源監(jiān)測(cè)數(shù)據(jù)的季節(jié)波動(dòng)規(guī)律特征及對(duì)實(shí)際取用水狀態(tài)的客觀反映,據(jù)此可相對(duì)合理地達(dá)到恢復(fù)所剔除異常監(jiān)測(cè)數(shù)據(jù)的目的。
水資源監(jiān)測(cè); 異常數(shù)據(jù); 數(shù)據(jù)重構(gòu); 模態(tài)分解; 最小二乘支持向量機(jī)
實(shí)現(xiàn)對(duì)水資源的全面監(jiān)測(cè)是國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目的重點(diǎn)內(nèi)容,是落實(shí)2011年中央一號(hào)文件和水利信息化建設(shè)的龍頭工程,尤其是對(duì)8 558個(gè)規(guī)模以上取用水戶、4 493個(gè)重要水功能區(qū)與入河排污口及737個(gè)省界斷面等的水量和水質(zhì)的在線監(jiān)測(cè),由此逐步形成完善的國(guó)家水資源在線監(jiān)測(cè)數(shù)據(jù)采集傳輸網(wǎng)絡(luò)體系,為強(qiáng)化水資源管理提供重要決策支撐[1]。
當(dāng)前國(guó)家水行政部門(mén)與相關(guān)機(jī)構(gòu)正著力探索處理水資源監(jiān)測(cè)異常數(shù)據(jù)的有效方法,但水資源監(jiān)測(cè)數(shù)據(jù)特點(diǎn)不同于傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù),現(xiàn)有相關(guān)數(shù)據(jù)分析方法的適用性還需要進(jìn)一步研究。MANDEL等[2]基于水資源分配網(wǎng)絡(luò)的復(fù)雜性,提出采用聚類函數(shù)的方法用于挖掘水質(zhì)異常數(shù)據(jù)的主要特征及估計(jì)未來(lái)重大水質(zhì)事件發(fā)生的概率;KAR等[3]針對(duì)水資源數(shù)據(jù)監(jiān)測(cè)中金屬污染物的空間變化情況,融合支持向量機(jī)與多元回歸分析技術(shù),提出了可用于輔助水質(zhì)遠(yuǎn)程監(jiān)測(cè)Hyperion數(shù)據(jù)分類模型;PARK等[4]選取主成分分析方法構(gòu)建影響水量分配數(shù)據(jù)變化的關(guān)聯(lián)要素判別模型,并通過(guò)測(cè)算模型的剩余誤差來(lái)識(shí)別水資源數(shù)據(jù)的異常值;同樣應(yīng)用主成分的方法,PISINARAS等[5]基于對(duì)河流水量與水質(zhì)的實(shí)地調(diào)研數(shù)據(jù)的分析,提出了提高水資源監(jiān)測(cè)數(shù)據(jù)質(zhì)量的相關(guān)途徑;龍秋波等[6]利用中國(guó)水利普查數(shù)據(jù)、水資源統(tǒng)計(jì)公報(bào)數(shù)據(jù)等進(jìn)行數(shù)據(jù)統(tǒng)計(jì)差異分析,并構(gòu)建了趨勢(shì)離差和線性回歸模型等,分別實(shí)現(xiàn)了不同行業(yè)之間水資源數(shù)據(jù)差異甄別與修正;方海泉等[7]選用中位數(shù)與集成模態(tài)分解技術(shù)對(duì)水資源監(jiān)測(cè)數(shù)據(jù)進(jìn)行分析,并認(rèn)為根據(jù)數(shù)據(jù)之間的偏差比率可識(shí)別其異常值;魏晶茹等[8]針對(duì)污水監(jiān)測(cè)數(shù)據(jù)中存在的數(shù)據(jù)異常及缺失問(wèn)題,建立了非線性的支持向量機(jī)模型,分別利用擬合誤差與樣本訓(xùn)練值來(lái)完成異常數(shù)據(jù)的辨識(shí)和缺失數(shù)據(jù)的補(bǔ)充。此外,還有學(xué)者探討了經(jīng)典統(tǒng)計(jì)學(xué)中的拉依達(dá)準(zhǔn)則在水文數(shù)據(jù)異常值處理中的應(yīng)用[9]。
綜上可知,水資源監(jiān)測(cè)異常數(shù)據(jù)的識(shí)別與處理已成為水資源管理研究工作的重點(diǎn),而學(xué)者們嘗試諸多數(shù)據(jù)建模方法并建立了一定程度的分析基礎(chǔ),但實(shí)際上水資源監(jiān)測(cè)數(shù)據(jù)上傳至國(guó)家水資源管理系統(tǒng)中具有數(shù)據(jù)規(guī)模大、人工檢測(cè)操作復(fù)雜等特點(diǎn),同時(shí)其數(shù)據(jù)本身呈現(xiàn)出季節(jié)波動(dòng)規(guī)律,此背景下達(dá)到有效識(shí)別監(jiān)測(cè)異常數(shù)據(jù)的目標(biāo)則需要構(gòu)建與其相適應(yīng)的檢測(cè)模型。據(jù)此,本文針對(duì)日取用水量監(jiān)測(cè)數(shù)據(jù)為研究對(duì)象,結(jié)合該類監(jiān)測(cè)數(shù)據(jù)統(tǒng)計(jì)中的實(shí)際情況,提出一種基于移動(dòng)平均擬合和模態(tài)分解的水資源監(jiān)測(cè)異常數(shù)據(jù)檢測(cè)方法,分別從可直觀辨識(shí)與非可直觀辨識(shí)的水資源異常數(shù)據(jù)處理角度完成其異常數(shù)據(jù)的辨識(shí),并在驗(yàn)證模型有效性基礎(chǔ)上利用粒子群-支持向量機(jī)仿真模型實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的恢復(fù)。
1.1 可直觀辨識(shí)異常數(shù)據(jù)情景
可直觀辨識(shí)的水資源監(jiān)測(cè)數(shù)據(jù)異常是指能夠利用其監(jiān)測(cè)數(shù)據(jù)值的變化大小或統(tǒng)計(jì)曲線的走勢(shì)而直接讀取的非常規(guī)數(shù)據(jù)狀態(tài)。按照水資源監(jiān)測(cè)系統(tǒng)呈現(xiàn)出的水資源監(jiān)測(cè)數(shù)據(jù)狀況,以日取水量數(shù)據(jù)為例,其可直觀識(shí)別出相對(duì)典型的監(jiān)測(cè)數(shù)據(jù)異常情況有:①數(shù)據(jù)值連續(xù)為零。如圖1a所示,水資源監(jiān)測(cè)數(shù)據(jù)連續(xù)一段時(shí)間內(nèi)取水量為零,該情況下多是由于監(jiān)測(cè)設(shè)備停用、傳感器損壞等問(wèn)題導(dǎo)致。②數(shù)據(jù)值連續(xù)不變。即水資源監(jiān)測(cè)數(shù)據(jù)處于非零狀態(tài)的恒定值(圖1b),正常狀態(tài)下日取水量均會(huì)存在不同程度的差異,但長(zhǎng)時(shí)間不發(fā)生變化則說(shuō)明其具有產(chǎn)生異常的可能。③數(shù)據(jù)值突變過(guò)大、過(guò)低、為零。該情景主要指監(jiān)測(cè)數(shù)據(jù)在某一點(diǎn)上出現(xiàn)明顯的突變,但隨后趨于波動(dòng)不大的連續(xù)狀態(tài)(圖1c),而突變的原因有多種,包括該日取水量確實(shí)由于水資源需求而改變,但也可能是設(shè)備受外界環(huán)境干擾而產(chǎn)生異常波動(dòng)。④數(shù)據(jù)值季節(jié)性反差。正常狀態(tài)下日取水量總體上呈一定規(guī)律變化,例如觀測(cè)國(guó)家水資源管理系統(tǒng)中對(duì)重點(diǎn)取用水戶的監(jiān)測(cè)數(shù)據(jù)值多數(shù)是“夏季高而冬季低”的趨勢(shì),這主要是由于夏季取用水需求相對(duì)較高導(dǎo)致,但局部異常數(shù)據(jù)則表現(xiàn)出相反態(tài)勢(shì),即冬季總體水資源需求量相對(duì)夏季應(yīng)下降但所監(jiān)測(cè)的數(shù)據(jù)卻呈持續(xù)上升趨勢(shì)(圖1d,其中藍(lán)點(diǎn)表示冬季原始監(jiān)測(cè)數(shù)據(jù)相對(duì)夏季呈現(xiàn)出偏高的異常狀態(tài),紅點(diǎn)表示正常狀態(tài)下相對(duì)夏季偏低的監(jiān)測(cè)數(shù)據(jù)狀態(tài)),或在夏季出現(xiàn)相反的現(xiàn)象。⑤數(shù)據(jù)值缺失。該問(wèn)題存在兩種表現(xiàn)形式,即數(shù)據(jù)連續(xù)性缺失與間斷性缺失,這兩種均為水資源監(jiān)測(cè)系統(tǒng)中無(wú)法獲取實(shí)際監(jiān)測(cè)數(shù)據(jù)而造成數(shù)據(jù)值處于空白,但前者是指特定時(shí)間段內(nèi)某一點(diǎn)或連續(xù)某幾點(diǎn)出現(xiàn)監(jiān)測(cè)數(shù)據(jù)缺失,而后者則是一套原始數(shù)據(jù)中存在非連續(xù)的2處以上數(shù)據(jù)缺失,對(duì)于上述場(chǎng)景的異常數(shù)據(jù)重構(gòu)通常需要與歷史年份下該時(shí)間段內(nèi)的監(jiān)測(cè)數(shù)據(jù)進(jìn)行擬合與對(duì)比進(jìn)行判定,但是由于目前水資源監(jiān)控能力尚處于建設(shè)階段,其所能獲取的歷史年份監(jiān)測(cè)數(shù)據(jù)相對(duì)有限,亟需采用一些定量的方法對(duì)其進(jìn)行重構(gòu)。
圖1 可直觀辨識(shí)的水資源監(jiān)測(cè)異常數(shù)據(jù)情景Fig.1 Visual identification of abnormal data scenarios for water resources detection
對(duì)于可直觀辨識(shí)的水資源監(jiān)測(cè)異常數(shù)據(jù)需要依據(jù)實(shí)際情況,通過(guò)反饋校對(duì)的形式檢驗(yàn)數(shù)據(jù)的真?zhèn)?,若是由?shí)際需求而引發(fā)的數(shù)據(jù)變動(dòng)則不需再進(jìn)行調(diào)整,而對(duì)于由于設(shè)備損壞、人工操作等導(dǎo)致的數(shù)據(jù)異常則需要采取相應(yīng)的措施進(jìn)行數(shù)據(jù)修正。
1.2 非可直觀辨識(shí)異常數(shù)據(jù)情景
除上述可直觀辨識(shí)的異常數(shù)據(jù)情景外,其它情景多為水資源監(jiān)測(cè)數(shù)據(jù)連續(xù)且上下波動(dòng)幅度并不明顯的情況,但這其中并不能排除全部為監(jiān)測(cè)到的精準(zhǔn)數(shù)據(jù),通常也會(huì)存在通過(guò)直接觀測(cè)而無(wú)法輕易發(fā)現(xiàn)的數(shù)據(jù)異常值,對(duì)此可將此類異常數(shù)據(jù)稱為非可直觀辨識(shí)異常數(shù)據(jù)。據(jù)其數(shù)據(jù)特性來(lái)看,非可直觀辨識(shí)異常數(shù)據(jù)檢測(cè)要在看似正常的數(shù)據(jù)流中查找存在異常的數(shù)據(jù)點(diǎn),其判定精度直接關(guān)系到水資源監(jiān)控工作的復(fù)雜性,但此類異常數(shù)據(jù)的排查難度明顯高于可直觀辨識(shí)的異常數(shù)據(jù),而這也是自國(guó)家水資源監(jiān)控能力建設(shè)以來(lái)亟待解決的難點(diǎn)。
1.3 技術(shù)路線
基于現(xiàn)有國(guó)家水資源監(jiān)測(cè)系統(tǒng)中異常數(shù)據(jù)的表征狀態(tài),本文按照異常數(shù)據(jù)先檢測(cè)后重構(gòu)的思路,確定技術(shù)路線如圖2所示。
圖2 研究技術(shù)路線Fig.2 Technical route of research
2.1 概率統(tǒng)計(jì)模型
常用經(jīng)典統(tǒng)計(jì)學(xué)異常值檢測(cè)準(zhǔn)則有拉依達(dá)準(zhǔn)則(3σ)、格拉布斯準(zhǔn)則、狄克遜準(zhǔn)則等[10],這類準(zhǔn)則的使用通常是建立在單次試驗(yàn)重復(fù)測(cè)量的基礎(chǔ)上,但水資源監(jiān)測(cè)數(shù)據(jù)每日測(cè)量重復(fù)次數(shù)有限,因此這些準(zhǔn)則在水資源監(jiān)測(cè)數(shù)據(jù)異常值辨析的適用性上有待驗(yàn)證。
2.2 模態(tài)分解模型
集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)是對(duì)經(jīng)典模態(tài)分解進(jìn)行改進(jìn)的一種融合噪聲輔助數(shù)據(jù)處理方法,在模態(tài)分解上具有抗混疊的優(yōu)勢(shì)[11]。選取EEMD處理水資源監(jiān)測(cè)異常數(shù)據(jù)的識(shí)別,可有效提取監(jiān)測(cè)數(shù)據(jù)固有模態(tài)函數(shù)(Intrinsic mode function,IMF)并挖掘異常特征向量規(guī)律[12],其步驟如下:
(1)對(duì)原始時(shí)間序列x(t)添加隨機(jī)高斯白噪聲ηm(t),取得融合噪聲后的待處理序列
xm(t)=x(t)+ηm(t)
(1)
(2)將含有白噪聲的序列xm(t)進(jìn)行EMD分解,得到n個(gè)IMF分量ci,m(t)(i=1,2,…,n)和剩余分量rn,m(t)。
(3)添加均方根值相等的不同白噪聲序列,并反復(fù)運(yùn)行上述步驟,取得M組不同的IMF分量及剩余分量。
(4)計(jì)算M組IMF分量與剩余分量的均值,將其最終分解取得的IMF分量與剩余分量定義為模態(tài)分解EEMD的分析結(jié)果,即
(2)
2.3 粒子群-支持向量機(jī)仿真模型
考慮數(shù)據(jù)樣本的規(guī)模和最小二乘支持向量機(jī)(LSSVM)在解決非線性、規(guī)模樣本等問(wèn)題的擬合優(yōu)勢(shì)[13],本文選取該方法對(duì)水資源監(jiān)測(cè)異常數(shù)據(jù)進(jìn)行恢復(fù)。同時(shí),利用粒子群算法(PSO)優(yōu)化LSSVM核函數(shù)的參數(shù)。其中LSSVM目標(biāo)函數(shù)為
(3)
式中ω——權(quán)向量θ——誤差向量
γ——懲罰因子,γgt;0
考慮RBF核函數(shù)處理非線性輸入與輸出關(guān)系的適用性,選取其作為L(zhǎng)SSVM的核函數(shù)[14]
(4)
式中ωi——Lagrange乘子
圖3 利用PSO優(yōu)化LSSVM參數(shù)流程Fig.3 Flow chart of parameters of LSSVM optimized by PSO
選取參數(shù)優(yōu)化后的LSSVM模型,將除了存在數(shù)據(jù)明顯異常的水資源監(jiān)測(cè)數(shù)據(jù)作為模型訓(xùn)練樣本進(jìn)行擬合,通過(guò)控制擬合誤差辨識(shí)其監(jiān)測(cè)數(shù)據(jù)異常值,進(jìn)而根據(jù)擬合結(jié)果對(duì)水資源監(jiān)測(cè)異常數(shù)據(jù)進(jìn)行恢復(fù)。
3.1 數(shù)據(jù)說(shuō)明
以某水務(wù)有限公司2016年日取水量監(jiān)測(cè)數(shù)據(jù)為例(共366 d),該數(shù)據(jù)序列源于國(guó)家水資源管理系統(tǒng)數(shù)據(jù)庫(kù),記為x(p)(圖4)。對(duì)其可直觀辨識(shí)的水資源異常數(shù)據(jù)初步處理后,重點(diǎn)分析其非可直觀辨識(shí)的日取水量監(jiān)測(cè)異常數(shù)據(jù)。
圖4 日取水量監(jiān)測(cè)數(shù)據(jù)變化狀態(tài)Fig.4 Changing states of daily monitoring water data
3.2 可直觀辨識(shí)的水資源異常數(shù)據(jù)粗處理
按照可直觀辨識(shí)的水資源異常數(shù)據(jù)的情景類別,觀測(cè)圖4中未出現(xiàn)季節(jié)反差的現(xiàn)象,但需對(duì)日取水量監(jiān)測(cè)數(shù)據(jù)的出現(xiàn)數(shù)值突變過(guò)大、為零、缺失、連續(xù)恒定不變的數(shù)據(jù)點(diǎn)進(jìn)行初篩,其中數(shù)值突變過(guò)大包括過(guò)高和過(guò)低兩種情況。對(duì)于這類異常數(shù)據(jù)需要在進(jìn)行非可直觀辨識(shí)異常數(shù)據(jù)分析建模前進(jìn)行剔除,否則易受其影響而導(dǎo)致所建數(shù)據(jù)模型判定精度受損,但是同時(shí)也要考慮日取水量監(jiān)測(cè)數(shù)據(jù)信息狀態(tài)的反映,避免由于數(shù)據(jù)剔除規(guī)模過(guò)大而造成數(shù)據(jù)建模信息支撐不足。據(jù)此,鑒于日取水量通常受季節(jié)影響相對(duì)顯著,可分別采用多項(xiàng)式擬合、移動(dòng)平均算法預(yù)估其可直觀辨識(shí)的水資源異常數(shù)據(jù)(圖5、6,綠色曲線表示多項(xiàng)式與移動(dòng)平均擬合曲線,紅色點(diǎn)指識(shí)別的異常數(shù)據(jù))。其中,利用多項(xiàng)式與移動(dòng)平均數(shù)據(jù)擬合時(shí),可參考經(jīng)典統(tǒng)計(jì)學(xué)中的拉依達(dá)準(zhǔn)則對(duì)大于“樣本均值±3倍標(biāo)準(zhǔn)差”數(shù)據(jù)為異常值的定義方法,但同時(shí)考慮相比統(tǒng)計(jì)類數(shù)據(jù),監(jiān)測(cè)類數(shù)據(jù)具有監(jiān)測(cè)頻率高、部分異常值波動(dòng)幅度大等特點(diǎn),若直接采用拉依達(dá)準(zhǔn)則易受異常值影響導(dǎo)致其閾值范圍準(zhǔn)確度降低。因此,此處采用在剔除樣本數(shù)據(jù)最大值與最小值的基礎(chǔ)上計(jì)算其數(shù)據(jù)標(biāo)準(zhǔn)差,進(jìn)而采用“擬合值±3倍標(biāo)準(zhǔn)差”的方法識(shí)別異常數(shù)據(jù)。其中,擬合值是指運(yùn)用多項(xiàng)式與移動(dòng)平均算法在各監(jiān)測(cè)時(shí)刻上的擬合數(shù)據(jù)。
圖5 基于多項(xiàng)式的數(shù)據(jù)擬合曲線與異常點(diǎn)識(shí)別Fig.5 Data fitting curve and abnormal point identification based on polynomial
圖6 基于移動(dòng)平均的數(shù)據(jù)擬合曲線與異常點(diǎn)識(shí)別Fig.6 Data fitting curve and abnormal point identification based on moving average
上述多項(xiàng)式擬合可基于數(shù)據(jù)樣本總體對(duì)其宏觀變動(dòng)趨勢(shì)進(jìn)行反映,具有簡(jiǎn)單而直觀的特點(diǎn),但通常也易出現(xiàn)過(guò)擬合或欠擬合的現(xiàn)象,尤其是在監(jiān)測(cè)數(shù)據(jù)擬合中對(duì)其數(shù)據(jù)的局部波動(dòng)規(guī)律擬合不足;而移動(dòng)平均法則不僅對(duì)原始監(jiān)測(cè)數(shù)據(jù)具有修勻或平滑的作用,而且同時(shí)還可以在一定程度上融合原有時(shí)序數(shù)據(jù)的波動(dòng)特點(diǎn),但無(wú)法實(shí)現(xiàn)對(duì)波動(dòng)幅度并非異常明顯數(shù)據(jù)的檢驗(yàn)。根據(jù)數(shù)據(jù)離散狀態(tài),可知多項(xiàng)式擬合狀態(tài)下需要剔除的異常數(shù)據(jù)點(diǎn)相對(duì)較多(41項(xiàng)),而經(jīng)實(shí)際校驗(yàn)反饋發(fā)現(xiàn)其中部分?jǐn)?shù)據(jù)點(diǎn)被誤判為異常值。采用移動(dòng)平均法所需剔除異常數(shù)據(jù)點(diǎn)為14項(xiàng),其擬合的數(shù)據(jù)波動(dòng)規(guī)律要比多項(xiàng)式擬合效果相對(duì)更加顯著。而對(duì)比兩種方法監(jiān)測(cè)出的異常數(shù)據(jù)量,多項(xiàng)式擬合要遠(yuǎn)高于移動(dòng)平均法,這主要是因?yàn)橐苿?dòng)平均法能夠在不改變?cè)急O(jiān)測(cè)時(shí)序數(shù)據(jù)趨勢(shì)的情況下,可對(duì)局部監(jiān)測(cè)數(shù)據(jù)的變動(dòng)規(guī)律進(jìn)行較高程度的擬合,并體現(xiàn)其局部波動(dòng)狀態(tài),多項(xiàng)式擬合難以實(shí)現(xiàn)該功能,而對(duì)于移動(dòng)平均法無(wú)法檢測(cè)出的非可直觀辨識(shí)異常數(shù)據(jù)則可通過(guò)EEMD方法進(jìn)行進(jìn)一步挖掘。因此,在保障數(shù)據(jù)建模信息盡可能完整的前提下,選取移動(dòng)平均法作出的可直觀辨識(shí)的水資源異常數(shù)據(jù)更加合理,剔除這類異常數(shù)據(jù)點(diǎn)后的日取水量監(jiān)測(cè)數(shù)據(jù)序列記為x(p′),其曲線如圖7所示。
圖7 剔除可直觀辨識(shí)異常點(diǎn)后監(jiān)測(cè)數(shù)據(jù)Fig.7 Daily monitoring water data after abnormal data revised
3.3 基于模態(tài)分解的非可直觀辨識(shí)異常數(shù)據(jù)分析
以初步修正后的時(shí)間序列x(p′)為樣本,在維持其數(shù)據(jù)點(diǎn)時(shí)序位置不變的情況下采取EEMD模型分解其樣本數(shù)據(jù),如圖8所示。其中包括8組分量,7個(gè)固有模態(tài)函數(shù)ci(i=1,2,…,7)與1個(gè)殘余項(xiàng)r。觀測(cè)其分量可知c1整體均呈高頻噪聲狀態(tài),而c2局部數(shù)據(jù)噪聲較為顯著,考慮監(jiān)測(cè)數(shù)據(jù)中突變型異常數(shù)據(jù)的特征,其異常數(shù)據(jù)通??梢l(fā)局部監(jiān)測(cè)值發(fā)生相對(duì)顯著的時(shí)序波動(dòng),表現(xiàn)于模態(tài)分量中為高頻噪聲,因此,要取得相對(duì)穩(wěn)定的整體原始監(jiān)測(cè)數(shù)據(jù)與局部變動(dòng)態(tài)勢(shì),則可對(duì)高頻分量進(jìn)行剔除處理,并利用剩余低頻分量實(shí)現(xiàn)對(duì)原x(p′)數(shù)據(jù)序列的濾波處理。因此,可將后6項(xiàng)相對(duì)低頻分量進(jìn)行數(shù)組重構(gòu),記為x(p″),如圖9所示。按照重構(gòu)結(jié)果,可發(fā)現(xiàn)重構(gòu)數(shù)據(jù)序列x(p″)能夠?qū)颖局械亩鄶?shù)正常數(shù)據(jù)進(jìn)行較高精度擬合,并取得了相對(duì)較為平緩的重構(gòu)數(shù)據(jù)趨勢(shì)線,即滿足對(duì)數(shù)據(jù)變化特征客觀反映的標(biāo)準(zhǔn)。
圖8 非可直觀辨識(shí)異常數(shù)據(jù)模態(tài)分解Fig.8 Daily monitoring water data analysis by EEMD method
圖9 模態(tài)分解重構(gòu)數(shù)據(jù)擬合狀態(tài)Fig.9 Data reconstruction based on EEMD method
圖10 相對(duì)誤差計(jì)算結(jié)果Fig.10 Results of relative error calculation
圖11 全部異常數(shù)據(jù)檢測(cè)結(jié)果Fig.11 Results of all abnormal data detection
為進(jìn)一步提高基于模態(tài)分解重構(gòu)數(shù)據(jù)與粗處理后監(jiān)測(cè)原始數(shù)據(jù)的對(duì)比程度,需測(cè)算數(shù)據(jù)序列之間的相對(duì)誤差E_p,結(jié)果見(jiàn)圖10。按照相對(duì)誤差E_p閾值±0.5的控制標(biāo)準(zhǔn)(該閾值根據(jù)現(xiàn)有水資源監(jiān)測(cè)數(shù)據(jù)統(tǒng)計(jì)分析和相關(guān)專家經(jīng)驗(yàn)初步設(shè)定,隨著其監(jiān)測(cè)數(shù)據(jù)歷史樣本的增加可進(jìn)一步優(yōu)化),設(shè)定當(dāng)|E_p|大于0.5時(shí),其所對(duì)應(yīng)的x(p″)數(shù)據(jù)點(diǎn)判定為異常值。據(jù)此,發(fā)現(xiàn)其中有11項(xiàng)監(jiān)測(cè)數(shù)據(jù)出現(xiàn)異常狀態(tài)。而為增強(qiáng)異常數(shù)據(jù)在水資源管理系統(tǒng)中的可視化水平,則結(jié)合可直觀辨識(shí)的日取水量異常數(shù)據(jù)粗處理結(jié)果,將整個(gè)步驟中判定為異常數(shù)據(jù)(含可直觀辨識(shí)與非可直觀辨識(shí)異常數(shù)據(jù))點(diǎn)處均設(shè)為零,記為x(p?),如圖11所示。由圖11可看出,出現(xiàn)異常數(shù)據(jù)的時(shí)間多集中于上半年,而下半年則相對(duì)較少,說(shuō)明隨著水資源監(jiān)測(cè)體系與水資源監(jiān)控管理信息平臺(tái)建設(shè)的不斷完善,對(duì)水資源監(jiān)測(cè)數(shù)據(jù)采集與傳輸精準(zhǔn)度的提升有了顯著性改善。而局部水資源監(jiān)測(cè)異常數(shù)據(jù)表明,部分監(jiān)測(cè)還存在數(shù)據(jù)連續(xù)性異常的現(xiàn)象,特別是在132~137 d期間,數(shù)據(jù)呈連續(xù)為零的狀態(tài),而此類問(wèn)題的多數(shù)情況下是由監(jiān)測(cè)設(shè)備本身或受環(huán)境影響而導(dǎo)致,即說(shuō)明在整體水資源監(jiān)測(cè)水平上升的良性趨勢(shì)下,局部監(jiān)測(cè)基礎(chǔ)設(shè)施仍需完善。
為驗(yàn)證本文提出的水資源監(jiān)測(cè)異常數(shù)據(jù)檢驗(yàn)方法的有效性,同時(shí)采用了經(jīng)典統(tǒng)計(jì)學(xué)中的3σ準(zhǔn)則和箱線圖方法對(duì)其數(shù)據(jù)進(jìn)行異常分析[18],以增加對(duì)比度。由于這類統(tǒng)計(jì)方法適用的條件存在差異,且缺乏對(duì)水資源監(jiān)測(cè)數(shù)據(jù)時(shí)序特征的考慮,結(jié)果發(fā)現(xiàn)在依據(jù)3σ準(zhǔn)則下,其正常閾值范圍為[-1 299.56, 15 510.83],即僅有3個(gè)數(shù)據(jù)異常點(diǎn)可被識(shí)別;而選取箱線圖統(tǒng)計(jì)中,也只有4個(gè)異常點(diǎn)被檢驗(yàn)出來(lái)(圖12),多數(shù)異常值被忽略,無(wú)法為水資源監(jiān)測(cè)數(shù)據(jù)分析與決策提供足夠的信息支撐。而該對(duì)比結(jié)果也進(jìn)一步印證了本文所采用的異常值檢測(cè)模型對(duì)水資源監(jiān)測(cè)數(shù)據(jù)具有實(shí)用性。
圖12 基于箱線圖異常值檢測(cè)結(jié)果Fig.12 Abnormal data detection based on box-plot
3.4 基于PSO-LSSVM的異常數(shù)據(jù)恢復(fù)
ij=(xij-xjmax)/(xjmax-xjmin)
(5)
xj——xij所在j列數(shù)值
xij——原始監(jiān)測(cè)數(shù)據(jù)
xjmax——xj的最大值
xjmin——xj的最小值
利用RBF核函數(shù),根據(jù)模型(4)對(duì)數(shù)據(jù)序列?_p分別進(jìn)行LSSVM、PSO-LSSVM模型樣本訓(xùn)練,并通過(guò)PSO-LSSVM擬合模型重構(gòu)圖11中檢測(cè)出的異常數(shù)據(jù)點(diǎn),結(jié)果如圖13與圖14所示,而圖15顯示了粒子群進(jìn)化中適應(yīng)度的變化情況。
圖13 基于序列?_p的PSO-LSSVM數(shù)據(jù)模擬Fig.13 PSO-LSSVM sample training based on ?_p
圖14 基于PSO-LSSVM的異常數(shù)據(jù)恢復(fù)Fig.14 Recovery of abnormal data based on PSO-LSSVM
圖15 粒子群進(jìn)化與適應(yīng)度變化曲線Fig.15 Evolution and fitness of particle swarm
圖16 基于曲線擬合的異常數(shù)據(jù)恢復(fù)Fig.16 Recovery of abnormal data based on curve fitting
3.5 討論
(1)在國(guó)家水資源監(jiān)控能力二期建設(shè)的關(guān)鍵階段,如何對(duì)現(xiàn)有規(guī)模性水資源監(jiān)測(cè)數(shù)據(jù)進(jìn)行全面分析,進(jìn)而為水資源管理決策提供有效支撐是亟需解決的重要問(wèn)題,而實(shí)現(xiàn)數(shù)據(jù)分析決策支持的前提是提高數(shù)據(jù)的可用性,尤其是水資源監(jiān)測(cè)數(shù)據(jù)完備構(gòu)建與真?zhèn)舞b定,這類問(wèn)題與水資源監(jiān)測(cè)異常數(shù)據(jù)緊密相關(guān)。然而現(xiàn)階段相關(guān)部門(mén)及學(xué)術(shù)研究中對(duì)水資源監(jiān)測(cè)異常數(shù)據(jù)并沒(méi)有形成統(tǒng)一的認(rèn)識(shí)[19-20],在實(shí)際水資源統(tǒng)計(jì)與監(jiān)測(cè)數(shù)據(jù)管理中,通常認(rèn)為異常值是偏離鄰近監(jiān)測(cè)值較大的數(shù)據(jù)。據(jù)此,本文所定義的水資源監(jiān)測(cè)異常數(shù)據(jù)是出現(xiàn)數(shù)值連續(xù)不變、數(shù)值呈季節(jié)性反差,以及數(shù)據(jù)相比鄰域時(shí)刻呈現(xiàn)突變過(guò)大、過(guò)低或?yàn)榱愕鹊姆浅R?guī)數(shù)據(jù)。該定義方式基本符合水資源監(jiān)測(cè)數(shù)據(jù)管理中的實(shí)際狀況,也可對(duì)相關(guān)監(jiān)測(cè)數(shù)據(jù)分析提供借鑒。
(2)基于維持水資源監(jiān)測(cè)異常數(shù)據(jù)的實(shí)際特征而采取的移動(dòng)平均擬合與EEMD方法識(shí)別日取水量監(jiān)測(cè)異常數(shù)據(jù)的研究思路,能夠較大程度地模擬監(jiān)測(cè)點(diǎn)的水資源取用狀態(tài)及變動(dòng)趨勢(shì)。實(shí)際上,導(dǎo)致水資源監(jiān)測(cè)數(shù)據(jù)異常的因素有很多,但是歸結(jié)起來(lái)可分為兩大類,即實(shí)際突變異常和待修正異常。其中實(shí)際突變異常主要是指由于實(shí)際取用水需求改變而引發(fā)的監(jiān)測(cè)數(shù)據(jù)上升或下降,而待修正異常則是受監(jiān)測(cè)設(shè)備或環(huán)境等影響而造成實(shí)際數(shù)據(jù)與水資源管理系統(tǒng)中呈現(xiàn)的數(shù)據(jù)存在較大差異。對(duì)于前者可通過(guò)人工校對(duì)識(shí)別,并保留其原始監(jiān)測(cè)數(shù)據(jù),而后者則需運(yùn)用相應(yīng)的方法或模型進(jìn)行辨識(shí),而本文提出方法可為其提供一種數(shù)據(jù)分析方法。此外,運(yùn)用PSO-LSSVM的日取水量監(jiān)測(cè)數(shù)據(jù)擬合曲線與監(jiān)測(cè)點(diǎn)取用水實(shí)際狀況相一致,且符合季節(jié)波動(dòng)規(guī)律,這不僅可用于解決監(jiān)測(cè)異常數(shù)據(jù)的恢復(fù),也適用于監(jiān)測(cè)數(shù)據(jù)缺失填補(bǔ)的情況。
按照可直觀辨識(shí)與非可直觀辨識(shí)的異常值識(shí)別思路對(duì)水資源監(jiān)測(cè)異常數(shù)據(jù)存在情況進(jìn)行總結(jié)梳理,在其基礎(chǔ)上提出了基于移動(dòng)平均擬合與EEMD相結(jié)合的水資源監(jiān)測(cè)異常數(shù)據(jù)檢測(cè)模型,和基于PSO-LSSVM的異常數(shù)據(jù)恢復(fù)方法,并通過(guò)對(duì)水務(wù)公司的實(shí)際日取水量監(jiān)測(cè)數(shù)據(jù)進(jìn)行實(shí)證分析,驗(yàn)證了上述方法在處理其監(jiān)測(cè)異常數(shù)據(jù)上的可行性與有效性。研究發(fā)現(xiàn),傳統(tǒng)的統(tǒng)計(jì)手段難以滿足監(jiān)測(cè)頻率高同時(shí)具有季節(jié)周期波動(dòng)規(guī)律的水資源監(jiān)測(cè)數(shù)據(jù)分析的要求,而經(jīng)過(guò)對(duì)可直觀辨識(shí)的異常數(shù)據(jù)進(jìn)行粗處理后,采用EEMD方法可在保障其監(jiān)測(cè)數(shù)據(jù)時(shí)序特征狀態(tài)不變的情況下完成對(duì)異常數(shù)據(jù)的篩選,其適用性更強(qiáng)。同時(shí),PSO優(yōu)化后的LSSVM模型可更加系統(tǒng)地?cái)M合剔除異常數(shù)據(jù)后的樣本,其擬合狀態(tài)與實(shí)際取用水季節(jié)波動(dòng)規(guī)律基本一致。因此,該類監(jiān)測(cè)異常數(shù)據(jù)處理方法可為水行政部門(mén)推進(jìn)水資源監(jiān)控能力建設(shè)提供理論支持,也能對(duì)其它相關(guān)領(lǐng)域的時(shí)序監(jiān)測(cè)數(shù)據(jù)分析提供參考。
1 中華人民共和國(guó)水利部,財(cái)政部.國(guó)家水資源監(jiān)控能力建設(shè)項(xiàng)目實(shí)施方案(2012—2014)[S].北京: 中華人民共和國(guó)水利部,2012.
2 MANDEL P, MAUREL M, CHENU D. Better understanding of water quality evolution in water distribution networks using data clustering[J]. Water Research, 2015, 87: 69-78.
3 KAR S, RATHORE V S, SHARMA R, et al. Classification of river water pollution using Hyperion data[J]. Journal of Hydrology, 2016, 537: 221-233.
4 PARK S, JUNG S Y. Principal component analysis of water pipe flow data[J]. Procedia Engineering, 2014, 89: 395-400.
5 PISINARAS V, PETALAS C, GEMITZI A, et al. Water quantity and quality monitoring of Kosynthos river, north-eastern Greece[J]. Global Nest Journal, 2007, 9(3): 259-268.
6 龍秋波,賈紹鳳,汪黨獻(xiàn).中國(guó)用水?dāng)?shù)據(jù)統(tǒng)計(jì)差異分析[J].資源科學(xué), 2016, 38(2): 248-254.
LONG Qiubo, JIA Shaofeng, WANG Dangxian. Disparity in China’s water use statistics[J].Resources Science, 2016, 38(2): 248-254. (in Chinese)
7 方海泉,薛惠鋒,蔣云鐘,等.基于EEMD的水資源監(jiān)測(cè)數(shù)據(jù)異常值檢測(cè)與校正[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017,48(9):257-263. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1amp;file_no=20170932amp;journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2017.09.032.
FANG Haiquan, XUE Huifeng, JIANG Yunzhong, et al. Outlier detection and correction for water resources monitoring data based on EEMD[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2017,48(9):257-263. (in Chinese)
8 魏晶茹,馬瑜,白冰,等.基于PSO-SVM算法的環(huán)境監(jiān)測(cè)數(shù)據(jù)異常檢測(cè)和缺失補(bǔ)全[J].環(huán)境監(jiān)測(cè)管理與技術(shù), 2016, 28(4): 53-56.
WEI Jingru, MA Yu, BAI Bing, et al. Anomaly detection and missing completion of environment monitoring data based on PSO-SVM[J]. The Administration and Technique of Environmental Monitoring, 2016, 28(4): 53-56. (in Chinese)
9 侍建國(guó),張亦飛.拉依達(dá)準(zhǔn)則在處理區(qū)域水文數(shù)據(jù)異常值中的應(yīng)用[J].海河水利, 2016(5): 49-51.
SHI Jianguo, ZHANG Yifei. The application of Pauta criterion in regional hydrological outlier analysis[J]. Haihe Water Resources, 2016(5): 49-51. (in Chinese)
10 ANDERSON T W, ANDERSON T W, ANDERSON T W, et al. An introduction to multivariate statistical analysis[M]. New York: Wiley, 1958: 30-36.
11 曾祥,周曉軍,楊辰龍,等.基于經(jīng)驗(yàn)?zāi)B(tài)分解和S變換的缺陷超聲回波檢測(cè)方法[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(11):414-420.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20161156amp;flag=1. DOI:10.6041/j.issn.1000-1298.2016.11.056.
ZENG Xiang, ZHOU Xiaojun, YANG Chenlong, et al. Ultrasonic defect echoes identification based on empirical mode decomposition and stransform[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2016,47(11):414-420. (in Chinese)
12 WU Z, HUANG N E. Ensemble empirical mode decomposition: a noise-assisted data analysis method[J]. Advances in Adaptive Data Analysis, 2009, 1(1): 1-41.
13 SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300.
14 DEMPE S, ZEMKOHO A B. On the Karush-Kuhn-Tucker reformulation of the bilevel optimization problem[J]. Nonlinear Analysis: Theory, Methods amp; Applications, 2012, 75(3): 1202-1218.
15 GORJAEI R G, SONGOLZADEH R, TORKAMAN M, et al. A novel PSO-LSSVM model for predicting liquid rate of two phase flow through wellhead chokes[J]. Journal of Natural Gas Science and Engineering, 2015, 24: 228-237.
16 YANG X, YU F, PEDRYCZ W. Long-term forecasting of time series based on linear fuzzy information granules and fuzzy inference system[J]. International Journal of Approximate Reasoning, 2017, 81: 1-27.
17 SUBASI A. Classification of EMG signals using PSO optimized SVM for diagnosis of neuromuscular disorders[J]. Computers in Biology and Medicine, 2013, 43(5): 576-586.
18 KOSE E, TOKATLI C, ?ICEK A. Monitoring stream water quality: a statistical evaluation[J]. Polish Journal of Environmental Studies, 2014, 23(5): 1637-1647.
19 BARNETT V, LEWIS T. Outliers in statistical data[M]. New York: Wiley, 1994: 12-20.
20 FILZMOSER P. Identification of multivariate outliers: a performance study[J]. Austrian Journal of Statistics, 2016, 34(2): 127-138.
MethodsofAbnormalDataDetectionandRecoveryforWaterResourcesMonitoringBasedonEEMDandPSO-LSSVM
ZHANG Feng1XUE Huifeng1WANG Wei2SONG Xiaona3WAN Yi4
(1.GraduateSchool,ChinaAcademyofAerospaceSystemScientificandEngineering,Beijing100048,China2.ThomasJ.WatsonSchoolofEngineeringandAppliedScience,BinghamtonUniversity,StateUniversityofNewYork,BinghamtonNY13902,USA3.SchoolofBusiness,TaishanUniversity,Taian271000,China4.WaterResourcesManagementCenter,MinistryofWaterResources,Beijing100053,China)
The national water resources monitoring capacity building project which started in 2012 in China is an important way to improve the level of water conservancy information. It requires that the historical time-series monitoring data of water resources should be complete and reliable so that it can be used to support data analysis and decision making. The basic scenarios for monitoring abnormal data were summed up and a comprehensive model was proposed, aiming at abnormal data detection and recovery. Moving average fitting and ensemble empirical mode decomposition (EEMD) method were introduced to identify both observable and non-observable abnormal monitoring data. The particle swarm optimization based least squares support vector machine (PSO-LSSVM) was then adopted for abnormal data recovery and imputation. All above methods were tested with the daily water consumption monitoring data of water company. Results showed that the feature vector that contained exception data could be well preserved by moving average fitting and EEDM method and the effective reconstruction of water monitoring data was achieved, exhibiting better applicability than traditional statistical methods. Moreover, it can be observed that the PSO-LSSVM model had the ability to further improve the fitting results of the time-series data that excluded outliers. The fitted curve conformed to the seasonal fluctuation rule and it was consistent with the actual state of water demand. Accordingly, the objective of recovering the excluded data exception could be achieved reasonably by using this method. Furthermore, these methods can be applied to the analysis of monitoring data in other areas.
water resources monitoring; abnormal data; data reconstruction; modal decomposition; least squares support vector machine
10.6041/j.issn.1000-1298.2017.11.038
N945.2
A
1000-1298(2017)11-0316-08
2017-08-15
2017-09-07
國(guó)家自然科學(xué)基金委員會(huì)-廣東聯(lián)合基金項(xiàng)目(U1501253)和廣東省省級(jí)科技計(jì)劃項(xiàng)目(2016B010127005)
張峰(1989—),男,博士生,主要從事系統(tǒng)工程與工業(yè)工程研究,E-mail: aerospace1989@163.com