易思成 康喜明 吳 浩 胡少華
(1.武漢理工大學(xué)安全科學(xué)與應(yīng)急管理學(xué)院,湖北 武漢 430070;2.國(guó)網(wǎng)內(nèi)蒙古東部電力有限公司,內(nèi)蒙古 呼和浩特 010020;3.華中師范大學(xué)城市與環(huán)境科學(xué)學(xué)院,湖北 武漢 430079;4.國(guó)家大壩安全工程技術(shù)研究中心,湖北 武漢 430010)
尾礦庫是填筑廢棄礦渣的礦山設(shè)施,目前我國(guó)80%以上的尾礦庫采用上游法筑壩,其特點(diǎn)是在初期壩上采用分層填筑的方式形成后期子壩來增加庫容[1]。因此壩體位移是尾礦庫服役乃至閉庫后的一個(gè)關(guān)鍵監(jiān)控指標(biāo),目前普遍采用GPS對(duì)其進(jìn)行在線監(jiān)測(cè)[2]。然而,GPS監(jiān)測(cè)過程中由于數(shù)據(jù)采集頻次高且易受到雷擊、電壓等因素干擾,會(huì)在監(jiān)測(cè)數(shù)據(jù)中出現(xiàn)各種誤差;同時(shí)尾礦庫在受到壩體增高加載、地震、洪水等因素的影響時(shí),可能會(huì)出現(xiàn)壩體破壞失穩(wěn),發(fā)生潰壩事故,從而在監(jiān)測(cè)數(shù)據(jù)中產(chǎn)生大量異常值(本研究將監(jiān)測(cè)數(shù)據(jù)中的誤差與異常值統(tǒng)稱為離群值)。為提高尾礦壩位移監(jiān)測(cè)數(shù)據(jù)的可靠性,有效發(fā)現(xiàn)尾礦壩運(yùn)行過程中的異?,F(xiàn)象,準(zhǔn)確識(shí)別其位移監(jiān)測(cè)數(shù)據(jù)中的離群值對(duì)于尾礦壩安全監(jiān)控具有重要的意義[3-4]。
尾礦壩位移監(jiān)測(cè)數(shù)據(jù)往往呈現(xiàn)非線性特征且難以使用概率分布模型描述,因此基于統(tǒng)計(jì)的離群值診斷方法往往適用性不理想[4-5]。孤立森林(IF)作為一種無監(jiān)督檢測(cè)方法,對(duì)于離群值有著很好的識(shí)別能力[6]。張海龍等[7]采用IF算法對(duì)經(jīng)小波變換扣除趨勢(shì)項(xiàng)的監(jiān)測(cè)數(shù)據(jù)剩余量進(jìn)行處理,實(shí)現(xiàn)了大壩監(jiān)測(cè)數(shù)據(jù)離群值的識(shí)別;吳志強(qiáng)等[8]利用離散二進(jìn)制粒子群算法改進(jìn)IF算法,提升了算法的檢測(cè)精度和執(zhí)行效率。該類研究均未能有效解決IF算法僅對(duì)于全局敏感、對(duì)局部位置識(shí)別不佳的問題[9]。CHENG等[10]將局部離群因子(LOF)算法與IF算法相結(jié)合,對(duì)IF算法處理效果不佳的數(shù)據(jù)邊界位置采用LOF算法進(jìn)行二次診斷,實(shí)現(xiàn)了對(duì)局部位置數(shù)據(jù)的優(yōu)化處理。然而,該方法仍然存在一定的不足:①IF算法沒有明確定義異常概念所對(duì)應(yīng)的異常得分范圍;② 將IF與LOF算法結(jié)合使用時(shí),對(duì)于邊界位置的選取具有主觀性。因此,如何合理地定義異常得分范圍以及選擇邊界數(shù)據(jù)仍值得進(jìn)一步研究。
云模型(CM)是一種實(shí)現(xiàn)定量數(shù)據(jù)與定性概念相互轉(zhuǎn)化的有效方式,能夠完成知識(shí)與數(shù)據(jù)之間的不確定性認(rèn)知轉(zhuǎn)換。部分學(xué)者將其運(yùn)用于尾礦壩變形監(jiān)測(cè)預(yù)警,實(shí)現(xiàn)了尾礦壩變形預(yù)警閾值的有效確定[11]。采用云模型計(jì)算復(fù)雜數(shù)據(jù)集的邊界范圍,并根據(jù)計(jì)算所得閾值提取候選集用于二次診斷,能有效提高診斷的準(zhǔn)確率以及科學(xué)性。本研究在現(xiàn)有成果的基礎(chǔ)上,使用IF算法對(duì)數(shù)據(jù)集進(jìn)行初步篩查,將IF計(jì)算所得的異常得分作為變量,引入CM對(duì)其進(jìn)行處理,從而完成對(duì)異常區(qū)間以及數(shù)據(jù)邊界的確定,并由此提取二次診斷候選集,最后引入LOF算法對(duì)候選集進(jìn)行處理。為驗(yàn)證該模型的性能,結(jié)合工程實(shí)例進(jìn)行離群值診斷,并與IF模型結(jié)果進(jìn)行對(duì)比分析。
壩體位移GPS監(jiān)測(cè)點(diǎn)及監(jiān)測(cè)信號(hào)會(huì)不可避免地受到卸料、整平、碾壓等壩體施工過程、季節(jié)性降雨以及多山環(huán)境[12-14]等因素的影響,導(dǎo)致其在數(shù)據(jù)采集、傳輸過程中出現(xiàn)各種噪聲,從而使得監(jiān)測(cè)數(shù)據(jù)中出現(xiàn)空白值、粗差和隨機(jī)誤差??瞻字低ǔS蓚鞲衅魇б?表現(xiàn)為監(jiān)測(cè)數(shù)據(jù)的缺失;粗差是指含有粗大誤差、嚴(yán)重偏離真實(shí)值的數(shù)據(jù),常常是由觀測(cè)過程中的操作疏忽和數(shù)據(jù)的記錄、復(fù)制和計(jì)算處理過程中的過失錯(cuò)誤引起;隨機(jī)誤差則在數(shù)據(jù)序列中普遍存在,是由各種偶然因素造成的數(shù)據(jù)小幅度波動(dòng)現(xiàn)象。當(dāng)壩體由于滲流作用、洪水漫頂?shù)纫蛩豙15]造成不同程度潰壩時(shí),監(jiān)測(cè)數(shù)據(jù)中也會(huì)出現(xiàn)反映這些真實(shí)事件的異常值。尾礦壩位移監(jiān)測(cè)數(shù)據(jù)中的離群值如圖1所示。
圖1 監(jiān)測(cè)數(shù)據(jù)離群值分類Fig.1 Outlier classification of monitoring data
IF算法在處理位于邊界部分的隨機(jī)誤差時(shí)通常效果不佳。本研究引入局部離群因子(LOF)對(duì)數(shù)據(jù)邊界位置進(jìn)行二次診斷。然而數(shù)據(jù)邊界為抽象概念,沒有一個(gè)定量的指標(biāo)用以確定復(fù)雜數(shù)據(jù)集的邊界范圍。因此,需要一種合理有效的方法來確定尾礦壩地表位移監(jiān)測(cè)數(shù)據(jù)的邊界閾值。
IF算法是一種基于樹的離群值檢測(cè)算法,其基本原理是不斷地對(duì)數(shù)據(jù)集進(jìn)行分割,直至數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)都成為孤立點(diǎn),通過將各點(diǎn)被孤立時(shí)距離根節(jié)點(diǎn)的路徑長(zhǎng)度與標(biāo)準(zhǔn)值進(jìn)行比較,從而判斷是否為離群點(diǎn)[6]。IF算法的基本邏輯如圖2所示。
圖2 IF算法邏輯圖Fig.2 Logic diagram of IF algorithm
式中,E(h(x))為x的平均路徑長(zhǎng)度期望值;c(n)為標(biāo)準(zhǔn)平均路徑長(zhǎng)度。
判斷標(biāo)準(zhǔn)定義為
由于尾礦庫在線監(jiān)測(cè)系統(tǒng)需要保證監(jiān)測(cè)到整個(gè)尾礦壩全天候的運(yùn)行情況,因此其監(jiān)測(cè)范圍廣、測(cè)點(diǎn)布設(shè)較多、監(jiān)測(cè)周期極短,從而導(dǎo)致數(shù)據(jù)量非常龐大。IF算法能夠通過子采樣建立局部模型,適用于尾礦庫的大規(guī)模監(jiān)測(cè)數(shù)據(jù)。
IF算法雖然實(shí)現(xiàn)了對(duì)每個(gè)數(shù)據(jù)值賦予異常得分,然而式(2)中對(duì)于離群值的判斷只給出了一個(gè)模糊的概念,對(duì)得分處于(0.5,1)區(qū)間的數(shù)據(jù)點(diǎn)并沒有給出一個(gè)確定的閾值來評(píng)判其是否為離群值。因此,本研究引用CM算法確定(0.5,1)區(qū)間內(nèi)的異常得分閾值,并根據(jù)計(jì)算結(jié)果選取候選集,采用LOF算法對(duì)候選集進(jìn)行優(yōu)化計(jì)算。
CM算法中逆向云發(fā)生器可以完成定量數(shù)據(jù)向定性概念的轉(zhuǎn)化,將IF算法得到的異常得分S(x,n)位于(0.5,1)區(qū)間內(nèi)的值導(dǎo)入一維逆向云發(fā)生器進(jìn)行建模后生成云模型,根據(jù)云數(shù)字特征值進(jìn)行區(qū)間劃分從而確定異常閾值,云模型如圖3所示。
圖3 云模型示意Fig.3 Schematic of cloud model
圖3中,Ex,En,He分別代表期望、熵、超熵3個(gè)數(shù)字特征值。根據(jù)文獻(xiàn)[16]的相關(guān)計(jì)算結(jié)果,位于(Ex-3En,Ex-2En)和(Ex+2En,Ex+3En)區(qū)間中的云滴對(duì)“正?!备拍畹呢暙I(xiàn)度僅有4.3%,落在區(qū)間外的云滴對(duì)表征的定性概念幾乎無貢獻(xiàn)。因此本研究選取(Ex+2En,1)區(qū)間為顯著異常區(qū)間,其中的數(shù)據(jù)點(diǎn)認(rèn)定為IF算法識(shí)別的異常點(diǎn);(Ex,Ex+2En)區(qū)間為不確定區(qū)間,將該區(qū)間內(nèi)的數(shù)據(jù)作為候選集,引入LOF算法對(duì)其進(jìn)行離群值優(yōu)化診斷。LOF算法通過計(jì)算某樣本點(diǎn)x的局部離群因子(LOF值)來判斷該點(diǎn)是否為離群值,LOF值越大,表明該樣本點(diǎn)偏離局部中心的程度越多,越有可能為異常點(diǎn)[17]。LOF值定義為
式中,Nk(x)為x的第k距離;lrdk(x)為x的局部可達(dá)密度。
通過下式判斷x是否異常:
基于2017年河北省礦產(chǎn)資源開發(fā)利用基本情況與特點(diǎn),對(duì)比全國(guó)礦產(chǎn)資源開發(fā)利用情況[5-8],對(duì)2017年河北省礦產(chǎn)資源開發(fā)利用情況總結(jié)如下。
LOF算法通過對(duì)數(shù)據(jù)集中的每個(gè)點(diǎn)進(jìn)行計(jì)算而有著較高的準(zhǔn)確率,但是其計(jì)算量十分龐大,需要的存儲(chǔ)空間及時(shí)間復(fù)雜度高,不適用于大規(guī)模數(shù)據(jù)的檢測(cè)。通過IF算法對(duì)尾礦庫位移監(jiān)測(cè)數(shù)據(jù)進(jìn)行整體篩查、采用CM算法確定邊界部分?jǐn)?shù)據(jù)候選集后,再使用LOF算法對(duì)少量的候選集數(shù)據(jù)進(jìn)行離群值診斷,不僅能有效降低算法計(jì)算量,還能夠提高邊界部分離群值的診斷率。IF-CM-LOF模型如圖4所示。
圖4 IF-CM-LOF模型示意Fig.4 Schematic of IF-CM-LOF model
具體操作步驟為:①導(dǎo)入尾礦壩位移監(jiān)測(cè)數(shù)據(jù),構(gòu)造孤立樹及孤立森林,計(jì)算標(biāo)準(zhǔn)平均路徑長(zhǎng)度c(n)及各樣本點(diǎn)的平均路徑長(zhǎng)度期望E(h(x)),歸一化處理得到異常得分S(x,n);②根據(jù)式(1),導(dǎo)出S(x,n)位于(0.5,1)區(qū)間內(nèi)的數(shù)據(jù),采用CM算法構(gòu)建云模型,并根據(jù)云模型數(shù)字特征值選取閾值,取(Ex,Ex+2En)區(qū)間內(nèi)的數(shù)據(jù)作為離群值候選點(diǎn);③運(yùn)用LOF算法處理候選點(diǎn),計(jì)算各點(diǎn)的LOF值,根據(jù)式(3)確定隨機(jī)誤差。IF-CM-LOF算法的詳細(xì)流程如圖5所示。
圖5 IF-CM-LOF算法流程Fig.5 Flow of IF-CM-LOF algorithm
湖北省某尾礦庫為山谷型尾礦庫,采用上游式筑壩方式。初期壩為透水堆石壩,壩長(zhǎng)146.45 m,壩頂寬5 m,壩頂標(biāo)高50 m。每級(jí)子壩高度為3 m,現(xiàn)已堆積至 15期子壩,堆積標(biāo)高為 95 m,總庫容達(dá)1 469.34 m3。該尾礦庫于2014年完成了在線監(jiān)測(cè)系統(tǒng)的投運(yùn),通過GPS技術(shù)對(duì)壩體表面位移進(jìn)行在線監(jiān)測(cè),共布設(shè)了12個(gè)監(jiān)測(cè)點(diǎn)。本研究選取該尾礦壩同高程GB-1、GD-2以及同截面GB-2、GB-3共4個(gè)監(jiān)測(cè)點(diǎn)2017年1—6月的位移監(jiān)測(cè)數(shù)據(jù)作為測(cè)試樣本,來驗(yàn)證模型的性能。尾礦壩位移監(jiān)測(cè)點(diǎn)分布如圖6所示。
圖6 某尾礦壩位移測(cè)點(diǎn)分布Fig.6 Distribution of displacement measuring points of a tailing dam
為驗(yàn)證模型對(duì)離群值的診斷效果,本研究在4個(gè)測(cè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù)中分別設(shè)置部分?jǐn)?shù)據(jù)為離群點(diǎn),其類型、數(shù)量以及分布如表1、圖7所示。
表1 各測(cè)點(diǎn)的離群點(diǎn)類型及數(shù)量Table 1 Type and number of outliers at each measurement point
圖7 某尾礦壩各測(cè)點(diǎn)地表位移及離群值分布(2017年)Fig.7 Surface displacement and outlier distribution at each measuring point of a tailing dam (2017)
圖7(a)設(shè)置30個(gè)連續(xù)的空白值,用于模擬監(jiān)測(cè)過程中由于斷電等因素引發(fā)的監(jiān)測(cè)設(shè)備停止運(yùn)行狀況;圖7(b)設(shè)置100個(gè)連續(xù)的真實(shí)異常值,用于模擬尾礦壩發(fā)生潰壩情況下的數(shù)據(jù)監(jiān)測(cè)狀況;圖7(c)、圖7(d)為在全時(shí)間序列下設(shè)置的43個(gè)離散粗差以及90個(gè)隨機(jī)誤差,用于模擬監(jiān)測(cè)設(shè)備在各種復(fù)雜環(huán)境條件下所產(chǎn)生的噪聲。
本研究使用IF算法對(duì)數(shù)據(jù)進(jìn)行離群值診斷,由于算法給出的異常區(qū)間范圍不明確,因此本研究選擇異常得分范圍為(0.7,1)內(nèi)的點(diǎn)為離群點(diǎn),結(jié)果如圖8所示。
圖8 各測(cè)點(diǎn)IF診斷結(jié)果Fig.8 IF diagnosis results at each measurement point
由圖8(a)、圖8(c)可知:IF算法在處理空白值和粗差時(shí)有著良好的識(shí)別效果,體現(xiàn)了其對(duì)于全局敏感的特性。圖8(b)顯示在處理連續(xù)異常變化的真實(shí)異常值時(shí),IF算法識(shí)別結(jié)果不完整,出現(xiàn)了大量的漏判現(xiàn)象。這是由于算法沒有準(zhǔn)確地給出異常區(qū)間所對(duì)應(yīng)的得分,因此僅憑經(jīng)驗(yàn)選取的異常得分范圍不夠合理,無法囊括全部異常點(diǎn)。圖8(d)反映了IF算法在處理邊界數(shù)據(jù)時(shí),對(duì)于噪聲所帶來的隨機(jī)誤差會(huì)出現(xiàn)大量的漏判,這也是由于沒有合理選取異常區(qū)間范圍所致。此外,即使擴(kuò)大異常得分范圍,也會(huì)出現(xiàn)大量的誤判現(xiàn)象。其原因是IF算法在處理一維監(jiān)測(cè)數(shù)據(jù)時(shí),會(huì)將異常數(shù)據(jù)的篩選問題抽象為數(shù)據(jù)出現(xiàn)的頻次問題[18],而不會(huì)考慮數(shù)據(jù)在時(shí)間序列上的分布情況,使得某一個(gè)位移數(shù)據(jù)對(duì)應(yīng)的全時(shí)間序列下的數(shù)據(jù)點(diǎn)都被識(shí)別為離群點(diǎn)。因此,為準(zhǔn)確判斷邊界部分的隨機(jī)誤差,需要對(duì)其進(jìn)行二次診斷。
引入的CM模型能夠合理地選取邊界數(shù)據(jù)集,并解決IF算法異常區(qū)間的確定問題。提取IF算法異常得分處于模糊區(qū)間(0.5,1)內(nèi)的數(shù)據(jù)并導(dǎo)入逆向云發(fā)生器,結(jié)果如圖9所示。
圖9 各測(cè)點(diǎn)IF得分云圖(2017年)Fig.9 IF score cloud diagram of each measuring point (2017)
由圖9可知:4個(gè)測(cè)點(diǎn)的期望值Ex均在0.6附近,說明IF得分處于0.6附近的點(diǎn)為該樣本集的集中部分。以Ex+2En作為異常得分閾值邊界點(diǎn),選取(Ex,Ex+2En)區(qū)間作為二次診斷的候選區(qū)間,計(jì)算結(jié)果見表2。
表2 各測(cè)點(diǎn)CM特征值計(jì)算結(jié)果Table 2 Calculation results of CM characteristic values at each measuring point
候選集分布如圖10所示。
圖10 各測(cè)點(diǎn)候選集數(shù)據(jù)分布(2017年)Fig.10 Data distribution of candidate sets at each measuring point (2017)
由圖10可知:在引入CM對(duì)IF得分進(jìn)行閾值計(jì)算后,根據(jù)云數(shù)字特征值選取的候選集區(qū)間能夠準(zhǔn)確定位到復(fù)雜數(shù)據(jù)集的邊界,從而完成對(duì)邊界部分?jǐn)?shù)據(jù)的提取,實(shí)現(xiàn)了定量的IF得分?jǐn)?shù)據(jù)向定性的“邊界”概念轉(zhuǎn)化。
結(jié)合IF算法一次診斷結(jié)果,引入LOF算法對(duì)候選集進(jìn)行離群值的二次診斷,實(shí)現(xiàn)對(duì)邊界部分?jǐn)?shù)據(jù)中隨機(jī)誤差的識(shí)別,結(jié)果如圖11所示。
由圖11(a)、圖11(c)可知:該模型對(duì)空白值以及粗差的識(shí)別效果保留了IF算法本身所具有的優(yōu)越性;圖11(b)反映出經(jīng)過CM計(jì)算閾值后所確定的異常得分范圍相比經(jīng)驗(yàn)判斷的結(jié)果囊括了更多的真實(shí)異常值,體現(xiàn)出了該模型的科學(xué)性與合理性;圖11(d)體現(xiàn)出該模型對(duì)于邊界部分隨機(jī)誤差的識(shí)別效果較好。
分別計(jì)算分析了IF-CM-LOF模型與IF模型對(duì)于預(yù)先所設(shè)離群值的檢驗(yàn)效果,結(jié)果見表3。
表3 兩種模型離群值診斷結(jié)果Table 3 Outlier diagnosis results of the two models
由表3可知:IF對(duì)空白值以及粗差的識(shí)別效果較好,識(shí)別率均達(dá)到100%,體現(xiàn)出該算法對(duì)于全局離群點(diǎn)敏感的特性;然而對(duì)于真實(shí)異常值以及隨機(jī)誤差,識(shí)別率僅有16.5%和22.2%,主要原因是IF得分異常區(qū)間不明確,使得僅憑經(jīng)驗(yàn)判斷的得分閾值無法覆蓋全部離群點(diǎn),從而出現(xiàn)大量漏判。在引入CM對(duì)邊界數(shù)據(jù)進(jìn)行定位提取并使用LOF對(duì)其進(jìn)行二次診斷后,真實(shí)異常值和隨機(jī)誤差的識(shí)別率分別提高到至90%和61.1%,體現(xiàn)出CM對(duì)邊界范圍確定的可行性以及模型的整體優(yōu)越性。
(1)針對(duì)IF算法對(duì)于邊界位置數(shù)據(jù)異常識(shí)別結(jié)果的模糊性和不確定性問題,本研究通過逆向云變換將“邊界”這一抽象概念的定位問題轉(zhuǎn)化為邊界閾值的計(jì)算問題,實(shí)現(xiàn)了復(fù)雜數(shù)據(jù)集邊界位置的確定。通過進(jìn)一步引入LOF算法對(duì)邊界部分?jǐn)?shù)據(jù)離群值進(jìn)行二次精確診斷,彌補(bǔ)了IF算法對(duì)于邊界位置處理的不足。
(2)工程實(shí)例驗(yàn)證發(fā)現(xiàn),IF-CM-LOF模型對(duì)于真實(shí)異常值以及隨機(jī)誤差的檢測(cè)率達(dá)到90%以及61.1%,明顯優(yōu)于IF模型的16.5%和22.2%,反映出該模型的優(yōu)越性。
(3)目前,IF-CM-LOF模型僅有助于提高對(duì)離群值的檢出率,無法判斷其所識(shí)別的離群值是否為噪聲或真實(shí)異常值,因此對(duì)于離群值的類型判定仍需進(jìn)一步研究。