馬 琳楊 蕾戚 丹趙 珍
(1.楊凌職業(yè)技術(shù)學(xué)院,陜西 楊凌 712100;
2.陜西省水利電力勘測設(shè)計(jì)研究院,陜西 西安 710000)
水利工程建成后,為了建筑物能夠安全可靠運(yùn)行,采用安全監(jiān)測手段實(shí)時(shí)監(jiān)控建筑物的運(yùn)行狀態(tài),而監(jiān)測資料的分析是判斷建筑物安全運(yùn)行的重要手段,因此對(duì)觀測資料做出及時(shí)、合理、有效的分析是安全工作的重要組成部分。
水利工程結(jié)構(gòu)復(fù)雜,所處環(huán)境影響因素較多,同時(shí),監(jiān)測儀器精度、工作狀態(tài)及可靠性等各方面均對(duì)監(jiān)測數(shù)據(jù)有影響,或多或少都會(huì)存在隨機(jī)誤差或系統(tǒng)誤差,這就導(dǎo)致直接獲取的監(jiān)測數(shù)據(jù)并非完全可用,因此,首先需要對(duì)原始監(jiān)測數(shù)據(jù)進(jìn)行合理性分析[1-2]。
鑒于大壩結(jié)構(gòu)性態(tài)的復(fù)雜性,監(jiān)測儀器精度、可靠性,數(shù)據(jù)觀測過程不可預(yù)估因素等的影響,致使大壩安全監(jiān)測資料中,不可避免地會(huì)存在數(shù)據(jù)誤差信息,確定監(jiān)測資料合理性對(duì)后續(xù)大壩安全評(píng)價(jià)至關(guān)重要。為了能夠準(zhǔn)確全面地監(jiān)測大壩運(yùn)行狀態(tài),通常需要布置大量儀器和項(xiàng)目,其中包括應(yīng)力應(yīng)變、壩體變形觀測、滲流量觀測、溫度觀測等。根據(jù)有關(guān)誤差理論,大壩安全監(jiān)測值x由所監(jiān)測性態(tài)的“真值”[x]和誤差e組成,其中誤差e根據(jù)造成其產(chǎn)生的原因不同,可大致分為隨機(jī)誤差、系統(tǒng)誤差和粗大誤差3種[3]。
因隨機(jī)因素或偶然因素導(dǎo)致的誤差,符合正態(tài)分布并且其正態(tài)分布的均值為零,隨機(jī)誤差普遍存在于大壩安全監(jiān)測數(shù)據(jù)中。
系統(tǒng)誤差主要由監(jiān)測儀器故障產(chǎn)生,造成故障的原因是相互獨(dú)立的偶然因素,該類誤差偏離真實(shí)值較大,表現(xiàn)為單側(cè)點(diǎn)數(shù)值異常波動(dòng)并伴有一定的階段性和連續(xù)性。
在觀測過程中,因數(shù)據(jù)記錄、數(shù)據(jù)處理、儀器操作等存在人為疏忽導(dǎo)致的誤差,特點(diǎn)是偏離真實(shí)值較大。
傳統(tǒng)粗差檢測算法中,常采用主元分析法(PCA)進(jìn)行異常值識(shí)別[4],當(dāng)樣本量很大時(shí),很多計(jì)算會(huì)浪費(fèi)在正常點(diǎn)的驗(yàn)證上。目前,常用的粗差識(shí)別方法有基于距離和密度的方法[5]和基于模型的方法[6-7]。Jolliffe[8]利用PCA對(duì)粗差進(jìn)行檢測,采用該方法檢測,會(huì)出現(xiàn)將正常點(diǎn)與粗大誤差點(diǎn)混淆的情況。
考慮到歷史數(shù)據(jù)中的粗差會(huì)影響監(jiān)控效果[9],對(duì)當(dāng)前常用的粗差檢測算法的原理和不足之處進(jìn)行分析,提出一種新的異常值檢測算法,即將中心最短距離法(CDC)和橢球多變量整理法(MVT)結(jié)合成為一種新的算法——一種基于魯棒尺度的CDC-MVT檢測算法。
2.1.1 基于傳統(tǒng)尺度的中心化和標(biāo)準(zhǔn)化。{xi}為某個(gè)變量,對(duì)該變量采樣n次后產(chǎn)生的序列記為{x1,x2,…,xn},進(jìn)行中心化和標(biāo)準(zhǔn)化,其過程如式(1)。
式中:s為標(biāo)準(zhǔn)差,ax是{xi}的平均值,根據(jù)3σ準(zhǔn)則,當(dāng)出現(xiàn)||d>3的采樣時(shí),則認(rèn)定該采樣為異常值。
2.1.2 基于魯棒尺度的中心化和標(biāo)準(zhǔn)化方法。此方法分別用魯棒尺度中的數(shù)據(jù)序列{xi}的中值xm替換傳統(tǒng)尺度公式中的均值ax,用數(shù)據(jù)序列{xi}的中值偏差絕對(duì)值的中值(Median Absolute Deviation from the Medion)指標(biāo)sm替換傳統(tǒng)尺度公式中的均值標(biāo)準(zhǔn)差s,即式(2)。
式中:median{}是取中值函數(shù);xm是{xi}的中值;1.482 6是為了使sm成為正態(tài)分布數(shù)據(jù)標(biāo)準(zhǔn)差的無偏估計(jì)。
2.2.1 CDC中心最短距離法。中心最短距離法(CDC)算法原理是通過計(jì)算每個(gè)采樣點(diǎn)與數(shù)據(jù)序列中心即數(shù)據(jù)均值之間的距離,檢測n/2個(gè)正常點(diǎn)[10]。
2.2.2 橢球多變量整理法。橢球多變量整理(MVT)算法主要是確定魯棒協(xié)方差矩陣的一種迭代 算 法[11-12]。計(jì) 算 某 次 采 樣X1×m的 馬 氏 距 離,見式(3)。
式中:X*1×m是n個(gè)采樣的平均值;S*是協(xié)方差。
2.2.3 基于魯棒尺度的CDC-MVT異常點(diǎn)綜合檢測算法。迭代前,首先用魯棒尺度初始化MVT的馬氏距離的均值和協(xié)方差,具體如下。
①采用魯棒尺度,對(duì)原始觀測數(shù)據(jù)的二維矩陣進(jìn)行中心化和標(biāo)準(zhǔn)化處理,假設(shè)原始二維數(shù)據(jù)矩陣是Xi×j,i是采樣點(diǎn)數(shù),j是變量數(shù),且i必須要大于j。首先,原始二維數(shù)據(jù)矩陣的每一列包含i個(gè)元素,首先計(jì)算出這i個(gè)元素的中值,記為xm;其次,利用公式計(jì)算出sm=1.482 6median{|Xi-Xm|}(i=1,2…,n),即原始二維數(shù)據(jù)矩陣的中值偏差絕對(duì)值的中值指標(biāo);最后,用前述步驟中已經(jīng)計(jì)算出的中值xm替換公式(1)中的xi,用中值偏差絕對(duì)值的中值指標(biāo)sm替換公式(1)中的s,替換后經(jīng)計(jì)算可得到中心化和標(biāo)準(zhǔn)化之后的矩陣X′i×j。
②采用CDCm算法檢測出原始數(shù)據(jù)中的n/2個(gè)正常值點(diǎn)。首先,算出矩陣X′i×j中每一列的均值,再計(jì)算其每行中每個(gè)元素與對(duì)應(yīng)列均值的距離;其次,將上一步驟中算出的每一行中最大距離值定為該行中每個(gè)采樣點(diǎn)與均值點(diǎn)之間的距離,則可得i個(gè)距離值;再次,從上一步得到的i個(gè)距離值中選出其中較小的n/2個(gè)距離值;最后,得到上一步i/2個(gè)距離值所對(duì)應(yīng)的二維數(shù)據(jù)矩陣Xi×j中的i/2個(gè)采樣點(diǎn),即n/2個(gè)正常點(diǎn),設(shè)為矩陣。
③利用MVT迭代算法計(jì)算馬氏距離,從而得到原始數(shù)據(jù)中的正常值。
a.將上述方法步驟找到的n/2個(gè)正常點(diǎn),初始化其馬氏距離中的均值和協(xié)方差,即計(jì)算初始的均值和協(xié)方差,具體如式(4)(5)。
b.將以上式(4)和式(5)代入馬氏距離計(jì)算式中,計(jì)算馬氏距離如式(6)所示。
c.在上一步求出的i個(gè)馬氏距離中選出較小的0.7i個(gè)距離值[13-14],可得與矩陣X′i×j相應(yīng)的采樣點(diǎn),定為矩陣X′(0)0.7i×j。
d.由矩陣X′(0)0.7i×j計(jì)算下一次的均值和協(xié)方差,即式(7)(8)。
將重新計(jì)算出來的均值和協(xié)方差代入馬氏距離計(jì)算式中,可得馬氏距離如式(9)所示。
在上述i個(gè)馬氏距離選出0.7i個(gè)較小的值,同時(shí)在矩陣X*i×j中找出相應(yīng)的采樣點(diǎn),記為矩陣X′(0)0.7i×j;
e.采用相同的方法,由矩陣X′(0)0.7i×j繼續(xù)計(jì)算新的均值X(*2)和協(xié)方差X(*2),并計(jì)算出新的馬氏距離。在計(jì)算出的i個(gè)馬氏距離中選出0.7i個(gè)較小的馬氏距離值,按照這種迭代方式不斷進(jìn)行計(jì)算,直到且時(shí) 停 止計(jì)算。式中,X*(i)j表示第i個(gè)新均值向量的第j個(gè)元素,表示第i個(gè)新的協(xié)方差。
f.根據(jù)以上計(jì)算結(jié)果,即可篩選出原始數(shù)據(jù)中的正常值。
由上述過程計(jì)算得到第i=1次計(jì)算出的矩陣X′(i-1)0.7i×j對(duì)應(yīng)的矩陣Xi×j中的采樣值,便是要檢測出的正常值。
以云南省瀾滄江中游河段某灌溉水源工程為例,選取擋水建筑物垂線徑向水平位移的各測點(diǎn)進(jìn)行粗差去除方法驗(yàn)證。由于數(shù)據(jù)量較大,此處只對(duì)13#壩段1 778.25 m高程的測點(diǎn)PL11-3和19#壩段1 778.25 m高程的測點(diǎn)PL19-3兩個(gè)測點(diǎn)進(jìn)行粗差去除結(jié)果分析。選取數(shù)據(jù)的觀測時(shí)間段為2018年12月5日—2019年11月19日,共323個(gè)數(shù)據(jù)測值,按時(shí)間順序繪制過程線,分別根據(jù)主元分析法(PCA)和基于魯棒尺度的CDC-MVT算法原理,編程并計(jì)算。
根據(jù)原始觀測數(shù)據(jù)繪制過程線,如圖1所示,從圖1中可以看出兩個(gè)測點(diǎn)共計(jì)8個(gè)粗大誤差點(diǎn),分別為PL11-3測點(diǎn)的2018年12月28日測值、2019年1月21日測值和2019年2月20日測值,PL19-3測點(diǎn)2019年9月25日 測 值、2019年10月4日 測 值、2019年10月7日、2019年10月14日 和2019年10月30日測值共8個(gè)粗大誤差。
圖1 原始觀測數(shù)據(jù)過程線
基于PCA算法的粗大誤差檢測,將檢測結(jié)果繪制過程線,如圖2所示,從檢測數(shù)據(jù)可以看出,平均每個(gè)測點(diǎn)檢測后只剩180多個(gè)數(shù)據(jù),除檢測出的8個(gè)粗差外,同時(shí)也將部分正常值誤判為粗差去除,如2018年12月11日、2018年12月17日、2019年10月30日等測點(diǎn),可見PCA算法存在檢測缺陷,即在判斷出粗差點(diǎn)的同時(shí),也將部分正常點(diǎn)誤判為粗差點(diǎn)去除,影響了原始數(shù)據(jù)的準(zhǔn)確性。
圖2 PCA算法計(jì)算結(jié)果過程線
基于魯棒尺度CDC-MVT算法的粗大誤差檢測,將檢測結(jié)果繪制過程線,如圖3所示,從檢測結(jié)
圖3 CDC-MVT算法計(jì)算結(jié)果過程線
果可以看出,本方法檢測結(jié)束后,除8個(gè)粗差外,其余正常數(shù)據(jù)均未被去除。
綜上所述,原始觀測數(shù)據(jù)中存在8個(gè)粗大誤差,從檢測結(jié)果過程線可以看出,CDC-MVT算法準(zhǔn)確地檢測出了原始數(shù)據(jù)中的粗大誤差,結(jié)果較合理,而PCA算法雖然也檢測出了異常值,但同時(shí)也將部分正常值誤判為粗大誤差去除了。由此,可得出以下結(jié)論。魯棒尺度的CDC-MVT算法可較為準(zhǔn)確地估計(jì)出正常數(shù)據(jù)的均值和協(xié)方差,從而能準(zhǔn)確找出異常值。而傳統(tǒng)PCA算法,雖然也找出了原始數(shù)據(jù)中的異常值,但也將部分正常值誤判為異常值去除,這對(duì)大壩安全監(jiān)測后續(xù)數(shù)據(jù)分析不利。因此,采用魯棒尺度的CDC-MVT算法提高了異常值的檢測性能。
以云南省瀾滄江中游河段某水電站為例,分別采用PCA算法和基于魯棒尺度的CDC-MVT異常值綜合檢測算法,分別對(duì)該水電站大壩垂線徑向水平位移PL11-3和PL13-3兩個(gè)測點(diǎn)的原始位移觀測數(shù)據(jù)進(jìn)行粗差去除,CDC-MVT算法準(zhǔn)確地檢測出了原始數(shù)據(jù)中的粗大誤差,結(jié)果較合理,而PCA算法雖然也檢測出了異常值,但同時(shí)也將部分正常值誤判為粗大誤差去除了。結(jié)果驗(yàn)證了基于魯棒尺度的CDC-MVT異常值綜合檢測算法的可行性和優(yōu)越性。