李 興,李艷玲,張 鵬,楊 哲
(1. 四川大學(xué) 水力學(xué)與山區(qū)河流開發(fā)保護(hù)國(guó)家重點(diǎn)實(shí)驗(yàn)室 水利水電學(xué)院,成都 610065;2. 中國(guó)市政工程西南設(shè)計(jì)研究總院有限公司 第一設(shè)計(jì)研究院,成都 610081)
進(jìn)入21世紀(jì)以來(lái),隨著監(jiān)測(cè)技術(shù)、計(jì)算機(jī)技術(shù)和通訊網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,測(cè)點(diǎn)個(gè)數(shù)與觀測(cè)頻次隨之增多,監(jiān)測(cè)數(shù)據(jù)量增長(zhǎng)明顯[1],序列類型也較為豐富。精確識(shí)別監(jiān)測(cè)序列中的異常數(shù)據(jù)是科學(xué)準(zhǔn)確分析評(píng)價(jià)大壩安全狀況和運(yùn)行性態(tài)的前提和保障,而針對(duì)目前多類型的數(shù)據(jù)序列,雖然統(tǒng)計(jì)學(xué)方法[2,3]、小波分析[4],四分點(diǎn)法[5]和抗差最小二乘法[6]等逐漸應(yīng)用在粗差識(shí)別中,但依然存在適用性低、漏判和誤判等問(wèn)題。經(jīng)典的統(tǒng)計(jì)判別法Pauta準(zhǔn)則由于其使用簡(jiǎn)便而被廣泛應(yīng)用[7],但對(duì)監(jiān)測(cè)序列中含有較多離群數(shù)據(jù)如多點(diǎn)離群、臺(tái)階型、震蕩型數(shù)據(jù)極易出現(xiàn)異常值漏判的問(wèn)題。李麗敏[8]等基于Pauta準(zhǔn)則采用自學(xué)習(xí)和平滑處理檢測(cè)異常數(shù)據(jù);毛亞純[9]和趙鍵[10]等學(xué)者在Pauta準(zhǔn)則的基礎(chǔ)上提出數(shù)據(jù)跳躍法,但這些方法對(duì)含有較多離群點(diǎn)數(shù)據(jù)的適用性較低。為此,本文針對(duì)大壩安全監(jiān)測(cè)數(shù)據(jù)粗差識(shí)別的Pauta準(zhǔn)則存在的異常值漏判的問(wèn)題,引入穩(wěn)健M估計(jì),以位置M估計(jì)量和基于位置M估計(jì)量的尺度估計(jì)量代替均值和標(biāo)準(zhǔn)差重新構(gòu)造控制函數(shù)進(jìn)行粗差識(shí)別。將改進(jìn)Pauta準(zhǔn)則應(yīng)用于耿達(dá)水電站不同類型的測(cè)點(diǎn)序列,通過(guò)對(duì)比原始序列、人工剔除離群點(diǎn)序列和基于M估計(jì)量的參數(shù)估計(jì)與粗差識(shí)別結(jié)果探究了Pauta準(zhǔn)則改進(jìn)的可行性和合理性;并分析對(duì)比存在離群點(diǎn)序列和正常序列探究了改進(jìn)Pauta準(zhǔn)則的適用性。
采用Pauta準(zhǔn)則識(shí)別粗差的前提條件是測(cè)值序列服從正態(tài)分布N(μ,σ2),且樣本數(shù)據(jù)量較大[11],其控制函數(shù)如式(1)所示:
μ(Xi,n)-3σ(Xi,μ,n)≤Xi≤μ(Xi,n)+3σ(Xi,μ,n)
(1)
式中:Xi為實(shí)測(cè)值;μ為數(shù)據(jù)序列均值;σ為標(biāo)準(zhǔn)差;n為觀測(cè)值個(gè)數(shù)。
大壩安全監(jiān)測(cè)數(shù)據(jù)一般樣本量較大,但通常會(huì)由于監(jiān)測(cè)儀器故障、外界環(huán)境因素?cái)_動(dòng)而導(dǎo)致監(jiān)測(cè)序列中存在離群點(diǎn),從而偏離Pauta準(zhǔn)則關(guān)于正態(tài)分布的假定,出現(xiàn)異常值漏判問(wèn)題。本文引入M估計(jì)量改進(jìn)總體位置參數(shù)和總體尺度參數(shù)以代替?zhèn)鹘y(tǒng)的均值μ和標(biāo)準(zhǔn)差σ,從而提高Pauta準(zhǔn)則的耐抗性和穩(wěn)定性。
(1)總體位置參數(shù)改進(jìn)。M估計(jì)量是一種加權(quán)均值,其權(quán)重依賴于數(shù)據(jù),可充分利用監(jiān)測(cè)數(shù)據(jù)序列的有效信息,基于權(quán)重函數(shù)ω的加權(quán)均值Tn為[12]:
(2)
MAD=mediani{|xi-M|}
(3)
式中:xi為樣本序列觀測(cè)量;n為序列樣本個(gè)數(shù);c為細(xì)調(diào)常數(shù);M為樣本序列中位數(shù);median(·)函數(shù)返回給定序列的中位數(shù);Sn是輔助尺度估計(jì),通常取中位數(shù)離差MAD,即各個(gè)觀測(cè)量到中位數(shù)M的距離的中位數(shù)。
(2)總體尺度參數(shù)改進(jìn)。標(biāo)準(zhǔn)差是數(shù)據(jù)序列最常用的尺度估計(jì)量,但由于標(biāo)準(zhǔn)差的運(yùn)算需要均值 ,對(duì)樣本中的離群點(diǎn)同樣缺乏耐抗性與穩(wěn)健性[13]。因此基于以上M估計(jì)量有尺度估計(jì)[14]:
(4)
式中:ψ函數(shù)為目標(biāo)函數(shù)的導(dǎo)函數(shù);ψ′函數(shù)為ψ函數(shù)的導(dǎo)函數(shù)。
(3)M估計(jì)函數(shù)選取。Huber(1972)、Andrews(1972)、Hampel(1974)和Tukey(1977)等人均提出了不同的目標(biāo)函數(shù)形式[15],本文在對(duì)比不同權(quán)函數(shù)形式的基礎(chǔ)上引入Tukey雙權(quán)估計(jì)量,其目標(biāo)函數(shù)ρ(u)、ψ函數(shù)ψ(u)、ψ′函數(shù)ψ′(u)和權(quán)重函數(shù)ω(u)如圖1所示。
圖1 Tukey雙權(quán) M 估計(jì)量函數(shù)圖Fig.1 Function diagrams of Tukey Tukey Bisquare
由魯棒性更好的位置M估計(jì)量Tn和基于位置M估計(jì)量的尺度估計(jì)量ST代替均值μ和標(biāo)準(zhǔn)差σ重新構(gòu)造控制函數(shù),則式(1)可以改寫為:
Tn-3ST≤Xi≤Tn+3ST
(5)
因此,基于M估計(jì)量的Pauta準(zhǔn)則可計(jì)算得到實(shí)測(cè)值的控制上下限“T±3ST”,當(dāng)實(shí)測(cè)值Xi在控制范圍以內(nèi),則判斷其為正常值;否則為異常值。
耿達(dá)水電站位于岷江上游右岸支流漁子溪上,主要建筑物由攔河閘、非溢流壩、沉沙池等水工建筑物組成,其監(jiān)測(cè)項(xiàng)目主要包括環(huán)境量監(jiān)測(cè)、大壩變形監(jiān)測(cè)、壩基揚(yáng)壓力監(jiān)測(cè)、繞壩滲流監(jiān)測(cè)等。監(jiān)測(cè)數(shù)據(jù)離群類型主要可以分為單點(diǎn)及多點(diǎn)離群型數(shù)據(jù)、臺(tái)階型數(shù)據(jù)和震蕩型數(shù)據(jù),因此本文選取典型“多點(diǎn)離群型”測(cè)點(diǎn)L14(水平位移)、“臺(tái)階型”測(cè)點(diǎn)GL09(垂直位移)、“震蕩型”測(cè)點(diǎn)UP05(揚(yáng)壓力)和“正常序列”測(cè)點(diǎn)EX14(水平位移)為例進(jìn)行分析,各測(cè)點(diǎn)序列基本特性如表1所示。
表1 典型測(cè)點(diǎn)序列特性Tab.1 Characteristics of typical measuring point sequences
(1)總體位置參數(shù)改進(jìn)效果。分別計(jì)算測(cè)點(diǎn)L14、測(cè)點(diǎn)GL09、測(cè)點(diǎn)UP05原始數(shù)據(jù)序列的均值、人工剔除離群點(diǎn)序列均值和位置M估計(jì)量,如表2示??梢钥闯龊x群點(diǎn)序列的Tukey雙權(quán)估計(jì)量非常接近于人工剔除離群點(diǎn)序列的均值,而原始序列均值與剔除離群點(diǎn)序列的均值相差較遠(yuǎn);對(duì)比測(cè)點(diǎn)EX14數(shù)據(jù)序列的均值和M估計(jì)量計(jì)算結(jié)果發(fā)現(xiàn),兩種位置參數(shù)估計(jì)值相差不大。因此,可以明顯看出基于殘差平方和的目標(biāo)函數(shù)計(jì)算的均值對(duì)離群點(diǎn)非常敏感, M估計(jì)量的抗擾動(dòng)性明顯優(yōu)于均值。
表2 典型測(cè)點(diǎn)M估計(jì)量與均值對(duì)比表Tab.2 Comparison of M-estimator and mean of typical measuring points
(2)總體尺度參數(shù)改進(jìn)效果。再分別計(jì)算上述各典型測(cè)點(diǎn)原始數(shù)據(jù)序列的標(biāo)準(zhǔn)差、基于位置M估計(jì)量的尺度估計(jì)量,并將其與剔除離群點(diǎn)后計(jì)算的標(biāo)準(zhǔn)差進(jìn)行對(duì)比,如表3示??梢钥闯觯x群點(diǎn)序列的基于位置M估計(jì)量的尺度估計(jì)量計(jì)算結(jié)果非常接近于人工剔除離群點(diǎn)序列的標(biāo)準(zhǔn)差,而保留離群點(diǎn)的原始序列計(jì)算的標(biāo)準(zhǔn)差偏差較大;對(duì)比測(cè)點(diǎn)EX14的標(biāo)準(zhǔn)差和基于位置M估計(jì)量的尺度估計(jì)量發(fā)現(xiàn),兩種尺度估計(jì)的計(jì)算結(jié)果幾乎一致。因此,基于位置M估計(jì)量的尺度估計(jì)量的抗擾動(dòng)性明顯優(yōu)于標(biāo)準(zhǔn)差。
表3 典型測(cè)點(diǎn)基于位置M估計(jì)量的尺度估計(jì)量與標(biāo)準(zhǔn)差對(duì)比表Tab.3 Comparison of the scale estimator based on location M-estimation and standard deviation of typical measuring points
綜上,M估計(jì)量和基于位置M估計(jì)量根據(jù)樣本距離中心程度的遠(yuǎn)近賦予不同的權(quán)重而具有較強(qiáng)抵抗離群點(diǎn)的能力,可得到正常模式下的最佳估計(jì)值;并且當(dāng)無(wú)離群點(diǎn)時(shí)兩種方法的參數(shù)估計(jì)結(jié)果一致。
由改進(jìn)的Pauta準(zhǔn)則計(jì)算上述典型測(cè)點(diǎn)的控制限,并將其與傳統(tǒng)的Pauta準(zhǔn)則控制限進(jìn)行對(duì)比,進(jìn)行粗差識(shí)別,各測(cè)點(diǎn)實(shí)測(cè)值和控制限過(guò)程線如圖2-圖5所示。
圖2 測(cè)點(diǎn)L14實(shí)測(cè)值及控制限過(guò)程線(多點(diǎn)離群型)Fig.2 Actual values and control limits of measuring point L14 (Multipoint-outliers type)
圖3 測(cè)點(diǎn)GL09實(shí)測(cè)值及控制限過(guò)程線(臺(tái)階型)Fig.3 Actual values and control limits of measuring point GL09 (Step type)
圖4 測(cè)點(diǎn)UP05實(shí)測(cè)值及控制限過(guò)程線(震蕩型)Fig.4 Actual values and control limits of measuring point UP05 (Oscillatory type)
圖5 測(cè)點(diǎn)EX14實(shí)測(cè)值及控制限過(guò)程線(正常序列)Fig.5 Actual values and control limits of measuring point EX14 (Normal sequence)
當(dāng)監(jiān)測(cè)數(shù)據(jù)無(wú)可避免地存在較多離群點(diǎn)時(shí),監(jiān)測(cè)序列將不再符合Pauta準(zhǔn)則關(guān)于正態(tài)分布的假定,均值和標(biāo)準(zhǔn)差不再反映數(shù)據(jù)序列特性規(guī)律,由此計(jì)算的控制限“μ±3σ”將會(huì)被拉向離群點(diǎn)而變寬,使得傳統(tǒng)Pauta準(zhǔn)則出現(xiàn)異常數(shù)據(jù)漏判的問(wèn)題,如測(cè)點(diǎn)L14在2009年10月6日出現(xiàn)的測(cè)值-5.90,測(cè)點(diǎn)GL09在2017年12月31日出現(xiàn)的測(cè)值11.41以及測(cè)點(diǎn)UP05在2017年11月26日出現(xiàn)的測(cè)值1 480.97采用傳統(tǒng)Pauta準(zhǔn)則時(shí)均未被識(shí)別為異常突變,而采用改進(jìn)的Pauta準(zhǔn)則則消減了離群點(diǎn)的不利影響,有效解決了傳統(tǒng)方法的漏判問(wèn)題,粗差識(shí)別精度大大提高,計(jì)算結(jié)果如表4示。
對(duì)于正常測(cè)值序列,兩種準(zhǔn)則的控制限差別不大,識(shí)別效果一致。如正常序列測(cè)點(diǎn)EX14在2017年12月31日出現(xiàn)的異常突變值15.15,傳統(tǒng)Pauta準(zhǔn)則與改進(jìn)準(zhǔn)則均識(shí)別為異常測(cè)值,如圖5和表4示。因此,改進(jìn)的Pauta準(zhǔn)則可同時(shí)適用于服從正態(tài)分布和含有較多離群數(shù)據(jù)而偏離正態(tài)分布的數(shù)據(jù)序列,適用性較強(qiáng)。
表4 傳統(tǒng)Pauta準(zhǔn)則與改進(jìn)Pauta準(zhǔn)則粗差識(shí)別效果對(duì)比表Tab.4 Comparison of gross error identification effect of traditional and improved Pauta criterion
本文針對(duì)大壩安全監(jiān)測(cè)數(shù)據(jù)粗差識(shí)別中常用的Pauta準(zhǔn)則進(jìn)行了較為深入的研究,通過(guò)對(duì)傳統(tǒng)方法的改進(jìn),為識(shí)別監(jiān)測(cè)數(shù)據(jù)中的異常數(shù)據(jù)提供了一種高效合理的方法,并將其運(yùn)用于耿達(dá)水電站,得到的結(jié)論如下:
(1)針對(duì)傳統(tǒng)Pauta準(zhǔn)則粗差識(shí)別中的異常值漏判問(wèn)題,引入穩(wěn)健M估計(jì)構(gòu)造了新的控制函數(shù),位置M估計(jì)量和基于位置M估計(jì)量的尺度估計(jì)量消除了離群點(diǎn)對(duì)均值和標(biāo)準(zhǔn)差計(jì)算的不利影響,控制限的設(shè)置更加合理。
(2)通過(guò)對(duì)比分析耿達(dá)水電站不同離群類型的典型測(cè)點(diǎn)原始序列、剔除離群點(diǎn)序列、原始序列基于M估計(jì)量以及離群序列和正常序列的總體參數(shù)計(jì)算結(jié)果發(fā)現(xiàn),當(dāng)實(shí)際監(jiān)測(cè)數(shù)據(jù)含有較多離群點(diǎn)時(shí)基于M估計(jì)的參數(shù)估計(jì)不會(huì)嚴(yán)重偏離真實(shí)水平;當(dāng)實(shí)際監(jiān)測(cè)數(shù)據(jù)無(wú)離群點(diǎn)時(shí),基于M估計(jì)的參數(shù)估計(jì)與傳統(tǒng)方法基本一致。
(3)通過(guò)對(duì)比分析耿達(dá)水電站不同類型的典型測(cè)點(diǎn)采用傳統(tǒng)Pauta準(zhǔn)則和改進(jìn)準(zhǔn)則的識(shí)別效果發(fā)現(xiàn),實(shí)際監(jiān)測(cè)數(shù)據(jù)偏離正態(tài)分布時(shí)改進(jìn)Pauta準(zhǔn)則可以有效減少異常值漏判問(wèn)題;當(dāng)實(shí)際監(jiān)測(cè)數(shù)據(jù)服從正態(tài)分布時(shí),兩種方法識(shí)別效果一致。
□