李子陽,郭 麗,馬福恒,胡 江
(1.南京水利科學(xué)研究院水文水資源與水利工程科學(xué)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210029;2.南京體育學(xué)院附校部,江蘇 南京 210024)
在大壩安全監(jiān)測中,受大壩性態(tài)演化和作用環(huán)境[1]、觀測隨機(jī)因素及儀器本身監(jiān)測精度等的影響,監(jiān)測數(shù)據(jù)不可避免地存在誤差[2]。大樣本的自動化監(jiān)測數(shù)據(jù),一般存在顯著的隨機(jī)特征,即數(shù)據(jù)本身存在隨機(jī)誤差;受監(jiān)測過程中的不確定因素影響,如儀器的不穩(wěn)定或監(jiān)測基點(diǎn)發(fā)生位移,還可能產(chǎn)生系統(tǒng)誤差等。誤差的存在影響模型分析的準(zhǔn)確性,因此,對大壩監(jiān)測數(shù)據(jù)進(jìn)行合理性檢驗(yàn),以獲取更為合理有效的基礎(chǔ)分析數(shù)據(jù),是監(jiān)測資料分析和工程性態(tài)評估的首要工作。
基于統(tǒng)計(jì)分析的假設(shè)檢驗(yàn)(如PauTa準(zhǔn)則、t檢驗(yàn)法及Dixon判別法等)是監(jiān)測數(shù)據(jù)誤差檢驗(yàn)的常用方法[3-5],對自變量數(shù)據(jù)(基礎(chǔ)環(huán)境量數(shù)據(jù))的誤差分析是有效的,如通過測值范圍和方差對傳感器數(shù)據(jù)進(jìn)行誤差檢驗(yàn)等[6]。但大壩監(jiān)測數(shù)據(jù)受水壓、降雨、溫度、時效等環(huán)境因素的綜合影響,監(jiān)測數(shù)據(jù)為因變量數(shù)據(jù),若只對數(shù)據(jù)本身或模型參數(shù)進(jìn)行常規(guī)的統(tǒng)計(jì)檢驗(yàn)分析,極有可能會把因環(huán)境突變而引起的監(jiān)測數(shù)據(jù)改變誤判為誤差數(shù)據(jù),導(dǎo)致有用數(shù)據(jù)被誤刪。另外,常規(guī)統(tǒng)計(jì)方法在分析數(shù)據(jù)對模型的影響程度和趨勢性方面也有所欠缺[7]。
引入統(tǒng)計(jì)診斷的方法進(jìn)行數(shù)據(jù)的檢驗(yàn)分析,可以很好地解決上述問題。統(tǒng)計(jì)診斷[8]首先根據(jù)因變量和自變量之間的影響關(guān)系構(gòu)建統(tǒng)計(jì)模型,進(jìn)而借助統(tǒng)計(jì)診斷量檢查數(shù)據(jù)、模型及推斷方法中可能存在的問題,其在綜合考慮大壩監(jiān)測中自變量數(shù)據(jù)與因變量數(shù)據(jù)內(nèi)在關(guān)聯(lián)性方面具有優(yōu)勢,可為監(jiān)測數(shù)據(jù)的合理性檢驗(yàn)提供更符合工程實(shí)際的方法。統(tǒng)計(jì)診斷已在滑坡體位移監(jiān)測數(shù)據(jù)異常值檢驗(yàn)中有所應(yīng)用[9],本文在此基礎(chǔ)上,從大壩監(jiān)測數(shù)據(jù)的異常數(shù)據(jù)類型分析出發(fā),進(jìn)一步研究基于均值漂移模型的統(tǒng)計(jì)診斷方法,對監(jiān)測數(shù)據(jù)的誤差數(shù)據(jù)和強(qiáng)影響數(shù)據(jù)的統(tǒng)計(jì)檢驗(yàn)進(jìn)行分析研究,并以大壩位移監(jiān)測數(shù)據(jù)的合理性檢驗(yàn)為例進(jìn)行驗(yàn)證。
根據(jù)統(tǒng)計(jì)診斷中的異常數(shù)據(jù)分類,結(jié)合大壩工程自動化監(jiān)測數(shù)據(jù)特點(diǎn)和誤差形成原因的不同,將監(jiān)測數(shù)據(jù)中的異常值分為隨機(jī)誤差、粗差和系統(tǒng)誤差(如圖1所示)[2, 8]。隨機(jī)誤差主要由各種隨機(jī)和偶然因素引起,符合均值為零的正態(tài)分布,在連續(xù)大樣本的自動化監(jiān)測數(shù)據(jù)中普遍存在,一般不影響正常的統(tǒng)計(jì)和時序分析。粗差是指含有粗大誤差、嚴(yán)重偏離真實(shí)值(或既定統(tǒng)計(jì)模型)的數(shù)據(jù),常常是由觀測過程中的操作疏忽和數(shù)據(jù)的記錄、復(fù)制和計(jì)算處理過程中的過失錯誤引起。系統(tǒng)誤差是指由相互獨(dú)立的偶然因素作用引起的監(jiān)測儀器或監(jiān)測點(diǎn)故障等所造成的誤差,嚴(yán)重偏離真實(shí)值(或既定統(tǒng)計(jì)模型),常表現(xiàn)為單側(cè)點(diǎn)數(shù)據(jù)異常波動的現(xiàn)象,并可能具有一定的連續(xù)性和階段性。如觀測基點(diǎn)因基礎(chǔ)或外力作用產(chǎn)生明顯擾動,則會引起觀測數(shù)據(jù)的系統(tǒng)誤差。
圖1 監(jiān)測異常數(shù)據(jù)示意圖
在數(shù)據(jù)表現(xiàn)上,粗差具有突發(fā)性,在相鄰監(jiān)測數(shù)據(jù)中通常以個別形式出現(xiàn),一般不具有連續(xù)性;系統(tǒng)誤差由于系統(tǒng)故障難以自行修復(fù),往往表現(xiàn)為多個數(shù)值接近的測值連續(xù)出現(xiàn),并在均值附近擺動增大,具有一定的趨勢性。粗差一般表現(xiàn)為污染正態(tài)分布,可采用統(tǒng)計(jì)診斷方法進(jìn)行分析;系統(tǒng)誤差往往可通過同類監(jiān)測數(shù)據(jù)的綜合過程線對比辨識[10],本文不作重點(diǎn)討論。
在誤差分析的基礎(chǔ)上,為對監(jiān)測數(shù)據(jù)的重要程度進(jìn)行區(qū)分,定義統(tǒng)計(jì)診斷中的強(qiáng)影響數(shù)據(jù)為對統(tǒng)計(jì)推斷(如統(tǒng)計(jì)模型參數(shù)、擬合預(yù)測值等)影響特別大的監(jiān)測數(shù)據(jù)。由于強(qiáng)影響數(shù)據(jù)對統(tǒng)計(jì)診斷結(jié)果具有較大影響,需要特別關(guān)注。
大壩監(jiān)測數(shù)據(jù)合理性檢驗(yàn)的主要目的是刪除粗差,并辨識強(qiáng)影響數(shù)據(jù)。一個很重要的方法就是逐個計(jì)算每組數(shù)據(jù)對回歸分析的影響,進(jìn)而通過考察統(tǒng)計(jì)診斷量的方法來獲取不同誤差的來源。這里采用均值漂移模型對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)診斷,即在第i個數(shù)據(jù)上增加一個擾動(附加值),這相當(dāng)于因變量的均值有所漂移,研究這個擾動對估計(jì)量及其他統(tǒng)計(jì)量影響的顯著程度。
對含有自變量xi(xi=(xi1,xi2,…,xi(k-1)))與因變量yi的n次監(jiān)測資料序列建立線性回歸方程:
(1)
其中θ=(b0,b1,…,bk-1)Tφi=(1,xi)T
εi∈N(0,σ2)
式中:θ為回歸參數(shù);εi為隨機(jī)誤差項(xiàng),服從方差為σ的標(biāo)準(zhǔn)正態(tài)分布;k-1為自變量xi所包含的元素個數(shù)。
Y=Φθ+ε
(2)
(3)
(4)
(5)
(6)
式中:e為殘差。
記Ρ=Φ(ΦTΦ)-1ΦT(帽子矩陣),其對角元素pii有[11]
(7)
(8)
其矩陣形式為
Y=Φθ+diγ+ε
(9)
式中:di為n維單位向量,其第i個分量為1,其余均為零;γ為擾動值。
(10)
(11)
(12)
式中:ri為學(xué)生化內(nèi)殘差。
(13)
H0:γ=0;H1:γ≠0
(14)
假設(shè)檢驗(yàn)式(12)的檢驗(yàn)函數(shù)可由下式給出[12]:
(15)
由線性模型的理論可知,模型式(2)中參數(shù)θ的1-α置信域可表示為一個橢球的形式:
(16)
式中:F(k,n-k,1-α)表示F分布的1-α分位點(diǎn)。
(17)
將式(10)和式(12)代入式(17)中,Di又可表示成如下形式:
(18)
選取某重力壩壩頂引張線測點(diǎn)順河向位移自動化監(jiān)測數(shù)據(jù)為例,采用上述統(tǒng)計(jì)診斷方法進(jìn)行監(jiān)測數(shù)據(jù)的合理性檢驗(yàn)。分析選用的典型測值過程線如圖2所示,時間序列為2006年12月22日至2012年9月20日,測值以向下游為“+”,向上游為“-”。
圖2 壩頂測點(diǎn)順河向位移過程線
根據(jù)測值過程線可以看出,壩頂順河向位移呈較為明顯的年周期變化,受水位、溫度影響顯著,考慮時效因素影響,其位移監(jiān)測資料的統(tǒng)計(jì)模型可表征為如下形式[14]:
c1(t-t0)+c2(lnt-lnt0)+a0+ε
(19)
其中ε∈N(0,σ2)
式中:yH,yT,yθ分別為水壓分量、溫度分量、時效分量;Hu,Hu0分別為監(jiān)測日、始測日所對應(yīng)的上游水頭;ai為水壓因子回歸系數(shù);t為位移監(jiān)測日至始測日的累計(jì)天數(shù);t0為建模資料系列第一個監(jiān)測日至始測日的累計(jì)天數(shù);b1i,b2i為溫度因子回歸系數(shù);c1,c2為時效因子回歸系數(shù);a0為常數(shù)項(xiàng)。
比照式(1),監(jiān)測數(shù)據(jù)向量為
(20)
未知參數(shù)為
θ=(a0,a1,a2,a3,b11,b21,b12,b22,c1,c2)T
(21)
監(jiān)測數(shù)據(jù)組數(shù)n=1 634(部分時段無測值),k=10。
根據(jù)測值變化規(guī)律,2012年第二季度開始,測值減少較為顯著。綜合同類測點(diǎn)監(jiān)測資料及同期環(huán)境量變化分析,認(rèn)為測值顯著變化是由右岸觀測基點(diǎn)的位移造成,屬系統(tǒng)誤差數(shù)據(jù),一并對其進(jìn)行計(jì)算分析。
對所有監(jiān)測數(shù)據(jù)采用本文檢驗(yàn)方法進(jìn)行統(tǒng)計(jì)診斷,部分異常數(shù)據(jù)檢驗(yàn)結(jié)果如表1所示。
表1 部分?jǐn)?shù)據(jù)異常情況的檢驗(yàn)結(jié)果
如取α=0.05,由檢驗(yàn)函數(shù)可得t0.95(1 634)=1.679。由此對數(shù)據(jù)檢驗(yàn)結(jié)果進(jìn)行評判,將ti絕對值大于上述臨界值的數(shù)據(jù)判斷為粗差。對第一次檢驗(yàn)粗差剔除后的數(shù)據(jù)再重新建模檢驗(yàn),直到剩余數(shù)據(jù)滿足t檢驗(yàn)(2012年系統(tǒng)誤差數(shù)據(jù)暫不處理),由此共刪除粗差13個,刪除率0.8%。
按照式(3)~(6)對模型擬合效果進(jìn)行計(jì)算分析,實(shí)測值、擬合值過程線如圖3所示。刪除粗差后,模型擬合精度與原始數(shù)據(jù)精度相比有所提高,復(fù)相關(guān)系數(shù)R從0.904提高到0.912,剩余標(biāo)準(zhǔn)差S從0.512降低到0.468,說明了統(tǒng)計(jì)診斷識別粗差的有效性。
圖3 測點(diǎn)實(shí)測值、擬合值及殘差過程線
圖4 各測值Cook距離計(jì)算值過程線
刪除粗差后各測值的Cook距離如圖4所示??梢钥闯?012年后的Cook距離計(jì)算值較大,與該時段存在系統(tǒng)誤差數(shù)據(jù)的原因相符。監(jiān)測資料的初始階段Cook距離計(jì)算值也較大,說明初始階段測值對建模的影響較大,應(yīng)盡量減少該時段的觀測誤差。而在運(yùn)行期,Cook距離計(jì)算值較大區(qū)域一般出現(xiàn)在每年的七八月份,該時期受強(qiáng)降雨影響,水庫水位變動較大,計(jì)算值較好地反映了環(huán)境變化對大壩位移的影響。
a. 對大壩安全監(jiān)測的異常數(shù)據(jù)分類進(jìn)行分析,結(jié)合誤差數(shù)據(jù)形成原因的不同,劃分為隨機(jī)誤差、粗差、系統(tǒng)誤差等,并辨識強(qiáng)影響數(shù)據(jù)。
b. 基于統(tǒng)計(jì)診斷的均值漂移模型,研究了不同異常數(shù)據(jù)的處理方法,包括以模型擾動值為依據(jù)的粗差的t檢驗(yàn)法和以模型擾動對擬合參數(shù)的影響為依據(jù)的強(qiáng)影響數(shù)據(jù)的Cook距離檢驗(yàn)法。
c. 以典型大壩的位移自動化監(jiān)測數(shù)據(jù)為例,采用本文統(tǒng)計(jì)診斷方法對監(jiān)測數(shù)據(jù)進(jìn)行了合理性檢驗(yàn),結(jié)果表明該方法可有效辨識粗差和強(qiáng)影響數(shù)據(jù),能提高數(shù)據(jù)建模擬合的精度和進(jìn)一步分析的準(zhǔn)確性。