明 星,李子陽(yáng)
(1.寧波市北侖區(qū)大碶街道農(nóng)業(yè)辦公室,浙江 寧波 315800;2.南京水利科學(xué)研究院,南京 210029)
大壩監(jiān)測(cè)系統(tǒng)的自動(dòng)化及監(jiān)測(cè)資料的自動(dòng)采集為信息的獲取提供了便利,但是,在所獲得的大量大壩原位監(jiān)測(cè)資料中,也常常會(huì)存在這樣兩種現(xiàn)象:①由于自動(dòng)化監(jiān)測(cè)儀器性能的不穩(wěn)定,有時(shí)會(huì)出現(xiàn)測(cè)值的突然改變(變大或變小),即所謂的“粗差數(shù)據(jù)”,但這也有可能確實(shí)是由于外界環(huán)境因素或被觀測(cè)體本身性態(tài)等發(fā)生較大改變,使觀測(cè)結(jié)果表現(xiàn)異常的正常數(shù)據(jù)(為下文表述方便,稱這類(lèi)數(shù)據(jù)為“異常數(shù)據(jù)”),由于粗差數(shù)據(jù)和異常數(shù)據(jù)均表現(xiàn)為與正常數(shù)據(jù)的較大差異,兩者難以準(zhǔn)確區(qū)分;②由于自動(dòng)化監(jiān)測(cè)的便捷性,為盡可能多的反映監(jiān)測(cè)狀況,監(jiān)測(cè)時(shí)段往往設(shè)的很密(如以h為頻率),而建模分析基本都是以d為頻率間隔選取數(shù)據(jù)分析序列,這樣對(duì)于自動(dòng)化獲得的>1 d時(shí)段的原位監(jiān)測(cè)數(shù)據(jù),現(xiàn)工程上常用的整編方法就是選擇一個(gè)統(tǒng)一的參考時(shí)間(如8: 00am),以該時(shí)刻(或其附近)的數(shù)據(jù)作為當(dāng)天的監(jiān)測(cè)數(shù)據(jù)進(jìn)行建模,難以保證選取到較好的測(cè)值并造成了信息的流失。
為了提高自動(dòng)化系統(tǒng)監(jiān)測(cè)數(shù)據(jù)的穩(wěn)定性以及監(jiān)測(cè)數(shù)據(jù)分析的準(zhǔn)確性和合理性:①利用自動(dòng)化監(jiān)測(cè)儀器的便利性以獲得較多的原位監(jiān)測(cè)數(shù)據(jù)顯然是必要的;②對(duì)于所獲得的大量原始數(shù)據(jù)序列,為了分析的便利,對(duì)于>1 d時(shí)段監(jiān)測(cè)數(shù)據(jù)的選取,又希望能夠盡可能多的利用所有監(jiān)測(cè)信息,從而盡量避免信息的流失并選取較好的測(cè)值而不是粗差數(shù)據(jù)進(jìn)行計(jì)算分析。即自動(dòng)化監(jiān)測(cè)數(shù)據(jù)應(yīng)該在保證數(shù)據(jù)穩(wěn)定、簡(jiǎn)潔的同時(shí)又能快速準(zhǔn)確的在測(cè)值中反映出壩體性態(tài)的真實(shí)變化情況。以上問(wèn)題歸結(jié)到監(jiān)測(cè)資料的數(shù)據(jù)整編處理上,即是在對(duì)粗差數(shù)據(jù)和異常數(shù)據(jù)診斷的基礎(chǔ)上,剔除粗差并使得所選監(jiān)測(cè)數(shù)據(jù)值盡可能多的包含有用信息。由于粗差數(shù)據(jù)和異常數(shù)據(jù)的相似性,在現(xiàn)有的數(shù)據(jù)分析方法中,能夠較好識(shí)別兩種數(shù)據(jù)的方法還很難找到。本文根據(jù)兩者的本質(zhì)區(qū)別,引入未確知有理數(shù)濾波方法進(jìn)行分析處理。
在大壩安全監(jiān)測(cè)數(shù)據(jù)中,粗差數(shù)據(jù)是含有粗大誤差、嚴(yán)重偏離真實(shí)值(或既定統(tǒng)計(jì)模型)的大壩原位監(jiān)測(cè)數(shù)據(jù);異常數(shù)據(jù)是由于外界環(huán)境因素或大壩性態(tài)發(fā)生重大改變所導(dǎo)致的(嚴(yán)重)偏離數(shù)據(jù)序列統(tǒng)計(jì)特征(或既定統(tǒng)計(jì)模型)的大壩原位監(jiān)測(cè)數(shù)據(jù)[1]。粗差數(shù)據(jù)和異常數(shù)據(jù)同為異常信息,從數(shù)據(jù)外觀上來(lái)看,兩者均表現(xiàn)為在數(shù)值上與正常監(jiān)測(cè)數(shù)據(jù)相比有較大的差異。如果僅從這點(diǎn)對(duì)數(shù)據(jù)進(jìn)行判別,則不能區(qū)分。如現(xiàn)有工程中常用的萊因達(dá)準(zhǔn)則[2]對(duì)粗差數(shù)據(jù)和異常數(shù)據(jù)的判定就沒(méi)有明顯的區(qū)分界限[3-4]。
進(jìn)一步分析粗差數(shù)據(jù)和異常數(shù)據(jù)的變化情況可以發(fā)現(xiàn),其根本區(qū)別在于:粗差數(shù)據(jù)在數(shù)值上具有突發(fā)性,在相鄰監(jiān)測(cè)數(shù)據(jù)中通常是以個(gè)別形式出現(xiàn),一般不構(gòu)成連續(xù)性,這種現(xiàn)象在數(shù)理統(tǒng)計(jì)上表現(xiàn)為污染正態(tài)分布;而異常數(shù)據(jù)則具有多個(gè)數(shù)值上接近的測(cè)值連續(xù)出現(xiàn)的特點(diǎn),表現(xiàn)為在均值附近位置擺動(dòng)增大,并且一般都具有一定的趨勢(shì)性。表現(xiàn)在監(jiān)測(cè)序列過(guò)程線上(圖1),即:如果δi是粗差數(shù)據(jù),則δi是孤立的,與其前后時(shí)刻數(shù)據(jù)δi-1與δi+1的變化無(wú)必然聯(lián)系;若δi是異常值,則δi是連續(xù)的,必然會(huì)帶動(dòng)其后時(shí)刻的測(cè)值δi+1,δi+2,…,δi+p出現(xiàn)連續(xù)的趨勢(shì)性變化。
圖1 粗差數(shù)據(jù)和異常數(shù)據(jù)示意圖Fig.1 Blunders and outliers data sketch map
未確知有理數(shù)是現(xiàn)有處理和表達(dá)未確知信息的主要數(shù)學(xué)工具之一,其定義如下[5]:
定義1 設(shè)ai∈R?G,αi∈[0,1],i=1,2,…, n,ψ(x)為定義在g(I)上的灰函數(shù),且
若a1<a2<…<an,0<αi≤i(i=1,2,…,m),且∑αi=α≤1,則ψ(x)稱之為未確知有理數(shù),記作[[a1,an],ψ(x)],αi稱為ψ(x)的ai總可信度。
對(duì)于上述未確知有理數(shù)G=[[a1,an],ψ(x)],稱如下一階未確知有理數(shù)
為未確知有理數(shù)G的數(shù)學(xué)期望。
對(duì)于>1d時(shí)段監(jiān)測(cè)數(shù)據(jù)的選取整編問(wèn)題,根據(jù)粗差數(shù)據(jù)的單獨(dú)性和偶然性以及異常數(shù)據(jù)的連續(xù)性和趨勢(shì)性,應(yīng)用未確知有理數(shù)濾波方法進(jìn)行分析。
根據(jù)分析的需要,對(duì)最小數(shù)據(jù)分析單元(如1 d)內(nèi)自動(dòng)化監(jiān)測(cè)所獲得的連續(xù)n次原始監(jiān)測(cè)資料序列δ1,δ2,…,δi,δn,看作是一個(gè)未確知有理數(shù)G,即:
式中ψ(x)為測(cè)量真值的可信度分布密度函數(shù)。
則如何定義ψ(x)使之能區(qū)別粗差數(shù)據(jù)和異常數(shù)據(jù)的功能是問(wèn)題的關(guān)鍵。
根據(jù)粗差和異常值的本質(zhì)區(qū)別:如果δi是粗差數(shù)據(jù),則在δi的某個(gè)小鄰域內(nèi),與其值相近的δj(iλ≤j≤i+λ,j≠i)個(gè)數(shù)為零或很少;若δi是異常值,則在δi的鄰域內(nèi)與其值相近的δj個(gè)數(shù)會(huì)越來(lái)越多。由此,以測(cè)值鄰域內(nèi)包含該測(cè)值附近測(cè)值的個(gè)數(shù)表征其可信度來(lái)定義ψ(x),即δi鄰域內(nèi)的δj越多,則認(rèn)為δi的可信度就越大;反之,δi的可信度就越小,則有:
式中ξi表示δi鄰域|δ-δi|≤λ中包含δj(j≠i)的個(gè)數(shù),鄰域半徑λ根據(jù)儀器精度、穩(wěn)定性及實(shí)測(cè)數(shù)據(jù)序列特點(diǎn)綜合選取。顯然,可信度越小的數(shù)據(jù)越有可能是粗差數(shù)據(jù)。
從ξi的定義不難理解,如果 λ設(shè)置過(guò)大,則可能不能識(shí)別所有的粗差數(shù)據(jù),導(dǎo)致納偽;而如果λ設(shè)置過(guò)小,又可能將正常數(shù)據(jù)判定為粗差數(shù)據(jù),導(dǎo)致棄真。因此,λ取值是否合理將直接決定未確知濾波探測(cè)粗差的成功與否。而從對(duì)觀測(cè)序列的應(yīng)用分析可知,如觀測(cè)序列相鄰觀測(cè)值的平均差值較大,則λ應(yīng)取較大值,反之,則λ取較小值,即λ的取值與數(shù)據(jù)序列的統(tǒng)計(jì)特性有關(guān)。因此,可以依據(jù)對(duì)數(shù)據(jù)統(tǒng)計(jì)量的分析選取,如可取λ為對(duì)整個(gè)觀測(cè)序列求兩倍差值方差:
式(4)以每個(gè)測(cè)值相應(yīng)的可信度反應(yīng)其為粗差可能性的大小,從而達(dá)到粗差探測(cè)的目的。進(jìn)一步分析,為了剔除粗差,并盡可能多的利用有用信息使數(shù)據(jù)顯示平穩(wěn),采用未確知有理數(shù)的數(shù)學(xué)期望E (G)作為最終整編輸出的測(cè)值結(jié)果,由式(2)有:
求未確知期望的實(shí)質(zhì)是將各原位監(jiān)測(cè)數(shù)據(jù)的可信度作為權(quán)重對(duì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行加權(quán)求和。根據(jù)未確知有理數(shù)濾波原理,粗差數(shù)據(jù)相應(yīng)的可信度ξi為零(或接近為零),則通過(guò)加權(quán)求和求解數(shù)學(xué)期望可以達(dá)到剔除粗差并保留有效信息的目的。因此利用未確知有理數(shù)濾波并采用未確知期望作為最終輸出的原位監(jiān)測(cè)數(shù)據(jù)的整編結(jié)果是科學(xué)合理的。
從上面的分析可以看出,用未確知有理數(shù)濾波對(duì)自動(dòng)化監(jiān)測(cè)原始數(shù)據(jù)進(jìn)行處理,可以提高自動(dòng)化監(jiān)測(cè)系統(tǒng)的抗干擾性并獲得較好的整編輸出數(shù)據(jù),給后面的建模分析提供便利。
但從有理數(shù)濾波的特點(diǎn)也可以看出,其分析的數(shù)據(jù)特點(diǎn)是:有多個(gè)數(shù)據(jù)輸入而只需要輸出一個(gè)結(jié)果的情況。那么,對(duì)于未確知有理數(shù)濾波,是否也可以將其直接應(yīng)用于建模資料序列(不同于原位監(jiān)測(cè)資料)的處理,對(duì)整個(gè)資料序列或?qū)⑿蛄蟹侄芜M(jìn)行有理數(shù)濾波呢?有關(guān)學(xué)者已在這方面進(jìn)行了相關(guān)研究[6],下面通過(guò)觀測(cè)值本身yi和與其相鄰的2k個(gè)觀測(cè)值在內(nèi)的共2k+1個(gè)測(cè)值根據(jù)可靠度分析并求未確知期望作為該測(cè)值的濾波值對(duì)其適應(yīng)性進(jìn)行分析。
根據(jù)文獻(xiàn)[6]的分析,按式(4)并經(jīng)略微改動(dòng)作為測(cè)值可信度的大小:
其中ξi表示yi鄰域{y‖y-yi|≤λ,λ>0}中包含yi的個(gè)數(shù),為與相鄰最近2k的個(gè)觀測(cè)值,j≠i。
由此,若yi的ψ(x)=0,則顯然可以將yi作為粗差數(shù)據(jù)剔除。按式(6)類(lèi)似的給出yi測(cè)值的濾波值用下式求得:
由上式可以看出,若所選時(shí)段沒(méi)有粗差數(shù)據(jù),則各個(gè)測(cè)值的可信度大小計(jì)算值一致,由此計(jì)算的yi濾波值為:
即所選時(shí)段測(cè)值的平均值,這顯然不甚合理。
采用未確知有理數(shù)濾波對(duì)建模數(shù)據(jù)序列進(jìn)行處理可以通過(guò)數(shù)據(jù)段的合理選取實(shí)現(xiàn)較好粗差識(shí)別的效果,但在無(wú)粗差數(shù)據(jù)的情況下,對(duì)該測(cè)值與其所選時(shí)段測(cè)值進(jìn)行簡(jiǎn)單的加權(quán)平均作為該時(shí)刻的濾波值,一定程度上削弱了測(cè)值表征該時(shí)刻監(jiān)測(cè)體狀況的能力,造成了有用信息的流失,因此,其合理性有待進(jìn)一步分析。
湖南省某重力壩壩頂共布設(shè)9個(gè)引張線自動(dòng)化測(cè)點(diǎn)(編號(hào)為YZX1~YZX9),監(jiān)測(cè)壩頂順河向水平位移。引張線自動(dòng)化系統(tǒng)測(cè)頻基本是1次/h,由此獲得大量的原位監(jiān)測(cè)數(shù)據(jù)。為剔除粗差并適應(yīng)建模數(shù)據(jù)序列要求,在建模分析前,需進(jìn)行原位測(cè)值的未確知有理數(shù)濾波。選取YZX2測(cè)點(diǎn)順河向數(shù)據(jù)序列2000年11月1日~2001年2月28日為例進(jìn)行分析,分別按以下3種辦法確定建模分析序列:①選取8:00am(或其附近)測(cè)值作為當(dāng)天測(cè)值(常規(guī)辦法,對(duì)應(yīng)圖2中常規(guī)測(cè)值曲線);②對(duì)當(dāng)天測(cè)值序列按本文第三節(jié)方法進(jìn)行未確知有理數(shù)濾波(UF法),將所得濾波值作為當(dāng)天測(cè)值(對(duì)應(yīng)圖2中UF測(cè)值曲線);③采用文獻(xiàn)[6]的改進(jìn)未確知有理數(shù)濾波法(IUF法)對(duì)整個(gè)測(cè)值序列進(jìn)行未確知有理數(shù)濾波,將所得濾波值作為當(dāng)天測(cè)值(對(duì)應(yīng)圖2中IUF測(cè)值曲線)。由此得到的測(cè)值序列對(duì)比見(jiàn)圖2(圖中符號(hào)規(guī)定以順河向位移向下游為正)。
由圖2可見(jiàn),單從曲線平滑度來(lái)看,IUF法>UF法>常規(guī)方法。但從與水位變化過(guò)程線的對(duì)比可見(jiàn),IUF法由于一定程度上考慮了與周?chē)鷾y(cè)值的加權(quán)平均,所得濾波值雖然更平滑,但受水位變化的影響表現(xiàn)也被相應(yīng)的減弱了;而UF法在濾波的同時(shí)較好地保持了與水位變化之間的影響關(guān)系,基本沒(méi)有造成重要信息的流失。如圖2中所框示的①、②兩個(gè)區(qū)域,UF法所獲得的濾波值較好地體現(xiàn)了壩頂順河向位移隨水位變化而變化的規(guī)律(水位上升,向下游位移增加;反之,則反。);而IUF法所獲得的濾波值由于將環(huán)境量的影響進(jìn)行了一定程度的前后平均,其所體現(xiàn)出的位移隨水位變化的效果甚至不如常規(guī)測(cè)值。當(dāng)然,測(cè)值變化規(guī)律也受到了溫度和時(shí)效等的影響,這里不作進(jìn)一步分析。
圖2 測(cè)值有理數(shù)濾波對(duì)比圖Fig.2 Rational number filtering compare map
對(duì)上述3種方法的濾波數(shù)據(jù)進(jìn)行建模,擬合結(jié)果見(jiàn)表1(其中R為復(fù)相關(guān)系數(shù),S為剩余標(biāo)準(zhǔn)差)。根據(jù)UF法進(jìn)行建模分析所獲得的擬合及殘差過(guò)程線見(jiàn)圖3。表1和圖3進(jìn)一步說(shuō)明了UF法相對(duì)于另外兩種方法的有效性和合理性,其所獲得的濾波值更利于后面建模等的進(jìn)一步分析。
表1 濾波數(shù)據(jù)對(duì)模型精度的影響Table 1 Filtering data effecting on model precision
圖3 UF測(cè)值擬合及殘差過(guò)程線Fig.3 UF measuring fitting volume and residual error graph
在大壩安全監(jiān)測(cè)自動(dòng)化所獲得的原位監(jiān)測(cè)資料整編處理過(guò)程中,根據(jù)粗差數(shù)據(jù)和異常數(shù)據(jù)的本質(zhì)區(qū)別,即粗差數(shù)據(jù)的單獨(dú)性和偶然性以及異常數(shù)據(jù)的連續(xù)性和趨勢(shì)性,以測(cè)值鄰域內(nèi)包含該測(cè)值附件測(cè)值的個(gè)數(shù)表征其可信度,并以未確知有理數(shù)均值的形式輸出整編值,以達(dá)到剔除粗差并使整編數(shù)據(jù)盡可能多的包含有用信息的目的,由此建立了基于未確知有理數(shù)濾波的自動(dòng)化監(jiān)測(cè)數(shù)據(jù)粗差識(shí)別和數(shù)據(jù)整編的新方法。在此基礎(chǔ)上分析了未確知有理數(shù)濾波的適用范圍,指出其應(yīng)用于多輸入單輸出的數(shù)據(jù)處理情況。實(shí)例分析表明,對(duì)于>1 d測(cè)值的自動(dòng)化監(jiān)測(cè)數(shù)據(jù)處理,未確知有理數(shù)濾波在剔除粗差的同時(shí)較好地避免了重要信息的流失,與改進(jìn)的未確知有理數(shù)濾波法相比,有利于后面建模等進(jìn)一步分析。
[1] 李子陽(yáng).大壩病險(xiǎn)預(yù)警的盲分析模型和方法[D].南京:河海大學(xué),2009.
[2] 張 敏,袁 輝.萊因達(dá)準(zhǔn)則與異常剔除[J].鄭州工業(yè)大學(xué)學(xué)報(bào),1997,18(1):84-88.
[3] Qin Shuming.Testing Both Upper and Lower Outliers in Normal Samples[J].Mathematics in Economics,2001,18(2):62-67.
[4] 呂世德,徐 暉,鄧念武.大壩觀測(cè)資料異常值的處理方法探討[J].大壩觀測(cè)與土工測(cè)試,1998,22(6):18-25.
[5] 劉開(kāi)第,吳和琴,龐彥軍,等.不確定性信息數(shù)學(xué)處理及應(yīng)用[M].北京:科學(xué)出版社,1999.
[6] 黃紅女.土石壩安全監(jiān)控理論與技術(shù)的研究及應(yīng)用[D].南京:河海大學(xué),2005.