孫培強
(西安計量技術研究院,西安 710068)
異常值又稱離群值,是指在對一個被測量重復觀測所獲得的若干觀測結果中,出現(xiàn)了與其它值偏離較遠并且不符合統(tǒng)計規(guī)律的個別值,他們可能來自不同的總體,或屬于意外、偶然的測量錯誤,也稱為存在著“粗大誤差”。造成異常值的原因很多,如:震動、沖擊、電源變化和電磁干擾等意外的環(huán)境條件變化;人為的讀數(shù)或者記錄錯誤;儀器內部的偶發(fā)故障等。
如果一系列測量數(shù)據(jù)中存在異常值,必然會歪曲測量的結果。若能將該值剔除不用,便能使測量結果更符合客觀情況;有些情況下,一組正確測量值的分散性,本來客觀地反映了實際測量的隨即波動性,若人為地丟掉一些偏離較遠但不屬于異常值的數(shù)據(jù),會使得到的所謂分散性很小,實際上卻是虛假的。因為,以后在相同條件下再次測量時原來的正常分散性還會顯現(xiàn)出來,因此必須正確的判別和剔除異常值。
在測量過程中,如果遇到記錯、讀錯、儀器突然跳動和突然震動等異常情況,這些已知原因的異常值,應該隨時發(fā)現(xiàn),隨時剔除,這就是物理判別法。如果僅僅是懷疑而不能確定某個值是異常值時,可采用統(tǒng)計判別法進行判別。
設在一組重復觀測結果xi中,其殘差υi最大者為可疑值xd,在給定的置信概率為p=0.99或p=0.95,也就是顯著水平a=l-p=0.01或0.05時,如果滿足下述公式,可以判定xd為異常值。
式中,G(a,n)為與顯著水平a和重復觀測次數(shù)n有關的格拉布斯臨界值(見表1)。
表1 格拉布斯準則的臨界值G(a ,n)表
否則沒有異常值。
表2 狄克遜檢驗的臨界值D(a ,n)表
實例:在測量過程中得到10個值,按從小到大排列為:8.75,8.76,8.78,8.79,8.80,8.82,8.83,8.91,8.92,9.13。
觀測值實驗標準偏差s=0.114
按p=0.95,即a=l-p=0.05,n=10,查表得G(0.05,10)=2.176
按p=0.99,即a=l-p=0.01,n=10,查表得G(0.01,10)=2.410
觀測值個數(shù)n=10用下面公式
拉依達準則和格拉布斯準則得出的結論截然相反,原因在于觀測值的個數(shù)并不大,用貝塞爾公式求得的僅是理論上的實驗標準偏差的估計值。當n比較小時,求得的實驗標準偏差值比較大。此時,若依照拉依達準則的3s做判斷依據(jù),并不可靠,當以3s為界限時,即使有粗大誤差也發(fā)現(xiàn)不了;而格拉布斯準則在理論上給出了嚴格而具體的判定標準,所以兩者之間的得出的結論截然相反。
格拉布斯準則和狄克遜準則在理論上都給出了嚴格而具體的判定標準,但他們對同一組數(shù)據(jù)的判定結果也有差異。一般情況下,格拉布斯準則比狄克遜準則嚴格。狄克遜準則不使用實驗標準偏差來判定異常值,而是用極差比來判定異常值,并且要求不同的測量次數(shù)應用不同的極差比公式計算,公式多,不宜記憶。格拉布斯準則有唯一的公式,方法簡便,易于掌握,而且可靠。格拉布斯準則適用于單個異常值,而狄克遜準則可以多次剔除異常值。
格拉布斯準則和狄克遜準則對測量次數(shù)有要求,測量次數(shù)大于50次不能使用格拉布斯準則,測量次數(shù)大于30次不能使用狄克遜準則,而拉依達準則對測量次數(shù)沒有限制。
所以當測量次數(shù)n>50的情況下,拉依達準則較簡便實用;在測量次數(shù)3 我們在計量檢定工作中會有大量數(shù)據(jù)處理工作,其中異常值的剔除是非常重要的一個環(huán)節(jié),希望本文對計量一線人員如何正確選擇剔除異常值的三個準則有所幫助。 [1] 沙定國.誤差分析與測量不確定度評定[M] .中國計量出版社,2003 [2] 沙定國.實用誤差理論與數(shù)據(jù)處理.北京理工大學出版社,1993 [3] 劉智敏.殘差的性質及其應用.計量學報,1980(9) [4] 李夢奇.工程技術領域等精度數(shù)據(jù)異常值判定系統(tǒng).計量技術,2006(3) [5] 徐樞.粗大誤差統(tǒng)計判斷方法的比較與評價.計量技術,1983(3) [6] 肖明耀.實驗誤差估計與數(shù)據(jù)處理.科學出版社,1980 [7] 肖明耀.怎樣剔除含有粗差的觀測值.計量工作,1973(2)4 結束語