摘 要:介紹測量系統(tǒng)中剔除異常數(shù)據(jù)的兩種方法,其中包括一種新的判據(jù)。根據(jù)應(yīng)用數(shù)理統(tǒng)計參數(shù)估計理論,詳細分析兩種方法的工作原理、剔除步驟。對某次實驗測量數(shù)據(jù),分別利用兩種方法進行異常數(shù)據(jù)的判別和剔除,并用C語言實現(xiàn),然后進行分析比較。實驗證明,在采樣次數(shù)較少(n≤10)的情況下,新方法剔除異常數(shù)據(jù)較多,可能容易丟掉重要信息,考慮可靠性和準確性,宜采用羅曼諾夫斯基準則。
關(guān)鍵詞:測量系統(tǒng);異常數(shù)據(jù);數(shù)理統(tǒng)計;剔除方法
中圖分類號:TP274文獻標(biāo)識碼:B
文章編號:1004-373X(2008)24-148-03
Comparison of Two Methods in Eliminating the Excrescent Data
SHAO Tingting1,2,ZHANG Shuili1,ZHANG Yongbo1
((1.College of Physics and Electronic Information,Yan′an University,Yan′an,716000,China;
2.College of Electronic and Information,Northwestern Polytechnical University,Xi′an,710072,China)
Abstract:Two methods of eliminating the excrescent data in measuring system are introduced,which include a new method.Using statistical estimation theory,the principle and the eliminated process of the two methods are expatiated.For certain experimental data,the two methods are used to distinguish and eliminate the excrescent data,which is based on the C language,and the result is compared and analyzed.The experiment shows that when sampling time is fewer (n≤10),more excrescent data are eliminated if the new method is used,and some essential information may lose,so Rule RomanNoff is better to be used.
Keywords:measuring system;excrescent data;mathematical statistics;eliminated method
1 引 言
隨著計算機技術(shù)的迅速發(fā)展,測控系統(tǒng)也趨于微機化。微機直接接收數(shù)字電信號,而被測對象常是一些模擬信號,故信號送入微機處理之前必須要將模擬信號轉(zhuǎn)化成數(shù)字信號,然后進行數(shù)據(jù)采集[1]。在數(shù)據(jù)采集過程中由于操作者的失誤、外界條件等原因可能會產(chǎn)生粗大誤差。含有粗大誤差的測量數(shù)據(jù)是不可信賴的,是對測量數(shù)據(jù)的一種嚴重扭曲,必須予以剔除[2]。在剔除時,首先應(yīng)盡可能地提高測試人員高度的工作責(zé)任心和嚴謹?shù)目茖W(xué)態(tài)度,其次是正確判斷粗大誤差。應(yīng)該注意不能輕易剔除一個數(shù)據(jù),否則可
能會因為丟掉重要信息而得到錯誤的結(jié)果。
2 兩種剔除異常數(shù)據(jù)的方法
2.1 剔除異常數(shù)據(jù)的新方法
對同一信號進行重復(fù)測量,測量數(shù)據(jù)一般符合正態(tài)分布[3]。如n個采樣值為x1,x2,…,xn,并且它們獨立同分布,即X~N(μ,σ2),則樣本的平均值[4]:
=1n∑ni=1xi~N(μ,σ2n)(1)
樣本方差:
S2=1n-1∑ni=1(xi-)2(2)
根據(jù)期望與方差的點估計理論,是μ的無偏估計值;S2是σ2的無偏估計值,構(gòu)造統(tǒng)計量:
T=-μS2/n~t(n-1)(3)
對于給定的α(0<α<1 ),又因為
P-μS2/n≤tα/2(n-1)=1-α,查t分布表,得tα/2(n-1)的值,可得μ的置信度是1-α的置信區(qū)間,即:
-tα/2(n-1)S/n,+tα/2(n-1)S/n(4)
對于給定置信度1-α(0<α<1),有:
P[-tα/2(n-1) =∫tα/2-tα/2f(t)dt=1-α(5) 式(5)中:tα/2(n-1)是t(n-1)分布上的上α/2分位點,可查表得出,由式(5)得: -tα/2(n-1)S/n<μ<+tα/2(n-1)S/n(6) 而μ落在該區(qū)間之外的概率很小,屬于小概率事件,在正常的測量過程中不會發(fā)生[5]。因此取δ=tα/2(n-1)S/n為臨界值,若xi(i=1,2,…,n)滿足:|xi-|>δ,則xi可判為含有粗大誤差的數(shù)據(jù),應(yīng)予以剔除,所以,把|xi-|>δ作為新的判別異常數(shù)據(jù)的判據(jù)。 基于該方法的剔除步驟如下[6]: (1) 將n個測量數(shù)據(jù)按從小到大的順序排列,最小值為xL,最大值xH; (2) 計算出所有測量數(shù)據(jù)的算術(shù)平均值=1n∑ni=1xi,和測量數(shù)據(jù)的方差S2=1n-1∑ni=1(xi-)2,則S=1n-1∑ni=1(xi-)2; (3) 查t分布表得到tα/2(n-1); (4) 計算δ=tα/2(n-1)S/n,若|xi-|>δ,則可判定xi為異常數(shù)據(jù),應(yīng)予以剔除,若|xi-|<δ,則此xi就不是異常數(shù)據(jù),應(yīng)予以保留。 2.2 羅曼諾夫斯基準則 一般處理數(shù)據(jù)前,認為測量數(shù)據(jù)服從正態(tài)分布,但是數(shù)理統(tǒng)計學(xué)可以證明,在測量次數(shù)較少的情況下,t分布更符合實際分布,該準則就是以t分布為依據(jù)建立的[7]。在一定測量次數(shù)n下,設(shè)等精度獨立測得的一組數(shù)據(jù)為x1,x2,…,xn,若對某一數(shù)據(jù)xk有懷疑,可以按照如下步驟判別[8]: (1) 先將懷疑數(shù)據(jù)xk去掉,計算出不包含xk的測量數(shù)據(jù)的算術(shù)平均值′: ′=1n-1∑ni=1,i≠kxi (2) 計算出不包含xk的殘差在內(nèi)的標(biāo)準偏差s′: s′ = (∑nn = 1,i≠kv2i )/n-2 (3) 根據(jù)選定的顯著水平α和測量次數(shù)n,在t分布表中查出檢驗系數(shù)K(α,n),δ=K(α,n)s′; (4) 若|xk-′|>K(α,n)s′,則可判定xk為異常數(shù)據(jù),應(yīng)予以剔除,若|xk-′| 3 程序?qū)崿F(xiàn)框圖及結(jié)果分析 在某次測量[9]中實驗采樣數(shù)據(jù)依次為: 205.30,204.94, 205.63, 205.24, 206.65, 204.97,205.36, 205.16,204.85,204.90,取顯著性水平α=0.01。分別用上述2種方法對采樣數(shù)據(jù)中的異常數(shù)據(jù)進行剔除。其程序[10]實現(xiàn)框圖如圖1,2所示。 3.1 新方法的實現(xiàn)框圖 新方法的實現(xiàn)框如圖1所示。 圖1 新方法的實現(xiàn)框 3.2 羅曼諾夫斯基準則實現(xiàn)框圖 羅曼諾夫斯基準則實現(xiàn)框如圖2所示。 圖2 羅曼諾夫斯基準則實現(xiàn)框 仿真結(jié)果表明:在該組測量數(shù)據(jù)中,采用新方法時,數(shù)據(jù)204.85,205.63和206.65為異常數(shù)據(jù),應(yīng)予以剔除;而采用羅曼諾夫斯基準則,僅數(shù)據(jù)206.65為異常數(shù)據(jù),應(yīng)予以剔除??梢姡瑢ν唤M測量數(shù)據(jù)(測量次數(shù)較少即n≤10時),使用新方法剔除的異常數(shù)據(jù)比使用羅曼諾夫斯基準則要多,這樣可能容易丟掉重要信息而得到錯誤的結(jié)果。 4 結(jié) 語 測量系統(tǒng)中盡量減少粗大誤差、剔除異常數(shù)據(jù),是保證正確數(shù)據(jù)采集的前提。文中涉及的2種方法均能剔除異常數(shù)據(jù),但它們建立的理論基礎(chǔ)有所不同。由實驗結(jié)果可得在采樣次數(shù)n≤10的情況下,羅曼諾夫斯基準則是種比較成熟的判斷準則,建立的基礎(chǔ)符合數(shù)理統(tǒng)計理論的有關(guān)已證明的結(jié)論,剔除異常數(shù)據(jù)時比較謹慎;然而新方法,雖然也可以剔除異常數(shù)據(jù),但它是建立在測量數(shù)據(jù)服從正態(tài)分布的條件下的,與數(shù)理統(tǒng)計的有關(guān)證明結(jié)論有些偏差,即它的理論存在一定的缺陷,剔除的異常數(shù)據(jù)較多。所以在測量次數(shù)較少(n≤10)時,為準確起見用羅曼諾夫斯基準則,其效果更可靠。 參考文獻 [1]孫傳友,孫曉斌,漢澤西,等.測控系統(tǒng)原理與設(shè)計[M].北京:北京航空航天大學(xué)出版社,2002. [2]馬建倉.電子測量技術(shù)[M].西安:西北工業(yè)大學(xué)出版社,2004. [3]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,1989. [4]陳魁.應(yīng)用概率統(tǒng)計[M].北京: 清華大學(xué)出版社,2000. [5]耿素軍,余劍.智能測量系統(tǒng)中粗大誤差的處理[J].電氣電子教學(xué)學(xué)報,2005,27(3):37-39. [6]余劍.高精度智能測量系統(tǒng)中粗大誤差的處理技術(shù)[J].測試技術(shù)學(xué)報,2003,17(3):258-261. [7]吳天鵬.對粗大誤差判別的理論探討[J].黃石高等專科學(xué)校學(xué)報,1995(2):62-66. [8]葉川,伍川輝,張嘉怡.計量測試中異常數(shù)據(jù)剔除方法比較[J].計量與測試技術(shù),2007,34(7):26-27. [9]邵婷婷,馬建倉,胡士峰,等.電子羅盤的傾斜及羅差補償算法研究[J].傳感技術(shù)學(xué)報,2007,20(6):1 335-1 337. [10]譚浩強.C程序設(shè)計[M].2版.北京:清華大學(xué)出版社,2000. 作者簡介 邵婷婷 女,1982年出生,山東淄博人,助教,碩士研究生。研究方向為智能信息檢測與處理。 張水利 女,1974年出生,山西運城人,碩士研究生。主要研究方向為智能信息處理、圖像信號處理等。 張永波 男,1980年出生,山西繁峙人,碩士研究生。主要研究方向為智能信息處理、移動通信中的信號處理等。 注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文