摘 要:文章基于計(jì)量測(cè)試中異常數(shù)據(jù)的產(chǎn)生和剔除方法,進(jìn)行了分析和研究,從而盡可能準(zhǔn)確、高效地剔除異常數(shù)據(jù),結(jié)合實(shí)例分析了剔除方法在應(yīng)用中應(yīng)該注意的事項(xiàng)。
關(guān)鍵詞:計(jì)量測(cè)試;異常數(shù)據(jù)剔除;精確性
計(jì)量測(cè)量工作是一項(xiàng)對(duì)數(shù)據(jù)精確性要求很高的工作,而在通過計(jì)量測(cè)量得到大量數(shù)據(jù)后,還應(yīng)對(duì)數(shù)據(jù)進(jìn)行科學(xué)的整理,對(duì)其中可能出現(xiàn)的異常進(jìn)行有效的剔除,從而保證測(cè)得數(shù)據(jù)的有效性,供相關(guān)實(shí)踐使用。
1 計(jì)量測(cè)試工作的作用
計(jì)量測(cè)試工作主要是在日常的各類生產(chǎn)實(shí)踐中,出于對(duì)各種數(shù)據(jù)的使用需要而對(duì)檢測(cè)儀器的測(cè)量結(jié)果進(jìn)行評(píng)估,通過評(píng)估結(jié)果來判定檢測(cè)儀器的狀態(tài)是否能夠滿足正常使用要求。檢測(cè)數(shù)據(jù)的重要性是不言而喻的,只有依靠數(shù)據(jù),才能對(duì)生產(chǎn)工藝的穩(wěn)定性、各環(huán)節(jié)產(chǎn)成品以及最終成品的各項(xiàng)參數(shù)是否能符合使用需要等作出科學(xué)的評(píng)判。它也是用以指導(dǎo)工藝改進(jìn)和變革、不斷提高產(chǎn)品質(zhì)量的最有效工具。沒有準(zhǔn)確的計(jì)量,就不可能得到令人信服的數(shù)據(jù),那么試圖依靠數(shù)據(jù)進(jìn)行工藝過程控制、產(chǎn)品質(zhì)量評(píng)定、產(chǎn)品質(zhì)量的持續(xù)改善等就不可能實(shí)現(xiàn)。
2 計(jì)量?jī)x器產(chǎn)生誤差的原因
統(tǒng)計(jì)學(xué)上,將在一組重復(fù)測(cè)量數(shù)據(jù)中,有個(gè)別數(shù)據(jù)與其他同組數(shù)據(jù)存在明顯差異的數(shù)據(jù)判定為可疑數(shù)據(jù),這種數(shù)據(jù)的明顯特點(diǎn)是與組內(nèi)其他數(shù)據(jù)存在明顯的差異,也即數(shù)據(jù)發(fā)生了變異,那么這種變異究竟屬不屬于合理的范疇,則有待于通過進(jìn)一步的判斷才能確定。
計(jì)量?jī)x器屬于一種高精密的儀器,對(duì)外界環(huán)境的要求相對(duì)較高,外界環(huán)境發(fā)生劇烈的變化也可能導(dǎo)致計(jì)量?jī)x器的測(cè)試出現(xiàn)偏差,從而導(dǎo)致檢測(cè)儀器的結(jié)果出現(xiàn)較大的誤差。一般導(dǎo)致計(jì)量?jī)x器產(chǎn)生誤差的原因可能有:(1)檢測(cè)儀器遭受沖擊,主要是機(jī)械沖擊和外界的震動(dòng)等;(2)電網(wǎng)供電電壓的變化、電磁干擾的影響導(dǎo)致檢測(cè)儀器無法正常工作;(3)檢測(cè)人員自身工作疏忽、主觀測(cè)量失誤、工作經(jīng)驗(yàn)不足熟練程度不夠?qū)е碌牟僮鞑划?dāng);(4)儀器本身出故障,比如零件松動(dòng)、內(nèi)部電子元件損壞等。
異常值由于與正常的合理值存在較大的偏差,如果參與到計(jì)算中或是判定過程中,往往會(huì)對(duì)結(jié)果造成極大的干擾,從而影響人們作出正確的決策。因此必須要剔除異常值,但是如果采用了不正確的剔除方法,不僅難以消除異常值帶來的影響,反而會(huì)造成測(cè)量重復(fù)性較好的假象,會(huì)對(duì)數(shù)據(jù)真實(shí)性的判斷造成障礙,從而誤導(dǎo)人們提高了檢測(cè)儀器的等級(jí)。而如果不剔除,又會(huì)降低測(cè)量數(shù)據(jù)的重復(fù)性,從而給檢測(cè)儀器的等級(jí)帶來不利影響。以上表明,只有對(duì)異常值采用正確的剔除方法,才能確保最終的測(cè)量復(fù)合人們的使用要求。
3 異常值判斷準(zhǔn)則
在計(jì)量實(shí)踐活動(dòng)中常用的異常值判斷準(zhǔn)則有以下幾種:(1)3Σ準(zhǔn)則(三西格碼準(zhǔn)則又名拉依達(dá)準(zhǔn)則);(2)格拉布斯準(zhǔn)則;(3)肖維勒準(zhǔn)則;(4)t檢驗(yàn)法。需要注意的是,盡管以上準(zhǔn)則內(nèi)容有所不同,但進(jìn)行判斷時(shí)都不外乎地使用到了置信概率。所謂置信概率是指隨機(jī)變量落于“置信區(qū)間”的概率,將置信區(qū)間所代表的測(cè)量數(shù)據(jù)取值范圍命為X,則有以下表達(dá)式:
(1)3 Σ準(zhǔn)則:
|Xd-X|>3?滓
將測(cè)得數(shù)據(jù)代入上式,如果符合則判定該值為異常值,應(yīng)予剔除。其所代表的含義為:可疑數(shù)據(jù)與整組數(shù)據(jù)的算數(shù)平均數(shù)的差的絕對(duì)值大于3倍的標(biāo)準(zhǔn)偏差,則此數(shù)值應(yīng)舍棄。
(2)肖維勒準(zhǔn)則:|Xd-X|>wn·?滓
應(yīng)用本公式時(shí),根據(jù)相互獨(dú)立測(cè)量的數(shù)據(jù),如果測(cè)量值滿足以上公式:|Xd-X|>wn·?滓時(shí),則判定該數(shù)值xd為異常值,應(yīng)予以剔除。
(3)格布拉斯準(zhǔn)則表達(dá)式:|Xd-X|≥G(α,n)s
式中:xd-測(cè)量數(shù)據(jù);x-測(cè)量數(shù)據(jù)平均值;s-貝塞爾公式計(jì)算的標(biāo)準(zhǔn)差;G(α,n)-為查表得。
(4)t檢驗(yàn)法
t檢驗(yàn)法主要是以可疑數(shù)值xi之外的數(shù)值當(dāng)做一個(gè)數(shù)據(jù)集合總體,同時(shí)假定該數(shù)據(jù)集總體呈正態(tài)分布,(盡管這只是一個(gè)數(shù)據(jù)分布的假定,究竟是不是正態(tài)分布,尚需要進(jìn)一步的判斷,但在實(shí)際應(yīng)用中,人們往往傾向于不考慮樣本是否符合正態(tài)分布,而將其近似假定為樣本符合正態(tài)分布),同時(shí)將可疑數(shù)值xi當(dāng)作一個(gè)樣本容量為1的特殊總體,在進(jìn)行兩個(gè)總體比較時(shí),如果兩者同屬一個(gè)總體,那么他們之間不應(yīng)該存在顯著的差異,由此即可計(jì)算出統(tǒng)計(jì)量k:
k=■
式中:X-可疑值以外的樣本數(shù)據(jù)算術(shù)平均值;s-可疑值以外的樣本數(shù)據(jù)標(biāo)準(zhǔn)差。將k值與查t分布表所得值進(jìn)行比較,大于顯著性水平a(a常取0.05)下的t檢驗(yàn)值,則表明xi的出現(xiàn)是一個(gè)小概率事件,可以考慮為異常值,將其舍去。
4 實(shí)例判定
現(xiàn)結(jié)合實(shí)例對(duì)以上異常值判斷準(zhǔn)則進(jìn)行判定:
例:對(duì)某測(cè)量量進(jìn)行等精度測(cè)量得到一組測(cè)量數(shù)據(jù):10.002,10.2
04,0.218,10.220,10.228,10.230,10.312,10.320,10.342,10.346分別用以上方法判斷并剔除異常值,取置信概率95%(即是α=0.05),
首先懷疑10.346為異常值
計(jì)算得到:
X=10.2317(10個(gè)數(shù)據(jù)的平均值),X1=10.2231,σ=0.0912,s=0.0888
結(jié)論:10.346為異常值,應(yīng)剔除。
結(jié)論:在以上判定案例中,應(yīng)用的四種方法判定結(jié)果相對(duì)一致:10.346為異常值。其中:G(α,n)s與10.002-10.2317最接近,這也表明此種情況下應(yīng)用格拉布斯準(zhǔn)則效果相對(duì)更好。從以上判定過程中,我們不難總結(jié)出判定異常數(shù)值的基本思想:即先做出某一統(tǒng)計(jì)量,若該統(tǒng)計(jì)量在規(guī)定的一個(gè)范圍內(nèi),那么認(rèn)為其服從正態(tài)分布,否則就認(rèn)為數(shù)據(jù)不服從正態(tài)分布,這就表明其中數(shù)據(jù)存在著明顯的誤差。為了方便判斷,通常先將數(shù)據(jù)按照大小進(jìn)行排序,最先懷疑極值。如果極值未被判定為異常值則其他也就不會(huì)發(fā)生異常。而在以上的幾種判斷準(zhǔn)則中,除了準(zhǔn)則(1)之外,都需要通過查表,來得出參考值并與統(tǒng)計(jì)得到的計(jì)算值進(jìn)行比較。準(zhǔn)則(1)|Xd-X|>3?滓,從公式分析來看,如果測(cè)量次數(shù)N足夠大,則相應(yīng)的標(biāo)準(zhǔn)差σ將很小,此時(shí)準(zhǔn)則(1)就變得非常的精確。標(biāo)準(zhǔn)差σ是通過貝塞爾公式計(jì)算出的,該公式要求測(cè)量次數(shù)N不得少于10,所以一般如果測(cè)量次數(shù)足夠大,比如大于50次以上,則應(yīng)用準(zhǔn)則(1)就相對(duì)方便許多。而由狄克遜準(zhǔn)則計(jì)算公式不難看出,該準(zhǔn)則可以一次剔除多個(gè)異常數(shù)值,因此如果在進(jìn)行目測(cè)判斷有多個(gè)異常值出現(xiàn)時(shí),則建議使用該準(zhǔn)則進(jìn)行判定。除此之外,其他方法在剔除一個(gè)異常值之后,必須進(jìn)行重新計(jì)算不含異常數(shù)值后的其他數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差,再重新判斷直到?jīng)]有發(fā)現(xiàn)異常值,t檢驗(yàn)法多用于兩樣本方差顯著性判斷。
5 結(jié)束語(yǔ)
在實(shí)際應(yīng)用中為了保證有足夠的精度,避免誤判,可以綜合以上判定準(zhǔn)則的兩種或三種以上進(jìn)行同時(shí)判斷,若結(jié)論一致認(rèn)為應(yīng)當(dāng)剔除,那么可靠性將大大提高。而當(dāng)判定結(jié)果出現(xiàn)不一致時(shí),則應(yīng)慎重考慮,進(jìn)行再次驗(yàn)證,此種情況下一般建議做數(shù)據(jù)保留處理。
參考文獻(xiàn)
[1]費(fèi)業(yè)泰.誤差理論與數(shù)據(jù)處理[M].機(jī)械工業(yè)出版社,2005.
[2]秦樹人.機(jī)械工程測(cè)試原理及技術(shù)[M].重慶大學(xué)出版社,2002.