通遼市產(chǎn)品質(zhì)量計(jì)量檢測(cè)所 王 瑩 劉 佳 王 欣 劉 宇 王曉東
計(jì)量檢測(cè)中異常數(shù)據(jù)剔除的有效方法
通遼市產(chǎn)品質(zhì)量計(jì)量檢測(cè)所 王 瑩 劉 佳 王 欣 劉 宇 王曉東
對(duì)于計(jì)量測(cè)量這項(xiàng)工作來(lái)說(shuō),它對(duì)數(shù)據(jù)精確性的要求非常高,當(dāng)計(jì)量測(cè)量獲得的大量數(shù)據(jù)被通過(guò)以后,需要科學(xué)合理的對(duì)數(shù)據(jù)進(jìn)行整理,從而有效剔除可能出現(xiàn)的異常信息,使數(shù)據(jù)的有效性和實(shí)踐性得到不斷提升。基于此,本文主要對(duì)計(jì)量檢測(cè)中異常數(shù)據(jù)剔除的有效方法進(jìn)行了探討。
計(jì)量測(cè)試;異常數(shù)據(jù);剔除;有效方法
計(jì)量測(cè)量這項(xiàng)工作對(duì)數(shù)據(jù)準(zhǔn)確性的要求非常高,當(dāng)計(jì)量測(cè)量獲得大量的數(shù)據(jù)以后,需要對(duì)這些數(shù)據(jù)進(jìn)行科學(xué)處理,發(fā)現(xiàn)并剔除其中的數(shù)據(jù)異常值,使數(shù)據(jù)的準(zhǔn)確性得到不斷提升,進(jìn)而使相關(guān)活動(dòng)可以獲得科學(xué)、合理的參考信息。因此,下面將對(duì)計(jì)量測(cè)量中異常數(shù)據(jù)出現(xiàn)的各種原因進(jìn)行分析,獲得四種剔除異常數(shù)據(jù)的方法,這四種辦法各有特點(diǎn),不僅可以進(jìn)行針對(duì)性使用,還可以綜合在一起使用,從而異常數(shù)劇被及時(shí)發(fā)現(xiàn)并剔除。
在日常的各類生產(chǎn)實(shí)踐活動(dòng)中都會(huì)涉及到計(jì)量測(cè)試工作,為了使各種數(shù)據(jù)的使用需求得到滿足,需要重新評(píng)估檢測(cè)儀器的測(cè)量結(jié)果,通過(guò)認(rèn)真分析評(píng)估結(jié)果,從而使檢測(cè)儀器的狀態(tài)是否達(dá)到正常使用的標(biāo)準(zhǔn)進(jìn)行有效的判定。檢測(cè)數(shù)據(jù)具有十分重要的意義,在對(duì)各環(huán)節(jié)半成品和最終成品的所有參數(shù)、生產(chǎn)技術(shù)的穩(wěn)定性進(jìn)行評(píng)判的時(shí)候,需要以此為主要的參考數(shù)據(jù),同時(shí)也是提升產(chǎn)品質(zhì)量和指導(dǎo)技術(shù)變革和進(jìn)步的最為行之有效的辦法。要想讓人對(duì)數(shù)據(jù)信服,就要對(duì)其進(jìn)行精準(zhǔn)的計(jì)量,因此,要想對(duì)工藝流程進(jìn)行控制、對(duì)產(chǎn)品質(zhì)量進(jìn)行評(píng)定、對(duì)產(chǎn)品質(zhì)量進(jìn)行有效改變是不可能得以實(shí)現(xiàn)的。
從統(tǒng)計(jì)學(xué)的角度上來(lái)說(shuō),可疑數(shù)據(jù)主要是指在一組反復(fù)測(cè)量的數(shù)據(jù)里,個(gè)別數(shù)據(jù)與其他組數(shù)據(jù)存在著比較明顯差異??梢蓴?shù)據(jù)的主要特征就是與組內(nèi)的其他數(shù)據(jù)有著比較明顯的不同,也就是說(shuō)數(shù)據(jù)發(fā)生了改變,然而這種改變是不是發(fā)生在合理的范圍之內(nèi),有待于進(jìn)行深層次的分析和研判,從而實(shí)現(xiàn)科學(xué)、有效的確定。
計(jì)量?jī)x器隸屬于高精密儀器的范疇,對(duì)外界環(huán)境的要求非常高,如果外界環(huán)境出現(xiàn)了比較大的改變,就會(huì)使計(jì)量?jī)x器的精準(zhǔn)度受到影響,從而使檢測(cè)儀器的檢測(cè)結(jié)果出現(xiàn)一定范圍的誤差。造成計(jì)量?jī)x器出現(xiàn)誤差的原因主要有四點(diǎn):第一,檢測(cè)儀器受到外界震動(dòng)或者是機(jī)械沖擊;第二,受電磁干擾和電網(wǎng)供電不穩(wěn)而使得檢測(cè)儀器正常工作受到影響;第三,檢測(cè)人員熟練程度不夠、工作經(jīng)驗(yàn)不足、主觀測(cè)量失誤以及工作疏忽導(dǎo)致的檢測(cè)誤差;第四,儀器內(nèi)部電子元件損壞、零件松動(dòng)等本身故障導(dǎo)致的檢測(cè)誤差。
異常值與合理值之間存在著很大的偏差,假如參與到判定過(guò)程和計(jì)算中,就會(huì)給測(cè)量結(jié)果造成巨大的影響,使人們的正確決策受到影響。所以一定要將異常值剔除掉,然而使用的剔除辦法不正確,就會(huì)給異常值消除造成嚴(yán)重的影響,易于導(dǎo)致測(cè)量重復(fù)性較好的假象出現(xiàn),給數(shù)據(jù)真實(shí)性的判定帶來(lái)了嚴(yán)重的阻礙,使人們提升檢測(cè)儀器的等級(jí)被嚴(yán)重誤導(dǎo)。假如不剔除異常值,就會(huì)使測(cè)量數(shù)據(jù)的重復(fù)性被降低,使檢測(cè)儀器的等級(jí)受到了嚴(yán)重的影響。綜上所述,只有使用正確的剔除方法,才能使最后的測(cè)量結(jié)果滿足人們的使用需求。
在對(duì)實(shí)踐活動(dòng)進(jìn)行計(jì)量的時(shí)候,經(jīng)常使用的異常值判定準(zhǔn)則有四種:第一,3Σ準(zhǔn)則;第二,t 檢驗(yàn)法;第三,肖維勒準(zhǔn)則;第四,格拉布斯準(zhǔn)則。上述的幾種準(zhǔn)則存在著一定的差別,在實(shí)際判斷的時(shí)候,置信概率會(huì)被使用到。置信概率主要是指“置信區(qū)間”高于隨機(jī)變量的概率,使用X來(lái)表示置信區(qū)間測(cè)量數(shù)據(jù)取值范圍,其表達(dá)式如下:
(1)3Σ準(zhǔn)則:
把測(cè)量的數(shù)據(jù)帶入到表達(dá)式中,與判定值相一致,可以將該測(cè)量結(jié)果判定為異常值,需要將其進(jìn)行剔除。
(2)t 檢驗(yàn)法
數(shù)據(jù)集合總體是指檢驗(yàn)方法為可疑數(shù)值 xi外的數(shù)值,將該數(shù)據(jù)集假設(shè)成一種正態(tài)分布模式,把可疑數(shù)值 xi當(dāng)做成樣本容量特殊總量,用1來(lái)表示。經(jīng)過(guò)對(duì)兩個(gè)總體進(jìn)行認(rèn)真比較,其結(jié)果顯示它們隸屬于相同的總體,得出的最終結(jié)論為,二者之間沒(méi)有比較明顯的不同,因此其統(tǒng)計(jì)量計(jì)算公式為:
(3)肖維勒準(zhǔn)則:
通過(guò)對(duì)真實(shí)案例進(jìn)行認(rèn)真仔細(xì)的分析,從而使異常值判定更加的科學(xué)、合理。例如,在對(duì)某組數(shù)據(jù)進(jìn)行精度測(cè)量以后,得出的數(shù)據(jù)值分別為10.347、10.343、10.321、10.313、10.231、10.229、10.221、10.219、10.205和10.003。使用上述的異常值判定法來(lái)進(jìn)行判定,從而使判定操作具有較強(qiáng)的針對(duì)性,最終得出的結(jié)論都是一樣的,異常值的最終判定值為10.346。其中,10.003-10. 347與比較接近,這也充分的體現(xiàn)出,在這樣的情況里使用格拉布斯準(zhǔn)則對(duì)異常值進(jìn)行判定的效果非常好,其準(zhǔn)確性也比較高。通過(guò)對(duì)這一案例的仔細(xì)判定,可以使異常值判定的思想得到較好的體現(xiàn)。首先設(shè)定好一個(gè)統(tǒng)計(jì)量,假如該統(tǒng)計(jì)量正好處于規(guī)定的范圍之內(nèi),則說(shuō)明這個(gè)統(tǒng)計(jì)量與正態(tài)分布比較吻合。反之,則表明統(tǒng)計(jì)量與正態(tài)分布不相吻合,說(shuō)明該數(shù)據(jù)值中有誤差存在。要想使異常值被準(zhǔn)確、快速的判斷出來(lái),可以將數(shù)據(jù)按照從大到小的順序進(jìn)行排列,先對(duì)最小值和最大值進(jìn)行懷疑,假如這兩個(gè)極值不是異常值,那么其他的數(shù)值也不會(huì)成為異常值。在上面的四種判定準(zhǔn)則里,3Σ準(zhǔn)則是需要進(jìn)行查表的,其他的三種準(zhǔn)則不需要進(jìn)行查表,把計(jì)算值和參考值進(jìn)行認(rèn)真比較,分析3Σ準(zhǔn)則,從公式的角度來(lái)看,如果測(cè)量次數(shù)N比較大,它所對(duì)應(yīng)的標(biāo)準(zhǔn)差σ就會(huì)比較小,此時(shí)3Σ準(zhǔn)則就會(huì)非常精準(zhǔn)。通過(guò)使用貝塞爾公式得出的標(biāo)準(zhǔn)差σ需要在公式中進(jìn)行反復(fù)測(cè)量,測(cè)量次數(shù)N的最小值為10,假如測(cè)量的次數(shù)在50以上,那么使用3Σ準(zhǔn)則就會(huì)在最短的時(shí)間之內(nèi)將異常值測(cè)量出來(lái)。通過(guò)使用狄克遜準(zhǔn)則計(jì)算公式可以發(fā)現(xiàn),使用該準(zhǔn)則可以將多個(gè)異常值在一次測(cè)量中被全部剔除,因此在對(duì)多個(gè)異常值進(jìn)行判定的時(shí)候,可以使用該準(zhǔn)則進(jìn)行快速判定,從而使異常值判定的速度得到不斷加快,使其準(zhǔn)確性得到較好保障。
綜上所述,在進(jìn)行實(shí)際測(cè)量的時(shí)候,可以綜合使用上述的四種辦法,從而使測(cè)量的準(zhǔn)確性得到不斷提高,使誤判的現(xiàn)象得到有效控制。假如結(jié)論都是一樣的,將異常值剔除以后,會(huì)使測(cè)量的準(zhǔn)確性得到較大程度的提高。相反,假如判定的結(jié)果不一樣,就需要進(jìn)行認(rèn)真的分析和思考,使用其他的辦法重新進(jìn)行判定,直到數(shù)據(jù)信息達(dá)到統(tǒng)一的標(biāo)準(zhǔn)為止。
[1]王元明,熊偉.異常數(shù)據(jù)的檢測(cè)方法[J].重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版),2009(02).
[2]吳展,蔡萍.一種改進(jìn)的動(dòng)態(tài)過(guò)程測(cè)量數(shù)據(jù)預(yù)處理方法[J].傳感技術(shù)學(xué)報(bào),2010(04).
[3]徐丹,王中禹.計(jì)量測(cè)試中異常數(shù)據(jù)剔除的措施[J].科技經(jīng)濟(jì)導(dǎo)刊,2016(20).