摘 要:文章介紹了離群值定義及分類,對幾種常用的離群值判別方法進行比較,給出了不同情況下應(yīng)采用的判別方法。希望通過文章的論述,可以為相關(guān)工作人員提供幫助,僅供參考。
關(guān)鍵詞:計量;離群值;判別方法對比
1 概述
離群值是樣本中的一個或幾個觀測值,它們離開其他觀測值較遠,暗示它們可能來自不同的總體。離群值有兩類來源,第一類離群值是總體固有變異性的極端表現(xiàn),這類離群值與樣本中其余觀測值屬于同一總體。第二類離群值是由于試驗條件和試驗方法的偶然偏離所產(chǎn)生的結(jié)果,或產(chǎn)生于觀測、記錄、計算中的失誤,這類離群值與樣本中其余觀測值不屬于同一總體[1]。
在計量領(lǐng)域,對在規(guī)定測量條件下測量的量值,測量條件下測得的量值用統(tǒng)計分析的方法進行的測量不確定度分量的評定,是測量不確定度的A類評定。測量中的失誤或突發(fā)因素不屬于測量不確定度的來源。在測量不確定度評定中,應(yīng)剔除測得值中的離群值(異常值)。離群值的剔除應(yīng)通過對數(shù)據(jù)的適當檢驗后進行[2]。
離群值分為單側(cè)情形和雙側(cè)情形,單側(cè)情形分為上側(cè)情形與下側(cè)情形。若無法認定單側(cè)情形,按雙側(cè)情形處理。
2 抽樣檢驗理論
文章介紹的離群值判別方法,均是建立在樣本服從正態(tài)分布的假設(shè)上。抽樣檢驗理論主要是建立均值與方差的估計。
2.1 符號及定義
文章符號及定義如表1所示。
2.2 均值及標準差
當不知道總體標準差時,用樣本標準差估計作為總體標準差。樣本標準差的計算有兩種估計方法:貝塞爾公式、極差法。其中,貝塞爾公式法是方差的無偏估計,用于測量次數(shù)較多情況;極差法在測量次數(shù)較少時(2≤n≤9)應(yīng)用。公式(1)-(3)分別為樣本均值、貝塞爾公式,極差法。
3 離群值的判別
離群值的判別分兩種情況:已知標準差、未知標準差,下面分別介紹。
3.1 已知標準差
3.2 未知標準差
未知標準差時,用貝塞爾公式或極差法計算樣本標準差,從而估計總體標準差。
未知標準差的統(tǒng)計量分為兩類:統(tǒng)計量計算方法固定與統(tǒng)計量計算方法變化,下面分別介紹。
3.2.1 統(tǒng)計量計算方法固定
拉伊達準則、格拉布斯準則、肖維勒準則與奈爾檢驗方法有相似之處[4],都是計算一個統(tǒng)計量,再與相應(yīng)的臨界值表相比較。統(tǒng)計量計算如公式(5)所示。其中,拉伊達統(tǒng)計量(Ra)與固定值3相比較,若大于3,則是離群值。
3.2.2 統(tǒng)計量計算方法變化
狄克遜準則依據(jù)不同的樣本量,分別計算上側(cè)(高端)離群值統(tǒng)計量與下側(cè)(低端)離群值統(tǒng)計量,再依據(jù)檢出水平α,查表判斷是否為離群值。雖然,狄克遜準則將樣本量由30擴充到100,但一般來講,狄克遜準則用于樣本量小于等于30次的離群值檢測。
4 結(jié)束語
已知標準差情形下,采用奈爾檢驗法,檢測離群值;未知標準差情況下,檢驗方法的選擇與測量次數(shù)有關(guān)。其中,關(guān)于統(tǒng)計量計算方法固定的檢驗方法選擇,取同測量次數(shù),同顯著性水平下,臨界值表較小的檢驗方法。測量次數(shù)及建議使用準則如表2所示。
參考文獻
[1]GBT 4883-2008.數(shù)據(jù)的統(tǒng)計處理和解釋[S].
[2]JJF 1059.1-2012.測量不確定度評定與表示[S].
[3]師義民,徐偉,秦超英,等.數(shù)理統(tǒng)計[M].北京:科學出版社,2015.
[4]熊艷艷,吳先球.粗大誤差四種判別準則的比較和應(yīng)用[J].大學物理實驗,2010,23(1):67-68.
作者介紹:劉蘊韜(1989,2-),男,本科學歷,助理工程師,海軍航空裝備計量監(jiān)修中心。