孫向東,劉擁軍,陳雯雯,賈智寧,黃保續(xù)
(中國動物衛(wèi)生與流行病學中心,山東青島 266032)
異常值對于數(shù)據(jù)統(tǒng)計分析結果的準確性具有不良影響,重視異常值的檢測,分析其產生的原因,為發(fā)現(xiàn)問題、改進方法提供了契機。箱線圖法是檢驗數(shù)據(jù)中異常值的最常用方法。與格拉布斯法(Grubbs)、3σ 法、z分數(shù)法等不同的是,箱線圖法既可以用作服從正態(tài)分布數(shù)據(jù)異常值的判斷,也可以用作不服從正態(tài)分布數(shù)據(jù)異常值的判斷,從而拓展了這種方法的適用范圍。
箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是美國著名統(tǒng)計學家John W.Tukey于1977年發(fā)明的[1]。箱線圖法利用數(shù)據(jù)中的五個統(tǒng)計量:最小值、下四分位數(shù)(Q1)、中位數(shù)(Q2)、上四分位數(shù)(Q3)與最大值來描述數(shù)據(jù)[2-4]。箱線圖可用于:(1)鑒別數(shù)據(jù)中的異常值,包括離群值和極端值;(2)判斷數(shù)據(jù)的偏態(tài)和尾重;(3)比較幾組數(shù)據(jù)的形狀。本文僅討論其在異常值鑒別中的應用。
箱線圖根據(jù)實際數(shù)據(jù)繪制,既不需要事先假定數(shù)據(jù)服從特定的概率分布,也沒有對數(shù)據(jù)作任何限制性要求,能夠真實、直觀地表現(xiàn)數(shù)據(jù)形狀的本來面貌。箱線圖判斷異常值的標準以四分位數(shù)和四分位距為基礎,較多數(shù)據(jù)的變化對四分位數(shù)影響不大,所以箱線圖判斷異常值的標準具有較強的魯棒性(Robust),檢測結果比較客觀。箱線圖法采用中位數(shù)代替平均數(shù)檢測異常值是統(tǒng)計檢測方法上的一大改進。箱線圖法能夠有效克服數(shù)據(jù)中存在異常值時,不能測出異常值的這種掩蓋效應(masking effect)[5]。
箱線圖由參照系(坐標軸)、標志物(箱體、上下四分位線、中位線、異常值截斷點)、檢測數(shù)據(jù)(箱體兩端的延伸線、異常值)三種成分構成,具體見圖1。其中箱體的兩端分別對應下四分位數(shù)Q1和上四分位數(shù)Q3,Q1和Q3之間稱作四分位距(Inter Quartile Range,IQR)。上四分位點右邊1.5倍IQR和下四分位點左邊1.5倍IQR位置對應的點是異常值截斷點,異常值截斷點之間是內限。上四分位點右邊3倍IQR和下四分位點左邊3倍IQR位置對應的點是極端值截斷點,極端值截斷點之間是外限。異常值截斷點以外的數(shù)據(jù)稱作異常值,其中在內限與外限之間的異常值為溫和異常值或離群值(Outlier,mild outliers),在外限以外的為極端異常值或極端值(Extreme,extreme outliers)。
箱線圖的結構與標準正態(tài)分布函數(shù) N(0,1)之間的比較見圖 2。其中Q3與Q1之間包含了50%的數(shù)據(jù)點,異常值截斷點之間包含了99.3%的數(shù)據(jù)點,非異常值誤判為異常值的概率不大于0.7%。
第一步,計算相關值。計算下四分位數(shù)Q1、中位數(shù)Q2、上四分位數(shù)Q3的值,并計算四分位距Q3-Q1,以及 Q3+1.5×IQR、Q1-1.5×IQR、Q3+3×IQR、Q1-3×IQR 等值。
第二步,繪制標志物。繪制數(shù)軸,度量單位和數(shù)據(jù)的單位一致,起點比最小值稍小,長度比該數(shù)據(jù)全距稍長;繪制箱體,在Q1和Q3對應的位置繪制箱體左右兩個邊,Q2對應的位置繪制中位線,詳見圖3(A);繪制截斷線,在Q3+1.5×IQR和Q1-1.5×IQR對應的位置繪制異常值截斷線,在Q3+3×IQR和 Q1-3×IQR對應的位置繪制極端值截斷線,詳見圖 3(B)。
第三步,描線、點。確定數(shù)據(jù)中不是異常值的最小值和最大值點,分別用直線連結這兩個點與矩形兩端,用“ ?!睒顺鲭x群值,用“*”標出極端值,詳見圖 3(C)。
以仔豬價格數(shù)據(jù)為例,演示運用SPSS繪制箱線圖的方法檢測來自148個調查點的仔豬市場價格數(shù)據(jù)中是否有異常數(shù)據(jù)(見表1)。
?
(1)啟動SPSS 打開SPSS軟件,激活數(shù)據(jù)管理窗口。
(2)數(shù)據(jù)準備 把數(shù)據(jù)輸入SPSS軟件的數(shù)據(jù)編輯窗口。定義變量名:采樣點的變量名定義為Spot;輸入原始數(shù)據(jù),仔豬價格變量名定義為Price。
(3)操作步驟 點擊Analyze菜單、Descriptive Statistics...過程中的Explore,彈出Explore對話框,如圖4。
點擊“Plots”,打開繪圖對話框,選中“Histogram”選項,如圖 5。
點擊“Continue”按鈕。返回“Explore”對話框,點擊“OK”鍵,完成計算。圖6是檢驗結果。
結果顯示第144~147號地點采樣數(shù)據(jù) 60、70、72 和 80 為離群值,第148號地點采樣數(shù)據(jù)100為極端值。
SPSS軟件自動生成的箱線圖中,沒有繪制異常值截斷線和極端值截斷線。
處理異常值的方式包括:(1)保留;(2)剔除;(3)替換,即用非異常值替換異常值;(4)修正,在找到實際原因時修正異常值。
對檢出的異常值,應根據(jù)實際問題的性質進行判斷:(1)若無充分理由,則不得剔除或修正異常值;(2)如果有充分理由,表現(xiàn)統(tǒng)計上高度異常的,可以剔除或進行修正;(3)被檢出的異常值,被剔除或修正的觀測值及其理由應予記錄以備查詢。
對于本例各個檢出的異常值進行電話核實,60、70、72 和 80 四個離群值為當?shù)貙嶋H仔豬價格,100這個極端值為錄入員誤報,實際值為44元/千克。經過修正,這些值全部用于動物衛(wèi)生狀況評估分析中。
[1]Tukey John W.Exploratory Data Analysis[M].Reading,MA:Addison-Wesley,1977:23-24.
[2]Michael Frigge,David C.Hoaglin and Boris Iglewicz.Some Implementationsof the Boxplot[J].The American Statistician,1989,43:50-54.
[3]Yoav B.Opening the Box of a Boxplot[J].The American Statistician,1988,42:257-262.
[4]Rousseeuw PJ,Ida Ruts,Tukey J W.The Bagplot:A Bivariate Boxplot[J].The American Statistician,1999,53:382-387.
[5]Bendre S M,Kale B K.Masking Effect on Tests for Outliers in Exponential Models[J].Journal of the American Statistical Association,1985,80:1020-1025.