王懷亮
(菏澤學(xué)院,山東 菏澤 274015)
[經(jīng)濟(jì)管理]
回歸診斷在統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用
王懷亮
(菏澤學(xué)院,山東 菏澤 274015)
近年來有關(guān)異常值的理論探討一直是個(gè)熱點(diǎn)問題,從回歸模型診斷的角度對(duì)統(tǒng)計(jì)數(shù)據(jù)中的異常值進(jìn)行探測(cè)與分析,并在基于R語言的基礎(chǔ)上,結(jié)合具體實(shí)例,給出回歸診斷在統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用。
回歸診斷;R;異常值
異常值是指一批數(shù)據(jù)中有部分?jǐn)?shù)據(jù)與整體中其他數(shù)據(jù)相比存在明顯不一致,也稱為異常數(shù)據(jù),或稱離群值。異常值的出現(xiàn)可能是由于記錄錯(cuò)誤引起的,也可能由于該數(shù)據(jù)值不屬于這個(gè)數(shù)據(jù)集,或者本來就是如此,需要進(jìn)一步的調(diào)查。異常值是影響統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的一個(gè)非常重要的因素,近年來有關(guān)異常值的理論探討一直是個(gè)熱點(diǎn)問題;目前研究的重點(diǎn)一直放在統(tǒng)計(jì)法律制度的健全以及統(tǒng)計(jì)工作程序完善等方面。筆者更關(guān)注的則是統(tǒng)計(jì)數(shù)據(jù)的誤差問題,即所提供的統(tǒng)計(jì)數(shù)據(jù)與客觀的社會(huì)經(jīng)濟(jì)現(xiàn)象實(shí)際的數(shù)量特征之間的差距問題。異常值的存在,使得統(tǒng)計(jì)分析的誤差大大增大。因此,在利用已得數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析之前,必須對(duì)異常值進(jìn)行探測(cè)和檢驗(yàn),從回歸模型診斷的角度探測(cè)與分析統(tǒng)計(jì)數(shù)據(jù)中的異常值進(jìn)行。
在統(tǒng)計(jì)軟件方面,常用的統(tǒng)計(jì)軟件有 SPSS、SAS、STAT、R、S-PLUS等。R軟件是一個(gè)自由、免費(fèi)、開源的軟件,是一個(gè)具有強(qiáng)大統(tǒng)計(jì)分析功能和優(yōu)秀統(tǒng)計(jì)制圖功能的統(tǒng)計(jì)軟件,現(xiàn)已是國內(nèi)外眾多統(tǒng)計(jì)學(xué)者喜愛的數(shù)據(jù)分析工具。本文結(jié)合實(shí)例介紹了R軟件在對(duì)統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用。
1.殘差
設(shè)線性回歸模型為:Y=Xβ+ε
其中Y是由響應(yīng)變量構(gòu)成的n維向量,X是n×(P+1)階設(shè)計(jì)矩陣,β是p+1維向量,ε是n維誤差向量。
一般來說,在模型恰當(dāng)?shù)那闆r下,所計(jì)算的殘差應(yīng)該比較小,各個(gè)樣本點(diǎn)計(jì)算的對(duì)應(yīng)的殘差也較小,如果某個(gè)點(diǎn)計(jì)算的殘差值較大,說明該點(diǎn)可能是異常值點(diǎn)。
2.Cook統(tǒng)計(jì)量
Cook在1977年提出了Cook統(tǒng)計(jì)量,Cook統(tǒng)計(jì)量定義為:
(i)為刪除第i個(gè)樣本數(shù)據(jù)后,由余下的n-1個(gè)樣本數(shù)據(jù)求的回歸系數(shù)的估計(jì)值。直觀上,Cook統(tǒng)計(jì)量Di越大的點(diǎn),越可能是異常值點(diǎn),在應(yīng)用上要視具體問題的實(shí)際情況而定。
1.基于R語言的殘差計(jì)算程序
根據(jù)表1分析居住支出與工資收入的關(guān)系,并分析異常值點(diǎn)。
表1 2008年山東省部分地市城鎮(zhèn)居民平均全年工資收入和居住支出情況表 單位:元
數(shù)據(jù)來源:2009年山東統(tǒng)計(jì)年鑒。
經(jīng)初步分析,可以建立以平均工資為自變量,居住支出為因變量的簡(jiǎn)單線性回歸模型,并且該模型通過t檢驗(yàn)和F檢驗(yàn),模型方程為
其殘差圖和Cook距離圖如下:
圖1
圖2
圖3
圖4
圖1是殘差散點(diǎn)圖,從圖形上看,第2號(hào)樣本點(diǎn)明顯偏離其他的樣本點(diǎn);圖2是標(biāo)準(zhǔn)化殘差絕對(duì)值的開方的殘差圖,第2號(hào)樣本點(diǎn)標(biāo)準(zhǔn)化殘差的開方大于1.5,說明第2號(hào)樣本點(diǎn)在95%的范圍以外;圖3表示的是Cook距離,第2號(hào)樣本點(diǎn)的值最大,說明第2號(hào)樣本點(diǎn)可能是異常值點(diǎn);圖4給出了回歸直線和樣本點(diǎn)的散點(diǎn)圖,第2號(hào)樣本點(diǎn)明顯偏上。綜上分析,青島市居民2008年平均工資收入和居民居住支出相對(duì)于該模型為異常值點(diǎn),具體情況需做相關(guān)調(diào)查。
[1]王松貴,張忠占,程維虎,高旅端.概率論與數(shù)理統(tǒng)計(jì)[M].北京:科學(xué)出版社,2007.
[2]湯銀才.R語言與統(tǒng)計(jì)分析[M].北京:高等教育出版社,2008.
[3]薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2009.
(責(zé)任編輯:劉潤婉)
C82
A
1002-2880(2011)02-0118-02
王懷亮(1981-),男,漢族,山東曹縣人,菏澤學(xué)院經(jīng)濟(jì)系助教,碩士,研究方向:計(jì)量經(jīng)濟(jì)統(tǒng)計(jì)分析。
2010年山東省統(tǒng)計(jì)科研重點(diǎn)課題《統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)價(jià)方法研究》(基金項(xiàng)目號(hào):KT1089)。