鄭紅艷,夏樂(lè)天
(河海大學(xué) 理學(xué)院,南京 210098)
經(jīng)典線性回歸模型的一個(gè)重要假設(shè)就是回歸方程誤差項(xiàng)εi具有相同的方差,也稱方差齊性,其經(jīng)典線性回歸模型可以表示為
假設(shè)有 n 組觀察值(yi,xi2,xi3,…,xik),i=1,2,…,n,則(1)式可表示為
用矩陣可表示為
其中Y是被解釋變量觀察值的n維向量,X是解釋變量的n×p矩陣,β為p維的未知系數(shù)向量,ε是n維的隨機(jī)誤差項(xiàng)向量。
如果在回歸模型(2)中,不管x取什么值,εi的方差都是同一常數(shù),我們就說(shuō)εi具有同方差性(也稱方差齊性)。然而,在現(xiàn)實(shí)中,人們發(fā)現(xiàn)有不少現(xiàn)象與方差齊性相違背。當(dāng)方差齊性假定不滿足,也就是說(shuō)誤差項(xiàng)εi的方差不等于一個(gè)常數(shù),即
則稱誤差項(xiàng)εi具有異方差性。在模型(3)中,除誤差項(xiàng)具有異方差性外,其它基本假設(shè)都能滿足,則稱這種模型為異方差的線性回歸模型,簡(jiǎn)稱異方差模型[1-2]。
特別是當(dāng)討論橫截面數(shù)據(jù)時(shí),異方差性通常是不可避免的。例如,當(dāng)討論公司利潤(rùn)與若干解釋變量的線性回歸模型時(shí),大規(guī)模公司的利潤(rùn)顯然比小規(guī)模公司的利潤(rùn)有更大的波動(dòng)性,又如,當(dāng)研究家庭收入(解釋變量)和儲(chǔ)蓄(因變量)之間的線性回歸關(guān)系時(shí),由于高收入家庭除了必要的家庭支出外剩余較多,隨意支配部分較大,因而,他們儲(chǔ)蓄多少的隨意性也較大,即儲(chǔ)蓄額的差異較大。
如果對(duì)異方差模型進(jìn)行最小二乘估計(jì)(OLS估計(jì)),就會(huì)產(chǎn)生嚴(yán)重的錯(cuò)誤[3]:參數(shù)估計(jì)量的方差不具有最小方差性;估計(jì)與預(yù)測(cè)的精度降低。因此,異方差性的檢驗(yàn)具有重要的經(jīng)濟(jì)意義。
常用的檢驗(yàn)異方差的方法有很多。如果在同一條件下,存在重復(fù)試驗(yàn)或重復(fù)觀察的話,統(tǒng)計(jì)學(xué)家已經(jīng)提出了不少方差齊性的檢驗(yàn)方法。譬如,巴特列特(Bartlett)檢驗(yàn)等[4]。但是,在經(jīng)濟(jì)問(wèn)題中,很少存在這種數(shù)據(jù),為此,經(jīng)濟(jì)計(jì)量學(xué)家又提出了許多不同的方法,譬如圖示法、斯皮爾曼(Spearman)的秩相關(guān)系數(shù)檢驗(yàn)法、戈德菲爾德-匡特(Goldfeld-Quandt)檢驗(yàn)法等等,文獻(xiàn)[4]甚至還給出了一種不依賴于殘差的異方差檢驗(yàn)方法。其中,戈德菲爾德-匡特檢驗(yàn)法(簡(jiǎn)稱“G-Q檢驗(yàn)法”)是最為常用的方法之一。由于戈德菲爾德-匡特檢驗(yàn)方法只適用于一個(gè)自變量[3],因此,本文給出了一種適用于多變量的異方差檢驗(yàn)法,該法實(shí)質(zhì)上就是一種推廣的G-Q檢驗(yàn)法,它只需要對(duì)樣本數(shù)據(jù)進(jìn)行若干次單變量G-Q檢驗(yàn),即可得到是否有“方差齊性”的推斷。
戈德菲爾德-匡特檢驗(yàn),簡(jiǎn)稱G-Q檢驗(yàn),這種檢驗(yàn)適用于大樣本。這種檢驗(yàn)要求隨機(jī)項(xiàng)εi服從正態(tài)分布且εi無(wú)序列相關(guān)。檢驗(yàn)的方法以F檢驗(yàn)為基礎(chǔ),它把隨機(jī)樣本分為三段,去掉中間一段。假定低樣本組的數(shù)據(jù)具有同方差性,設(shè)方差為,高樣本組的數(shù)據(jù)也具有同方差性,設(shè)方差為。然后比較高樣本組與低樣本組的方差是否相同。若方差相同,說(shuō)明數(shù)據(jù)中不存在異方差;若方差不同,說(shuō)明數(shù)據(jù)中存在異方差。
設(shè) x為所考慮的解釋變量,檢驗(yàn)原假設(shè) H0:,備擇假設(shè) H1:。
G-Q檢驗(yàn)的步驟為:
(1)把觀察值按照解釋變量x由小到大的順序排列,對(duì)應(yīng)的被解釋變量與解釋變量的對(duì)應(yīng)關(guān)系不變。
(2)略去c個(gè)中心觀察值,c的大小約為樣本容量n的四分之一到三分之一,為了計(jì)算上的方便最好使n-c為偶數(shù)。
(3)剩下n-c個(gè)樣本觀察值分為大小相等的兩個(gè)樣本,第一個(gè)樣本包含的觀察值相應(yīng)于解釋變量x的較小部分第二個(gè)樣本包含的觀察值相應(yīng)于解釋變量x的較大部分。
(4)應(yīng)用普通最小二乘法對(duì)每個(gè)樣本分別進(jìn)行回歸,并計(jì)算出相應(yīng)的殘差平方和ESS1和ESS2。
(5)選擇統(tǒng)計(jì)量
在H0為真時(shí),F(xiàn)服從自由度為r1=(n-c-2k)/2,r2=(n-c-2k)/2的F分布。這里的k為回歸模型中參數(shù)的個(gè)數(shù)。如果選定顯著性水平α,那么可利用F分布的臨界值Fα(上側(cè)α分位點(diǎn))進(jìn)行顯著性檢驗(yàn)。當(dāng)F>Fα?xí)r,拒絕原假設(shè)H0,認(rèn)為存在異方差性,當(dāng) F≤Fα?xí)r,接受原假設(shè) H0,認(rèn)為 εi方差齊性。
G-Q檢驗(yàn)法對(duì)單個(gè)解釋變量來(lái)說(shuō),是一種方便、快捷檢測(cè)異方差存在性的方法。但對(duì)于多個(gè)解釋變量,這種方法在使用上有一定的困難。因此,本文對(duì)這種方法作進(jìn)一步的推廣。
由于多元線性回歸模型的異方差檢驗(yàn)實(shí)際上可以轉(zhuǎn)化為,對(duì)每個(gè)解釋變量對(duì)應(yīng)被解釋變量的一元線性回歸模型的異方差檢驗(yàn),若所有一元線性回歸模型都不存在異方差,則可近似認(rèn)為多元線性回歸模型或數(shù)據(jù)不存在異方差,反之,若出現(xiàn)有一個(gè)一元線性回歸模型存在異方差,則就認(rèn)為原多元線性回歸模型或數(shù)據(jù)存在異方差。從而我們可以得到一種針對(duì)多變量的推廣的G-Q檢驗(yàn)方法,即對(duì)每一個(gè)解釋變量采用單變量的G-Q檢驗(yàn)方法,檢驗(yàn)是否存在異方差。若其中有一個(gè)一元線性回歸模型存在異方差,則就認(rèn)為原多元線性回歸模型或數(shù)據(jù)存在異方差。具體步驟如下:
(1)把觀察值按照解釋變量xi(i=1,2,…,n)由小到大的順序排列,對(duì)應(yīng)的被解釋變量與解釋變量的對(duì)應(yīng)關(guān)系不變。
(2)略去c個(gè)中心觀察值,c的大小約為樣本容量n的四分之一到三分之一,為了計(jì)算上的方便最好使n-c為偶數(shù)。
(3)剩下n-c個(gè)樣本觀察值分為大小相等的兩個(gè)樣本,第一個(gè)樣本包含的觀察值相應(yīng)于解釋變量xi的較小部分第二個(gè)樣本包含的觀察值相應(yīng)于解釋變量xi的較大部分。
(4)應(yīng)用普通最小二乘法對(duì)每個(gè)樣本分別進(jìn)行回歸,并計(jì)算出相應(yīng)的殘差平方和ESS1i和ESS2i。
(5)選擇統(tǒng)計(jì)量
在 H0為真時(shí),F(xiàn)i(i=1,2,…,n)服從自由度為 r1=(n-c-2k)/2,r2=(n-c-2k)/2的F分布。這里的k為回歸模型中參數(shù)的個(gè)數(shù)。如果選定顯著性水平α,那么可利用F分布的臨界值Fα(上α側(cè)分位點(diǎn))進(jìn)行顯著性檢驗(yàn)。當(dāng)存在Fi>Fα?xí)r,拒絕原假設(shè) H0,認(rèn)為存在異方差性,當(dāng)所有 Fi≤Fα(i=1,2,…,n)時(shí),接受原假設(shè)H0,認(rèn)為εi方差齊性。
表1 31個(gè)地區(qū)城鎮(zhèn)居民家庭全年人均經(jīng)濟(jì)數(shù)據(jù)
下面,我們以一個(gè)實(shí)例來(lái)驗(yàn)證以上方法的可行性和有效性。考慮消費(fèi)性支出(y)與收入(x1)、食品支出(x2)及娛樂(lè)教育文化服務(wù)支出(x3)的關(guān)系模型。收集2007年我國(guó)31個(gè)地區(qū)的城鎮(zhèn)居民家庭平均每人全年的消費(fèi)性支出包括食品支出及娛樂(lè)教育文化服務(wù)支出,各地區(qū)城鎮(zhèn)居民平均每人全年家庭實(shí)際收入數(shù)據(jù)(單位:千元)如表1所示。
首先我們采用文獻(xiàn)[3]給出的方法,經(jīng)過(guò)計(jì)算,可知表1中數(shù)據(jù)不存在異方差,這似乎有悖經(jīng)濟(jì)學(xué)方面的理論。下面我們使用本文提出的方法,再次對(duì)數(shù)據(jù)進(jìn)行檢驗(yàn)。
對(duì)解釋變量x1按照從小到大的順序進(jìn)行排序,對(duì)應(yīng)的被解釋變量與解釋變量的對(duì)應(yīng)關(guān)系不變。去掉排序后的中間9組數(shù)據(jù),即c=9,n=31,k=2,就可得到兩個(gè)樣本,其樣本個(gè)數(shù)都是11,且第一個(gè)樣本包含的觀察值相應(yīng)于解釋變量x1的較小部分第二個(gè)樣本包含的觀察值相應(yīng)于解釋變量x1的較大部分。
對(duì)前11組數(shù)據(jù)進(jìn)行回歸得到
其殘差平方和為1.2383。
對(duì)后11組數(shù)據(jù)進(jìn)行回歸得到
其殘差平方和為5.7738。
檢驗(yàn)統(tǒng)計(jì)量為
類似地,我們對(duì)解釋變量x2和x3進(jìn)行以上處理,得到檢驗(yàn)統(tǒng)計(jì)量 F2=4.87,F(xiàn)3=4.12。
查 F 分布表,得臨界值 F0.05(9,9)=3.18。 由于 Fi>3.18,i=1,2,3,所以接受備擇假設(shè),即認(rèn)為數(shù)據(jù)中存在異方差。
事實(shí)上,用本文中所給的方法對(duì)文獻(xiàn)[3]中的例子進(jìn)行檢驗(yàn),也可以得到相同的結(jié)論。
在某些有關(guān)計(jì)量經(jīng)濟(jì)的回歸模型中,假設(shè)誤差項(xiàng)具有方差齊性是不合理的。異方差的情況在截面數(shù)據(jù)中常常出現(xiàn).。對(duì)這種異方差模型進(jìn)行最小二乘估計(jì),會(huì)產(chǎn)生嚴(yán)重的錯(cuò)誤,因此研究異方差的檢驗(yàn)方法具有重要意義。
由于戈德菲爾德-匡特檢驗(yàn)方法只適用于一個(gè)自變量,因此,本文給出針對(duì)多變量的G-Q檢驗(yàn)方法,即對(duì)每個(gè)解釋變量進(jìn)行異方差檢驗(yàn),從而判斷原模型的異方差性。通過(guò)實(shí)例我們還看出,本文所給的方法比文獻(xiàn)[3]中的方法適用更廣,也更簡(jiǎn)便易行,即只要進(jìn)行若干次的單變量G-Q檢驗(yàn)就行了。
當(dāng)然,異方差的檢驗(yàn)除了上述敘述的方法外,還有很多的方法。文獻(xiàn)[3]給出了一種基于樣本主成分的推廣的G-Q檢驗(yàn)方法,文獻(xiàn)[4]則給出了一種基于分組的異方差檢驗(yàn)方法。如何根據(jù)實(shí)際情況選擇最好的檢驗(yàn)方法是值得研究的。當(dāng)然,最優(yōu)檢驗(yàn)方法的選擇不是固定的,George G.Jude[7]等人認(rèn)為,最優(yōu)檢驗(yàn)方法的選擇還依賴于人們對(duì)可能的異方差形式的先驗(yàn)認(rèn)識(shí)。
[1]White H.A.Heteroscedasticity-Consistent Covariance Matrix Estimator and Direct Test for Heteroscedasticity[J].Econometrica,1980,(48).
[2]Park R.E.Estimation With Heteroscedastic Error Terms[J].E-conometrica,1966,(34).
[3]龔秀芳.戈德菲爾德-匡特檢驗(yàn)的推廣[J].數(shù)理統(tǒng)計(jì)與管理,2005,24.
[4]張荷觀.基于分組的異方差檢驗(yàn)和兩階段估計(jì)[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2006,(1).
[5]白雪梅.異方差性的檢驗(yàn)方法及評(píng)述[J].東北財(cái)經(jīng)大學(xué)學(xué)報(bào),2002,(11).
[6]王正林等.精通MATLAB科學(xué)計(jì)算[M].北京:電子工業(yè)出版社,2007.
[7]姜詩(shī)章,王錦功.計(jì)量經(jīng)濟(jì)學(xué)教程[M].吉林:吉林大學(xué)出版社,1989.