亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于G-Q的K-S異方差檢驗方法

2019-02-16 01:29:14張曉琴牛建永李順勇

山西大學(xué)學(xué)報(自然科學(xué)版) 2019年1期

張曉琴,牛建永,李順勇

(山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西太原 030006)

0 引言

在經(jīng)典的線性回歸模型中,常用最小二乘估計(OLS)法對線性回歸模型進行估計,從而對線性回歸模型進行擬合和預(yù)測。其中,同方差性是經(jīng)典線性回歸模型中的一個重要假設(shè),然而大部分線性回歸模型是不滿足這個假設(shè)的。當(dāng)線性回歸模型存在異方差時,如果仍然使用OLS估計模型的參數(shù),將會產(chǎn)生一些不良后果:比如,參數(shù)的估計雖是無偏的,但不是最佳線性無偏估計;參數(shù)的顯著性檢驗失效等。另外,若由異方差檢驗得出的判斷出現(xiàn)失誤還有可能會導(dǎo)致一定的損失。因此采取適當(dāng)?shù)姆椒▽€性回歸模型進行異方差檢驗就具有重要意義。

常用的檢驗異方差的方法有圖示法、斯皮爾曼(Spearman)的秩相關(guān)系數(shù)檢驗[1-2]、格萊舍爾(Glejser)檢驗[3]、戈德菲爾德匡特(Goldfeld-Quandt)檢驗[4]、懷特(White)檢驗[5]、帕克(Park)檢驗[6]、布羅施帕甘戈弗雷(BPG)檢驗[7-8]和ARCH檢驗[9]等。

其中,G-Q檢驗是經(jīng)典的異方差檢驗方法。但在一元線性回歸模型中使用G-Q檢驗,通常要求誤差項的方差與自變量之間存在遞增或遞減關(guān)系,若兩者之間不具有這種關(guān)系,使用G-Q檢驗有可能導(dǎo)致錯誤的判斷,然而這個假設(shè)條件常常被忽略;當(dāng)在多元線性回歸模型中若使用G-Q檢驗,其思想是先把多元線性回歸模型的異方差檢驗轉(zhuǎn)為對每一個一元線性回歸模型分別進行G-Q檢驗,然后根據(jù)G-Q檢驗結(jié)果來判斷多元線性回歸模型是否存在異方差。由于多元線性回歸模型并不等于多個一元線性回歸模型的簡單相加,因此,根據(jù)一元線性回歸模型的G-Q檢驗結(jié)果,并不能準(zhǔn)確判斷多元線性回歸模型是否存在異方差。本文針對上述現(xiàn)象進行了研究。

1 基本知識

1.1 異方差模型

經(jīng)典線性回歸模型矩陣形式為:

(1)

其中,y是n維列向量,β是p+1維向量,X是n×(p+1)列滿秩矩陣,ε表示線性回歸模型的隨機誤差項向量。

1.2 G-Q檢驗

由于G-Q檢驗多用于一元線性回歸模型的異方差檢驗,因此,下面先基于一元線性回歸模型對G-Q檢驗加以簡單介紹,然后再介紹在多元線性回歸模型中使用G-Q檢驗的思想。

假定一元線性回歸模型為:

(2)

模型(2)滿足除同方差性外的所有經(jīng)典假設(shè),而且假設(shè)模型誤差項的方差與自變量之間存在遞增或遞減關(guān)系。

考慮如下假設(shè)檢驗問題:

不全相等。

(3)

經(jīng)典的G-Q檢驗步驟[4-5]為:

① 把解釋變量的n個樣本觀察值x1,x2,…,xn由從小到大進行排序,排序后順序不妨記為x(1)≤x(2)≤…≤x(n),相應(yīng)地,因變量的n個觀察值y1,y2,…,yn排序為y(1)≤y(2)≤…≤y(n).

③ 分別對前L個觀測值和后L個觀測值各擬合一個線性回歸方程,并計算各自的殘差平方和,記為RSS1和RSS2,其中,RSS1代表由前L個觀測值所擬合的線性回歸模型殘差平方和(小方差組),而RSS2代表由后L個觀測值所擬合的線性回歸模型殘差平方和(大方差組),各有L-k個自由度,其中k是包括常數(shù)項在內(nèi)的參數(shù)個數(shù)。

④ 構(gòu)造統(tǒng)計量

在(3)中原假設(shè)成立的條件下,統(tǒng)計量Fa服從自由度分別為γ1=L-k和γ2=L-k的F分布,其臨界值為Fα(γ1,γ2)(α為給定顯著性水平)。當(dāng)Fa

當(dāng)G-Q檢驗用在多元線性回歸模型中時,其思想是先把多元線性回歸模型轉(zhuǎn)化為多個一元線性回歸模型,并分別對其進行G-Q檢驗,然后根據(jù)G-Q檢驗結(jié)果進行判斷,若所有一元線性回歸模型均不存在異方差,則可以說明多元線性回歸模型不存在異方差,否則存在異方差性。事實上,在多元線性回歸模型的異方差檢驗中,并不經(jīng)常使用G-Q檢驗。

1.3 K-S檢驗

Kolmogorov-Smirnov檢驗[14-20](K-S檢驗)是一種擬合優(yōu)度檢驗,用來根據(jù)一個未知分布的單一隨機樣本,檢驗其分布函數(shù)是否是來自某一具體的分布。這一檢驗方法是以隨機樣本數(shù)據(jù)的經(jīng)驗分布函數(shù)與已知具體分布比較,若兩者之間的差距不顯著,則推論該樣本取自某具體分布。其思想如下:

提出如下原假設(shè)和備擇假設(shè):

H0:隨機樣本所來自的總體分布服從某具體分布VSH1:樣本所來自的總體分布不服從某特定分布

F0(x)表示某具體分布的分布函數(shù),Fn(x)表示單一隨機樣本的經(jīng)驗分布函數(shù)。設(shè)D為F0(x)與Fn(x)差距的最大值,即

當(dāng)實際觀測D

2 基于G-Q的K-S異方差檢驗方法

基于上述經(jīng)典的G-Q檢驗思想和步驟,經(jīng)典的G-Q檢驗法有以下不足:

在一元線性回歸模型的異方差檢驗中,假設(shè)誤差項的方差與自變量之間不存在遞增或遞減關(guān)系,若使用G-Q檢驗法對回歸模型進行異方差檢驗,就有可能導(dǎo)致錯誤的判斷。而且在多元線性回歸模型的異方差檢驗中,進行G-Q檢驗是先把多元線性回歸模型轉(zhuǎn)化為多個一元線性回歸模型,然后根據(jù)對多個一元線性回歸模型進行G-Q檢驗的結(jié)果,來判斷多元線性回歸模型是否存在異方差。由于多元線性回歸模型并不等同于多個一元線性回歸模型的簡單相加,因此,根據(jù)每一個一元線性回歸模型的G-Q檢驗結(jié)果,并不能判斷多元線性回歸模型是否存在異方差,也即是在多元線性回歸模型的異方差檢驗中,G-Q檢驗并不是有效的檢驗方法。

針對G-Q檢驗的局限性,本文基于G-Q檢驗思想,采用 K-S檢驗方法來進行線性回歸模型的異方差檢驗,該方法簡稱為基于G-Q的K-S異方差檢驗。其基本原理如下:將樣本量為n的樣本分為兩部分,兩部分樣本量分別為n1和n2。由模型(1)假設(shè)這兩部分的回歸模型矩陣形式分別為:

(4)

(5)

(6)

重復(fù)上述過程m次,則可以得到m個隨機抽樣統(tǒng)計量Fb的樣本觀測值F1,F2,…,Fm。根據(jù)K-S檢驗,比較由樣本觀測值F1,F2,…,Fm形成的經(jīng)驗分布與自由度分別為n2-p-1和n1-p-1的F分布之間是否存在顯著性差異。若兩者之間存在顯著性差異,則說明線性回歸模型存在異方差,否則不存在異方差。

下面證明上述定理。

ni-rank(Xi)=ni-p-1.

下面給出具體的檢驗步驟:

③ 根據(jù)K-S檢驗,比較由樣本觀測值F1,F2,…,Fm所形成的經(jīng)驗分布與自由度分別為n-p-1和n-p-1 (或n-p-1和n-p)的F分布是否有顯著性差異。若有顯著性差異,則拒絕(3)中的原假設(shè),否則不拒絕。

3 數(shù)值模擬和實證分析

3.1 數(shù)值模擬

本文數(shù)值模擬分為一元和多元線性回歸模型的異方差檢驗數(shù)值模擬兩部分,下面先進行一元線性回歸模型的異方差檢驗數(shù)值模擬,然后再進行多元線性回歸模型的異方差檢驗數(shù)值模擬。

假設(shè)一元線性回歸模型為:

yi=β0+β1xi+εi,i=1,2,…,n.

(7)

由于一次基于GQ的K-S檢驗可能具有一定的偶然性,因此,本文進行了100次基于G-Q的K-S檢驗,每一次檢驗結(jié)果均用p值表示(給定的顯著性水平為0.05,下同)。情形1的模擬檢驗結(jié)果分別如圖1至圖3所示。從圖中可以看出圖1至圖3中p值小于0.05的個數(shù)分別為3,4,3(與圖1的排列順序一致,下同);2,3,3;4,4,3,則情形1模擬檢驗結(jié)果說明:有95%以上的可信度可以認(rèn)為,模型(7)不存在異方差;情形2的模擬檢驗結(jié)果p值大于0.05的個數(shù)均為0個,結(jié)果說明:有100%可信度可以認(rèn)為,模型(7)存在異方差。由于情形2的模擬檢驗結(jié)果p值的真實值的數(shù)量級小于10-5,在圖中幾乎顯現(xiàn)不出來為了節(jié)省篇幅,本文沒有給出情形2下的模擬檢驗結(jié)果圖。

注:圖中橫軸表示進行基于GQ的K-S檢驗次數(shù)100次,縱軸表示每次進行檢驗得出的p值,n表示原始樣本容量,m表示進行200次隨機抽樣(下同)。Fig.1 Charts of frequency distribution of p-value in case 1 with x～N(0,9)圖1 在情形1,自變量x～N(0,9)下p值的頻數(shù)分布圖

Fig.2 Charts of frequency distribution of p-value in case 1 with x～exp(10)圖2 在情形1,自變量x～exp(10)下p值的頻數(shù)分布圖

Fig.3 Charts of frequency distribution of p-value in case 1 with x～U(0,10)圖3 在情形1,自變量x～U(0,10)下p值的頻數(shù)分布圖

假設(shè)多元線性回歸模型為:

yi=β0+β1x1i+β2x2i+β3x3i+εi,i=1,2,…,n.

(8)

這部分模擬同樣進行了100次基于GQ的K-S檢驗,檢驗結(jié)果用p值表示,在情形3和情形4下的檢驗結(jié)果分別如圖4至圖6和圖7至圖9所示。從圖中可以看出,圖4至圖6中p值小于0.05的個數(shù)分別為2,3,4;5,2,3;2,3,1,則情形3的模擬檢驗結(jié)果說明:有95%以上的可信度可以認(rèn)為模型(8)不存在異方差;圖7至圖9中p值大于0.05的個數(shù)分別為6,0,0;2,1,0;1,2,3,則情形4的模擬檢驗結(jié)果說明:有94%以上的可信度可以認(rèn)為,模型(8)存在異方差。

Fig.4 Charts of frequency distribution of p-value in case 3 with x1,x2,x3～exp(5)圖4 在情形3,自變量x1,x2,x3～exp(5)下p值的頻數(shù)分布圖

Fig.5 Charts of frequency distribution of p-value in case 3 with x1,x2,x3～U(0,10)圖5 在情形3,自變量x1,x2,x3～U(0,10)下p值的頻數(shù)分布圖

Fig.6 Charts of frequency distribution of p-value in case 3 with x1～U(0,1),x2～exp(5),x3～P(4)圖6 在情形3,自變量x1～U(0,1)x2～exp(5),x3～P(4)下p值的頻數(shù)分布圖

Fig.7 Charts of frequency distribution of p-value in case 4 with x1,x2,x3～exp(5)圖7 在情形4,自變量x1,x2,x3～exp(5)下p值的頻數(shù)分布圖

Fig.8 Charts of frequency distribution of p-value in case 4 with x1,x2,x3～U(0,10)圖8 在情形4,自變量x1,x2,x3～U(0,10)下p值的頻數(shù)分布圖

注:圖中出現(xiàn)p值為是指p值的真實值的數(shù)量級小于10-5,在圖中幾乎顯現(xiàn)不出來,因此,本文為了簡便起見,把結(jié)果記為0。Fig.9 Charts of frequency distribution of p-value in case 4 with x1～U(0,1)x2～exp(5),x3～P(4)圖9 在情形4,自變量x1～U(0,1)x2～exp(5),x3～P(4)下p值的頻數(shù)分布圖

根據(jù)一元和多元線性回歸模型異方差檢驗的大量數(shù)值模擬結(jié)果可以得出:基于G-Q的K-S異方差檢驗法具有一定的可行性和可靠性。

3.2 實證分析

本文實證分析分為一元和多元線性回歸模型異方差檢驗實證分析兩部分。其中,第一部分為一元線性回歸模型異方差檢驗實證分析,第二部分為多元線性回歸模型異方差檢驗實證分析。

一元線性回歸模型異方差檢驗實證分析采用的兩個數(shù)據(jù)集分別為:Marc Nerlove 1963年論文中的Nerlove(1963)數(shù)據(jù)[21]中的ProductionsCosts (PC)和Outputs (Ou)兩個變量和R語言AER包里的Journals數(shù)據(jù)中的subs (su)及price與citations的比值形成的新變量(pc)兩個變量(括號里的部分為簡寫)。根據(jù)實際問題研究的需要,對變量PC,Ou,su和pc均取自然對數(shù),取對數(shù)后的變量分別記作ln(PC),ln(Ou),ln(su)和ln(pc),下面分別檢驗如下兩個線性回歸模型

ln(PC)i=β0+β1ln(Ou)i+εi,i=1,2,…,145.

(9)

ln(su)i=β0+β1ln(pc)i+εi,i=1,2,…,180.

(10)

是否存在異方差。

根據(jù)已知樣本數(shù)據(jù)分別對模型(9),(10)進行線性回歸,其殘差平方(用e2表示)與自變量ln(Ou)和ln(pc)的散點圖如圖10所示。從圖中可以看出,模型(9)的殘差平方與自變量ln(Ou)不存在遞增或遞減關(guān)系(先有遞減趨勢,再保持穩(wěn)定,后又有遞增趨勢);模型(10)的殘差平方與自變量ln(pc)有明顯的遞增趨勢,而且模型(9)和模型(10)均有可能存在異方差。

Fig.10 Scatter plot between independent variable and residual squares圖10 殘差平方與自變量的散點圖

下面對模型(9),(10)分別進行統(tǒng)計檢驗,使用的檢驗方法有G-Q檢驗、基于G-Q的K-S檢驗、B-P檢驗和ncvTest檢驗。檢驗結(jié)果如圖11(a),(b)和表1所示。在表1中,模型(9)與模型(10)的G-Q檢驗的p值分別為0.999 9(大于0.05)和0.001 9(小于0.05),則根據(jù)G-Q檢驗結(jié)果說明:模型(9)不存在異方差,模型(10)存在異方差;從圖11(a)和(b)中可以看出,實線和虛線的趨勢不一致,而且在表1中使用基于G-Q的K-S檢驗的p值分別為2.442e-05和0.004 6,兩者均小于0.05,則根據(jù)基于G-Q的K-S檢驗結(jié)果說明:模型(9)和模型(10)均存在異方差。為了進一步說明異方差檢驗的可靠性,本文使用了B-P檢驗和ncvTest檢驗。其中,B-P檢驗和ncvTest檢驗的p值均小于0.05,說明模型(9)和模型(10)均存在異方差。

模型p值(名義顯著性水平0.05) G-Q檢驗基于G-Q的K-S檢驗B-P檢驗ncvTest 模型(9)0.999 92.442e-051.108e-061.204e-16 模型(10)0.001 90.004 60.001 70.000 4 模型(11)4.083e-080.000 44.506e-05注:ncvTest全稱為Nonconstant Variance Score Test,用來判斷線性回歸模型的誤差方差是否恒定,在R語言的car包中可以找到這個函數(shù)。

在模型(10)中,由與G-Q檢驗、基于G-Q的K-S檢驗、B-P檢驗和ncvTest檢驗得出的結(jié)論一致,說明模型(10)存在異方差。在模型(9)中,G-Q檢驗與基于G-Q的K-S檢驗、B-P檢驗和ncvTest的結(jié)果不一致,而基于G-Q的K-S檢驗、B-P檢驗和ncvTest檢驗結(jié)果一致,則可以說明模型(9)存在異方差,而不是存在同方差。因此,在模型(9)中,若使用G-Q檢驗,則會做出錯誤的判斷。

通過一元線性回歸模型異方差檢驗實證分析表明:在一元線性回歸模型異方差檢驗中,使用G-Q檢驗法需要先判斷線性回歸模型的殘差平方和自變量之間是否具有明顯的遞增或遞減關(guān)系。若兩者之間存在這種關(guān)系才能繼續(xù)使用G-Q檢驗法,否則會做出錯誤的判斷。而采用基于G-Q的K-S檢驗則沒有上述條件的制約,而且檢驗結(jié)果具有一定的可行性和可靠性。

多元線性回歸模型異方差檢驗實證分析數(shù)據(jù)來自2013年中國31個省(自治區(qū),直轄市)的居民消費水平(元),地區(qū)生產(chǎn)總值(億元),現(xiàn)金可支配收入(元)和地區(qū)總?cè)丝?萬人)等4個變量的數(shù)據(jù)[22]。記變量居民消費水平為因變量y,地區(qū)生產(chǎn)總值,現(xiàn)金可支配收入和地區(qū)總?cè)丝诜謩e為自變量x1,x2,x3。下面檢驗如下線性回歸模型

yi=β0+β1x1i+β2x2i+β3x3i+εi,i=1,2,…,31

(11)

是否存在異方差。

在檢驗前,先對數(shù)據(jù)進行標(biāo)準(zhǔn)化,消除由于量綱不同對分析所造成的誤差影響。下面使用基于G-Q的K-S檢驗、B-P檢驗和ncvTest檢驗對模型(11)進行統(tǒng)計檢驗。檢驗結(jié)果如圖11(c)和表1所示。在圖11(c)中,實線和虛線的趨勢明顯不一致,而且在表1中使用基于G-Q的K-S檢驗法進行異方差檢驗的p值為4.083e-08,小于0.05,則說明模型(11)存在異方差。同時,B-P檢驗和ncvTest檢驗的p值分別為0.000 4和4.506e-05,兩者均小于0.05,同樣得出模型(11)存在異方差。因此,多元線性回歸模型異方差檢驗實證結(jié)果表明:在多元線性回歸模型異方差檢驗中,基于G-Q的K-S檢驗法具有一定的可行性。

4 結(jié)論

根據(jù)大量數(shù)值模擬結(jié)果得出,使用基于G-Q的K-S檢驗法進行異方差檢驗具有一定的可行性，實證分析中分別以一元和多元線性回歸模型為例進行了異方差檢驗。在一元線性回歸模型中,使用G-Q檢驗法、基于G-Q的K-S檢驗法以及作為輔助檢驗方法的B-P檢驗和ncvTest檢驗分別進行了異方差檢驗,得出了若模型的誤差平方與自變量不具有正(負(fù))相關(guān)的關(guān)系,使用G-Q檢驗法會導(dǎo)致錯誤判斷;在多元線性回歸模型中,分別使用了基于G-Q的K-S檢驗、B-P檢驗和ncvTest檢驗對多元線性回歸模型進行異方差檢驗,檢驗結(jié)果說明基于G-Q的K-S檢驗適用于多元線性回歸模型的異方差檢驗。通過實證分析,表明基于G-Q的K-S檢驗法具有一定的可行性和可靠性。事實上,任何理論方法都不是完美的,使用該方法同其他檢驗方法一樣也只能檢驗出模型是否存在異方差,仍然不能具體檢驗出引起異方差的自變量,因此在這方面還可以進行更深入的研究。