戴曉鳴 ,王維國
(1.東北財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)學(xué)院,遼寧 大連 116025;2.大連交通大學(xué) 理學(xué)院,遼寧 大連 116028)
在統(tǒng)計(jì)分析和計(jì)量經(jīng)濟(jì)分析中,往往通過建立統(tǒng)計(jì)或經(jīng)濟(jì)變量之間相互關(guān)系的模型,并通過一定的回歸方法對(duì)模型進(jìn)行估計(jì)。一般而言,回歸模型需要做一定的假設(shè),其中隨機(jī)誤差項(xiàng)的同方差就是其中一項(xiàng)重要前提假設(shè)。但是,在實(shí)際回歸分析過程中,隨機(jī)誤差項(xiàng)同方差的假定往往不能得到滿足,也就是說,回歸模型存在一定的異方差性。大多數(shù)的情況都不能充分滿足隨機(jī)誤差項(xiàng)同方差這個(gè)條件的,因此大多數(shù)的模型都存在一定的異方差性。這種異方差性的存在,是多種原因共同作用而引起的,其中,模型變量選取的偏誤、截面數(shù)據(jù)各單位偏差較大等因素是造成回歸模型異方差的主要原因。如果在變量選取中出現(xiàn)重要變量疏漏,那么該變量便歸入模型的隨機(jī)誤差項(xiàng)中,結(jié)果便造成了異方差。而截面數(shù)據(jù)中,各個(gè)單位之間的偏差可能較大,從而內(nèi)生性地造成模型的異方差。異方差模型下,普通的OLS方法進(jìn)行估計(jì)得到的結(jié)果具有明顯的有偏性,這與無偏性的假設(shè)相悖,因而OLS方法已不適用。當(dāng)然,目前學(xué)術(shù)界已采用多種方法檢驗(yàn)、修正或應(yīng)用于異方差模型。本文嘗試提出基于正交表的方法的一種新的兩階段最小二乘法,并比較它與傳統(tǒng)兩階段最小二乘法在異方差模型的應(yīng)用。
多元回歸模型中,假定 (x1i,x2i,…,xpi,yi) ,(i=1,2,3,…,n)為兩組樣本收據(jù)。首先,要利用多元線性回歸的方法,將上述模型變?yōu)橐辉€性回歸模型。然后,對(duì)每一個(gè)線性回歸模型進(jìn)行異方差檢驗(yàn)。為了具體分析模型的模型的有限性,下面引入一個(gè)自變量xi,對(duì)模型進(jìn)行異方差檢驗(yàn)。步驟1:將樣本數(shù)據(jù)按照自變量的x1按照數(shù)據(jù)大小順序進(jìn)行排列,其他自變量與對(duì)應(yīng)變量的相對(duì)關(guān)系保持不變。步驟2:將樣本分為N組,第i組有ni個(gè)元素,則n滿
步驟3:令x1i為i組的第一個(gè)自變量的組中值,x2ij為i組 的 第 二 個(gè) 變 量 ,以 此 類 推 ,滿 足 定 (x1i,x2ij,…,xpij,yij) ,(i=1,2,3,…,n;j=1,2,3,…,ni)。
步驟4:假定分組數(shù)據(jù)滿足如下多元回歸模型:
其中,誤差項(xiàng)為εij,滿足。接著,對(duì)式(1)進(jìn)行變換,等式兩端同時(shí)除以σi,可得:
則誤差項(xiàng)為εij/σi。
步驟6:進(jìn)行第二階段估計(jì),將估計(jì)量代入變換后的新模型,則新模型的OLS系數(shù)估計(jì)量為原模型的GLS系數(shù)估計(jì)。
當(dāng)樣本數(shù)據(jù)較小時(shí),通過分組產(chǎn)生的重復(fù)數(shù)據(jù)會(huì)導(dǎo)致信息失真,部分樣本信息丟失,是的回歸模型的精度不高。為了提高回歸模型的精度,消除重復(fù)數(shù)據(jù)的影響,借鑒前人的研究,采用正交表的方法來改進(jìn)二階段估計(jì)法的第一階段。
假定樣本 (x1i,x2i,…,xpi,yi),(i=1,2,3,…,m),滿足如下回歸模型:
在模型(2)中,變量x1是引起異方差性的關(guān)鍵性變量。考慮到計(jì)算的簡化性與典型性,先假定p=3,利用正交表,產(chǎn)生重復(fù)設(shè)局L9(34),然后對(duì)數(shù)據(jù)按照大小順序近分組,并進(jìn)行兩階段估計(jì)。
步驟1:利用正交表獲取重復(fù)數(shù)據(jù),Δ=0.01,第i個(gè)樣本數(shù)據(jù)通過變換后產(chǎn)生的數(shù)據(jù)如下:
步驟2:假定每一個(gè)因變量yi的觀測值滿足正態(tài)分布N(yi,θ2),從正態(tài)分布中隨機(jī)產(chǎn)生9個(gè)數(shù)據(jù),記作yij,其中i=1,2,…,m;j=1,2,…,9;θ2=0.01 ,且yij與 (x1ij,x2ij,x3ij)相對(duì)應(yīng)。
步驟3:對(duì)i個(gè)樣本產(chǎn)生的觀測值按自變量從小到大排列,其他變量與自變量的對(duì)應(yīng)關(guān)系保持不變,將與第i個(gè)樣本進(jìn)行排序后的數(shù)據(jù)記作第i組,滿足i=1,2,…,m,該組的第一個(gè)自變量的組中值為x(1i)分組后的數(shù)據(jù)為(x(1i),x(2ij),x(3ij))。
步驟4:利用模型(3)對(duì)數(shù)據(jù)進(jìn)行變化,兩邊同時(shí)除以σi,可得變換后的同方差模型:
其中,εi/σi~N(0,σ2)。
步驟5:進(jìn)行第一階段估計(jì),由于:
這里的ni為正交表的試驗(yàn)數(shù),因此可采用第i組的方差估計(jì)第i個(gè)標(biāo)準(zhǔn)差的平方。
步驟6:進(jìn)行第二階段估計(jì),將估計(jì)量=代入變換后的新模型,則新模型的OLS系數(shù)估計(jì)量為原模型的GLS系數(shù)估計(jì)。
通過簡單的數(shù)據(jù)模擬,對(duì)改進(jìn)后的兩階段最小二乘法和傳統(tǒng)的兩階段最小二乘法分別進(jìn)行估計(jì)和檢驗(yàn),并對(duì)結(jié)果進(jìn)行比較,以判斷改進(jìn)的兩階段最小二乘法在異方差模型應(yīng)用中是否有效。
首先,假定簡單的回歸模型如下:
其中,i=1,2,3,…,n;隨機(jī)誤差項(xiàng)εi服從正態(tài)分布,且滿足不同樣本i下的隨機(jī)誤差項(xiàng)之間相互獨(dú)立。根據(jù)傳統(tǒng)的兩階段最小二乘估計(jì)方法,通過改變分組數(shù)k,便可能改變模型估計(jì)的誤差。這里,分別列出當(dāng)取3、6和10時(shí)的回歸結(jié)果。為了使結(jié)果比較更加清晰,這里模擬時(shí)假定樣本容量較小,取n=30。其中,x1i、x2i、xpi,的數(shù)據(jù)序列由本文自行給定,但限于篇幅,此處略去具體數(shù)據(jù)。
本文給出均勻分布和正態(tài)分布兩種情況下的結(jié)果,具體模擬結(jié)果分別如表1、表2所示。其中MAEΣ、MAEy分別表示隨機(jī)誤差項(xiàng)的平均絕對(duì)誤差、被解釋變量觀測值的平均絕對(duì)誤差;R2為模型的可決系數(shù);βi(i=0,1,2,3)為回歸系數(shù)。
表1 均勻分布條件下的兩種兩階段最小二乘法估計(jì)結(jié)果比較
表2 正態(tài)分布條件下的兩種兩階段最小二乘法估計(jì)結(jié)果比較
根據(jù)表1和表2的估計(jì)結(jié)果可知,不管是采用均勻分布類型還是正態(tài)分布類型,改進(jìn)的兩階段最小二乘法估計(jì)的MAEΣ、MAEy和R2值都優(yōu)于傳統(tǒng)兩階段最小二乘法,變量系數(shù)值βi也都比傳統(tǒng)兩階段最小二乘法得到的系數(shù)值精確。由表3和表4(見下頁)可以明顯地看出,運(yùn)用改進(jìn)的兩階段最小二乘法估計(jì)得到的系數(shù),與既定系數(shù)之間的偏差率要明顯低于傳統(tǒng)兩階段最小二乘法的偏差率。例如,對(duì)于β2而言,運(yùn)用改進(jìn)的兩階段最小二乘法在均勻分布條件下估計(jì)得到的系數(shù)值,與既定系數(shù)的偏差率僅為-0.77%,而用傳統(tǒng)兩階段最小二乘法估計(jì)得到的系數(shù)值,對(duì)于k=3、k=6和k=10時(shí),與既定系數(shù)的偏差率分別達(dá)到了-11.03%、-7.59%和-5.34%。因此,通過以上數(shù)值模擬可以充分表明,運(yùn)用改進(jìn)后的兩階段最小二乘法對(duì)異方差模型進(jìn)行估計(jì),得到的結(jié)果相對(duì)更加接近既定的模型參數(shù),估計(jì)效果要優(yōu)于傳統(tǒng)的兩階段最小二乘法。
表3均勻分布條件下不同方法估計(jì)系數(shù)結(jié)果與既定系數(shù)的偏差率(單位:%)
表4正態(tài)分布條件下不同方法估計(jì)系數(shù)結(jié)果與既定系數(shù)的偏差率(單位:%)
雖然通過適當(dāng)控制分組數(shù)k,可以適當(dāng)降低傳統(tǒng)兩階段最小二乘法估計(jì)異方差模型得到的誤差,提高精確度,但是這比想象之中要復(fù)雜得多。從表3的偏差率可以看出,當(dāng)k取值為6時(shí),四個(gè)參數(shù)的偏差率都要小于其他兩種取值(k=3和k=10)。但是,從表4偏差率又可以發(fā)現(xiàn),在k取值分別為3、6、10時(shí),四個(gè)參數(shù)的偏差率各有千秋,并不能指明到底k取值為何值時(shí)精度相對(duì)最高。在這種情況下,可能需要對(duì)k的取值進(jìn)一步斟酌。在實(shí)際運(yùn)用于異方差模型的過程中,這樣的情況難免會(huì)對(duì)模型處理帶來困難。但慶幸的是,運(yùn)用改進(jìn)的兩階段最小二乘法,在一定程度上可以解決這一問題。至少對(duì)于本例而言,無論是均勻分布條件還是正態(tài)分布條件,運(yùn)用改進(jìn)后的兩階段最小二乘法都能獲得相對(duì)理想的估計(jì)結(jié)果。
為了進(jìn)一步從經(jīng)驗(yàn)上證明改進(jìn)的兩階段最小二乘法在運(yùn)用于異方差模型時(shí),相比傳統(tǒng)兩階段最小二乘法更具優(yōu)越性,下面本文通過一則與我國經(jīng)濟(jì)運(yùn)行直接相關(guān)的案例進(jìn)行分析。這里重點(diǎn)考察我國城鎮(zhèn)居民人均服務(wù)性消費(fèi)支出與收入水平、地區(qū)宏觀經(jīng)濟(jì)發(fā)展水平、服務(wù)業(yè)發(fā)展水平之間的關(guān)系。因變量Y代表城鎮(zhèn)居民人均服務(wù)性消費(fèi)支出;自變量X1代表城鎮(zhèn)居民人均可支配收入、X2代表地區(qū)生產(chǎn)總值(GDP)、X3代表第三產(chǎn)業(yè)增加值。
采用2015年我國31個(gè)省、市、自治區(qū)的橫截面數(shù)據(jù)作為樣本。首先,通過普通的OLS估計(jì),結(jié)果如下:
yi=-0.2103+0.2861x1i,+0.1927x2i+ …+0.6383xpi,+εI(9)
其中,可決系數(shù)R2僅為0.5278,F(xiàn)值也僅為3.6593,通過Goldfeld-Quandt檢驗(yàn)法和帕克檢驗(yàn)法都顯示了上述回歸模型存在異方差。
下面,利用上述改進(jìn)的二階段估計(jì)模型,對(duì)這些變量進(jìn)行分析。由于分組數(shù)據(jù)每組的樣本數(shù)據(jù)是一定的,為了避免每個(gè)樣本個(gè)數(shù)大,保證樣本數(shù)據(jù)的有限性,對(duì)傳統(tǒng)的二階段估計(jì)法進(jìn)行改進(jìn)。改進(jìn)后的二階段估計(jì)不僅避免了樣本個(gè)數(shù)較大的缺陷,也增強(qiáng)了精度。為了突出改進(jìn)方法的優(yōu)越性,對(duì)比原方法與改進(jìn)方法的參數(shù)估計(jì)差別,分別計(jì)算因變量Y的平均絕對(duì)誤差MAEy與系數(shù)R2,具體結(jié)果見表5所示。
表5 普通OLS估計(jì)法、兩種兩階段最小二乘法估計(jì)法的結(jié)果比較
由表5可以看出,城鎮(zhèn)居民人均服務(wù)性消費(fèi)支出與其可支配收入、地區(qū)生產(chǎn)總值、第三產(chǎn)業(yè)增加值都呈現(xiàn)明顯的正相關(guān)性。無論是改進(jìn)的二階段參數(shù)估計(jì),還是傳統(tǒng)的參數(shù)估計(jì)都的得出相一致的變化結(jié)果。具體來看,人均服務(wù)性消費(fèi)支出與其可支配收入的估計(jì)系數(shù)為0.5791,說明當(dāng)城鎮(zhèn)居民人均可支配收入每增加一個(gè)單位時(shí),城鎮(zhèn)居民人均服務(wù)性消費(fèi)支出將增加0.5791個(gè)單位。人均服務(wù)性消費(fèi)支出與地區(qū)生產(chǎn)總值的估計(jì)系數(shù)為0.429,說明地區(qū)生產(chǎn)總值每增加一個(gè)單位時(shí),城鎮(zhèn)居民人均服務(wù)性消費(fèi)支出將增加0.429個(gè)單位。人均服務(wù)性消費(fèi)支出與第三產(chǎn)業(yè)增加值的估計(jì)系數(shù)為0.8627,說明第三產(chǎn)業(yè)增長值每增加一個(gè)單位時(shí),城鎮(zhèn)居民人均服務(wù)性消費(fèi)支出將增加0.8627個(gè)單位。改進(jìn)后的系數(shù)與分組的數(shù)據(jù)基本一致,相對(duì)而言,改進(jìn)的數(shù)據(jù)比分組的數(shù)據(jù)更為穩(wěn)定,基本位于分組數(shù)據(jù)的變動(dòng)范圍內(nèi)。
從平均絕對(duì)誤差MAEy來看,改進(jìn)的二階段估計(jì)模型的平均絕對(duì)誤差更小,說明擬合程度更優(yōu),說明改進(jìn)的二階段模型更有利于因變量的值接近實(shí)際的觀測值。隨著分組數(shù)的增加,估計(jì)的精度也會(huì)隨之提升。從系數(shù)R2來看,改進(jìn)的二階段估計(jì)模型的系數(shù)明顯提高,由原來的0.9617、0.9633與0.9593提升到0.9937。由此可知,改進(jìn)的二階段估計(jì)模型能更好地解釋實(shí)際結(jié)果。
本文設(shè)計(jì)了一種基于正交表的方法的改進(jìn)兩階段最小二乘法,將其應(yīng)用于異方差模型中。通過比較該方法與傳統(tǒng)兩階段最小二乘法在異方差模型的應(yīng)用,發(fā)現(xiàn)這種新型方法具有更高的估計(jì)精度,也在一定程度上解決了傳統(tǒng)兩階段最小二乘法在估計(jì)截面數(shù)據(jù)模型模型時(shí)因分組所帶來的精度問題。因此,本文認(rèn)為所提出的這種改進(jìn)的兩階段最小二乘法在處理異方差模型方面具有較高的實(shí)用性。盡管如此,本文所采用的改進(jìn)兩階段最小二乘法在應(yīng)用于異方差模型時(shí)仍帶有局限性,因?yàn)榛谡槐頂U(kuò)大數(shù)據(jù)樣本之后,也會(huì)產(chǎn)生新的變量隨機(jī)性,也可能對(duì)估計(jì)誤差帶來影響。所以,在以后的研究中,需要對(duì)此問題探索新的方法,并作出相應(yīng)修正,以使估計(jì)方法更加可靠。