劉 明
(蘭州商學(xué)院a.甘肅經(jīng)濟(jì)發(fā)展數(shù)量分析研究中心;b.統(tǒng)計(jì)學(xué)院,甘肅蘭州 730020)
線性回歸模型的多重共線性的本質(zhì)是解釋變量之間存在線性相關(guān)。多重共線性的解決有多種經(jīng)驗(yàn)性方法,這些方法因模型和樣本數(shù)據(jù)的不同而各異,其中一類(lèi)比較常用而且簡(jiǎn)單的辦法是“剔除變量法”,即剔除引起多重共線性的解釋變量,以達(dá)到解決多重共線性問(wèn)題的目的。實(shí)施剔除變量法的關(guān)鍵是確定哪一個(gè)或哪些變量應(yīng)該被剔除,因此需要確立剔除依據(jù)。文獻(xiàn)[1,2]認(rèn)為可以根據(jù)方差膨脹因子(VIF)的大小來(lái)選擇被剔除變量,VIF最大的變量應(yīng)首先剔除。該依據(jù)的理由是,VIF最大的變量與其余變量的相關(guān)性最強(qiáng),因而是多重共線性的罪魁禍?zhǔn)?,因此?yīng)首先剔除。為考察這種方法的效果,首先看一個(gè)實(shí)例,這也是研究的出發(fā)點(diǎn)。
為展示以方差膨脹因子為準(zhǔn)則的剔除變量的方法,這里利用朗利數(shù)據(jù)構(gòu)造一個(gè)例子。數(shù)據(jù)如下表,其中Y=被雇傭人數(shù)(千人),X1=GNP價(jià)格縮減指數(shù),X2=GNP(百萬(wàn)美元),X3=失業(yè)人數(shù)(千人),X4=服役人數(shù)(千人),X5=14歲以上非編制人口,X6=時(shí)間。原數(shù)據(jù)參見(jiàn)文獻(xiàn)[3]。
表1 朗利數(shù)據(jù)
利用上述數(shù)據(jù),以Y為被解釋變量,其余變量為解釋變量構(gòu)建線性回歸模型如下:思想,選擇方差膨脹因子最大的解釋變量予以首先剔除。解釋變量的方差膨脹因子計(jì)算結(jié)果依次為:
顯然,X2的方差膨脹因子最大,先將其剔除。剔除后重新構(gòu)建的回歸模型為:
其中括號(hào)內(nèi)為t檢驗(yàn)統(tǒng)計(jì)值,為節(jié)約篇幅,其余統(tǒng)計(jì)量均未給出。此模型整體擬合效果較好,可決系數(shù)R2=0.9955接近于1,但部分解釋變量不顯著,因而可能存在多重共線性問(wèn)題,經(jīng)過(guò)進(jìn)一步診斷,模型確實(shí)受到共線性問(wèn)題干擾。考慮使用剔除變量法解決多重共線性問(wèn)題,依據(jù)該方法的
經(jīng)檢驗(yàn),該模型仍存在多重共線性問(wèn)題,繼續(xù)實(shí)施剔除變量法,選擇該模型中方差膨脹因子最大的解釋變量予以剔除,剔除后繼續(xù)構(gòu)建回歸模型并檢驗(yàn)是否存在多重共線性問(wèn)題,若存在,繼續(xù)按上述過(guò)程剔除變量,直到無(wú)多重共線性問(wèn)題存在為此。最終得到的模型是:
該模型的可決系數(shù)R2=0.5608,相對(duì)偏小,而且模型中僅剩余兩個(gè)解釋變量X3、X4,因此該模型沒(méi)有達(dá)到對(duì)原問(wèn)題的正確表述。
上述例證說(shuō)明,以方差膨脹因子為標(biāo)準(zhǔn)實(shí)施的剔除變量法不能夠很好的解決多重共線性問(wèn)題,甚至不能解決多重共線性問(wèn)題。究其原因,方差膨脹因子僅考慮了解釋變量間的相互關(guān)系,盡管這種關(guān)系對(duì)于模型是否存在多重共線性問(wèn)題來(lái)說(shuō)也很重要,但沒(méi)有考慮解釋變量與被解釋變量之間的關(guān)系,即不同的解釋變量對(duì)被解釋變量的影響作用是不同的。因此,僅考慮解釋變量之間的關(guān)系來(lái)解決多重共線性問(wèn)題是不全面的。方差膨脹因子就是一類(lèi)僅考慮解釋變量關(guān)系的統(tǒng)計(jì)指標(biāo),因而不能作為解決多重共線性問(wèn)題中選擇被剔除變量的標(biāo)準(zhǔn)。
t統(tǒng)計(jì)量可以作為選擇被剔除變量的標(biāo)準(zhǔn)。其理由有二:一是t統(tǒng)計(jì)量的構(gòu)造既包含了解釋變量之間相關(guān)性的信息——估計(jì)量的標(biāo)準(zhǔn)差的估計(jì)量中含有方差膨脹因子,如前所述,這是反映解釋變量間相關(guān)性的統(tǒng)計(jì)指標(biāo),同時(shí)也包含了解釋變量對(duì)被解釋變量的影響關(guān)系——參數(shù)估計(jì)量即表述了解釋變量對(duì)被解釋變量的影響;二是t統(tǒng)計(jì)量的取值反映了所對(duì)應(yīng)的解釋變量對(duì)被解釋變量影響貢獻(xiàn)程度的大小[4],在同一模型的所有解釋變量中,t統(tǒng)計(jì)量絕對(duì)值越小,該解釋變量對(duì)被解釋變量的影響作用就越小,相反,t統(tǒng)計(jì)量絕對(duì)值越大,影響作用就越大。因此,選擇t統(tǒng)計(jì)量作為剔除標(biāo)量的標(biāo)準(zhǔn)是全面的,可靠的。
利用t統(tǒng)計(jì)量作為選擇被剔除變量的標(biāo)準(zhǔn),其具體做法是,最先剔除對(duì)被解釋變量貢獻(xiàn)最小的解釋變量,即t統(tǒng)計(jì)量絕對(duì)值最小的解釋變量,利用剩余變量重新構(gòu)造回歸模型,若仍存在共線性問(wèn)題,則重復(fù)前一過(guò)程,直到無(wú)多重共線性問(wèn)題為止。下面即利用該方法來(lái)解決上述例子中的多重共線性問(wèn)題。
首先將所有解釋變量納入到模型中構(gòu)建回歸模型,如前文中所建的第一個(gè)模型。選擇首先被剔除的解釋變量,依據(jù)是未通過(guò)t檢驗(yàn)的t統(tǒng)計(jì)量絕對(duì)值最小。當(dāng)然,若所有的t檢驗(yàn)均通過(guò),則不需要剔除變量了。顯然,X1首先被剔除。重新構(gòu)建的回歸模型如下:
不難發(fā)現(xiàn),該模型仍受到多重共線性的干擾,繼續(xù)使用剔除變量法,根據(jù)t統(tǒng)計(jì)量的絕對(duì)值大小選擇X5被剔除。剔除后構(gòu)建的回歸模型為:
通過(guò)檢驗(yàn)發(fā)現(xiàn),此模型不再受到多重共線性的干擾,各解釋變量均顯著,整體擬合效果較好,其可決系數(shù)R2=0.9954,因而此模型解決了多重共線性問(wèn)題,是排除多重共線性后的最優(yōu)模型。
根據(jù)上述例證,將以方差膨脹因子為準(zhǔn)則的多重共線性解決方法和以t統(tǒng)計(jì)量絕對(duì)值為準(zhǔn)則的方法相比較,不難發(fā)現(xiàn),前者所構(gòu)建的回歸模型結(jié)果不夠理想,主要表現(xiàn)為刪除的解釋變量過(guò)多、模型整體擬合效果較差、計(jì)算步驟繁瑣等。而后者得到了一個(gè)包含盡可能多解釋變量的模型,大大降低了存在設(shè)定誤差的可能性,同時(shí)模型的擬合效果更好,計(jì)算更簡(jiǎn)便。因此,以t統(tǒng)計(jì)量絕對(duì)值為準(zhǔn)則剔除變量的多重共線性解決辦法更優(yōu)。
簡(jiǎn)單地說(shuō),以t統(tǒng)計(jì)量為準(zhǔn)則剔除變量的多重共線性解決辦法就是剔除模型中不顯著的解釋變量,是否剔除的判斷依據(jù)就是該變量顯著性t檢驗(yàn)統(tǒng)計(jì)量絕對(duì)值的大小。當(dāng)然,這不是說(shuō)將所有未通過(guò)t檢驗(yàn)的解釋變量全部剔除——這樣做可能會(huì)將一些顯著的解釋變量排在模型之外,而是逐一的剔除,直到多重共線性問(wèn)題得到解決為止。選擇t統(tǒng)計(jì)量作為被剔除變量選擇的標(biāo)準(zhǔn),是因?yàn)樗粌H含有解釋變量間相關(guān)性的內(nèi)容,還反映了解釋變量對(duì)被解釋變量的影響作用,信息涵蓋更全面。由于t統(tǒng)計(jì)量在一般計(jì)算機(jī)軟件計(jì)算中都會(huì)給出,因而這種解決辦法更方便快捷。
[1]李占風(fēng).經(jīng)濟(jì)計(jì)量學(xué)[M].北京:中國(guó)統(tǒng)計(jì)出版社,2010.
[2]龐皓.計(jì)量經(jīng)濟(jì)學(xué)(第2版)[M].北京:科學(xué)出版社,2010.
[3]古扎拉蒂.計(jì)量經(jīng)濟(jì)學(xué)基礎(chǔ)(第4版)[M].北京:中國(guó)人民大學(xué)出版社,2005.
[4]劉明,王仁曾.基于t檢驗(yàn)的逐步回歸的改進(jìn)[J].統(tǒng)計(jì)與決策,2012,(6).