陳 軍
(新疆師范大學(xué)商學(xué)院,新疆 烏魯木齊 830017)
在多元線性回歸中,通常采用OLS(最小二乘法)作為估計(jì)回歸模型參數(shù)的方法,但需滿足若干基本假定,包括關(guān)于變量和模型的假定和關(guān)于隨機(jī)擾動(dòng)項(xiàng)統(tǒng)計(jì)分布的假定。其中假設(shè)之一就是解釋變量間不存在多重共線性,但在實(shí)際研究中,模型中的解釋變量間往往存在不同程度的共線性問(wèn)題,對(duì)此情形需要進(jìn)行相應(yīng)的消除解決,再行應(yīng)用OLS。多重共線性的內(nèi)容在“統(tǒng)計(jì)學(xué)”“計(jì)量經(jīng)濟(jì)學(xué)”課程中都有涉及,也是教學(xué)中的一個(gè)重點(diǎn)和難點(diǎn)。在教學(xué)實(shí)踐中,一般采用定義數(shù)學(xué)方程、矩陣等講授,但涉及數(shù)學(xué)知識(shí)點(diǎn)多,理論講解相對(duì)費(fèi)時(shí),如果學(xué)生數(shù)學(xué)基礎(chǔ)不扎實(shí),那么對(duì)這部分的內(nèi)容理解起來(lái)就相對(duì)吃力。通過(guò)引入文氏圖,可有助于這部分內(nèi)容講解和學(xué)生的理解。
文氏圖屬于集合論數(shù)學(xué)分支,用于展示不同集合(群組)之間的數(shù)學(xué)或邏輯關(guān)系,常被用于集合(類(lèi))運(yùn)算。一般用矩形框表示論域,矩形框的內(nèi)部區(qū)域即論域范圍,可視為全集,即所有可能事物的空間。單個(gè)集合用圓或橢圓表示,若兩個(gè)圓或橢圓相交,相交部分則是兩個(gè)集合所包含的公共元素;若兩個(gè)圓或橢圓不相交,則表明兩集合無(wú)公共元素。需要說(shuō)明的是,文氏圖與其它的圖示法一樣,它不能準(zhǔn)確表示一個(gè)集合(或類(lèi))中到底有哪些元素。下圖為集合A, B的文氏圖。
圖1 集合A, B的文氏圖
變量λ1x1+λ2x2+…+λkxk=0之間共線性的情形有三種,分別是完全共線性、不完全多重共線性和無(wú)多重共線性。
1.完全共線性
變量間存在完全共線性,即對(duì)于變量x1,x2,…,xk,如果存在不全為零的常數(shù)λ1,λ2,…,λk,使得下式成立:
則稱(chēng)解釋變量x1,x2,…,xk之間存在完全共線性。
2.不完全共線性
變量間存在不完全共線性,即對(duì)于變量x1,x2,…,xk,如果存在不全為零的常數(shù)λ1,λ2,…,λk,使得下式成立:
則稱(chēng)解釋變量x1,x2,…,xk之間存在不完全共線性,其中μ為隨機(jī)誤差項(xiàng)。與完全共線性不同的是,不完全共線性反映出變量間是近似線性關(guān)系,而非函數(shù)關(guān)系。因而,不完全共線性也稱(chēng)近似的多重共線性,實(shí)際經(jīng)濟(jì)問(wèn)題的大多數(shù)情況呈現(xiàn)這種情形。
3.無(wú)多重共線性
無(wú)多重共線性是指解釋變量x1,x2,…,xk之間,既不滿足式(1),也不滿足式(2)的情形。矩陣x為滿秩矩陣,即rank(X)=k+1。應(yīng)該注意到,解釋變量x1,x2,…,xk之間不存在線性相關(guān),并不說(shuō)明不存在非線性相關(guān)。由于各解釋變量x1,x2,…,xk之間往往在時(shí)間上存在同向變動(dòng)趨勢(shì),且存在不同程度關(guān)聯(lián)度,無(wú)多重共線性情形一般很少。
基于文氏圖的多重共線性可分三種情形:無(wú)多重共線性、不完全共線性及完全共線性,如圖2所示。
1.完全共線性
假設(shè)線性回歸模型有兩個(gè)解釋變量x1,x2,各自代表相應(yīng)變量信息。若存在常數(shù)λ1,λ2,滿足λ1x1+λ2x2=0,即解釋變量x1,x2之間存在完全共線性。用文氏圖可表示為如圖2(c),說(shuō)明變量x1反映的信息和x2反映的信息,雖然形式不同,但兩者信息是完全重復(fù)的。
2.不完全共線性
假設(shè)線性回歸模型有兩個(gè)解釋變量x1,x2,各自代表相應(yīng)變量信息。若存在常數(shù)λ1,λ2,滿足λ1x1+λ2x2+μ=0,即解釋變量x1,x2之間存在不完全共線性。用文氏圖可表示為如圖2(b)情形,說(shuō)明變量x1反映的信息和x2反映的信息,雖然形式不同,但兩者信息部分是重復(fù)的。變量間相關(guān)程度越大,圖形中x1,x2重復(fù)的部分越多。
3.無(wú)多重共線性
假設(shè)線性回歸模型有兩個(gè)解釋變量x1,x2,各自代表相應(yīng)變量信息。若既不存在常數(shù)λ1,λ2,滿足λ1x1+λ2x2=0,也不滿足λ1x1+λ2x2+μ=0,這時(shí)解釋變量x1,x2之間不存在共線性。用文氏圖可表示為如圖2(a)情形,說(shuō)明變量x1反映的信息和x2反映的信息,無(wú)交集,即解釋變量x1,x2之間線性相關(guān)系數(shù)為零,各自提供的信息無(wú)重合部分。
圖2 共線性分類(lèi)的文氏圖表示
多元線性回歸模型中,如果解釋變量間存在多重共線性,但仍采用OLS方法估計(jì)模型參數(shù),一般將產(chǎn)生較為嚴(yán)重的后果。以二元線性回歸模型為例,在完全共線性情形下,參數(shù)估計(jì)量將不存在,表現(xiàn)在參數(shù)估計(jì)量 和 為不定式,且方差為無(wú)窮大;而在不完全共線性的情形下,則呈現(xiàn)出參數(shù)估計(jì)量 和
的方差、置信區(qū)間伴隨x1,x2共線性程度增加而增加,同時(shí)t檢驗(yàn)失效、預(yù)測(cè)精度降低、回歸模型缺乏穩(wěn)定性等影響。因此,在進(jìn)行模型回歸前,一般要進(jìn)行多重共線性的檢驗(yàn),主要檢驗(yàn)方法包括相關(guān)系數(shù)檢驗(yàn)、F-G檢驗(yàn)、特征值檢驗(yàn)、方差膨脹因子(VIF)檢驗(yàn)等。
在實(shí)際應(yīng)用中,往往考慮如下方法研判:R2或其修正值很高(F值也相應(yīng)高),但某些解釋變量系數(shù)的t值卻不顯著或偏低。這時(shí),我們就可初步判斷解釋變量x1,x2,…,xk之間可能存在多重共線性。這種結(jié)果看似矛盾,其實(shí)不然。F檢驗(yàn)表明因變量與解釋變量之間的線性關(guān)系是顯著的,即因變量和解釋變量中的一個(gè)變量間的線性關(guān)系顯著,并不代表和每個(gè)解釋變量之間的線性關(guān)系都顯著。為了便于理解,可借助文氏圖3表示。
圖3 多重共線性檢驗(yàn)的文氏圖表示
上圖中,X1、X2、X3分別表示多元線性回歸模型中三個(gè)解釋變量對(duì)因變量的解釋貢獻(xiàn)度,F(xiàn)檢驗(yàn)值可理解為X1、X2、X3三個(gè)集合形成的面積。由于共線性的存在,導(dǎo)致無(wú)法區(qū)分X1、X2、X3對(duì)因變量的具體解釋貢獻(xiàn)度,盡管單獨(dú)對(duì)每個(gè)解釋變量回歸,系數(shù)呈現(xiàn)顯著性。某些解釋變量的貢獻(xiàn)度和另一些解釋變量的貢獻(xiàn)度相互重疊了。借助文氏圖,對(duì)于講授這個(gè)知識(shí)點(diǎn),學(xué)生更容易理解。
為完整體現(xiàn)文氏圖在線性回歸模型多重共線性分析方面的應(yīng)用,下面結(jié)合一個(gè)具體的案例來(lái)說(shuō)明。
例:根據(jù)理論和經(jīng)驗(yàn)分析,影響國(guó)內(nèi)旅游市場(chǎng)收入Y的主要因素,除了國(guó)內(nèi)旅游人數(shù)和旅游支出之外,還可能與相關(guān)基礎(chǔ)設(shè)施有關(guān)。為此,考慮的影響因素主要有國(guó)內(nèi)旅游人數(shù)X1,城鎮(zhèn)居民人均旅游支出X2,農(nóng)村居民人均旅游支出X3,并以公路里程X4和鐵路里程X5作為相關(guān)基礎(chǔ)設(shè)施的代表。統(tǒng)計(jì)數(shù)據(jù)如下表1所示。要求建立國(guó)內(nèi)旅游市場(chǎng)收入的多元線性回歸預(yù)測(cè)模型,并檢測(cè)共線性情況。
分析本例題模型中的變量,公路里程(X4)和鐵路里程(X5)兩個(gè)變量反映的信息應(yīng)有重疊,而國(guó)內(nèi)旅游人數(shù)(X1)、城鎮(zhèn)居民人均旅游支出(X2)、農(nóng)村居民人均旅游支出(X3)等三個(gè)變量反映的信息應(yīng)有重疊(通過(guò)相關(guān)系數(shù)矩陣也可得出),考慮模型中解釋變量間可能存在共線性問(wèn)題。模型中解釋變量及隨機(jī)誤差項(xiàng)反映信息用圖4文氏圖表示。
本例以SPSS作為數(shù)據(jù)處理軟件,采用逐步回歸法解決多重共線性問(wèn)題,實(shí)操步驟描述如下。
圖4 解釋變量及隨機(jī)誤差項(xiàng)反映信息的圖示
Step1:輸入數(shù)據(jù);依次選擇“分析(A)”→“回歸(R)”→“線性(L)”進(jìn)入線性回歸對(duì)話框。在“線性回歸”對(duì)話框中,將左側(cè)框內(nèi)的“Y”“X1”“X2”“X3”“X4”“X5”分別移入右側(cè)“因變量(D)”和“自變量(I)”框內(nèi),對(duì)話框界面同前例。并在“方法”下選擇“逐步”。
Step2:點(diǎn)擊“選項(xiàng)”,并在“步進(jìn)方法標(biāo)準(zhǔn)”下選擇“使用F的概率”,并輸入增加變量所要求的的顯著性水平(默認(rèn)值為0.05);在“刪除”框中輸入剔除變量所要求的顯著性水平(默認(rèn)值為0.10)。點(diǎn)擊“繼續(xù)”回到主對(duì)話框。
Step3:點(diǎn)擊“確定”。得到部分結(jié)果如表2、3。
表2 輸入/移去的變量
表3 系數(shù)
上表給出了參數(shù)的估計(jì)值和用于檢驗(yàn)的t統(tǒng)計(jì)量和p值。由此得到回歸模型:
從結(jié)果可以看出,首先被選入的變量是城鎮(zhèn)居民人均旅游支出(X2),后依次選入的變量是公路里程(X4)和農(nóng)村居民人均旅游支出(X3),即在消除共線性的情形下,剔除了變量X1和X5。從經(jīng)濟(jì)意義解釋?zhuān)褪枪防锍蹋╔4)信息更多涵蓋鐵路里程(X5),城鎮(zhèn)居民人均旅游支出(X2)和農(nóng)村居民人均旅游支出(X3)反映的信息更多涵蓋國(guó)內(nèi)旅游人數(shù)(X1),用文氏圖可表示為圖5。
圖5 回歸模型變量間文氏圖
通過(guò)上文分析,可以看到文氏圖在多重共線性內(nèi)容講授時(shí)的優(yōu)點(diǎn),主要體現(xiàn)在多重共線性定義及分類(lèi)、共線性檢驗(yàn)及回歸結(jié)果分析上。通過(guò)借助文氏圖,可有效提高教師的教學(xué)效果和學(xué)生對(duì)此內(nèi)容的理解掌握。