王飛 孫嘉聰 沈丹
【摘要】在多元線性回歸模型中,變量之間多重共線性的存在十分普遍,但其危害卻不容忽視,文章簡述了回歸模型中多重共線性的一系列問題,并通過實例采用嶺回歸分析法對經(jīng)濟問題中的多重共線性問題進行了分析.所以研究線性回歸中變量之間的多重共線性具有一定的實用價值.
【關(guān)鍵詞】回歸模型;多重共線性;嶺回歸分析
一、多重共線性
(一)多重共線性的含義
由于模型設(shè)定和數(shù)據(jù)等各方面的問題,模型的解釋變量之間很可能存在某種程度的線性關(guān)系,這時稱多元線性回歸模型存在多重共線性問題.
數(shù)學(xué)描述:對于模型yi=β0+β1x1i+β2x2i+…+βpxpi+εi,i=1,2,…,n.(1-1)
其基本假設(shè)之一是解釋變量X1,X2,…,Xp是相互獨立的.如果某兩個或多個解釋變量之間出現(xiàn)了相關(guān)性,則稱為多重共線性(Multicollinearity).
如果存在c1x1i+c2x2i+…+cpxpi=0,i=1,2,…,n.(1-2)
其中c不全為0,則稱X1,X2,…,Xp之間存在線性.如果式(1-2)近似地對所有數(shù)據(jù)成立,則稱X1,X2,…,Xp之間存在近似多重共線性.
(二)多重共線性形成的基本原因
完全多重共線性常因為在模型設(shè)定時把有嚴格聯(lián)系的變量引進同一個模型,或者因為虛擬變量設(shè)置不當引起的.而近似多重共線性既與變量選擇有關(guān),也與數(shù)據(jù)有關(guān),雖然由于解釋變量的選擇不當,把內(nèi)在相關(guān)性較強的變量引進同一個模型,是導(dǎo)致近似多重共線性的重要原因,但近似多重共線性更經(jīng)常的原因是經(jīng)濟數(shù)據(jù)的共同趨勢.
(三)多重共線性的危害
當解釋變量系統(tǒng)中存在嚴重的多重共線性時,若仍用最小二乘法擬合回歸模型,則模型的精確性、可靠性都不能得到保證.
1.在解釋變量完全相關(guān)的情況下,最小二乘法的回歸系數(shù)完全無法估計.最小二乘法下,回歸系數(shù)的估計量是β^=(X′X)-1,當X中的量完全相關(guān)時,(X′X)是不可逆矩陣.因此,此公式無法求得回歸系數(shù)β,自然也得不到應(yīng)有的回歸模型.
2.若解釋變量間存在著不完全的共線性,回歸系數(shù)是可估計的,回歸系數(shù)的估計方差會隨著解釋變量之間的相關(guān)性的不斷增強而迅速擴大.在高度相關(guān)條件下,回歸系數(shù)的方差很大,往往只更換樣本中的個別數(shù)據(jù)所得到的回歸系數(shù)的值就會有很大差異,這對于所得到的回歸方程的可靠性就很難判斷了.
3.存在嚴重的多重共線性時,回歸系數(shù)的統(tǒng)計檢驗有一定的困難.在高度相關(guān)條件下,回歸系數(shù)的方差不斷增大,相應(yīng)的t檢驗值減小,造成回歸系數(shù)的t檢驗不能通過.在應(yīng)用過程中,由于解釋變量之間的多重共線性,造成一些重要的解釋變量無法通過顯著性檢驗,就可能把一些重要的解釋變量作為無足輕重的因素而舍棄,從而得出與客觀情況相悖的結(jié)論.
4.在解釋變量高度相關(guān)的條件下,用最小二乘法得到的回歸模型,其回歸系數(shù)的物理含義很難解釋.許多從專業(yè)知識上看似乎十分重要的變量,其回歸系數(shù)的取值變得微不足道,甚至還會出現(xiàn)回歸系數(shù)的符號與人們的實際概念完全相反的現(xiàn)象.
二、嶺回歸法
例:法國經(jīng)濟分析數(shù)據(jù),考察進口總額Y與三個解釋變量:國內(nèi)總產(chǎn)值X1,存儲量X2,總消費量X3(單位均為十億法郎),現(xiàn)收集數(shù)據(jù),具體值見表1.
對給定的原始數(shù)據(jù)進行中心化和標準化,得到如下數(shù)據(jù):
可以通過計算得到它所有可能的最小二乘回歸.如下表2-2.
進入回歸的變量
回歸系數(shù)的最小二乘估計
計算出其對應(yīng)的三個特征值:λ1=1.999,λ2=0.998,λ3=0.003,
則其條件數(shù)d=λ1λ3=1.9990.003=666.333,在100與1000之間,即存在中等程度的復(fù)共線性.
設(shè)“標準化”變量的回歸方程為:
Y^′=β^1X1′+β^2X2′+β^3X3′.(2-1)
應(yīng)用嶺估計的概念:β^(k)=(X′X+kI)-1X′Y并代入不同的k值,如下圖2-3.
圖2-3 外貿(mào)數(shù)據(jù)回歸的嶺跡圖
(其中實線:β^1(k),虛線:β^2(k),點劃線:β^3(k),橫軸:k取值,豎軸:β^(k))
由嶺跡圖2-3可以看出,嶺跡β^1(k)隨著k的增加而快速增加,k=0.04后就穩(wěn)定下來.總體來看,可以取k=0.04.
則對應(yīng)的嶺估計為:β^1(0.04)=0.420,β^2(0.04)=0213,β^3(0.04)=0.525代入“標準化”變量的回歸方程(2-1):
Y^-YSY=β^1(0.04)X1-X1S1+β^2(0.04)X2-X2S2+β^3(004)X3-X3S3,
簡化后得到嶺回歸方程:Y^=-8.5537+0.0635X1+05859X2+0.1156X3.
三、結(jié) 論
嶺回歸法解決多重共線性問題有其獨到之處,與其他方法不盡相同.但要想減少MSE(β^),應(yīng)采取嶺回歸法,無論采取什么方法,都應(yīng)從實際情況出發(fā),選擇對解決實際問題有利而簡單的方法,不僅可以對分析各變量之間的作用和聯(lián)系帶來意想不到的幫助,而且可以達到事半功倍的效果.
【參考文獻】
[1]何曉群.多元統(tǒng)計分析[M].北京:中國人民大學(xué)出版社,2008:152-174.
[2]周紀薌.實用回歸分析方法[M].上海:上??茖W(xué)技術(shù)出版社,1990.
[3]趙松山.對多重共線性的深入思考[J]當代財經(jīng),2003(6):125-128.
[4][美]古扎拉蒂著,林少宮譯.計量經(jīng)濟學(xué)[M]北京:中國人民大學(xué)出版社,2000.