(1. 海南大學理學院,???,570228;2. 廣東財經(jīng)大學 統(tǒng)計與數(shù)學學院,廣州,510320)
在多元回歸分析的過程中,常常會遇到多重共線性的問題.當自變量之間存在嚴重的多重共線性時,使用最小二乘法得到的回歸模型的有效性就會大大降低,模型穩(wěn)定性也會變得很差,同時給回歸系數(shù)的統(tǒng)計檢驗及回歸系數(shù)的物理含義解釋等造成一定的困難.因此采取適當方法消除多重共線性帶來的不良影響,對回歸模型有著重大意義.國內外學者對消除多重共線性問題得出了許多有效的解決方法,如逐步回歸、嶺回歸、主成分回歸、偏最小二乘回歸、核主成分回歸等.肖雪夢[1]、張應應實例比較了逐步回歸、主成分回歸及偏最小二乘回歸在消除多重共線性中的效果,周鑫[2]實例比較了嶺回歸和偏最小二乘回歸,丁立[3]、錢強強等人實證比較了主成分回歸、偏最小二乘回歸、嶺回歸及Lasso法.本文對嶺回歸和核主成分回歸兩種方法分別在消除多重共線性的效果上作實例比較分析.
對于多元線性回歸模型yi=β0+β1x1i+β2x2i+…+βpxpi+εi(i=1,2,…,n),回歸模型可寫作矩陣形式Y=Xβ+ε.當模型違背自變量相互獨立的假設,即多個自變量之間存在相互關系時,就會產(chǎn)生多重共線性的問題.多重共線性的主要來源[9]有過度定義回歸模型,數(shù)據(jù)收集的方法有問題,對模型施加了不必要的約束,錯誤定義回歸模型等.
多重共線性的出現(xiàn)會導致每個解釋變量的貢獻混淆,使得難以解釋模型[7],多重共線性的存在會導致均方誤差極高,預測變量的方差、協(xié)方差和系數(shù)變得不合理,使得參數(shù)難以精確估計[8].普通最小二乘估計對數(shù)據(jù)微小變化十分敏感,缺乏穩(wěn)健性[19].
1.2.1 嶺回歸
嶺估計的方法是1970年由Hoerl和Kennard提出的[5],是對最小二乘估計的一種改進.嶺回歸實際上就是采用嶺估計對回歸方程的系數(shù)進行估計的過程.當自變量間存在多重共線性時,|X′X|≈0,設想給X′X加上一個正常數(shù)矩陣kI(k>0),那么X′X+kI的奇異程度就會遠遠小于X′X的奇異程度[4].
1.2.2 核主成分回歸
核主成分回歸是將核方法與主成分回歸結合起來的一種回歸模型,核方法具有良好的性質,可以有效處理高維數(shù)據(jù),同時保證較快的計算速度.
核函數(shù)理論
定義1設二元函數(shù)K:X×X→R,如果存在某個內積空間,以及映射φ:X→H,使得
K(x,y)=[φ(x),φ(y)],
則稱H為特征空間,φ為特征映射,K為核函數(shù)[10].
定義2函數(shù)K(x,y)稱為半正定核函數(shù)[11],如果滿足如下條件:
1)函數(shù)K(x,y)∈L(X×Y)連續(xù)對稱;
2)f∈L2(X);
Mercer定理在特征空間中,對于任意的函數(shù)K(x,y)可以表成內積形式
K(x,y)=[φ(x),φ(y)]
的充要條件是K(x,y)是正定的.
常用的Mercer核函數(shù)有
1)高斯徑向基核函數(shù):
其中σ>0是自定義參數(shù).
2)多項式核函數(shù):
K(x,y)=(x·y+c)σ,
其中c>0,σ是整數(shù),它們是自定義參數(shù).
3)多層感知機核函數(shù):
K(x,y)=tanh(-b(x·y)-c),
其中b,c是自定義參數(shù).
核主成分回歸的基本原理[12]是,先引入非線性變換函數(shù)φ:R→F,將原始輸入空間映射到某個高維特征空間F,即將輸入空間樣本點X1,X2,…,Xn變換為特征空間的樣本點φ(X1),φ(X2),…,φ(Xn),再在特征空間F中進行主成分回歸.
φ(Xi),φ(Xj)兩個F空間樣本點的距離用其內積表示,定義核函數(shù)為K(Xi,Xj)=(φ(Xi),φ(Xj)),核矩陣為K=[K(Xi,Xj)]n×n.
特征空間中樣本點的協(xié)方差矩陣為
設C的特征值為λ,特征向量為υ,則Cυ=λυ.可以推得
υ=∑ni=1aiψ(Xi),
最后對提取出的核主成分建立多元線性回歸模型
y=Bω+ε,
其中B=ΨVp,Ψ=(ψ(X1),…,ψ(Xn)),Vp為前p個特征向量組成的矩陣.
運用最小二乘法可求得回歸系數(shù)為
從而可得核主成分回歸模型的方程表示為:
為了研究我國民航客運量的變化趨勢及其成因,我們以民航客運量作為因變量,以國民收入、消費額、鐵路客運量、民航航線里程、來華旅游入境人數(shù)作為影響民航客運量的主要因素.y表示民航客運量(萬人),x1表示國民收入(億元),x2表示消費額(億元)、x3表示鐵路客運量(萬人)、x4表示民航航線里程(萬公里)、x5表示來華旅游入境人數(shù)(萬人),詳細數(shù)據(jù)見[4].
首先對原始數(shù)據(jù)進行標準化處理,將通過標準化的因變量y*對標準化自變量xi*(i=1,2,…,5)進行多元線性回歸,并進行多重共線性診斷,通過計算處理得到分析結果如下表1、表2.
表1 共線性統(tǒng)計量
表2 共線性診斷
由表1、表2可知,自變量x1*,x2*的方差膨脹因子都大于10,5維以上的條件數(shù)大于10,可見診斷結果一致,表明此回歸模型存在較強的共線性.
通過計算處理,可得不同嶺參數(shù)下的回歸方程及相應的嶺跡圖,結果如下表3、圖1所示.
表3 不同嶺參數(shù)下的嶺回歸(部分)
圖1 嶺跡圖
觀察嶺跡圖,可以看出當k≥0.10時,嶺回歸系數(shù)基本趨于穩(wěn)定,因此選取嶺參數(shù)k=0.10.此時嶺回歸方程為
y*=0.2395x1*+0.2141x2*-0.07341x3*+0.3244x4*+0.2278x5*.
方差分析結果及共線性診斷結果如下表4、表5、表6所示.
表4 方差分析表
表5 共線性統(tǒng)計量
表6 共線性診斷
由此可見,嶺回歸各系數(shù)的方差膨脹因子都小于10,各個維度的條件數(shù)也都小于10,嶺回歸能夠很好地解決多重共線性問題.
表7 KPCA特征值和累積貢獻
前兩個核主成分的累積貢獻就已達到95%以上,因此提取KF1,KF2作為回歸自變量即可,KF1,KF2如下表8所示.
表8 核主成分KF1,KF2
將y*對提取的核主成分KF1,KF2進行多元線性回歸,通過計算得到回歸方程
y*=0.535+3.754*KF1+1.401*KF2.
方差分析結果及共線性診斷結果如下表9、表10、表11所示.
表9 方差分析表
表10 共線性統(tǒng)計量
表11 共線性診斷
由此可見,回歸系數(shù)的方差膨脹因子都小于10,各個維度的條件數(shù)也都小于10,采用核主成分回歸也能消除線性回歸過程中的多重共線性問題.
嶺回歸和核主成分回歸都能很好地消除多重共線性,對兩種方法得到的回歸模型結果作比較,結果如下表12所示.
表12 回歸結果對比表
由表12可以看出,雖然嶺回歸在決定系數(shù)上略優(yōu)于核主成分回歸,但是在其他指標上均劣于核主成分回歸,總的來說,核主成分的回歸結果要好于嶺回歸.
本文通過對同一組數(shù)據(jù)分別用嶺回歸、核主成分回歸的方法進行回歸分析,以消除自變量間的多重共線性,并對回歸模型結果進行了比較.我們發(fā)現(xiàn)這兩種回歸方法均能有效地消除自變量間的多重共線性,使得回歸模型變得更有實際意義,總的來說核主成分回歸對內擬合效果要優(yōu)于嶺回歸.但是嶺回歸的嶺參數(shù)選擇,核主成分回歸的核函數(shù)及核參數(shù)的選擇都存在很強的主觀性,不同的參數(shù)選擇對回歸模型的好壞影響巨大,在實際的問題求解中需要根據(jù)專業(yè)性及經(jīng)驗性的判斷來妥善選擇.