□趙玉新
近年來(lái)不少學(xué)者都在積極探索解決多元線(xiàn)性回歸中的多重共線(xiàn)性研究,對(duì)三種解決方法進(jìn)行深入探討,針對(duì)每種解決方法的優(yōu)劣以及實(shí)際應(yīng)用效果進(jìn)行深入分析,探討每種解決方法的實(shí)際應(yīng)用情景,從而提高多元線(xiàn)性回歸的統(tǒng)計(jì)分析有效性以及預(yù)測(cè)準(zhǔn)確性。三種方法的適用對(duì)象以及使用機(jī)理,本文研究的中心,其目的是為了提高實(shí)際問(wèn)題中多元線(xiàn)性回歸的分析效果,降低多重共線(xiàn)性對(duì)分析結(jié)果及預(yù)測(cè)結(jié)果的影響,明確這些解決方法的實(shí)用情景以及模型預(yù)測(cè)分析是多元線(xiàn)性回歸應(yīng)用繼續(xù)解決的問(wèn)題。
多重共線(xiàn)性問(wèn)題是多元線(xiàn)性回歸中自變量由于線(xiàn)性關(guān)系或者是近似線(xiàn)性關(guān)系,導(dǎo)致變量的顯著性更加隱蔽,不利于察覺(jué),所以增加了強(qiáng)參數(shù)估計(jì)的方差,導(dǎo)致模型的構(gòu)建更加復(fù)雜、不穩(wěn)定,不利于多元線(xiàn)性回歸分析。若是多元線(xiàn)性回歸中多重共線(xiàn)性存在于自變量系統(tǒng)之中,依舊是采用最小二乘擬合回歸系數(shù),就會(huì)降低模型的精確度以及可靠性,原因如下:一是當(dāng)自變量完全相關(guān)時(shí),最小二乘回歸系數(shù)難以估計(jì);二是自變量之間若是存在不完全共線(xiàn)線(xiàn)性,雖然回歸系數(shù)可以估計(jì)但是估計(jì)方差會(huì)與自變量共線(xiàn)性成正比例關(guān)系;三是高度相關(guān)條件下,回歸系數(shù)的估計(jì)值會(huì)與樣本數(shù)據(jù)的微小變化的波動(dòng)性大,導(dǎo)致回歸系數(shù)估計(jì)值穩(wěn)定性下降;四是所示多重共線(xiàn)性影響較為嚴(yán)重,則回歸系數(shù)統(tǒng)計(jì)檢驗(yàn)就難以順利進(jìn)行;五是當(dāng)自變量高度相關(guān)下,最小二乘法得到的回歸模型中的回歸系數(shù)難以解釋物理含義,所以導(dǎo)致回歸系數(shù)的取值價(jià)值下降,嚴(yán)重會(huì)導(dǎo)致回歸系數(shù)符號(hào)與實(shí)際情況相反;六是回歸模型基于樣本,多重線(xiàn)性也是抽樣數(shù)據(jù)所以建立的回歸模型若是用于預(yù)測(cè),就難以保證預(yù)測(cè)期間數(shù)據(jù)不會(huì)受到多重共線(xiàn)問(wèn)題影響,相對(duì)的共線(xiàn)性問(wèn)題對(duì)預(yù)測(cè)結(jié)果雖然不會(huì)造成嚴(yán)重影響,但是預(yù)測(cè)結(jié)果卻難以確定;七是多重共線(xiàn)一旦出現(xiàn),回歸系數(shù)就難以用一般解釋方法進(jìn)行解釋。由此可見(jiàn)多元線(xiàn)性回歸中多重共線(xiàn)性影響嚴(yán)重,無(wú)法滿(mǎn)足多元線(xiàn)性的模型構(gòu)建以及參數(shù)估計(jì),不利于預(yù)測(cè)以及統(tǒng)計(jì)分析,研究多重共線(xiàn)性的消除是提高多元線(xiàn)性回歸分析價(jià)值提升以及模型穩(wěn)健性的重要保障。
現(xiàn)階段學(xué)者們探索出的多重共線(xiàn)性解決方法主要是成分回歸、嶺回歸以及對(duì)偏最小二乘回歸三個(gè)方法,能夠有效消除多元線(xiàn)性回歸中多重共線(xiàn)性形象,針對(duì)自變量以及變量小系統(tǒng)的數(shù)據(jù)進(jìn)行多樣處理。不過(guò)在解決線(xiàn)性回歸模型的多重共線(xiàn)性問(wèn)題之中,這三種方法各具優(yōu)勢(shì),但是在嶺回歸及主成分回歸之中嶺參數(shù)以及特征因子篩選問(wèn)題還是備受爭(zhēng)議,而對(duì)偏最小二乘回歸的機(jī)理及模型作用更加明顯。
(一)主成分回歸。主成分回歸的核心思想是主成分分析,根據(jù)多元統(tǒng)計(jì)方法針對(duì)多個(gè)變量間的相關(guān)系進(jìn)行分析,利用幾個(gè)互不相關(guān)的主成分構(gòu)建新的綜合指標(biāo),從而替換原有的具有一定相關(guān)性的P個(gè)指標(biāo),從而確保主成分具有更多的原始信息。具體步驟如下:一是摒除因變量Y,只考慮自變量的集合進(jìn)行主成分提取,先是確定自變量集合的前m個(gè)非零特征值及向量,之后再針對(duì)主成分的性質(zhì),從均值為零和方差算子入手,前者是E(F h)=0,h=1,2,…,m,后者為var(F h)=λh h=1,2,…,m所以有var(F1)≥var(F2)≥…≥var(Fm),能夠反映出原變異信息的反應(yīng)精度;二是針對(duì)第一主成分與所有原變量的相關(guān)度進(jìn)行最優(yōu)問(wèn)題確定,也就是尋找一個(gè)綜合變量與原有所有自變量形成最相關(guān),換言之就是第一主成分的確定;三是對(duì)主成分進(jìn)行協(xié)方差確定,也就是針對(duì)主成分之間的不相關(guān)線(xiàn)性進(jìn)行多重相關(guān)性回歸建模,通過(guò)成分提取思路,摒除因變量Y的影響,但是主成分回歸難以解釋Y,所以其應(yīng)用范圍有限。
(二)嶺回歸。嶺回歸消除多重共線(xiàn)性得解決機(jī)理,主要是針對(duì)自變量中的復(fù)共線(xiàn)性也就是|XX'|≈0時(shí),給XX’加上正常的數(shù)矩Kl(k>0),那么X'X+KI=0的可能性就會(huì)高于X'X,那么此時(shí)的基本思想:當(dāng)出現(xiàn)多重共線(xiàn)性時(shí),X'X≈0,從而使參數(shù)的β^=(X'X+KI)-1X'Y就會(huì)高于普通最小二乘估計(jì)的β,那么得到的模型就會(huì)更加穩(wěn)定。嶺回歸應(yīng)用主要應(yīng)用于經(jīng)濟(jì)數(shù)據(jù)分析,可以針對(duì)進(jìn)口總額Y以及國(guó)內(nèi)總產(chǎn)值X1、儲(chǔ)存量X2以及總消費(fèi)量X3之間的關(guān)系進(jìn)行分析,實(shí)際應(yīng)用案例有2011年的法國(guó)經(jīng)濟(jì)數(shù)據(jù)分析,通過(guò)收集得到的11組數(shù)據(jù),計(jì)算出各個(gè)自變量及變量的平均值、方差、然后通過(guò)對(duì)給定的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化及中心化,可以進(jìn)一步得出最小二乘回歸,進(jìn)而得出所需的特征值以及回歸方程,再通過(guò)嶺估計(jì)的概念在回歸方程中通過(guò)不同K值的代入能夠得到殘差平方和是嶺跡k的單調(diào)增函數(shù),從而得到回歸的嶺跡圖,取得穩(wěn)定的K值之后就可以得到所需的嶺回歸方程,用于統(tǒng)計(jì)分析以及預(yù)測(cè)技術(shù)。
(三)對(duì)偏最小二乘回歸。對(duì)偏最小二乘回歸主要是針對(duì)多因變量的統(tǒng)計(jì)關(guān)系之中,尤其是在回歸分析中若是自變量與因變量之間的個(gè)數(shù)較多,則因變量與自變量之間都會(huì)存在嚴(yán)重的多重共線(xiàn)性問(wèn)題,所以就不能采用一般的多元回歸方法,因此需要利用最小二乘法進(jìn)行建模,提高數(shù)據(jù)統(tǒng)計(jì)分析的效果以及數(shù)據(jù)價(jià)值。
對(duì)偏最小二乘回歸的基本思想如下:第一,記t1=X0W1,則能夠?qū)⒍嘣€(xiàn)性回歸中多重共線(xiàn)性的消除轉(zhuǎn)變?yōu)閮?yōu)化問(wèn)題,確定max。第二,將X0和Y確定在t1的回歸線(xiàn)上,也就是實(shí)現(xiàn)回歸方程的數(shù)值帶入,例如:X0=t1p1'+X1。第三,則是將殘差矩陣中的X1和y1代替X0和y,然后采取提取t1的方法,進(jìn)行第二個(gè)綜合變量的t2的提取,以此類(lèi)推,提取所有的綜合變量,目前比較流行采用的是交差有效性,針對(duì)Y進(jìn)行成分t1,t2,…的普通多元線(xiàn)性回歸線(xiàn)防城區(qū)入定,然后針對(duì)X1,X2…進(jìn)行線(xiàn)性組合得到PLS1回歸模型??傮w而言,對(duì)偏最小二乘回歸采用的是循環(huán)式的信息分解與數(shù)據(jù)提取,所以能夠確保原始信息與變量信息的保存,自動(dòng)排除對(duì)Y解釋無(wú)意義的數(shù)據(jù),能夠有效對(duì)數(shù)據(jù)進(jìn)行綜合性分析及模型構(gòu)建,雖然對(duì)數(shù)據(jù)要求比較高,但是其應(yīng)用范圍是最廣的。
總而言之,比對(duì)起成分回歸以及嶺回歸而言,對(duì)偏最小二乘回歸雖然在數(shù)據(jù)方面比較嚴(yán)格,但是其研究分析方法以及模型實(shí)用性較高,嶺回歸則是能夠在均方誤差無(wú)偏估計(jì)最小原則的情況下選擇嶺參數(shù),而成分回歸則是能夠利用主成分加權(quán)殘差平臺(tái)進(jìn)行篩選特征值,在實(shí)際應(yīng)用過(guò)程中各有千秋,但對(duì)偏最小二乘回歸的模型最為有效,所以在消除多重共線(xiàn)性中備受關(guān)注。