劉 明,王仁曾
(1.蘭州商學(xué)院 統(tǒng)計學(xué)院,蘭州 730020;2.華南理工大學(xué) 經(jīng)濟(jì)貿(mào)易學(xué)院,廣州 510006)
逐步回歸是線性回歸分析中重要的一種分析方法,主要用來解決多元線性回歸模型中解釋變量個數(shù)較多時如何選擇解釋變量,以使得在回歸方程中包含所有對被解釋變量影響顯著的解釋變量而不包含影響不顯著的解釋變量的問題。逐步回歸正是為解決這類問題而設(shè)計的一種回歸方法。它的主要思路是在所考慮的全部解釋變量中按對被解釋變量的貢獻(xiàn)大小逐個引入回歸方程,己被引入回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引入一個變量或者從回歸方程中剔除一個變量都要進(jìn)行F檢驗,以保證在引入新變量前回歸方程中只含有對被解釋變量影響顯著的變量,而不顯著的變量已被剔除[1]。
在逐步回歸中每剔除和引入一個變量都需要計算F統(tǒng)計量的值,這需要一定的工作量。同時,逐步回歸中所用的F檢驗對于眾多初學(xué)者和應(yīng)用者來說也難以理解和把握,而單個參數(shù)顯著性t檢驗是人們所熟知的。筆者通過研究發(fā)現(xiàn),F(xiàn)統(tǒng)計量和t統(tǒng)計量存在緊密的聯(lián)系,逐步回歸中的F檢驗和參數(shù)顯著性t檢驗是等價的,因此可以轉(zhuǎn)而考慮使用t檢驗。相比較而言,t統(tǒng)計量的計算要比F統(tǒng)計量的計算簡便得多,F(xiàn)統(tǒng)計量需要計算復(fù)雜的偏回歸平方和及剩余平方和,而t統(tǒng)計量只需要計算回歸系數(shù)的估計值及其估計量的標(biāo)準(zhǔn)差的古計量即可?,F(xiàn)代常用的統(tǒng)計軟件一般都會計算顯示回歸模型參數(shù)的t檢驗值,而很少會給出用于逐步回歸的F檢驗值,即便使用計算機(jī),F(xiàn)統(tǒng)計量也不易計算。本文考慮用t檢驗準(zhǔn)則替代F檢驗準(zhǔn)則對多元線性模型進(jìn)行逐步回歸,以簡化逐步回歸的計算過程。要實現(xiàn)這一目標(biāo),需分析逐步回歸中的F檢驗,并完成其與t檢驗的等價性的證明。
考慮含有k個解釋變量的線性總體回歸模型式(1)和普通最小二乘法(本文均在普通最小二乘法下討論樣本回歸模型)下的樣本回歸模型式(2):
首先定義總離差平方和TSS(Total Sum of Squares)、可解釋的平方和ESS(Explained Sum of Squares)和剩余平方和RSS(Residual Sum of Squares):
其中y^i=yi-μ^i為樣本擬合值,?為樣本均值,n為樣本容量。
再定義偏回歸平方和。不含xk的樣本回歸模型(為方便分析,在每一步對解釋變量的考察中,本文均以xk為研究代表)
設(shè)式(3)的可解釋的平方和為ESS*,剩余平方和為RSS*,則xk的偏回歸平方和定義為:
按此法即可定義其他解釋變量的偏回歸平方和。不難看出,ESSPk=RSS*-RSS。
逐步回歸中引入(剔除)解釋變量的標(biāo)準(zhǔn)是偏回歸平方和最大(最?。?。在某一引入步驟中,設(shè)模型中已含有k-1個解釋變量(全部顯著),需引入第k個解釋變量,原模型和引入變量之后的樣本模型即可分別表示為式(3)和式(2)。
這樣由第k個解釋變量xk的偏回歸平方和ESSPk構(gòu)造的F統(tǒng)計量為:
ESS和RSS分別是包含k個解釋變量xk的回歸模型的可解釋的平方和和剩余平方和,RSS*即為未引入新變量的原回歸模型的剩余平方和。接下來進(jìn)行F檢驗,以判斷解釋變量xk是否該引入到回歸模型中,檢驗過程不再詳述。
在某一剔除步驟中,設(shè)模型中已含有k個解釋變量(可能存在不顯著的解釋變量),找到偏回歸平方和最小的亦即最可能被剔除這個解釋變量,不妨設(shè)為xk,原模型和剔除變量之后的樣本模型即可表示為式(2)和式(3)。不難發(fā)現(xiàn),由xk的偏回歸平方和ESSPk構(gòu)造的F統(tǒng)計量與引入解釋變量過程中的F統(tǒng)計量(4)相同。和引入變量過程一樣,接下來進(jìn)行F檢驗,以判斷解釋變量xk是否該從回歸模型中剔除。
顯然,若能證明逐步回歸中的F檢驗與t檢驗是等價的,就可以將t檢驗引入到逐步回歸過程中?,F(xiàn)在討論t檢驗。
以解釋變量xk的顯著性檢驗為例,由其系數(shù)βk構(gòu)造的t統(tǒng)計量為:
命題1普通最小二乘法下,用于檢驗?zāi)匙兞匡@著性所構(gòu)造的t統(tǒng)計量的平方等于逐步回歸中用于判斷是否應(yīng)剔除(或引入)該變量的F檢驗所構(gòu)造的F統(tǒng)計量,即t2=F。
證明:仍以解釋變量xk為考察對象。利用OLS法得到xk的系數(shù)βk的估計量為[2]:
其方差估計量是:
rk是根據(jù)OLS法構(gòu)造的輔助回歸模型的殘差項。R2k是輔助回歸模型的樣本可決系數(shù):
考慮在模型中將xk剔除(或在只包含前(k-1)個解釋變量情形下引入),此時構(gòu)造的F統(tǒng)計量為:
再考慮關(guān)于xk的顯著性t檢驗。在βk=0的假設(shè)下有:
證畢。
由命題1即可得出下述命題2。
命題2 t統(tǒng)計量的平方服從第一自由度為1、第二自由度為n-k-1的F分布,即t2~F(1,n-k-1)。
在檢驗?zāi)骋粎?shù)的顯著性時,t檢驗進(jìn)行的是雙尾檢驗而F檢驗進(jìn)行的是右單尾檢驗,雖然兩類檢驗的拒絕域不同,但檢驗結(jié)論一致,這由命題3表述。
命題3當(dāng)t檢驗的臨界值取tα?xí)r,由命題1,F(xiàn)檢驗的臨界值當(dāng)取,此時兩類檢驗拒絕原假設(shè)的概率是相同的,即,其中t~t(n),F~F(1,n)。
證明:自由度為n的t分布的密度函數(shù)為[4]:
第一自由度為1,第二自由度為n的F分布的密度函數(shù)為:因此可得
證畢。
綜合命題1、2、3,不難得出結(jié)論:在普通最小二乘估計下,線性回歸模型的逐步回歸中的F檢驗與顯著性t檢驗是等價的。該結(jié)論是用t檢驗替代F檢驗來完成逐步回歸的依據(jù)。
依據(jù)以上所證明的結(jié)論——逐步回歸中所用到的F檢驗和參數(shù)顯著性t檢驗是等價的,可以考慮在逐步回歸中使用更便于計算的t檢驗。使用方法非常簡單,只需將逐步回歸中作為引入、剔除變量準(zhǔn)則的F檢驗替換為t檢驗即可。逐步回歸的參數(shù)求解方法在數(shù)學(xué)上稱為“求解求逆緊湊變化法”,其本質(zhì)仍是普通最小二乘法,只是在計算過程中考慮了引入、剔除變量的過程,將參數(shù)估計的每一步都通過矩陣運(yùn)算實現(xiàn)了。如果將原來的F檢驗替換成t檢驗,對“求解求逆緊湊變化法”計算原理和方法均無影響,模型參數(shù)估計可順利實現(xiàn)。在原逐步回歸中,引入或剔除變量的依據(jù)是變量的偏回歸平方和的大小,在同一引入或剔除的步驟中,偏回歸平方和的大小和F統(tǒng)計量的大小是一致的,即偏回歸平方和越大,F(xiàn)值越大,偏回歸平方和越小,F(xiàn)值越小。由于F統(tǒng)計量和t統(tǒng)計量存在對應(yīng)關(guān)系F=t2,因此t統(tǒng)計量的絕對值 ||t與偏回歸平方和也具有同向變動關(guān)系: ||t越大,偏回歸平方和越大, ||t越小偏回歸平方和越小。因此可以把 ||t作為引入和剔除變量的標(biāo)準(zhǔn)。原逐步回歸過程中構(gòu)造的第一個回歸模型是只引入一個解釋變量的一元回歸模型,當(dāng)改用t統(tǒng)計量作為變量引入、剔除的準(zhǔn)則后,為簡化計算步驟,首先構(gòu)造的是一個包含所有解釋變量的線性回歸模型,在該模型中尋找被剔除的變量,其標(biāo)準(zhǔn)是未通過顯著性t檢驗統(tǒng)計值的絕對值 ||t大小——選擇最小的一個剔除。剔除后重新構(gòu)造回歸模型,若仍有未通過t檢驗的變量,則繼續(xù)按上述標(biāo)準(zhǔn)剔除相應(yīng)的解釋變量,重新構(gòu)建模型——仿照原逐步回歸的思想重復(fù)引入、剔除的步驟,直到?jīng)]有變量被剔除、也沒有變量被引入為此。實踐證明,這種方法更簡便,更清晰。下面以“中國經(jīng)濟(jì)增長的影響因素分析”為例,說明這一實現(xiàn)過程。
根據(jù)經(jīng)濟(jì)理論,影響經(jīng)濟(jì)增長的主要因素有投資、消費(fèi)、進(jìn)出口等,還有一些影響因素如價格指數(shù)、能源消耗量、匯率等。筆者收集到了1990~2009年各年度的宏觀經(jīng)濟(jì)數(shù)據(jù),它們是:國內(nèi)生產(chǎn)總值(GDP)、居民消費(fèi)支出(REC)、財政支出(GC)、固定資產(chǎn)投資(INV)、出口總額(TTR)以及能源消耗量(POWER)、匯率(EXC)、居民消費(fèi)價格指數(shù)(CPI)等。為消除數(shù)據(jù)波動性和量綱不同的影響,將數(shù)據(jù)全部取自然底數(shù)對數(shù),以ln(GDP)為被解釋變量構(gòu)建對數(shù)回歸模型。
首先利用F檢驗下的逐步回歸法構(gòu)建出模型,這一步可以利用SPSS軟件完成。逐步回歸得到的最優(yōu)模型為:
模型中的s和t分別是對應(yīng)參數(shù)估計量的標(biāo)準(zhǔn)差和t檢驗統(tǒng)計量值。
下面以t檢驗方法對模型進(jìn)行逐步回歸。上述逐步回歸過程設(shè)置引入變量的F臨界值為3.84,剔除變量的F臨界值為2.71,因此以t檢驗為準(zhǔn)則的引入和剔除變量的臨界值分別為tentry==1.96,tremoval==1.65,即當(dāng)新引入的變量回歸系數(shù)的t統(tǒng)計量絕對值在所有新引入變量中最大且大于tentry=1.96時,則引入該變量,否則不引入;當(dāng)模型中存在回歸系數(shù)的t統(tǒng)計量絕對值最小且小于tremoval=1.65時,則剔除該回歸系數(shù)對應(yīng)的變量。首先將所有變量引入模型運(yùn)用EViews5.0估計模型參數(shù)得:
表1 1990~2009年中國部分宏觀經(jīng)濟(jì)數(shù)據(jù)
為節(jié)省篇幅,模型只寫出了t統(tǒng)計值??梢钥闯?,匯率對數(shù)ln(EXC)的t檢驗統(tǒng)計量-1.16為最小,其絕對值小于1.65,因此剔除該變量,重新估計回歸模型為:
顯然在這一步要剔除的變量為ln(POWER)。接下來是引入先前已被剔除的變量ln(EXC),引入后發(fā)現(xiàn)其t統(tǒng)計量絕對值仍是最小的,且小于剔除的臨界值1.65,因此不予引入。這樣構(gòu)造的回歸模型為:
該模型中應(yīng)該剔除的變量為ln(TTR)。再繼續(xù)引入已被剔除的模型,引入中發(fā)現(xiàn),任一被剔除的變量重新被引入后仍是不顯著的、需要再次剔除的變量。經(jīng)過引入、剔除等步驟后(具體模型略),最終得到無須引入也無須剔除變量的模型是:
顯然,這和F檢驗下的逐步回歸結(jié)果是一致的,說明了在實際應(yīng)用中運(yùn)用t檢驗準(zhǔn)則同樣可以完成逐步回歸。這個結(jié)果和經(jīng)濟(jì)理論中關(guān)于經(jīng)濟(jì)增長的三駕馬車的論點(diǎn)是不一致的,即理論上認(rèn)為影響經(jīng)濟(jì)增長的三大動力是消費(fèi)、投資、進(jìn)出口,而上述回歸結(jié)果卻顯示中國經(jīng)濟(jì)增長未受到進(jìn)出口的影響。這個結(jié)論顯然有悖于現(xiàn)實,究其原因,是由于逐步回歸計算過程的僵化——只通過所設(shè)置的臨界值(或顯著性水平)作為引入和剔除變量的唯一標(biāo)準(zhǔn),而忽視了現(xiàn)實的經(jīng)濟(jì)理論。t檢驗的逐步回歸雖然也存在同樣問題,但它也具有靈活性,可以及時更改錯誤信息。本例中在進(jìn)行t檢驗的逐步回歸時就發(fā)現(xiàn),進(jìn)出口也是一個重要影響因素,當(dāng)引入進(jìn)出口后,須剔除變量ln(CPI)。模型構(gòu)建如下:
其中l(wèi)n(TTR)回歸系數(shù)t檢驗的相伴概率僅為7.22%,相對較小。從各檢驗結(jié)果來看,該模型并無瑕疵,說明了影響GDP的主要因素有居民消費(fèi)、政府消費(fèi)、固定資產(chǎn)投資、進(jìn)出口。其中居民消費(fèi)的影響作用最大:居民消費(fèi)每增加1個百分點(diǎn),GDP平均增加0.79個百分點(diǎn);進(jìn)出口的影響作用最?。哼M(jìn)出口每增加1個百分點(diǎn),GDP平均增加0.04個百分點(diǎn)。從經(jīng)濟(jì)理論的角度來說,此模型比逐步回歸所構(gòu)造的模型更具說服力。因此,t檢驗下的逐步回歸較F檢驗下的逐步回歸更具靈活性。
F檢驗和t檢驗是經(jīng)典線性回歸模型中兩種重要的統(tǒng)計檢驗方法,根據(jù)文中所作研究可知,對逐步回歸過程中引入或剔除變量的檢驗標(biāo)準(zhǔn),可以使用t統(tǒng)計量,也可以構(gòu)造F統(tǒng)計量進(jìn)行F檢驗。論證發(fā)現(xiàn)這兩種檢驗方法是等價的。但相比較而言,t檢驗更直觀、便于理解,t統(tǒng)計量的計算較F統(tǒng)計量亦更簡單。由于逐步回歸中引入和剔除變量的依據(jù)是F檢驗,根據(jù)F檢驗和t檢驗的等價性,逐步回歸同樣可以使用t檢驗標(biāo)準(zhǔn)來完成,此時模型參數(shù)的求解方法仍使用“求解求逆緊湊變換法”。通??山柚谟嬎銠C(jī)來計算顯著性檢驗t值,據(jù)此即可直接判定是否引入或剔除變量。通過研究中國經(jīng)濟(jì)增長的影響因素,在驗證了t檢驗下的逐步回歸可行性的同時還發(fā)現(xiàn),傳統(tǒng)的F檢驗下的逐步回歸較為僵化,僅依據(jù)數(shù)字信息來判斷是否引入或剔除變量,忽略了經(jīng)濟(jì)理論的指導(dǎo)作用,從而可能得出有悖于現(xiàn)實的結(jié)論。而基于t檢驗的逐步回歸由于在每一步都需要構(gòu)造模型,因而更易發(fā)現(xiàn)模型可能存在的問題,能結(jié)合實際理論對模型進(jìn)行必要的修改和補(bǔ)充,更具靈活性。
[1] 周紀(jì)薌.實用回歸分析方法[M].上海:上??茖W(xué)技術(shù)出版社,1990.
[2] 伍德里奇.計量經(jīng)濟(jì)學(xué)導(dǎo)論:現(xiàn)代觀點(diǎn)[M].北京:清華大學(xué)出版社,2007.
[3] 何曉群.應(yīng)用回歸分析[M].北京:中國人民大學(xué)出版社,2007.
[4] 陳希孺,倪國熙.數(shù)理統(tǒng)計學(xué)教程[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2009.