曹玉茹
(上海對(duì)外經(jīng)貿(mào)大學(xué) 統(tǒng)計(jì)與信息學(xué)院,上海 201620)
在計(jì)量經(jīng)濟(jì)學(xué)的分析中,利用回歸模型來(lái)尋找經(jīng)濟(jì)變量間的關(guān)系是廣泛應(yīng)用的一種數(shù)量分析方法。通常情況下,回歸分析中變量都是定量數(shù)據(jù),原因是模擬回歸需要樣本數(shù)據(jù)。然而在實(shí)際的操作中,模型中只考慮定量變量是不全面的。因?yàn)楹芏嘟?jīng)濟(jì)現(xiàn)象不僅受一些定量數(shù)據(jù)的影響,還會(huì)受到一些定性數(shù)據(jù)的影響。比如自然災(zāi)害、戰(zhàn)爭(zhēng)等特殊時(shí)期對(duì)經(jīng)濟(jì)的影響,特殊政策的頒布對(duì)經(jīng)濟(jì)產(chǎn)生的影響等。如果能確定某一研究結(jié)果存在這種定性影響,那么僅僅用定量數(shù)據(jù)對(duì)被解釋變量進(jìn)行解釋顯然是不夠嚴(yán)謹(jǐn)?shù)?,很可能?duì)模型的預(yù)測(cè)結(jié)果產(chǎn)生很大偏差。但由于定性數(shù)據(jù)是不等距的,不符合回歸分析中對(duì)自變量要求,如果直接把定性數(shù)據(jù)直接引入線(xiàn)性回歸模型,結(jié)果很難解釋?zhuān)胰菀状嬖诤艽笃?,此時(shí)可以考慮將虛擬變量引入回歸模型來(lái)解決此類(lèi)問(wèn)題。而關(guān)于虛擬變量回歸在軟件中的實(shí)現(xiàn)卻不是非常方便,尤其對(duì)于各種加法和乘法規(guī)則的實(shí)現(xiàn),相應(yīng)的研究也不多,本文利用虛擬回歸模型與方差分析及協(xié)方差之間的關(guān)系,提出了一種基于SPSS軟件的虛擬變量回歸模型軟件實(shí)現(xiàn)的新方法,通過(guò)實(shí)際案例得到了較好的驗(yàn)證。
虛擬變量本質(zhì)上算不上一種變量類(lèi)型(如連續(xù)性變量分類(lèi)型變量),虛擬變量技術(shù)就是把多分類(lèi)型變量轉(zhuǎn)換成二分類(lèi)型變量,即虛擬化,再把其作為解釋變量納入到回歸模型中的一種方法。如果多分類(lèi)變量有k個(gè)類(lèi)別,則可以轉(zhuǎn)化為k-1個(gè)二分變量。每個(gè)二分變量用0,1賦值,1表示受到某種因素影響,0表示沒(méi)有受某種因素影響。一般將基礎(chǔ)類(lèi)、肯定類(lèi)設(shè)置為1;比較類(lèi)、否定類(lèi)設(shè)置為0的原則。虛擬化后的變量將可以直接納入回歸模型進(jìn)行分析和預(yù)測(cè)。
在實(shí)際數(shù)據(jù)分析中,如果不去考慮具體的模型結(jié)構(gòu)和預(yù)測(cè)問(wèn)題,關(guān)于影響因素的顯著性問(wèn)題可以使用協(xié)方差分析來(lái)解釋?zhuān)渲邪讯ㄐ砸蛩刈鳛楣潭ㄒ蛩?,定量因素作為協(xié)因素考慮,其結(jié)論主要解釋定量變量的影響效果。但如果進(jìn)一步想了解定性因素對(duì)結(jié)果影響程度的大小,一種解決方法是分組進(jìn)行兩類(lèi)情況的回歸,檢驗(yàn)參數(shù)是否顯著不同,這種方法一方面計(jì)算比較繁瑣,最重要的是它割裂了變量之間具有交互影響的情況,所以不全面;還有一種方法就是用全部變量作單一回歸,其中包含定量數(shù)據(jù)也包含定類(lèi)數(shù)據(jù),從應(yīng)用的角度出發(fā),如何將這種轉(zhuǎn)換的理論利用統(tǒng)計(jì)軟件實(shí)現(xiàn)驗(yàn)證,這正是本文討論的問(wèn)題。
鑒于虛擬變量回歸和方差分析的密切關(guān)系[1],本文將方差與協(xié)方差分析的結(jié)果應(yīng)用到虛擬變量回歸中,反推出虛擬變量回歸模型的具體形式,并提取出更多的信息。設(shè)因素有k個(gè)總體或水平,檢驗(yàn)k個(gè)總體的均值是否相等,提出如下假設(shè):
假設(shè)有三個(gè)總體A B C,虛擬變量設(shè)置如下:
虛擬變量模型為:
對(duì)模型(2)求期望:
當(dāng)X1t=X2t=0時(shí),E(y)=β0即總體C的均值E(C)。
當(dāng) X2t=0時(shí),E(y)=β0+β1即總體 A 的均值 E(C)'β1為總體A與C的均值差。
當(dāng) X1t=0時(shí),E(y)=β0+β2即總體B的均值 E(C)'β2為總體B與C的均值差。
則單因素方差分析的假設(shè)(1)等價(jià)于:
H1:β1'β2至少有一個(gè)不等于0,即虛擬變量模型中的總體顯著性F檢驗(yàn)。
關(guān)于單因素方差分析中的多重比較指的是通過(guò)對(duì)總體均值之間的配對(duì)比較來(lái)進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異,常用最小二乘法(LSD)來(lái)解釋。
從上面的分析可以看出:虛擬自變量回歸分析中的線(xiàn)性關(guān)系是否顯著問(wèn)題與單因素方差分析中的因素的顯著性描述是完全一致的,也就是說(shuō)單因素方差分析問(wèn)題可以用回歸分析方法解決,反之自變量都是0-1型虛擬變量的回歸分析問(wèn)題也可以用方差分析的思路來(lái)解決問(wèn)題。
在文獻(xiàn)[2]中作者已經(jīng)證明了行列因素分別為雙水平的雙因素?zé)o重復(fù)試驗(yàn)方差分析問(wèn)題在判斷行列因素是否有影響的F檢驗(yàn)中等價(jià)于回歸分析問(wèn)題中的系數(shù)顯著性的t檢驗(yàn)。
一種情況是:回歸模型中只包含虛擬變量作為解釋變量。比如要分析A校的本科畢業(yè)生與B校的本科畢業(yè)生在收入上是否存在顯著差異,則可以設(shè)模型為:
其中Y1為收入變量,Dt為畢業(yè)學(xué)校的虛擬變量,當(dāng)數(shù)據(jù)來(lái)源是A校畢業(yè)生時(shí)Dt為1,反之為0,當(dāng)選擇工作年數(shù)相同的樣本分析,在滿(mǎn)足各種檢驗(yàn)的條件下參數(shù)B2的估計(jì)值就是兩種畢業(yè)生收入的平均差異。如果解釋變量是多分類(lèi)的(假設(shè)有N類(lèi)),以某一個(gè)特征為參考可以設(shè)置N-1個(gè)虛擬變量。在SPSS數(shù)據(jù)分析模塊中,此模型實(shí)質(zhì)等同于單因素方差分析模型或者均值比較模型,即可以使用方差分析給出是否存在差異性的解決方案,但如果要對(duì)兩校畢業(yè)生的收入作預(yù)測(cè)則最好使用回歸分析模型。
如果模型中想要同時(shí)分析多個(gè)定性變量的影響,比如在上述分析中加入性別因素的影響,此時(shí)可以用兩個(gè)虛擬變量。對(duì)于每個(gè)虛擬變量的取值仍然是0或1,如果是男生虛擬變量D2t取值為1,否則為0。模型為:
此模型說(shuō)明相同性別中A校比B校畢業(yè)生的收入高B2,相同學(xué)校,性別男的收入比性別女的收入高B3。
但上面的模型隱含了一個(gè)假設(shè)條件就是:兩校畢業(yè)生之間性別的級(jí)差效應(yīng)保持不變,在兩種性別之間學(xué)校的級(jí)差效應(yīng)保持不變。這種假設(shè)顯然是有問(wèn)題的,A校的男性和女性在收入方面的差距和B校的男女生收入差距可能不一樣,這就存在所謂的交互效應(yīng),簡(jiǎn)單來(lái)講,就是說(shuō)不同學(xué)校和性別這兩個(gè)因素對(duì)于收入的影響不是獨(dú)立的,而是互相影響,也即有交互效應(yīng)。所以模型應(yīng)該修改為:
至于模型的選擇取決于模型檢驗(yàn)的結(jié)果,如擬合優(yōu)度,標(biāo)準(zhǔn)誤差大小,自變量的顯著性以及考慮自變量之間的共線(xiàn)性問(wèn)題是否影響模型精度。
假如定量變量X和定量變量Y存在顯著的相關(guān)關(guān)系,同時(shí)發(fā)現(xiàn)還有一個(gè)定性因素對(duì)Y的變動(dòng)產(chǎn)生影響,此時(shí)可以建立一個(gè)如下的回歸模型:
此模型采用加法方式引入虛擬變量,主要描述截距的變換,模型表明:在不考慮定性因素影響的情況下,常數(shù)項(xiàng)即模型的截距為B1,在考慮定性因素的情況下,模型的截距為B1+B2。但此模型僅考慮了定性變量的單獨(dú)影響,而實(shí)際中由于定性變量不同相應(yīng)的定量變量對(duì)應(yīng)變量的影響有所不同,即可能存在交互影響,因此模型可修改為:
下面通過(guò)實(shí)例驗(yàn)證說(shuō)明虛擬自變量回歸在統(tǒng)計(jì)軟件SPSS中實(shí)現(xiàn)的新方法:
利用spss自帶的數(shù)據(jù)文件Employee.sav研究企業(yè)的當(dāng)前工資水平與哪些因素相關(guān),及其具體的的影響程度問(wèn)題為例,分析基于虛擬變量的回歸模型的spss實(shí)現(xiàn)方法研究?;谔摂M變量回歸模型的spss代碼實(shí)現(xiàn):
RECODE jobcat(1=1)(ELSE=0)INTO cat1.
RECODE jobcat(3=1)(ELSE=0)INTO cat2.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(0.05)POUT(0.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=STEPWISE educ jobcat salbegin jobtime prevexp minority cat1 cat2
/SAVE ZRESID.
EXECUTE.
注:cat1和cat2是jobcat變量的兩個(gè)虛擬自變量,其中cat1表示是否為Clerical(辦事員),cat2為是否為Maneger(經(jīng)理)。模型指標(biāo)結(jié)果如表1。
表1 模型綜述表g
模型擬合優(yōu)度0.839,估計(jì)誤差6850.294,DW參數(shù)為1.832。
基于協(xié)方差分析的SPSS實(shí)現(xiàn)及其結(jié)果(表2):
表2 模型綜述表
UNIANOVA salary BY jobcat minority WITH edu csalbegin jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/CRITERIA=ALPHA(0.05)
/DESIGN=educ salbegin jobtime prevexp jobcat minority jobcat*minority.
EXECUTE.
在前面的無(wú)交互虛擬變量模型中minority對(duì)因變量不存在顯著影響,但是這里顯然可以看出jobcat與minority之間存在對(duì)結(jié)果影響的交互作用,這點(diǎn)啟發(fā)我們對(duì)于原來(lái)的虛擬變量回歸模型做進(jìn)一步修改,添加交互效應(yīng)到模型中。
進(jìn)一步通過(guò)虛擬自變量完成協(xié)方差分析及相應(yīng)結(jié)果(表3):
表3 自定義模型綜述表(含交互)
UNIANOVA salary BY minority cat1 cat2 WITH educsalbegin jobtime prevexp
/METHOD=SSTYPE(3)
/INTERCEPT=INCLUDE
/CRITERIA=ALPHA(0.05)
/DESIGN=educ salbegin jobtime prevexp minority cat1 cat2 minority*cat1 minority*cat2 cat1*cat2 minority*cat1*cat2.
EXECUTE.
即cat2與minority之間存在對(duì)結(jié)果影響的交互作用,這點(diǎn)啟發(fā)我們對(duì)于原來(lái)的虛擬變量回歸模型做進(jìn)一步修改,添加交互效應(yīng)到模型中。根據(jù)上述分析可以考慮利用虛擬變量模型公式(5)進(jìn)行分析,具體操作如下,首先得到交互項(xiàng)cat2m。
COMPUTE cat2m=cat2*minority
然后利用非參數(shù)檢驗(yàn)證明虛擬變量的乘積cat2m是對(duì)因變量顯著影響的,方法結(jié)果(表4和表5):
NPAR TESTS
/M-W=salary BY cat2m(0 1)
/K-S=salary BY cat2m(0 1)
/MISSING ANALYSIS.
EXECUTE.
表4 非參數(shù)檢驗(yàn)結(jié)果a
表5 非參數(shù)檢驗(yàn)結(jié)果a
再利用公式(5)及回歸分析模型得到如下結(jié)果(下頁(yè)表6):
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS R ANOVA
/CRITERIA=PIN(.05)POUT(.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=STEPWISE educ salbegin jobtime prevexp minority cat1 cat2 cat2m
/RESIDUALS DURBIN
/SAVE ZRESID.
EXECUTE.
同時(shí)得到具體的虛擬變量回歸模型為:
Y=0.646*salbegin-0.145*prevexp+0.096*jobtime-0.237*cat1+0.113*educ+0.053*cat2m
結(jié)果得到模型擬合優(yōu)度0.841,估計(jì)誤差6808.709,DW參數(shù)為1.830,模型參數(shù)得到改善。且通過(guò)模型得知辦事員的當(dāng)前工資水平較其他類(lèi)別員工要低一些,這也符合實(shí)際情況。
表6 模型綜述表i
進(jìn)一步利用繪圖程序如下完成標(biāo)準(zhǔn)化殘差震動(dòng)情況對(duì)比。其中,虛線(xiàn)表示無(wú)交互虛擬變量回歸模型標(biāo)準(zhǔn)化殘差的震動(dòng)情況,實(shí)線(xiàn)表示新方法得到的虛擬變量回歸模型的標(biāo)準(zhǔn)化殘差震動(dòng)情況,得到明顯改善。見(jiàn)圖1。
*Sequence Charts.
TSPLOT VARIABLES=ZRE_1 ZRE_2
/NOLOG.
圖1 兩種模型序列圖對(duì)比
因此,從表7中可以看出無(wú)論是模型的擬合優(yōu)度、估計(jì)誤差還是從模型殘差的震動(dòng)情況來(lái)看,經(jīng)過(guò)改良后的虛擬變量交互回歸模型的效果更好,更適宜于預(yù)測(cè)估計(jì)。相比較協(xié)方差分析的參數(shù)情況,雖然擬合度更高,殘差標(biāo)準(zhǔn)差也更小,但在SPSS中方差分析只給出因素重要性指標(biāo),不能直接給出模型的具體公式,對(duì)于利用模型進(jìn)一步預(yù)測(cè)來(lái)說(shuō)很不方便,因此實(shí)用性并不如虛擬變量回歸模型好。
表7 三種模型估計(jì)指標(biāo)匯總對(duì)比
綜上所述,在虛擬變量回歸模型分析中,可以結(jié)合方差協(xié)方差分析結(jié)果,對(duì)虛擬回歸模型的實(shí)現(xiàn)方法進(jìn)行改進(jìn),從而得到更優(yōu)化的模型參數(shù)和估計(jì)效果。
考慮到經(jīng)濟(jì)現(xiàn)象的復(fù)雜性,定性因素的影響非常多,其影響的程度也有所不同,因此要判斷模型中何時(shí)要加入虛擬變量,采用何種方式加入,首先必須根據(jù)實(shí)際的經(jīng)濟(jì)背景并運(yùn)用正確的經(jīng)濟(jì)理論進(jìn)行分析,其次在引入虛擬變量的前后模型的模擬結(jié)果進(jìn)行比較,如果回歸的擬合優(yōu)度或估計(jì)標(biāo)準(zhǔn)誤差等效果更好,則可考慮增加虛擬變量;最后如果能結(jié)合方差、協(xié)方差分析模型并利用SPSS軟件來(lái)分析考慮交互因素的作用,將會(huì)得到更好的回歸結(jié)果。本文通過(guò)具體的示例展示了這種研究方法的優(yōu)點(diǎn)。
[1]甘倫知.虛擬變量回歸和方差分析的聯(lián)系[J].統(tǒng)計(jì)與決策,2011,(8).
[2]陳凌宇,王桂明.虛擬變量在方差分析中的應(yīng)用[J].統(tǒng)計(jì)與決策,2009,(11).
[3]章曉英.虛擬變量在線(xiàn)性回歸模型中的應(yīng)用[J].重慶工業(yè)管理學(xué)院學(xué)報(bào),1998,(4).
[4]劉振亞.計(jì)量經(jīng)濟(jì)學(xué)教程[M].北京:中國(guó)人民大學(xué)出版社,1997.
[5]龐皓.計(jì)量經(jīng)濟(jì)學(xué)[M].成都:西南財(cái)經(jīng)大學(xué)出版社,2004.
[6]賈俊平.統(tǒng)計(jì)學(xué)[M].北京:中國(guó)人民大學(xué)出版社,2007.