亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

虛擬變量回歸在SPSS中的分析與實(shí)現(xiàn)

2018-06-15 06:46:48曹玉茹

統(tǒng)計(jì)與決策 2018年10期

曹玉茹

（上海對(duì)外經(jīng)貿(mào)大學(xué) 統(tǒng)計(jì)與信息學(xué)院，上海 201620）

0 引言

在計(jì)量經(jīng)濟(jì)學(xué)的分析中，利用回歸模型來(lái)尋找經(jīng)濟(jì)變量間的關(guān)系是廣泛應(yīng)用的一種數(shù)量分析方法。通常情況下，回歸分析中變量都是定量數(shù)據(jù)，原因是模擬回歸需要樣本數(shù)據(jù)。然而在實(shí)際的操作中，模型中只考慮定量變量是不全面的。因?yàn)楹芏嘟?jīng)濟(jì)現(xiàn)象不僅受一些定量數(shù)據(jù)的影響，還會(huì)受到一些定性數(shù)據(jù)的影響。比如自然災(zāi)害、戰(zhàn)爭(zhēng)等特殊時(shí)期對(duì)經(jīng)濟(jì)的影響，特殊政策的頒布對(duì)經(jīng)濟(jì)產(chǎn)生的影響等。如果能確定某一研究結(jié)果存在這種定性影響，那么僅僅用定量數(shù)據(jù)對(duì)被解釋變量進(jìn)行解釋顯然是不夠嚴(yán)謹(jǐn)?shù)?，很可能?duì)模型的預(yù)測(cè)結(jié)果產(chǎn)生很大偏差。但由于定性數(shù)據(jù)是不等距的，不符合回歸分析中對(duì)自變量要求，如果直接把定性數(shù)據(jù)直接引入線(xiàn)性回歸模型，結(jié)果很難解釋?zhuān)胰菀状嬖诤艽笃?，此時(shí)可以考慮將虛擬變量引入回歸模型來(lái)解決此類(lèi)問(wèn)題。而關(guān)于虛擬變量回歸在軟件中的實(shí)現(xiàn)卻不是非常方便，尤其對(duì)于各種加法和乘法規(guī)則的實(shí)現(xiàn)，相應(yīng)的研究也不多，本文利用虛擬回歸模型與方差分析及協(xié)方差之間的關(guān)系，提出了一種基于SPSS軟件的虛擬變量回歸模型軟件實(shí)現(xiàn)的新方法，通過(guò)實(shí)際案例得到了較好的驗(yàn)證。

1 虛擬變量回歸模型和方差分析的關(guān)系

虛擬變量本質(zhì)上算不上一種變量類(lèi)型（如連續(xù)性變量分類(lèi)型變量），虛擬變量技術(shù)就是把多分類(lèi)型變量轉(zhuǎn)換成二分類(lèi)型變量，即虛擬化，再把其作為解釋變量納入到回歸模型中的一種方法。如果多分類(lèi)變量有k個(gè)類(lèi)別，則可以轉(zhuǎn)化為k-1個(gè)二分變量。每個(gè)二分變量用0,1賦值，1表示受到某種因素影響，0表示沒(méi)有受某種因素影響。一般將基礎(chǔ)類(lèi)、肯定類(lèi)設(shè)置為1；比較類(lèi)、否定類(lèi)設(shè)置為0的原則。虛擬化后的變量將可以直接納入回歸模型進(jìn)行分析和預(yù)測(cè)。

在實(shí)際數(shù)據(jù)分析中，如果不去考慮具體的模型結(jié)構(gòu)和預(yù)測(cè)問(wèn)題，關(guān)于影響因素的顯著性問(wèn)題可以使用協(xié)方差分析來(lái)解釋?zhuān)渲邪讯ㄐ砸蛩刈鳛楣潭ㄒ蛩?，定量因素作為協(xié)因素考慮，其結(jié)論主要解釋定量變量的影響效果。但如果進(jìn)一步想了解定性因素對(duì)結(jié)果影響程度的大小，一種解決方法是分組進(jìn)行兩類(lèi)情況的回歸，檢驗(yàn)參數(shù)是否顯著不同，這種方法一方面計(jì)算比較繁瑣，最重要的是它割裂了變量之間具有交互影響的情況，所以不全面；還有一種方法就是用全部變量作單一回歸，其中包含定量數(shù)據(jù)也包含定類(lèi)數(shù)據(jù)，從應(yīng)用的角度出發(fā)，如何將這種轉(zhuǎn)換的理論利用統(tǒng)計(jì)軟件實(shí)現(xiàn)驗(yàn)證，這正是本文討論的問(wèn)題。

鑒于虛擬變量回歸和方差分析的密切關(guān)系[1]，本文將方差與協(xié)方差分析的結(jié)果應(yīng)用到虛擬變量回歸中，反推出虛擬變量回歸模型的具體形式，并提取出更多的信息。設(shè)因素有k個(gè)總體或水平，檢驗(yàn)k個(gè)總體的均值是否相等，提出如下假設(shè)：

假設(shè)有三個(gè)總體A B C,虛擬變量設(shè)置如下:

虛擬變量模型為:

對(duì)模型（2）求期望：

當(dāng)X1t=X2t=0時(shí)，E(y)=β0即總體C的均值E(C)。

當(dāng) X2t=0時(shí)，E(y)=β0+β1即總體 A 的均值 E(C)'β1為總體A與C的均值差。

當(dāng) X1t=0時(shí)，E(y)=β0+β2即總體B的均值 E(C)'β2為總體B與C的均值差。

則單因素方差分析的假設(shè)（1）等價(jià)于：

H1:β1'β2至少有一個(gè)不等于0，即虛擬變量模型中的總體顯著性F檢驗(yàn)。

關(guān)于單因素方差分析中的多重比較指的是通過(guò)對(duì)總體均值之間的配對(duì)比較來(lái)進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異,常用最小二乘法（LSD）來(lái)解釋。

從上面的分析可以看出：虛擬自變量回歸分析中的線(xiàn)性關(guān)系是否顯著問(wèn)題與單因素方差分析中的因素的顯著性描述是完全一致的，也就是說(shuō)單因素方差分析問(wèn)題可以用回歸分析方法解決，反之自變量都是0-1型虛擬變量的回歸分析問(wèn)題也可以用方差分析的思路來(lái)解決問(wèn)題。

在文獻(xiàn)[2]中作者已經(jīng)證明了行列因素分別為雙水平的雙因素?zé)o重復(fù)試驗(yàn)方差分析問(wèn)題在判斷行列因素是否有影響的F檢驗(yàn)中等價(jià)于回歸分析問(wèn)題中的系數(shù)顯著性的t檢驗(yàn)。

2 虛擬變量回歸模型分類(lèi)

2.1 單一虛擬變量的回歸模型[3]

一種情況是：回歸模型中只包含虛擬變量作為解釋變量。比如要分析A校的本科畢業(yè)生與B校的本科畢業(yè)生在收入上是否存在顯著差異，則可以設(shè)模型為：

其中Y1為收入變量，Dt為畢業(yè)學(xué)校的虛擬變量，當(dāng)數(shù)據(jù)來(lái)源是A校畢業(yè)生時(shí)Dt為1，反之為0，當(dāng)選擇工作年數(shù)相同的樣本分析，在滿(mǎn)足各種檢驗(yàn)的條件下參數(shù)B2的估計(jì)值就是兩種畢業(yè)生收入的平均差異。如果解釋變量是多分類(lèi)的（假設(shè)有N類(lèi)），以某一個(gè)特征為參考可以設(shè)置N-1個(gè)虛擬變量。在SPSS數(shù)據(jù)分析模塊中，此模型實(shí)質(zhì)等同于單因素方差分析模型或者均值比較模型，即可以使用方差分析給出是否存在差異性的解決方案，但如果要對(duì)兩校畢業(yè)生的收入作預(yù)測(cè)則最好使用回歸分析模型。

2.2 多個(gè)虛擬變量的回歸模型[4]

如果模型中想要同時(shí)分析多個(gè)定性變量的影響，比如在上述分析中加入性別因素的影響，此時(shí)可以用兩個(gè)虛擬變量。對(duì)于每個(gè)虛擬變量的取值仍然是0或1，如果是男生虛擬變量D2t取值為1，否則為0。模型為：

此模型說(shuō)明相同性別中A校比B校畢業(yè)生的收入高B2，相同學(xué)校，性別男的收入比性別女的收入高B3。

但上面的模型隱含了一個(gè)假設(shè)條件就是：兩校畢業(yè)生之間性別的級(jí)差效應(yīng)保持不變，在兩種性別之間學(xué)校的級(jí)差效應(yīng)保持不變。這種假設(shè)顯然是有問(wèn)題的，A校的男性和女性在收入方面的差距和B校的男女生收入差距可能不一樣，這就存在所謂的交互效應(yīng)，簡(jiǎn)單來(lái)講，就是說(shuō)不同學(xué)校和性別這兩個(gè)因素對(duì)于收入的影響不是獨(dú)立的，而是互相影響，也即有交互效應(yīng)。所以模型應(yīng)該修改為：

至于模型的選擇取決于模型檢驗(yàn)的結(jié)果，如擬合優(yōu)度，標(biāo)準(zhǔn)誤差大小，自變量的顯著性以及考慮自變量之間的共線(xiàn)性問(wèn)題是否影響模型精度。

2.3 復(fù)合類(lèi)型變量回歸模型[5，6]

假如定量變量X和定量變量Y存在顯著的相關(guān)關(guān)系，同時(shí)發(fā)現(xiàn)還有一個(gè)定性因素對(duì)Y的變動(dòng)產(chǎn)生影響，此時(shí)可以建立一個(gè)如下的回歸模型：

此模型采用加法方式引入虛擬變量，主要描述截距的變換，模型表明：在不考慮定性因素影響的情況下，常數(shù)項(xiàng)即模型的截距為B1，在考慮定性因素的情況下，模型的截距為B1+B2。但此模型僅考慮了定性變量的單獨(dú)影響，而實(shí)際中由于定性變量不同相應(yīng)的定量變量對(duì)應(yīng)變量的影響有所不同，即可能存在交互影響，因此模型可修改為：

2.4 基于SPSS軟件的模型實(shí)現(xiàn)

下面通過(guò)實(shí)例驗(yàn)證說(shuō)明虛擬自變量回歸在統(tǒng)計(jì)軟件SPSS中實(shí)現(xiàn)的新方法：

利用spss自帶的數(shù)據(jù)文件Employee.sav研究企業(yè)的當(dāng)前工資水平與哪些因素相關(guān)，及其具體的的影響程度問(wèn)題為例，分析基于虛擬變量的回歸模型的spss實(shí)現(xiàn)方法研究?；谔摂M變量回歸模型的spss代碼實(shí)現(xiàn)：

RECODE jobcat(1=1)(ELSE=0)INTO cat1.

RECODE jobcat(3=1)(ELSE=0)INTO cat2.

REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA

/CRITERIA=PIN(0.05)POUT(0.10)

/NOORIGIN

/DEPENDENT salary

/METHOD=STEPWISE educ jobcat salbegin jobtime prevexp minority cat1 cat2

/SAVE ZRESID.

EXECUTE.

注：cat1和cat2是jobcat變量的兩個(gè)虛擬自變量，其中cat1表示是否為Clerical(辦事員)，cat2為是否為Maneger(經(jīng)理)。模型指標(biāo)結(jié)果如表1。

表1 模型綜述表g

模型擬合優(yōu)度0.839，估計(jì)誤差6850.294，DW參數(shù)為1.832。

基于協(xié)方差分析的SPSS實(shí)現(xiàn)及其結(jié)果（表2）：

表2 模型綜述表

UNIANOVA salary BY jobcat minority WITH edu csalbegin jobtime prevexp

/METHOD=SSTYPE(3)

/INTERCEPT=INCLUDE

/CRITERIA=ALPHA(0.05)

/DESIGN=educ salbegin jobtime prevexp jobcat minority jobcat*minority.

EXECUTE.

在前面的無(wú)交互虛擬變量模型中minority對(duì)因變量不存在顯著影響，但是這里顯然可以看出jobcat與minority之間存在對(duì)結(jié)果影響的交互作用，這點(diǎn)啟發(fā)我們對(duì)于原來(lái)的虛擬變量回歸模型做進(jìn)一步修改，添加交互效應(yīng)到模型中。

進(jìn)一步通過(guò)虛擬自變量完成協(xié)方差分析及相應(yīng)結(jié)果（表3）：

表3 自定義模型綜述表（含交互）

UNIANOVA salary BY minority cat1 cat2 WITH educsalbegin jobtime prevexp

/METHOD=SSTYPE(3)

/INTERCEPT=INCLUDE

/CRITERIA=ALPHA(0.05)

/DESIGN=educ salbegin jobtime prevexp minority cat1 cat2 minority*cat1 minority*cat2 cat1*cat2 minority*cat1*cat2.

EXECUTE.

即cat2與minority之間存在對(duì)結(jié)果影響的交互作用，這點(diǎn)啟發(fā)我們對(duì)于原來(lái)的虛擬變量回歸模型做進(jìn)一步修改，添加交互效應(yīng)到模型中。根據(jù)上述分析可以考慮利用虛擬變量模型公式（5）進(jìn)行分析，具體操作如下，首先得到交互項(xiàng)cat2m。

COMPUTE cat2m=cat2*minority

然后利用非參數(shù)檢驗(yàn)證明虛擬變量的乘積cat2m是對(duì)因變量顯著影響的，方法結(jié)果（表4和表5）：

NPAR TESTS

/M-W=salary BY cat2m(0 1)

/K-S=salary BY cat2m(0 1)

/MISSING ANALYSIS.

EXECUTE.

表4 非參數(shù)檢驗(yàn)結(jié)果a

表5 非參數(shù)檢驗(yàn)結(jié)果a

再利用公式（5）及回歸分析模型得到如下結(jié)果（下頁(yè)表6）：

REGRESSION

/MISSING LISTWISE

/STATISTICS COEFF OUTS R ANOVA

/CRITERIA=PIN(.05)POUT(.10)

/NOORIGIN

/DEPENDENT salary

/METHOD=STEPWISE educ salbegin jobtime prevexp minority cat1 cat2 cat2m

/RESIDUALS DURBIN

/SAVE ZRESID.

EXECUTE.

同時(shí)得到具體的虛擬變量回歸模型為：

Y=0.646*salbegin-0.145*prevexp+0.096*jobtime-0.237*cat1+0.113*educ+0.053*cat2m

結(jié)果得到模型擬合優(yōu)度0.841，估計(jì)誤差6808.709，DW參數(shù)為1.830，模型參數(shù)得到改善。且通過(guò)模型得知辦事員的當(dāng)前工資水平較其他類(lèi)別員工要低一些，這也符合實(shí)際情況。

表6 模型綜述表i

進(jìn)一步利用繪圖程序如下完成標(biāo)準(zhǔn)化殘差震動(dòng)情況對(duì)比。其中，虛線(xiàn)表示無(wú)交互虛擬變量回歸模型標(biāo)準(zhǔn)化殘差的震動(dòng)情況，實(shí)線(xiàn)表示新方法得到的虛擬變量回歸模型的標(biāo)準(zhǔn)化殘差震動(dòng)情況，得到明顯改善。見(jiàn)圖1。

*Sequence Charts.

TSPLOT VARIABLES=ZRE_1 ZRE_2

/NOLOG.

圖1 兩種模型序列圖對(duì)比

因此，從表7中可以看出無(wú)論是模型的擬合優(yōu)度、估計(jì)誤差還是從模型殘差的震動(dòng)情況來(lái)看，經(jīng)過(guò)改良后的虛擬變量交互回歸模型的效果更好，更適宜于預(yù)測(cè)估計(jì)。相比較協(xié)方差分析的參數(shù)情況，雖然擬合度更高，殘差標(biāo)準(zhǔn)差也更小，但在SPSS中方差分析只給出因素重要性指標(biāo)，不能直接給出模型的具體公式，對(duì)于利用模型進(jìn)一步預(yù)測(cè)來(lái)說(shuō)很不方便，因此實(shí)用性并不如虛擬變量回歸模型好。

表7 三種模型估計(jì)指標(biāo)匯總對(duì)比

綜上所述，在虛擬變量回歸模型分析中，可以結(jié)合方差協(xié)方差分析結(jié)果，對(duì)虛擬回歸模型的實(shí)現(xiàn)方法進(jìn)行改進(jìn)，從而得到更優(yōu)化的模型參數(shù)和估計(jì)效果。

3 結(jié)論

考慮到經(jīng)濟(jì)現(xiàn)象的復(fù)雜性，定性因素的影響非常多，其影響的程度也有所不同，因此要判斷模型中何時(shí)要加入虛擬變量，采用何種方式加入，首先必須根據(jù)實(shí)際的經(jīng)濟(jì)背景并運(yùn)用正確的經(jīng)濟(jì)理論進(jìn)行分析，其次在引入虛擬變量的前后模型的模擬結(jié)果進(jìn)行比較，如果回歸的擬合優(yōu)度或估計(jì)標(biāo)準(zhǔn)誤差等效果更好，則可考慮增加虛擬變量；最后如果能結(jié)合方差、協(xié)方差分析模型并利用SPSS軟件來(lái)分析考慮交互因素的作用，將會(huì)得到更好的回歸結(jié)果。本文通過(guò)具體的示例展示了這種研究方法的優(yōu)點(diǎn)。

[1]甘倫知.虛擬變量回歸和方差分析的聯(lián)系[J].統(tǒng)計(jì)與決策，2011，（8）.

[2]陳凌宇,王桂明.虛擬變量在方差分析中的應(yīng)用[J].統(tǒng)計(jì)與決策，2009，（11）.

[3]章曉英.虛擬變量在線(xiàn)性回歸模型中的應(yīng)用[J].重慶工業(yè)管理學(xué)院學(xué)報(bào)，1998，（4）.

[4]劉振亞.計(jì)量經(jīng)濟(jì)學(xué)教程[M].北京:中國(guó)人民大學(xué)出版社,1997.

[5]龐皓.計(jì)量經(jīng)濟(jì)學(xué)[M].成都：西南財(cái)經(jīng)大學(xué)出版社，2004.

[6]賈俊平.統(tǒng)計(jì)學(xué)[M].北京:中國(guó)人民大學(xué)出版社,2007.