○ 文/李國柱 李子寧 李從欣
文章梳理了面板數(shù)據(jù)尤其是短面板數(shù)據(jù)的估計方法,提出了用SPSS軟件進行了混合回歸、組間估計、組內估計、一階差分估計、最小二乘虛擬變量估計的操作流程,并與STATA軟件的估計結果進行了對比。結果證實,用SPSS估計面板數(shù)據(jù)可以得到與STATA完全相同的結果,拓展了SPSS軟件的使用范圍。
SPSS是世界上應用最廣泛的統(tǒng)計軟件之一,其特點是操作簡單、統(tǒng)計方法比較齊全,在視窗版軟件中得到廣大用戶的認可。但SPSS軟件也有一個大的缺點,其包括的統(tǒng)計方法主要是基于截面數(shù)據(jù)的統(tǒng)計方法,在時間序列數(shù)據(jù)方面僅包括自相關圖、互相關圖、專家建模器等,沒有單位根檢驗、協(xié)整分析、向量自回歸模型等估計方法,而對于面板數(shù)據(jù)更是絲毫沒有涉及。面板數(shù)據(jù)由于可以解決遺漏變量問題、提供更多動態(tài)行為信息以及使樣本容量增大,在實證研究中得到越來越廣泛的應用。那么能否用SPSS進行面板數(shù)據(jù)分析呢?雖然不能直接估計,但只要熟知面板數(shù)據(jù)的估計方法,通過適當?shù)牟僮?,SPSS也可以估計面板數(shù)據(jù)。
SPSS默認輸入的是截面數(shù)據(jù),當輸入時間序列數(shù)據(jù)時,必須首先通過“數(shù)據(jù)/定義日期”過程定義時間變量,然后通過“轉換/創(chuàng)建時間序列”功能創(chuàng)建一個新的時間序列。而對于面板數(shù)據(jù),可采用類似STATA軟件的輸入方式,除包括建模的變量外,還需要創(chuàng)建一個日期變量和截面變量。本文以2010-2017年我國31個?。ㄗ灾螀^(qū)、直轄市)的數(shù)據(jù)為例,說明面板數(shù)據(jù)的輸入方法以及各種估計方法。
SPSS面板數(shù)據(jù)輸入格式
假定要分析投資對國內生產總值的影響,需要在SPSS中新建四個變量,其中province代表不同的省份(即截面單元),year代表年份(即時間單元),gdp代表國內生產總值,invest代表投資。上圖是與STATA軟件相同的輸入格式。
當然,也可以把上圖中的數(shù)據(jù)格式按變量year進行排序,此時數(shù)據(jù)中前31行為2010年各省份的數(shù)據(jù),32-62行是2011年各省份的數(shù)據(jù),以此類推。面板數(shù)據(jù)的兩種排列方式并不影響分析結果。
如果從時間上看,不同個體之間不存在顯著差異,從截面上看,不同個體之間也不存在顯著差異,這種模型與一般回歸模型無本質差異,只要滿足經典回歸基本假定條件,就可以把所有數(shù)據(jù)放在一起進行混合最小二乘估計,估計量具有線性、無偏和有效性。
SPSS進行混合回歸很簡單,在菜單中依次選擇“分析/回歸/線性回歸”,在彈出的對話框中,因變量選擇gdp,解釋變量選擇invest,其他選擇默認設置,點“確定”按鈕即可得到混合回歸結果,匯總如表1所示。
表1 SPSS與STATA混合回歸結果
由表1可以看出,SPSS混合回歸結果和STATA混合回歸結果相同,解釋變量invest的系數(shù)均為1.323,t統(tǒng)計量值均為25.535,p值均為0。
面板數(shù)據(jù)模型可表示為:
其中,yit是被解釋變量,xit是隨個體和時間而變化的解釋變量,zi是不隨時間而變的個體特征;不可觀測的隨機變量αi代表個體異質性,隨個體變化,但不隨時間變化,即個體效應;β是回歸系數(shù),對于不同個體回歸系數(shù)β是相同的;uit是隨機誤差項。在以后的實證分析中,將用具體變量名代替yit和xit。
若αi與某個解釋變量相關,則稱為固定效應模型;若αi與xit和zi均不相關,則稱為隨機效應模型。因此固定效應模型和隨機效應模型在表達式上是相同的,都是模型(1),只是根據(jù)個體效應與解釋變量是否相關區(qū)分為固定效應模型和隨機效應模型。
對于固定效應模型,由于αi與某個解釋變量相關,故OLS不是一致的估計。解決方法之一是對面板數(shù)據(jù)中每個個體的觀測值針對時間求其平均值,利用離差變換消掉個體效應αi,采用OLS方法估計模型回歸系數(shù)β。
給定個i體,將模型(1)兩邊對時間求平均可得:
將模型(1)減模型(2)可得:
在采用SPSS計算組內估計量時,共需要三個步驟。第一步要計算每個地區(qū)的均值,在菜單中依次選擇“數(shù)據(jù)/分類匯總”,在彈出的對話框中,將provicne選入“分組變量”復選框,將gdp和invest選入“匯總變量”復選框。點擊“確定”按鈕后,SPSS數(shù)據(jù)窗口增加了兩個均值變量,均值變量名SPSS默認為gdp_mean和invest_mean。第二步在菜單中依次選擇“轉換/計算變量”,在彈出的對話框中將目標變量定義為gdpstar,數(shù)學表達式定義為“gdp-gdp_mean”,點擊“確定”后可得到中心化后的因變量值;按類似的方法可得到invest中心化后的變量investstar。第三步在菜單中依次選擇“分析/回歸/線性回歸”,在彈出的對話框中,因變量選擇gdpstar,解釋變量選擇investstar,其他選擇默認設置,點“確定”按鈕即可得到組內估計量結果,匯總如表2所示。
表2 SPSS與STATA組內估計量
由表2可知,SPSS計算的組內估計量中,解釋變量的系數(shù)為0.845,t統(tǒng)計量值為26.743,p值為0;STATA計算的組內估計量中,解釋變量的系數(shù)為0.845,t統(tǒng)計量值為25.06,p值為0;除了t統(tǒng)計量值稍有差異外,系數(shù)估計值與p值完全相同。需要注意的是,兩種軟件對常數(shù)項的估計并不相同,原因在于兩種軟件對常數(shù)項的定義不同。在用SPSS進行組內估計時,由于采用按時間平均然后中心化,個體效應已經被消掉了,也就是組內回歸沒有常數(shù)項,這也是SPSS組內估計結果常數(shù)項的p值為1的原因。而STATA結果中的常數(shù)項實際上是個體效應的均值,即,各個地區(qū)的個體效應為,根據(jù)離差和恒等于零的性質,個體效應之和等于零,因此STATA結果和SPSS結果并不矛盾。
削掉個體效應的另外一種方法是一階差分法。對于模型(1),取其滯后一期的關系式,得
將模型(1)減模型(4)可得:
SPSS只有定義時間序列變量后才能產生滯后變量和差分變量,而對于面板數(shù)據(jù),SPSS很難直接產生滯后變量和差分變量,可以借助STATA軟件產生差分變量,然后復制到SPSS軟件中,當然也可以采用EXCEL,只不過稍微繁瑣一點。令gdp差分后的變量為dgdp,invest差分后的變量為dinvest。在菜單中依次選擇“分析/回歸/線性回歸”,在彈出的對話框中,因變量選擇dgdp,解釋變量選擇dinvest,然后點擊“選項”按鈕,將“包含常數(shù)項”前面的對鉤去掉,表示模型不包含常數(shù)項;其他選擇默認設置,點“確定”按鈕即可得到一階差分估計量結果,匯總如表3所示。
表3 SPSS與STATA一階差分估計量
由表3可以看出,SPSS與STATA一階差分估計結果完全相同。應當注意的是此處STATA軟件估計采用的是因變量差分對解釋變量差分直接回歸的方法,如果采用xtserial命令,系數(shù)估計值和SPSS方法完全相同,但由于該命令采用了穩(wěn)健標準誤,計算出來的t統(tǒng)計量值會有所不同。
對于固定效應模型(1)中的個體固定效應αi,將其視為個體i的截矩項,即個體i的待估參數(shù)。對于n位個體的n個不同的截矩項,可以通過在模型 (1)中引入n-1個虛擬變量來估計截矩項,估計模型如下:
常數(shù)項α1表示被遺漏的虛擬變量D1所對應個體1的截矩項,而個體i(i>1)的截矩項是α1+αi。
對模型(6)采用OLS方法估計,稱為“最小二乘虛擬變量法”。如果模型是正確設定的,且符合模型全部假定條件。則回歸系數(shù)估計量是無偏的、有效的、一致的估計。
在SPSS主菜單中選擇“轉換/創(chuàng)建虛擬變量”,在彈出的“創(chuàng)建虛擬變量”對話框中,在“針對下列變量創(chuàng)建虛擬變量”框下選入變量province,在“主效應虛擬變量-根名稱”下輸入“D”,表示虛擬變量,變量名以D開頭,點擊“確定”按鈕后,在SPSS中變量窗口即會出現(xiàn)31個虛擬變量。虛擬變量名和數(shù)據(jù)中省份的輸入順序有關,上海對應的虛擬變量為D_1,云南對應的虛擬變量為D_2,以此類推。在采用虛擬變量回歸時,如果回歸方程包括常數(shù)項,為了避免“虛擬變量陷阱”,31個省份只能加入30個虛擬變量。STATA默認將數(shù)據(jù)集中的第一個省份(本例為上海)作為比較的基礎,因此為了和STATA估計結果進行比較,在使用SPSS進行最小二乘虛擬變量回歸時,不包括虛擬變量D_1。在菜單中依次選擇“分析/回歸/線性回歸”,在彈出的對話框中,因變量選擇gdp,解釋變量依次選擇invest以及D_2-D_31,其他選擇默認設置,點“確定”按鈕即可得到最小二乘虛擬變量回歸結果(如表4)。
表4 SPSS與STATA最小二乘虛擬變量回歸
由表4可以看出,除個別系數(shù)因計算精度和四舍五入原因稍有差異外,SPSS最小二乘虛擬變量回歸結果和STATA結果完全相同。表中的常數(shù)項18243.87代表上海市的截距,其他省份對應的系數(shù)代表與上海的差距,如云南對應的系數(shù)-1578.25代表云南比上海低1578.25。由表中p值可知只有浙江和上海沒有顯著性差異,江蘇、廣東、山東顯著高于上海。另外,最小二乘虛擬變量回歸在解釋變量invest的估計上和組內估計量相同,均為0.845。
隨機效應模型的參數(shù)估計方法包括廣義最小二乘法和組間估計法。雖然廣義最小二乘法最小效,但該方法涉及復雜的矩陣運算和較多參數(shù)估計,使用SPSS比較繁瑣,此處僅介紹組間估計方法。
對于模型(1),如果對每個個體取時間平均值,得如下模型:
對模型(7)使用OLS進行參數(shù)估計,得到的估計量稱為組間估計量,記為。由于包含了xit的信息,如果αi與解釋變量{xit,zi}相關,則不一致。因此不能在固定效應模型下使用組間估計法。組間估計法相當于面板數(shù)據(jù)被壓縮為截面數(shù)據(jù)。
在采用組內估計量時,已經通過“分類匯總”功能得到各省在gdp和invest兩個變量上的均值gdp_mean和invest_mean,但我們并不能采用這兩個變量直接回歸,原因在于每個省的均值都有8個相同的值(從2010年至2018年),可以采用等距抽樣的方法使每個省只有一個均值。為了避免觀測順序打亂,首先在數(shù)據(jù)集增加一個編號變量(ID),打開需要添加ID號的數(shù)據(jù)集,選擇“文件/新建/語法”,打開彈出的“語法”窗口,并輸入以下語句:
DATASET ACTIVATE 數(shù)據(jù)集名.
點執(zhí)行按鈕。返回到原先的數(shù)據(jù)集窗口,則可以看到id號變量了。點擊“轉換/計算變量”,彈出計算變量對話框,在“目標變量”的空白框中輸入新變量名newid,在“函數(shù)組”選項框中點擊all,在“函數(shù)和特殊變量”選項框中點擊mod,把mod送入“數(shù)字表達式”空白框中,把mod(?,?)的第一個問號改為id-4(由于前8個數(shù)值相同,用id減去1-8中的任意一個數(shù)均不會影響最終結果),第二個問號改為8。點擊“確定”按鈕,數(shù)據(jù)集中newid為0的即是要抽選的樣本單元。
選擇“數(shù)據(jù)/選擇個案”,打開選擇個案對話框,選擇第二項“如果條件滿足”,單擊“如果”按鈕后彈出If對話框,將其中的條件設置為“newid=0”,即可得到等距抽樣的所有樣本,該樣本即為進行組間估計的樣本。在該樣本范圍內依次選擇“分析/回歸/線性回歸”,在彈出的對話框中,因變量選擇gdp_mean,解釋變量選擇invest_mean,其他選擇默認設置,點“確定”按鈕即可得到組間估計回歸結果,匯總如表5所示。
表5 SPSS與STATA組間估計量
從表5可以看出,SPSS與STATA估計組間估計量的結果相同。
從實證研究結果來看,在混合回歸、組內估計、組間估計、一階差分估計、最小二乘虛擬變量回歸方面,SPSS可以得到與STATA軟件相同的結果。只不過STATA等軟件有內嵌的命令,操作起來很簡單,而SPSS由于沒有內嵌選項,操作起來相對復雜而已。實際上只要理解各種統(tǒng)計方法的基本原理,以及熟悉SPSS的基本操作,就可以使用SPSS解決大多數(shù)沒有內嵌的統(tǒng)計方法。