唐瑩瑩
(廣西師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,廣西 桂林 541006)
空間計(jì)量經(jīng)濟(jì)學(xué)是計(jì)量經(jīng)濟(jì)學(xué)的一個(gè)分支,以空間經(jīng)濟(jì)理論和地理空間數(shù)據(jù)為基礎(chǔ),以建立、檢驗(yàn)和運(yùn)用計(jì)量經(jīng)濟(jì)模型為核心,運(yùn)用經(jīng)濟(jì)活動(dòng)的空間自相關(guān)和空間不均勻性問(wèn)題進(jìn)行定量分析,研究空間經(jīng)濟(jì)活動(dòng)或經(jīng)濟(jì)關(guān)系數(shù)量規(guī)律的一門(mén)經(jīng)濟(jì)學(xué)學(xué)科.
具有空間自回歸的SAR模型是最常用的也是最為基礎(chǔ)的模型,它通過(guò)空間加權(quán)矩陣將空間因素對(duì)經(jīng)濟(jì)現(xiàn)象的影響模式引入到模型中,且在被解釋變量中存在空間相關(guān)性,這為模型的估計(jì)和檢驗(yàn)帶來(lái)了新的問(wèn)題.
近年來(lái),空間計(jì)量理論快速發(fā)展出現(xiàn)了誤差為空間自相關(guān)的空間自回歸模型,SARAR模型是一個(gè)存在混合的空間聯(lián)合模型,同時(shí)考慮了被解釋變量和誤差項(xiàng)的空間相關(guān)問(wèn)題:
這個(gè)模型因Clif和Ord(1973,1981)的兩篇具有重要影響的文章而名,Anselin和Florax(1995)將其記為空間自相關(guān)誤差自相關(guān)(spatial autoregressive model with autogressive ditubances,SARAR)模型.當(dāng)ρ=0時(shí)模型變成空間誤差模型(SEM),當(dāng)λ=0時(shí)模型為空間自回歸模型(SAR);當(dāng)ρ=0且λ=0時(shí),為線性回歸模型.
在進(jìn)行實(shí)際的空間計(jì)量模型擬合時(shí),解釋變量之間完全不相關(guān)的情況很少見(jiàn),因?yàn)閱?wèn)題本身的復(fù)雜性和涉及的因素可能比較多,很難在眾多解釋變量中找出一組互不相關(guān)又對(duì)被解釋變量有顯著影響的變量,不可避免地會(huì)出現(xiàn)所選解釋變量之間相關(guān)的情況.雖然多重共線性不影響系數(shù)的點(diǎn)估計(jì),但會(huì)放大系數(shù)估計(jì)的方差,從而會(huì)導(dǎo)致降低的是參數(shù)估計(jì)的顯著性,更容易得到不顯著的結(jié)果;或者模型系數(shù)的符號(hào)可能有誤,與實(shí)際不符合;或者參數(shù)估計(jì)值的置信區(qū)間也變寬,難于評(píng)估各個(gè)解釋變量對(duì)被解釋變量的影響.在SARAR模型中,由于誤差為空間自相關(guān)而且因變量也為空間自回歸,所以自變量之間存在的多重共線性問(wèn)題還會(huì)使得自變量對(duì)因變量的解釋產(chǎn)生干擾.
趙宇(2018)運(yùn)用主成分估計(jì)去消除空間自回歸中自變量的多重共線性;[1]曹芳(2012)運(yùn)用Lasso方法處理多元線性回歸的共線性問(wèn)題;[2]郭雙(2015)對(duì)SAR模型通過(guò)ALasso方法篩選出不顯著的變量;[3]張?jiān)獞c和陶志鵬(2016)對(duì)SAC模型變量選擇進(jìn)行了貝葉斯準(zhǔn)則的研究;[4]Lee(2004)闡述了SAR模型的極大似然估計(jì)量所具體的性質(zhì).
本文將解釋變量進(jìn)行正交轉(zhuǎn)換為若干個(gè)互不相關(guān)的主成分,建立起被解釋變量對(duì)k個(gè)主成分作為新解釋變量,結(jié)合極大似然方法估計(jì)出SARAR模型關(guān)系,再利用關(guān)系式β=Φ1α1將k個(gè)主成分的參數(shù)轉(zhuǎn)換成原解釋變量的新參數(shù),去減少在有限樣本中減弱多重共線性對(duì)參數(shù)估計(jì)的影響.
主成分特征提取方法主要是通過(guò)降維去除自變量壓縮消除冗余.自變量們進(jìn)行一個(gè)線性變換便得到線性無(wú)關(guān)的主成分,PCi=h1X1+h2X2+…+hnXn,其中hj是第j維度在第i個(gè)PC中的權(quán)重.首先找出總方差最大的PC,再找與第1個(gè)PC線性無(wú)關(guān)的而且能解釋最多方差的第2個(gè)PC,直到取得所有的n個(gè)PC.原先的n個(gè)維度通過(guò)線性變換,變成了新的n個(gè)線性無(wú)關(guān)的按方差解釋度排序的PC,最后根據(jù)累積解釋程度選取所需的PC.
空間計(jì)量經(jīng)濟(jì)模型參數(shù)的常用估計(jì)方法極大似然估計(jì)法的基本原理是:假定誤差項(xiàng)服從正態(tài)分布,繼而可推導(dǎo)因變量的聯(lián)合密度函數(shù),再通過(guò)最大化對(duì)數(shù)似然函數(shù)得到模型的估計(jì)參數(shù).Ord(1975)對(duì)空間滯后模型和空間誤差模型的極大似然估計(jì)法進(jìn)行了概述,而 Anselin(1988)則在 Ord(1975)、Bates和White(1985)研究基礎(chǔ)上,進(jìn)步推導(dǎo)了空間計(jì)量經(jīng)濟(jì)模型極大似然估計(jì)法和正則條件.
本文第一節(jié)簡(jiǎn)單介紹了SARAR模型和在多重共線性的危害下提出所研究的問(wèn)題,第二節(jié)給出了所采用方法的參數(shù)估計(jì)推導(dǎo),第三節(jié)和第四節(jié)同時(shí)通過(guò)大量的模擬實(shí)驗(yàn)去驗(yàn)證該方法具有有效性.
設(shè)Y為n×1階因變量,X是一個(gè)n×p階外生解釋變量矩陣,ε~N(0,σ2In),
其中ρ和λ表示空間因素對(duì)其中研究對(duì)象的影響程度,β為對(duì)應(yīng)p×1維自變量的參數(shù)向量.兩種空間加權(quán)矩陣W1和W2是n×n階的外生的空間權(quán)重矩陣,兩者可以相同也可以不相同;分別表示空間因素對(duì)研究對(duì)象的影響,W1Y為空間滯后效應(yīng),W2u為空間誤差效應(yīng).In為n階單位矩陣.
將SARAR模型(2)做如下變形:
其中,中心化的X的相關(guān)系數(shù)矩陣為XTX,設(shè)其特征根為λ1≥λ2≥…≥λp,XTX的標(biāo)準(zhǔn)化正交特征向量為p×p維的矩陣ΦT=(?1,?2,…?p),ΦΦT=Ip且ΦTXTXΦ=qTq=Λ,其中Λ=diag(λ1,λ2,…,λp);令q=XΦ,α=ΦTβ;由(3)得到:
則可以將原模型可寫(xiě)成:
假設(shè)隨機(jī)誤差項(xiàng)ε~N(0,σ2In),參數(shù)集為θ=(αT1,ρ,λ,σ2);
模型(4)的對(duì)數(shù)似然函數(shù)為:
將(ρ,λ)和(ρ,λ)代入到lnL n(θ)得到最大化的中心化對(duì)數(shù)似然函數(shù):
通過(guò)Monte carlo模擬在不同的參數(shù)和情況下對(duì)模擬和效果進(jìn)行比對(duì).
設(shè)定W1和W2為相同的“rook”形式空間權(quán)重矩陣;取ρ=0.8,λ=0.5,^σ2=1;對(duì)于初始值β分別取三組不同的值:
(1)β1=(3,2.5,0,0,0)';
(2)β2=(3,2.5,10,2.5,3)';
(3)β3=(3,0,10,0,3)';
設(shè)定樣本數(shù)分別為225,400個(gè),用于探究不同樣本量下的結(jié)果;每次情況模擬次數(shù)為1000次.其中,采用Box和Muller(1958年)給出了由均勻分布的隨機(jī)變量生成正態(tài)分布的隨機(jī)變量的算法生成標(biāo)準(zhǔn)正態(tài)偽隨機(jī)數(shù),再用Mc Donald和Galerneau(1975)的自變量生成方法產(chǎn)生具有多重共線性的變量x ij=.再者r的取值為0.99和0.999以保證生成的自變量是存在不同的多重共線性并以研究其在不同共線程度對(duì)模型的影響程度.
表中的βML是在原數(shù)據(jù)構(gòu)建SARAR模型的基礎(chǔ)上直接應(yīng)用極大似然估計(jì)方法估計(jì)出來(lái)的參數(shù)值,βPAC是對(duì)自變量進(jìn)行主成分特征提取的基礎(chǔ)上利用極大似然估計(jì)方法得到的參數(shù)值.
表1 r=0.99時(shí)所求參數(shù)的均方誤差Tab.1 Mean square error of the required parameters when r=0.99
表2 r=0.999時(shí)所求參數(shù)的均方誤差Tab.2 Mean square error of the required parameters when r=0.999
通過(guò)對(duì)比表1和表2中呈現(xiàn)的參數(shù)均方誤差可以發(fā)現(xiàn),當(dāng)r=0.99時(shí),EMSE(βML)與EMSE(βPAC)之間的沒(méi)有很大的差距;但當(dāng)r=0.999時(shí),高度的多重共線性使得在直接使用ML方法估計(jì)出來(lái)的參數(shù)值與真實(shí)值有很大的誤差,而在自變量進(jìn)行主成分特征提取后再進(jìn)行ML方法的參數(shù)均方誤差要優(yōu)于前者.
本數(shù)據(jù)取自于Harrison和Rubinfeld(1978)收集的波士頓房?jī)r(jià)數(shù)據(jù),并由Gilley和Pace(1996)加以完善.數(shù)據(jù)中包含506個(gè)波士頓普查區(qū)的中心數(shù)房?jī)r(jià)以及可以潛在決定房?jī)r(jià)的20個(gè)解釋變量,選取業(yè)主自用住宅的價(jià)值平均數(shù)MEDV為被解釋變量,TAX、LSTAT、PTRATIO、log(CRIM)、RM 為解釋變量;W為506個(gè)區(qū)之間的“rook”形式空間權(quán)重矩陣,現(xiàn)構(gòu)造如下的SARAR(1,1)模型:
首先對(duì)5個(gè)解釋變量數(shù)據(jù)進(jìn)行中心化處理,并計(jì)算相關(guān)系數(shù).建立這5個(gè)解釋變量的SARAR(1,1)方程,使用一般的極大似然估計(jì)的參數(shù)結(jié)果為βML.觀察到log(CRIM)的系數(shù)值為0.0821355且其P值大于0.05,根據(jù)直觀診斷法,log(CRIM)的系數(shù)可能有誤,與實(shí)際不符.在該模型中,由于解釋變量存在多重共線性會(huì)導(dǎo)致參數(shù)的解讀和顯著性并不理想.下面采用主成分估計(jì)對(duì)原解釋變量進(jìn)行轉(zhuǎn)化.解釋變量的相關(guān)系數(shù)矩陣如下:
表3 5個(gè)變量的相關(guān)系數(shù)表Tab.3 Correlation coefficient table of five variables
對(duì)5個(gè)原解釋變量提取相互獨(dú)立的主成分,其相關(guān)系數(shù)矩陣特征根如下:
計(jì)算相關(guān)系數(shù)矩陣的特征向量如下:
圖1 碎石圖Fig.1 Crushed stone diagram
從特征根和碎石圖看,可以取前三個(gè)主成分作為新的解釋變量;這三個(gè)主成分累積奉獻(xiàn)率為91.04%,并使用極大似然估計(jì)方法建立MEDV對(duì)前三個(gè)主成分的SARAR(1,1)模型,得到的值并利用關(guān)系式得到MEDV對(duì)原來(lái)5個(gè)解釋變量的新參數(shù).
在SARAR(1,1)-PCA模型中,log(CRIM)的參數(shù)為負(fù)值,合理地解釋越低人均犯罪值對(duì)應(yīng)于越高的業(yè)主自用住宅的價(jià)值平均數(shù),其他參數(shù)的數(shù)值也發(fā)生了變化,表明了各變量對(duì)MED的直接影響.在對(duì)解釋變量進(jìn)行主成分變換之后,消除解釋變量之間的多重共線性,使得模型更有意義.
表4 兩種方法求得的參數(shù)值Tab.4 Parameter values obtained by two methods
在建立SARAR模型并進(jìn)行運(yùn)用時(shí),往往存在一定程度的多重共線性問(wèn)題,如果解釋變量之間的相關(guān)程度不足以影響模型的質(zhì)量(即各個(gè)參數(shù)顯著性得到滿足時(shí))就可以忽略;當(dāng)出現(xiàn)較嚴(yán)重的后果又不能增加樣本量時(shí),在不刪減變量下采用主成分特征提取與極大似然估計(jì)降低變量之間的相關(guān)程度,會(huì)使得模型更有效.