陳 鳳,劉嘉慧
(1.重慶交通大學數學與統(tǒng)計學院,重慶 400074;2.西安交通大學管理學院,西安 710049)
回歸模型是經濟建模最重要的數據分析工具之一。由于經濟現象的復雜性,空間自相關性和回歸關系的空間異質性普遍存在于眾多經濟學領域中,例如住房市場、政策制定、成本效益分析等[1,2]。因此,為了探索空間自相關性與回歸關系空間非平穩(wěn)性,在一般線性回歸模型的基礎上,發(fā)展出一系列空間計量經濟模型,如空間自回歸模型、空間誤差模型以及空間變系數模型。
然而,上述空間計量經濟模型僅考慮了空間自相關性或者回歸關系空間異質性。研究發(fā)現,一個給定的空間數據集可能同時存在空間自相關性和空間異質性[3,4],空間非平穩(wěn)性可能會引起空間自相關性,反之亦然[5],且在空間變系數模型中使用最優(yōu)帶寬,空間自相關性依然可能會存在。同時,Li 等(2019)[6]的模擬實驗表明,當響應變量觀測值間存在空間自相關性,且解釋變量與響應變量間的回歸關系具有空間非平穩(wěn)性時,若不考慮響應變量的空間自相關性,僅通過空間變系數模型擬合此數據集,則可能會得到回歸系數有偏估計值,嚴重影響回歸結果。因此,有必要在空間計量經濟模型中同時考慮回歸關系的空間非平穩(wěn)性和空間自相關性。已有研究結合一般空間自回歸模型和空間變系數模型各自的優(yōu)勢,建立了一系列模型以兼顧空間自相關性和回歸關系的空間異質性。鑒于模型的一般性以及考慮響應變量觀測值間空間自相關性能夠同時獲得解釋變量對響應變量的直接效應和間接效應,本文主要討論響應變量存在空間自相關性的半參數空間自回歸變系數模型。
對于半參數空間自回歸變系數模型,Su和Jin(2010)[7]提出了輪廓擬極大似然估計方法;Wei 等(2017)[8]基于輪廓擬極大似然估計,構造基于廣義似然比的統(tǒng)計量來檢測響應變量的空間自相關性,并采用Bootstrap方法逼近統(tǒng)計量在零假設下的分布;此外,Li等(2019)[6]建立了基于廣義似然比的Bootstrap 檢驗方法來檢驗回歸關系空間非平穩(wěn)性。
現有半參數空間自回歸變系數模型的統(tǒng)計推斷方法主要關注空間自相關性和回歸關系空間非平穩(wěn)性的檢驗。在實際應用中,除了上述假設檢驗問題外,研究者們也十分關注常值系數對應的解釋變量與響應變量間是否存在顯著的線性關系以及變系數對應自變量對響應變量在每一處空間位置的影響是否顯著,即識別模型中可能存在的零值系數。識別常系數中的零值系數,不僅可以為常系數分析結果的可靠性提供重要的統(tǒng)計理論依據,也可以減少模型中的無關變量,提高估計效率。而辨識局部系數中的零值系數能夠更好地揭示回歸關系的空間局部變化特征。建立上述統(tǒng)計推斷問題的檢驗方法將推動半參數空間自回歸變系數模型的廣泛應用。為了有效解決上述統(tǒng)計檢驗問題,本文將基于輪廓擬極大似然估計,導出常值系數和局部系數估計量標準差,并利用t檢驗方法分別對常值系數和局部系數進行顯著性檢驗。特別對于變回歸系數而言,由于在每一處空間位置都要進行一次局部檢驗,且每次檢驗均基于相同數據進行,因此其檢驗過程可能會存在多重檢驗問題,對此,本文將進一步解決局部檢驗中涉及的多重檢驗問題。本文還將通過模擬實驗考察所給檢驗方法的有效性,并且將該方法應用于波士頓房屋價格數據分析,進一步驗證方法的適用性。
其中,ρ為空間自回歸系數,滿足<1,表示響應變量觀測值間的空間自相關強度參數;β(u,v)=(β1(u,v),β2(u,v),…,βp(u,v))T,為p個待估計的關于空間位置坐標(u,v)的系數函數,以反映在不同空間位置處解釋變量對響應變量的影響強度;=(xi1,xi2,…,xip)表示在空間位置(ui,vi)處解釋變量觀測值向量;wij為空間權重矩陣W第i行第j列的元素,表示空間數據關于空間位置的鄰接關系。一般而言,wii=0(i=1,2,…,n)且W為行標準化矩陣。是獨立同分布的隨機誤差項,滿足E(εi)=0 和Var(εi)=σ2。對于模型(1),當ρ=0(即響應變量不存在空間自相關性)時,模型退化為空間變系數模型;當回歸關系不具有顯著的空間非平穩(wěn)性時,模型退化為一般空間自回歸模型。為了便于表示,本文采用簡寫SVC-SAR來表示空間自回歸變系數模型(1)。
在實際研究中,可能會存在部分解釋變量對響應變量的影響是全局的,而部分解釋變量對響應變量的影響是隨空間位置變化的。因此,更為一般的空間自回歸變系數模型為:
其中,=(zi1,zi2,…,ziq)為q個常值系數對應自變量觀測值矩陣;為常值系數向量;其余符號含義同前文。模型(2)為半參數空間自回歸變系數模型,類似地,簡稱其為SSVC-SAR 模型。由于SSVC-SAR模型回歸系數里既包含常值系數又包含變系數,因此,相比于SVC-SAR模型,其更具一般性。
先簡要介紹SSVC-SAR模型的輪廓擬極大似然估計方法[8]。具體地,令則SSVC-SAR模型(2)采用向量形式表示為:
令In為n階單位矩陣,則y的擬對數似然函數為:
其中,M=zTα+Mv,A(ρ)=In-ρW,|A(ρ) |表示A(ρ)的行列式。假設為M的估計值,將代入式(4)后對當前對數似然函數中的σ2求偏導并令偏導數為零,得到σ2的估計值為:
進一步,將M? 和σ?2一并代入式(4)并忽略與ρ無關的項,則擬對數似然函數可簡化為:
式(6)只含未知參數ρ,在空間自回歸變系數模型及其半參數模型估計中可使用格點法[9]求解ρ的估計值,記為?。
根據目標函數式(6)得到ρ的估計值ρ?后,模型(3)可重新表示為以A()y為響應變量的半參數空間變系數模型,即:
根據半參數空間變系數模型的兩步估計方法[11]可得常值系數估計值為:
其中:
其中,X=(x1,x2,…,xn)T,Wh(ui,vi)=Diag(K(di1/h),K(di2/h),…,K(din/h)),K(?)表示核函數,dij為空間采樣點(ui,vi)和(uj,vj)間的歐氏距離,h表示窗寬。最優(yōu)帶寬值的大小可根據AICc 準則或者CV 準則確定。在空間采樣點(ui,vi)處回歸系數β(ui,vi)的估計值為:
通過式(9)可獲得每一個空間采樣點(ui,vi) (i=1,2,…,n)的回歸系數局部估計值。得到所有樣本點回歸系數局部估計值后,Mv的估計值為:
上述估計方法完整的估計過程可歸納為下列3個步驟:
步驟1:令ρ=0,對原始數據建立半參數空間變系數模型,并利用兩步估計方法擬合此模型,得到M的初始估計值。
步驟2:將M的初始估計值代入式(6)并極大化該目標函數,得到自回歸系數ρ的估計值?。
本文將基于半參數空間自回歸變系數模型的輪廓擬極大似然估計方法,推導出常值系數估計量和變系數局部估計量的標準差,利用其構造t檢驗統(tǒng)計量,分別對常值系數和局部系數進行顯著性檢驗,并處理變系數局部檢驗可能涉及的多重檢驗問題。
為了得到σ2更為精確的估計值,進一步對式(5)中σ2的估計值進行修正[12]。具體地,由公式(3)可得A(ρ)y=zTα+Mv+ε=M+ε,將此模型視為以A(ρ)y為因變量的半參數空間變系數模型,根據相關研究[13]可得進而可得σ2的一個估計為:
由此可得α的方差估計為:
本文利用t檢驗方法識別SSVC-SAR模型中可能的零值系數,即對每個常值系數αj(j=1,2,…,q)有原假設“H0:αj=0”以及備擇假設“H1:αj≠0”,則t檢驗統(tǒng)計量為:
本文采用自由度為(n-2 tr(L)+tr(LTL) )的t分布逼近tc零分布。
對于空間采樣點(ui,vi),令Dv=(XTWh(ui,vi)X)-1XTWh(ui,vi)(In-Sc),根據式(9)可獲得變系數β(u,v)=在點(ui,vi)處的局部估計值,則對應的局部方差為:
同理,可得局部方差的估計,即:
類似地,本文通過構造t 檢驗統(tǒng)計量檢驗變系數對應解釋變量在每一處空間位置對響應變量影響的顯著性。具體來說,對第j個變系數在點(ui,vi)處有原假設“H0:βj(ui,vi)=0”和備擇假設“H1:βj(ui,vi)≠0”,則對應的局部t檢驗統(tǒng)計量為:
同樣地,利用自由度為(n-2 tr(L)+tr(LTL) )的t 分布逼近tv零分布。
在變系數局部顯著性檢驗里,對每一空間采樣點的局部系數都需要進行一次檢驗,這會引起多重檢驗問題。為了使得檢驗中犯第I類錯誤的概率在總體上小于α,需要對預先給定的全局顯著性水平α進行適當調整。針對空間變系數模型,Byrne 等(2009)[14]基于Moyé(2003)[15]提出的非獨立檢驗理論,給出了空間變系數局部檢驗的多重檢驗方法。由于局部檢驗之間往往不是獨立的,因此,da Silva 和Fotheringham(2016)[16]沿著Benjamini 和Hochberg(1995)[17]關于非獨立檢驗的錯誤發(fā)現率(FDR)的討論,提出新的準則以處理空間變系數局部檢驗的多重檢驗問題,其模擬實驗結果表明該方法在空間變系數局部t檢驗中具有良好效果,此方法隨后得到了廣泛應用[18—20]。本文將da Silva 和Fotheringham(2016)[16]給出的多重檢驗方法進一步拓展到SSVC-SAR 模型變系數局部t 檢驗中,具體來說,令ξ表示族錯誤率(FWER),則調整的顯著性水平為:
其中,pe=2 tr(L)-tr(LTL),p為自變量個數。
本文通過構造t統(tǒng)計量,對更為一般的空間自回歸變系數模型(即SSVC-SAR模型)常值系數和局部系數是否為零進行了檢驗。當SSVC-SAR模型不含常值系數時,本文給出的局部系數顯著性檢驗方法及其多重檢驗均可應用于空間自回歸變系數模型(1)局部系數的顯著性檢驗。
本文采用模擬實驗考察SSVC-SAR模型常值系數顯著性檢驗和變系數局部檢驗的有效性。具體實驗設計如下:
(1)空間采樣點
考慮到實際研究中多數樣本空間抽樣點是不規(guī)則分布的,因此本文將單位正方形區(qū)域[0,1]×[0,1]作為空間區(qū)域,從均勻分布U(0,1)中獨立抽取一對隨機數作為樣本空間采樣點坐標。此正方形區(qū)域左下角為笛卡爾坐標系的原點。
(2)實驗數據生成
建立如下SSVC-SAR模型:
將常系數值分別設為α0=0.15,α1=-0.1 和α2=0,則回歸系數函數為:
變系數函數真實曲面如圖1所示。本文選擇K-近鄰方式生成空間權矩陣W=(wij)n×n,其中,K的值取6且對W進行行標準化處理;從標準正態(tài)分布N(0,1)中獨立抽??;從N(0,0.25)中獨立抽取。
圖1 變系數函數真實曲面
給定一個ρ值,因變量Y在n個樣本點的觀測值向量為:
模擬實驗里自回歸系數ρ的取值分別設為0、0.5 和0.9,考慮樣本量n為400 和600 兩種情形,且每個實驗重復500 次,并計算500 次實驗里常系數和局部系數的拒絕率,相應的實驗結果如下。
(1)常值系數顯著性檢驗
對于常值系數,原假設為“H0:αj=0 (j=1,2,3)”,實驗重復500 次,給定顯著性水平α分別為0.01、0.05 和0.10,原假設在500次重復實驗中拒絕率如表1所示。
從表1可知,對于零系數α2,其假設檢驗拒絕率接近于相應的顯著性水平α,表明本文所給出的t檢驗方法是有效的;對于非零常系數α0和α1,對應檢驗拒絕率都很高且多數情形下接近于1,說明t 檢驗方法可有效地識別模型中的非零常系數。同時,隨著樣本量增加,檢驗功效上升速度加快。
(2)變系數局部顯著性檢驗
對于變系數,采用t 檢驗方法檢驗系數函數在每一空間采樣點的值是否為零,即原假設為“H0:βj(ui,vi)=0(j=1,2;i=1,2,…,n)”,并采用前文介紹的方法對全局顯著性水平進行調整以處理局部檢驗涉及的多重檢驗問題(全局顯著性水平設為0.05)。當樣本量為400,ρ=0時,計算每一空間采樣點局部系數檢驗在500次重復實驗中的拒絕率。檢驗結果如圖2 所示,其中,左列為系數函數熱力圖,等高線表示系數函數取值大小;右列為系數函數對應的檢驗拒絕率,且已進行了多重檢驗,顏色越深,說明拒絕率越高,等高線表示拒絕率。圖2 結果表明,采用局部t檢驗方法,并經過多重比較對全局顯著性水平進行調整后,可有效識別變系數在每一個空間采樣點的非零值,對應的檢驗功效也隨著系數函數值的增大而快速上升。由于對變系數部分的估計采用了地理加權回歸方法,該方法屬于Nadaraya-Watson 核估計方法,將存在邊界效應[13],因此可能會由于估計原因對邊界處的系數函數值檢驗結果產生不同程度的影響,如變系數β2(u,v)。當自回歸系數值為0.5 和0.9,樣本量為600 時,得到的變系數局部檢驗拒絕率與圖2無明顯差異。
圖2 當n=400,ρ=0時,500次重復實驗下局部系數對應檢驗拒絕率
本文將SSVC-SAR 模型常值系數和局部變系數顯著性檢驗方法應用于對美國波士頓房屋價格數據的分析中[21]。該數據集包含了1970 年美國波士頓地區(qū)506 個人口普查區(qū)自有住房價格的中位數(MEDV,單位:千美元)和13個自變量的觀測值,可通過R軟件中的spdep包獲取。Li等(2019)[6]基于該數據集建立了一個SVC-SAR模型,并使用基于廣義似然比的Bootstrap 檢驗方法分別檢測了因變量空間自相關性和回歸關系的空間非平穩(wěn)性,最終建立了如下SSVC-SAR模型:
其中,關于自變量的具體含義分別如下:CRIM為人均犯罪率,NOX為一氧化氮濃度,RAD為住房距徑向公路的可達性指標,TAX為每萬美元的全額房產稅,PTRATIO為學生-教師比例,LSTAT為較低地位人口比例,BK為黑人比例,RM為住宅區(qū)自有住房的平均房間數量,DIS為住房距波士頓五個就業(yè)中心的加權距離。
對于SSVC-SAR模型,本文將進一步檢驗常值系數和局部系數是否為零。常值系數顯著性檢驗結果如表2 所示。
表2 常值系數估計值及其檢驗結果
從表2 可知,SSVC-SAR 模型中各常值系數對應的自變量對房屋價格均具有非常顯著的影響。具體地,解釋變量CRIM、NOX、TAX、PTRATIO、LSTAT和BK對房價具有顯著的負面影響;而RAD對房價發(fā)揮著顯著的積極作用。
對于變回歸系數估計值,利用本文給出的局部t 檢驗方法檢驗并處理其中可能涉及的多重檢驗問題后,各變系數估計值的熱力圖如圖3所示。
圖3 變系數估計值熱力圖
圖3 顯示,自有住宅的地理位置對房價的顯著影響區(qū)域主要集中在中心地帶,影響強度由中心區(qū)域向四周逐漸遞減,且在絕大多數邊緣地區(qū)地理位置對房價的影響不顯著;自有住房所擁有的平均房間數量(RM)在絕大多數的普查區(qū)對房屋價格都具有顯著的正向影響作用,且影響強度從中心區(qū)域向邊緣地區(qū)遞增;自有住房距離五個就業(yè)中心的距離(DIS)在中心地區(qū)對房屋價格具有顯著的負面影響,且越靠近中心區(qū)域,影響強度越大,而在邊緣地區(qū)對房屋價格的影響均不顯著。
從上述結果分析中可以看到,對SSVC-SAR模型中常值系數和局部系數的顯著性檢驗,有助于進一步了解各個解釋變量與房屋價格之間的回歸關系。
空間自回歸變系數模型因同時考慮到響應變量的空間自相關性和回歸關系的空間非平穩(wěn)性而具有廣闊的應用前景。本文針對空間自回歸變系數模型更為一般的形式——半參數空間自回歸變系數模型,基于地理加權回歸的輪廓擬極大似然估計,進一步提出了常值系數和局部系數的t 檢驗方法,并采用da Silva 和Fotheringham(2016)[16]給出的多重檢驗方法處理局部檢驗中可能面臨的多重比較問題,解決上述統(tǒng)計推斷問題有助于推動空間自回歸變系數模型的應用。模擬實驗驗證了t檢驗方法和多重檢驗的有效性,而基于美國波士頓房屋價格數據的分析證實了所提方法的實用性??傮w而言,本文所提檢驗方法有助于深入理解半參數空間自回歸變系數模型回歸關系的本質特征。
關于半參數空間自回歸變系數模型常值系數和局部系數統(tǒng)計推斷,本文利用t分布逼近統(tǒng)計量零分布,并通過模擬實驗驗證了所提檢驗方法的有效性,但關于所構造檢驗統(tǒng)計量的理論性質仍有待進一步研究??臻g自回歸變系數模型中空間權重矩陣常用于描述響應變量觀測值間的空間自相關結構,不同的空間權重矩陣設置可能會得到不同的模型估計結果,進而對研究結論產生重要影響。目前,對于一般空間自回歸模型,已有許多研究給出了空間權重矩陣的不同構造方法[22—25],基于這些研究成果,如何合理地確定空間自回歸變系數模型的空間權重矩陣將是未來重要的研究方向。