甘浩耕,趙培信
(1.重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;2.經(jīng)濟(jì)社會(huì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室, 重慶400067)
在經(jīng)濟(jì)學(xué)和區(qū)域地理學(xué)中,空間模型發(fā)揮著重要作用,其中空間自回歸模型在空間模型中引起了廣泛的關(guān)注.關(guān)于線性空間自回歸模型的估計(jì)理論,目前已有大量的文獻(xiàn)進(jìn)行了研究,比如Smirnov和Anselin(2001)利用最大似然估計(jì)方法研究了空間自回歸模型.[1]Kelejian和Prucha(2010)利用矩估計(jì)(MM)和擬最大似然估計(jì)(QMLE)Lee(2004)對(duì)空間自回歸模型進(jìn)行了估計(jì)推斷.[2]
Paelink和Klaassen(1978)指出在某些實(shí)際問題中,它們的空間關(guān)系表現(xiàn)的是非線性關(guān)系,因此應(yīng)用線性空間自回歸模型是不合適的.[3]但是由于非參數(shù)技術(shù)的發(fā)展,許多學(xué)者發(fā)現(xiàn)了非參數(shù)和半?yún)?shù)方法在建立非線性經(jīng)濟(jì)關(guān)系中的優(yōu)勢(shì).而半?yún)?shù)模型又結(jié)合了非參數(shù)回歸的靈活性和線性回歸的簡(jiǎn)潔性,比起非參數(shù)模型提供了更多的可解釋性.在關(guān)于空間問題的半?yún)?shù)統(tǒng)計(jì)推斷中,Gress(2004)提出了兩種半?yún)?shù)空間自回歸模型,并與大量的參數(shù)空間自回歸模型進(jìn)行了比較.[4]Su和jin(2009)結(jié)合擬似然方法和局部多項(xiàng)式方法對(duì)部分線性空間自回歸模型提出一個(gè)估計(jì)方法.[5]Du等(2018)則利用B樣條近似部分線性空間自回歸模型的非參數(shù)部分,并利用工具變量給出了估計(jì)方法.[6]關(guān)于部分線性空間自回歸模型的更多研究參見文獻(xiàn)羅國旺和吳密霞[7](2020)以及謝琍(2019)等.[8]
本文則研究部分線性空間自回歸模型的變量選擇問題.通過B樣條逼近技術(shù)和正交投影方法,對(duì)部分線性空間自回歸模型提出了一個(gè)基于正交投影的變量選擇方法.所提出的方法利用工具變量調(diào)整技術(shù)解決了空間數(shù)據(jù)的內(nèi)生性,并且結(jié)合正交投影技術(shù),消除了非參數(shù)部分對(duì)參數(shù)部分變量選擇的影響,進(jìn)而保證了變量選擇的有效性和相合性.
投影在線性代數(shù)和泛函分析中給出定義:從二維向量空間中的映射投影到自身的一種線性變換,是在日常生活中“平行投影”這個(gè)基本概念的具體化和系統(tǒng)化.投影變換本質(zhì)就是一種映射,[9]其是將整個(gè)向量空間映射到它的其中一個(gè)子空間,并且投影的過程在這個(gè)子空間中是恒等變換的.在內(nèi)積空間中,正交投影是指像空間U和零空間W相互正交的子空間的投影,也就是說,在任意的u∈U,w∈W下,他們的內(nèi)積是(u|w)=0.而如果投影是在實(shí)向量空間中,那么它對(duì)應(yīng)的投影矩陣是對(duì)稱矩陣.本文的研究則基于在實(shí)向量空間中,運(yùn)用矩陣的QR分解,再利用正交矩陣的性質(zhì),消除模型非參數(shù)部分對(duì)模型的影響.
首先給出定義:
在這里,B樣條有n+1個(gè)控制點(diǎn)Pi.其中k表示B樣條曲線的階數(shù),k-1表示B樣條的次數(shù).
B樣條基函數(shù)是一個(gè)非遞減的參數(shù)為t的序列所決定的k階分段的多項(xiàng)式.設(shè)t是n+1個(gè)非遞減數(shù)的集合,其中t0≤t1≤t2≤…≤tm.ti稱為節(jié)點(diǎn),集合t稱為節(jié)點(diǎn)向量,那么半開區(qū)間[ti,ti+1)則是第i個(gè)節(jié)點(diǎn)區(qū)間.假設(shè)某個(gè)節(jié)點(diǎn)出現(xiàn)了k次 (即ti=ti+1=…=ti+k+1), 其中?k>1,ti是一個(gè)重復(fù)度為k的多重節(jié)點(diǎn),記為ti(k).如果某個(gè)節(jié)點(diǎn)ti只出現(xiàn)了一次,那么它就是一個(gè)簡(jiǎn)單節(jié)點(diǎn).而如果節(jié)點(diǎn)是等間距的(即ti+1-ti是一個(gè)常數(shù),0≤i≤m-1),那么就稱節(jié)點(diǎn)向量或節(jié)點(diǎn)序列為均勻的,否則它就是非均勻的.本文將應(yīng)用B樣條基函數(shù)處理非線性函數(shù)g(·),將其轉(zhuǎn)變成基函數(shù)的線性組合形式.
SACD變量選擇方法由Fan和Li提出的一種基于懲罰的變量選擇方法.[9][10]在眾多變量選擇方法中,該變量選擇方法能夠同時(shí)做到選擇重要變量和估計(jì)模型系數(shù).SACD罰函數(shù)是對(duì)稱并且在零點(diǎn)是奇異的,從而能使得懲罰估計(jì)產(chǎn)生稀疏解并達(dá)到變量選擇的目的.SCAD懲罰函數(shù)的一階導(dǎo)數(shù)具體形式如下:
其中a為大于2的參數(shù),λ為調(diào)整參數(shù),自變量θ滿足大于0.目前,SACD懲罰方法已被推廣到非參數(shù)模型及半?yún)?shù)模型的變量選擇中,并具有較好的變量選擇效果.本文將SCAD懲罰方法運(yùn)用到部分線性空間自回歸模型的變量選擇中,進(jìn)一步改進(jìn)和推廣了SCAD變量選擇方法的應(yīng)用領(lǐng)域.
給出經(jīng)典的部分線性空間自回歸模型
Yn=ρWnYn+Xnβn+g(zn)+Vn
(1)
其中Yn=(y1,…,yn)T是因變量觀測(cè)值的n維向量;ρ是標(biāo)量自回歸參數(shù);Wn是已知常數(shù)的n×n空間加權(quán)矩陣;Xn是n×pn線性回歸的觀測(cè)矩陣;βn=(βn1,…,βnpn)T是Xn的pn×1未知回歸向量關(guān)聯(lián)系數(shù).zn是非參數(shù)回歸變量的n維向量;g(·)是zn的一個(gè)未知函數(shù),Vn=(v1,···,vn)T是獨(dú)立同分布的n維模型誤差向量,并且具有零均值和有限方差σ2.
首先將應(yīng)用多項(xiàng)式樣條來近似非線性函數(shù)g(·),通過工具變量法來處理模型中具有內(nèi)生性的空間滯后項(xiàng),再構(gòu)造π(z)=(B1(z),B2(z),···,BLn(z))T作為一個(gè)B樣條基函數(shù),其中Ln=kn+l+1,kn為內(nèi)部節(jié)點(diǎn)個(gè)數(shù),l為B樣條階數(shù),那么給出擬合公式:
其中α=(α1,···,αLn)T. 設(shè)∏=(πT(z1),πT(z2),···πT(zn))T,那么模型(1)可以重寫為:
Yn=ρWnYn+Xnβn+∏α+en+Vn
(2)
結(jié)合矩陣Π利用矩陣的QR分解可得:
令Q=(Q1,Q2),其中Q1是n×Ln階矩陣,Q2是n×(n-Ln)階矩陣.
(3)
因此樣條系數(shù)向量α的估計(jì)為:
(4)
通過引入工具變量,模型1則改寫為:
為了將工具變量的應(yīng)用有效化,將矩陣Yn回歸得到ρ和α,再通過回歸變量WnYn,Xn,∏構(gòu)造如下的工具變量:
再給出SCAD罰函數(shù)的一階連續(xù)導(dǎo)數(shù):
其中a為大于2的參數(shù),λ為調(diào)整參數(shù),自變量滿足t大于0,SCAD懲罰進(jìn)行參數(shù)估計(jì)和變量選擇時(shí)可以同時(shí)進(jìn)行,并能為回歸系數(shù)產(chǎn)生稀疏解和無偏估計(jì).
在實(shí)際數(shù)據(jù)分析中,我們不知道Xn中的哪個(gè)協(xié)變量很重要,于是使用SCAD懲罰對(duì)回歸系數(shù)進(jìn)行估計(jì),即定義帶有懲罰項(xiàng)的目標(biāo)函數(shù)L(θ)如下:
假設(shè)2:zn的分布是絕對(duì)連續(xù)的,并且其密度在[0,1]上均勻從零開始.
假設(shè)4:矩陣(In-ρWn)是非奇異的且|ρ|>0,(In-ρWn)與Wn的行和列之和的絕對(duì)值一直有界.
假設(shè)1使得懲罰函數(shù)在原點(diǎn)處是奇異的,因此懲罰估計(jì)量具有稀疏屬性.假設(shè)2使得協(xié)變量具有有界條件.假設(shè)3限制了協(xié)變量的增長速率.假設(shè)4是為了更好契合空間自回歸模型的設(shè)置.假設(shè)5是為了工具變量而設(shè)置的.假設(shè)6要求所生成的回歸變量Xn偏離其在zn上的非參數(shù)投影,并不是漸近多重共線性的.
通過使用泰勒展開式,我們得到:
然后,我們得出:
根據(jù)假設(shè)1可以得出,n→∞
因此導(dǎo)數(shù)的符號(hào)完全由βj的符號(hào)確定,所以由(5)可知,定理證明完畢.