唐慶國(guó),晉 鵬
(南京理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,江蘇 南京 210007)
空間數(shù)據(jù),顧名思義,指的是與空間位置相關(guān)的觀測(cè)數(shù)據(jù)。空間數(shù)據(jù)廣泛存在于環(huán)境科學(xué)、傳染病學(xué)、氣象學(xué)、地理科學(xué)、生物醫(yī)學(xué)、政治學(xué)及經(jīng)濟(jì)學(xué)等自然科學(xué)和社會(huì)科學(xué)的眾多領(lǐng)域。例如:環(huán)境科學(xué)中各種污染數(shù)據(jù)(空氣污染、水污染、土壤污染等),傳染病學(xué)中各種數(shù)據(jù)(患病人數(shù)、傳播速度等),氣象學(xué)中的各種氣象數(shù)據(jù)(風(fēng)速、溫度、濕度、氣壓等),地理科學(xué)中的各種地理信息數(shù)據(jù),遙感監(jiān)測(cè)數(shù)據(jù),醫(yī)學(xué)科學(xué)中的影像數(shù)據(jù),經(jīng)濟(jì)學(xué)中房地產(chǎn)交易量及價(jià)格監(jiān)測(cè)數(shù)據(jù)等。空間數(shù)據(jù)的統(tǒng)計(jì)分析不僅有著極其廣泛的應(yīng)用范圍和重大的實(shí)用價(jià)值,而且已經(jīng)廣泛應(yīng)用于這些領(lǐng)域中。通常收集到的數(shù)據(jù)呈不規(guī)則分布,但隨著計(jì)算機(jī)技術(shù)的快速發(fā)展和廣泛應(yīng)用,在密集的規(guī)則格點(diǎn)上測(cè)量和收集數(shù)據(jù)變得越來(lái)越普遍。Cressie列舉了空間數(shù)據(jù)和模型的大量應(yīng)用例子[1]1-26。近年來(lái),空間數(shù)據(jù)非參數(shù)估計(jì)方面的研究有了很大的發(fā)展,Hallin等推導(dǎo)了空間回歸局部線性估計(jì)量的漸近正態(tài)性[2];Gao等開(kāi)發(fā)了半?yún)?shù)空間回歸局部線性核估計(jì)量的漸近性質(zhì)[3];Lin等推導(dǎo)了空間非參數(shù)回歸局部線性M-估計(jì)量的漸近性質(zhì)[4];Lu等研究了函數(shù)系數(shù)空間分位數(shù)回歸的估計(jì)問(wèn)題[5];王康寧和林路研究了空間非參數(shù)回歸的變量選擇問(wèn)題[6]。此外,周少甫和白羽研究了空間面板杜賓模型的Bootstrap Wald-COMPAC檢驗(yàn)問(wèn)題[7];方麗婷研究了空間滯后面板平滑轉(zhuǎn)換模型的估計(jì)問(wèn)題[8]。
假定有在格點(diǎn)上的空間數(shù)據(jù){(Yij,Xij,Zij,Uij):1≤i≤m;1≤j≤n},此處Yij和Uij取值于R,Xij取值于Rd1,Zij取值于Rd2,它們定義于某個(gè)概率空間(Ω,F,P)上。應(yīng)用中經(jīng)常會(huì)碰到空間回歸問(wèn)題,相依變量Yij與自變量Uij,Xij和Zij之間存在著復(fù)雜的空間相依關(guān)系。對(duì)這類問(wèn)題通常的做法是假定Yij的條件期望存在,以便定義條件期望函數(shù)η(x,z,u)=E(Yij|Xij=x,Zij=z,Uij=u)并對(duì)其做相關(guān)的統(tǒng)計(jì)推斷。正如許多文獻(xiàn)中所提到的,當(dāng)d1+d2+1>3時(shí),由于“維數(shù)禍根”,空間回歸函數(shù)不能較好地被估計(jì)。本文考慮空間分位數(shù)回歸函數(shù),并且試圖用如下形式的變系數(shù)部分線性函數(shù):
(1)
用式(1)來(lái)逼近空間分位數(shù)回歸函數(shù),即在以上變系數(shù)部分線性函數(shù)集{Ψ(Xij,Zij,Uij)}中選擇一函數(shù)使Eρτ(Yij-Ψ(Xij,Zij,Uij))達(dá)到最小,此處ρτ(t)=t(τ-I(t<0)),0<τ<1為τ分位數(shù)損失函數(shù),βτ=(βτ1,βτ2,…,βτ d2)T是一個(gè)d2維未知參數(shù)向量,而ατ(u)=(ατ1(u),ατ2(u),…,ατ d1(u))T是d1維未知系數(shù)函數(shù)向量。
迄今為止,已有不少人研究過(guò)變系數(shù)部分線性模型并已開(kāi)發(fā)出不少新的理論成果,Zhang等開(kāi)發(fā)了一種局部多項(xiàng)式估計(jì)法用以估計(jì)模型中的線性和非參數(shù)部分[9];Fan 和 Huang 研究了基于剖面最小平方估計(jì)的廣義似然比檢驗(yàn)[10];Wang等研究了縱向數(shù)據(jù)變系數(shù)部分線性模型的分位數(shù)估計(jì)[11];Kai等開(kāi)發(fā)了變系數(shù)部分線性模型新的估計(jì)和變量選擇方法[12]。同均值回歸相比,分位數(shù)回歸具有以下幾方面的優(yōu)勢(shì):第一,給定一列分位數(shù)并對(duì)其中的每一個(gè)分位數(shù)做分位數(shù)回歸比單純做均值回歸能更多、更好地認(rèn)識(shí)和理解數(shù)據(jù);第二,分位數(shù)擬合可用于構(gòu)建預(yù)測(cè)區(qū)間;第三,中位數(shù)回歸作為分位數(shù)回歸中的一種特例能提供比均值回歸更穩(wěn)健的估計(jì)。作者使用兩步估計(jì)法估計(jì)模型(1)中的未知參數(shù)和函數(shù),推導(dǎo)了未知參數(shù)估計(jì)量的漸近分布并建立了未知函數(shù)估計(jì)量在內(nèi)點(diǎn)及邊界點(diǎn)的漸近分布[13]。本文開(kāi)發(fā)了一種一步估計(jì)法用以估計(jì)模型(1)中的未知參數(shù)和函數(shù),利用B-樣條函數(shù),所有未知參數(shù)和函數(shù)的估計(jì)量由一次極小化得到。由于只需要一次極小化算法,同兩步法相比,一步法所需的計(jì)算量大為減少。我們推導(dǎo)了未知參數(shù)估計(jì)量的漸近分布,并建立了未知函數(shù)估計(jì)量的收斂速度。
假定有觀測(cè)數(shù)據(jù)(Yij,Xij,Zij,Uij),1≤i≤m;1≤j≤n,總的樣本容量為N=m×n。不失一般性,假定0≤u≤1。
(2)
(3)
為了執(zhí)行上面的估計(jì)程序,必需先確定光滑參數(shù)KN的值。KN的值可由信息準(zhǔn)則BIC來(lái)選取,BIC作為KN的函數(shù)由下式定義:
使BIC達(dá)到最小的KN即為我們要選取的。
B(S)=B((Yij,Xij,Zij,Uij)∶(i,j)∈S)
和
B(S′)=B((Yij,Xij,Zij,Uij)∶(i,j)∈S′)為兩個(gè)地址(i,j)分別屬于S和S′的隨機(jī)向量(Yij,Xij,Zij,Uij)所生成的σ域。令d(S,S′)為S與S′之間的歐氏距離,假定{(Yij,Xij,Zij,Uij)}滿足以下定義的混合條件:存在一函數(shù)φ(t),當(dāng)t→時(shí),φ(t)↓0,并且當(dāng)S,S′?Z2時(shí),有:
α(B(S),B(S′))
=sup{|P(AB)-P(A)P(B)|,A∈B(S),
B∈B(S′)}≤φ(Card(S),Card(S′))φ(d(S,S′))
(4)
此處Card(S)表示集合S中的元素個(gè)數(shù),φ為一關(guān)于每一個(gè)分量非減的對(duì)稱正函數(shù)。如果存在某個(gè)常數(shù)C使得φ(,)≤C,{(Yij,Xij,Zij,Uij)}稱為α混合(或強(qiáng)混合)。在混合性條件中,α混合相依性是為建立估計(jì)量的漸近性質(zhì)所需的較弱的條件。令為ρτ的導(dǎo)數(shù)。下面列出推導(dǎo)估計(jì)量的漸近性質(zhì)所需的條件。
假設(shè)1 隨機(jī)場(chǎng){(Yij,Xij,Zij,Uij):(i,j) ∈Z2}是嚴(yán)平穩(wěn)的,φ(n1,n2)≤min(n1,n2)且存在一常數(shù)ζ>0使得φ(t)=O(e-ζ t)。對(duì)于Z2中的(i,j)和(i′,j′),隨機(jī)變量Uij和Ui′j′有聯(lián)合密度f(wàn)ij,i′j′,且對(duì)所有的(i,j),(i′,j′)∈Z2及所有的u,v∈[0,1],有|fij,i′j′(u,v)-f(u)f(v)|≤C0,此處C0為一常數(shù),f為關(guān)于Uij的邊緣密度,且f在[0,1]上連續(xù)且大于零。
假設(shè)2 對(duì)r=1,2,…,d1,ατr(u)∈Cs[0,1]這里的Cs[0,1]表示所有s次連續(xù)可微函數(shù)組成的函數(shù)空間。
假設(shè)4 min{m,n}→∞,KN=O(N1/(2s+1)),(KNlogN)3/m→0且(KNlogN)3/m→0。
假設(shè)7 存在兩個(gè)正整數(shù)值向量序列Pm,n=(p1,p2)∈Z2和qm,n=(q,q)∈Z2滿足:q→,q/p1→0,q/p2→0,m/p1→,n/p2→,并且
令Π為所有如下函數(shù)組成的函數(shù)集合:
[Zijk-ηk(Xij,Uij)]2}
定理1 假定假設(shè)1~7成立,并且Aτ和Γτ有限且可逆。則有
(5)
證明:利用與文獻(xiàn)[13]中定理1的證明相類似的方法可完成定理1的證明。
下面的定理2給出了未知函數(shù)ατr(u)的估計(jì)量的收斂速度。
定理2 假定假設(shè)1~7成立。則有:
(6)
r=1,2,…,d1
(7)
這里的C5和C6是兩個(gè)正常數(shù)。根據(jù)假設(shè)2,利用Schumaker中的推論6.21[14]227,存在正常數(shù)C7使得:
(8)
(9)
令
此處C8為一正常數(shù)。這就完成了定理2的證明。
Yij=Xij1ατ1(Uij)+Xij2ατ2(Uij)+Zij1β1+
Zij2β2+ετij
(10)
其中β1=1,β2=2,ατ1(u)=0.8eu/2+0.5e-u/2,
來(lái)自以上模型的模擬數(shù)據(jù)在一個(gè)有m×n個(gè)地址的長(zhǎng)方形區(qū)域內(nèi)產(chǎn)生,具體地說(shuō),在格點(diǎn)區(qū)域{(i,j):76≤i≤75+m,76 ≤j≤75+n}中產(chǎn)生。本文中,我們?nèi)=10,n=20。每個(gè)樣本按Hallin等提供的方法迭代產(chǎn)生[2],300個(gè)空間樣本數(shù)據(jù)獨(dú)立地被產(chǎn)生。對(duì)每個(gè)樣本數(shù)據(jù),ατr(u),r=1,2的B-樣條估計(jì)量由等分節(jié)點(diǎn)三次樣條來(lái)計(jì)算。在表1的結(jié)果中,光滑參數(shù)KN由BIC準(zhǔn)則選取。
表1 300次模擬得到的有關(guān)AB、SD以及WASEr的結(jié)果
表2 WASEr,r=1,2隨KN的變化情況
本文利用B-樣條函數(shù)提出了一種一步估計(jì)法用以估計(jì)空間半?yún)?shù)變系數(shù)部分線性分位數(shù)回歸中的未知參數(shù)和函數(shù),所有未知參數(shù)和函數(shù)的估計(jì)量由一次極小化得到。我們推導(dǎo)了未知參數(shù)估計(jì)量的漸近分布并建立了未知系數(shù)函數(shù)估計(jì)量的收斂速度。從模擬結(jié)果看,本文提出的一步估計(jì)法要優(yōu)于文獻(xiàn)[13]中的兩步法,而一步法的運(yùn)行時(shí)間要小于兩步法。
參考文獻(xiàn):
[1] Cressie N A C.Statistics for Spatial Data[M].New York:Wiley,1991.
[2] Hallin M,Lu Z,Tran L T.Local Linear Spatial Regression[J].Annals of Statistics,2004,32(6).
[3] Gao J,Lu Z,Tj?stheim D.Estimation in Semiparametric Spatial Regression[J].Annals of Statistics,2006,34(3).
[4] Lin Z,Li D,Gao J.Local Linear M-estimation in Non-parametric Spatial Regression[J].Journal of Time,2009,30(3).
[5] Lu Z,Tang Q,Cheng L.Estimating Spatial Quantile Regression with Functional Coefficients:A Robust Semiparametric Framework[J].Bernoulli,2014,20(1).
[6] 王康寧,林路.空間非參回歸的變量選擇[J].中國(guó)科學(xué):數(shù)學(xué),2016,46(3).
[7] 周少甫,白羽.空間面板杜賓模型的Bootstrap Wald-COMPAC檢驗(yàn)研究[J].統(tǒng)計(jì)與信息論壇,2016(5).
[8] 方麗婷.空間滯后面板平滑轉(zhuǎn)換模型的估計(jì)及數(shù)值模擬[J].統(tǒng)計(jì)與信息論壇,2017(1).
[9] Zhang W,Lee S Y,Song X.Local Polynomial Fitting in Semivarying Coefficient Model[J].Journal of Multivariate Analysis,2002,82(1).
[10] Fan J,Huang T.Profile Likelihood Inferences on Semiparametric Varying-Coefficient Partially Linear Models[J].Bernoulli,2005,11(6).
[11] Wang H J,Zhu Z,Zhou J.Quantile Regression in Partially Linear Varing Coefficient Models[J].Annals of Statistics,2009,37(6).
[12] Kai B,Li R,Zou H.New Efficient Estimation and Variable Selection Methods for Semiparametric Varying-coefficient Partially Linear Models[J].Annals of Statistics,2011,39(1).
[13] 唐慶國(guó).空間半?yún)?shù)變系數(shù)部分線性回歸中的分位數(shù)估計(jì)[J].中國(guó)科學(xué):數(shù)學(xué),2013,43(9).
[14] Schumaker L L.Spline Functions:Basic Theory[M].New York:Wiley,1981.
[15] Huang J Z,Wu C O,Zhou L.Polynomial Spline Estimation and Inference for Varying Coefficient Models with Longitudinal Data[J].Statistica Sinica,2004,14(3).