蘇艷云,李開燦
(湖北師范學院 數(shù)學與統(tǒng)計學院, 湖北 黃石 435002)
在實踐和統(tǒng)計研究中,線性回歸模型Y=XTθ+e是一類被廣泛使用的模型。但是在許多實際問題中,響應變量Y和自變量X之間可能不滿足這類簡單的線性關系,因為它們的線性系數(shù)可能隨著其它的協(xié)變量(如時間、溫度等)而變化。自從Hastie和Tibshirani[1]第一次定義了變系數(shù)模型,它已經(jīng)變成了一種用來探索變量間動態(tài)關系的重要工具,并被廣泛應用在經(jīng)濟學、政治學、金融學等領域。隨著數(shù)據(jù)存儲技術的發(fā)展,變系數(shù)模型也是一種用來進行高維回歸分析的有用工具。首先我們給出它的一般形式:
Y=XTθ(t)+e
(1)
其中X是一個p維的協(xié)變量向量,Y是響應變量;θ(t)=(θ1(t),……,θp(t))T是一個p維的未知向量,并且假設變系數(shù)函數(shù)θk(t),k=1,…,p關于t是連續(xù)有界的;隨機誤差e滿足E(e|X,t)=0,并且通常假設e獨立同分布;t是可以觀測的協(xié)變量,這里假設t是一個單變量,不失一般性設t∈[0,1].
為了估計模型(1)中的變系數(shù),我們可以用傳統(tǒng)的非參數(shù)回歸方法:核估計、樣條逼近、正交級數(shù)逼近等。應用這些方法,模型(1)已經(jīng)被許多學者研究過,更詳細的可以參見文獻[1,2,5-7]。在這些文獻中,證明了估計值的大樣本性質,結果表明對模型(1)的估計,這些方法是有效的。另一方面,在模型(1)中,常假設協(xié)變量X能夠被直接觀測,但在實際應用中,X可能存在隨機測量誤差,這時模型(1)就變?yōu)樽兿禂?shù) EV(error-in-variable)模型。此外變系數(shù)模型常用來進行時間序列、縱向數(shù)據(jù),功能數(shù)據(jù)分析等,我們將模型(1)中獨立的隨機誤差e拓展為線性平穩(wěn)的時間序列?,F(xiàn)給出本文的變系數(shù)EV模型:
(2)
在本文中,我們假設隨機誤差ei是一個時間序列,它已經(jīng)被許多學者研究過,具體可參見文獻[9-11]。在這些文獻中,通過對時間序列性質的討論,得到了相應估計值的漸近性質。另一方面,當協(xié)變量x的維數(shù)p相當大并且真實的變系數(shù)θ0(t)的部分分量為零或者漸近趨近于零時,為了減少模型的復雜度、增強模型的預測能力,我們需要對模型進行變量選擇,選出對Y真正有效的變量。自從Fan和Li[3]提出帶有懲罰函數(shù)的變量選擇方法,許多統(tǒng)計學家將其應用到模型(1)中。Wang和Xia[4]通過結合局部多項式光滑和收縮估計的方法,對模型(1)進行變量選擇。Zhao和Xue[6]基于樣條函數(shù)逼近和收縮估計,對半?yún)?shù)變系數(shù)部分線性EV模型提出偏差修正的變量選擇方法。Zhao和Xue[7]運用同樣的方法對帶有獨立隨機誤差ei的模型(2)選擇有效的變量。但是,對帶有相依誤差的變系數(shù)EV模型的變量選擇,卻很少有人研究。本文即是關于模型(2),對文獻[7]中結論的一個推廣。
本文的安排如下:在第一節(jié)中,當測量誤差的協(xié)方差矩陣Σuu已知,我們提出了基于樣條函數(shù)逼近和SCAD懲罰函數(shù)的偏差修正的變量選擇方法。在第二節(jié)中,當隨機誤差ei是一個線性平穩(wěn)時間序列,在一些合適的正則條件下,我們得到了正則估計的相合性和最優(yōu)收斂速率,并且所得到的估計滿足變量選擇稀疏性。在第三節(jié)中,我們給出了漸近結果的詳細證明。
記B(t)=(B1(t),…,BL(t)T是M階B樣條基函數(shù),其中L=K+M+1并且K是內(nèi)結點的個數(shù)。那么,應用B樣條逼近的思想[8],θk(t)能夠被下式逼近
θk(t)≈B(t)Tβk,k=1,…,p
(3)
將(3)式帶入模型(2)中,我們可以得到
(4)
(5)
其中a>2,ω>0,并且pλ(0)=0.
在給出本文的結論之前,首先給出本文必需的一些正則性條件。為了敘述的簡單和方便,讓C表示正的常數(shù),并且在不同的地方其值可以不同。
C2.t的密度函數(shù),記為f(t),在[0,1]上有限,進一步假設f(t)在(0,1)內(nèi)連續(xù)可導。
C3. 記G1(t)=E{xxT|t},G2(t)=E{(μμT)2|t},并且對所有的t∈[0,1],G1(t)和G2(t)連續(xù),對給定的t,G1(t)和G2(t)是正定陣,它們的特征值有界。
C4. 記s1,…,sK為[0,1]中有序的內(nèi)結點,s0=0,sK+1=1,hi=si-si-1則存在常數(shù)C0使得
C5. 對給定的非零變量ω,滿足
本文對懲罰函數(shù)的要求類似于Fan和Li[3]、Wang和Xia[4]、Zhao和Xue[6][7],并且SCAD懲罰函數(shù)滿足這些約束條件。
為了敘述的簡單和方便,讓θ0(t)表示變系數(shù)θ(t)的真實值,相應β的真實值記為β0.不失一般性,我們假設θk0(t)≡0,k=d+1,…,p,并且θk0(t),k=1,…,d是未知的非零部分。本文主要結論如下:
通過文獻[3]中的注記1,對SCAD閥值懲罰函數(shù),當λ→0,有an=0.再結合定理1和定理2,當選擇合適的調整參數(shù)時,我們的變量選擇是相合的,可以達到最優(yōu)收斂速率,并且滿足選擇稀疏性,就像真實系數(shù)的非零部分我們事先已經(jīng)知道了一樣。
(6)
首先,定義△(α)=K-1{Q(β)-Q(β0)},Rk(ti)=θk0(ti)-B(ti)Tβk0,k=1,…,p,并且Zi=Ip?B(ti)·μi,那么R(ti)=(R1(ti),…,Rp(ti))T寫成向量的形式為
R(ti)=θ(ti)-[Ip?B(ti)]T·β
J1+J2+J3+J4+J5+J6+J7
應用條件C1-C4和文獻[8]中的Corollary 6.21,我們能夠得到‖R(·)‖=O(K-r).更進一步,由于E{Zi|xi,ti}=0,sup1≤t≤1B(t)=O(1)和E{ei|xi,ti}=0,并且
從而選擇足夠大的C,J6在階數(shù)上能夠一致得控制Jv,v=1,…,5,‖α‖=C.再結合條件C5,對pλ(‖βk‖H)進行Taylor展開,可以得到
綜上,當‖α‖=C時,J6一致地控制著Jv,v=1,…,5,7.那么,通過選擇足夠大的常數(shù)C,(6)式可以滿足,定理1中的第一個結論得以證明。此外,由于
證明定理2:(稀疏性) 定理2的證明可以類似地參考文獻[7],這里我們省略了它的證明。
參考文獻:
[1]Hastie T J, Tibshirani R. Varying-coefficient models[J]. J Royal Stat Soc SerB, 1993,55:757~796.
[2]Huang Jiahua Z, Wu Colin O, Zhou Lan. Varying-coefficient models and basis function approximations for theanalysis of the analysis of repeated measurements[J]. Biometrika, 2002,89:111~128.
[3]Fan Jianqing, Li Runze. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American Statistical Association, 2001,96:1348~1360.
[4]Wang Hansheng, Xia Yingcun. Shrinkage estimation of the varying coefficient model[J]. Journal of the American Statistical Association, 2009,104:747~757.
[5]崔恒建. 變系數(shù)線性EV模型參數(shù)的調整加權最小二乘估計及其漸近性質[J]. 系統(tǒng)科學與數(shù)學, 2007, 27(1):82~92.
[6]Zhao Peixin, Xue Liugen. Variable selection for semiparametric varying coefficient partially linear error-in-variables models[J].Journal of Multivariate Analysis, 2010,101:1872~1883.
[7]Zhao Peixin, Xue Liugen. Variable selection for varying coefficient models with measurement errors[J]. Metrika, 2011,74:231~245.
[8]Schumaker Larry L. Spline functions[M]. New York:Wiley, 1981.
[9]胡舒合. 誤差為線性時間序列下的回歸模型[J]. Chinese Annals of Mathematics Series A, 1999, 20(6):733~740.
[10]Cui Hengjian, He Xuming,Zhu Lixing.On regression estimators with de-nosied variables[J]. Statistica Sinica, 2002, 12:1191~1205.
[11]You Jinhong, Chen Min, Chen Gemei. Asymptotic normality of some estimators in a fixed-design semiparametric regression model with linear time series errors[J]. Journal of Systems Science and Complexity, 2004, 17(4):511~522.