何曉霞,徐偉,李緩,吳傳菊
(武漢科技大學(xué)理學(xué)院,湖北武漢430065)
面板數(shù)據(jù)分位數(shù)回歸模型的參數(shù)估計(jì)與變量選擇
何曉霞,徐偉,李緩,吳傳菊
(武漢科技大學(xué)理學(xué)院,湖北武漢430065)
本文研究了基于面板數(shù)據(jù)的分位數(shù)回歸模型的變量選擇問(wèn)題.通過(guò)增加改進(jìn)的自適應(yīng)Lasso懲罰項(xiàng),同時(shí)實(shí)現(xiàn)了固定效應(yīng)面板數(shù)據(jù)的分位數(shù)回歸和變量選擇,得到了模型中參數(shù)的選擇相合性和漸近正態(tài)性.隨機(jī)模擬驗(yàn)證了該方法的有效性.推廣了文獻(xiàn)[14]的結(jié)論.
面板數(shù)據(jù);分位數(shù)回歸;自適應(yīng)Lasso;變量選擇;漸近正態(tài)性
近年來(lái),由于計(jì)算機(jī)技術(shù)的日益成熟,分位數(shù)回歸在理論和方法上都得到了廣泛的應(yīng)用. Koenker[1]首次提出了分位數(shù)回歸,如今分位數(shù)回歸作為均值回歸分析的穩(wěn)健替代,被廣泛地用于探索響應(yīng)變量與協(xié)變量之間的潛在關(guān)系.在實(shí)際應(yīng)用中,分位數(shù)回歸可以刻畫(huà)響應(yīng)變量更多的分布特征.Koenker[2]發(fā)現(xiàn)分位數(shù)回歸的結(jié)果可以提供比普通條件均值回歸更豐富,更有針對(duì)性.特別是,它提供了探索異質(zhì)性的來(lái)源與合作的響應(yīng)變量一種方法,并深入研究了分位回歸模型及其估計(jì).王新宇[3]系統(tǒng)地介紹了分位數(shù)的基本模型及其擴(kuò)展、分位數(shù)回歸模型的經(jīng)典統(tǒng)計(jì)推斷.Tang等[4]研究了加權(quán)復(fù)合分位數(shù)(WCQ)與隨機(jī)截尾線性回歸模型.在這個(gè)模型中,提出了可變選擇的自適應(yīng)懲罰程序,并證明了一致性和漸近正態(tài)性. Wang和Yin[5]研究了無(wú)界意義下的在線變化分位數(shù)回歸算法.
分位數(shù)回歸模型中的變量選擇問(wèn)題一直受到廣泛的關(guān)注.Shows等[6]針對(duì)一種多元線性模型,提出了對(duì)隨機(jī)刪失數(shù)據(jù)的自適應(yīng)Lasso加權(quán)LAD(AWLAD)變量選擇方法.Wang等[7]提出了BIC調(diào)整參數(shù)選擇方法,證明了這種方法能夠辨別出真模型,并在模擬中驗(yàn)證了理論的有效性.Wu等[8]研究了懲罰分位數(shù)回歸,在一些較弱的條件下得到了SCAD和自適應(yīng)Lasso懲罰分位數(shù)回歸的Oracle性質(zhì).Zou[9]提出了分位數(shù)回歸模型的自適應(yīng)Lasso的變量選擇方法,也得到了其Oracle性質(zhì).呂亞召等[10]研究部分線性單指標(biāo)復(fù)合分位數(shù)回歸模型,提出了用自適應(yīng)Lasso的變量選擇方法,該方法用BIC選擇最優(yōu)調(diào)整參數(shù),在隨機(jī)模擬中驗(yàn)證了所提方法的優(yōu)良性.
相對(duì)于橫截面或是時(shí)間序列數(shù)據(jù)來(lái)說(shuō),面板數(shù)據(jù)含有更多的信息,因此,面板數(shù)據(jù)回歸模型的研究越來(lái)越受關(guān)注.巴爾塔基[11]提出了面板數(shù)據(jù)模型及其參數(shù)的估計(jì)方法,并給出了實(shí)際應(yīng)用.李揚(yáng)等[12]提出了懲罰似然變量選擇問(wèn)題,證明了面板數(shù)據(jù)的自適Lasso具有Oracle性質(zhì).在選擇最優(yōu)調(diào)整參數(shù)時(shí),模擬顯示BIC和GCV的選擇結(jié)果一般比AIC有優(yōu)勢(shì).曲婷等[13]對(duì)平衡縱向數(shù)據(jù)模型,通過(guò)Lasso方法可將模型的系數(shù)壓縮到0,采用AIC和BIC準(zhǔn)則選取最優(yōu)參數(shù),從而達(dá)到變量選擇的目的.Koenker[14]首次提出了面板數(shù)據(jù)分位數(shù)回歸模型,用加權(quán)的形式控制分位數(shù)對(duì)效應(yīng)的影響,并加入l1懲罰項(xiàng),既保持了線性規(guī)劃形式,又保持了結(jié)果設(shè)計(jì)矩陣的稀疏性.李翰芳等[15]對(duì)隨機(jī)效應(yīng)面板數(shù)據(jù),通過(guò)引入條件Laplace先驗(yàn),構(gòu)造了一種新的貝葉斯Lasso分位數(shù)回歸法,與一般貝葉斯分位回歸法相比更有效的將異質(zhì)變量的系數(shù)壓縮到0,從而起到變量選擇的作用.
分位數(shù)回歸對(duì)誤差項(xiàng)的分布沒(méi)有具體的限制,對(duì)異質(zhì)點(diǎn)或者是非正態(tài)分布的參數(shù)的估計(jì)具有一定的穩(wěn)健性,將分位數(shù)回歸和面板數(shù)據(jù)模型兩者結(jié)合起來(lái),在控制個(gè)體差異的同時(shí),可以分析各種變量在不同分位點(diǎn)之間的關(guān)系.基于面板數(shù)據(jù)的分位數(shù)回歸模型,本文提出了一種在改進(jìn)的自適應(yīng)Lasso的罰函數(shù)下對(duì)變量進(jìn)行選擇的方法,對(duì)系數(shù)變量的值進(jìn)行壓縮,使得異質(zhì)變量的系數(shù)為0,從而達(dá)到變量選擇的效果,并證明了相合性和漸近正態(tài)性,在模擬中用驗(yàn)證了選擇的有效性.
考慮一般的隨機(jī)效應(yīng)面板數(shù)據(jù)模型
其中yij是因變量,xij是自變量,αi是不可觀測(cè)的時(shí)間不變效應(yīng),uij是誤差項(xiàng).寫(xiě)成矩陣的形式如下y=XTβ+Zα+u,其中y是n×1維,X是nm×p維,Z是nm×n維的虛擬變量的關(guān)聯(lián)矩陣,α和u是獨(dú)立的隨機(jī)向量.
令ρτk(u)=u(τk-I(u≤0)),yij的分位數(shù)函數(shù)為
為了更好的估計(jì)參數(shù),對(duì)(2.1)式提出加權(quán)分位數(shù)估計(jì)方法,
最小化(2.3)是一個(gè)凸規(guī)劃問(wèn)題,加權(quán)分位數(shù)回歸估計(jì)方法可以凸優(yōu)化來(lái)實(shí)現(xiàn).在分位數(shù)函數(shù)(2.2)中,α與因變量的條件分位數(shù)相對(duì)應(yīng),為了更好的估計(jì)截面的分位數(shù)方程,Koenker[14]引入了懲罰項(xiàng)代替高斯懲罰項(xiàng),
由于E[I(yij-ξij(τk)<0)-τk]=0,結(jié)合中心極限定理和Cram′er-Word定理,Zn,m,k和Wn,m,k依分布收斂到Zk和W1,其中Zk是一個(gè)正態(tài)隨機(jī)變量,均值為0,W1是一個(gè)n維正態(tài)向量,均值為0.因此可以得到
因此當(dāng)mn→∞時(shí),
則有
另外,由于
其中
則
由Koenker[14]中引理1,可以得到?u→dN(0,D-1ΣD-1).
在對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),人們一般會(huì)借助一些相關(guān)變量對(duì)所關(guān)心的變量進(jìn)行分析,建模,以便得到理想的結(jié)果,一般稱(chēng)這些相關(guān)的變量為協(xié)變量,而所關(guān)心的變量為因變量.在開(kāi)始建模的時(shí)候,希望加入更多的相關(guān)變量,來(lái)得到更真實(shí)的結(jié)果,然而,隨著協(xié)變量的增多,異質(zhì)變量存在的可能性就越大,于是,希望尋找一個(gè)有效方法來(lái)選出對(duì)響應(yīng)變量有顯著影響的協(xié)變量.因此變量選擇就是統(tǒng)計(jì)學(xué)中一個(gè)重要的問(wèn)題.本節(jié)對(duì)上述面板數(shù)據(jù)分位數(shù)模型的變量選擇進(jìn)行分析,在(4.1)式中需要指定調(diào)節(jié)參數(shù)λ2,本文最優(yōu)的調(diào)整參數(shù)λ2可以通過(guò)BIC (Bayesian information criterion)準(zhǔn)則選取.在加權(quán)分位數(shù)估計(jì)的同時(shí),同時(shí)希望對(duì)變量做選擇,本節(jié)選的罰函數(shù)是自適應(yīng)Lasso罰函數(shù).令
令BIC(λ)=logPλ+dfλ·log(mn)/mn,其中
(i)因?yàn)長(zhǎng)mn(δ)是對(duì)δ的分段線性函數(shù),在每個(gè)可微的點(diǎn),對(duì)k=1,2,···,K,j= q+1,···,p取Lmn(δ)對(duì)δkj的偏導(dǎo),有
在本節(jié)給出兩個(gè)例子,比較不同的方法對(duì)參數(shù)估計(jì)值優(yōu)勢(shì),并驗(yàn)證自適應(yīng)Lasso罰函數(shù)對(duì)變量選擇的有效性.
例1考慮n=50,m=5,p=1,響應(yīng)變量由下面的模型生成
其中β=1,αi和uij服從標(biāo)準(zhǔn)正態(tài)分布,ω=(0.25,0.5,0.25)在三個(gè)分位點(diǎn)τ=(0.25,0.5,0.75), xij由高斯分布生成
γi和vij獨(dú)立同分布,相應(yīng)的組內(nèi)相關(guān)系數(shù),
就是xij和xik之間的相關(guān)系數(shù),當(dāng)j 6=k時(shí),在的模擬中,都令ρx=0.5.而λ1選擇位置參數(shù)比σu/σα,λ2的選擇由上一節(jié)BIC得到,α和uij分兩種情況.
1.都來(lái)自于標(biāo)準(zhǔn)正態(tài);
2.都來(lái)自于自由度為3的t分布.
這樣可以得到分別在分位數(shù)回歸的估計(jì)方法(QR)、分位數(shù)效應(yīng)罰函數(shù)估計(jì)(PQR)、分位數(shù)回歸自適應(yīng)罰函數(shù)估計(jì)(LPQR),對(duì)β的估計(jì),如表1,可以看出在α和uij的兩種情況PQR和LPQR都比QR估計(jì)更優(yōu).
表1:例1中β參數(shù)估計(jì)
表2:例2中β罰估計(jì)
表3:例2中β變量選擇
例2令m=5,n=50,p=8,響應(yīng)變量來(lái)自下面的模型
β=(3,1.5,0,0,0,0,2,0),xij由(5.1),(5.2)式生成,αi和uij同樣分兩種情況.
1.都來(lái)自于標(biāo)準(zhǔn)正態(tài);
2.都來(lái)自于自由度為3的t分布.
表2是分位數(shù)罰估計(jì)(PQR)分別對(duì)上面兩種情形下β的估計(jì),表3是分位數(shù)自適應(yīng)Lasso罰函數(shù)(LPQR)對(duì)參數(shù)的估計(jì),通過(guò)模擬可以看出PQR可以對(duì)參數(shù)做近似估計(jì),但對(duì)異質(zhì)變量不能做選擇,而LPQR在參數(shù)估計(jì)的同時(shí)對(duì)變量做了選擇,0參數(shù)都選擇出來(lái)了,不管是參數(shù)估計(jì)還是變量選擇都比PQR有優(yōu)勢(shì).
[1]Koenker R.Bassett G.Regression quantiles[J].Econo.,1978,46:33-50.
[2]Koenker R.Quantile regression[M].Cambridge:Cambridge University Press,2005.
[3]王新宇.分位數(shù)回歸理論及其在金融風(fēng)險(xiǎn)測(cè)量中的應(yīng)用[M].北京:經(jīng)濟(jì)科學(xué)出版社,2010.
[4]Tang L,Zhou Z,Wu C.Weighted composite quantile estimation and variable selection method for censored regression model[J].Stat.Prob.Lett.,2012,3:653-663.
[5]Wang B,Yin H.Varying quantile regression with online scheme and unbounded sampling[J].J. Math.,2015,34:281-286.
[6]Shows H,Lu W,Zhang H.Sparse estimation and inference for censored median regression[J].Stat. Plan.Infer.,2010,140:1903-1917.
[7]Wang H,Li R,Tsai C L.Tuning parameter selectors for the smoothly clipped absolute deviation method[J].Biometrika,2007,94:553-568.
[8]Wu Y,Liu Y.Variable selection in quantile regression[J].Statist.Sinica,2009,19:801-817.
[9]Zou H.The adaptive Lasso and its oracle properties[J].Amer.Stat.Assoc.,2006,101:1418-1429.
[10]呂亞召,張日權(quán)等.部分線性單指標(biāo)模型的復(fù)合分位數(shù)回歸及變量選擇[J].中國(guó)科學(xué),2014,12:1299-1322.
[11]巴爾塔基.面板數(shù)據(jù)計(jì)量經(jīng)濟(jì)分析[M].北京:中國(guó)人民大學(xué)出版社,2010.
[12]李揚(yáng),曾憲斌.面板數(shù)據(jù)模型的懲罰似然變量選擇方法研究[J].統(tǒng)計(jì)研究,2014,3:83-89.
[13]曲婷,王靜.基于Lasso方法的平衡縱向數(shù)據(jù)模型變量選擇[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2012,29:715-722.
[14]Koenker R.Quantile regression for longitudinal data[J].J.Multi.Anal.,2004,91:71-89.
[15]李翰芳,羅幼喜等.面板數(shù)據(jù)的貝葉斯LASSO分位回歸方法[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2013,2:138-149.
[16]Knight K.Limiting distributions for L1regression estimators under general conditions[J].Ann. Stat.,1998,26:755-770.
PARAMETER ESTIMATION AND VARIABLE SELECTION IN THE QUANTILE REGRESSION MODEL FOR PANEL DATA
HE Xiao-xia,XU Wei,LI Huan,WU Chuan-ju
(College of Science,Wuhan University of Science and Technology,Wuhan 430065,China)
In this paper,we consider the variable selection problem for the quantile regression model based on panel data.By adding an improved adaptive lasso penalty term, we realize the quantile regression and variable selection for the panel data with f i xed ef f ect simultaneously,and obtain the consistency and asymptotical normality for the selection of the parameters.Simulation studies show the validity of the proposed method,which extend that of [14].
panel data;quantile regression;adaptive lasso;variable selection;asymptotic normality
O211.7
A
0255-7797(2017)05-1101-10
2015-09-26接收日期:2016-02-25
國(guó)家自然科學(xué)基金資助(11201356).
何曉霞(1979-),女,湖北大悟,副教授,主要研究方向:數(shù)理統(tǒng)計(jì).
2010 MR Subject Classif i cation:62F12;62J05