李楚進(jìn) 張翠霞
摘 要 為避免模型出現(xiàn)過(guò)擬合,將自適應(yīng)LASSO變量選擇方法引入二元選擇分位回歸模型,利用貝葉斯方法構(gòu)建Gibbs抽樣算法并在抽樣中設(shè)置不影響預(yù)測(cè)結(jié)果的約束條件‖β‖=1以提高抽樣值的穩(wěn)定性.通過(guò)數(shù)值模擬,表明改進(jìn)的模型有更為良好的參數(shù)估計(jì)效率、變量選擇功能和分類(lèi)能力.
關(guān)鍵詞 應(yīng)用統(tǒng)計(jì)數(shù)學(xué);分位回歸;自適應(yīng)LASSO; 變量選擇;二元選擇模型
中圖分類(lèi)號(hào) O212.1 文獻(xiàn)標(biāo)識(shí)碼 A
Abstract Binary quantile regression model with the adaptive LASSO penalty is proposed for overfitting problems by presenting a Bayesian Gibbs sampling algorithm to estimate parameters. In the process of sampling, the restriction on ‖β‖=1 is motivated to improve the stability of the sampling values. Numerical analysis show there are better improvements of the proposed method in parameter estimation, variable selection and classification.
Key words applied statistics & mathematics; quantile regression; adaptive LASSO; variable selection; binary regression
1 引 言
二元選擇模型是一種離散選擇模型,被廣泛用于經(jīng)濟(jì)、醫(yī)學(xué)、生物和教育等領(lǐng)域,其常見(jiàn)形式有線性概率模型、Probit模型和Logit模型等.這些模型均為條件均值模型,刻畫(huà)的是響應(yīng)變量的平均水平.當(dāng)數(shù)據(jù)出現(xiàn)尖峰后尾或結(jié)構(gòu)突變等特征時(shí),用條件均值并不能夠準(zhǔn)確揭示變量之間的關(guān)系.Koenker和Bassett(1978)[1]系統(tǒng)介紹了分位回歸的思想.分位回歸聚焦在條件分位數(shù)上,通過(guò)變動(dòng)分位水平來(lái)揭示特定情形下響應(yīng)變量與解釋變量的關(guān)系,挖掘的信息更加具體、豐富.特別的,Manski(1975)[2]闡述了二元選擇分位回歸的思想,并提出模型參數(shù)的極大得分估計(jì).Yu和Moyeed(2001)[3]證明了在不考慮數(shù)據(jù)原始分布時(shí),利用非對(duì)稱(chēng)拉普拉斯分布(ALD)來(lái)建立貝葉斯分位數(shù)回歸是一種非常自然且有效的方法.Benoit和Van den Poel(2012)[4]年提出了基于ALD 的二元選擇分位回歸模型的貝葉斯估計(jì)方法.
為了消除因缺少重要解釋變量而造成的模型偏差,通常將盡可能多的變量納入模型,而這又可能會(huì)使模型出現(xiàn)過(guò)擬合問(wèn)題.因此,如何從眾多變量中選出重要變量來(lái)構(gòu)建模型意義重大.Tibshirani(1996) [5]提出LASSO方法,通過(guò)對(duì)解釋變量施加非線性約束以實(shí)現(xiàn)變量的壓縮與選擇.但實(shí)際上,解釋變量對(duì)響應(yīng)變量的影響程度往往是各不相同的,從而添加LASSO懲罰項(xiàng)得到的估計(jì)量一般是有偏的.Zou(2006) [6]考慮引入權(quán)重向量來(lái)克服LASSO過(guò)度壓縮參數(shù)的問(wèn)題,提出了改進(jìn)的自適應(yīng)LASSO算法;并且指出,如果能合理選擇權(quán)重向量,自適應(yīng)LASSO的效果會(huì)很好.Benoit、Alhamzawi和Yu(2013)[7]將LASSO方法引入二元選擇分位回歸模型以研究高維問(wèn)題,利用Laplace似然比與似然先驗(yàn)構(gòu)建估計(jì),并通過(guò)貝葉斯MCMC實(shí)現(xiàn)參數(shù)估計(jì),證實(shí)模型改進(jìn)效果很好.Hashem、Vinciontti、 Alhamzawi和Yu(2016)[8]將組LASSO引入二元選擇分位回歸模型,利用貝葉斯Gibbs抽樣估計(jì)模型參數(shù),并實(shí)現(xiàn)對(duì)群組內(nèi)變量的選擇.Ji、Lin和Zhang(2012)[9]用隨機(jī)搜索變量方法結(jié)合二元選擇分位回歸進(jìn)行建模,實(shí)證和數(shù)值分析都有很好的表現(xiàn).
這里,嘗試?yán)秘惾~斯方法構(gòu)建基于自適應(yīng)LASSO的二元選擇分位回歸模型,通過(guò)數(shù)值模擬和實(shí)證分析來(lái)驗(yàn)證該模型的參數(shù)估計(jì)效率、變量選擇功能和分類(lèi)能力等.
5 結(jié) 論
為避免分位回歸模型出現(xiàn)過(guò)擬合,引入自適應(yīng)LASSO變量選擇方法改進(jìn)模型. 首先,提出一種自適應(yīng)的Laplace先驗(yàn),對(duì)不同的解釋變量系數(shù)考慮不同程度的懲罰,建立基于自適應(yīng)LASSO二元選擇分位回歸的貝葉斯分層模型.接著,構(gòu)造一種容易實(shí)現(xiàn)的Gibbs抽樣算法,特別在抽樣過(guò)程中施加不影響預(yù)測(cè)結(jié)果的約束條件‖β‖=1以提高抽樣值的穩(wěn)定性,并基于后驗(yàn)樣本對(duì)模型進(jìn)行參數(shù)估計(jì).隨后,通過(guò)數(shù)值模擬表明,所采用的貝葉斯Gibbs算法是恰當(dāng)?shù)?、有效的,得到的參?shù)估計(jì)值能夠準(zhǔn)確和全面地反應(yīng)各解釋變量對(duì)響應(yīng)變量的影響程度,并通過(guò)比較分析說(shuō)明基于自適應(yīng)LASSO變量選擇方法改進(jìn)的模型具有良好的變量選擇能力和分類(lèi)能力.最后,利用改進(jìn)模型對(duì)UCI機(jī)器學(xué)習(xí)公開(kāi)數(shù)據(jù)集中的德國(guó)信用數(shù)據(jù)進(jìn)行建模分析,并考慮與其它模型進(jìn)行對(duì)比分析.實(shí)證結(jié)果表明,自適應(yīng)LASSO二元選擇分位回歸方法能夠準(zhǔn)確刻畫(huà)數(shù)據(jù)的分布特征,識(shí)別出對(duì)個(gè)人信用有重要影響的因素,便于信貸機(jī)構(gòu)決策者有針對(duì)性地對(duì)申請(qǐng)者進(jìn)行信用評(píng)估,降低非重要因素的搜集成本和管理成本等.
參考文獻(xiàn)
[1] Roger Koenker, Gilbert Bassett, Regression Quantiles [J]. Econometrica, 1978, 46(1):33-50.
[2] Charles F. Manski, Maximum score estimation of the stochastic utility model of choice [J]. Journal of Econometrics, 1975, 3(3):205-228.
[3] Keming Yu, Rana A. Moyeed, Bayesian quantile regression [J]. Statistics & probability Letters, 2001, 54(4):437-447.
[4] Dries F. Benoit, Dirk Van den Poel, Binary quantile regression: a Bayesian approach based on the asymmetric Laplace distribution [J].Journal of Applied Econometrics, 2012, 27(7):1174-1188.
[5] Robert Tibshirani, Regression shrinkage and selection via the LASSO [J].Journal of the Royal Statistical Society, Series B, 1996, 58(1):267-288.
[6] Hui Zou, The adaptive LASSO and its oracle properties [J]. Journal of the American Statistical Association, 2006, 101(476):1418-1429.
[7] Dries F. Benoit, Rahim Alhamzawi, Keming Yu, Bayesian lasso binary quantile regression [J].Computational Statistics, 2013, 28(6):2861-2873.
[8] Hussein Hashem, Veronica Vinciontti, Rahim Alhamzawi, Keming Yu., Quantile regression with group lasso for classification [J]. Advances in Data Analysis and Classification, 2016, 10(3):375-390.
[9] Yonggang Ji, Nan Lin, Baoxue Zhang, Model selection in binary and tobit quantile regression using the Gibbs sampler[J]. Computational Statistics & Data Analysis, 2012, 56(4): 827-839.
[10]Beong In Yun, Transformation methods for finding multiple roots of nonlinear equations [J]. Applied Mathematics and Computation, 2010, 217(2): 599-606.