李 揚(yáng),許文甫,馬雙鴿,2
(1.中國人民大學(xué) a.應(yīng)用統(tǒng)計科學(xué)研究中心,b.統(tǒng)計學(xué)院,北京 100872;2.耶魯大學(xué) 生物統(tǒng)計系,美國 48097)
大數(shù)據(jù)時代,數(shù)據(jù)的高維性與復(fù)雜性是對統(tǒng)計研究者的挑戰(zhàn)?;趹土P似然函數(shù)的變量選擇方法可以在避免遺漏重要影響因素的條件下剔除不重要的變量,使模型更加簡潔且易于解釋,是近年來統(tǒng)計方法研究的熱點[1]。雖然這類方法已被證明有良好的理論與計算性質(zhì),但在應(yīng)用研究中往往受到實際問題與數(shù)據(jù)的挑戰(zhàn):一方面,雖然成組Lasso等方法可以利用成組懲罰函數(shù)刻畫影響因素間的相關(guān)結(jié)構(gòu),實現(xiàn)變量的成組選擇[2],但生物信息學(xué)的實證研究往往要求分析者在成組變量選擇結(jié)果上進(jìn)一步選出具體的影響因素;另一方面,應(yīng)用研究的數(shù)據(jù)往往不滿足理論模型的分布假設(shè)要求。譬如圖1中的直方圖與正態(tài)概率圖說明嬰兒出生體重不完全服從正態(tài)分布假設(shè),存在一定程度的污染(Contamination)。這種污染導(dǎo)致線性回歸模型最小二乘估計量的無偏性或有效性受到影響[3],進(jìn)而影響基于模型結(jié)果對實際問題解釋的科學(xué)性。
針對第一個問題,分析者可以引入雙重懲罰函數(shù)同時進(jìn)行組內(nèi)變量的選擇,如成組Bridge、混合MCP、稀疏成組Lasso等[4-6]。其中成組Bridge具有更好的組選擇、變量選擇和預(yù)測效果[7]。針對第二個問題,當(dāng)前研究者主要使用具有穩(wěn)健性的損失函數(shù)解決分布異于假設(shè)的影響,如復(fù)合分位數(shù)回歸變量選擇、最小絕對偏差損失變量選擇、指數(shù)平方損失變量選擇[8-10]。但上述損失函數(shù)只能處理來自響應(yīng)變量異常值的影響,缺乏污染數(shù)據(jù)的一般性。記觀測到的數(shù)據(jù)A劃分為A0和A1兩部分,其中A0是滿足模型分布假設(shè)的部分?jǐn)?shù)據(jù),A1是被污染的部分?jǐn)?shù)據(jù)。在污染數(shù)據(jù)的一般定義中,A1有兩個來源:第一種是來自響應(yīng)變量的均值模型分布污染[11],第二種是來自隨機(jī)誤差項的異常值污染。均值模型分布污染指A1生成于與A0不同的均值模型,因此兩部分?jǐn)?shù)據(jù)的方差可能相同但均值存在結(jié)構(gòu)性差異。復(fù)合分位數(shù)回歸等方法只能處理第二種數(shù)據(jù)污染情況,缺乏對第一種數(shù)據(jù)污染情況下估計的穩(wěn)健性。
最小密度勢差異準(zhǔn)則是Basu等提出的穩(wěn)健有效參數(shù)估計準(zhǔn)則,其核心思想是定義經(jīng)驗分布G與假設(shè)分布F所對應(yīng)的密度函數(shù)g和f之間的差異,通過最小化該差異得到未知參數(shù)的估計[12]。Ghosh和Basu將該估計準(zhǔn)則推廣到線性回歸模型的參數(shù)估計[13]。許文甫和林玲構(gòu)造了基于最小密度勢差異準(zhǔn)則的變量選擇和成組變量選擇模型[3,14]。這種穩(wěn)健變量選擇模型既可以處理來自隨機(jī)誤差項的異常值污染,也可以處理來自響應(yīng)變量的均值模型分布污染,更具有一般性。當(dāng)數(shù)據(jù)中不存在污染時,最小密度勢差異準(zhǔn)則等價于最小二乘估計,具有最小方差的有效性,優(yōu)于最小絕對偏差損失變量選擇等方法[3,15]。
本文以應(yīng)用研究中存在污染的實際數(shù)據(jù)為研究對象,探討穩(wěn)健的稀疏成組變量選擇方法,提出基于最小密度勢差異準(zhǔn)則的成組Bridge模型。該研究方法既能選擇重要的變量組又能在組內(nèi)選擇重要變量。與最小絕對偏差損失等穩(wěn)健變量選擇方法相比,該方法可以同時處理兩種污染來源。與成組Bridge等稀疏成組變量選擇方法相比,該方法可以在污染數(shù)據(jù)條件下保持參數(shù)估計的穩(wěn)健性。
圖1 嬰兒出生體重(BWT)的直方圖和正態(tài)概率QQ圖
考慮線性回歸模型:
其中,n為樣本量,β是p維參數(shù)列向量。假定εi獨立同分布于N(0,σ2)。借鑒基于罰函數(shù)變量選擇方法的思想,最小化目標(biāo)函數(shù)(1)式得到基于最小密度勢差異準(zhǔn)則的成組Bridge估計量。
(1)
基于最小密度勢差異準(zhǔn)則的成組Bridge模型(DPD+gBridge)中包含兩類參數(shù):一類是待估參數(shù),如回歸系數(shù)β及誤差項方差σ2;另一類是調(diào)節(jié)參數(shù),如懲罰調(diào)節(jié)參數(shù)λn和穩(wěn)健調(diào)節(jié)參數(shù)α。在給定λn和α?xí)r,采用迭代方法對β和σ2進(jìn)行估計。在每一輪迭代循環(huán)中,研究者先固定β估計σ2,再固定σ2估計β。當(dāng)β固定時,目標(biāo)函數(shù)(1)式關(guān)于σ2可導(dǎo),采用牛頓算法對σ2進(jìn)行估計。當(dāng)σ2固定時,借鑒Zang等設(shè)計β的估計算法:將損失函數(shù)關(guān)于βj求偏導(dǎo)[16],得
上式可以看成是加權(quán)殘差平方和對應(yīng)的偏導(dǎo)數(shù),權(quán)重為:
因此,回歸系數(shù)β的求解可轉(zhuǎn)化為最小二乘損失成組Bridge估計(OLS+gBridge)的加權(quán)求解。加權(quán)最小二乘損失成組Bridge估計的計算復(fù)雜度等同于普通的Lasso估計[4]。當(dāng)采用坐標(biāo)下降算法估計Lasso回歸時,每一次迭代的計算復(fù)雜度為O(np)。當(dāng)采用牛頓算法估計σ2,每一次迭代的計算復(fù)雜度為O(n2),所以該算法每一次迭代的整體復(fù)雜度為O(n2+np)。當(dāng)數(shù)據(jù)量很大時,σ2的估計應(yīng)該采用其它估計算法,比如二分法,此時每一次迭代整體復(fù)雜度為O(log(n)+np)。具體算法如表1。
表1 β及σ2的估計算法
算法中待估參數(shù)β和σ2的初始值由不含懲罰約束的最小密度勢差異準(zhǔn)則估計給出。特別的,算法設(shè)計中將DPD+gBridge估計轉(zhuǎn)化為使用指數(shù)形式的加權(quán)OLS+gBridge估計。若某樣本點來自于污染數(shù)據(jù)部分A1,其殘差平方和相對較大,則權(quán)重wi相應(yīng)較小。換言之,DPD+gBridge通過對污染數(shù)據(jù)施加較小的權(quán)重達(dá)到估計的穩(wěn)健性。
針對同一個數(shù)據(jù),懲罰調(diào)節(jié)參數(shù)λn越大,懲罰約束的約束越強(qiáng),DPD+gBridge估計越稀疏;穩(wěn)健調(diào)節(jié)參數(shù)α越大,污染數(shù)據(jù)的權(quán)重越小,DPD+gBridge估計越穩(wěn)健。常用的懲罰調(diào)節(jié)參數(shù)選擇方法有AIC法、BIC法、交叉驗證法。由于AIC準(zhǔn)則傾向選擇過多的變量,本文考慮基于BIC準(zhǔn)則和五折交叉驗證的懲罰調(diào)節(jié)參數(shù)選擇方法。穩(wěn)健調(diào)節(jié)參數(shù)的選擇既可以與懲罰調(diào)節(jié)參數(shù)使用同樣的方法[16],也可以使用Wang等提出的最小化方差行列式準(zhǔn)則法(VAR)[10]。在模擬研究中,本文通過數(shù)值模擬分別比較懲罰調(diào)節(jié)參數(shù)與穩(wěn)健調(diào)節(jié)參數(shù)的最優(yōu)選擇方法。
本文通過模擬數(shù)據(jù)分析完成兩個研究目的:一方面,確定調(diào)節(jié)參數(shù)的選擇方法;另一方面,考察DPD+gBridge在稀疏性和穩(wěn)健性的表現(xiàn)。模擬研究中樣本量n固定為200,分別比較不同污染數(shù)據(jù)來源、不同污染比例下DPD+gBridge的表現(xiàn)。根據(jù)Zang等討論的建議,穩(wěn)健調(diào)節(jié)參數(shù)α的候選集合為{0.01,0.05,0.1,0.2,0.3,0.4,0.5,0.6}[16]。根據(jù)污染數(shù)據(jù)來源的差異,考慮兩種情況:
(1)均值模型分布污染。污染數(shù)據(jù)A1來自與A0不同的均值模型:污染數(shù)據(jù)A1對應(yīng)生成模型M1比A0對應(yīng)生成模型M0多四個重要的自變量,其參數(shù)來自均勻分布U(3,5),兩模型其他自變量的參數(shù)設(shè)定相同。
(2)隨機(jī)誤差分布污染。污染數(shù)據(jù)A1的誤差分布與A0不同,污染數(shù)據(jù)A1對應(yīng)生成模型M1的隨機(jī)誤差項來自t(1)分布,A0對應(yīng)生成模型M0的隨機(jī)誤差項來自正態(tài)分布。
情形1.1污染數(shù)據(jù)來自均值模型,組大小相等。
每個變量組包含8個變量,一共有J=5個組,p=40個變量。前兩組為重要變量組,共有13個重要自變量,即:
(β)1,β2,…,β8)=(0.5,0.6,…,1.2)
(β9,β10,…,β13,β14,…,β16)=(1.4,1.4,…,1.4,0,…,0)
(β17,β18,…,β40)=(0,0,…,0)
污染數(shù)據(jù)A1對應(yīng)生成模型M1額外多四個重要的自變量,其參數(shù)來自均勻分布U(3,5)。
自變量生成如下:
其中,gi表示大于(i-1)/8的最小正數(shù)。R1,R2,…,R40獨立同分布于標(biāo)準(zhǔn)正態(tài)分布。Zgi服從均值為0,方差協(xié)方差矩陣為AR(1)的多元正態(tài)分布。隨機(jī)誤差項服從均值為0,標(biāo)準(zhǔn)差為2的正態(tài)分布。
情形1.2污染數(shù)據(jù)來自均值模型,組大小不等。
前三個變量組各包含10個變量,后三個變量組各包含4個變量,一共有J=6個組,p=42個變量。其中第一、二、四、五組為重要變量組,共有21個重要自變量,即:
(β1,β2,…,β10)=(0.5,0.6,…,1.4)
(β11,β12,…,β15,β16,…,β20)=(0.5,0.6,…,0.9,0,…,0)
(β21,β22,…,β30)=(0,0,…,0)
(β31,β32,…,β34)=(1,1,…,1)
(β35,β36,β37,β38)=(1.2,1.2,0,0)
(β39,β40,…,β42)=(0,0,…,0)
污染數(shù)據(jù)A1對應(yīng)生成模型M1額外多4個重要的自變量,其參數(shù)來自均勻分布U(3,5)。
自變量生成如下:
其中,當(dāng)1≤i≤30時,gi表示小于i/10+1的最大正數(shù);當(dāng)31≤i≤42時,gi表示小于(j-30)/4+1的最大正數(shù)。R1,R2…,R42獨立同分布于標(biāo)準(zhǔn)正態(tài)分布。Zgi服從均值為0,方差協(xié)方差矩陣為AR(1)的多元正態(tài)分布。隨機(jī)誤差項服從均值為0,標(biāo)準(zhǔn)差為2的正態(tài)分布。
情形2.1污染數(shù)據(jù)來自隨機(jī)誤差分布,組大小相等。
自變量與回歸系數(shù)設(shè)定同情形1.1。污染數(shù)據(jù)對應(yīng)的隨機(jī)誤差項服從自由度為1的t分布,非污染數(shù)據(jù)對應(yīng)的隨機(jī)誤差項服從均值為0方差為2的正態(tài)分布。
情形2.2污染數(shù)據(jù)來自隨機(jī)誤差分布,組大小不等。
自變量與回歸系數(shù)設(shè)定同情形1.2。污染數(shù)據(jù)對應(yīng)的隨機(jī)誤差項服從自由度為1的t分布,非污染點對應(yīng)的隨機(jī)誤差項服從均值為0方差為2的正態(tài)分布。
從變量選擇、參數(shù)估計及預(yù)測精度等角度衡量方法的優(yōu)劣。
1.懲罰調(diào)節(jié)參數(shù)λn的選取方法
通過數(shù)值模擬比較兩種懲罰調(diào)節(jié)參數(shù)λn選取方法在基于最小密度勢差異準(zhǔn)則的成組Bridge模型下的表現(xiàn)。圖2是DPD+gBridge在模擬情形1.1下固定穩(wěn)健調(diào)節(jié)參數(shù)時不同污染數(shù)據(jù)比例的變量選擇頻率示意圖。其中兩條虛線間表示同一組變量,實心代表真模型中重要的變量,空心代表真模型中不重要的變量,圓形代表BIC準(zhǔn)則選擇的結(jié)果,三角代表五折交叉驗證法選擇的結(jié)果。圖2表示,當(dāng)污染數(shù)據(jù)比例固定時,BIC準(zhǔn)則與交叉驗證法選擇確定的懲罰程度在重要變量的頻率相差無幾,但交叉驗證法確定的懲罰調(diào)節(jié)參數(shù)傾向于選擇出更多的不重要變量,導(dǎo)致模型過于復(fù)雜。鑒于此,BIC準(zhǔn)則更適用于DPD+gBridge中懲罰調(diào)節(jié)參數(shù)的選取。
2.穩(wěn)健調(diào)節(jié)參數(shù)α的選取方法
通過數(shù)值模擬比較兩種穩(wěn)健調(diào)節(jié)參數(shù)α選取方法在基于最小密度勢差異準(zhǔn)則的成組Bridge模型下的表現(xiàn)。圖3是DPD+gBridge在模擬情形1.1下固定懲罰調(diào)節(jié)參數(shù)時不同污染數(shù)據(jù)比例的變量選擇頻率示意圖。其中兩條虛線間表示同一組變量,實心代表真模型中重要的變量,空心代表真模型中不重要的變量,圓形代表BIC準(zhǔn)則選擇的結(jié)果,三角代表VAR法選擇的結(jié)果[10]。圖3表示,隨著污染數(shù)據(jù)比例的增加,VAR法確定的穩(wěn)健調(diào)節(jié)參數(shù)在重要變量的選擇和不重要變量的剔除上均優(yōu)于BIC準(zhǔn)則確定的穩(wěn)健調(diào)節(jié)參數(shù),選擇結(jié)果與真實模型更接近。因此,VAR法更適用于DPD+gBridge中穩(wěn)健調(diào)節(jié)參數(shù)的選取。
另一方面,當(dāng)使用BIC準(zhǔn)則選擇最優(yōu)懲罰調(diào)節(jié)參數(shù)時,模擬情形1.1下不同穩(wěn)健調(diào)節(jié)參數(shù)選取方法下DPD+gBridge模型的參數(shù)估計與預(yù)測精度效果如圖4。由圖4可知,同等條件下,VAR法確定的穩(wěn)健調(diào)節(jié)參數(shù)下DPD+gBridge在參數(shù)估計和預(yù)測精度上均優(yōu)于BIC法則下的結(jié)果。鑒于此,建議后續(xù)研究中使用BIC法則選取最優(yōu)的懲罰調(diào)節(jié)參數(shù)λn,使用VAR法選取最優(yōu)的穩(wěn)健調(diào)節(jié)參數(shù)α。
圖3 模擬情形1.1,不同穩(wěn)健參數(shù)選取方法下DPD+gBridge變量選擇頻率示意圖
圖4 模擬情形1.1,BIC法選取λn,不同穩(wěn)健參數(shù)選取方法下DPD+gBridge估計與預(yù)測精度*其他模擬情形下,DPD+gBridge的MSE和RMSE結(jié)果類似,不再一一復(fù)述。
3.模型結(jié)果比較
針對模擬情形1.1至2.2,本文通過數(shù)據(jù)模擬分析比較不同污染數(shù)據(jù)比例下OLS+gBridge和DPD+gBridge的表現(xiàn)。通過表2對比可以發(fā)現(xiàn)如下結(jié)論:
(1)固定污染數(shù)據(jù)比例時,與OLS+gBridge相比,DPD+gBridge的TPR較大、FPR與FPRG較小,說明后者有較好的組選擇和變量選擇效果;
(2)固定污染數(shù)據(jù)比例時,與OLS+gBridge相比,DPD+gBridge的MSE與RMSE較小,說明后者有較好的參數(shù)估計與模型預(yù)測精度;
(3)隨著污染比例的升高,DPD+gBridge的上述優(yōu)勢越明顯;
(4)上述現(xiàn)象在不同污染數(shù)據(jù)來源情形下皆存在,說明DPD+gBridge適用于處理不同來源的污染數(shù)據(jù);
(5)上述現(xiàn)象在變量組不同大小時皆存在,說明DPD+gBridge的穩(wěn)健稀疏成組優(yōu)勢在不同變量組大小下都適用。
綜上,當(dāng)存在污染數(shù)據(jù)導(dǎo)致實際數(shù)據(jù)不完全符合模型假定時,基于最小密度勢差異準(zhǔn)則的成組Bridge模型是適用的穩(wěn)健稀疏成組變量選擇方法。該方法在變量選擇、參數(shù)估計與模型預(yù)測精度上模型優(yōu)于基于最小二乘損失的傳統(tǒng)方法。
表2 不同情形下的模擬結(jié)果
本文通過對嬰兒出生體重數(shù)據(jù)[17]26的變量選擇實證分析討論穩(wěn)健稀疏成組變量選擇模型在污染數(shù)據(jù)上的應(yīng)用效果。該數(shù)據(jù)集記載了189個嬰兒出生體重(BWT)和可能受母親因素影響的8個變量。8個變量包含2個連續(xù)型變量,分別是母親的年齡和母親未懷孕前的體重,其余變量為類別數(shù)據(jù)。圖1是響應(yīng)變量BWT的直方圖和QQ圖。從直方圖可以發(fā)現(xiàn),響應(yīng)變量中可能存在少量污染點。QQ圖說明響應(yīng)變量不嚴(yán)格服從正態(tài)分布,印證了直方圖的結(jié)論。前期研究發(fā)現(xiàn),母親的年齡和母親未懷孕前的體重對嬰兒出生體重的影響可能具有三次多項式關(guān)系[18]。因此研究者將上述兩變量的一次項、二次項和三次項分為兩組納入初始模型,將每個類別型變量對應(yīng)啞變量作為組納入初始模型,如表3。
表3 變量說明及選擇結(jié)果
本文將數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集(75%)和測試集(25%),分別擬合OLS+gBridge和DPD+gBridge模型。將上述過程重復(fù)100次,比較兩種方法在變量選擇和預(yù)測精度上的表現(xiàn)。圖5(a)和圖5(b)分別是OLS+gBridge和DPD+gBridge的變量選擇頻率圖,柱子的高度代表該變量在100組模型中被選擇出的次數(shù),柱子上方數(shù)字代表100組參數(shù)估計結(jié)果的正負(fù)關(guān)系一致性:若數(shù)字為1,說明當(dāng)該變量被選擇出來時其參數(shù)估計結(jié)果總是正數(shù);若數(shù)字為-1,說明當(dāng)該變量被選擇出來時其參數(shù)估計結(jié)果總是負(fù)數(shù);若數(shù)字為0,說明100次建模中該變量都沒有被選擇出來或者該變量參數(shù)估計結(jié)果中正負(fù)各半。因此,該數(shù)值的絕對值越接近1,說明參數(shù)估計結(jié)果越穩(wěn)健。圖5(b)中所有選擇超過半數(shù)(50次)的柱子對應(yīng)數(shù)值的絕對值都為1,說明該方法的估計結(jié)果十分穩(wěn)健。相比之下,圖5(a)中的結(jié)果就顯得“搖擺不定”,說明OLS+gBridge在不同數(shù)據(jù)劃分時參數(shù)估計結(jié)果的變異較大,其原因是不同訓(xùn)練集中不同的污染數(shù)據(jù)對估計結(jié)果產(chǎn)生影響。
由表3中的模型選擇結(jié)果可知,OLS+gBridge與DPD+gBridge都選擇出WHITE(母親是否為白人)、SMOKE(母親是否吸煙)和UI(母親是否有胎兒躁動情況)且估計結(jié)果符號一致。OLS+gBridge額外選擇出PTL1和HT兩個變量。雖然實證研究時真正起作用的變量未知,但由本文模擬研究可知OLS+gBridge傾向多選出并不重要的變量。圖5(c)表明DPD+gBridge的中位預(yù)測誤差低于OLS+gBridge的中位預(yù)測誤差且誤差變異性較小,說明在應(yīng)用研究中使用本文提出模型能獲得更加準(zhǔn)確的預(yù)測精度且有效性更高。
圖5 實證數(shù)據(jù)變量選擇頻率及預(yù)測誤差示意圖
圖5中,(a)為OLS+gBridge變量選擇頻率圖,(b)為DPD+gBridge變量選擇頻率圖,正表示變量對應(yīng)的回歸系數(shù)估計值大于0,負(fù)表示變量對應(yīng)的回歸系數(shù)估計值小于0。(c)為預(yù)測結(jié)果箱線圖。圖(a)和(b)中數(shù)字表示100次模型結(jié)果中該變量回歸系數(shù)被估計為正值的比例減去被估計為負(fù)值的比例。
本文針對應(yīng)用研究中污染數(shù)據(jù)的成組稀疏變量選擇問題,構(gòu)建了基于最小密度勢差異的成組Bridge變量選擇模型,設(shè)計有效的加權(quán)坐標(biāo)下降算法并通過數(shù)值分析討論了穩(wěn)健調(diào)節(jié)參數(shù)與懲罰調(diào)節(jié)參數(shù)的選取問題。模擬分析結(jié)果表明該方法在不同類型不同比例的污染數(shù)據(jù)情況下均具有較好的穩(wěn)健性與稀疏性,完成了擬解決的關(guān)鍵問題。實證數(shù)據(jù)分析表明該方法在應(yīng)用研究中具有良好的適用性,變量選擇結(jié)果穩(wěn)健且稀疏。特別的,該方法預(yù)測誤差不僅在平均水平上較小,且具有較小的離散程度。這說明在實證數(shù)據(jù)中對隨機(jī)樣本使用該方法進(jìn)行成組稀疏變量選擇均可得到具備準(zhǔn)確預(yù)測能力的精簡模型。
在本文研究基礎(chǔ)上,有如下兩方面可在后續(xù)研究中進(jìn)一步討論。其一,基于懲罰似然函數(shù)的變量選擇方法本質(zhì)上是一種參數(shù)估計。由于優(yōu)化過程帶有研究者設(shè)定的懲罰約束,其估計量的抽樣分布需結(jié)合目標(biāo)函數(shù)進(jìn)行推導(dǎo),進(jìn)行選擇后的統(tǒng)計推斷[19-20]。其二,隨著數(shù)據(jù)采集的便利,大規(guī)模數(shù)據(jù)集越來越多見于各領(lǐng)域的應(yīng)用研究[21]。大規(guī)模數(shù)據(jù)中難免存在來自其他總體的污染數(shù)據(jù),因此本文研究方法可以應(yīng)對大數(shù)據(jù)量的挑戰(zhàn)。對于大規(guī)模數(shù)據(jù),分治自助算法是一種可行的并行式算法[22]。當(dāng)分治自助算法應(yīng)用到本文提出的算法中,每一次迭代的計算復(fù)雜度將會降為O(log(b)+bp)×r,其中b表示分治自助算法中無放回抽樣的樣本量大小,r表示分治自助算法中通過自助算法抽取的樣本量個數(shù)。然而,如何針對大規(guī)模數(shù)據(jù)結(jié)構(gòu)設(shè)計適宜的分布式并行算法,在保證精度的前提下提高運(yùn)算效率,是后續(xù)研究中值的考慮的問題。
參考文獻(xiàn):
[1] Fan J,Lv J.A Selective Overview of Variable Selection in High Dimensional Feature Space[J].StatisticaSinica,2010(1).
[2] 李揚(yáng),趙青,馬雙鴿.生物統(tǒng)計的研究進(jìn)展與挑戰(zhàn)[J].統(tǒng)計研究,2016,33(6).
[3] 許文甫.基于密度勢差異的穩(wěn)健變量選擇方法研究 [D].北京:中國人民大學(xué),2015.
[4] Huang J,Ma S,Xie H,et al.A Group Bridge Approach for Variable Selection [J].Biometrika,2009,96(2).
[5] Zhang C.Nearly Unbiased Variable Selection Under Minimax Concave Penalty [J].The Annals of Statistics,2010,38(2).
[6] Simon N,F(xiàn)riedman J,Hastie T,et al.A Sparse-Group Lasso [J].Journal of Computational and Graphical Statistics,2013(2).
[7] Matsui H.Sparse Regularization For Bi-Level Variable Selection[J].Journal of the Japanese Society of Computational Statistics,2015,28(1).
[8] Zou H,Yuan M.Composite Quantile Regression and the Oracle model selection theory[J].The Annals of Statistics,2008(3).
[9] Wang H,Li G,Jiang G.Robust Regression Shrinkage and Consistent Variable Selection Through the LAD-Lasso[J].Journal of Business & Economic Statistics,2007,25(3).
[10] Wang X,Jiang Y,Huang M,et al.Robust Variable Selection with Exponential Squared Loss[J].Journal of the American Statistical Association,2013,108(502).
[11] Wu C,Ma S.A Selective Review of Robust Variable Selection with Applications in Bioinformatics[J].Briefings in bioinformatics,2014,16(5).
[12] Basu A,Harris I R,Hjort N L.Robust and Efficient Estimation by Minimizing a Density Power Divergence [J].Biometrika,1998,85(3).
[13] Ghosh A,Basu A.Robust Estimation for Independent Non-homogeneous Observations Using Density Power Divergence with Applications to Linear Regression [J].Electronic Journal of Statistics,2013,7(7).
[14] 林玲.基于密度勢差異法的穩(wěn)健群組變量選擇方法 [D].北京:中國人民大學(xué),2016.
[15] Leng C.Variable selection and coefficient estimation via regularized rank regression[J].Statistica Sinica,2010,20(1).
[16] Zang Y,Zhao Q,Zhang Q,et al.Inferring Gene Regulatory Relationships with a High-dimensional Robust Approach [J].Genetic Epidemiology,2017(41).
[17] Hosmer D W,Lemeshow S.Applied Logistic Regression [M].New York:John Wi-lley& Sons Inc,1989.
[18] Yuan M,Lin Y.Model Selection and Estimation in Regressionwith Grouped Variables[J].Journal of the Royal Statistical Society,2006,68(1).
[19] Taylor J,Tibshirani R J.Statistical Learning and Selective Inference[J].Proceedings of the National Academy of Sciences,2015,112(25)
[20] Lee J D,Sun D L,Sun Y,et al.Exact Post-selection Inference,with Application to the Lasso[J].The Annals of Statistics,2016,44(3).
[21] 柳向東,李鳳.大數(shù)據(jù)背景下網(wǎng)絡(luò)借貸的風(fēng)險評估——以人人貸為例[J].統(tǒng)計與信息論壇2016(5).
[22] Kleiner A,Talwalkar A,Sarkar P,M I Jordan.A Scalable Bootstrap for Massive data [J].Statistical Methodology,2014,76(4).