福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院(350002) 莊虹莉 李立婷 林雨婷 溫永仙
本文通過蒙特卡洛模擬方法產(chǎn)生模擬數(shù)據(jù),分別得到訓(xùn)練集和測試集的分類精度,其中通過10折交叉驗(yàn)證算法選擇訓(xùn)練集和測試集,分析比較傳統(tǒng)的判別分析方法、SCAD-Logistic(簡稱SCAD-L)、Elastic net-Logistic(簡稱NET-L)、L2-Group MCP-Logistic(簡稱gMCP-L)和Group Bridge-Logistic(簡稱GB-L)的優(yōu)劣。由于變量選擇、參數(shù)估計(jì)和分類精度的結(jié)果受解釋變量的類型、分組情況和樣本量的影響,故本文分別設(shè)置了6組不同的模擬數(shù)據(jù)。
基于Logistic回歸懲罰函數(shù)的疾病診斷*
福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院(350002) 莊虹莉 李立婷 林雨婷 溫永仙△
疾病診斷問題的實(shí)際是從高維的解釋變量中篩選出比較重要的特征,輔助醫(yī)療人員進(jìn)行疾病診斷,并且預(yù)測患者的危險(xiǎn)狀態(tài),其本質(zhì)也就是通過高維的解釋變量進(jìn)行分類的問題。已有大量學(xué)者將判別分析和Logistic回歸應(yīng)用到生物醫(yī)學(xué)。比如田恒宇等[1]對(duì)膽總管結(jié)石的16種相關(guān)因素進(jìn)行Logistic回歸分析,建立相應(yīng)的判別模型。然而隨著時(shí)代的進(jìn)步和高維數(shù)據(jù)的來臨,傳統(tǒng)的分類方法往往得不到預(yù)期的效果,國內(nèi)大量的學(xué)者又對(duì)疾病診斷進(jìn)行另一領(lǐng)域的研究。比如Inbarani等[2]基于粗糙集與粒子群優(yōu)化相結(jié)合的方法,提出了用于疾病診斷關(guān)鍵特征識(shí)別的方法。梁麗軍等[3]提出了結(jié)合彈性網(wǎng)和支持向量機(jī)算法的疾病診斷關(guān)鍵特征識(shí)別方法,該方法能夠得到較高的分類精度。
由于大數(shù)據(jù)時(shí)代的來臨,解釋變量眾多,變量之間復(fù)雜的關(guān)系[4],使得疾病診斷的傳統(tǒng)方法失效。若改良后的方法能解決上述問題,則依然能夠得到期望的結(jié)果?;趹土P函數(shù)的變量選擇方法能夠有效的解決上述的問題,它主要有三類:單變量選擇方法(SCAD等)、組變量選擇方法(Group MCP等)和雙層變量選擇方法(Group Bridge等)。
本文比較[5]了基于Logistic模型的懲罰函數(shù)變量選擇方法。利用懲罰函數(shù)實(shí)現(xiàn)變量選擇和參數(shù)估計(jì),通過十折交叉驗(yàn)證得到分類精度。通過不同類型數(shù)據(jù)的模擬,得到基于Logistic模型的Group Bridge具有優(yōu)良的分類精度。
1.Logistic回歸模型
對(duì)于普通Logistic回歸模型,條件概率可表示為:
(1)
其中X=(X1,X2,…,Xn)T為設(shè)計(jì)矩陣,且Xj=(xj1,xj2,…,xjm)T,j=1,2,…,n,即X為n×m的解釋變量;p=prob(y=1|X);y=(y1,y2,…,yn)T為響應(yīng)變量,且yi(i=1,2,…,n)為離散二元變量,其取值為0或1;成功概率向量,p=(p1,p2,…,pn)T,pi是指取第i次觀測值時(shí)因變量為1的概率;β0為截距,β=(β1,β2,…,βm)T為m維解釋變量的系數(shù)向量。
在Logistic回歸分析模型中,實(shí)現(xiàn)參數(shù)估計(jì)通常是通過最大似然法。最大似然法就是選取使得總體參數(shù)落在樣本觀察值鄰域內(nèi)概率達(dá)到最大的參數(shù)值作為其參數(shù)的估計(jì)值。Logistic回歸模型的似然函數(shù):
(2)
在似然函數(shù)的目標(biāo)函數(shù)中加入各種懲罰項(xiàng),就得到了各式各樣基于懲罰函數(shù)的變量選擇方法。
2.懲罰函數(shù)
懲罰函數(shù)的變量選擇方法本質(zhì)是將與解釋變量不相關(guān)的解釋變量所對(duì)應(yīng)的系數(shù)向0壓縮,主要分三類:單變量選擇、組變量選擇和雙層變量選擇。本文從中挑選了四種方法進(jìn)行研究。
(1) SCAD-Logistic
SCAD是由Fan和Li[6]提出的一種在Lasso基礎(chǔ)上發(fā)展的非凹的懲罰函數(shù),是實(shí)現(xiàn)單個(gè)變量選擇方法,將SCAD懲罰加載到Logistic模型中,就得到SCAD-Logistic。
(3)
其中pλ(|βj|)是SCAD的懲罰項(xiàng),定義如下:
其中λ>0為罰參數(shù),α>2為調(diào)整參數(shù)。Fan提出α=3.7時(shí),估計(jì)效果最好。
(2)Elastic Net-Logistic
(4)
其中α為罰參數(shù),當(dāng)α=1時(shí),上式為嶺回歸;當(dāng)α=0時(shí),上式為Lasso回歸。所以說,Elastic Net回歸結(jié)合了Lasso回歸和嶺回歸的優(yōu)點(diǎn),既能消除自變量間的多重共線性,又能進(jìn)行變量選擇,以高預(yù)測精度選擇稀疏模型,還能處理群組效應(yīng)。
(3)L2-Group MCP-Logistic
當(dāng)解釋變量存在組結(jié)構(gòu)時(shí),我們希望對(duì)變量進(jìn)行分組從而實(shí)現(xiàn)變量選擇。L2-Group MCP是Huang和Breheny[8]提出的基于MCP的組變量選擇方法,其組間的懲罰函數(shù)是MCP懲罰而組內(nèi)的懲罰函數(shù)類似于嶺回歸,因此只能實(shí)現(xiàn)變量的組間選擇而不能實(shí)現(xiàn)變量的組內(nèi)選擇。因此組變量的選擇方法在于考慮了變量的分組情況,可以實(shí)現(xiàn)對(duì)同一組的變量同時(shí)保留或是同時(shí)刪除。
假設(shè)已知分有J組變量,分別為A1,A2,…,AJ,每組的變量數(shù)為m1,m2,…,mJ。令βAj=(βj)j∈Aj是β相應(yīng)變量構(gòu)成的子向量,將Group MCP加載到Logistic模型中,就得到Group MCP-Logistic。
(5)
(4)GroupBridge-Logistic
雙層變量選擇方法的獨(dú)特之處在于篩選變量時(shí)考慮了變量的分組結(jié)構(gòu),不僅能夠?qū)崿F(xiàn)篩選出重要分組,而且能夠?qū)崿F(xiàn)在組內(nèi)篩選出重要的單個(gè)變量。Huang等[8]提出實(shí)現(xiàn)雙層變量選擇的其中一種方法是復(fù)合懲罰,即可以看成是組間懲罰和組內(nèi)懲罰的一種復(fù)合函數(shù),對(duì)第j組變量的懲罰項(xiàng)表示為:
其中Pouter是組間懲罰,Pinner為組內(nèi)懲罰。
Breheny和Huang[9]提出,只需在組內(nèi)和組間都選擇單個(gè)變量選擇的懲罰項(xiàng),例如Lasso、SCAD、MCP懲罰等,就能實(shí)現(xiàn)組間和組內(nèi)的變量選擇。由此得到Group Bridge[10]變量選擇方法,它是組間進(jìn)行Bridge懲罰,組內(nèi)進(jìn)行Lasso懲罰。
(6)
其中,λ>0是罰參數(shù),常數(shù)cj為βAj的調(diào)整參數(shù),一般選擇cj∝=|Aj|1-γ,γ為Bridge的指標(biāo),當(dāng)0<γ<1時(shí),可同時(shí)實(shí)現(xiàn)單變量和組變量的選擇。
3.罰參數(shù)的選擇
調(diào)整合適的罰參數(shù)對(duì)模型的求解至關(guān)重要,目標(biāo)是使得模型的預(yù)測精度達(dá)到最優(yōu)。本文通過10折交叉驗(yàn)證(10-fold Cross-Validation)實(shí)現(xiàn)罰參數(shù)的選擇。10折交叉驗(yàn)證的流程詳細(xì)見文獻(xiàn)[11]。
本文通過蒙特卡洛模擬方法產(chǎn)生模擬數(shù)據(jù),分別得到訓(xùn)練集和測試集的分類精度,其中通過10折交叉驗(yàn)證算法選擇訓(xùn)練集和測試集,分析比較傳統(tǒng)的判別分析方法、SCAD-Logistic(簡稱SCAD-L)、Elastic net-Logistic(簡稱NET-L)、L2-Group MCP-Logistic(簡稱gMCP-L)和Group Bridge-Logistic(簡稱GB-L)的優(yōu)劣。由于變量選擇、參數(shù)估計(jì)和分類精度的結(jié)果受解釋變量的類型、分組情況和樣本量的影響,故本文分別設(shè)置了6組不同的模擬數(shù)據(jù)。
1.模擬數(shù)據(jù)
假設(shè)數(shù)值分析的模型為:
模擬1:取Xi~N(0,1)且變量Xi和Xj之間的相關(guān)系數(shù)為Rij=0.1|i-j|,即變量之間存在弱相關(guān)關(guān)系且內(nèi)部不存在組結(jié)構(gòu)的數(shù)據(jù),其中設(shè)定300個(gè)解釋變量對(duì)應(yīng)的參數(shù)(8個(gè)顯著變量)為:
β300×1=(-2,1,1,0.5,-1,1,2,3.5,0,0,…,0)T
模擬2和模擬3僅是將解釋變量之間的R0相關(guān)系數(shù)分別取值為0.5和0.8,使得解釋變量之間存在相關(guān)關(guān)系和強(qiáng)相關(guān)關(guān)系,其他與模擬1保持相同的設(shè)置。
模擬4:在模擬1的基礎(chǔ)上,加入了變量之間的多重共線性關(guān)系,使得:X1=2X2+4X3+2X4。
模擬5:考慮解釋變量之間存在組結(jié)構(gòu)、變量之間的多重共線性關(guān)系,且顯著變量組內(nèi)沒有零系數(shù)。這里模仿Wei和Huang[12]的方法給出。將變量分成60組,此時(shí)有X=(X1,X2,…,X60),其中Xi=(X5(i-1)+1,…,X5(i-1)+5),1≤i≤60即每組有5個(gè)變量。詳細(xì)的產(chǎn)生步驟見文獻(xiàn)。其中每組參數(shù)的系數(shù)為(10個(gè)顯著變量):β1=(0.5,1,1.5,2,2.5)T,β2=(2,2,2,2,2)T,β3=…=β60=(0,0,0,0,0)T
模擬6:與模擬5不同的是變量之間的具體分組不一樣,且顯著變量的組內(nèi)存在零系數(shù)。數(shù)據(jù)的產(chǎn)生與模擬數(shù)據(jù)5類似,不同的是將解釋變量分成74組,前四組大小為5,后70組大小為4(15個(gè)顯著變量),即
β1=(-3,-2,-1,1,2)T,β2=(-3,-2,-1,1,0)T,β3=β4=(0,0,0,0,0)T
β5=(2,-2,1,1.5)T,β6=(-1.5,1.5,0,0)T,β7=…=β74=(0,0,0,0)T
通過計(jì)算機(jī)分別模擬這6種不同的數(shù)據(jù)類型,樣本容量分別取n=1000,500,200,每種樣本容量下重復(fù)500次實(shí)驗(yàn)。分別用傳統(tǒng)的Fisher判別分析、SCAD-L方法、ENT-L方法、gMCP-L方法和GB-L方法對(duì)模擬數(shù)據(jù)進(jìn)行變量選擇和參數(shù)估計(jì),并且得到訓(xùn)練集和測試集的分類精度。主要借助R語言中的glmnet包(ENT-L)、ncvreg包(SCAD-L)和grpreg包(gMCP-L和GB-L)實(shí)現(xiàn)變量選擇和參數(shù)估計(jì),進(jìn)一步借助MATLAB得到訓(xùn)練集和測試集的分類精度。
2.模擬結(jié)果分析
根據(jù)數(shù)據(jù)模擬方法得到不同的數(shù)據(jù)類型,對(duì)其分別進(jìn)行分析。由表1可以得出結(jié)論:
表1 解釋變量之間存在各種相關(guān)且無組結(jié)構(gòu)(模擬1到模擬4)的分析結(jié)果
*:表中“0”表示將全部樣本y值為0的樣本判斷正確的精度,即對(duì)“0”的預(yù)測精度;表中“1”表示將全部樣本y值為1的樣本判斷正確的精度,即對(duì)“1”的預(yù)測精度;表中“總體”表示將全部樣本判斷正確的精度,即對(duì)“總體”的預(yù)測精度;表中“多重共線性”表示解釋變量之間存在多重共線性且無組結(jié)構(gòu);表中“訓(xùn)練集”表示將訓(xùn)練集中的全部樣本判斷正確的精度;表中“測試集”表示將測試集中的全部樣本判斷正確的精度;表中“變量數(shù)”表示選擇的變量數(shù)量,F(xiàn)isher不能實(shí)現(xiàn)變量的選擇,因此用“-”表示。
(1)無論解釋變量之間的相關(guān)程度如何,所有的判別方法都是隨著樣本量的減少分類精度隨之變差,尤其 Fisher判別最為明顯,當(dāng)n
(2)針對(duì)Fisher判別,當(dāng)解釋變量存在相關(guān)關(guān)系時(shí),其在訓(xùn)練集的分類精度是最高的,但是在測試集的分類精度是最低的,而疾病診斷則是對(duì)患者進(jìn)行疾病判別,因此該方法不適用;且當(dāng)解釋變量存在多重共線性時(shí),無論樣本量為多少,其測試集和訓(xùn)練集的分類精度下降為60%左右,導(dǎo)致方法失效。
(3)針對(duì)SCAD-L,隨著解釋變量之間的相關(guān)程度的加強(qiáng),分類精度明顯提高。在弱相關(guān)下SCAD-L的分類精度最高,但是在多重共線性下,分類精度不如其他的三種懲罰方法。
(4)針對(duì)NET-L,與SCAD-L相似,分類精度隨著解釋變量之間相關(guān)程度的增加而提高,甚至比SCAD-L高,主要是因?yàn)镋NT-L適用于高度相關(guān)的變量選擇方法。
(5)針對(duì)gMCP-L,是組變量選擇,即只能實(shí)現(xiàn)變量的組間選擇而不能實(shí)現(xiàn)變量的組內(nèi)選擇。這里是通過普通聚類的方法得到分組變量,得到的分類精度不穩(wěn)定有可能是因?yàn)檫@里僅是通過普通的聚類方法實(shí)現(xiàn)變量的分組,聚類方法未使得變量準(zhǔn)確的分組或是組變量存在零系數(shù),從而影響分類精度。
(6)針對(duì)GB-L,是雙層變量選擇,即能夠同時(shí)實(shí)現(xiàn)變量的組間選擇和組內(nèi)選擇,因此相對(duì)于其他方法來說,均表現(xiàn)出優(yōu)良的性質(zhì),具有最高或次高的分類精度和選擇穩(wěn)定且準(zhǔn)確的變量數(shù)。
(7)綜合以上的分析,無論是解釋變量之間的相關(guān)程度、多重共線性,GB-L均表現(xiàn)出優(yōu)良的性質(zhì),具有最高或次高的分類精度和選擇穩(wěn)定且準(zhǔn)確的變量數(shù)。雖然在以上4種模擬中,gMCP-L在某些模擬下表現(xiàn)出優(yōu)良的性質(zhì),但是它對(duì)解釋變量聚類的準(zhǔn)確率要求較高,稍有不慎可能使得精度驟然下降,因此在解釋變量沒有組結(jié)構(gòu)或是不知具體分組的情況下,不建議使用gMCP-L。
當(dāng)解釋變量存在組結(jié)構(gòu)時(shí),由表2可以得出總體趨勢與之前分析結(jié)果類似,存在差異的有以下幾點(diǎn):
(1)當(dāng)組內(nèi)無零系數(shù)時(shí),與模擬4相比,SCAD-L和NET-L分類精度明顯降低,主要是因?yàn)镾CAD-L是針對(duì)單個(gè)變量的選擇方法,NET-L是針對(duì)高度相關(guān)的方法,并不適合解釋變量存在組結(jié)構(gòu)的數(shù)據(jù)類型。針對(duì)gMCP-L和GB-L,分類精度明顯提高,因?yàn)榇藭r(shí)的解釋變量存在組結(jié)構(gòu),采用具有分組效果的懲罰方法優(yōu)勢更加明顯;而gMCP-L的分類精度比GB-L高,可能是因?yàn)轱@著變量沒有組內(nèi)的零系數(shù),這相對(duì)于組變量選擇方法剛好可以完全選擇出來,但對(duì)于雙層變量選擇的特點(diǎn),極有可能將組內(nèi)的顯著變量中系數(shù)較小的變量剔除了,同時(shí)也可能將不顯著變量組內(nèi)的某些變量篩選出來。
(2)當(dāng)組內(nèi)存在零系數(shù)時(shí),五種方法得到的分類精度比模擬5明顯降低,因?yàn)閿?shù)據(jù)更為復(fù)雜。針對(duì)組變量懲罰方法gMCP-L,僅當(dāng)樣本量逐漸減少的時(shí)候才出現(xiàn)比SCAD-L和NET-L分類精度高;與GB-L相比分類精度明顯較低,而且選擇的變量數(shù)較多,出現(xiàn)這個(gè)情況是因?yàn)間MCP-L只能進(jìn)行組間變量選擇不能進(jìn)行組內(nèi)變量選擇,當(dāng)組內(nèi)存在零系數(shù)時(shí),同一組中既存在顯著變量又存在不顯著變量,根據(jù)gMCP-L的特性會(huì)將一整組的變量選擇出來,于是增加gMCP-L的誤差,所選擇的變量數(shù)也就增多或減少了。
3.小結(jié)
通過對(duì)6種不同數(shù)據(jù)類型模擬分析,無論是解釋變量之間的相關(guān)程度、多重共線性、存在組變量或是組內(nèi)是否有零系數(shù),GB-L均表現(xiàn)出優(yōu)良的性質(zhì),這主要是因?yàn)镚B-L是雙層變量選擇,既能實(shí)現(xiàn)變量的組間選擇又能實(shí)現(xiàn)組內(nèi)選擇,當(dāng)變量無組結(jié)構(gòu)或是組內(nèi)有零系數(shù)時(shí),并不會(huì)導(dǎo)致選擇過多或過少的變量數(shù),從而沒有影響總體的分類精度;針對(duì)選擇的變量數(shù),GB-L較其他三種方法選擇出更為準(zhǔn)確的變量數(shù);且在實(shí)際生活中,我們難以確認(rèn)組內(nèi)是否有零系數(shù),因此我們可以考慮選擇雙層變量選擇的方法,來保證各種數(shù)據(jù)類型的變量選擇和參數(shù)估計(jì)的效果。
表2 解釋變量之間存在組結(jié)構(gòu)(模擬5和模擬6)的分析結(jié)果
*:表中“組結(jié)構(gòu)且組內(nèi)無零系數(shù)”表示解釋變量存在組結(jié)構(gòu)且顯著變量沒有組內(nèi)零系數(shù);表中“組結(jié)構(gòu)且組內(nèi)有零系數(shù)”表示解釋變量存在組結(jié)構(gòu)且顯著變量有組內(nèi)零系數(shù)。
本文采用了UCI 數(shù)據(jù)庫中Arrhythmia 數(shù)據(jù)集進(jìn)行實(shí)證分析,該數(shù)據(jù)集有452個(gè)樣本,每個(gè)樣本有279個(gè)屬性,其中包括年齡、性別、心率、身高等。由于每個(gè)樣本的第14個(gè)屬性幾乎都是缺失的,因此將這一屬性剔除;接著查找每一個(gè)樣本,只要有數(shù)據(jù)缺失就把該樣本剔除。最后得到420個(gè)樣本,278個(gè)屬性。該數(shù)據(jù)集的屬性維度較高,而每個(gè)類別的樣本量又較少,有的甚至沒有樣本,因此將420個(gè)樣本分為兩類:心律失常病人和正常人,其中有183個(gè)心律失常的病人,并將此作為類別0 的數(shù)據(jù)集;237個(gè)正常人作為類別1的數(shù)據(jù)集。
1.五種方法的比較研究
表3 Arrhythmia 數(shù)據(jù)集實(shí)證分析結(jié)果
從表3可以看出,GB-L無論在訓(xùn)練集還是在測試集均保持最好的分類精度,其中測試集的分類精度達(dá)77.9%,針對(duì)選擇的變量數(shù):GB-L選擇了12個(gè)變量。這里的gMCP-L精度低和選擇的變量數(shù)多可能因?yàn)榻M內(nèi)存在零系數(shù)。實(shí)證分析結(jié)果與模擬實(shí)驗(yàn)的結(jié)果大為相近,研究結(jié)果表明,GB-L方法的預(yù)測能力比其他模型高,具有有效的降維能力。
2.與其他方法的比較研究
梁麗軍等[3]以UCI 中Arrhythmia 數(shù)據(jù)集為例進(jìn)行測試,運(yùn)用彈性網(wǎng)-SVM對(duì)疾病診斷進(jìn)行關(guān)鍵特征識(shí)別,十折交叉驗(yàn)證得到分類精度為77.05%。而本文中的GB-L方法對(duì)疾病診斷進(jìn)行關(guān)鍵特征識(shí)別的分類精度為77.9%,比彈性網(wǎng)-SVM的分類精度略好一點(diǎn)。由于本文也是通過十折交叉驗(yàn)證獲取訓(xùn)練集和測試集,因此在相同條件下具有可比性。
1.GB-L方法具有較高的預(yù)測能力
本文從模擬和實(shí)證的角度系統(tǒng)地將GB-L方法與Fisher判別、Net-L、SCAD-L、彈性網(wǎng)-SVM進(jìn)行比較。從結(jié)果上看,GB-L方法具有一定的優(yōu)勢,能提高分類精度,實(shí)現(xiàn)變量的選擇。與模擬分析相比,GB-L預(yù)測精度下降了,因?yàn)閷?shí)際數(shù)據(jù)比模擬數(shù)據(jù)有更加復(fù)雜的關(guān)系,而且重點(diǎn)影響總體預(yù)測精度的是對(duì)“0”預(yù)測,由于此時(shí)NET-L和gMCP-L對(duì)“0”具有較高的預(yù)測精度87.5%和78.3%均優(yōu)于GB-L對(duì)“0”預(yù)測57.1%,但是由于從模擬分析結(jié)果中得知NET-L及其的不穩(wěn)定性,因此考慮是否可以結(jié)合GB-L(對(duì)“1”的預(yù)測)和gMCP-L(對(duì)“0”的預(yù)測),從而提高總體的預(yù)測精度。
2.基于懲罰函數(shù)的變量選擇方法的運(yùn)用
目前,基于懲罰函數(shù)的變量選擇方法在各個(gè)領(lǐng)域中被廣泛運(yùn)用。例如,方匡南等[13]提出在基于Lasso的Logistic模型上研究信用卡的違約問題;蔣士正等[14]提出Lasso和神經(jīng)網(wǎng)絡(luò)的組合模型來預(yù)測復(fù)雜路網(wǎng)短時(shí)交通流。因此,GB-L無論是對(duì)于疾病診斷問題,信用卡違約問題還是復(fù)雜路網(wǎng)短時(shí)交通流等問題都具有研究價(jià)值。GB-Logistic方法對(duì)于具有組效應(yīng)的高維問題可以進(jìn)行有效地處理,這對(duì)大數(shù)據(jù)時(shí)代下的高維數(shù)據(jù)處理奠定了基礎(chǔ)。
[1]田恒宇,周漢新,鮑世韻,等.膽總管結(jié)石相關(guān)因素及指標(biāo)的Logistic回歸判別分析.中國普通外科雜志,2007,16(5):483-485.
[2]Inbarani HH,Azar AT,Jothi G.Supervised hybrid feature selection based on PSO and rough sets for medical diagnosis.Computer methods and programs in biomedicine,2014,113(1):175-185.
[3]梁麗軍,劉子先,王化強(qiáng).基于彈性網(wǎng)-SVM的疾病診斷關(guān)鍵特征識(shí)別.計(jì)算機(jī)應(yīng)用研究,2015(5):1301-1304.
[4]楊凱,侯艷,李康.條件推斷森林在高維組學(xué)數(shù)據(jù)分析中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2016,(2):215-218.
[5]華洋靜玲,洪金省,張海榮,等.三種方法構(gòu)建鼻咽癌患者營養(yǎng)指數(shù)模型的比較分析及其截?cái)帱c(diǎn)確定.中國衛(wèi)生統(tǒng)計(jì),2016,(2):194-197.
[6]Fan J,Li R.Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties.Journal of the American Statistical Association,2001,96(456):1348-1360.
[7]Hui Z,Trevor H.Regularization and variable selection via the elastic net.Journal of the Royal Statistical Society,2005,67(2):301-320.
[8]Huang J,Breheny P,Ma S.A Selective Review of Group Selection in High-Dimensional Models.Statistical Science,2012,27(4):481-499.
[9]Breheny P,Huang J.Penalized methods for bi-level variable selection.Statistics and its interface,2009,2(3):369-380.
[10]Huang J,Ma S,Xie H,et al.A group bridge approach for variable selection.Biometrika,2009,96(2):339-355.
[11]高少龍.幾種變量選擇方法的模擬研究和實(shí)證分析.山東大學(xué),2014.
[12]Wei F,Huang J.Consistent group selection in high-dimensional linear regression.Bernoulli:official journal of the Bernoulli Society for Mathematical Statistics and Probability,2010,16(4):1369-1384.
[13]方匡南,章貴軍,張惠穎.基于Lasso-logistic模型的個(gè)人信用風(fēng)險(xiǎn)預(yù)警方法.數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2014(2):125-136.
[14]蔣士正,許榕,陳啟美.基于變量選擇-神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜路網(wǎng)短時(shí)交通流預(yù)測.上海交通大學(xué)學(xué)報(bào),2015,49(2):281-286.
(責(zé)任編輯:劉 壯)
國家自然科學(xué)基金項(xiàng)目(31171448);國家自然科學(xué)基金項(xiàng)目(31571558);福建農(nóng)林大學(xué)數(shù)學(xué)建模實(shí)訓(xùn)室(111ZS1503)
△通信作者:溫永仙,E-mail:wenyx9681@fafu.edu.cn