亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于最小距離法的穩(wěn)健群組變量選擇

2024-01-22 08:09:46李冬梅,王明秋,王秀麗

大連理工大學(xué)學(xué)報(bào) 2024年1期

李冬梅, 王明秋, 王秀麗

(曲阜師范大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院, 山東曲阜 273165 )

0 引言

近年來,變量選擇問題逐漸成為統(tǒng)計(jì)學(xué)熱點(diǎn)研究問題之一,隨著數(shù)據(jù)采集能力的提高,人們所能收集到的變量數(shù)量越來越多,但是其中有很多變量可能是不重要的,且變量數(shù)量的增加會(huì)造成計(jì)算成本增大、最優(yōu)化難以實(shí)現(xiàn)等問題,因此變量選擇在數(shù)據(jù)分析中起著至關(guān)重要的作用．有效的變量選擇不僅可以給出簡潔易懂的模型,而且可以提高模型的可解釋性和預(yù)測效果．變量選擇的概念最初出現(xiàn)在20世紀(jì)60年代,一開始是通過子集選擇法進(jìn)行變量選擇,主要有最優(yōu)子集法和逐步法等,這些方法具有很強(qiáng)的實(shí)用性,但是也具有一些局限性,例如Fan等[1]指出最優(yōu)子集法將參數(shù)估計(jì)與變量選擇分開,因此參數(shù)估計(jì)會(huì)額外受到變量選擇過程中帶來的隨機(jī)誤差影響．目前廣受歡迎的一類方法是基于懲罰函數(shù)的變量選擇法,最早是Breiman[2]提出的nonnegative garrote(NNG)方法,之后Tibshirani[3]提出了可以同時(shí)進(jìn)行參數(shù)估計(jì)和變量選擇的Lasso方法,后來學(xué)者們又相繼對(duì)Lasso方法進(jìn)行改進(jìn),提出了多種單變量選擇方法,如MCP方法[4]、Bridge方法[5]等．從Lasso懲罰函數(shù)開始,研究傾向于關(guān)注可微的損失函數(shù)和懲罰函數(shù)的特定組合,但這種特定組合大大增加了計(jì)算的復(fù)雜度,因此Liu等[6]利用Majorization-Minimization(MM)算法作為其核心優(yōu)化引擎提出了一類通用算法,用于優(yōu)化滿足一定條件的各種非光滑懲罰目標(biāo)函數(shù)．

在實(shí)際應(yīng)用中,解釋變量有時(shí)具有群組結(jié)構(gòu),例如考慮某個(gè)化學(xué)反應(yīng)的反應(yīng)速度這個(gè)多因子方差分析問題時(shí),解釋變量中包含反應(yīng)溫度、反應(yīng)時(shí)間、催化劑種類,這3個(gè)解釋變量均呈現(xiàn)分組結(jié)構(gòu),因此在這種情形下進(jìn)行變量選擇時(shí),首先要能夠正確地選擇整組變量,特別地,在雙層變量選擇問題中合理的變量選擇方法要求在正確地選擇出整組變量的基礎(chǔ)上還能夠正確選擇單個(gè)變量．在研究群組變量選擇時(shí),Zou等[7]提出了最早的具有群組變量選擇功能的Elastic Net(EN)方法,該方法的懲罰函數(shù)包括兩部分,其中嶺回歸部分可以處理具有多重共線性的數(shù)據(jù),而Lasso部分可以進(jìn)行變量選擇．有時(shí)可以知道解釋變量所具有的分組結(jié)構(gòu),Yuan等[8]最早提出了用于已知分組結(jié)構(gòu)的Group Lasso方法,使用該方法選擇群組變量時(shí)具有全進(jìn)全出的特點(diǎn),即整組變量同時(shí)選入或剔除,而不能在組內(nèi)選擇單個(gè)變量．但是在實(shí)際應(yīng)用中,不僅要能選出重要群組變量而且需要進(jìn)行組內(nèi)單個(gè)變量的選擇,因此產(chǎn)生了雙層變量選擇方法．Huang等[9]最早提出了進(jìn)行雙層變量選擇的Group Bridge方法,該方法的主要思想是在組內(nèi)和組間均采用單個(gè)變量懲罰函數(shù)．之后,Breheny等[10]又提出了組內(nèi)和組間懲罰都是MCP函數(shù)的Composite MCP方法．

異常值會(huì)引起較大的偏差,從而影響模型的擬合效果,且通常會(huì)使得參數(shù)估計(jì)變大,但是在使用logistic回歸模型的過程中發(fā)現(xiàn)極大似然估計(jì)(MLE)方法在解釋變量異常值存在的情況下會(huì)引起參數(shù)內(nèi)爆,即參數(shù)向量收縮為零向量[11]．于是在數(shù)據(jù)中存在異常值時(shí),如果仍然使用極大似然估計(jì)方法進(jìn)行參數(shù)估計(jì),并基于Lasso方法[3]的懲罰函數(shù)進(jìn)行變量選擇,那么一些非零參數(shù)向量收縮為零向量會(huì)導(dǎo)致一些重要變量被忽略,從而會(huì)降低變量選擇的準(zhǔn)確率,進(jìn)而降低模型的解釋性和預(yù)測效果．因此,針對(duì)logistic回歸模型的參數(shù)內(nèi)爆現(xiàn)象,應(yīng)該研究穩(wěn)健的參數(shù)估計(jì)并進(jìn)行群組變量選擇和雙層變量選擇．針對(duì)異常值的問題,Basu等[12]提供了極大似然估計(jì)的一個(gè)穩(wěn)健擴(kuò)展,他們提出了一種最小散度估計(jì)方法來進(jìn)行穩(wěn)健的參數(shù)估計(jì)．而基于最小距離法的L2距離之前被用于解決分類問題,Kim等[13]使用L2距離來進(jìn)行分類,他們對(duì)L2距離的應(yīng)用主要是與非參數(shù)密度估計(jì)有關(guān),而不是考慮穩(wěn)定地?cái)M合參數(shù)模型．Chi等[14]基于最小距離法研究了解釋變量中存在異常值時(shí)logistic回歸模型的變量選擇方法,然而他們沒有將該方法推廣到自然群組變量選擇和雙層變量選擇問題中,而且,目前還沒有關(guān)于群組結(jié)構(gòu)的logistic回歸模型下基于最小距離法實(shí)現(xiàn)穩(wěn)健群組變量選擇的研究,這正是本文所做的工作．

1 模型與方法

1.1 Logistic回歸模型

假設(shè)響應(yīng)變量Y是0-1型隨機(jī)變量,記Y的取值集合為χ={0,1}．現(xiàn)有n個(gè)獨(dú)立同分布的觀測樣本(xi1,…,xid;yi)(i=1,…,n),則logistic回歸模型可以表示為

(1)

通常使用極大似然估計(jì)方法對(duì)logistic回歸模型進(jìn)行參數(shù)估計(jì),由yi～B(1,pi)易知y1,…,yn的似然函數(shù)為

(2)

其負(fù)對(duì)數(shù)似然函數(shù)為

(3)

1.2 基于最小距離法的穩(wěn)健參數(shù)估計(jì)

假設(shè)Pθ是隨機(jī)變量Y的含有未知參數(shù)的概率質(zhì)量函數(shù),其中未知參數(shù)θ∈Θ,記Θ為參數(shù)空間,而真實(shí)的概率質(zhì)量函數(shù)是P．假如P已知,那么一個(gè)直觀的參數(shù)估計(jì)方法就是去尋找使得Pθ最接近P的參數(shù)．根據(jù)這個(gè)想法,可以考慮Pθ與P之間的L2距離,通過最小化該距離來得到上述logistic回歸模型的參數(shù)估計(jì)．

(4)

(5)

(6)

1.3 算法

尋找上述logistic回歸模型的L2估計(jì)量問題可以歸結(jié)為求解一個(gè)目標(biāo)函數(shù)最小值問題．由于MM算法在數(shù)值上表現(xiàn)穩(wěn)定、易于操作并且也可以用來處理基于Lasso的懲罰函數(shù),因此本文使用MM算法來求解這個(gè)最小化問題．但是MM算法不直接對(duì)目標(biāo)函數(shù)進(jìn)行最優(yōu)化求解,而是尋找目標(biāo)函數(shù)的近似替代函數(shù),對(duì)這個(gè)替代函數(shù)進(jìn)行迭代優(yōu)化．每迭代一次,就尋找一個(gè)目標(biāo)函數(shù)的上界函數(shù),然后求這個(gè)上界函數(shù)的最小值,如此一來就可以將一個(gè)比較難的優(yōu)化問題轉(zhuǎn)化為一系列較為簡單的優(yōu)化問題．

(7)

(8)

則可推出(Mθ*)ii≤η,從而有

(9)

(10)

因此,目標(biāo)函數(shù)LL2E的近似替代函數(shù)為

(11)

可以寫成

(12)

(13)

綜上所述,最小化LL2E的MM算法可以寫成如下步驟：

(2)利用下列迭代公式更新估計(jì)值：

(14)

(3)重復(fù)(2),迭代直至收斂,算法收斂性的證明詳見文獻(xiàn)[14]．

2 基于懲罰函數(shù)的變量選擇方法

(15)

基于懲罰函數(shù)的群組變量選擇方法主要是先通過加入懲罰函數(shù)對(duì)模型的整組參數(shù)β(j)進(jìn)行約束,在這種約束性質(zhì)下往往會(huì)產(chǎn)生一些恰好為零的系數(shù);之后在約束條件下最小化損失函數(shù),從而同時(shí)實(shí)現(xiàn)參數(shù)估計(jì)和群組變量選擇．群組變量選擇方法的目標(biāo)函數(shù)一般可以表示為

(16)

式中：LL2E(β)為損失函數(shù),Pλ(β(j))為懲罰函數(shù),λ>0為調(diào)整參數(shù)．

僅能選擇群組變量的懲罰函數(shù)可以表示為組間懲罰Po和組內(nèi)懲罰Pi的復(fù)合函數(shù)：

(17)

其中組內(nèi)懲罰Pi只作用在組內(nèi)參數(shù)上,不具有變量選擇功能．

本文主要使用以下3種僅能選擇群組變量的懲罰函數(shù)：

(1)Group Lasso方法(GLasso)[8]

(18)

(2)Group MCP方法(GMCP)[15]

(19)

(3)Group SCAD方法(GSCAD)[16]

(20)

其中γ>2,

(21)

雙層變量選擇方法不僅能進(jìn)行群組變量選擇,而且能對(duì)組內(nèi)變量進(jìn)行單個(gè)變量選擇,其懲罰函數(shù)可以表示為組間懲罰Po和組內(nèi)懲罰Pi的復(fù)合函數(shù),則第j組變量的復(fù)合懲罰函數(shù)可以表示為

本文主要使用如下3種雙層變量選擇方法的懲罰函數(shù)：

(1)Group Exponential Lasso方法(GEL)[17]

(22)

(2)復(fù)合MCP方法(CMCP)[10]

(23)

(3)Group Bridge方法(GBridge)[9]

(24)

3 數(shù)值模擬

為了較全面地通過數(shù)值模擬來檢驗(yàn)L2E方法的有限樣本表現(xiàn),設(shè)計(jì)了兩種不同類型的變量選擇問題且同時(shí)考慮兩種變量維數(shù)(p),結(jié)合上文中介紹的6種變量選擇方法進(jìn)行模擬,該模擬試驗(yàn)借助R語言的grpreg數(shù)據(jù)包實(shí)現(xiàn)．

懲罰函數(shù)中調(diào)整參數(shù)λ的選取對(duì)模型求解至關(guān)重要．先計(jì)算最大值λmax,然后設(shè)定最小值λmin為λmax的很小比例,如λmin=0.01λmax．本文利用訓(xùn)練集建立模型,然后利用驗(yàn)證集選取最優(yōu)的λ．訓(xùn)練集中樣本量為205,驗(yàn)證集中樣本量為1 005,模擬重復(fù)1 000次．

例1考慮僅具有組稀疏的變量選擇問題并且考慮兩種變量維數(shù)d=20,40．?dāng)?shù)據(jù)生成過程為

yi～B(1,pi)

例2考慮具有雙層稀疏的變量選擇問題并且考慮兩種變量維數(shù)d=30,60．?dāng)?shù)據(jù)的產(chǎn)生方式與例1類似,但每組大小為3．回歸系數(shù)的真實(shí)值為

表1 例1的模擬結(jié)果

首先通過比較表1和表2中的L2E與MLE方法可以看出：(1)L2E方法總體上優(yōu)于MLE方法,且不論變量維數(shù)為多少,MLE方法所得到的Fn都很大,這驗(yàn)證了在logistic回歸模型中當(dāng)解釋變量存在異常值時(shí),MLE方法確實(shí)容易把非零參數(shù)估計(jì)為零．(2)L2E方法比MLE方法選出正確模型的頻率更高,且在該數(shù)值模擬中采用MLE方法時(shí)選出正確模型的頻率均為零,因此在多次進(jìn)行模擬試驗(yàn)中,使用L2E方法更有可能選出正確模型．綜合來看,當(dāng)logistic回歸模型中解釋變量存在異常值時(shí),采用L2E方法更為合理,該方法對(duì)解釋變量中的異常值穩(wěn)健,減少了參數(shù)內(nèi)爆對(duì)變量選擇帶來的影響,提高了變量選擇的性能,降低了參數(shù)估計(jì)的誤差．

然后,在采用L2E方法的條件下比較6種懲罰函數(shù),可以得出：(1)根據(jù)表1和表2可知,GLasso方法的優(yōu)點(diǎn)是能夠正確選擇出大部分重要變量,但同時(shí)會(huì)將不重要變量錯(cuò)選為重要變量,因此容易造成模型的過擬合,于是為了模型的簡潔不應(yīng)該優(yōu)先選擇GLasso方法．(2)根據(jù)表1可知,在組內(nèi)不存在稀疏性,解釋變量數(shù)量變化時(shí),其余5種方法的衡量指標(biāo)不相上下．根據(jù)表2的結(jié)果可知,在組內(nèi)和組間均存在稀疏性時(shí),使用雙層變量選擇的方法與使用僅選擇群組變量的方法所得到的6個(gè)衡量指標(biāo)差別也不是很大,這可能是因?yàn)橹匾兞康臄?shù)量和群組規(guī)模比較?。C合比較表1和表2的結(jié)果可知,GBridge方法更勝一籌．綜上所述,應(yīng)該優(yōu)先選擇L2E結(jié)合GBridge方法所得到的目標(biāo)函數(shù)進(jìn)行穩(wěn)健群組變量選擇．

表2 例2的模擬結(jié)果

4 結(jié) 語

本文主要圍繞logistic回歸模型中解釋變量存在異常值時(shí)的群組變量選擇問題進(jìn)行研究,首先基于最小距離法介紹了具有穩(wěn)健性的L2E方法,當(dāng)解釋變量中存在異常值時(shí),該方法能夠減少回歸系數(shù)縮減為零帶來的對(duì)變量選擇的影響;之后,利用MM算法得到了L2E的迭代公式;最后,通過數(shù)值模擬比較了基于L2E方法和MLE方法在模型具有組稀疏和雙層稀疏的情況下,6種變量選擇方法在不同維數(shù)下的有限樣本表現(xiàn),結(jié)果不僅驗(yàn)證了本文L2E方法的合理性,即在logistic回歸模型中當(dāng)解釋變量存在異常值時(shí)L2E方法具有穩(wěn)健性,而且指出了在這6種懲罰函數(shù)方法中使用Group Bridge方法進(jìn)行變量選擇的準(zhǔn)確度更高．