蔣仕旗 戴家佳
(貴州大學數學與統(tǒng)計學院,貴陽550025)
Logistic 回歸是一種解決分類問題流行且有效的方法.對于某一分類問題,它的解決效果和解釋能力取決于擬合模型的變量及其對應的參數估計值,故對它而言,有效估計參數和選取變量是十分重要的.在現有的方法中,能同時有效解決Logistic 回歸這兩方面問題的方法是正則化法[1],該方法考慮在優(yōu)化的損失函數上添加一個懲罰項來估計參數,同時通過將部分參數直接壓縮為零來間接選取重要變量,其中彈性網(Elastic net)[2]是該方法的突出代表之一.
Elastic net[3]通過聯合Lasso 和Ridge 來一并估計參數和間接識別(剔除)重要變量,但它具有兩大不足:第一,缺乏oracle 性質[4],即選取出的變量不具有一致性?第二,缺少自適應分組效應[5,6],即它沒有考慮具有強相關關系的變量對響應變量的具體影響[7].為克服Elastic net 的第一個不足,Ghosh[4]將Adaptive lasso[8]和Ridge 兩者結合起來,建立Adaptive elastic net 方法來使選出的變量具有一致性. 然而,使Adaptive elastic net 具有oracle 性質的自適應系數向量W1是不易正確設置的,它一般由參數的初始估計和常數δ確定. Algamal 和Lee[9,10]指出若W1設置不對,則Adaptive elastic net 在選擇變量時存在偏差且具有較差的擬合表現. 為此,可使用Ridge 估計量及其標準誤差之比去表示W1. 當變量的方差表現出對估計具有重要影響時,也可將變量的標準差設置為W1.此外,W1也可由變量的類間平方和(BSS)與類內平方和(WSS)之比刻畫[11].這些方法均可改善Adaptive elastic net 的變量選取功能,提高Logistic 回歸的預測表現[12]. 為解決Elastic net 的第二個缺陷,Jia 等人[5]依據Elastic net 估計量的絕對值大小,通過賦予參數不同的Lasso 和Ridge 懲罰,提出了Partly adaptive elastic net. Partly adaptive elastic net 在Logistic 回歸上取得了良好的預測效果[6],但它在給予參數懲罰約束時沒有考慮參數對應變量的取值范圍,這可能會抹殺一些取值極端的重要變量.另外,在求取Logistic 回歸的參數方法中,還存在Van 等人[13]提出的先對參數進行分組后對各組參數進行不同Ridge 懲罰的Generalized ridge. Generalized ridge 具有自適應分組效應,并且其含有的Adaptive ridge 也享有自適應分組效應,能成功用于估計Logistic 回歸和線性回歸的參數[14,15]. 但Generalized ridge 不擁有選取變量的功能且適用情形較窄.
綜合現有解決Elastic net 不足的方法,可知Adaptive lasso 和Adaptive ridge 分別擁有oracle 性質,自適應分組效應,故可通過結合這兩者去同時避免Elastic net 現存的兩大缺陷,這種組合懲罰可稱為雙重自適應彈性網(Double adaptive elastic net).
Tan[16]指出在Elastic net 懲罰中,加入變量的相關系數有助于改善Elastic net 在分組效應上的表現. 故在雙重自適應彈性網中,Adaptive ridge 可用變量的相關系數來刻畫. 在一些嚴格的假設條件下,雙重自適應彈性網享有oracle 性質和自適應分組效應,這確保了它能一起有效解決Logistic回歸的參數估計和變量選取問題,并提高Logistic 回歸的擬合表現,這在模擬和實例研究上得到了驗證.
考慮一般的Logistic 回歸模型[17]:
其中πi=P(yi= 1|X=Xi),Xi= (1, xi1, xi2, ··· , xip)T,β= (β0, β1, β2, ··· , βp)T,yi ∈{0,1},i=1,2, ··· , n.β可通過最小化負的對數似然函數L(β)所得,其中
欲使估計而得的?β含有oracle 性質, 自適應分組效應和選取重要變量等特性, 可通過組合Adaptive lasso 和Adaptive ridge 懲罰來解決, 這種懲罰可叫雙重自適應彈性網(Double adaptive
elastic net),其估計β的公式為
為求解式(2.1)中的β,可吸取Reid 和Tibshirani[19]使用坐標梯度法和牛頓法求解β的做法來求取,式(2.1)可重寫為
由于λ1h?1(t)W1可能存在小于零的系數,以致其難以把某些無關變量對應的參數壓縮到零.故可抹去h?1(t),式(2.3)可改寫為
步驟1:產生β的初始解?
步驟2:計算g(t), h(t)?
步驟3:由式(2.4)去計算β(t+1)?
步驟4:重復步驟2 和步驟3 直至收斂.
此小節(jié)給出Double adaptive elastic net 具有的一些性質及其證明.
C1I(β0)是一個正定矩陣?
C2 存在一個含有β0的開集Ω,使得對于任意的β ∈Ω,存在函數M(·),滿足
且對任意的p維向量u,有E(M(X)(XT u)3)<∞?則Γn(u)?Γn(0)=A1+A2+A3,其中
對于A1,由Taylor 展開式可知,
再由中心極限定理可知,
由大數定律可知,
故
由條件C2可知,
故
由式(3.1),式(3.2),式(3.3)和Slutsky 定理可得
再由式(3.4),式(3.5)和式(3.6)可知,對于任給的u,
從而
為有效評估并比較Double adaptive elastic net,Elastic net 及其部分改進法的性能,本節(jié)分別在一組模擬例子和實例上進行實驗.實驗的評價指標選用F1, Accuracy, AUC?實驗的訓練集量:測試集量=3:1.
為檢驗Double adaptive elastic net 是否能有效避免Elastic net 在自適應分組效應上的不足,可使用具有自適應分組效應的模擬數據來進行評估(檢測). 然而,公認且能代表具有自適應分組效應的數據并不常見,但它可參考[2]和[4]中模擬數據3 的設置去生成.模擬數據3 是一個公認并具有分組效應的數據,與之相反,只需將模擬數據3 中重要變量所對應的參數設置不盡相同即可得到具有自適應分組效應的模擬數據,即此類數據可通過模型
表1和表2分別展示了Double adaptive elastic net 和一些正則化法在變量存在中度(高度)相關關系,重要變量存在自適應分組效應情形上的預測表現. 表1和表2表明,Double adaptive elastic net的表現優(yōu)于原始的Elastic net,與表現最好的Partly adaptive elastic net 相當且隨著樣本量n的增大而變得更好,這暗指Double adaptive elastic net 具有解決選取重要變量存在自適應分組效應問題的能力.同時,也發(fā)現由于Double adaptive elastic net 可視為以Adaptive elastic net 為載體的改進法,故它的預測精度絕大程度上仍然受制于參數β的初始估計?β?. 若?β?不是β的一個優(yōu)良估計,則Double adaptive elastic net 的預測精度是較差的.
表1 各方法在具有自適應分組效應的中度相關情形上的性能比較
表2 各方法在具有自適應分組效應的高度相關情形上的性能比較
為研究離婚成因,Y?ntem 和?lhan[20]收集了一個由170 對夫妻在54 個離婚測量指標(DPS)上的得分表現所構成的數據集DPD.在數據集DPD 上,響應變量為Class,其中Class=1 表示離婚,Class= 0 表示未離婚. 54 個測量指標x1, x2, ··· , x54的取值均從{0,1,2,3,4}中獲取,絕大部分特征間具有強相關關系(這可由圖1來說明). 因而,Double adaptive elastic net 和一些Elastic net改進法是適合探索影響離婚的主要因素(特征). 各方法的預測精度如表3所示.
圖1 各特征與其他特征的ρ 高于0.8 的占比,其中 表示占比為0.8 的等高線
表3 各方法在DPD 上的預測精度比較
由表3可知,Double adaptive elasic net 識別出了41 個影響離婚的特征,高于表現最好的Elastic net 和其他方法選取出的特征數,但它的表現與Elastic net 是相同的,也能很好解決離婚預測問題.
本文通過加權組合Adaptive lasso 和Adaptive ridge,提出了同時享有oracle 性質和自適應分組效應的雙重自適應彈性網(Double adaptive elasic net),并使用模擬和真實數據評估了它對Logistic回歸的提升表現.評估結果表明,在含有自適應分組效應的中度(高度)相關情形上,雙重自適應彈性網的提升效果不弱于現有的彈性網及其改進法,具有良好的預測精度. 然而,雙重自適應彈性網的應用范圍可能是較窄的,這是因為使它擁有oracle 性質的自適應系數向量W1是難以確定的. 盡管雙重自適應彈性網的W1可由參數β的初始估計?β?來確定,但當?β?不是一個優(yōu)良估計時,該方法的表現是較差的. 于是,未來可將雙重自適應彈性網中W1的確定作為下一步的研究方向,以完善并推廣雙重自適應彈性網的性質和適用領域.