趙俊琴 王 慧 王 彤△
·應用研究·
基于LASSO的高維數據線性回歸模型統(tǒng)計推斷方法比較*
趙俊琴1,2王 慧1王 彤1△
目的 比較五種基于LASSO的高維數據線性回歸模型統(tǒng)計推斷方法:LASSO-懲罰計分檢驗,多重樣本拆分、穩(wěn)定選擇、低維投影、協(xié)方差檢驗。方法 采用R軟件模擬不同情形的高維數據,用五種方法做統(tǒng)計推斷,以期望假陽性率和檢驗效能為評價指標,比較這五種方法在不同高維數據情形下的表現。結果 在理想高維數據情形下,除協(xié)方差檢驗推斷結果保守外,其余方法表現都較好。在復雜高維數據情形下,LASSO-懲罰計分檢驗的檢驗效能是五種方法中最高的,其次為多重樣本拆分,而LASSO-懲罰計分檢驗的EFP也是最高的,多重樣本拆分的EFP基本接近0。結論 在常見復雜高維數據中LASSO-懲罰計分檢驗和多重樣本拆分是兩種較好的高維線性回歸模型統(tǒng)計推斷方法,兩者相對而言前者較寬松,后者較保守。在實際應用中可根據應用需求來選擇合適的統(tǒng)計推斷方法。
高維數據 LASSO 統(tǒng)計推斷 線性回歸
高通量檢測技術的發(fā)展帶來了如基因、多肽、蛋白組學等大規(guī)模數據。這類預測變量p大于樣本量n,甚至p隨著n的增長呈數量級增長的數據被稱為高維數據[1]。如何從大量的預測變量中迅速準確地篩選出少數真實變量集是高維數據分析面臨的重要問題。目前針對高維數據的變量篩選方法已發(fā)展較為完善,主要包括懲罰類變量篩選方法(LASSO、彈性網等)、主成分分析法、偏最小二乘法等。然而基于有限樣本建立的模型的可靠性和穩(wěn)定性還需要進一步通過統(tǒng)計推斷來給出答案。
由于高維數據的變量篩選方法大多依靠稀疏假定,存在很多系數為零的變量,分布的不連續(xù)性導致很難得到系數估計值的近似分布,因此高維數據的統(tǒng)計推斷領域還未有公認的好方法。LASSO(least absolute shrinkage and selection operator)可獲得最優(yōu)解和解的稀疏性,自提出以來備受歡迎。因此本研究將介紹現有的基于LASSO的高維數據線性回歸模型統(tǒng)計推斷方法,分別是協(xié)方差檢驗(covariance test)、多重樣本拆分(multiple sample-splitting)、穩(wěn)定選擇(stability selection)、低維投影(Low-dimensional projection estimate)、LASSO-懲罰計分檢驗(LASSO penalized score test),并作比較,目的在于推薦其中較好的方法。
1.LASSO簡介
LASSO的主要思想是在最小二乘法的基礎上加入一個懲罰項λ‖β‖1,通過使系數的絕對值和小于某一個常數來最小化殘差平方和,同時與y關系弱的自變量系數被懲罰為0從而實現稀疏性。相比最小二乘法,LASSO犧牲了一些無偏性但實現了解的稀疏性,使模型更為穩(wěn)定。LASSO解是凸函數,可獲得最優(yōu)解,見公式(1)。
(1)
選擇合適大小的調整參數λ很重要(λ過大,可能導致過多變量被懲罰為0,從而遺漏重要變量;反之,可能導致最終模型過度擬合而可解釋性差)。目前λ的估計方法主要有:交叉驗證法、廣義交叉驗證法和無偏風險估計分析[2]。下文中未做特別說明的λ選擇方法均為交叉驗證法。
2.協(xié)方差檢驗
協(xié)方差檢驗[3]是基于LASSO解路徑的方法,即隨著λ從某個值(在該λ下LASSO模型只包含截距項)減小到0,每一次λ減小有一個變量進入模型,然后檢驗該變量所引起的殘差平方和的改變量是否在殘差方差解釋的范圍內,直到下一個進入模型的變量被檢驗為無統(tǒng)計學意義終止,由該變量之前所有變量構成最終模型。
3.多重樣本拆分
多重樣本拆分法源自對單樣本拆分的改進。單樣本拆分的主要思想是拆分樣本、降維、用經典檢驗方法做推斷。但單樣本拆分法的結果不穩(wěn)定,過于依賴樣本的拆分結果[4]。為了提高可重復性,Meinshausen和Meier提出多重樣本拆分[5],將樣本隨機拆分為兩份樣本量相同的子樣本,第一份采用LASSO篩選變量得到變量集,第二份用最小二乘法作參數估計,并采用經典檢驗方法對變量作檢驗。以上整個過程重復B次,將P值合并。重復次數B達到50到100即可。
4.穩(wěn)定選擇
5.低維投影
6.LASSO-懲罰計分檢驗
采用R軟件模擬高維數據不同情形。
設置自變量矩陣Xn×p,每一行表示一個觀測,每一列表示一個自變量。X1,…,Xp均為服從正態(tài)分布N(0,1)的獨立隨機變量,隨機誤差項服從標準正態(tài)分布。
7種樣本量:n=50、75、100、150、200、300、400;兩種自變量個數:p=100、300;
兩種自變量間相關性:(1)自變量間相互獨立corr(Xi,Xj)=0;(2)自變量間的相關性隨著自變量在矩陣中距離越遠而遞減corr(Xi,Xj)=0.5|i-j|。LASSO在處理相關性較強的數據中表現較差,第二種相關性設定可觀察五種方法的推斷結果是否依賴于LASSO的變量估計結果;
按照以上參數的設置生成高維數據(見圖1、圖2),模擬次數B=100,分別用前面介紹的五種方法進行變量篩選及統(tǒng)計推斷。其中穩(wěn)定選擇的重復抽樣次數設為500,截斷點πthr取0.6;多重樣本拆分的拆分次數設為50;LASSO-懲罰計分檢驗采用近似方差估計法。結果評價指標為期望假陽性率(expected false positives,EFP)和檢驗效能,分別定義如下:
(2)
(3)
‖β‖0表示真實非零回歸系數的個數,Pjk表示第k(k∈(1,…,B))個模擬數據中第j個變量的P值。
分別以EFP和檢驗效能為縱坐標,五種方法為橫坐標作圖。圖1顯示隨著自變量個數的增加,五種方法的EFP均明顯增加。圖2顯示真實回歸系數的降低,使五種方法的檢驗效能均大幅度降低,特別是在小樣本的情況下降低更為明顯。在理想高維數據情形下(a圖)穩(wěn)定選擇的表現是五種方法中最好的,但在實際情況下理想的高維數據很難見到。常見復雜高維數據情形下(h圖)LASSO-懲罰計分檢驗發(fā)現真實非零變量的能力優(yōu)于其余四種方法,且其對非零變量可識別性的要求低,但期望假陽性率高。多重樣本拆分發(fā)現真實變量的能力雖然依賴于非零變量可識別性,但當要求不滿足時結果僅次于LASSO-懲罰計分檢驗,且其期望假陽性率極低。
在常見復雜高維數據中LASSO-懲罰計分檢驗和多重樣本拆分是兩種較好的高維數據線性回歸模型統(tǒng)計推斷方法.兩者相對而言前者較寬松,后者較保守。在實際應用中無法得知真實數據非零變量可識別性的高低,但可根據實際需求來選擇合適的統(tǒng)計推斷方法。例如,若是探索性分析想要從大量數據信息中檢測出可能與結果變量相關的所有變量,或是在惡性疾病相關基因的檢測中,檢測出與其相關的所有可能基因來進一步驗證,則可用LASSO-懲罰計分檢驗,檢測結果較全面。若是驗證性分析,要求被檢測為有意義的變量與結果變量存在實際相關的概率很高,則可用多重樣本拆分。
圖1 五種方法的EFP
(橫坐標數字1~6分別代表:LASSO-懲罰計分檢驗λ分別為0.05、0.07、0.1、0.2、0.5、0.7;7:多重樣本拆分;8:穩(wěn)定選擇;9:低維投影;10:協(xié)方差檢驗。樣本量n,○ 50,×100,+200,◇ 400,□ 75,△ 150,○ 300)
圖2 五種方法的檢驗效能
受計算機運行速度等方面的限制,本次研究的數據模擬較為簡單,模擬次數較少。LASSO在處理存在強相關的數據時仍存在局限性[10],所以可以考慮將LASSO-懲罰計分檢驗的懲罰類變量篩選方法換做彈性網或ISIS(iterative sure independence screening)等處理強相關數據的方法來降低假陽性率。多重樣本拆分在非零變量可識別性低時效能較低,可以考慮將子樣本中變量篩選方法改為其他對該條件要求低的變量篩選方法。
[1]Greenshtein E,Ritov YA.Persistence in high-dimensional linear predictor selection and the virtue of over-parametrization.Bernoulli,2004,10(6):971-988.
[2]張秀秀,王慧,田雙雙,等.高維數據回歸分析中基于LASSO的自變量選擇.中國衛(wèi)生統(tǒng)計,2013,30(6):922-926.
[3]Lockhart R,Taylor J,Tibshirani RJ,et al.A significance test for the LASSO.The Annals of Statistics,2014,42(2):413-468.
[4]Dezeure R,Bühlmann P,Meier L,et al.High-dimensional Inference:Confidence interval,p-values and R-Software hdi.Statistical Science,2015,30(4):533-558.
[5]Meinshausen N,Meier L,Bühlmann P.P-values for high-dimensional regression.Journal of the American Statistical Association,2009,104(488):1671-1681.
[6]Meinshausen N,Bühlmann P.Stability Selection.Journal of the Royal Statistical Society,B,2010,72(4):417-473.
[7]Zhang CH,Zhang SS.Confidence intervals for low dimensional parameters in high dimensional linear models.Journal of the Royal Statistical Society,B,2014,76(1):217-242.
[8]Geer SVD,Bühlmann P,Ritov Ya,et al.On asymptotically optimal confidence regions and tests for high-dimensional models.The Annals of Statistics.2014,42(3):1166-1202.
[9]Voorman A,Shojaie A,Witten D.Inference in High Dimensions with the Penalized Score Test[EB/OL].Statistics,2014.
[10]閆麗娜,王彤.懲罰COX模型和彈性網技術在高維數據生存分析中的應用.太原:山西醫(yī)科大學,2011.
(責任編輯:郭海強)
* 國家自然科學基金資助(81473073)
1.山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室(030001)
2.河北省疾病預防與控制中心
△ 通信作者:王彤,E-mail:wtstat@21cn.com