張景肖,李向杰,郭海明
(1.中國(guó)人民大學(xué) a.應(yīng)用統(tǒng)計(jì)科學(xué)研究中心,b.統(tǒng)計(jì)學(xué)院,北京 100872;2.常州大學(xué) 商學(xué)院, 江蘇 常州 213164)
?
HD-SIS超高維數(shù)據(jù)穩(wěn)健變量篩選
張景肖1a,1b,李向杰1a,1b,郭海明2
(1.中國(guó)人民大學(xué) a.應(yīng)用統(tǒng)計(jì)科學(xué)研究中心,b.統(tǒng)計(jì)學(xué)院,北京 100872;2.常州大學(xué) 商學(xué)院, 江蘇 常州 213164)
摘要:超高維變量篩選是統(tǒng)計(jì)研究的重要問(wèn)題。提出一種新的變量篩選方法HD-SIS,該方法不需要模型假設(shè),并且對(duì)異常值有很強(qiáng)的抵抗能力,具有很好的穩(wěn)健性。在Monte Carlo模擬中,對(duì)5種方法進(jìn)行了比較,即確保獨(dú)立篩選法、確保獨(dú)立秩篩選法、穩(wěn)健秩相關(guān)系數(shù)篩選法、距離確保獨(dú)立篩選法和鞅差相關(guān)系數(shù)確保獨(dú)立篩選法。模擬結(jié)果顯示HD-SIS有更優(yōu)良的表現(xiàn)。
關(guān)鍵詞:超高維數(shù)據(jù);穩(wěn)健性;模型釋放;變量篩選
一、引言
超高維數(shù)據(jù)分析是現(xiàn)代統(tǒng)計(jì)學(xué)研究的熱點(diǎn)和難點(diǎn),主要由于超高維數(shù)據(jù)的樣本量遠(yuǎn)小于變量個(gè)數(shù)。為此,F(xiàn)an等基于Pearson相關(guān)系數(shù)提出確保獨(dú)立篩選法(Sure Independence Screening,SIS)解決這一問(wèn)題[1]。但是,SIS也存在一些問(wèn)題,如:不能發(fā)現(xiàn)非線性關(guān)系,對(duì)于異常值比較敏感。為此,很多學(xué)者進(jìn)行了進(jìn)一步的研究,例如:Hall等提出利用廣義經(jīng)驗(yàn)相關(guān)系數(shù)進(jìn)行超高維變量篩選[2],但其對(duì)異常值較敏感;Fan等利用邊際回歸研究了非線性模型的變量篩選[3];Fan等利用邊際回歸研究了廣義線性模型的變量篩選[4],而這兩種方法需要具體的模型假設(shè),當(dāng)模型假設(shè)錯(cuò)誤時(shí)就會(huì)造成較大的篩選誤差;Zhu等提出確保獨(dú)立秩篩選法(Sure Independent Ranking and Screening,SIRS),研究了模型釋放的超高維數(shù)據(jù)變量篩選[5];Li等基于Kendall相關(guān)系數(shù)提出穩(wěn)健秩相關(guān)系數(shù)篩選法(Robust Rank Correlation Screening,RRCS)[6];Li等基于距離相關(guān)系數(shù)提出距離確保獨(dú)立篩選法(Distance Correlation Sure Independence Screening,DC-SIS)[7];Shao等基于鞅差相關(guān)系數(shù)提出鞅差相關(guān)系數(shù)確保獨(dú)立篩選法(Martingale Difference Correlation Sure Independence Screening,MDC-SIS)[8];Fan等利用邊際回歸和樣條展開(kāi)技術(shù)研究可加模型和變系數(shù)模型的超高維變量篩選[9-10];Liu等基于條件相關(guān)系數(shù)研究超高維變系數(shù)模型變量篩選[11];馬學(xué)俊提出組確保獨(dú)立篩選法[12],該方法是SIS和邊際回歸的延拓,它可以解決組變量的變量篩選問(wèn)題。
本文主要研究模型釋放的超高維變量篩選方法。所謂模型釋放是指不需要對(duì)模型進(jìn)行假設(shè),但是這并不意味著它能適合所有統(tǒng)計(jì)模型。關(guān)于模型釋放的研究主要有RRCS、SIRS、DC-SIS和MDC-SIS等,其中RRCS 利用的是Kendall tau相關(guān)系數(shù),該方法只利用自變量和因變量的聯(lián)合排序信息,而沒(méi)有利用它們各自的排序信息。另外,RRCS中的單調(diào)相關(guān)性條件比較強(qiáng)。SIRS主要利用因變量秩的信息將其轉(zhuǎn)換成為多個(gè)虛擬變量(Dummy Variable),然后計(jì)算這些虛擬變量與自變量的Pearson相關(guān)系數(shù),最后將這些相關(guān)系數(shù)的平方相加。但是,SIRS假設(shè)自變量通過(guò)其線性組合來(lái)影響因變量,這個(gè)線性假設(shè)比較強(qiáng)。DC-SIS和MDC-SIS分別是利用距離相關(guān)系數(shù)和鞅差相關(guān)系數(shù)篩選變量,而距離相關(guān)系數(shù)和鞅差相關(guān)系數(shù)對(duì)于異常值比較敏感,所以DC-SIS和MDC-SIS對(duì)于異常值不穩(wěn)健。
在本文中,利用Hoeffding’s D統(tǒng)計(jì)量,給出了一種新的穩(wěn)健模型釋放篩選方法,即Hoeffding’s D確保獨(dú)立篩選法,簡(jiǎn)稱HD-SIS。它不僅可以發(fā)現(xiàn)非線性關(guān)系,還對(duì)異常值有一定抵抗力。與RRCS相比,HD-SIS不僅利用了自變量和因變量的秩的信息,也利用了它們組合秩的信息,從而利用信息更加充分。與SIRS相比,HD-SIS利用的是自變量的秩的信息,從而更加穩(wěn)健。與DC-SIS和MDC-SIS相比,HD-SIS只是利用秩的信息,沒(méi)有涉及到均值計(jì)算,從而更加穩(wěn)健。
二、研究方法
(一)Hoeffding’s D
Hoeffding’s D是Hoeffding于1948年提出的[13]。令U和V是隨機(jī)變量,它們的聯(lián)合分布函數(shù)是F(u,v),邊際分布分別是F(u,+∞)和F(+∞,v)。Hoeffding’s D統(tǒng)計(jì)量是衡量聯(lián)合分布函數(shù)和邊際分布函數(shù)乘積的差,即:
D(u,v)=F(u,v)-F(u,+∞)F(+∞,v)
從D的定義可以看出,兩個(gè)隨機(jī)變量獨(dú)立的充要條件是D等于0。D的絕對(duì)值越大,變量越相關(guān)。
其中:
D的估計(jì)是:
其中:
從上面公式可以看出,Ci是滿足Ut (二)HD-SIS篩選方法 本文利用Hoeffding’s D對(duì)超高維數(shù)據(jù)進(jìn)行變量篩選,即HD-SIS。Hoeffding’s D可以度量?jī)蓚€(gè)變量之間的關(guān)系,并且這種關(guān)系不僅可以是線性的,還可以是非線性的,所以HD-SIS不涉及具體模型假設(shè),是一種模型釋放的變量篩選方法。從D的估計(jì)可以看出,它利用數(shù)據(jù)的秩信息,從而對(duì)于異常值有一定的抵抗力,所以HD-SIS對(duì)異常值具有穩(wěn)健性。綜上兩個(gè)原因,HD-SIS是穩(wěn)健的模型釋放方法。 設(shè)Y是因變量,X=(X1,X2,…,Xp)T是p維的自變量向量。HD-SIS是計(jì)算Y與每一個(gè)Xk(k=1,2,…,p)的Hoeffding’s D,即: wk=|D(Xk,Y)| 超高維變量篩選的目的是選擇一個(gè)規(guī)模適中的子集,即: Μ={1≤k≤n:Xk對(duì)Y有影響} 對(duì)于HD-SIS,令這個(gè)子集的估計(jì)是: d的取法沒(méi)有比較統(tǒng)一的方法。一般來(lái)說(shuō),d取[n/log(n)]或n-1。 三、Monte Carlo模擬 下面將進(jìn)行Monte Carlo模擬,并且將提出的方法與目前已有的5種方法進(jìn)行比較,即SIS、SIRS、RRCS、DC-SIS和MDC-SIS??紤]如下模型: Y=4X1(X1-1)+3X2+(3X3-1)2+ε其中X={X1,X2,…,Xp}′~N(0,I),I是p×p單位矩陣,誤差項(xiàng)ε來(lái)自于標(biāo)準(zhǔn)正態(tài)分布N(0,1)和t(3)。 為了分析各種方法對(duì)異常值的影響,在X1隨機(jī)添加自由度為1 000的卡方分布的0%,5%,10%的異常值。重復(fù)模擬500次。樣本量n設(shè)置為200,自變量個(gè)數(shù)p為1 000。本文采用兩種準(zhǔn)則來(lái)評(píng)價(jià)方法的優(yōu)劣:其一,r:給定d全部非零自變量被正確選出的比例,其中d1=[n/log(n)],d2=2d1和d3=n-1;其二,S:包含全部非零自變量的最小模型大小。 結(jié)果如表1和表2所示,SIS不能有效地識(shí)別非線性關(guān)系,并且對(duì)異常值比較敏感。因?yàn)椴煌琩的r比較小,75%和95%的S比較大。RRCS、DC-SIS和MDC-SIS雖然是模型釋放方法,但是對(duì)于該模擬表現(xiàn)不佳,其中DC-SIS和MDC-SIS對(duì)于異常值比較敏感。SIRS表現(xiàn)還可以,但仍不及HD-SIS。因?yàn)镾IRS的95%的S是HD-SIS的2倍多。綜上所述,HD-SIS表現(xiàn)最好,并且對(duì)異常值有很強(qiáng)的抵抗力。本文建議d取[n/log(n)],因?yàn)閺谋?可以看出,它可以保證至少93%的概率包含真實(shí)的模型。 表1 不同d的r模擬結(jié)果表 表2 S的25%、50%、75%和95%的模擬結(jié)果表 四、實(shí)例分析 下面將HD-SIS方法應(yīng)用于實(shí)際數(shù)據(jù)分析,該數(shù)據(jù)是研究小鼠的基因?qū)U(kuò)張心肌病的影響。這組數(shù)據(jù)由對(duì)30個(gè)小鼠的觀測(cè)值構(gòu)成,其中包含6 319個(gè)自變量(基因)和1個(gè)因變量。由于每個(gè)基因的觀測(cè)值的量綱有所差別,所以在計(jì)算之前為了消除量綱的影響,需要對(duì)原始自變量進(jìn)行標(biāo)準(zhǔn)化。經(jīng)過(guò)簡(jiǎn)單的計(jì)算,發(fā)現(xiàn)有1 351個(gè)自變量存在數(shù)據(jù)點(diǎn)大于3倍的標(biāo)準(zhǔn)差,180個(gè)自變量存在數(shù)據(jù)點(diǎn)大于4倍的標(biāo)準(zhǔn)差。由于自變量個(gè)數(shù)太多,很難一一對(duì)它們的描述統(tǒng)計(jì)分析結(jié)果給出展示。本文通過(guò)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將30行6 319列的數(shù)據(jù)矩陣?yán)背蔀橐粋€(gè)189 570行1列數(shù)據(jù)向量進(jìn)行描述,其最小值是-5.241,最大值是 5.057。從圖1可以看出,數(shù)據(jù)存在大量的異常值。 圖1 數(shù)據(jù)向量的箱線圖 由于數(shù)據(jù)的維度(基因個(gè)數(shù))p遠(yuǎn)遠(yuǎn)大于樣本量n,所以研究該實(shí)例的目的是試圖找出哪一個(gè)基因或者哪一些基因?qū)蛋白偶聯(lián)受體的影響較大,Segal等基于微陣列分析方法得到了影響最大的前幾個(gè)基因[15]。Li R等用DC-SIS方法也得到了影響最大的前幾個(gè)基因[7],結(jié)果見(jiàn)表3。 表3 不同方法對(duì)心肌病數(shù)據(jù)研究的結(jié)果表 表3給出了不同方法對(duì)心肌病數(shù)據(jù)研究的結(jié)果。從表3中可以看出,對(duì)于基因Msa.2877.0和基因Msa.2134.0都可以很好地被選擇出來(lái),并且HD-SIS方法和DC-SIS方法篩選出的結(jié)果也有很多重合,Li R等已經(jīng)論證了DC-SIS的合理性,這也就驗(yàn)證了HD-SIS的合理性。 五、結(jié)論 本文基于Hoeffding’s D統(tǒng)計(jì)量提出了一種新的穩(wěn)健的模型釋放變量篩選方法HD-SIS,該方法不需要對(duì)模型進(jìn)行假設(shè),并且對(duì)異常值有很強(qiáng)的抵抗性,相比SIS、SIRS、RRCS、DC-SIS和MDC-SIS,具有一定的優(yōu)勢(shì)。模擬結(jié)果顯示HD-SIS優(yōu)于上面的5種方法,根據(jù)Monte Carlo模擬的結(jié)果,我們建議d取[n/log(n)]。 參考文獻(xiàn): [1]Fan J,Lv J.Sure Independence Screening for Ultrahigh Dimensional Feature Space[J].Journal of the Royal Statistical Society,Ser.B,2008,70(5). [2]Hall P,Miller H.Using Generalized Correlation to Effect Variable Selection in very High Dimensional Problems[J].Journal of Computational and Graphical Statistics,2009,18(3). [3]Fan J,Samworth R,Wu Y.Ultrahigh Dimensional Feature Selection:Beyond the Linear Model[J].Journal of Machine Learning Research,2009(10). [4]Fan J,Song R.Sure Independence Screening in Generalized Linear Models with NP-Dimensionality[J].The Annals of Statistics,2010,38(6). [5]Zhu L,Li L,Li R,Zhu L.Model-Free Feature Screening for Ultrahigh Dimensional Data[J].Journal of the American Statistical Association,2011,106(496). [6]Li G R,Peng H,Zhang J,Zhu L X.Robust Rank Correlation Based Screening[J].The Annals of Statistics,2012,40(3). [7]Li R,Wei Z,Zhu L.Feature Screening via Distance Correlation Learning[J],Journal of the American Statistical Association,2012,107(499). [8]Shao X,Zhang J.Martingale Difference Correlation and Its Use in High-Dimensional Variable Screening[J].Journal of the American Statistical Association,2014,109(507). [9]Fan J,Feng Y,Song R.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Additive Models[J].Journal of the American Statistical Association,2011,106(494). [10]Fan J,Ma Y,Dai W.Nonparametric Independence Screening in Sparse Ultra-high-dimensional Varying Coefficient Models[J].Journal of the American Statistical Association,2014,109(507). [11]Liu J,Li R,Wu S.Feature Selection for Varying Coefficient Models with Ultrahigh-dimensional Covariates[J].Journal of the American Statistical Association,2014,109(505). [12]馬學(xué)俊.GSIS超高維變量選擇[J].統(tǒng)計(jì)與信息論壇,2015,30(8). [13]Hoeffding W.A Non-parametric Test of Independence[J].The Annals of Mathematical Statistics,1948,19(4). [14]Hollander M,Wolfe D.Nonparametric Statistical Methods[M].New York:Wiley,1973. [15]Segal M R,Dahlquist K D,Conklin B R.Regression Approach for Microarrary Data Analysis[J].Journal of Computational Biology,2003,10(6). (責(zé)任編輯:崔國(guó)平) 收稿日期:2015-09-25;修復(fù)日期:2015-11-19 基金項(xiàng)目:中國(guó)人民大學(xué)科學(xué)研究基金(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助)項(xiàng)目(11XNI008) 作者簡(jiǎn)介:張景肖,女,河北保定人,理學(xué)博士,教授,博士生導(dǎo)師,研究方向: 高維變量選擇; 中圖分類號(hào):O212∶F224.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1007-3116(2016)04-0009-04 Robust Variable Screening for Ultrahigh Dimensional ZHANG Jing-xiao1a,1b,LI Xiang-jie1a,1b,GUO Hai-ming2 (a.Center for Applied Statistics,b.School of Statistics,1.Renmin University of China,Beijing 100872,China;2.Business School,Changzhou University,Changzhou 213164,China) Abstract:Variable screening is a very important issue in statistics.In this paper,we propose a new screening,HD-SIS,which do not assume specific models,is robust against outliers.We compare with five methods:Sure Independence Screening,Sure Independent Ranking and Screening,Robust Rank Correlation Screening,Distance Correlation Sure Independence Screening and Martingale Difference Correlation Sure Independence Screening.Simulations indicate that the proposed procedure is significantly better than others. Key words:ultrahigh dimensional data; robustness; model-free; variable screening 李向杰,男,河南商丘人,碩士生,研究方向:高維變量選擇; 郭海明,男,江蘇常州人,理學(xué)博士,講師,研究方向:信用風(fēng)險(xiǎn),大數(shù)據(jù)。 【統(tǒng)計(jì)理論與方法】