, ,
(南京信息工程大學 數(shù)學與統(tǒng)計學院 江蘇 南京 210044)
隨著科學技術的飛速發(fā)展,人類在知識探索發(fā)現(xiàn)、社會發(fā)展、個人生活等方面越來越多地面臨超高維數(shù)據(jù)的分析問題,例如:對人體基因序列的解碼,海量待投資目標中的最優(yōu)投資組合確定,以及醫(yī)療核磁共振檢查數(shù)據(jù)的分析等.在超高維數(shù)據(jù)中,協(xié)變量Z=(Z1,…,Zpn)T的維數(shù)pn隨著樣本量n呈指數(shù)級增長,但只有少量的協(xié)變量同響應變量之間是相互關聯(lián)的,模型呈現(xiàn)稀疏性特征.現(xiàn)有的基于懲罰似然的變量選擇方法,如Lasso[1]、SCAD[2]、Adaptive Lasso[3]等方法不能很好地解決問題.為了解決超高維數(shù)據(jù)的降維問題,近年來很多學者提出了多種便捷的超高維變量篩選方法,先將pn維降到較小維數(shù)dn,然后再利用傳統(tǒng)的變量選擇方法進行建模.文獻[4] 基于超高維線性回歸模型提出了基于邊際相關系數(shù)的SIS方法.文獻[5]將確定性獨立篩選方法(sure independence screening, SIS)和迭代的確定性獨立篩選方法(iterative sure independence screening,ISIS)推廣到了廣義線性模型.文獻[6]提出了基于協(xié)變量和響應變量條件分布邊際相關的穩(wěn)健超高維篩選指標.文獻[7]基于距離相關系數(shù)提出了無模型假設下的特征篩選方法.文獻[8]在無模型假設下提出了基于條件分位數(shù)的超高維特征篩選方法.文獻[9]結(jié)合局部領域嵌入算法與l2,1范數(shù)提出一種無監(jiān)督特征選擇方法.
為了給出超高維篩選指標,定義與響應變量Y相關的重要變量集合記為A,那么
A={k:F(yZ)依賴Zk,k=1,…,pn,?y∈Ψy},
Ψy為Y的取值區(qū)域.仿照文獻[8],可定義基于τ∈Δ?(0,1)下的重要變量集合Aτ={k:Qτ(YZ)依賴Zk,k=1,…,pn}.
注意到如果Y與Zk獨立,Qτ(YZk)=Qτ(Y),τ∈Δ,k=1,…,pn,那么
E[τ-I{Y 定義dk,τ(t)=E([τ-I{Y 則Qτ(YZk)=Qτ(Y)時,ωk=0;反之ωk>0,k=1,…,pn.由此可見,ωk越大,則越代表Zk是與Y不獨立的重要變量. 為了給出重要變量集合的估計,定義dk,τ(t)的經(jīng)驗估計為 本研究發(fā)現(xiàn),種植體植入后即刻及12周,直徑為5.0 mm種植體的ISQ值顯著高于直徑為3.5、4.3 mm的種植體(P<0.05);說明種植體直徑對植入后的穩(wěn)定性存在顯著影響。可能是受限于病例數(shù)和研究方法,本研究中種植體長度對穩(wěn)定性的影響并不顯著。Romanos等[12]認為,在HU值較大的區(qū)域?qū)拸椒N植體可以獲得更好的穩(wěn)定性。 Shiffler等[17]研究發(fā)現(xiàn),長度對種植體穩(wěn)定性存在顯著影響,同時認為下頜區(qū)種植體的穩(wěn)定性普遍高于上頜區(qū)。本研究中,術前頜骨HU值下頜顯著高于上頜,種植體植入后即刻及12周下頜區(qū)的ISQ值也顯著高于上頜(P<0.05),與Shiffler等的研究結(jié)果相一致。 條件3 在Qτ(Y)附近,F(xiàn)(y)二次可微,Y的密度函數(shù)f(y)對正數(shù)c01、c02一致地滿足0 定理1在條件3下,若nτ>nα/2,則存在正數(shù)c1和c2,使得 ωk≥cn-α)≤O(pnnτexp (-c1n1-2α)+pnnτexp (-c2n3-2α)), (1) 且在條件1和條件2下 (2) 其中:sn=Aτ是集合Aτ中元素的個數(shù). 注: 由于變量維數(shù)pn隨樣本量呈指數(shù)級增長,若pn=O(exp (nγ)),則當0<γ<1-2α,nα/2 (3) 注意到 (4) 根據(jù)文獻[8]定理1的證明可以得到 ≥cn-α)≤3exp (-c1n1-2α)+3exp (-c2n3-2α). (5) 則由式(3)~(5)可得 ωk≥cn-α)≤3nτexp (-c3n1-2α)+3nτexp (-c4n3-2α). 那么容易得到 ωk≥cn-α)≤O(pnnτexp (-c3n1-2α)+pnnτexp (-c4n3-2α)). 下面證明定理1的第二部分結(jié)論. 本文通過蒙特卡羅方法來驗證所提出篩選方法的有限樣本性質(zhì),為了說明所提出方法IQ-SIS的優(yōu)劣,將與Q-SIS (文獻[8])、SIRS (文獻[6])和DC-SIS (文獻[7])進行比較,考慮樣本量n為100或200,協(xié)變量維數(shù)pn=2 000,并重復200次試驗,篩選出的變量個數(shù)dn=[n/log (n)].為方便比較,沿用文獻[8]相同的模擬例子和評價指標,其中指標p0為真實模型大??;Median為200次重復試驗中包含所有重要預測變量的最小模型大小的中位數(shù);IQR為200次重復試驗中包含所有重要預測變量的最小模型大小的四分位差;PAll為200次重復試驗中在給定篩選變量個數(shù)后,篩選出包含所有重要預測變量次數(shù)的百分比. 例1考慮如下模型 Y=Z1+0.8Z2+0.6Z3+0.4Z4+0.2Z5+σ(Z)ε, 其中Z=(Z1,…,Zpn)T服從多元正態(tài)分布,均值向量為0,協(xié)方差矩陣Σ=0.8|i-j|,(i,j=1,…,pn),σ(Z)=exp (Z20+Z21+Z22),且ε服從標準正態(tài)分布或標準柯西分布,考慮分位數(shù)點τ取值為0.5或0.75.可見,在分位數(shù)為0.5時,真實模型的重要變量個數(shù)為5;分位數(shù)為0.75時,真實模型的重要變量個數(shù)為8.為了給出更穩(wěn)健的篩選結(jié)果,根據(jù)所提出區(qū)間分位數(shù)的思想,考慮分位數(shù)區(qū)間分別為[0.4,0.6]和[0.7,0.8]用于IQ-SIS.模擬結(jié)果見表1. 表1 例1模型的變量篩選模擬結(jié)果 例2考慮更復雜的非線性模型 σ(Z)ε, 其他模擬條件與例1相同,模擬結(jié)果如表2所示. 表2 例2非線性模型的變量篩選模擬結(jié)果 從表1和表2的模擬結(jié)果可以發(fā)現(xiàn),本文改進的條件區(qū)間分位數(shù)篩選方法IQ-SIS要優(yōu)于Q-SIS特征篩選方法,具有更小的模型大小和更高的重要變量覆蓋率,并且隨著樣本量的增加,篩選出包含所有重要預測變量的百分比顯著增加,并趨近于1.當考慮異方差情形的時候,在0.75分位數(shù)條件下,IQ-SIS也較Q-SIS有更優(yōu)良的表現(xiàn).DC-SIS在所有結(jié)果中表現(xiàn)最差,SIRS由于考慮的是全局情況下的特征篩選,所以相較于僅僅考慮0.75分位數(shù)范圍的條件分位數(shù)篩選方法具有更好的表現(xiàn).但如果所研究問題為特定分位數(shù)條件下的分位數(shù)回歸問題,則本文所提出方法則有其局部研究優(yōu)勢.總的來說,本文所改進的區(qū)間條件分位數(shù)篩選方法較Q-SIS更加穩(wěn)健可靠. 本文探討了超高維數(shù)據(jù)的特征篩選和降維問題,超高維數(shù)據(jù)建模的首要任務是通過快速便捷的降維方法,將超高維減少為一般高維問題,則傳統(tǒng)的高維降維方法就可適用于數(shù)據(jù)建模.在現(xiàn)有超高維降維方法的基礎上,本文推廣了無模型假設的基于條件分位數(shù)的特征篩選方法,改善基于特定分位數(shù)水平而導致的可能由于分位數(shù)微小擾動產(chǎn)生的篩選變量的不穩(wěn)定性.本文提出基于條件區(qū)間分位數(shù)的特征篩選方法,并說明所提出方法具有無模型假設、計算簡便、穩(wěn)健性高的特點,并從理論上證明了所提出方法滿足特征篩選的篩選相合性.此外,本文還通過蒙特卡羅數(shù)值模擬驗證了所提出方法的有限樣本性質(zhì),結(jié)果表明所提出方法能夠改善傳統(tǒng)的基于特定條件分位數(shù)的特征篩選方法的篩選降維效果.2 數(shù)值模擬
3 結(jié)論