亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

條件區(qū)間分位數(shù)超高維特征篩選研究

2019-02-19 01:38:42，，

鄭州大學學報(理學版) 2019年1期

，，

(南京信息工程大學數(shù)學與統(tǒng)計學院江蘇南京 210044)

0 引言

隨著科學技術的飛速發(fā)展，人類在知識探索發(fā)現(xiàn)、社會發(fā)展、個人生活等方面越來越多地面臨超高維數(shù)據(jù)的分析問題，例如：對人體基因序列的解碼，海量待投資目標中的最優(yōu)投資組合確定，以及醫(yī)療核磁共振檢查數(shù)據(jù)的分析等.在超高維數(shù)據(jù)中，協(xié)變量Z=(Z1,…,Zpn)T的維數(shù)pn隨著樣本量n呈指數(shù)級增長，但只有少量的協(xié)變量同響應變量之間是相互關聯(lián)的，模型呈現(xiàn)稀疏性特征.現(xiàn)有的基于懲罰似然的變量選擇方法，如Lasso[1]、SCAD[2]、Adaptive Lasso[3]等方法不能很好地解決問題.為了解決超高維數(shù)據(jù)的降維問題，近年來很多學者提出了多種便捷的超高維變量篩選方法，先將pn維降到較小維數(shù)dn，然后再利用傳統(tǒng)的變量選擇方法進行建模.文獻[4] 基于超高維線性回歸模型提出了基于邊際相關系數(shù)的SIS方法.文獻[5]將確定性獨立篩選方法(sure independence screening, SIS)和迭代的確定性獨立篩選方法(iterative sure independence screening,ISIS)推廣到了廣義線性模型.文獻[6]提出了基于協(xié)變量和響應變量條件分布邊際相關的穩(wěn)健超高維篩選指標.文獻[7]基于距離相關系數(shù)提出了無模型假設下的特征篩選方法.文獻[8]在無模型假設下提出了基于條件分位數(shù)的超高維特征篩選方法.文獻[9]結(jié)合局部領域嵌入算法與l2,1范數(shù)提出一種無監(jiān)督特征選擇方法.

1 篩選和排序過程

為了給出超高維篩選指標，定義與響應變量Y相關的重要變量集合記為A，那么

A={k:F(yZ)依賴Zk,k=1,…,pn,?y∈Ψy}，

Ψy為Y的取值區(qū)域.仿照文獻[8]，可定義基于τ∈Δ?(0,1)下的重要變量集合Aτ={k:Qτ(YZ)依賴Zk,k=1,…,pn}.

注意到如果Y與Zk獨立，Qτ(YZk)=Qτ(Y),τ∈Δ,k=1,…,pn，那么

E[τ-I{Y

定義dk,τ(t)=E([τ-I{Y

則Qτ(YZk)=Qτ(Y)時，ωk=0；反之ωk>0，k=1,…,pn.由此可見，ωk越大，則越代表Zk是與Y不獨立的重要變量.

為了給出重要變量集合的估計，定義dk,τ(t)的經(jīng)驗估計為

本研究發(fā)現(xiàn)，種植體植入后即刻及12周，直徑為5.0 mm種植體的ISQ值顯著高于直徑為3.5、4.3 mm的種植體(P<0.05)；說明種植體直徑對植入后的穩(wěn)定性存在顯著影響。可能是受限于病例數(shù)和研究方法，本研究中種植體長度對穩(wěn)定性的影響并不顯著。Romanos等[12]認為，在HU值較大的區(qū)域?qū)拸椒N植體可以獲得更好的穩(wěn)定性。 Shiffler等[17]研究發(fā)現(xiàn)，長度對種植體穩(wěn)定性存在顯著影響，同時認為下頜區(qū)種植體的穩(wěn)定性普遍高于上頜區(qū)。本研究中，術前頜骨HU值下頜顯著高于上頜，種植體植入后即刻及12周下頜區(qū)的ISQ值也顯著高于上頜(P<0.05)，與Shiffler等的研究結(jié)果相一致。

條件3 在Qτ(Y)附近，F(xiàn)(y)二次可微，Y的密度函數(shù)f(y)對正數(shù)c01、c02一致地滿足0

定理1在條件3下，若nτ>nα/2,則存在正數(shù)c1和c2，使得

ωk≥cn-α)≤O(pnnτexp (-c1n1-2α)+pnnτexp (-c2n3-2α)),

(1)

且在條件1和條件2下

(2)

其中：sn=Aτ是集合Aτ中元素的個數(shù).

注：由于變量維數(shù)pn隨樣本量呈指數(shù)級增長，若pn=O(exp (nγ))，則當0<γ<1-2α,nα/2

(3)

注意到

(4)

根據(jù)文獻[8]定理1的證明可以得到

≥cn-α)≤3exp (-c1n1-2α)+3exp (-c2n3-2α).

(5)

則由式(3)～(5)可得

ωk≥cn-α)≤3nτexp (-c3n1-2α)+3nτexp (-c4n3-2α).

那么容易得到

ωk≥cn-α)≤O(pnnτexp (-c3n1-2α)+pnnτexp (-c4n3-2α)).

下面證明定理1的第二部分結(jié)論.

2 數(shù)值模擬

本文通過蒙特卡羅方法來驗證所提出篩選方法的有限樣本性質(zhì)，為了說明所提出方法IQ-SIS的優(yōu)劣，將與Q-SIS (文獻[8])、SIRS (文獻[6])和DC-SIS (文獻[7])進行比較，考慮樣本量n為100或200，協(xié)變量維數(shù)pn=2 000，并重復200次試驗，篩選出的變量個數(shù)dn=[n/log (n)].為方便比較，沿用文獻[8]相同的模擬例子和評價指標，其中指標p0為真實模型大??；Median為200次重復試驗中包含所有重要預測變量的最小模型大小的中位數(shù)；IQR為200次重復試驗中包含所有重要預測變量的最小模型大小的四分位差；PAll為200次重復試驗中在給定篩選變量個數(shù)后，篩選出包含所有重要預測變量次數(shù)的百分比.

例1考慮如下模型

Y=Z1+0.8Z2+0.6Z3+0.4Z4+0.2Z5+σ(Z)ε,

其中Z=(Z1,…,Zpn)T服從多元正態(tài)分布，均值向量為0，協(xié)方差矩陣Σ=0.8|i-j|，(i,j=1,…,pn)，σ(Z)=exp (Z20+Z21+Z22)，且ε服從標準正態(tài)分布或標準柯西分布，考慮分位數(shù)點τ取值為0.5或0.75.可見，在分位數(shù)為0.5時，真實模型的重要變量個數(shù)為5；分位數(shù)為0.75時，真實模型的重要變量個數(shù)為8.為了給出更穩(wěn)健的篩選結(jié)果，根據(jù)所提出區(qū)間分位數(shù)的思想，考慮分位數(shù)區(qū)間分別為[0.4,0.6]和[0.7,0.8]用于IQ-SIS.模擬結(jié)果見表1.

表1 例1模型的變量篩選模擬結(jié)果

例2考慮更復雜的非線性模型

σ(Z)ε,

其他模擬條件與例1相同，模擬結(jié)果如表2所示.

表2 例2非線性模型的變量篩選模擬結(jié)果

從表1和表2的模擬結(jié)果可以發(fā)現(xiàn)，本文改進的條件區(qū)間分位數(shù)篩選方法IQ-SIS要優(yōu)于Q-SIS特征篩選方法，具有更小的模型大小和更高的重要變量覆蓋率，并且隨著樣本量的增加，篩選出包含所有重要預測變量的百分比顯著增加，并趨近于1.當考慮異方差情形的時候，在0.75分位數(shù)條件下，IQ-SIS也較Q-SIS有更優(yōu)良的表現(xiàn).DC-SIS在所有結(jié)果中表現(xiàn)最差，SIRS由于考慮的是全局情況下的特征篩選，所以相較于僅僅考慮0.75分位數(shù)范圍的條件分位數(shù)篩選方法具有更好的表現(xiàn).但如果所研究問題為特定分位數(shù)條件下的分位數(shù)回歸問題，則本文所提出方法則有其局部研究優(yōu)勢.總的來說，本文所改進的區(qū)間條件分位數(shù)篩選方法較Q-SIS更加穩(wěn)健可靠.

3 結(jié)論

本文探討了超高維數(shù)據(jù)的特征篩選和降維問題，超高維數(shù)據(jù)建模的首要任務是通過快速便捷的降維方法，將超高維減少為一般高維問題，則傳統(tǒng)的高維降維方法就可適用于數(shù)據(jù)建模.在現(xiàn)有超高維降維方法的基礎上，本文推廣了無模型假設的基于條件分位數(shù)的特征篩選方法，改善基于特定分位數(shù)水平而導致的可能由于分位數(shù)微小擾動產(chǎn)生的篩選變量的不穩(wěn)定性.本文提出基于條件區(qū)間分位數(shù)的特征篩選方法，并說明所提出方法具有無模型假設、計算簡便、穩(wěn)健性高的特點，并從理論上證明了所提出方法滿足特征篩選的篩選相合性.此外，本文還通過蒙特卡羅數(shù)值模擬驗證了所提出方法的有限樣本性質(zhì)，結(jié)果表明所提出方法能夠改善傳統(tǒng)的基于特定條件分位數(shù)的特征篩選方法的篩選降維效果.