亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        條件區(qū)間分位數(shù)超高維特征篩選研究

        2019-02-19 01:38:42,
        鄭州大學學報(理學版) 2019年1期
        關鍵詞:特征方法模型

        , ,

        (南京信息工程大學 數(shù)學與統(tǒng)計學院 江蘇 南京 210044)

        0 引言

        隨著科學技術的飛速發(fā)展,人類在知識探索發(fā)現(xiàn)、社會發(fā)展、個人生活等方面越來越多地面臨超高維數(shù)據(jù)的分析問題,例如:對人體基因序列的解碼,海量待投資目標中的最優(yōu)投資組合確定,以及醫(yī)療核磁共振檢查數(shù)據(jù)的分析等.在超高維數(shù)據(jù)中,協(xié)變量Z=(Z1,…,Zpn)T的維數(shù)pn隨著樣本量n呈指數(shù)級增長,但只有少量的協(xié)變量同響應變量之間是相互關聯(lián)的,模型呈現(xiàn)稀疏性特征.現(xiàn)有的基于懲罰似然的變量選擇方法,如Lasso[1]、SCAD[2]、Adaptive Lasso[3]等方法不能很好地解決問題.為了解決超高維數(shù)據(jù)的降維問題,近年來很多學者提出了多種便捷的超高維變量篩選方法,先將pn維降到較小維數(shù)dn,然后再利用傳統(tǒng)的變量選擇方法進行建模.文獻[4] 基于超高維線性回歸模型提出了基于邊際相關系數(shù)的SIS方法.文獻[5]將確定性獨立篩選方法(sure independence screening, SIS)和迭代的確定性獨立篩選方法(iterative sure independence screening,ISIS)推廣到了廣義線性模型.文獻[6]提出了基于協(xié)變量和響應變量條件分布邊際相關的穩(wěn)健超高維篩選指標.文獻[7]基于距離相關系數(shù)提出了無模型假設下的特征篩選方法.文獻[8]在無模型假設下提出了基于條件分位數(shù)的超高維特征篩選方法.文獻[9]結(jié)合局部領域嵌入算法與l2,1范數(shù)提出一種無監(jiān)督特征選擇方法.

        1 篩選和排序過程

        為了給出超高維篩選指標,定義與響應變量Y相關的重要變量集合記為A,那么

        A={k:F(yZ)依賴Zk,k=1,…,pn,?y∈Ψy},

        Ψy為Y的取值區(qū)域.仿照文獻[8],可定義基于τ∈Δ?(0,1)下的重要變量集合Aτ={k:Qτ(YZ)依賴Zk,k=1,…,pn}.

        注意到如果Y與Zk獨立,Qτ(YZk)=Qτ(Y),τ∈Δ,k=1,…,pn,那么

        E[τ-I{Y

        定義dk,τ(t)=E([τ-I{Y

        則Qτ(YZk)=Qτ(Y)時,ωk=0;反之ωk>0,k=1,…,pn.由此可見,ωk越大,則越代表Zk是與Y不獨立的重要變量.

        為了給出重要變量集合的估計,定義dk,τ(t)的經(jīng)驗估計為

        本研究發(fā)現(xiàn),種植體植入后即刻及12周,直徑為5.0 mm種植體的ISQ值顯著高于直徑為3.5、4.3 mm的種植體(P<0.05);說明種植體直徑對植入后的穩(wěn)定性存在顯著影響。可能是受限于病例數(shù)和研究方法,本研究中種植體長度對穩(wěn)定性的影響并不顯著。Romanos等[12]認為,在HU值較大的區(qū)域?qū)拸椒N植體可以獲得更好的穩(wěn)定性。 Shiffler等[17]研究發(fā)現(xiàn),長度對種植體穩(wěn)定性存在顯著影響,同時認為下頜區(qū)種植體的穩(wěn)定性普遍高于上頜區(qū)。本研究中,術前頜骨HU值下頜顯著高于上頜,種植體植入后即刻及12周下頜區(qū)的ISQ值也顯著高于上頜(P<0.05),與Shiffler等的研究結(jié)果相一致。

        條件3 在Qτ(Y)附近,F(xiàn)(y)二次可微,Y的密度函數(shù)f(y)對正數(shù)c01、c02一致地滿足0

        定理1在條件3下,若nτ>nα/2,則存在正數(shù)c1和c2,使得

        ωk≥cn-α)≤O(pnnτexp (-c1n1-2α)+pnnτexp (-c2n3-2α)),

        (1)

        且在條件1和條件2下

        (2)

        其中:sn=Aτ是集合Aτ中元素的個數(shù).

        注: 由于變量維數(shù)pn隨樣本量呈指數(shù)級增長,若pn=O(exp (nγ)),則當0<γ<1-2α,nα/2

        (3)

        注意到

        (4)

        根據(jù)文獻[8]定理1的證明可以得到

        ≥cn-α)≤3exp (-c1n1-2α)+3exp (-c2n3-2α).

        (5)

        則由式(3)~(5)可得

        ωk≥cn-α)≤3nτexp (-c3n1-2α)+3nτexp (-c4n3-2α).

        那么容易得到

        ωk≥cn-α)≤O(pnnτexp (-c3n1-2α)+pnnτexp (-c4n3-2α)).

        下面證明定理1的第二部分結(jié)論.

        2 數(shù)值模擬

        本文通過蒙特卡羅方法來驗證所提出篩選方法的有限樣本性質(zhì),為了說明所提出方法IQ-SIS的優(yōu)劣,將與Q-SIS (文獻[8])、SIRS (文獻[6])和DC-SIS (文獻[7])進行比較,考慮樣本量n為100或200,協(xié)變量維數(shù)pn=2 000,并重復200次試驗,篩選出的變量個數(shù)dn=[n/log (n)].為方便比較,沿用文獻[8]相同的模擬例子和評價指標,其中指標p0為真實模型大??;Median為200次重復試驗中包含所有重要預測變量的最小模型大小的中位數(shù);IQR為200次重復試驗中包含所有重要預測變量的最小模型大小的四分位差;PAll為200次重復試驗中在給定篩選變量個數(shù)后,篩選出包含所有重要預測變量次數(shù)的百分比.

        例1考慮如下模型

        Y=Z1+0.8Z2+0.6Z3+0.4Z4+0.2Z5+σ(Z)ε,

        其中Z=(Z1,…,Zpn)T服從多元正態(tài)分布,均值向量為0,協(xié)方差矩陣Σ=0.8|i-j|,(i,j=1,…,pn),σ(Z)=exp (Z20+Z21+Z22),且ε服從標準正態(tài)分布或標準柯西分布,考慮分位數(shù)點τ取值為0.5或0.75.可見,在分位數(shù)為0.5時,真實模型的重要變量個數(shù)為5;分位數(shù)為0.75時,真實模型的重要變量個數(shù)為8.為了給出更穩(wěn)健的篩選結(jié)果,根據(jù)所提出區(qū)間分位數(shù)的思想,考慮分位數(shù)區(qū)間分別為[0.4,0.6]和[0.7,0.8]用于IQ-SIS.模擬結(jié)果見表1.

        表1 例1模型的變量篩選模擬結(jié)果

        例2考慮更復雜的非線性模型

        σ(Z)ε,

        其他模擬條件與例1相同,模擬結(jié)果如表2所示.

        表2 例2非線性模型的變量篩選模擬結(jié)果

        從表1和表2的模擬結(jié)果可以發(fā)現(xiàn),本文改進的條件區(qū)間分位數(shù)篩選方法IQ-SIS要優(yōu)于Q-SIS特征篩選方法,具有更小的模型大小和更高的重要變量覆蓋率,并且隨著樣本量的增加,篩選出包含所有重要預測變量的百分比顯著增加,并趨近于1.當考慮異方差情形的時候,在0.75分位數(shù)條件下,IQ-SIS也較Q-SIS有更優(yōu)良的表現(xiàn).DC-SIS在所有結(jié)果中表現(xiàn)最差,SIRS由于考慮的是全局情況下的特征篩選,所以相較于僅僅考慮0.75分位數(shù)范圍的條件分位數(shù)篩選方法具有更好的表現(xiàn).但如果所研究問題為特定分位數(shù)條件下的分位數(shù)回歸問題,則本文所提出方法則有其局部研究優(yōu)勢.總的來說,本文所改進的區(qū)間條件分位數(shù)篩選方法較Q-SIS更加穩(wěn)健可靠.

        3 結(jié)論

        本文探討了超高維數(shù)據(jù)的特征篩選和降維問題,超高維數(shù)據(jù)建模的首要任務是通過快速便捷的降維方法,將超高維減少為一般高維問題,則傳統(tǒng)的高維降維方法就可適用于數(shù)據(jù)建模.在現(xiàn)有超高維降維方法的基礎上,本文推廣了無模型假設的基于條件分位數(shù)的特征篩選方法,改善基于特定分位數(shù)水平而導致的可能由于分位數(shù)微小擾動產(chǎn)生的篩選變量的不穩(wěn)定性.本文提出基于條件區(qū)間分位數(shù)的特征篩選方法,并說明所提出方法具有無模型假設、計算簡便、穩(wěn)健性高的特點,并從理論上證明了所提出方法滿足特征篩選的篩選相合性.此外,本文還通過蒙特卡羅數(shù)值模擬驗證了所提出方法的有限樣本性質(zhì),結(jié)果表明所提出方法能夠改善傳統(tǒng)的基于特定條件分位數(shù)的特征篩選方法的篩選降維效果.

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        精品亚洲欧美无人区乱码| 手机av在线中文字幕| 欧美 日韩 人妻 高清 中文| 久久婷婷成人综合色| 亚洲AV无码久久精品成人| 日本办公室三级在线看| 国产午夜视频在线观看免费| 精品欧洲av无码一区二区| 免费成人毛片| 一区二区三区四区日韩亚洲| 成人免费在线亚洲视频| 性欧美老人牲交xxxxx视频| 91精品视品在线播放| 青青自拍视频成人免费观看| 久久婷婷综合缴情亚洲狠狠| 国产精品毛片一区二区| 成人国产精品一区二区网站| 成年男人午夜视频在线看| 97成人精品国语自产拍| 亚洲av国产精品色午夜洪2| 亚洲综合色婷婷七月丁香| 国产乱沈阳女人高潮乱叫老| 中文字幕高清无码不卡在线| 国产精品亚洲一区二区三区16| 亚洲国产精品无码专区| 欧美精品黄页在线观看视频| 亚洲春色视频在线观看| 人妖一区二区三区四区| 人妻av中文字幕无码专区| 波多野结衣一区二区三区免费视频| 强迫人妻hd中文字幕| 人妻少妇精品视频专区| 欧美日韩综合网在线观看| 日韩美女人妻一区二区三区| 国产精品高清网站| 99久久精品费精品国产一区二区 | 丰满少妇棚拍无码视频| 日本超级老熟女影音播放| 亚洲国产精品综合久久网各| 亚洲无码a∨在线视频| 精品老熟女一区二区三区在线 |