亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于模型平均的超高維數(shù)據(jù)特征篩選方法

        2020-09-08 02:29:54高羽飛何孟霜夏文俊
        關(guān)鍵詞:位數(shù)殘差條件

        高羽飛, 來 鵬, 何孟霜, 夏文俊

        (南京信息工程大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 南京 210044)

        為了對超高維數(shù)據(jù)進(jìn)行分析, 眾多學(xué)者展開了研究.Fan等[1]提出基于Pearson相關(guān)系數(shù)的SIS超高維特征篩選方法; Zhu等[2]提出可用于篩選非線性相關(guān)變量的SIRS特征篩選方法; Li等[3]在更一般的情況下,提出基于距離相關(guān)系數(shù)的DC方法, 實(shí)現(xiàn)了在無模型假設(shè)條件下對超高維數(shù)據(jù)進(jìn)行變量篩選,并適用于對分組預(yù)測變量和多元響應(yīng)變量的篩選; Wu等[4]提出基于條件分位數(shù)的自由模型特征篩選方法(conditional quantile screening, CQSIS), 該法可用于處理刪失數(shù)據(jù)問題; 在此基礎(chǔ)上, Liu等[5]提出適用于給定變量條件下的超高維分位數(shù)獨(dú)立篩選方法; Cui等[6]依據(jù)超高維判別分析問題中響應(yīng)變量是分類變量的特點(diǎn),提出基于經(jīng)驗(yàn)條件分布的邊際特征篩選方法; Liu等[7]利用條件距離相關(guān)系數(shù),構(gòu)造出針對超高維數(shù)據(jù)的條件特征篩選過程.以上方法已經(jīng)在很大程度上改進(jìn)了傳統(tǒng)方法對超高維數(shù)據(jù)分析的不足,但研究更穩(wěn)健、有效的特征篩選方法仍然十分有意義.

        近年來,模型平均思想在統(tǒng)計(jì)學(xué)上被廣泛運(yùn)用,它通過對不同的估計(jì)模型或者預(yù)測模型進(jìn)行加權(quán),綜合考慮它們的性能,進(jìn)而達(dá)到提高模型效率且降低模型誤差的目的.Hansen等[8]提出在不確定異方差誤差設(shè)置下,利用最小化交叉驗(yàn)證準(zhǔn)則篩選權(quán)重對M個(gè)非嵌套近似模型加以組合來提高估計(jì)效果的JMA(jackknife model averaging)估計(jì)方法; Liang等[9]認(rèn)為模型平均集成了模型選擇過程中固有的不確定性, 通過對候選模型適當(dāng)加權(quán)可以提高擬合模型的預(yù)測能力; Chen等[10]利用模型平均邊際回歸半?yún)?shù)懲罰方法對超高維動態(tài)時(shí)間序列數(shù)據(jù)進(jìn)行了處理分析; Gao等[11]基于留一交叉驗(yàn)證, 提出可用于縱向數(shù)據(jù)以及包含異方差誤差時(shí)間序列數(shù)據(jù)的模型平均方法.本文受模型平均思想的啟發(fā),擬將其與條件分位數(shù)篩選方法(CQSIS)相結(jié)合,給出基于模型平均的穩(wěn)健超高維數(shù)據(jù)特征篩選方法.

        1 基于模型平均的超高維數(shù)據(jù)特征篩選(MASIS)

        1.1 篩選方法

        1.2 理論性質(zhì)

        為了研究MASIS的理論性質(zhì),假設(shè)[4]:

        (H1) 關(guān)于正的常數(shù)c和M以及α∈(0,1/4), 1≤s≤m, 有+∞>M≥maxk∈Aτs‖dk,τs‖≥mink∈Aτs‖dk,τs‖>2cn-α>0;

        (H2) 在Qτ(Y)的領(lǐng)域內(nèi),F(y)是二階可微的.Y的密度函數(shù)f(y)一致有界且不靠近0和無窮, 其導(dǎo)數(shù)f′(y)也是一致有界的.

        定理1在條件(H1)和(H2)下, 對于正的常數(shù)c8,c9,c10和c11, 有

        (1)

        其中Sn,m=max{Sn,τs,s=1,…,m}.進(jìn)而, 若mink∈Awk≥2cn-α,則

        (2)

        (3)

        (4)

        (5)

        (6)

        根據(jù)文獻(xiàn)[4],得

        (7)

        (8)

        (9)

        結(jié)合式(4)~(6), (9), 得

        (10)

        (11)

        (12)

        2 蒙特卡洛模擬

        例1考慮線性回歸模型Yi=X1i+3X2i+1.5X3i+2X4i+εi, 當(dāng)ρ和殘差εi滿足: i)ρ=0.5,εi服從t(1)分布; ii)ρ=0.8,εi服從標(biāo)準(zhǔn)柯西分布時(shí), 模擬結(jié)果見表1和表2.從表1和表2中的結(jié)果不難看出, MASIS、SIRS以及DC篩選出所有真實(shí)重要變量需要的模型規(guī)模相似且都較小, 與真實(shí)模型非常接近; 而SIS篩選時(shí), 雖然4個(gè)真實(shí)的重要變量也能篩選出來, 但穩(wěn)定性不高.比較Pa值, MASIS和SIRS方法均以趨于1的概率在200次試驗(yàn)中將真實(shí)重要變量篩選出來, 而DC方法稍差, SIS方法表現(xiàn)最差.

        表1 ρ=0.5時(shí)殘差εi服從t(1)分布的篩選模擬結(jié)果

        表2 ρ=0.8時(shí)殘差εi服從標(biāo)準(zhǔn)柯西分布的篩選模擬結(jié)果

        例2考慮帶有交互項(xiàng)的可加模型Yi=3sinX1i+4cos2X2i+2exp(X3iX4i)+εi, 當(dāng)ρ和殘差εi滿足: i)ρ=0.8,εi服從標(biāo)準(zhǔn)正態(tài)分布; ii)ρ=0.9,εi服從標(biāo)準(zhǔn)柯西分布時(shí), 模擬結(jié)果見表3和表4.從模擬結(jié)果可以看出, MASIS方法篩選出所有真實(shí)重要變量需要的模型規(guī)模相似且均較小, 與真實(shí)模型非常接近; DC方法的總體篩選效果一般, 且穩(wěn)定性較差, 而SIS和SIRS方法雖然也可以篩選出4個(gè)真實(shí)的重要變量,但穩(wěn)定性都很低.比較Pa值,很明顯MASIS方法幾乎以趨于1的概率在200次試驗(yàn)中能將真實(shí)重要變量全部篩選出, 而DC方法稍差, SIS和SIRS方法表現(xiàn)很差.

        表3 ρ=0.8時(shí)殘差εi服從標(biāo)準(zhǔn)正態(tài)分布的篩選模擬結(jié)果

        表4 ρ=0.9殘差εi服從標(biāo)準(zhǔn)柯西分布的篩選模擬結(jié)果

        3 實(shí)例分析

        將MASIS特征篩選方法用于對轉(zhuǎn)基因小鼠心肌病數(shù)據(jù)的分析中, 篩選出小鼠體內(nèi)與Ro1相關(guān)的基因.轉(zhuǎn)基因小鼠心肌病數(shù)據(jù)中共有30個(gè)小鼠樣本,對應(yīng)的基因數(shù)有6 319個(gè), 從實(shí)例分析的結(jié)果可知[4], 與Ro1相關(guān)的基因?yàn)镸sa.2134.0, Msa.2877.0, Msa.26025.0, Msa.15442.0和Msa.10108.0.

        考慮MASIS方法包括第一步的局部篩選以及第二步的加權(quán)后篩選, 為了避免遺漏可能的重要變量, 采用2個(gè)不同排序篩選變量數(shù)d.第一步選擇較大的d=100, 第二步選擇較小的d值來確定篩選模型的規(guī)模, 篩選結(jié)果如表5所示.結(jié)果表明,當(dāng)篩選模型的規(guī)模達(dá)到15時(shí),5個(gè)相關(guān)基因全被篩選出,而文獻(xiàn)[7]利用條件分位數(shù)篩選方法(CQSIS)完全篩選出所需模型的最小規(guī)模為29.本文方法縮小了篩選模型的規(guī)模, 說明MASIS篩選方法在一定程度上改進(jìn)了條件分位數(shù)篩選方法(CQSIS).

        表5 MASIS方法對轉(zhuǎn)基因小鼠心肌病數(shù)據(jù)的篩選結(jié)果

        為了進(jìn)一步研究這15個(gè)基因與Ro1之間的關(guān)系, 分別建立LASSO、神經(jīng)網(wǎng)絡(luò)和分類回歸樹模型.建模預(yù)測結(jié)果如圖1所示.模擬結(jié)果證實(shí), 分類回歸樹模型的預(yù)測情況最好.

        圖1 回歸預(yù)測圖及標(biāo)準(zhǔn)差σ(上圖為訓(xùn)練集,下圖為測試集)Fig.1 Regression forecasting and standard deviation (the training set is shown in the figure above, and the test set is shown in the figure below)

        4 結(jié)論

        本文提出基于模型平均思想的穩(wěn)健超高維特征篩選方法(MASIS), 分析其確定性篩選性質(zhì),并給出了MASIS方法理論性質(zhì)的證明.通過蒙特卡洛模擬,驗(yàn)證了MASIS方法在處理線性問題和非線性問題時(shí)具有很好的穩(wěn)健性,同時(shí)該方法相比較于其他方法,能更好地處理超高維數(shù)據(jù)中經(jīng)常出現(xiàn)的異構(gòu)性和交互作用等問題.自由模型假設(shè)的條件,使得該方法具有更廣泛的使用范圍.?dāng)?shù)值模擬和實(shí)例分析的特征篩選結(jié)果顯示,MASIS方法比之前的篩選方法能更有效、更穩(wěn)健地篩選出理想的特征變量,對現(xiàn)有方法進(jìn)行了恰當(dāng)?shù)馗倪M(jìn).

        猜你喜歡
        位數(shù)殘差條件
        基于雙向GRU與殘差擬合的車輛跟馳建模
        排除多余的條件
        五次完全冪的少位數(shù)三進(jìn)制展開
        選擇合適的條件
        基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        為什么夏天的雨最多
        平穩(wěn)自相關(guān)過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
        “判斷整數(shù)的位數(shù)”的算法分析
        河南科技(2014年11期)2014-02-27 14:09:41
        波多野结衣一区二区三区视频| 国模无码一区二区三区不卡| 手机在线看永久av片免费| 亚洲五月激情综合图片区| 亚洲日本国产一区二区三区| 熟女一区二区三区在线观看| 亚洲精品乱码久久久久久日本蜜臀| 99视频全部免费精品全部四虎| 亚洲av第一区综合激情久久久| 亚洲一二三四区免费视频| 妺妺窝人体色www看美女| 亚洲av无码成人yellow| 久久婷婷国产五月综合色| 精品国内日本一区二区| 99久久国产综合精品女图图等你| 99热成人精品免费久久| 天堂a版一区二区av| 国产一区二区视频免费在线观看| а√资源新版在线天堂| 中文字幕久久久久人妻无码| 精品国产3p一区二区三区| 久久婷婷五月综合色奶水99啪| 人妻献身系列第54部| 婷婷五月亚洲综合图区| 国产三区三区三区看三区| 国产精品无码v在线观看| 久久精品国产亚洲av瑜伽| 视频一区中文字幕亚洲| 日本强伦姧人妻一区二区| 欧美黑人又粗又硬xxxxx喷水| 久久精品成人免费观看97| 国产精品自拍盗摄自拍| 娇妻在交换中哭喊着高潮| 欧美在线视频免费观看| 成人黄网站免费永久在线观看| 久久精品国产亚洲av天| 国产精品美女久久久久| 国产91第一页| 亚洲自拍偷拍色图综合| 国产一区二区内射最近更新 | 国产亚洲欧美精品久久久|