亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        超高維生存數(shù)據(jù)中基于相關(guān)性秩排序的變量篩選法和FDR控制

        2023-11-06 02:39:32潘瑩麗趙曉洛張淑瑩
        統(tǒng)計(jì)與決策 2023年19期
        關(guān)鍵詞:方法模型

        潘瑩麗,趙曉洛,張淑瑩,劉 展

        (1.湖北大學(xué)a.數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院;b.應(yīng)用數(shù)學(xué)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430062;2.中南財(cái)經(jīng)政法大學(xué) 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,武漢 430073)

        0 引言

        隨著科學(xué)技術(shù)的快速發(fā)展,超高維數(shù)據(jù)的降維問題逐漸成為機(jī)器學(xué)習(xí)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等領(lǐng)域的熱點(diǎn)話題。超高維數(shù)據(jù)中往往包含許多冗余信息,在推斷他們與響應(yīng)變量的統(tǒng)計(jì)關(guān)系時(shí),通常很難保證統(tǒng)計(jì)分析的準(zhǔn)確性、模型的可解釋性以及算法的穩(wěn)定性。針對(duì)超高維數(shù)據(jù)帶來的挑戰(zhàn),有效的解決方法之一是先過濾掉一些不相關(guān)的協(xié)變量,使維數(shù)從超高維降至相對(duì)高維,然后再對(duì)剩余的協(xié)變量進(jìn)行正則化處理來選取重要變量。在生物醫(yī)學(xué)和臨床試驗(yàn)中,經(jīng)常會(huì)收集到超高維生存數(shù)據(jù),但生存數(shù)據(jù)通常存在刪失,傳統(tǒng)的處理超高維完全數(shù)據(jù)的變量篩選法大多不再適用,這就使得研究超高維生存數(shù)據(jù)的變量篩選法成為迫切需求。

        已有文獻(xiàn)中關(guān)于變量篩選法的研究成果十分豐富。例如,Zhao 和Li(2012)[1]提出了一種基于標(biāo)準(zhǔn)化邊際極大似然估計(jì)的Cox 模型變量篩選法,簡(jiǎn)稱P-SIS。為了放松Cox 模型的假設(shè)條件,Gorst-Rasmussen 和Scheike(2013)[2]基于FAST統(tǒng)計(jì)量提出了適用于所有單指標(biāo)危險(xiǎn)率模型的變量篩選法,簡(jiǎn)稱FAST-SIS。通過對(duì)Kendall’s τ 相關(guān)系數(shù)作逆概率加權(quán),Song 等(2014)[3]提出了一種對(duì)異常值點(diǎn)穩(wěn)健且不依賴于模型的變量篩選法,簡(jiǎn)稱CRIS。張婧(2018)[4]提出了一種基于相關(guān)性秩排序的獨(dú)立篩選法CR-SIS,該方法以協(xié)方差為切入點(diǎn)來計(jì)算每個(gè)協(xié)變量對(duì)應(yīng)的邊際效應(yīng)大小,并以此來衡量協(xié)變量的重要程度,保留與響應(yīng)變量相關(guān)程度高的協(xié)變量。

        大多數(shù)變量篩選法往往依賴于一些閾值參數(shù)來控制重要變量和不重要變量之間的界限,并選取與響應(yīng)變量相關(guān)程度較高的協(xié)變量作為重要變量,以達(dá)到降維的目的[5]。這些降維方法能以較高的概率保留所有重要變量,即具有確定篩選性能,提高了模型的可解釋性,卻未能很好地控制錯(cuò)誤發(fā)現(xiàn)率(FDR),降低了穩(wěn)定性,所以若能尋找一種可以平衡模型的可解釋性和穩(wěn)定性的降維方法,則對(duì)超高維生存數(shù)據(jù)的處理有著極大的幫助,能科學(xué)地利用所獲取到的數(shù)據(jù),更好地讓試驗(yàn)數(shù)據(jù)發(fā)揮統(tǒng)計(jì)預(yù)測(cè)的功能。Fixed-X Knockoff 過濾器最早是由Barber 和Candès(2015)[6]提出的,它是一種新的能控制FDR的變量選擇過程,其主要思想是構(gòu)造原始協(xié)變量的仿制變量(即Knockoff協(xié)變量)。在有條件地基于原始協(xié)變量的前提下,Knockoff協(xié)變量與響應(yīng)變量無關(guān),并模仿原始變量中的相關(guān)結(jié)構(gòu),從而實(shí)現(xiàn)FDR控制。Fixed-X Knockoff過濾器實(shí)現(xiàn)了在數(shù)據(jù)維度小于或等于樣本量的低維情況下對(duì)有限樣本的精確FDR控制,保證了有限樣本容量下變量選擇的準(zhǔn)確性。

        為了解決無法利用Fixed-X Knockoff過濾器對(duì)超高維數(shù)據(jù)進(jìn)行降維的問題,Barber 和Candès(2019)[7]開發(fā)了一個(gè)用于檢測(cè)高維線性模型中相關(guān)性的新框架。在這個(gè)框架中,完整樣本被分為兩個(gè)不相交的子樣本,樣本大小分別為n1和n2=n-n1。降維過程分兩步進(jìn)行:第一步,采用變量篩選法將數(shù)據(jù)維數(shù)降至n2以下,并保留與響應(yīng)變量相關(guān)程度高的協(xié)變量;第二步,利用Fixed-X Knockoff 過濾器為選中的每個(gè)協(xié)變量構(gòu)造Knockoff 協(xié)變量,他們能很好地模擬原始協(xié)變量之間的相關(guān)結(jié)構(gòu),并且可以作為控制變量來衡量原始變量的重要性。綜上,將Fixed-X Knockoff 過濾器應(yīng)用于數(shù)據(jù)分析的效果有一定的理論支撐。鑒于此,本文將超高維生存數(shù)據(jù)的變量篩選法和Fixed-X Knockoff 過濾器結(jié)合起來(簡(jiǎn)記為CR-Knockoff)解決超高維生存數(shù)據(jù)的降維問題,以確保模型的可解釋性和穩(wěn)定性,拓寬降維方法的實(shí)際應(yīng)用范圍。若將完全數(shù)據(jù)視為刪失率為0 的生存數(shù)據(jù),則該過程同樣也適用于完全數(shù)據(jù)的降維。此外,本文提出的CR-Knockoff 兩步過程同時(shí)具有確定篩選和FDR控制的性能。

        1 基于相關(guān)性秩排序的變量篩選法和FDR控制

        1.1 CR-Screen過程

        令yˉ為生存時(shí)間,C為刪失時(shí)間,y=min(,C)表示實(shí)際觀測(cè)的生存時(shí)間,Δ=I(≤C)為刪失指示變量,I(?)為示性函數(shù)。假設(shè)數(shù)據(jù)是完全隨機(jī)刪失的,即給定p維協(xié)變量x=(x1,…,xp),刪失時(shí)間C和生存時(shí)間是相互獨(dú)立的。假定對(duì)于給定的協(xié)變量x,的條件分布函數(shù)為:

        在不指定任何模型的假設(shè)前提下,定義重要協(xié)變量指標(biāo)集為:

        重要變量的數(shù)量為s=|Λ |,其中,| Λ |表示集合Λ 中元素的個(gè)數(shù)。用Λ 的補(bǔ)集Λc來表示不重要變量指標(biāo)集。假設(shè)所有協(xié)變量均已中心化,即對(duì)j=1,…,p均有E(xj)=0,若協(xié)變量不滿足這個(gè)假設(shè)條件,則可以先對(duì)其進(jìn)行中心化處理。令G(h)=P(≤h)為響應(yīng)變量的分布函數(shù),定義R(x,)=E{xG()}。令R(xj,)是R(x,)的第j個(gè)元素,則:

        其中,xj為x的第j個(gè)元素。對(duì)j=1,…,p,定義:

        其中,CR()xj,代表第j個(gè)協(xié)變量xj所對(duì)應(yīng)的邊際效應(yīng)。

        給定來自總體{y,x,Δ} 的隨機(jī)樣本{Y,X,Δ},其中,Y=(Y1,…,Yn)T,設(shè)計(jì)矩陣X=(X1,…,Xp)且Xj=(X1j,…,Xnj)T,j=1,…,p,Δ=(Δ1,…,Δn)T。由于響應(yīng)變量為刪失數(shù)據(jù),則可以用Kaplan-Meier 估計(jì)來得到生存函數(shù)G(h)的估計(jì)值,其具體定義如下:

        其中,cn-φ為常數(shù)閾值。

        1.2 基于Knockoff協(xié)變量的FDR控制過程

        Fixed-X Knockoff過濾器最早是由Barber 和Candès(2015)[6]針對(duì)確定性設(shè)計(jì)矩陣提出的,它是一種新的帶有FDR 控制的變量選擇方法。令為響應(yīng)變量的n次觀測(cè)向量,x=(x1,…,xp)表示p維協(xié)變量。

        本文采用SDP方法[6]來構(gòu)造p維協(xié)變量的Knockoff協(xié)變量,基于{x,,} 定義如下統(tǒng)計(jì)量:

        參考Liu 等(2020)[8]的研究思路,定義如下閾值參數(shù)Tα:

        1.3 CR-Knockoff過程

        采用簡(jiǎn)單樣本分割思想,將完整樣本隨機(jī)拆分為兩個(gè)不重疊的、樣本量分別為n1和n2=n-n1的子樣本集。不妨令是X的隨機(jī)拆分,并且對(duì)Y進(jìn)行相同的拆分,則可以將X和Y分別寫成:

        CR-Knockoff過程的兩個(gè)步驟如下:

        (1)CR-Screen步驟

        (2)Knockoff步驟

        其中,a?b=max{a,b} 。基于重要變量指標(biāo)集(Tα),功效(Power)可定義為:

        2 數(shù)值模擬

        2.1 CR-Screen篩選性能

        本文通過數(shù)值模擬實(shí)驗(yàn)評(píng)估CR-Screen 的有限樣本性能,并將其與另外三種處理超高維生存數(shù)據(jù)的變量篩選法進(jìn)行比較,他們分別是Zhao和Li(2012)[1]提出的一種基于標(biāo)準(zhǔn)化邊際極大似然估計(jì)的Cox模型變量篩選法,簡(jiǎn)稱P-SIS;Gorst-Rasmussen和Scheike(2013)[2]基于FAST統(tǒng)計(jì)量提出的適用于所有單指標(biāo)危險(xiǎn)率模型的變量篩選法,簡(jiǎn)稱FAST-SIS;Song等(2014)[3]提出的一種對(duì)異常值點(diǎn)穩(wěn)健且不依賴于模型的變量篩選法,簡(jiǎn)稱CRIS??紤]如下三種模型:

        模型1:假設(shè)生存時(shí)間yˉ服從如下線性模型:

        其中,協(xié)變量x=(x1,…,xp)由均值為0、協(xié)方差矩陣為Σ=(0.5|i-j|)(i,j=1,…,p)的多元正態(tài)分布生成;回歸參數(shù),即只有前5 個(gè)協(xié)變量為重要變量,其他p-5 個(gè)協(xié)變量均為不重要變量;誤差項(xiàng)ε服從標(biāo)準(zhǔn)正態(tài)分布;刪失時(shí)間C服從參數(shù)為δ的指數(shù)分布,通過調(diào)整δ使刪失率接近20%??紤]樣本量n=100、協(xié)變量的維數(shù)p=5000 的情況。

        模型2:假設(shè)生存時(shí)間yˉ服從如下Cox比例風(fēng)險(xiǎn)模型:

        模型3:假設(shè)生存時(shí)間yˉ服從如下非線性模型:

        其中,協(xié)變量x、誤差項(xiàng)和刪失時(shí)間的設(shè)置同模型1。

        在數(shù)值模擬實(shí)驗(yàn)中,為了比較各種方法的效果,采用三個(gè)評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià),定義如下:

        (1)最小模型大小。通過200 次模擬實(shí)驗(yàn)所得到?值的5%、25%、50%、75%、95%分位數(shù)來衡量此變量篩選法所選出模型的復(fù)雜程度。

        (2)Pe:給定模型大小在200 次模擬實(shí)驗(yàn)中每個(gè)重要變量單獨(dú)被選出來的概率,其中[x] 代表x的整數(shù)部分。

        (3)Pa:給定模型大小在200 次模擬實(shí)驗(yàn)中所有重要變量同時(shí)被選出來的概率。

        表1匯總了200次模擬實(shí)驗(yàn)中最小模型大小? 的5%、25%、50%、75%、95%分位數(shù)。

        表1 200次模擬實(shí)驗(yàn)中最小模型大小? 的5%、25%、50%、75%、95%分位數(shù)

        由表1可知,CR-Screen在模型1和模型3中的表現(xiàn)均優(yōu)于其他三種變量篩選法。就模型1 而言,CR-Screen、P-SIS和FAST-SIS在? 的5%、25%、50%和75%分位數(shù)處均為真實(shí)模型大小(5),但是CR-Screen 和P-SIS 在? 的95%分位數(shù)處表現(xiàn)較好。在模型2 中,變量篩選法P-SIS和FAST-SIS 的表現(xiàn)較好,CR-Screen、P-SIS 和FAST-SIS在? 的5%、25%和50%分位數(shù)處均為5,但是CR-Screen在?的75%和95%分位數(shù)處的表現(xiàn)不如P-SIS和FAST-SIS,主要原因是P-SIS 和FAST-SIS 是基于Cox 比例風(fēng)險(xiǎn)模型的某些特征和特殊結(jié)構(gòu)提出的。觀察模型3的結(jié)果可知,CR-Screen的表現(xiàn)優(yōu)于另外三種方法。

        表2匯總了200次模擬實(shí)驗(yàn)中每個(gè)重要變量單獨(dú)被選出的概率Pe和所有重要變量同時(shí)被選出的概率Pa。

        表2 200次模擬實(shí)驗(yàn)中每個(gè)重要變量單獨(dú)被選出的概率Pe 和所有重要變量同時(shí)被選出的概率Pa

        由表2 可知,在模型1 中,CR-Screen 的確定篩選性能與P-SIS、FAST-SIS相差不大,均能以接近于1的概率選出所有重要變量。在模型2中,CR-Screen、P-SIS和FAST-SIS均能以接近于1的概率選出所有重要變量,這三者的表現(xiàn)明顯優(yōu)于CRIS。就模型3的結(jié)果而言,與其他三種方法相比,CR-Screen 能夠以0.895 的概率保留所有重要變量,具有較強(qiáng)的確定篩選性能。

        2.2 CR-Knockoff篩選和FDR控制性能

        本文通過數(shù)值模擬實(shí)驗(yàn)評(píng)估CR-Knockoff 過程的變量篩選性能和FDR 控制性能。考慮三個(gè)不同的模型,具體為:

        模型6:假設(shè)生存時(shí)間yˉ來自如下模型:

        其中,所有剩余設(shè)置同模型3。此外,樣本量、參數(shù)維數(shù)和樣本的分割的設(shè)置同模型4。

        為了評(píng)估CR-Knockoff的變量篩選和FDR控制性能,定義如下6個(gè)評(píng)價(jià)指標(biāo):

        (1)Size:平均模型大小,即200 次模擬實(shí)驗(yàn)中選出重要變量個(gè)數(shù)的平均值。

        (2)Pe:通過Knockoff 過程確定閾值Tα,從而選出滿足條件的協(xié)變量,該指標(biāo)表示在200次模擬實(shí)驗(yàn)中每個(gè)重要變量分別被選出來的概率。

        (3)Pa:通過Knockoff 過程確定閾值Tα,從而選出滿足條件的協(xié)變量,該指標(biāo)表示在200次模擬實(shí)驗(yàn)中所有重要變量同時(shí)被選出來的概率。

        (4)α:預(yù)先指定的FDR 控制水平,考慮α=0.10,0.15,0.20,0.25,0.30的情況。

        (5)FDR:CR-Knockoff 在變量篩選過程中的錯(cuò)誤發(fā)現(xiàn)率。

        (6)Power:功效,其用于衡量降維過程CR-Knockoff的可靠程度。

        表3匯總了基于CR-Knockoff過程進(jìn)行變量選擇的結(jié)果。

        表3 基于CR-Knockoff過程的變量選擇結(jié)果

        由表3 可知,對(duì)于模型4,每個(gè)變量被選出的概率Pe均大于或等于0.93,設(shè)定的10 個(gè)重要變量同時(shí)被選出的概率Pa也大于0.91,且隨著α的增大而增大。對(duì)于模型5,所有重要變量同時(shí)被選出的概率Pa大于或等于0.87。對(duì)于模型4,當(dāng)α≥0.20 時(shí),CR-Knockoff 過程選出所有重要變量的概率Pa達(dá)到0.8??傊?,CR-Knockoff 過程具有較好的確定篩選性能。

        表4 匯總了基于CR-Knockoff過程的FDR控制結(jié)果。

        表4 基于CR-Knockoff過程的FDR控制結(jié)果

        由表4可知,基于模型4、模型5和模型6這三個(gè)模型,CR-Knockoff過程均能夠?qū)㈠e(cuò)誤發(fā)現(xiàn)率控制在預(yù)先設(shè)定的錯(cuò)誤發(fā)現(xiàn)率水平α下且比較接近α的取值。由模型4 中的錯(cuò)誤發(fā)現(xiàn)率控制結(jié)果可知,功效值均大于0.93,并隨著α的增大而增大。在模型5 和模型6 中,功效值均大于0.83,并且模型6中的功效值隨著α的增大而增大。

        參見Liu 等(2020)[8]的研究中的定理5,當(dāng)α≥1時(shí),CR-Knockoff 能夠以較高概率保留所有重要變量,并實(shí)現(xiàn)FDR 控制。相反,當(dāng)α<1時(shí),CR-Knockoff 過程卻不能篩選出所有重要變量。為了進(jìn)一步驗(yàn)證該定理,考慮前文中相同設(shè)置的線性回歸模型、Cox 比例風(fēng)險(xiǎn)模型和非線性模型,設(shè)定真實(shí)重要變量數(shù)量為s=10,并讓FDR 水平α以0.01 為間隔從0.01 增加到0.20。對(duì)每個(gè)設(shè)定的水平α,計(jì)算200 次模擬下CR-Knockoff 的確定性篩選概率。為了更直觀地展示結(jié)果,在圖1 中繪制出確定性篩選概率與預(yù)先指定的FDR水平α的關(guān)系圖。垂直的黑色點(diǎn)線為截?cái)帱c(diǎn)α=1。從圖1 中可以清楚地看出,當(dāng)α≥1時(shí),所有重要變量都有較高的概率被選中;當(dāng)α<1時(shí),確定篩選性能并不成立,并且當(dāng)α很小時(shí)確定性篩選概率接近于零。

        圖1 確定性篩選概率與預(yù)先指定的FDR水平α 的關(guān)系曲線

        3 實(shí)證分析

        為了驗(yàn)證本文所提出的方法在實(shí)際應(yīng)用中的可操作性,將提出的CR-Knockoff 過程應(yīng)用于套細(xì)胞淋巴瘤(MCL)數(shù)據(jù)集,該基因表達(dá)數(shù)據(jù)集包含了8810個(gè)基因,該數(shù)據(jù)可在網(wǎng)頁http://llmpp.nih.gov/MCL/上獲得。本文的主要目標(biāo)是確定對(duì)患者生存風(fēng)險(xiǎn)有重大影響的基因。在101例從未有過淋巴瘤病史的未經(jīng)治療的患者中,基于形態(tài)學(xué)和免疫表型標(biāo)準(zhǔn),有92 例患者被歸類為患有MCL。在實(shí)驗(yàn)的整個(gè)隨訪過程中,有64例患者死于MCL,剩下的28 例患者在最后一次隨訪時(shí)仍然存活,該數(shù)據(jù)集的刪失率為30.4%。將患者的生存時(shí)間看作響應(yīng)變量,剔除含缺失值的基因,將剩下的6312 個(gè)基因表達(dá)水平看作協(xié)變量。在進(jìn)行變量篩選之前,對(duì)所有基因表達(dá)水平進(jìn)行標(biāo)準(zhǔn)化處理。

        根據(jù)前文所提出的CR-Knockoff 過程的實(shí)現(xiàn)步驟,設(shè)定CR-Screen 篩選步驟的樣本量為42,d=[42/log(42)]=11,即先從92個(gè)個(gè)體中隨機(jī)選擇42個(gè)觀察對(duì)象,在篩選步驟中使用CR-Screen 預(yù)篩選出11 個(gè)基因;然后再在Knockoff 步中利用剩下的50 個(gè)觀察對(duì)象為預(yù)先篩選出的11 個(gè)協(xié)變量構(gòu)造近似二階Knockoff 協(xié)變量。在預(yù)先指定的FDR 水平α=0.2 下,CR-Knockoff 過程選出了5 個(gè)重要變量,對(duì)所選出的5個(gè)重要變量擬合Cox比例風(fēng)險(xiǎn)模型,以獲得重要變量的系數(shù)估計(jì)值。為了進(jìn)行比較,考慮Zhao和Li(2012)[1]中的篩選方法P-SIS、Gorst-Rasmussen 和Scheike(2013)[2]中的篩選方法FAST-SIS、Song 等(2014)[3]中的篩選方法CRIS、張婧(2018)[4]中的篩選方法CR-Screen。分別采用這四種變量篩選法從6312 個(gè)基因中篩選出20=[92/log(92)]個(gè)協(xié)變量。為了進(jìn)一步分析這一數(shù)據(jù),擬合基于20個(gè)所選協(xié)變量的加LASSO懲罰的Cox比例風(fēng)險(xiǎn)模型,通過10 折交叉驗(yàn)證選擇優(yōu)化參數(shù)。加LASSO處理后的CRIS(簡(jiǎn)記為CRIS+LASSO)、P-SIS(簡(jiǎn)記為P-SIS+LASSO)、FAST-SIS(簡(jiǎn)記為FAST-SIS+LASSO)、CR-Screen(簡(jiǎn)記為CR-Screen+LASSO),分別選出5、5、6、6個(gè)重要變量,基因的編號(hào)(UNIQID)和選出的重要變量的系數(shù)估計(jì)值的結(jié)果總結(jié)在表5中。

        表5 基于MCL數(shù)據(jù)集篩選重要基因的結(jié)果

        由表5 可以看出,CR-Knockoff 方法和CR-Screen+LASSO 方法篩選出兩個(gè)共同的基因30157 和15936;CR-Knockoff 方法和FAST-SIS+LASSO 方法以及P-SIS+LASSO方法均篩選出一個(gè)共同的基因30157。此外,Zhang等(2017)[9]指出基因30157與患者的生存率密切相關(guān)。因此,基因30157是對(duì)患者生存風(fēng)險(xiǎn)有重大影響的基因。

        為了評(píng)估CR-Knockoff的預(yù)測(cè)性能,將92名患者隨機(jī)分為樣本量為72 的訓(xùn)練集和樣本量為20 的測(cè)試集,利用訓(xùn)練集中的數(shù)據(jù)建立預(yù)測(cè)模型,并利用測(cè)試數(shù)據(jù)對(duì)模型進(jìn)行評(píng)價(jià)。將CR-Knockoff 過程的FDR 控制在α=0.2 水平下,對(duì)訓(xùn)練集進(jìn)行篩選,設(shè)定CR-Screen 篩選步驟的樣本量為32,d=[32/log(32)]=9。CR-Knockoff 過程選出了5個(gè)重要基因,他們的UNIQIDs分別為26944、17474、16312、28640、27116。基于所選的基因擬合Cox 比例風(fēng)險(xiǎn)模型,并獲得協(xié)變量的系數(shù)估計(jì)值。計(jì)算測(cè)試集中患者的風(fēng)險(xiǎn)得分,并將他們分為低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)組,分界值由訓(xùn)練集中患者風(fēng)險(xiǎn)得分的平均值確定。下頁圖2 繪制了測(cè)試集中低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)組的Kaplan-Meier 生存曲線,可以看出,對(duì)于所提出的CR-Knockoff 過程,兩條曲線可以很好地分開。接著,采用對(duì)數(shù)秩檢驗(yàn)來評(píng)估這兩條生存曲線的差異,檢驗(yàn)的P 值為4×10-3,表明基于CR-Knockoff 過程最終選擇的模型具有良好的預(yù)測(cè)性能。

        圖2 基于測(cè)試集所得低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)組的Kaplan-Meier生存曲線

        4 結(jié)論

        本文將變量篩選法CR-Screen 和Fixed-X Knockoff 過濾器結(jié)合起來解決超高維生存數(shù)據(jù)的降維問題,以達(dá)到平衡模型的可解釋性和穩(wěn)定性的目的,拓寬了降維方法的實(shí)際應(yīng)用范圍。本文提出使用Knockoff 協(xié)變量來指定變量篩選閾值的兩步CR-Knockoff過程,在預(yù)先設(shè)定的FDR水平α大于或等于1的情況下,提出的兩步過程同時(shí)具有確定篩選和FDR 控制的性能。模擬和實(shí)證研究結(jié)果表明,CR-Knockoff 過程可以很好地從大量超高維生存信息中找出與所感興趣的變量真正相關(guān)的協(xié)變量,并能有效控制FDR。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲av综合日韩精品久久久 | 青青操视频手机在线免费观看| 国产精华液一区二区三区| 免费a级作爱片免费观看美国 | 女人喷潮完整视频| 亚洲精品视频久久| 日韩av在线不卡一二三区| 亚洲国产性夜夜综合另类| 国产精品麻豆一区二区三区| 日韩人妻系列在线观看| 久久精品国产精品青草| 亚洲av乱码中文一区二区三区 | 国产精品成人观看视频国产奇米| 97碰碰碰人妻无码视频| 国产三级在线观看免费| 亚洲色欲色欲www成人网| 亚洲精品国产亚洲av| 日本一本之道高清不卡免费| 亚洲av无码国产精品麻豆天美 | av大片在线无码免费| 在线观看视频日本一区二区三区| 老司机在线免费视频亚洲| 色噜噜亚洲男人的天堂| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交 | 我要看免费久久99片黄色| 国产精品一区二区久久乐下载| 久久久久久亚洲AV成人无码国产 | 蜜桃a人妻精品一区二区三区| 亚洲国产成人精品无码一区二区| 试看男女炮交视频一区二区三区| 手机在线观看亚洲av| 激情综合五月| 台湾佬娱乐中文22vvvv| 成人精品免费av不卡在线观看| 99久久国产精品免费热| 肉体裸交137日本大胆摄影| 亚洲熟伦熟女新五十路熟妇| 国产成人一区二区三区高清| 亚洲天堂av在线免费观看| 国产精品永久免费| 欧美日韩中文国产一区|