亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高維生存分析數(shù)據(jù)在帶有測(cè)量誤差情形下的變量選擇方法*

        2023-01-11 13:07:42張家睿吳耀華
        關(guān)鍵詞:方法模型

        張家睿,吳耀華

        (1 中國(guó)科學(xué)技術(shù)大學(xué)管理學(xué)院, 合肥 230026; 2 香港大學(xué)浙江科學(xué)技術(shù)研究院, 杭州 310000)

        在過(guò)去10年里分子生物學(xué)試驗(yàn)技術(shù)的進(jìn)展給我們帶來(lái)了豐富的生物醫(yī)學(xué)數(shù)據(jù),舉例來(lái)說(shuō),DNA顯微序列可以用來(lái)測(cè)量一個(gè)細(xì)胞中成千上萬(wàn)的基因。這種類型的數(shù)據(jù)中樣本維度p比樣本量n要大得多,對(duì)于傳統(tǒng)的統(tǒng)計(jì)推斷方法來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),有很多經(jīng)典的推斷方法在這種情況下變得不適用。這種情形下有效的變量選擇方法就變得尤為重要。比較著名的高維數(shù)據(jù)變量選擇方法有Lasso[1],SCAD[2]和MCP[3]等。

        當(dāng)研究關(guān)于患者生存狀態(tài)的醫(yī)療數(shù)據(jù)時(shí),將高維的生物醫(yī)療數(shù)據(jù)和患者的生存狀態(tài)數(shù)據(jù)結(jié)合起來(lái)分析是一個(gè)很有效的方法。因此近些年來(lái)也有很多關(guān)于高維生存分析模型的變量選擇方法,比如Bradic等[4]關(guān)于高維Cox模型的正則化方法,Gorst-Rasmussen和Scheike[5]關(guān)于高維單指數(shù)模型的篩選方法,Lin和Lyu[6]關(guān)于高維可加模型的正則化方法等等。高維生存分析模型還廣泛地應(yīng)用到信用風(fēng)險(xiǎn)分析,比如Fan等[7]。

        由于在實(shí)際生活中,我們經(jīng)常會(huì)遇到帶有測(cè)量誤差的數(shù)據(jù),所以對(duì)于帶有測(cè)量誤差數(shù)據(jù)的分析方法也是一個(gè)重要的研究方向,對(duì)于高維線性模型有Loh和Wainwright[8]以及Datta和Zou[9]的相關(guān)工作;對(duì)于變系數(shù)模型,有劉智凡等[10]的工作。對(duì)于帶有測(cè)量誤差的生存分析數(shù)據(jù)的變量選擇方法,代表文章有Song和Wang[11]關(guān)于工具變量的工作,Chen和Yi[12]關(guān)于Cox模型左截?cái)嘤覄h失數(shù)據(jù)的工作。高維生存分析模型由于其計(jì)算復(fù)雜度較高以及理論性質(zhì)較為復(fù)雜,所以對(duì)于帶有測(cè)量誤差的高維生存分析數(shù)據(jù)的工作隨著近些年大數(shù)據(jù)的迅速發(fā)展才逐步出現(xiàn)在視野之中。具有代表性的文章有Chen和Yi[13]關(guān)于高維生存分析圖模型的工作以及Chen等[14]關(guān)于高維Cox模型利用糾正似然函數(shù)的工作。本文選擇同樣具有重要應(yīng)用的可加風(fēng)險(xiǎn)模型作為基礎(chǔ),結(jié)合處理高維線性模型的正則化方法對(duì)帶有測(cè)量誤差的生存分析數(shù)據(jù)進(jìn)行分析。

        1 研究背景

        本文所采用的模型為高維可加風(fēng)險(xiǎn)模型,結(jié)合高維線性模型測(cè)量誤差處理辦法對(duì)帶有測(cè)量誤差的生存分析數(shù)據(jù)進(jìn)行分析。下面對(duì)高維可加風(fēng)險(xiǎn)模型和高維線性模型測(cè)量誤差處理方法分別進(jìn)行介紹。

        1.1 高維可加風(fēng)險(xiǎn)模型

        對(duì)于生存分析數(shù)據(jù)的變量選擇技術(shù)的發(fā)展已經(jīng)不拘泥于Cox模型,可加風(fēng)險(xiǎn)模型便是除Cox模型以外的一種重要替代方式??杉语L(fēng)險(xiǎn)模型假設(shè)失效時(shí)間為T的風(fēng)險(xiǎn)函數(shù)和p維的協(xié)變量X(·)有如下形式的關(guān)系

        (1)

        其中:λ0(·)是一個(gè)不確定的基線風(fēng)險(xiǎn)函數(shù),β0是一個(gè)p維的回歸系數(shù)。令C為刪失時(shí)間,則定義刪失失效時(shí)間為CFT=C∧T,令CFT=t1,…,tn,失效指數(shù)定義為δ=I(T≤C),其中I(·)為指示函數(shù),令X(t)=(X1(t),…,Xp(t))并且假設(shè)給定X觀察到的數(shù)據(jù)為(CFT,δ,X(·)),風(fēng)險(xiǎn)函數(shù)由式(1)給出。

        采用常用的計(jì)數(shù)手段,定義觀察到的失效計(jì)數(shù)序列為Ni(t)=I(ti≤t,δi=1),風(fēng)險(xiǎn)中指數(shù)為Yi(t)=I(ti≥t),計(jì)數(shù)過(guò)程鞅為

        (2)

        后文也將用N(t),Y(t)和M(t)來(lái)代表這些計(jì)數(shù)過(guò)程的廣義形式。

        Lin和Ying[15]采用一種有如下形式的偽得分方程來(lái)對(duì)可加風(fēng)險(xiǎn)模型進(jìn)行分析:

        {dNi(t)-Yi(t)βTXi(t)dt},

        (3)

        其中β∈p,并且

        (4)

        τ是最大的跟蹤時(shí)間(生存時(shí)間和刪失時(shí)間的最大值)。這個(gè)估計(jì)函數(shù)關(guān)于回歸系數(shù)是線性的,令

        (5)

        (6)

        其中v?2=vvT,通過(guò)一些代數(shù)變換,可以寫出如下等式

        U0(β)=b0-V0β.

        (7)

        在沒(méi)有測(cè)量誤差的情況下,V0是半正定的,式(7)兩邊關(guān)于β積分就可以得到損失函數(shù)

        (8)

        Leng和Ma[16]以及Martinussen和Scheike[17]都建議用上述損失函數(shù)配合正則化方法對(duì)可加風(fēng)險(xiǎn)模型(1)進(jìn)行變量選擇。本文的相關(guān)工作也是在此基礎(chǔ)上進(jìn)行。

        1.2 高維線性模型測(cè)量誤差數(shù)據(jù)的處理方法

        為了進(jìn)一步構(gòu)建更深層次的討論,假設(shè)觀察到的是被污染的協(xié)變量矩陣

        Z(·)=(zij(·))1≤i≤n,1≤j≤p,

        (9)

        而不是真實(shí)的協(xié)變量矩陣X(·)。有很多種造成測(cè)量誤差的途徑,在加法測(cè)量誤差設(shè)定中,zi,j(·)=xi,j(·)+ai,j,其中A(·)=(ai,j)是加法測(cè)量誤差。在乘法測(cè)量誤差設(shè)定中,zi,j(·)=xi,j(·)mi,j,其中mi,j就是乘法測(cè)量誤差。缺失數(shù)據(jù)可以看作乘法測(cè)量誤差的一個(gè)特殊形式,mi,j=I(xi,j(·)沒(méi)缺失)。

        不失一般性,用Lasso算法來(lái)舉例說(shuō)明測(cè)量誤差的影響,對(duì)于線性模型y=Xβ+來(lái)說(shuō),Lasso算法是最小化

        (10)

        這等價(jià)于最小化

        (11)

        (12)

        然后解決下面的優(yōu)化問(wèn)題來(lái)得到β的估計(jì):

        (13)

        (14)

        其中R是一個(gè)跟稀疏度有關(guān)的常數(shù)。Datta和Zou[9]提出一種最近鄰正定投影矩陣的算法來(lái)解決上述問(wèn)題,對(duì)于任意方陣K:

        (15)

        (16)

        (17)

        2 帶有測(cè)量誤差的高維可加風(fēng)險(xiǎn)模型的變量選擇方法

        2.1 簡(jiǎn)化偽得分方程

        在第1節(jié)中已經(jīng)介紹了Lin和Ying[15]的偽得分方程的具體形式,下面將在協(xié)變量X期望值為0的前提下簡(jiǎn)化該偽得分方程,提出一種全新的更加容易計(jì)算且符合實(shí)際情況的損失函數(shù)。首先定義

        (18)

        以及

        (19)

        則有

        (20)

        接著定義

        (21)

        由于X的期望為0,所以容易得到E(U(β))=0,在如上定義的基礎(chǔ)上,類似于式(7),有

        U(β)=b-Vβ,

        (22)

        式(22)對(duì)β積分即可得到期望為0時(shí)的損失函數(shù)

        (23)

        綜上所述即為簡(jiǎn)化版本的損失函數(shù),我們將基于這個(gè)損失函數(shù)進(jìn)行變量選擇。

        2.2 兩種測(cè)量誤差數(shù)據(jù)的變量選擇方法

        2.2.1 加法測(cè)量誤差

        假設(shè)觀測(cè)到的設(shè)計(jì)矩陣Z(·)被加法測(cè)量誤差污染,即zi,j(·)=xi,j(·)+ai,j,其中A(·)=(ai,j)。同時(shí)假設(shè)A的行是獨(dú)立同分布的,均值是0,協(xié)方差矩陣是ΣA,次高斯參數(shù)是τ2。假設(shè)ΣA是已知的,則V和b的無(wú)偏估計(jì)分別為

        (24)

        (25)

        (26)

        2.2.2 乘法測(cè)量誤差

        (27)

        以及

        (28)

        其中∥代表向量或者矩陣對(duì)應(yīng)元素相除。和加法測(cè)量誤差模型類似,乘法測(cè)量誤差下無(wú)偏估計(jì)矩陣也有可能不是正定的,所以基于Datta和Zou[9]的方法,可以得到相應(yīng)的凸損失函數(shù):

        (29)

        3 理論性質(zhì)

        在這一節(jié)中給出并推導(dǎo)估計(jì)量的l1和l2誤差界。記我們的估計(jì)量為CoCo估計(jì)量。首先定義近鄰條件:

        (30)

        (31)

        對(duì)所有1≤i,j≤p成立。其中集合S={1,2,…,s}是回歸系數(shù)β的支撐集。

        同樣也需要和線性模型下一樣的特征值限制條件:

        條件3.2協(xié)方差陣特征值限制條件

        (32)

        條件3.2是一個(gè)在高維線性模型變量選擇中比較常見(jiàn)的假設(shè)。下面給出CoCo估計(jì)量的統(tǒng)計(jì)誤差界:

        定理3.1在式(30)、式(31)和式(32)成立的前提下,對(duì)于λ≤min(ε0,12ε0‖βS‖∞)和ε≤min(ε0,Ω/64s),下式至少以概率

        (33)

        其中

        (34)

        引理3.1說(shuō)明加法測(cè)量誤差的計(jì)算方法滿足近鄰條件。下面將對(duì)乘法測(cè)量誤差進(jìn)行說(shuō)明。為了保證乘法測(cè)量誤差的計(jì)算方法也滿足近鄰條件,需要添加額外的正則化條件如下:

        (35)

        則接下來(lái)有

        引理3.2說(shuō)明了乘法測(cè)量誤差的計(jì)算方法滿足近鄰條件。將引理3.1,引理3.2和定理3.1結(jié)合有

        推論3.1給出了加法測(cè)量誤差估計(jì)方法和乘法測(cè)量誤差估計(jì)方法的理論保證,確定了估計(jì)量l1和l2的誤差界,下面將通過(guò)隨機(jī)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析來(lái)驗(yàn)證我們的理論結(jié)果。

        4 實(shí)驗(yàn)及結(jié)果分析

        本文的方法簡(jiǎn)記為CoCo,Loh和Wainwright[8]的方法記為NCL,在隨機(jī)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析中將對(duì)兩種方法進(jìn)行比較。

        4.1 隨機(jī)模擬

        4.1.1 加法測(cè)量誤差模型

        從可加風(fēng)險(xiǎn)模型中產(chǎn)生數(shù)據(jù),設(shè)定λ0=5,回歸系數(shù)為

        β=(3,1.5,0,0,2,…,0).

        (36)

        樣本量n=100,樣本維度p=200,X的行獨(dú)立同分布,均值為0,協(xié)方差矩陣為ΣX,考慮兩種情形下的ΣX:自回歸(ΣX,ij=0.5|i-j|)和復(fù)合對(duì)稱(ΣX,ij=0.5+I(i=j)*0.5),刪失時(shí)間服從U(0,2)的均勻分布使得刪失率維持在20%左右。首先生成3n×p的X,然后從中選出n個(gè)滿足λ0+βTX>0的樣本作為實(shí)驗(yàn)數(shù)據(jù)。加法測(cè)量誤差為矩陣A,觀測(cè)數(shù)據(jù)由Z=X+A生成,A的行是服從N(0,τ2I)的獨(dú)立同分布變量,其中τ=0.25、0.5和0.75。

        表1展示了CoCo和NCL兩種方法分別在自回歸和復(fù)合對(duì)稱條件下的100次重復(fù)實(shí)驗(yàn)的結(jié)果,可以看出在兩種情形下本文方法的選對(duì)數(shù)量和估計(jì)的均方誤差方面都比NCL方法要好。

        表1 加法測(cè)量誤差兩種方法的結(jié)果Table 1 The results of two methods under additive error-in-variable data

        4.1.2 乘法測(cè)量誤差模型

        與加法測(cè)量誤差模擬類似,依舊從可加風(fēng)險(xiǎn)模型中產(chǎn)生數(shù)據(jù),λ0=5,回歸系數(shù),樣本量和樣本維度都保持不變,X的行獨(dú)立同分布,均值為0,協(xié)方差矩陣為ΣX,依舊考慮ΣX在自回歸和復(fù)合對(duì)稱兩種條件下的情形,并且與加法測(cè)量誤差中的設(shè)定保持一致。刪失時(shí)間服從U(0,2)的均勻分布使得刪失率維持在20%左右,首先生成3n×p的X,然后從中選出n個(gè)滿足λ0+βTX的作為實(shí)驗(yàn)數(shù)據(jù)。乘法測(cè)量誤差矩陣為M=((mi,j)),觀測(cè)數(shù)據(jù)由Z(·)=X(·)⊙M生成,log(mi,j)是服從N(0,τ2I)的獨(dú)立同分布變量,其中τ=0.25、0.5和0.75。與上一個(gè)隨機(jī)模擬實(shí)驗(yàn)一樣,依舊采用5折的交叉驗(yàn)證方法來(lái)估計(jì)CoCo估計(jì)量和NCL的參數(shù)R。同樣記錄C和IC分別代表選對(duì)的系數(shù)數(shù)量和錯(cuò)誤的數(shù)量,還記錄均方誤差(MSE)以及其標(biāo)準(zhǔn)差(se)??偣策M(jìn)行100次實(shí)驗(yàn)取平均數(shù)作為最后的結(jié)果,在表2中展示。

        表2展示了乘法測(cè)量誤差中,CoCo和NCL兩種方法分別在自回歸和復(fù)合對(duì)稱條件下的100次重復(fù)實(shí)驗(yàn)結(jié)果,可以看出在兩種情形下本文方法的選對(duì)數(shù)量和估計(jì)的均方誤差都比NCL方法要好。但是隨著測(cè)量誤差變大,CoCo和NCL方法的估計(jì)精確度都會(huì)有明顯下降。

        表2 乘法測(cè)量誤差兩種方法的結(jié)果Table 2 The results of two methods under multiplicative error-in-variable data

        4.2 實(shí)際數(shù)據(jù)分析

        為了檢驗(yàn)我們方法的有效性,將295個(gè)樣本隨機(jī)分成包含235個(gè)樣本的訓(xùn)練集和60個(gè)樣本的驗(yàn)證集并重復(fù)100次,在每一次實(shí)驗(yàn)中,都采用隨機(jī)模擬實(shí)驗(yàn)中的兩種方法,即CoCo和NCL,用訓(xùn)練集訓(xùn)練模型參數(shù)并用驗(yàn)證集來(lái)篩選表現(xiàn)最好的估計(jì)量。計(jì)算

        (37)

        作為檢驗(yàn)兩種方法效果的指標(biāo)。具體的結(jié)果展示在表3中。從表3中可以看出我們的方法依舊有比較高的預(yù)測(cè)精確度,這也和隨機(jī)模擬實(shí)驗(yàn)的結(jié)果相符。我們方法的指標(biāo)相比NCL方法要好一些,并且變量選擇的數(shù)量上也比較相近。

        表3 加法測(cè)量誤差情形下兩種方法應(yīng)用在乳腺癌數(shù)據(jù)中的結(jié)果Table 3 The results of two methods in breast cancer data under additive measurement error

        5 結(jié)論

        本文提出一種針對(duì)高維可加風(fēng)險(xiǎn)模型中帶有測(cè)量誤差情況下的變量選擇方法。在已知的生存分析數(shù)據(jù)相關(guān)文獻(xiàn)中,尚未有針對(duì)測(cè)量誤差數(shù)據(jù)的變量選擇方法。本文基于高維線性模型測(cè)量誤差數(shù)據(jù)的估計(jì)方法,重構(gòu)了高維可加風(fēng)險(xiǎn)模型,并給出了加法和乘法兩種測(cè)量誤差模型的變量選擇算法。簡(jiǎn)化偽得分方程的形式更加簡(jiǎn)潔且實(shí)用性強(qiáng)。隨機(jī)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析的相關(guān)結(jié)果證實(shí)了本文方法的有效性和精確性。

        在未來(lái)的工作中,我們將致力于將簡(jiǎn)化偽得分方程應(yīng)用于高維可加風(fēng)險(xiǎn)模型的變量選擇中。同時(shí)也會(huì)對(duì)Cox模型,加速失效模型等其他生存分析模型中的測(cè)量誤差數(shù)據(jù)利用最近鄰半正定投影的方法進(jìn)行變量選擇方面的探索。

        猜你喜歡
        方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        學(xué)習(xí)方法
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲人妖女同在线播放| 4hu四虎永久在线观看 | 日本一区二区三区啪啪| 91麻豆精品激情在线观最新| 日本一区二区三区视频免费在线 | 国産精品久久久久久久| 成年人黄视频大全| 免费高清日本中文| 国产精品成人无码a 无码 | 品色永久免费| 一本大道久久精品 东京热| 丝袜美腿亚洲综合玉足| 国产人成精品免费久久久| 亚洲日韩国产一区二区三区在线| 男女性高爱潮免费网站| 国产高清在线精品免费| 日本人妻av在线观看| 国产丝袜一区丝袜高跟美腿| 97一期涩涩97片久久久久久久| 日本入室强伦姧bd在线观看 | 国产欧美精品一区二区三区–老狼| AV熟妇导航网| 美女被躁到高潮嗷嗷免费观看 | 久久久久av综合网成人| 丰满岳妇乱一区二区三区| 国产在线不卡视频| 国产日本精品一区二区免费| 人人做人人爽人人爱| 99久久久无码国产aaa精品| 中文字幕乱码中文乱码毛片 | 日本成人精品在线播放| 尤物在线精品视频| 国产精品久久久久国产精品| 亚洲一区二区三区偷拍自拍| 日本一区二区在线免费看| 99精品久久精品一区二区| 久久www免费人成—看片| 免费无码又爽又刺激网站| 热99精品| 精品国产三级国产av| 人妻精品一区二区三区蜜桃|