亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的大規(guī)模腫瘤數(shù)據(jù)生存分析*

        2022-03-17 02:02:48中國(guó)人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心統(tǒng)計(jì)學(xué)院100872張文麗林存潔
        關(guān)鍵詞:乳腺癌方法

        中國(guó)人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心,統(tǒng)計(jì)學(xué)院(100872) 李 嶸 張文麗 李 揚(yáng) 林存潔

        【提 要】 目的 將深度學(xué)習(xí)方法應(yīng)用在大規(guī)模腫瘤數(shù)據(jù)中,并預(yù)測(cè)腫瘤患者的個(gè)體生存情況,提升預(yù)測(cè)精度,為個(gè)體化治療方案提供參考。方法 以老年乳腺癌數(shù)據(jù)為例,將生存時(shí)間劃分成離散區(qū)間,通過神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)患者在各離散區(qū)間內(nèi)的死亡概率,實(shí)現(xiàn)個(gè)體生存函數(shù)的預(yù)測(cè)。結(jié)果 對(duì)于19576例老年女性乳腺癌的個(gè)體生存函數(shù)預(yù)測(cè)情況,本文提出的方法預(yù)測(cè)效果好于其他的模型,表現(xiàn)在有更大的c-index指標(biāo)和更大的log-rank統(tǒng)計(jì)量值。結(jié)論 基于深度學(xué)習(xí)的生存函數(shù)預(yù)測(cè)有較大的靈活性,不受Cox模型比例風(fēng)險(xiǎn)假設(shè)的限制,能夠處理大規(guī)模數(shù)據(jù),并且對(duì)個(gè)體生存函數(shù)的預(yù)測(cè)更加準(zhǔn)確。

        全球癌癥負(fù)擔(dān)日益加重,腫瘤的發(fā)病率和死亡率日益增加,已成為威脅人類健康的主要危險(xiǎn)因素。隨著電子病歷(EMR)和腫瘤基因組學(xué)的發(fā)展與普及,腫瘤病人的相關(guān)臨床數(shù)據(jù)量不斷增加,而大規(guī)模的腫瘤數(shù)據(jù)為精準(zhǔn)醫(yī)學(xué)提供了良好的研究基礎(chǔ)[1]。精準(zhǔn)醫(yī)學(xué)自提出以來(lái)一直被廣泛重視,2015年3月,我國(guó)科技部首次召開國(guó)家精準(zhǔn)醫(yī)學(xué)戰(zhàn)略專家會(huì)議,計(jì)劃啟動(dòng)中國(guó)的精準(zhǔn)醫(yī)學(xué)計(jì)劃,隨后精準(zhǔn)醫(yī)學(xué)被列入國(guó)家重點(diǎn)研發(fā)項(xiàng)目并正式進(jìn)入啟動(dòng)階段[2-3]。精準(zhǔn)醫(yī)學(xué)根據(jù)患者的特異性進(jìn)行個(gè)性化的預(yù)防或治療干預(yù),通過預(yù)測(cè)腫瘤患者的個(gè)體生存情況來(lái)確定個(gè)體化治療方案。本文的研究對(duì)象為老年乳腺癌患者,乳腺癌是女性最常見的惡性腫瘤之一,隨著人口老齡化及女性平均壽命的延長(zhǎng),老年乳腺癌(以大于65歲為界限)發(fā)病率明顯增多。由于老年病人的體質(zhì)和健康狀況差異較大,尚無(wú)規(guī)范的治療模式,因此對(duì)于老年乳腺癌的治療應(yīng)該按照個(gè)體化原則確定治療方案[4]。

        預(yù)測(cè)生存函數(shù)是生存分析中的重要任務(wù),而大規(guī)模腫瘤數(shù)據(jù)為研究建立了基礎(chǔ)的同時(shí)也帶來(lái)了挑戰(zhàn)。龐大的數(shù)據(jù)量使得經(jīng)典的Cox模型難以計(jì)算,另外,Cox模型假設(shè)風(fēng)險(xiǎn)函數(shù)的對(duì)數(shù)是解釋變量的線性組合且解釋變量的影響不隨時(shí)間變化,該比例風(fēng)險(xiǎn)假設(shè)在實(shí)際問題中難以被滿足。近年來(lái),隨著機(jī)器學(xué)習(xí)的發(fā)展,利用深度學(xué)習(xí)方法處理生存數(shù)據(jù)的研究也取得了一些進(jìn)展,突出的方法包括Cox-nnet[5]、DeepSurv[6]和Nnet-Survival[7]。其中Cox-nnet方法利用一層神經(jīng)網(wǎng)絡(luò)進(jìn)行降維后將輸出的結(jié)果作為解釋變量擬合Cox模型,DeepSurv方法則是基于Cox模型的部分似然函數(shù)利用深度學(xué)習(xí)模型擬合風(fēng)險(xiǎn)函數(shù)。但是Cox-nnet和DeepSurv這兩種方法仍在不同程度上保留了Cox模型的假設(shè),因此具有一定的局限性。而Nnet-survival方法則是將生存時(shí)間離散化,然后估計(jì)各區(qū)間的條件風(fēng)險(xiǎn)函數(shù)。在本文中,我們借鑒Nnet-Survival的思想,但是更加關(guān)注每個(gè)離散區(qū)間上生存函數(shù)的估計(jì),把生存分析問題轉(zhuǎn)化成深度學(xué)習(xí)問題,進(jìn)而提高生存函數(shù)的預(yù)測(cè)精度。該方法完全摒棄了Cox模型的假設(shè),能夠更加靈活地處理生存數(shù)據(jù),給出更加準(zhǔn)確的預(yù)測(cè)結(jié)果,同時(shí)保持了深度學(xué)習(xí)算法對(duì)大規(guī)模數(shù)據(jù)的有效性,因此能夠更好地適用于大規(guī)模腫瘤數(shù)據(jù)的生存分析。

        原理與方法

        假設(shè)我們的觀測(cè)數(shù)據(jù)是右刪失數(shù)據(jù),即存在部分樣本,截止到觀測(cè)時(shí)間結(jié)束,感興趣的事件(例如死亡事件)仍沒有發(fā)生。不妨設(shè)觀測(cè)樣本為:(Ti,Zi,δi),i=1,…,n。其中Ti=min(Xi,Ci),Xi表示個(gè)體i的真實(shí)生存時(shí)間,Ci表示個(gè)體i的刪失時(shí)間,Ti即為可觀察到的兩者中的最小值,Zi表示p維協(xié)變量。δi是指示變量,δi=0表示數(shù)據(jù)刪失(即Ci

        pj=P(tj-1

        其中S(t)=P(T>t)表示生存函數(shù)。如圖1所示,在第j個(gè)區(qū)間終點(diǎn)tj處的生存函數(shù)為:

        通過估計(jì)離散區(qū)間端點(diǎn)處生存函數(shù)的值就可以很好地近似完整的生存函數(shù)曲線,因此對(duì)于某個(gè)個(gè)體而言,其生存函數(shù)可以對(duì)應(yīng)到一組長(zhǎng)度為M的向量p=(p1,p2,…,pM),這里p表示M個(gè)離散區(qū)間中死亡事件發(fā)生的概率。從而對(duì)于生存函數(shù)的估計(jì)就轉(zhuǎn)化成對(duì)于p的估計(jì)??紤]到解釋變量對(duì)p的影響可能是復(fù)雜的非線性關(guān)系,也可能隨著時(shí)間進(jìn)展而變化,因此,采用深度學(xué)習(xí)對(duì)p進(jìn)行估計(jì)。

        圖1 離散區(qū)間結(jié)構(gòu)

        1.神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

        神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括輸入層、隱藏層和輸出層。本文采用全連接神經(jīng)網(wǎng)絡(luò),即層與層之間每個(gè)神經(jīng)元都有連接。

        (1)輸入層

        輸入層是影響生存時(shí)間的解釋變量Z,輸入層神經(jīng)元個(gè)數(shù)等于解釋變量的維數(shù)。

        (2)隱藏層

        隱藏層的層數(shù)和各層神經(jīng)元的個(gè)數(shù)可以自行選擇。隱藏層采用sigmoid激活函數(shù)。隱藏層中每一個(gè)神經(jīng)元的輸出值是所有連接到該神經(jīng)元的輸入值的線性組合再經(jīng)過sigmoid激活函數(shù)非線性處理后的結(jié)果。

        (3)輸出層

        一般地,離散區(qū)間的個(gè)數(shù)M可取15~40個(gè)且模型的表現(xiàn)對(duì)離散區(qū)間的選擇比較穩(wěn)定,本文通過下式確定前疏后密的區(qū)間端點(diǎn)[7]:

        其中,t*=0.27tmax,tmax為區(qū)間終點(diǎn)。

        2.神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

        (1)構(gòu)建目標(biāo)函數(shù)

        其中,第二項(xiàng)為正則項(xiàng),wk記為神經(jīng)網(wǎng)絡(luò)中的參數(shù),λ為調(diào)節(jié)系數(shù)控制懲罰力度的大小,通過對(duì)參數(shù)添加L2懲罰以防止模型過擬合。

        (2)Minibatch梯度下降算法

        求解神經(jīng)網(wǎng)絡(luò)以使得目標(biāo)函數(shù)最小化,通過反向傳播算法對(duì)目標(biāo)函數(shù)進(jìn)行求導(dǎo),然后采用Minibatch梯度下降算法對(duì)網(wǎng)絡(luò)中參數(shù)進(jìn)行更新。Minibatch梯度下降法適用于大規(guī)模數(shù)據(jù)集,由于個(gè)體似然函數(shù)間互相獨(dú)立,因此可以將大規(guī)模數(shù)據(jù)集拆分成多個(gè)小樣本集,在每個(gè)小樣本集中更新參數(shù)[8-9]。首先將全部樣本劃分為訓(xùn)練集和測(cè)試集,記訓(xùn)練集中的樣本可以劃分為B個(gè)小樣本集,每個(gè)小樣本集中包含的樣本點(diǎn)個(gè)數(shù)為nb(b=1,…,B)。在每個(gè)小樣本集中通過以下的方式依次更新參數(shù):

        其中η(b)表示第b次迭代中的步長(zhǎng),也稱作學(xué)習(xí)率,w(b)-w(b-1)表示動(dòng)量,記錄了上一次迭代時(shí)系數(shù)改變的方向,增加動(dòng)量項(xiàng)可以在一定程度上避免陷入局部最優(yōu)點(diǎn)及大幅度震蕩。B次更新記作一代訓(xùn)練,一代是指遍歷了訓(xùn)練集一次,本文中一代訓(xùn)練內(nèi)采用相同的步長(zhǎng),設(shè)置步長(zhǎng)的初始值為0.005。再將上述一代訓(xùn)練重復(fù)至收斂,本文為防止過擬合,設(shè)置停止準(zhǔn)則為連續(xù)300代更新之后測(cè)試集上的目標(biāo)函數(shù)沒有減少則停止訓(xùn)練。為提高收斂效率,設(shè)置步長(zhǎng)為每100代訓(xùn)練以0.8倍減小。

        (3)超參數(shù)選擇

        上述Minibatch梯度下降算法中包含一系列超參數(shù),包括目標(biāo)函數(shù)中正則項(xiàng)的調(diào)節(jié)系數(shù)λ,神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù),各隱藏層神經(jīng)元個(gè)數(shù)及更新準(zhǔn)則中的動(dòng)量項(xiàng)參數(shù)α。本文通過比較各組超參數(shù)組合下測(cè)試集的目標(biāo)函數(shù)值以確定使得測(cè)試集目標(biāo)函數(shù)值最小的超參數(shù)組合。

        實(shí)例分析

        本文通過深度學(xué)習(xí)預(yù)測(cè)老年乳腺癌患者的生存函數(shù),數(shù)據(jù)來(lái)源于美國(guó)國(guó)立癌癥研究所SEER(Surveillance,Epidemiology,and End Results Program)數(shù)據(jù)庫(kù),分析1994-2003年年齡大于等于65歲的19576例女性乳腺癌患者的病歷資料。通過預(yù)測(cè)其生存函數(shù)來(lái)了解患者的生存情況以便更好地做出治療決策。

        1.數(shù)據(jù)描述

        該數(shù)據(jù)中記錄病例的生存時(shí)間的中位數(shù)是119個(gè)月,觀測(cè)到的最長(zhǎng)生存時(shí)間為263個(gè)月,刪失率為5.9%。連續(xù)變量中只有腫塊大小存在缺失,缺失比例為11.92%,采用中位數(shù)插補(bǔ)。為分類變量添加虛擬變量,其中關(guān)于腫瘤位置只設(shè)置一個(gè)虛擬變量以防止共線性。參考已有文獻(xiàn)中對(duì)乳腺癌危險(xiǎn)因素的討論[10-11],最終從26個(gè)解釋變量中選擇出8個(gè)變量納入分析,各變量的描述如表1。

        表1 解釋變量統(tǒng)計(jì)表

        繪制KM曲線擬合整體的生存函數(shù)如圖2,總體生存函數(shù)在150個(gè)月之前下降速度略慢于150個(gè)月之后,表示后期風(fēng)險(xiǎn)略大于前期。

        圖2 老年乳腺癌患者KM生存曲線

        2.預(yù)測(cè)結(jié)果比較

        本文基于深度學(xué)習(xí)預(yù)測(cè)老年乳腺癌患者的個(gè)體生存函數(shù),劃分36個(gè)離散生存區(qū)間,通過估計(jì)各區(qū)間內(nèi)的死亡概率得到各區(qū)間終點(diǎn)處的生存函數(shù)的估計(jì),將該方法記為DL-Survival。現(xiàn)有的生存函數(shù)估計(jì)方法包括Cox模型,以及利用深度學(xué)習(xí)處理生存數(shù)據(jù)的Cox-nnet、DeepSurv和Nnet-Survival。分別采用這五種方法預(yù)測(cè)老年乳腺癌的生存函數(shù),并通過c-index和log-rank兩個(gè)指標(biāo)評(píng)價(jià)各種方法的預(yù)測(cè)準(zhǔn)確性,這兩個(gè)指標(biāo)均是生存分析中常用的評(píng)價(jià)指標(biāo)[12-13]。c-index計(jì)算所有可比的個(gè)體對(duì)中估計(jì)結(jié)果的相對(duì)關(guān)系和實(shí)際相對(duì)關(guān)系一致的比例,是衡量生存分析模型表現(xiàn)的常用指標(biāo),其大小在0到1之間,越接近1表示方法的預(yù)測(cè)精度越高。log-rank檢驗(yàn)統(tǒng)計(jì)量的原理是先根據(jù)預(yù)測(cè)結(jié)果把人群按照中位數(shù)分為高風(fēng)險(xiǎn)人群和低風(fēng)險(xiǎn)人群,然后對(duì)這兩組人群的KM估計(jì)曲線進(jìn)行l(wèi)og-rank檢驗(yàn)。log-rank檢驗(yàn)統(tǒng)計(jì)量值越大表示方法區(qū)分高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)人群的效果越好。各方法的比較結(jié)果如表2所示,本文提出的DL-Survival方法在個(gè)體生存函數(shù)的預(yù)測(cè)中表現(xiàn)最好。

        表2 各方法對(duì)老年乳腺癌患者生存函數(shù)預(yù)測(cè)結(jié)果比較

        討 論

        對(duì)于個(gè)體生存函數(shù)的預(yù)測(cè)有助于掌握患者的生存情況,以便優(yōu)化信息和決策。本文采用深度學(xué)習(xí)的方法,通過估計(jì)離散區(qū)間的死亡概率預(yù)測(cè)個(gè)體的生存函數(shù)。不同于KM方法對(duì)群體生存情況的估計(jì),本文基于個(gè)體特征對(duì)每個(gè)患者的生存函數(shù)進(jìn)行預(yù)測(cè)。同時(shí)本文提出的深度學(xué)習(xí)算法摒棄了Cox模型中比例風(fēng)險(xiǎn)假設(shè),在實(shí)際應(yīng)用中會(huì)更加靈活。在滿足等比例風(fēng)險(xiǎn)的條件下與基于Cox的方法能達(dá)到相同的效果;在不滿足等比例風(fēng)險(xiǎn)的條件下能夠優(yōu)于基于Cox的方法。而相比于其他不受比例風(fēng)險(xiǎn)限制的機(jī)器學(xué)習(xí)方法,本文提出的方法更加直觀地預(yù)測(cè)生存函數(shù),并且可以處理較大規(guī)模的數(shù)據(jù),其適用性更加廣泛。然而在實(shí)際應(yīng)用中運(yùn)用哪種方法需要綜合考慮,例如,當(dāng)樣本量較小時(shí),深度學(xué)習(xí)方法由于訓(xùn)練樣本量不足易產(chǎn)生過擬合,預(yù)測(cè)結(jié)果不一定優(yōu)于Cox模型。

        對(duì)大規(guī)模腫瘤數(shù)據(jù)仍然需要更多探索,大規(guī)模數(shù)據(jù)的特點(diǎn)通常包括樣本量大,變量維數(shù)多以及數(shù)據(jù)來(lái)源多樣化。對(duì)于更大樣本量的數(shù)據(jù),基于個(gè)體似然函數(shù)相互獨(dú)立,可以考慮分治法(divide and conquer)以降低計(jì)算成本。另外,本文中對(duì)于SEER老年乳腺癌患者的分析涉及到的解釋變量個(gè)數(shù)不多,當(dāng)數(shù)據(jù)中變量維數(shù)較多時(shí),可以考慮在神經(jīng)網(wǎng)絡(luò)中加入稀疏層,在預(yù)測(cè)生存函數(shù)的同時(shí)進(jìn)行變量選擇[14],以尋找影響老年乳腺癌患者生存情況的風(fēng)險(xiǎn)因素。為充分利用不同實(shí)驗(yàn)室或研究機(jī)構(gòu)的數(shù)據(jù)來(lái)源,還可以考慮整合分析方法,探索數(shù)據(jù)集間的關(guān)聯(lián)性和差異性,有助于精準(zhǔn)醫(yī)學(xué)對(duì)于不同亞群患者的治療和決策。

        猜你喜歡
        乳腺癌方法
        絕經(jīng)了,是否就離乳腺癌越來(lái)越遠(yuǎn)呢?
        中老年保健(2022年6期)2022-08-19 01:41:48
        中醫(yī)治療乳腺癌的研究進(jìn)展
        乳腺癌是吃出來(lái)的嗎
        學(xué)習(xí)方法
        胸大更容易得乳腺癌嗎
        別逗了,乳腺癌可不分男女老少!
        祝您健康(2018年5期)2018-05-16 17:10:16
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        免费看泡妞视频app| 亚洲色图偷拍自拍在线| 久久99热国产精品综合| 中文字幕乱偷无码av先锋蜜桃 | 欧美成人aaa片一区国产精品| 99re热这里只有精品最新| 99久久99久久精品免观看| 久久色悠悠综合网亚洲| 久久精品国产99久久久| 好看的日韩精品视频在线| 在教室伦流澡到高潮hgl动漫 | 日本少妇春药特殊按摩3| 国产亚洲av片在线观看18女人| 日韩精品视频在线观看免费| 国产视频一区2区三区| 美女mm131爽爽爽| 免费男人下部进女人下部视频| 亚洲日本国产乱码va在线观看| 中文字幕一区二三区麻豆| 午夜精品久久久久久久99热| 亚洲妓女综合网99| 国产精品亚洲av国产| 日本高清一道本一区二区| 性大毛片视频| 亚洲色大成人一区二区| 美女福利视频在线观看网址| 国产无遮挡aaa片爽爽| 中国丰满大乳乳液| 亚洲黄片久久| 久久久精品毛片免费观看| 亚洲国产精品无码专区影院| 手机在线精品视频| 91亚洲夫妻视频网站| 在线成人影院国产av| 国产激情久久久久久熟女老人av| a毛片全部免费播放| 最新国产av网址大全| 亚洲人成网77777色在线播放| 久久伊人色av天堂九九| 亚洲xx视频| 男奸女永久免费视频网站|