亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)模型融合正則化方法在高維數(shù)據(jù)特征篩選中的應(yīng)用研究*

        2021-03-16 09:54:18栗思思盧宇紅宋佳麗
        關(guān)鍵詞:高維正則組學(xué)

        王 萌 王 策 栗思思 盧宇紅 宋佳麗 李 康 侯 艷△

        【提 要】 目的 探索基于深度學(xué)習(xí)模型聯(lián)合正則化方法在小樣本高維數(shù)據(jù)特征篩選中的優(yōu)勢(shì)。方法 通過(guò)模擬實(shí)驗(yàn)和實(shí)際數(shù)據(jù)分析比較深度學(xué)習(xí)模型單獨(dú)及聯(lián)合正則化方法在小樣本高維特征篩選準(zhǔn)確性方面的差異;采用測(cè)試集中C指數(shù)作為兩種模型泛化能力評(píng)價(jià)指標(biāo)。結(jié)果 在小樣本研究中單純的深度學(xué)習(xí)模型在變量之間存在復(fù)雜相關(guān)性時(shí)會(huì)表現(xiàn)過(guò)擬合,而深度學(xué)習(xí)模型聯(lián)合正則化的方法比單獨(dú)的深度學(xué)習(xí)模型在測(cè)試集中體現(xiàn)出防止過(guò)擬合的作用,具有更好的泛化能力。通過(guò)比較不同正則化的方法,發(fā)現(xiàn)深度學(xué)習(xí)聯(lián)合組 lasso相比于lasso在測(cè)試集中表現(xiàn)出更好的泛化能力。結(jié)論 深度學(xué)習(xí)模型聯(lián)合正則化的方法在小樣本高維數(shù)據(jù)特征篩選中可以防止過(guò)擬合,保證外部測(cè)試具有較好的預(yù)測(cè)效果。

        模型介紹

        深度學(xué)習(xí)模型融合正則化方法是指在常規(guī)深度學(xué)習(xí)的輸入層與第一隱藏層之間加入正則化方法,剔除對(duì)結(jié)局變量作用較小的特征組,從而進(jìn)行特征篩選,以保證使用較少且重要的特征來(lái)訓(xùn)練深度學(xué)習(xí)模型,避免出現(xiàn)過(guò)擬合現(xiàn)象[4]。深度學(xué)習(xí)與正則化融合方法的示意圖如圖1所示。由于高維組學(xué)數(shù)據(jù)具有特征個(gè)數(shù)較多、樣本量少、數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜等特點(diǎn),傳統(tǒng)的深度學(xué)習(xí)模型學(xué)習(xí)數(shù)據(jù)的特征時(shí)常常嘗試兼顧所有的數(shù)據(jù)點(diǎn),很容易出現(xiàn)過(guò)擬合現(xiàn)象??紤]在深度學(xué)習(xí)模型學(xué)習(xí)特征的信息前首先利用正則化方法對(duì)高維組學(xué)數(shù)據(jù)篩選出對(duì)結(jié)局變量影響較大的特征,再作為輸入變量放入深度學(xué)習(xí)結(jié)構(gòu)中,可能會(huì)具有更為有效的防止過(guò)擬合,同時(shí)提高模型學(xué)習(xí)效率等優(yōu)點(diǎn)。

        圖1 深度學(xué)習(xí)與正則化融合方法的示意圖

        1963年Tikhonov提出正則化不但具有降維的作用[5],同時(shí)可以有效防止模型過(guò)擬合[6]。正則化主要思想是在估計(jì)參數(shù)時(shí),引導(dǎo)損失函數(shù)的最小值朝著約束方向迭代。正則化的方法有很多,例如lasso、自適應(yīng)lasso、彈性網(wǎng)等,近年來(lái)由于組lasso(group lasso)能夠?qū)崿F(xiàn)生物學(xué)有對(duì)結(jié)局指標(biāo)類(lèi)別的篩選,即篩選出對(duì)結(jié)局變量影響較大的特征組,進(jìn)而在此類(lèi)特征組中進(jìn)一步篩選特征,此種思想在實(shí)際應(yīng)用中較為常用[7]。以下為組lasso的參數(shù)估計(jì)表達(dá)式:

        (1)

        深度學(xué)習(xí)模型輸出層的特征是綜合全部特征變量的信息篩選得到的一個(gè)或多個(gè)特征,將其與各類(lèi)模型相結(jié)合進(jìn)行有效地預(yù)測(cè),便于評(píng)估篩選變量結(jié)果準(zhǔn)確性的指標(biāo)。本文通過(guò)模擬實(shí)驗(yàn)和實(shí)例數(shù)據(jù)來(lái)評(píng)價(jià)深度學(xué)習(xí)聯(lián)合正則化是否可以篩選出有效特征,提高模型的泛化能力。

        模擬實(shí)驗(yàn)

        1.模擬數(shù)據(jù)的產(chǎn)生

        (1)特征數(shù)與樣本含量的設(shè)定

        在實(shí)際的組學(xué)數(shù)據(jù)中常常具有成千上萬(wàn)個(gè)基因,增加了數(shù)據(jù)處理與分析的困難性,為了使模擬數(shù)據(jù)與TCGA中真實(shí)的數(shù)據(jù)結(jié)構(gòu)相似且便于計(jì)算,我們?cè)谀M實(shí)驗(yàn)中設(shè)置特征的個(gè)數(shù)p=800,樣本量n=500,此時(shí)符合實(shí)際組學(xué)數(shù)據(jù)中基因的數(shù)量遠(yuǎn)遠(yuǎn)多于患者數(shù)量的特點(diǎn)。

        梅黎明指出,“鄉(xiāng)村振興戰(zhàn)略的內(nèi)涵十分豐富,將‘四化’同步發(fā)展提升為‘農(nóng)業(yè)農(nóng)村優(yōu)先發(fā)展’,將‘社會(huì)主義新農(nóng)村建設(shè)’提升為‘鄉(xiāng)村振興戰(zhàn)略’,將‘農(nóng)業(yè)現(xiàn)代化’提升為‘農(nóng)業(yè)農(nóng)村現(xiàn)代化’,將‘統(tǒng)籌城鄉(xiāng)’提升為‘城鄉(xiāng)融合’?!?/p>

        (2)特征組的設(shè)定

        考慮到組學(xué)數(shù)據(jù)中特征間具有相關(guān)性,在分析數(shù)據(jù)時(shí)應(yīng)將具有相關(guān)性的特征分為一組,在模擬實(shí)驗(yàn)中設(shè)每個(gè)組內(nèi)有4個(gè)特征,即將8000個(gè)特征平均分為2000個(gè)組,同時(shí)假定5個(gè)組即20個(gè)特征對(duì)生存有影響。

        (3)生存時(shí)間及生存結(jié)局的設(shè)定

        本文以Cox比例風(fēng)險(xiǎn)模型作為深度學(xué)習(xí)模型的預(yù)測(cè)模型探索方法的有效性,這里模擬500名患者的生存時(shí)間和生存結(jié)局。每個(gè)患者潛在生存時(shí)間可表示為:

        (2)

        βX={β1X1,β2X2,…,βg-1Xg-1,βgXg}

        共有g(shù)個(gè)組,在第j個(gè)特征組中:

        βjxj={βj1xj1,βj2xj2,βj3xj3,βj4xj4}

        1≤j≤g,βj1xj1,βj2xj2,βj3xj3,βj4xj4為第j組內(nèi)4個(gè)特征及其系數(shù)。設(shè)T1為服從參數(shù)為λ指數(shù)分布的刪失時(shí)間,若T1≥T,則生存結(jié)局為死亡;若T1

        2.評(píng)價(jià)方法及指標(biāo)

        隨機(jī)抽取數(shù)據(jù)集的60%、20%和20%分別作為訓(xùn)練集、測(cè)試集和驗(yàn)證集,訓(xùn)練次數(shù)為5000次。首先在訓(xùn)練集中訓(xùn)練深度學(xué)習(xí)模型,然后在驗(yàn)證集中采用梯度下降法不斷對(duì)模型的超參數(shù)進(jìn)行調(diào)整,尋求最佳模型,最后在測(cè)試集中評(píng)估其泛化能力。選擇測(cè)試集中C指數(shù)客觀地評(píng)估深度學(xué)習(xí)模型單獨(dú)及聯(lián)合正則化方法后的泛化能力。

        3.模擬實(shí)驗(yàn)的結(jié)果

        使用模擬數(shù)據(jù)集分別訓(xùn)練聯(lián)合組lasso和lasso的深度學(xué)習(xí)模型與單純的深度學(xué)習(xí)模型,每經(jīng)過(guò)一次訓(xùn)練后記錄訓(xùn)練集、驗(yàn)證集和測(cè)試集中的C指數(shù),隨著訓(xùn)練次數(shù)的增加,相應(yīng)的C指數(shù)發(fā)生改變?nèi)鐖D2所示。

        圖2反應(yīng)了不同模型的訓(xùn)練過(guò)程中,訓(xùn)練集、驗(yàn)證集和測(cè)試集中C指數(shù)的變化情況。訓(xùn)練未加入正則化的深度學(xué)習(xí)模型時(shí)(圖A所示),驗(yàn)證集和測(cè)試集C指數(shù)無(wú)明顯波動(dòng),由表1可知當(dāng)不同數(shù)據(jù)集的C指數(shù)保持不變時(shí),訓(xùn)練集的C指數(shù)較驗(yàn)證集和測(cè)試集中C指數(shù)0.62高的多,由此可見(jiàn),未加入正則化深度學(xué)習(xí)的模型存在過(guò)擬合的風(fēng)險(xiǎn),可能不具有較好的泛化能力。加入lasso(圖B所示)和組lasso(圖C所示)的深度學(xué)習(xí)模型在訓(xùn)練過(guò)程中驗(yàn)證集和測(cè)試集的C指數(shù)均有顯著增大的趨勢(shì),且訓(xùn)練分別至約為2000次和3000次,驗(yàn)證集和測(cè)試集的C指數(shù)趨向穩(wěn)定。圖B和圖C中測(cè)試集C指數(shù)達(dá)到穩(wěn)定時(shí)分別為0.80和0.88。深度學(xué)習(xí)模型中加入正則化,通過(guò)在訓(xùn)練集中不斷訓(xùn)練以及在驗(yàn)證集中對(duì)模型超參數(shù)的不斷調(diào)整獲得的深度學(xué)習(xí)模型具有很好的泛化能力,在一定程度上可以有效防止訓(xùn)練深度學(xué)習(xí)模型時(shí)出現(xiàn)過(guò)擬合,且組lasso防止模型過(guò)擬合的效果優(yōu)于lasso。

        圖2 不同模型訓(xùn)練集、驗(yàn)證集和測(cè)試集中C指數(shù)隨訓(xùn)練次數(shù)增加的變化情況

        表1 相同模型不同情況下三個(gè)數(shù)據(jù)集中穩(wěn)定的C指數(shù)

        實(shí)例分析

        1.數(shù)據(jù)的來(lái)源及整理

        從TCGA癌癥基因庫(kù)中下載共計(jì)630名卵巢癌患者的mRNA、蛋白質(zhì)組學(xué)以及臨床信息,將模擬實(shí)驗(yàn)中所闡述的方法及評(píng)價(jià)指標(biāo)應(yīng)用于上述實(shí)例數(shù)據(jù)。在上述數(shù)據(jù)中選擇原發(fā)卵巢癌患者同時(shí)剔除缺失生存結(jié)局、生存時(shí)間的患者,最終保留196名包含有組學(xué)數(shù)據(jù)和臨床信息的原發(fā)卵巢癌患者;剔除大于等于70%患者中缺失的特征,若小于70%的患者缺失某個(gè)特征值,對(duì)其缺失值采取中位數(shù)填補(bǔ)[9]。對(duì)填補(bǔ)缺失值后的組學(xué)數(shù)據(jù)進(jìn)行Z標(biāo)準(zhǔn)化。在實(shí)例數(shù)據(jù)中,共有18717個(gè)特征,mRNA和蛋白組學(xué)中受同一基因調(diào)控的特征分為一個(gè)特征組。

        2.實(shí)例分析結(jié)果

        如圖3所示,隨著訓(xùn)練次數(shù)不斷增加,同時(shí)模型在不斷的優(yōu)化,此時(shí)融入組lasso模型測(cè)試集的C指數(shù)明顯增加,最高可達(dá)到0.67,且明顯高于常規(guī)深度學(xué)習(xí)模型測(cè)試集的C指數(shù)。對(duì)兩種模型測(cè)試集C指數(shù)的中位數(shù)進(jìn)行Wilcoxon秩和檢驗(yàn),檢驗(yàn)得到的P值小于0.0001,二者中位數(shù)的差值具有統(tǒng)計(jì)學(xué)意義,即融入組 lasso模型的測(cè)試集C指數(shù)中位數(shù)高于常規(guī)深度學(xué)習(xí)模型的測(cè)試集C指數(shù)的中位數(shù)。由此可見(jiàn)在模型中加入組lasso可以提高模型的C指數(shù),且融入組lasso模型相比于常規(guī)深度學(xué)習(xí)模型具有更好的泛化能力,過(guò)擬合風(fēng)險(xiǎn)相對(duì)更低。

        圖3 未加入正則化與融入組 lasso兩種模型測(cè)試集C指數(shù)隨訓(xùn)練次數(shù)的變化

        討 論

        實(shí)驗(yàn)結(jié)果顯示,使用常規(guī)深度學(xué)習(xí)模型進(jìn)行預(yù)測(cè)時(shí)模型的C指數(shù)中位數(shù)僅為0.57,且模型驗(yàn)證集的損失函數(shù)并沒(méi)有減小,此時(shí)模型存在過(guò)擬合。實(shí)際中癌癥高維組學(xué)數(shù)據(jù)的樣本量較少且與結(jié)局變量無(wú)關(guān)的特征較多是導(dǎo)致深度模型出現(xiàn)過(guò)擬合的主要原因。在訓(xùn)練常規(guī)的深度學(xué)習(xí)模型時(shí)需要大量的樣本,但是在實(shí)際癌癥組學(xué)數(shù)據(jù)的研究中,樣本量較少限制了模型的學(xué)習(xí)能力,與此同時(shí)數(shù)據(jù)中又存在大量與結(jié)局變量無(wú)關(guān)的特征,因此模型不能充分且有效地學(xué)習(xí)從而導(dǎo)致模型的預(yù)測(cè)性能降低。此時(shí)我們需要正則化方法對(duì)癌癥高維組學(xué)數(shù)據(jù)進(jìn)行降維,為訓(xùn)練模型選擇與結(jié)局變量高度相關(guān)的特征或者特征組(癌癥高維組學(xué)數(shù)據(jù)中具有分組信息),在樣本量較少的情況下提高模型的學(xué)習(xí)效率和預(yù)測(cè)的準(zhǔn)確性,降低模型過(guò)擬合的風(fēng)險(xiǎn)。

        實(shí)際癌癥高維組學(xué)數(shù)據(jù)中,大部分特征都不是相互獨(dú)立的,常規(guī)的深度學(xué)習(xí)模型并不能對(duì)彼此之間具有相關(guān)性的輸入特征進(jìn)行分組,所以加入組lasso的深度學(xué)習(xí)模型更適合處理實(shí)際的癌癥高維組學(xué)數(shù)據(jù)。眾所周知,實(shí)際癌癥組學(xué)數(shù)據(jù)中特征個(gè)數(shù)以及它們之間的相關(guān)性使數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜,在模擬實(shí)驗(yàn)中是將所有特征均勻分組,即每特征組中特征個(gè)數(shù)相等,而在卵巢癌患者的組學(xué)數(shù)據(jù)中某些基因可能同時(shí)調(diào)控多個(gè)組學(xué)的不同特征,亦可能僅調(diào)控一個(gè)組學(xué)特征,因此并不能保證每個(gè)特征分組內(nèi)的特征個(gè)數(shù)相等,在一定程度上也增加了數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。但模型中融入正則化方法可以使模型在小樣本的數(shù)據(jù)中具有較強(qiáng)的學(xué)習(xí)能力,防止模型過(guò)擬合,減少無(wú)用功,節(jié)約運(yùn)算時(shí)間。

        雖然本研究通過(guò)在深度學(xué)習(xí)模型中加入正則化方法使得在實(shí)際組學(xué)數(shù)據(jù)中訓(xùn)練模型較少的出現(xiàn)過(guò)擬合,但是如果將同一通路中組學(xué)特征分為一組,需要考慮同一組學(xué)特征出現(xiàn)在不同的通路中,換言之,同一特征同時(shí)出現(xiàn)在不同的特征組中時(shí),本文所述的lasso、組lasso不再適用,它們能夠改善過(guò)擬合的問(wèn)題,但不能徹底解決,在未來(lái)的研究中我們嘗試將重疊lasso應(yīng)用于深度學(xué)習(xí)模型中,改善用組間具有重疊特征的組學(xué)數(shù)據(jù)訓(xùn)練深度學(xué)習(xí)模型時(shí)出現(xiàn)的過(guò)擬合問(wèn)題。隨著高維組學(xué)數(shù)據(jù)研究不斷發(fā)展,正則化方法在進(jìn)行高維特征篩選方面具有較好的應(yīng)用前景。

        猜你喜歡
        高維正則組學(xué)
        口腔代謝組學(xué)研究
        剩余有限Minimax可解群的4階正則自同構(gòu)
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類(lèi)算法
        類(lèi)似于VNL環(huán)的環(huán)
        基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢(xún)算法
        一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
        代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
        有限秩的可解群的正則自同構(gòu)
        高維Kramers系統(tǒng)離出點(diǎn)的分布問(wèn)題
        av天堂最新在线播放| 日韩毛片在线| 女人扒开屁股爽桶30分钟| 亚洲欧洲无码一区二区三区| 中字幕久久久人妻熟女| chinese国产乱在线观看| 国产综合精品久久亚洲| 久久精品有码中文字幕1| 精品久久精品久久精品| 伊人影院成人在线观看| 国产精品亚洲av高清二区| 天天躁夜夜躁狠狠是什么心态| 337p人体粉嫩胞高清视频| 丰满人妻av无码一区二区三区| 欧美日韩在线免费看| 美艳善良的丝袜高跟美腿| 日本高清长片一区二区| 亚洲乱码中文字幕综合| 国产另类av一区二区三区| 国产精品美女主播一区二区| 亚洲一区二区三区四区精品在线| 国产日本精品视频一区二区| 欧美最猛黑人xxxx黑人猛交| 久久精品夜色国产亚洲av| 一本一道波多野结衣一区| 亚洲av永久无码一区| 久久精品一品道久久精品9 | 熟妇与小伙子露脸对白| 国产成人av三级三级三级在线| 亚洲精品国产av成人精品| 高潮潮喷奶水飞溅视频无码| 精品久久久久久777米琪桃花| 成人区视频| 日韩人妻系列在线视频| 国产精品熟女少妇不卡| 国产在线精品一区二区三区| 男人添女人下部高潮全视频| 欧美日韩精品乱国产| 日韩极品视频在线观看| 风流熟女一区二区三区| 亚洲av无码乱码在线观看性色|