亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于分層矩陣能量譜的個(gè)體拷貝數(shù)變異檢測算法

2020-07-23 11:19:14陳念華袁細(xì)國

聊城大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年5期

陳念華袁細(xì)國

(西安電子科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，陜西西安 710071)

0 引言

癌癥對人類的健康和生命威脅極大，從基因分子水平上研究癌癥的預(yù)防和治療策略是當(dāng)代醫(yī)學(xué)急需解決的問題.近年來國際生物醫(yī)學(xué)界廣泛關(guān)注的一種新的基因組變異形式：拷貝數(shù)變異(copy number variation，CNV)，為此提供了新的線索和思路.CNV 是一種基因組結(jié)構(gòu)性變異，主要表現(xiàn)為長度從幾 Kb 至 Mb 的染色體片段的擴(kuò)增或缺失[1, 2]，是促使人類個(gè)體間基因差異的重要因素之一，也是引發(fā)癌細(xì)胞產(chǎn)生和發(fā)展的重要現(xiàn)象.CNV擴(kuò)增是指基因組區(qū)域的拷貝數(shù)從正常細(xì)胞二倍體到多倍體的變化，CNV缺失是基因組區(qū)域中拷貝數(shù)減少的變異.雖然CNV發(fā)生的頻率較低，但累積的堿基數(shù)量卻大大超過了單核苷酸多態(tài).在癌細(xì)胞中，CNV變異通常會(huì)引起相應(yīng)區(qū)域中包含的基因的劑量變化，這會(huì)影響基因的正常功能[3, 4].因此，在癌癥基因組中CNV的準(zhǔn)確檢測對于癌細(xì)胞發(fā)展機(jī)理研究及癌癥診斷具有重要的現(xiàn)實(shí)意義[5, 6].

以多樣本數(shù)據(jù)為背景的CNV檢測與分析，其過程不僅涉及到癌癥樣本與正常樣本信號的比較，而且涉及到癌癥樣本本身之間的比較，那么依據(jù)CNV在樣本中出現(xiàn)的頻率，可將其分為復(fù)發(fā)性和個(gè)體性CNV模式.復(fù)發(fā)CNV指在多數(shù)樣本中共同發(fā)生的CNV區(qū)域，即CNV在多樣本中表現(xiàn)的頻率較高，目前相關(guān)檢測方法的研究非常豐富[7, 8].個(gè)體CNV指在少部分樣本中共同發(fā)生或個(gè)體特異性的CNV，即CNV在多樣本中表現(xiàn)的頻率較低[9].而目前為止，針對個(gè)體性CNV檢測的研究方法較少，但這種CNV模式同樣非常重要.通過研究個(gè)體CNV與癌癥的關(guān)系，不僅可以發(fā)現(xiàn)更多與癌癥發(fā)生發(fā)展密切相關(guān)的變異，還對在醫(yī)學(xué)上進(jìn)行個(gè)體化的有針對性的藥物開發(fā)和治療有極大的幫助.

因此，本文提出一種名為IndivCNV(An individual copy number variation detection algorithm based on hierarchical matrix energy spectrum)的算法，與現(xiàn)有方法相比，該算法主要具有3個(gè)特點(diǎn)：(1) 可以從原始數(shù)據(jù)中實(shí)現(xiàn)個(gè)體性CNV模式的檢測；(2) 通過全變分將觀察到的信號進(jìn)行平滑處理，利用潛變量模型將其重建為特征與權(quán)重的乘積，以應(yīng)對噪聲較高情況下CNV的檢測；(3) 對信號進(jìn)行分層，根據(jù)分層矩陣能量譜在每層的占比，將能量高的復(fù)發(fā)CNV信號層剔除，以更準(zhǔn)確鑒別個(gè)體性CNV.

1 相關(guān)工作

基于陣列的比較基因組雜交技術(shù)(array-based comparative genomic hybridization, aCGH)是一種高通量、高分辨率的方法，可以用于測量數(shù)千個(gè)DNA區(qū)域中拷貝數(shù)的變化.要從aCGH數(shù)據(jù)中檢測CNV，就必須定位信號數(shù)據(jù)中CNV區(qū)域與非CNV區(qū)域間的變化點(diǎn)，這些變化點(diǎn)會(huì)將染色體分成多個(gè)離散的片段，進(jìn)一步便可以檢測出CNV.多樣本CNV的檢測涉及多個(gè)樣本，以期發(fā)現(xiàn)那些單樣本檢測無法發(fā)現(xiàn)的模式.目前有許多相關(guān)方法可以對aCGH數(shù)據(jù)進(jìn)行多樣本CNV檢測，例如PLA(Piecewise-constant and low-rank approximation for identification of recurrent copy number variations)[10]、fastRPCA(A fused lasso latent feature model for analyzing multi-sample aCGH data)[11]、FLLat(A variational approach to stable principal component pursuit )[12]等.

PLA將多樣本CNV檢測問題轉(zhuǎn)化為矩陣分解問題，其中原始數(shù)據(jù)矩陣被分解為低秩分量、稀疏分量和噪聲分量.這三個(gè)成分分別對應(yīng)于復(fù)發(fā)CNV、個(gè)體CNV和隨機(jī)噪聲.通過主成分分析，也就是計(jì)算出輸入矩陣的奇異值分解，并使用前幾個(gè)奇異向量形成一個(gè)新的低秩矩陣，可以很容易地從低秩分量中識別出復(fù)發(fā)性CNV，從稀疏分量中識別出個(gè)體CNV.

類似地，fastRPCA采用線性疊加的模型，為穩(wěn)定主成分跟蹤(stable principal component pursuit, SPCP)引入了新的凸公式，將原始信號分解為低秩分量和稀疏分量.fastRPCA首先建立了一個(gè)凸變分框架，然后用準(zhǔn)牛頓法對其進(jìn)行加速，并使用此創(chuàng)新設(shè)計(jì)了通過變分框架的快速方法.用aCGH數(shù)據(jù)作為原始輸入，經(jīng)過以上處理，便可以從低秩分量中識別出復(fù)發(fā)性CNV，從稀疏分量中識別出個(gè)體CNV.

FLLat使用潛在特征模型對aCGH數(shù)據(jù)進(jìn)行建模，其中每個(gè)樣本均通過固定數(shù)量的特征的加權(quán)組合來建模.這些特征代表了樣本組CNV的關(guān)鍵區(qū)域，并與權(quán)重相結(jié)合，描述了每個(gè)單獨(dú)樣本中的CNV區(qū)域.FLLat在特征的估計(jì)中使用了融合最小絕對值收斂和選擇算子，這在估計(jì)中既保證了數(shù)據(jù)的平滑度，也保證了數(shù)據(jù)的稀疏性.

以上這些方法雖然能較好的從多樣本數(shù)據(jù)中檢測出CNV，但是都不能對個(gè)體CNV進(jìn)行針對性的檢測，因此本文提出了可以對個(gè)體CNV進(jìn)行針對性檢測的算法IndivCNV.

2 方法

IndivCNV算法的基本框架如圖1所示，其輸入數(shù)據(jù)格式為大小為L×S的矩陣X，其中L代表探針數(shù)，S代表一組數(shù)據(jù)中包含的樣本個(gè)數(shù).該算法通過以下5個(gè)主要步驟實(shí)現(xiàn)對個(gè)體CNV的檢測：(1) 基于全變分正則化的信號層次化分解，(2) 應(yīng)用融合最小絕對值收斂和選擇算子，(3) 計(jì)算約束權(quán)重與特征數(shù)量J，(4) 模型參數(shù)估計(jì)，(5) 用分層矩陣能量譜識別個(gè)體CNV，下面將會(huì)針對每一個(gè)步驟的相關(guān)理論和實(shí)現(xiàn)過程進(jìn)行詳細(xì)闡述.

2.1 基于全變分正則化的信號層次化分解

本文使用潛在特征模型來模擬多樣本數(shù)據(jù)，并且提出逐層分解信號的策略，通過將CNV的原始數(shù)據(jù)重建為不同特征模式的組合來發(fā)現(xiàn)原始數(shù)據(jù)中的CNV模式.將兩個(gè)秩為j的矩陣相乘的形式用j個(gè)秩為1的列向量與行向量相乘的加和來等價(jià)表示，以此來表示原始矩陣的分層分解，即

(1)

該模型說明了樣本組的CNV的重要特征是由J個(gè)特征共同總結(jié)的.具體來說，每個(gè)特征代表CNV的特定模式.然后，給定樣本的權(quán)重確定每個(gè)特征對該樣本的貢獻(xiàn)程度.換句話說，通過這些特征的權(quán)重可以知道不同特征的發(fā)生頻率，以此來推斷復(fù)發(fā) CNV和個(gè)體 CNV.

2.2 應(yīng)用融合最小絕對值收斂和選擇算子

CNV區(qū)域傾向于在整個(gè)染色體的連續(xù)區(qū)域中發(fā)生，區(qū)域具有相同的拷貝數(shù).對于未顯示CNV的染色體的其余部分，預(yù)期的信號強(qiáng)度應(yīng)為零.因此，如果我們將生物芯片數(shù)據(jù)視為沿著染色體的1維信號，則信號的大部分都為零，非零區(qū)域出現(xiàn)在平滑區(qū)域中.通過這種1維信號的稀缺性和平滑性的組合可以自然地想到融合最小絕對值收斂和選擇算子信號近似器(fused lasso signal approximator，F(xiàn)LSA[13]).FLSA可以解決優(yōu)化問題

(2)

其中u=(u1,…,up)T是估計(jì)所述有序結(jié)果的參數(shù)的向量.第一個(gè)懲罰項(xiàng)負(fù)責(zé)懲罰每個(gè)參數(shù)大小，這可以促使解決方案稀疏，第二個(gè)懲罰項(xiàng)負(fù)責(zé)懲罰相鄰參數(shù)之間的絕對差異，這可以促使解決方案平滑.有2個(gè)相應(yīng)的調(diào)諧參數(shù)，λ1和λ2，分別控制稀疏性和平滑性.

(3)

2.3 約束權(quán)重與特征數(shù)量 J

(4)

約束(4)對每行V的大小設(shè)置了限制，即對應(yīng)于給定特征的權(quán)重.在此認(rèn)為這是限制權(quán)重大小的最合適方式.首先，它使估計(jì)的特征之間的直接比較更有意義；其次，它可以防止大部分權(quán)重僅分布在少數(shù)幾個(gè)特征上.

模型(1)中需要對特征J的數(shù)量做出選擇.從理論上講，J可以取{1，2,…，S}中的任何值，其中S是樣本數(shù).J的最好的選擇對于任何給定的數(shù)據(jù)集都是難以確定的，并可能取決于許多因素，例如，噪聲的水平，調(diào)諧參數(shù)λ1和λ2的值，以及S的值.因此，J的值通常留給用戶指定，默認(rèn)設(shè)置為min {15，S/2}.本方法也提供選擇J的半自動(dòng)過程，這是基于解釋的變化百分比(PVE).對于給定的J值，PVE被定義為

(5)

2.4 模型參數(shù)估計(jì)

(6)

(7)

2.4.2 選擇融合最小絕對值收斂和選擇算子調(diào)諧參數(shù)λ1和λ2.通常，給定模型的最佳調(diào)諧參數(shù)的選擇都是一個(gè)困難的任務(wù)，并且隨著調(diào)諧參數(shù)數(shù)量的增加會(huì)更加復(fù)雜.為了簡化對最佳調(diào)諧參數(shù)的搜索，本方法通過引入λ0和α∈(0,1)來重新定義參數(shù)λ1和λ2，使得λ1=αλ0，λ2=(1-α)λ0.在此可以認(rèn)為λ0是整體調(diào)諧參數(shù)，它和α一起確定對稀疏度與平滑度的重視程度.通過固定α可能采取的值，可以有效地將對兩個(gè)參數(shù)λ1和λ2的搜索簡化為僅對一個(gè)參數(shù)λ0的搜索.

(8)

2.5 分層矩陣能量譜

(9)

(10)

其中T代表設(shè)定的占比閾值，I是大小為L×S的矩陣，代表個(gè)體 CNV.得到最終的個(gè)體CNV矩陣I以后，需要按照樣本將數(shù)據(jù)區(qū)分為S個(gè)大小為L×1的矩陣，每個(gè)矩陣代表每個(gè)樣本的結(jié)果.此時(shí)，需要再選定一個(gè)閾值H，若某探針處的絕對值大于H，則認(rèn)為該處有個(gè)體CNV，反之則認(rèn)為是正常.因?yàn)閭€(gè)體CNV在樣本間有很大的差異，所以需要按上述對每個(gè)樣本的結(jié)果數(shù)據(jù)都分別判斷.

3 實(shí)驗(yàn)結(jié)果

3.1 模擬數(shù)據(jù)

3.1.1 模擬數(shù)據(jù)介紹. 為了評估IndivCNV算法對個(gè)體CNV的檢測性能，本節(jié)將采用模擬數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，并與三種現(xiàn)有方法(PLA、FLLat、fastRPCA)進(jìn)行比較.在文獻(xiàn)[15]里，詳細(xì)地定義了六種不同的復(fù)發(fā) CNV場景.在本文的研究里，將采用這六種場景來生成模擬數(shù)據(jù).在每一種場景下生成50組數(shù)據(jù)，每組數(shù)據(jù)是50×5000的矩陣，其中50代表50個(gè)樣本，5000代表每個(gè)樣本上的5000個(gè)探針.在生成每組數(shù)據(jù)時(shí)，無CNV區(qū)域的信號值設(shè)為0；復(fù)發(fā) CNV區(qū)域位于探針1876到3125之間，其模式參考圖2，將缺失變異區(qū)域的信號值設(shè)為-1，擴(kuò)增變異區(qū)域設(shè)為1.每個(gè)樣本還需要在不與復(fù)發(fā) CNV區(qū)域重合的部分，隨機(jī)選取一個(gè)位置，添加一個(gè)長度為500探針的個(gè)體 CNV，個(gè)體 CNV的信號值從{-2，-1,1,2}中隨機(jī)選取，最后再向整個(gè)數(shù)據(jù)加入高斯噪聲.

6種不同場景生成模擬數(shù)據(jù)的過程展示在圖3，圖中黃色區(qū)域代表擴(kuò)增，藍(lán)色區(qū)域代表缺失.其中第一行是根據(jù)文獻(xiàn)[15]中對不同場景的描述生成的只有復(fù)發(fā) CNV的數(shù)據(jù)，第二行是在復(fù)發(fā) CNV的基礎(chǔ)上隨機(jī)添加個(gè)體 CNV的數(shù)據(jù)，第三行是添加了噪聲水平為1的高斯噪聲的最終模擬數(shù)據(jù).每組數(shù)據(jù)的縱向代表樣本，橫向代表探針.從圖上可以看出，這六種場景可以分為兩類，場景1、3、5為一類，它們只有一個(gè)復(fù)發(fā)CNV區(qū)域；場景2、4、6為一類，它們含有多個(gè)復(fù)發(fā)CNV區(qū)域.本文的研究任務(wù)是從這些最終的模擬數(shù)據(jù)里準(zhǔn)確恢復(fù)出個(gè)體 CNV.

3.1.2 檢測結(jié)果熱圖展示. 在圖4中展示了在6種場景下不同方法對個(gè)體 CNV的檢測結(jié)果.從圖中可以看出來IndivCNV檢測出了絕大部分的個(gè)體 CNV，并且能很好地把個(gè)體 CNV與復(fù)發(fā) CNV區(qū)分開來，沒有將復(fù)發(fā) CNV誤判為個(gè)體 CNV.FastRPCA可以分辨出一部分個(gè)體 CNV，但是沒有將噪聲很好地剔除，因此難以識別檢測出的個(gè)體 CNV的模式；而PLA則傾向于將一個(gè)完整的個(gè)體 CNV切割成多個(gè)小段，有明顯的缺失； FLLat的特點(diǎn)是它做檢測時(shí)不對復(fù)發(fā) CNV與個(gè)體 CNV進(jìn)行區(qū)分，導(dǎo)致兩種類型的CNV都存在于結(jié)果數(shù)據(jù)中.由以上分析可知IndivCNV在檢測個(gè)體CNV時(shí)確實(shí)更加有優(yōu)勢，但是從圖中可以看出它還是存在一定的缺陷，因?yàn)樗呄蛴跈z測出發(fā)生個(gè)體CNV頻率較高的位置的變異，而對于發(fā)生頻率小的個(gè)體CNV，則很難檢測出.

3.1.3 檢測結(jié)果ROC曲線. 為了可量化地評估這些方法，本研究進(jìn)一步通過ROC曲線評估各方法在六種場景下的個(gè)體 CNV識別性能.ROC(receiver operating characteristic curve)是一種顯示分類模型在所有分類閾值下的效果的圖表，其橫軸是假陽性率 (False Negative Rate，F(xiàn)PR)，縱軸是真陽性率 (True Negative Rate，TPR).FPR指的是所有非個(gè)體 CNV區(qū)域中被誤判為個(gè)體 CNV的比率，該值越小越好，TPR指的是在所有檢測出來為個(gè)體 CNV的區(qū)域里，確實(shí)是個(gè)體 CNV的比率，該值越大越好.ROC曲線的作用在于，在很多分類器分析中，得到的預(yù)測值通常不是0或1，而是一個(gè)0-1之間的概率值，此時(shí)就需要人為設(shè)定一個(gè)閾值，比如設(shè)定大于0.6則為1，反之則為零.但是不同的閾值所帶來的預(yù)測結(jié)果一定有差異，此時(shí)就可以用ROC曲線來刻畫不同閾值給分類器帶來的影響.通過上文對FPR和TPR含義的介紹可知，ROC曲線越靠近左邊沿和上邊沿，說明模型越好，因?yàn)榇藭r(shí)TPR足夠大，F(xiàn)PR足夠小，說明分類的正確率很高.而ROC曲線上不同的點(diǎn)對應(yīng)著模型對不同閾值的預(yù)測水平，簡單來講，閾值越大，點(diǎn)越靠近左下，反之越靠近右上.

圖5展示了各方法在6種場景下的ROC曲線.這些ROC曲線是通過對各方法檢測出來的結(jié)果數(shù)據(jù)設(shè)定不同的閾值生成的.從圖上可以看出， IndivCNV檢測個(gè)體 CNV的性能優(yōu)于其他三種方法.例如在場景1的ROC曲線中，當(dāng)FPR=0.1時(shí)，IndivCNV的TPR就已達(dá)到0.8，而FLLat的TPR只有0.45，PLA和fastRPCA的TPR僅有0.3；在場景2中，雖然當(dāng)FPR值大于0.3時(shí)，F(xiàn)LLat和IndivCNV的曲線基本重合，但是IndivCNV在FPR=0.05時(shí)TPR就已經(jīng)達(dá)到了0.7，這說明IndivCNV在低FPR水平就可以實(shí)現(xiàn)較高水平的TPR；在場景3、5、6中，呈現(xiàn)出同樣的趨勢：當(dāng)FPR較高時(shí)，F(xiàn)LLat與IndivCNV的曲線十分接近，但是始終都低于IndivCNV，只有在場景4中曲線的后半段FLLat超過了IndivCNV，盡管如此，其前半段依舊遠(yuǎn)低于IndivCNV的ROC.

綜上所述，與fastRPCA和PLA相比，IndivCNV和FLLat算法對個(gè)體CNV的識別結(jié)果具有更高的TPR.然而，F(xiàn)LLat的性能與IndivCNV雖然較為接近，但僅表現(xiàn)在FPR較高的情況，當(dāng)FPR較低時(shí)，其ROC曲線依舊遠(yuǎn)低于IndivCNV.因此，在對個(gè)體CNV的檢測中， IndivCNV算法具有更明顯的優(yōu)勢.

3.2 真實(shí)數(shù)據(jù)

為了證明IndivCNV在真實(shí)數(shù)據(jù)上的可用性，本實(shí)驗(yàn)引入異質(zhì)性乳腺癌CNA真實(shí)數(shù)據(jù)集對算法進(jìn)行驗(yàn)證.這個(gè)數(shù)據(jù)集中包含了112個(gè)乳腺癌樣本的SNP array數(shù)據(jù)，每個(gè)樣本都有23條染色體上的不同數(shù)據(jù)，每條染色體的探針各不相同，由Illumina 109 K SNP array平臺(tái)采集.在進(jìn)行實(shí)驗(yàn)時(shí)，首先將每個(gè)樣本不同染色體上的數(shù)據(jù)分割開來，然后將處理所得的CNV分段在基因組區(qū)域?qū)R，成為一個(gè)大小為112×pi的變異強(qiáng)度矩陣，其中112代表樣本數(shù)，pi代表在第i條染色體上的探針數(shù)，即分割完成后有22個(gè)變異強(qiáng)度矩陣(因?yàn)槿橄侔┦浅Ｈ旧w上的疾病，所以僅對前22條常染色體進(jìn)行實(shí)驗(yàn))，并分別對這22個(gè)信號矩陣進(jìn)行實(shí)驗(yàn)分析.在實(shí)驗(yàn)過程中，使用IndivCNV對數(shù)據(jù)進(jìn)行分析，閾值T設(shè)為0.1.為了消除每個(gè)樣本中的波譜偏差，需通過局部中值減去信號數(shù)據(jù)，中值計(jì)算的窗口大小是染色體長度的四分之一.

對于IndivCNV算法在乳腺癌數(shù)據(jù)中所發(fā)現(xiàn)的個(gè)體CNV區(qū)域，本研究通過乳腺癌相關(guān)文獻(xiàn)報(bào)道的CNV區(qū)域?qū)λ惴ńY(jié)果進(jìn)行驗(yàn)證.對于IndivCNV算法所發(fā)現(xiàn)的個(gè)體CNV區(qū)域，其中許多區(qū)域被現(xiàn)有文獻(xiàn)報(bào)道為乳腺癌CAN驅(qū)動(dòng)區(qū)域.例如，IndivCNV算法成功識別出17號染色體上的ERBB2基因[16]，該基因曾被多項(xiàng)研究報(bào)道為乳腺癌CAN驅(qū)動(dòng)變異.同時(shí)，IndivCNV在14號染色體發(fā)現(xiàn)AKT1基因[17]，而該基因則被報(bào)道與乳腺癌的發(fā)生發(fā)展密切相關(guān).表1匯總了IndivCNV所發(fā)現(xiàn)的個(gè)體CNV與現(xiàn)有文獻(xiàn)報(bào)道發(fā)現(xiàn)與乳腺癌有密切關(guān)系的基因重合的結(jié)果.上述結(jié)果表明，IndivCNV算法所發(fā)現(xiàn)的個(gè)體CNV區(qū)域與已報(bào)道CNV驅(qū)動(dòng)變異區(qū)域具有較高的一致性.

表1 IndivCNV檢測出與現(xiàn)有文獻(xiàn)報(bào)道發(fā)現(xiàn)與乳腺癌有密切關(guān)系的基因重合的結(jié)果

表2 IndivCNV的復(fù)發(fā)CNV模式所匹配到的乳腺癌相關(guān)基因

正如第3節(jié)所說，IndivCNV在做個(gè)體CNV模式檢測的過程中，會(huì)將復(fù)發(fā)CNV的模式剔除.在此，本實(shí)驗(yàn)在用該真實(shí)數(shù)據(jù)檢測時(shí)，將剔除的復(fù)發(fā)CNV數(shù)據(jù)也另行保存，并對復(fù)發(fā)CNV模式進(jìn)行驅(qū)動(dòng)基因匹配.表2中匯總了在IndivCNV的復(fù)發(fā)CNV模式中發(fā)現(xiàn)的乳腺癌驅(qū)動(dòng)基因，表3匯總了IndivCNV在真實(shí)數(shù)據(jù)檢測出的個(gè)體CNV模式在復(fù)發(fā)CNV模式之外發(fā)現(xiàn)的驅(qū)動(dòng)基因.由表2、3可以看出，個(gè)體CNV的檢測可以很大程度上彌補(bǔ)復(fù)發(fā)CNV對驅(qū)動(dòng)基因發(fā)現(xiàn)的不足，例如，在表2復(fù)發(fā)CNV的檢測結(jié)果里，未發(fā)現(xiàn)1號染色體和13號染色體上有與乳腺癌相關(guān)的基因，而在個(gè)體CNV模式里則發(fā)現(xiàn)了1號染色體上的ARID1A基因，13號染色體上的BRCA2基因和RB1基因，這幾個(gè)基因都是乳腺癌相關(guān)基因，并被權(quán)威癌癥基因數(shù)據(jù)庫Cancer Gene Census所收錄[18-20].上述結(jié)果表明，IndivCNV算法的個(gè)體CNV發(fā)現(xiàn)結(jié)果可有效彌補(bǔ)現(xiàn)有方法發(fā)現(xiàn)結(jié)果的不足，同時(shí)也證明了個(gè)體CNV檢測對于癌癥研究的重要性.

表3 IndivCNV的個(gè)體CNV模式在其復(fù)發(fā)模式之外檢測到的乳腺癌相關(guān)基因

4 結(jié)論

CNV是導(dǎo)致癌癥發(fā)生發(fā)展的重要因素之一，由于現(xiàn)有研究更側(cè)重于對復(fù)發(fā)CNV的研究，對個(gè)體CNV的關(guān)注程度不夠，忽略了個(gè)體CNV的研究價(jià)值，因此本文通過分析個(gè)體CNV的模式，提出了一種新的適用于發(fā)現(xiàn)個(gè)體CNV的算法IndivCNV.IndivCNV首先需要使原始信號趨于平滑，因此采用了全變分正則化的方式達(dá)到此目的；接著將原始數(shù)據(jù)的每個(gè)樣本建模為固定數(shù)量的特征的加權(quán)和，這一步使用了潛變量模型和融合最小絕對值收斂和選擇算子懲罰；然后使用信號層次化分解，將不同模式的CNV用不同層的矩陣表示；最后利用分層矩陣能量譜，根據(jù)復(fù)發(fā)CNV模式能量占比大，個(gè)體CNV模式的能量占比小的原理，將復(fù)發(fā)CNV與個(gè)體CNV區(qū)分開來，最終達(dá)到檢測個(gè)體CNV的目的.

在本文的實(shí)驗(yàn)中，首先將IndivCNV應(yīng)用到六種不同場景的模擬數(shù)據(jù)上，同時(shí)將fastRPCA、PLA、FLLat這三種算法也應(yīng)用到該模擬數(shù)據(jù)上，以ROC曲線為性能判斷標(biāo)準(zhǔn)，根據(jù)檢測結(jié)果選定不同閾值繪制ROC，以此進(jìn)行性能對比，實(shí)驗(yàn)結(jié)果表明，IndivCNV檢測個(gè)體CNV的性能顯著高于已有的三種方法的性能.然后又使用IndivCNV檢測異質(zhì)性乳腺癌CNA真實(shí)數(shù)據(jù)集中的個(gè)體CNV，檢測個(gè)體CNV結(jié)果中包含許多現(xiàn)有文獻(xiàn)已報(bào)道過與乳腺癌相關(guān)的基因，還發(fā)現(xiàn)了復(fù)發(fā)CNV模式?jīng)]有發(fā)現(xiàn)的與乳腺癌相關(guān)的基因，因此IndivCNV的性能在實(shí)際數(shù)據(jù)上也得到了驗(yàn)證.綜上所述，IndivCNV在個(gè)體CNV方面的檢測性能確實(shí)有了大幅提升.