亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

<ul id="0esmw"><tbody id="0esmw"></tbody></ul>

?

基于聚類的多樣本復(fù)發(fā)拷貝數(shù)變異檢測(cè)算法

2021-08-24 08:00:18陳念華袁細(xì)國(guó)

聊城大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年6期

關(guān)鍵詞：拷貝數(shù)位點(diǎn)準(zhǔn)確率

陳念華,袁細(xì)國(guó)

(西安電子科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，陜西西安 710071)

0 引言

拷貝數(shù)變異(Copy Number Variation，CNV)是人類基因組中一種重要的結(jié)構(gòu)變異類型，長(zhǎng)度通常在1K base pairs (bp)到3Mbp之間，包括拷貝數(shù)擴(kuò)增(amplification)和拷貝數(shù)缺失(deletion)兩種類型[1, 2]。人類基因在正常情況下是二倍體，所以對(duì)于人類基因組來說，拷貝數(shù)擴(kuò)增是指基因組區(qū)域的拷貝數(shù)從正常二倍體到多倍體的變化，拷貝數(shù)缺失則是基因組區(qū)域中拷貝數(shù)減少的變異，若拷貝數(shù)缺失至單倍體，稱作雜合性缺失；若拷貝數(shù)缺失至0，則稱作純合性缺失.研究表明，CNV在人類基因組中十分常見，它會(huì)引起基因表達(dá)發(fā)生異常，與人類復(fù)雜疾病緊密關(guān)聯(lián)，例如自閉癥[3]、精神分裂癥[4]、自身免疫性疾病[5]以及癌癥[6]等疾病。

自1975年第一代DNA測(cè)序技術(shù)開創(chuàng)至今，人類已經(jīng)積累了大量的測(cè)序數(shù)據(jù)，這使得利用計(jì)算機(jī)技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析成為可能。相比于直接用醫(yī)學(xué)手段檢測(cè)CNV，利用計(jì)算機(jī)技術(shù)檢測(cè)CNV更加便捷，成本也十分低廉。當(dāng)下檢測(cè)CNV的主要難點(diǎn)在于如何區(qū)分驅(qū)動(dòng)CNV[7]和隨機(jī)CNV。所謂驅(qū)動(dòng)CNV，是指對(duì)疾病有直接影響或者關(guān)聯(lián)較大的CNV，找出驅(qū)動(dòng)CNV對(duì)理解疾病的發(fā)病機(jī)理有很大幫助；隨機(jī)CNV則是指在基因中隨機(jī)出現(xiàn)、與疾病的發(fā)生關(guān)聯(lián)不大的CNV。在多樣本檢測(cè)[8]的前提下，CNV按照在不同樣本中發(fā)生的頻率不同可以分為復(fù)發(fā)CNV[9]和個(gè)體CNV[10]，其中復(fù)發(fā)CNV指在不同患者基因組中相同位置發(fā)生的CNV，而個(gè)體CNV在不同患者基因組中發(fā)生的位置則是隨機(jī)的.研究表明，復(fù)發(fā)CNV更有可能是驅(qū)動(dòng)CNV，即更有可能包含疾病相關(guān)基因，因此本文算法的目標(biāo)就是從多樣本數(shù)據(jù)中檢測(cè)出復(fù)發(fā)CNV。

當(dāng)前有許多檢測(cè)復(fù)發(fā)CNV的方法，例如PLA(Piecewise-constant and low-rank approximation for identification of recurrent copy number variations)[11]是將多樣本CNV檢測(cè)問題轉(zhuǎn)化為矩陣分解問題，其中原始數(shù)據(jù)矩陣被分解為低秩分量，稀疏分量和噪聲分量。這3個(gè)成分分別對(duì)應(yīng)復(fù)發(fā)CNV，個(gè)體CNV和隨機(jī)噪聲。FLLat(A fused lasso latent feature model for analyzing multi-sample aCGH data)[12]則是使用潛變量模型對(duì)基于陣列的比較基因組雜交技術(shù)(array-based Comparative genomic hybridization，aCGH)數(shù)據(jù)進(jìn)行建模，其中每個(gè)樣本均通過固定數(shù)量特征的加權(quán)組合來建模。這些特征代表了樣本組CNV的關(guān)鍵區(qū)域，并與權(quán)重相結(jié)合，描述了每個(gè)單獨(dú)樣本中的CNV區(qū)域。SAIC(Genome-wide identification of significant aberrations in cancer genome)[13]使用置換檢驗(yàn)方法來評(píng)估每個(gè)位點(diǎn)的重要程度，以此來檢測(cè)復(fù)發(fā)CNV。

如前所述，現(xiàn)有多樣本CNV檢測(cè)方法更關(guān)注數(shù)據(jù)的數(shù)學(xué)特性，而忽略了數(shù)據(jù)所包含的生物特性，因此本文提出一種基于聚類的從多樣本中檢測(cè)復(fù)發(fā)CNV的新算法DBSCAN-CNV(A recurrent copy number variation detection algorithm from multi-sample based on clustering)，該算法首先提取兩種與復(fù)發(fā)CNV的發(fā)生緊密關(guān)聯(lián)的特征，分別是每個(gè)位點(diǎn)發(fā)生CNV樣本的比率和每個(gè)位點(diǎn)的幅度均值，然后根據(jù)這兩個(gè)特征進(jìn)行聚類.由于發(fā)生復(fù)發(fā)CNV的位點(diǎn)相較于正常位點(diǎn)僅占少數(shù)，在整體數(shù)據(jù)中屬于異常點(diǎn)，因此本文采用的聚類方法為DBSCAN(A density-based algorithm for discovering cluster in large spatial databases with noise)，DBSCAN的優(yōu)勢(shì)在于可以對(duì)任意形狀的簇進(jìn)行聚類，并且如果對(duì)參數(shù)恰當(dāng)?shù)卦O(shè)定，它可以將噪聲點(diǎn)剔除，這可以解決發(fā)生復(fù)發(fā)CNV位點(diǎn)在全部數(shù)據(jù)中占比低的問題。

本文分別將該算法應(yīng)用在模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)上，并與三種同行方法進(jìn)行比較(PLA、FLLat、SAIC)，實(shí)驗(yàn)結(jié)果表明，本算法對(duì)于復(fù)發(fā)CNV的檢測(cè)性能確實(shí)有一定提升。

1 方法

本文算法的流程如圖1所示，該算法通過以下4個(gè)主要步驟實(shí)現(xiàn)對(duì)復(fù)發(fā)CNV的檢測(cè)：(1) 數(shù)據(jù)預(yù)處理，這一步主要是將數(shù)據(jù)中的拷貝數(shù)信息(以2為基準(zhǔn))，轉(zhuǎn)化為以0為基準(zhǔn)的數(shù)據(jù)，即將原始數(shù)據(jù)除以2然后取對(duì)數(shù)，這樣方便對(duì)CNV的類型做區(qū)分：信號(hào)值小于0代表缺失，大于0代表擴(kuò)增(若數(shù)據(jù)本身就是以0為基準(zhǔn)的，跳過該步驟)；(2) 特征提取；(3) 根據(jù)上一步得到的特征進(jìn)行聚類；(4) 根據(jù)聚類結(jié)果獲得復(fù)發(fā)CNV的檢測(cè)結(jié)果。下面是對(duì)第(2) (3)步驟的詳細(xì)說明。

圖1 DBSCAN-CNV的主要步驟

1.1 特征提取

由于測(cè)序錯(cuò)誤、正常細(xì)胞污染等噪聲的存在，原始數(shù)據(jù)往往呈現(xiàn)為雜亂無章的信號(hào)序列，因此本文采用循環(huán)二元分割算法(Circular binary segmentation, CBS)[14]對(duì)每個(gè)樣本進(jìn)行分段平滑.如圖2所示，分段平滑后會(huì)將原始單個(gè)樣本數(shù)據(jù)分為多個(gè)連續(xù)區(qū)域，區(qū)域內(nèi)部的信號(hào)值是相同的。

圖2 使用CBS對(duì)原始數(shù)據(jù)進(jìn)行分段平滑，曲線是原始數(shù)據(jù)，直線是平滑過后的數(shù)據(jù)

1.1.1 每個(gè)位點(diǎn)發(fā)生CNV的樣本比率。在對(duì)每個(gè)樣本進(jìn)行分段平滑之后，根據(jù)分段區(qū)域內(nèi)的信號(hào)值越大，則代表該區(qū)域的拷貝數(shù)越大的原理，選定合適的閾值，判斷每個(gè)樣本在每個(gè)位點(diǎn)處是否發(fā)生CNV。對(duì)于拷貝數(shù)擴(kuò)增，選定正閾值，分段內(nèi)信號(hào)值若大于該閾值則認(rèn)為該分段內(nèi)的所有位點(diǎn)均發(fā)生拷貝數(shù)擴(kuò)增；相應(yīng)的，對(duì)于拷貝數(shù)缺失，選定負(fù)閾值，分段內(nèi)信號(hào)值若小于該閾值則認(rèn)為該分段內(nèi)的所有位點(diǎn)均發(fā)生拷貝數(shù)缺失。

經(jīng)過以上操作可以得到每個(gè)樣本在各位點(diǎn)發(fā)生CNV的情況，據(jù)此可以在每個(gè)位點(diǎn)計(jì)算發(fā)生CNV的樣本占總樣本的比率，即

freq(i)=count(i)/S，

(1)

其中count(i)指在第i個(gè)位點(diǎn)處發(fā)生CNV的樣本數(shù)，S指總樣本數(shù)。因?yàn)閺?fù)發(fā)CNV正是指那些在不同樣本間發(fā)生頻率較高的相同CNV，因此每個(gè)位點(diǎn)發(fā)生CNV的樣本比率是檢測(cè)復(fù)發(fā)CNV的重要特征。

1.1.2 每個(gè)位點(diǎn)的幅度均值。在經(jīng)過數(shù)據(jù)預(yù)處理之后，數(shù)據(jù)都是以0為基準(zhǔn)的(0代表拷貝數(shù)為2)，不論是大于0還是小于0都代表拷貝數(shù)發(fā)生了變異.對(duì)每個(gè)位點(diǎn)處各個(gè)樣本的信號(hào)值取絕對(duì)值，然后再取均值，便得到每個(gè)位點(diǎn)的幅度均值，其代表了每個(gè)位點(diǎn)的拷貝數(shù)均值與正常拷貝數(shù)偏離的程度，即

(2)

其中data[j,i]表示在第j個(gè)樣本，第i個(gè)位點(diǎn)處的信號(hào)值，S指總樣本數(shù).幅度均值越大，說明該位點(diǎn)的拷貝數(shù)偏離正常值越多，因此幅度均值也是檢測(cè)復(fù)發(fā)CNV的重要特征。

1.2 DBSCAN聚類

經(jīng)過上述操作，我們得到每個(gè)位點(diǎn)發(fā)生CNV的比率以及每個(gè)位點(diǎn)的幅度均值這兩個(gè)特征，接下來需要根據(jù)這兩個(gè)特征對(duì)所有位點(diǎn)進(jìn)行聚類。本文采用的聚類算法DBSCAN[15]，是一種基于密度的聚類方法，通過每個(gè)點(diǎn)Eps半徑之內(nèi)點(diǎn)的個(gè)數(shù)來衡量每個(gè)點(diǎn)的密度，如圖3所示，可以對(duì)任意形狀的數(shù)據(jù)進(jìn)行檢測(cè)。

圖3 基于中心的密度，點(diǎn)A的密度是9(包含A本身)

基于密度的聚類方法將數(shù)據(jù)集內(nèi)的點(diǎn)分為核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)三類.核心點(diǎn)是在基于密度的簇內(nèi)部的點(diǎn).點(diǎn)的鄰域由距離函數(shù)和距離參數(shù)Eps決定。如果在一個(gè)點(diǎn)的半徑為Eps的鄰域內(nèi)，包含的點(diǎn)的個(gè)數(shù)超過閾值MinPts，則這個(gè)點(diǎn)是一個(gè)核心點(diǎn)；若某個(gè)點(diǎn)落在某個(gè)核心點(diǎn)的鄰域內(nèi)，并且該點(diǎn)是非核心點(diǎn)，則這個(gè)點(diǎn)為邊界點(diǎn)；噪聲點(diǎn)是既非核心點(diǎn)也非邊界點(diǎn)的任何點(diǎn)。圖4是這三種點(diǎn)的圖示。

圖4 若MinPts=7,則A是核心點(diǎn)，B是邊界點(diǎn)，C是噪聲點(diǎn)

本文距離函數(shù)使用歐氏距離，兩點(diǎn)之間的距離由公式定義

(3)

給定核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)的定義后，DBSCAN算法可以非形式地描述如下：任意兩個(gè)相互距離在Eps之內(nèi)的核心點(diǎn)將放在同一個(gè)簇內(nèi)。落在某個(gè)核心點(diǎn)鄰域內(nèi)的邊界點(diǎn)和該核心點(diǎn)放在同一個(gè)簇內(nèi).噪聲點(diǎn)不屬于任何一個(gè)簇。下面是DBSCAN算法的詳細(xì)描述：(1) 將所有點(diǎn)標(biāo)記為核心點(diǎn)、邊界點(diǎn)或噪聲點(diǎn)；(2) 刪除噪聲點(diǎn)；(3) 為距離在Eps之內(nèi)的所有核心點(diǎn)之間賦予一條邊；(4)每組連通的核心點(diǎn)形成一個(gè)簇；(5) 將每個(gè)邊界點(diǎn)指派到一個(gè)與之關(guān)聯(lián)的核心點(diǎn)的簇中。

如前文所述，雖然DBSCAN的實(shí)現(xiàn)十分簡(jiǎn)單，但是檢測(cè)結(jié)果十分依賴半徑Eps的設(shè)定。如果設(shè)定的半徑足夠大，則所有點(diǎn)的密度都等于數(shù)據(jù)集中所有點(diǎn)的個(gè)數(shù)；類似地，如果半徑太小，則所有點(diǎn)的密度都是1(僅包含該點(diǎn)本身)。因此，可以通過觀察點(diǎn)到它的第k個(gè)最近鄰的距離(稱為k-距離)來選取合適的Eps。對(duì)于屬于某個(gè)點(diǎn)的簇，如果k不大于簇的大小的話，則k-距離將很小。然而對(duì)于不在簇中的點(diǎn)(如噪聲點(diǎn))，k-距離將相對(duì)較大。因此，如果我們對(duì)于某個(gè)k，計(jì)算所有點(diǎn)的k-距離，以遞增次序?qū)⑺鼈兣判颍缓罄L制排序后的值，則我們會(huì)看到k-距離的急劇變化，如圖5所示。

圖5 k距離的變化趨勢(shì)

選取k-距離發(fā)生急劇變化的點(diǎn)對(duì)應(yīng)的k-距離作為Eps是一個(gè)比較合適的值。如果我們選取該距離為Eps參數(shù)，而k的值作為MinPts參數(shù)，則k-距離小于Eps的點(diǎn)將被標(biāo)記為核心點(diǎn)，而其他點(diǎn)將被標(biāo)記為噪聲或邊界點(diǎn).由[15]可知，k=4對(duì)于大多數(shù)數(shù)據(jù)集都是一個(gè)合適的參數(shù)設(shè)定，因此本文算法默認(rèn)設(shè)k=4。Eps默認(rèn)取排序后的k-距離數(shù)組中第turn個(gè)位置的值，turn定義為

turn=P·turnPercent，

(4)

其中P是k-距離數(shù)組的長(zhǎng)度，turnPercent是k-距離導(dǎo)數(shù)驟增的點(diǎn)與k-距離數(shù)組長(zhǎng)度的比值，經(jīng)過實(shí)驗(yàn)?zāi)J(rèn)取0.9625。

因?yàn)榘l(fā)生復(fù)發(fā)CNV的位點(diǎn)在所有位點(diǎn)中所占比率很低，并且其特征與正常位點(diǎn)有顯著差異，因此DBSCAN的聚類結(jié)果中最大的簇代表非復(fù)發(fā)CNV位點(diǎn)，而剩下的簇代表發(fā)生在不同位置處的復(fù)發(fā)CNV位點(diǎn)。由于本文的目標(biāo)是檢測(cè)出發(fā)生復(fù)發(fā)CNV的位點(diǎn)，所以本文將DBSCAN聚類結(jié)果中除了最大簇以外的簇都作為檢測(cè)結(jié)果，噪聲點(diǎn)也視作檢測(cè)結(jié)果，至此對(duì)復(fù)發(fā)CNV的檢測(cè)全部完成。

2 實(shí)驗(yàn)結(jié)果

為了評(píng)估DBSCAN-CNV算法對(duì)復(fù)發(fā)CNV的檢測(cè)性能，本文將DBSCAN-CNV應(yīng)用在模擬數(shù)據(jù)上，并將PLA、FLLat、SAIC也應(yīng)用在這些數(shù)據(jù)上進(jìn)行比較.除此之外，本文還將DBSCAN-CNV應(yīng)用在真實(shí)數(shù)據(jù)上，看是否可以檢測(cè)出已被驗(yàn)證過的疾病相關(guān)基因，以此來驗(yàn)證該算法的可用性.接下來是對(duì)這些實(shí)驗(yàn)的詳細(xì)說明。

2.1 模擬數(shù)據(jù)

本文實(shí)驗(yàn)分別生成了兩種模擬數(shù)據(jù)，一種是根據(jù)文獻(xiàn)[16]的描述生成的包含六種場(chǎng)景的高頻率復(fù)發(fā)CNV數(shù)據(jù)，另一種則是本團(tuán)隊(duì)設(shè)計(jì)的相對(duì)低頻的復(fù)發(fā)CNV數(shù)據(jù)。

2.1.1 高頻率模擬數(shù)據(jù)。在文獻(xiàn)[16]里，作者詳細(xì)地定義了6種不同的復(fù)發(fā) CNV場(chǎng)景。本文根據(jù)其描述，在每種場(chǎng)景下生成50組數(shù)據(jù)，每組數(shù)據(jù)是50×2000的矩陣，其中50代表樣本數(shù)，2000代表位點(diǎn)數(shù)，即每一行數(shù)據(jù)都代表一個(gè)樣本.在生成數(shù)據(jù)時(shí)，將未發(fā)生CNV的位點(diǎn)的信號(hào)值設(shè)為0；復(fù)發(fā)CNV區(qū)域位于750-1250位點(diǎn)之間，其模式參考圖6。

圖6 在 Rueda and Diaz-Uriarte (2010)里定義的六種常見復(fù)發(fā)CNV的模式.每個(gè)場(chǎng)景的縱軸代表樣本，橫軸代表位點(diǎn)

將擴(kuò)增區(qū)域和缺失區(qū)域位點(diǎn)的信號(hào)值分別設(shè)為1和-1。每個(gè)樣本還需要在非復(fù)發(fā)CNV區(qū)域隨機(jī)選取一個(gè)位置，添加一個(gè)長(zhǎng)度為200的個(gè)體CNV，其值從{-2，-1，1，2}中隨機(jī)選取。最后再向整個(gè)數(shù)據(jù)添加噪聲水平為1的高斯噪聲，圖7是場(chǎng)景1和場(chǎng)景2模擬數(shù)據(jù)的生成過程示例。

圖7 場(chǎng)景1-2模擬數(shù)據(jù)的生成過程

本文用靈敏度(sensitivity)和準(zhǔn)確率(precision)來評(píng)估各個(gè)方法對(duì)模擬數(shù)據(jù)的檢測(cè)性能，其中靈敏度和準(zhǔn)確率的含義由公式定義

(5)

(6)

圖8是四種方法的檢測(cè)結(jié)果圖示，橫軸為準(zhǔn)確率，縱軸為靈敏度，圖中曲線是F1-score等高線，F(xiàn)1-score是準(zhǔn)確率和靈敏度的調(diào)和平均值，其定義為

圖8 不同方法對(duì)場(chǎng)景1-6模擬數(shù)據(jù)的復(fù)發(fā)CNV檢測(cè)結(jié)果的性能比較

(7)

F1-score值越大，說明算法性能越好，對(duì)應(yīng)到圖中就是越靠近右上方的點(diǎn)，F(xiàn)1-score值越大。

從圖中可以看出，除了在場(chǎng)景4里FLLat和DBSCAN-CNV的F1-score相近，在剩下的五種場(chǎng)景里DBSCAN-CNV的F1-score值都明顯比另外三種方法要大。比如在場(chǎng)景3里，雖然PLA、FLLat和DBSCAN-CNV的靈敏度幾乎都達(dá)到了1，但是PLA的準(zhǔn)確率只有0.657，F(xiàn)LLat的準(zhǔn)確率是0.801，而DBSCAN-CNV的準(zhǔn)確率卻達(dá)到了0.98；又比如在復(fù)發(fā)CNV模式比較復(fù)雜的場(chǎng)景6里，另外三種方法中F1-score最高的FLLat也只有0.810，而DBSCAN-CNV的F1-score卻達(dá)到了0.908，其中靈敏度是0.8424，準(zhǔn)確率是0.96。

2.1.2 低頻率模擬數(shù)據(jù)。低頻率數(shù)據(jù)按照以下幾個(gè)步驟生成：(1) 設(shè)定復(fù)發(fā)CNV的區(qū)域、變異樣本所占比率以及拷貝數(shù)擴(kuò)增(或缺失)的大小；(2) 添加個(gè)體CNV噪聲；(3) 添加腫瘤純度噪聲；(4) 添加高斯噪聲.接下來是對(duì)這些步驟的詳細(xì)介紹。

在低頻率的模擬數(shù)據(jù)里，本文按照?qǐng)D9的模式進(jìn)行復(fù)發(fā)CNV的模擬。每組數(shù)據(jù)是100×2000的數(shù)組，其中100代表樣本數(shù)，2000代表探針數(shù)，即每一行數(shù)據(jù)代表一個(gè)樣本。在生成數(shù)據(jù)時(shí)，首先使所有樣本的所有位點(diǎn)都為2(代表正常二倍體)，然后將拷貝數(shù)擴(kuò)增變異區(qū)域設(shè)定在100-149、500-529、900-919位點(diǎn)之間，設(shè)定發(fā)生CNV的樣本分別占總樣本數(shù)的0.2、0.25、0.20，拷貝數(shù)分別擴(kuò)增到6、4、5；將拷貝數(shù)缺失變異區(qū)域設(shè)定在1100-1149、1500-1529、1900-1919位點(diǎn)之間，設(shè)定發(fā)生CNV的樣本分別占總樣本數(shù)的0.15、0.2、0.25，拷貝數(shù)分別缺失至0、0/1、1。

圖9 低頻率模擬數(shù)據(jù)的復(fù)發(fā)CNV區(qū)間分布

設(shè)置復(fù)發(fā)CNV的變異區(qū)間后，在每個(gè)樣本的任意位置添加大小為100的個(gè)體CNV，其拷貝數(shù)在{0、1、3、4}中任意選取.在真實(shí)數(shù)據(jù)中，通常得到的信號(hào)數(shù)據(jù)并不是全部來自腫瘤細(xì)胞的，而是在正常細(xì)胞和腫瘤細(xì)胞混雜的情況下進(jìn)行信號(hào)的測(cè)量，這就導(dǎo)致了信號(hào)數(shù)據(jù)是被正常細(xì)胞“污染”過的數(shù)據(jù).腫瘤純度指腫瘤細(xì)胞占所有細(xì)胞的比率，腫瘤純度越高，說明數(shù)據(jù)受到正常細(xì)胞的“污染”越少。本文為了模擬這種在真實(shí)數(shù)據(jù)中不可避免的噪聲，每個(gè)樣本數(shù)據(jù)在0.3-0.7之間選擇一個(gè)腫瘤純度，然后與正常的拷貝數(shù)進(jìn)行加權(quán)平均，這樣便得到添加腫瘤純度噪聲之后的數(shù)據(jù)，最后對(duì)每個(gè)樣本添加指定水平的高斯噪聲。

在上述過程中，腫瘤純度有0.3-0.7五種選擇，高斯噪聲有0.2和0.4兩種選擇，通過對(duì)這兩種參數(shù)選擇的不同組合，共生成十組數(shù)據(jù)，每組有50個(gè)100×2000的模擬數(shù)據(jù)。

為了可量化地比較DBSCAN-CNV、PLA、FLLat、SAIC這四種方法在這十組數(shù)據(jù)上的檢測(cè)性能，這里依舊使用靈敏度(sensitivity)和準(zhǔn)確率(precision)以及它們的調(diào)和平均值F1-score作為衡量標(biāo)準(zhǔn)。

圖10是四種方法的檢測(cè)結(jié)果展示。從圖中可以看出，DBSCAN-CNV在大多數(shù)情況下的F1-score的值都是最大的，例如當(dāng)數(shù)據(jù)的noise(高斯噪聲水平)=0.4，purity(腫瘤純度)=0.3時(shí)，信號(hào)數(shù)據(jù)的各類噪聲水平是最大的，相應(yīng)的檢測(cè)難度也是最大的，DBSCAN-CNV的檢測(cè)結(jié)果依舊有0.683的靈敏度和0.815的準(zhǔn)確率，而FLLat的靈敏度只有0.21，準(zhǔn)確率只有0.56，SAIC的靈敏度雖然有0.79，高于DBSCAN-CNV，但準(zhǔn)確率只有0.27，所以F1-score依舊遠(yuǎn)小于DBSCAN-CNV，PLA在這組數(shù)據(jù)的靈敏度和準(zhǔn)確率為0。

圖10 不同方法對(duì)低頻率模擬數(shù)據(jù)的復(fù)發(fā)CNV檢測(cè)結(jié)果的性能比較，標(biāo)題中的noise值代表高斯噪聲水平，purity值代表腫瘤純度

相較另外三種方法，DBSCAN-CNV在噪聲水平高的數(shù)據(jù)里有著明顯優(yōu)勢(shì)，而在噪聲水平較低的數(shù)據(jù)里，雖然不能保證所有結(jié)果都是最好的，但是也都有著很高的靈敏度和準(zhǔn)確度。所以綜合來看，DBSCAN-CNV的性能穩(wěn)定，表現(xiàn)突出，是四種方法里最優(yōu)的。

2.2 真實(shí)數(shù)據(jù)

為了證明DBSCAN-CNV在真實(shí)數(shù)據(jù)上的可用性，本文實(shí)驗(yàn)將DBSCAN-CNV分別應(yīng)用在乳腺癌真實(shí)數(shù)據(jù)和肺癌真實(shí)數(shù)據(jù)上，并將檢測(cè)結(jié)果與現(xiàn)有研究已發(fā)現(xiàn)的疾病相關(guān)基因進(jìn)行比對(duì)，結(jié)果證明該方法可以檢測(cè)出正確的疾病相關(guān)基因。接下來是對(duì)這兩種數(shù)據(jù)檢測(cè)的詳細(xì)介紹。

2.2.1 乳腺癌真實(shí)數(shù)據(jù)。該數(shù)據(jù)包含了112個(gè)乳腺癌樣本的數(shù)據(jù)，每個(gè)樣本都有23條染色體上的不同數(shù)據(jù).在進(jìn)行實(shí)驗(yàn)時(shí)，首先把不同染色體的數(shù)據(jù)分割開來，形成23個(gè)不同的信號(hào)數(shù)據(jù)矩陣，然后對(duì)前22個(gè)數(shù)據(jù)進(jìn)行檢測(cè)(僅在常染色體上進(jìn)行檢測(cè))。由于真實(shí)數(shù)據(jù)更加雜亂無章，在檢測(cè)過程中聚類的數(shù)目會(huì)比較多，因此設(shè)定閾值T=0.1，如果某些類中包含點(diǎn)的個(gè)數(shù)加起來不超過閾值T，則認(rèn)為這些類代表的是發(fā)生復(fù)發(fā)CNV的位點(diǎn)。

以已報(bào)道的文獻(xiàn)為標(biāo)準(zhǔn)， DBSCAN-CNV在9號(hào)染色體上檢測(cè)出的與乳腺癌相關(guān)的基因如表1所示。例如DBC1基因，文獻(xiàn)[17]中說明了缺失DBC1對(duì)于乳腺癌的影響。又例如文獻(xiàn)[18]中說明了MTAP基因?qū)θ巳橄侔┘?xì)胞侵襲和遷移的影響。由此可知，DBSCAN-CNV具有從真實(shí)乳腺癌患者數(shù)據(jù)中檢測(cè)出乳腺癌相關(guān)基因的能力。

表1 DBSCAN-CNV在9號(hào)染色體上檢測(cè)出的與乳腺癌相關(guān)的基因

2.2.2 肺癌真實(shí)數(shù)據(jù)。本文實(shí)驗(yàn)使用的肺癌真實(shí)數(shù)據(jù)[19]中共包含371個(gè)肺癌患者的樣本數(shù)據(jù)，每個(gè)樣本都包含了23個(gè)染色體上的所有數(shù)據(jù)。與對(duì)乳腺癌真實(shí)數(shù)據(jù)的處理類似，首先將數(shù)據(jù)按照不同染色體分割為23組數(shù)據(jù)，然后對(duì)不同染色體的數(shù)據(jù)分別做檢測(cè)。

以已報(bào)道的文獻(xiàn)為標(biāo)準(zhǔn)，表2匯總了DBSCAN-CNV在14號(hào)染色體上檢測(cè)出的與肺癌相關(guān)的基因。例如PAX9[20]曾被多項(xiàng)文獻(xiàn)報(bào)道其對(duì)肺癌的影響，而FOXA1[21]則與抑制肺癌抗腫瘤免疫力有關(guān)。由此可知，DBSCAN-CNV可以從真實(shí)肺癌數(shù)據(jù)中檢測(cè)出肺癌相關(guān)基因。

表2 DBSCAN-CNV在14號(hào)染色體上檢測(cè)出的與肺癌相關(guān)的基因

由DBSCAN-CNV對(duì)以上兩種真實(shí)數(shù)據(jù)的檢測(cè)結(jié)果可知，該方法可以對(duì)真實(shí)數(shù)據(jù)做出有價(jià)值的分析，這對(duì)于疾病的研究是十分重要的。

3 結(jié)論

復(fù)發(fā)CNV對(duì)人類復(fù)雜疾病的發(fā)生發(fā)展有著重要影響，因此研究復(fù)發(fā)CNV對(duì)于診斷治療這些疾病有很大意義。本文提出了一種基于聚類的可以從多樣本數(shù)據(jù)中檢測(cè)出復(fù)發(fā)CNV的算法DBSCAN-CNV，該算法首先將原始信號(hào)數(shù)據(jù)進(jìn)行平滑處理，然后提取各位點(diǎn)發(fā)生單樣本CNV的比率以及各位點(diǎn)的幅度均值，以這兩個(gè)特征作為聚類的特征；在聚類這一步，本文采用了DBSCAN聚類算法，該算法雖然實(shí)現(xiàn)簡(jiǎn)單但適用于本文的數(shù)據(jù)；最后根據(jù)聚類結(jié)果判定哪些位點(diǎn)發(fā)生了復(fù)發(fā)CNV。

在本文實(shí)驗(yàn)中，首先將DBSCAN-CNV分別應(yīng)用到高頻和低頻兩種模擬數(shù)據(jù)上，其中高頻數(shù)據(jù)共有6種不同場(chǎng)景，低頻數(shù)據(jù)共有10組不同的參數(shù)選擇，同時(shí)也將PLA、SAIC、FLLat這三種同行算法應(yīng)用在這些數(shù)據(jù)上，檢測(cè)結(jié)果以靈敏度和準(zhǔn)確率作為衡量指標(biāo)。實(shí)驗(yàn)結(jié)果表明，DBSCAN -CNV的性能顯著優(yōu)于另外三種方法。然后又將DBSCAN-CNV分別應(yīng)用在乳腺癌和肺癌真實(shí)數(shù)據(jù)集上，檢測(cè)結(jié)果中發(fā)現(xiàn)了現(xiàn)有文獻(xiàn)報(bào)道過的疾病相關(guān)基因，這表明該算法對(duì)于真實(shí)數(shù)據(jù)也具有可用性.綜上所述，DBSCAN-CNV對(duì)于復(fù)發(fā)CNV的檢測(cè)性能有著顯著提升。

針對(duì)計(jì)算復(fù)雜度，本文所提方法DBSCAN-CNV的時(shí)間復(fù)雜度近似為O(NlogN)，在實(shí)驗(yàn)過程中，與其他方法相比，本文方法的運(yùn)行時(shí)間較短。

在將來研究工作中，仍然存在不足以及可以進(jìn)一步擴(kuò)展的工作：(1) 模擬數(shù)據(jù)假設(shè)在不同樣本間發(fā)生復(fù)發(fā)CNV的位置完全相同，事實(shí)上它們的位置可能會(huì)有細(xì)小的差異，這可能對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生一定影響。(2) 本文僅在乳腺癌和肺癌的真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，然而隨著測(cè)序技術(shù)的發(fā)展，已經(jīng)積累了海量的疾病變異數(shù)據(jù)。因此下一步可以在其他疾病的真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，以期發(fā)現(xiàn)更多與疾病相關(guān)的CNV，這將是十分有意義的研究。

猜你喜歡

拷貝數(shù)位點(diǎn)準(zhǔn)確率

鎳基單晶高溫合金多組元置換的第一性原理研究

上海金屬(2021年6期)2021-12-02 10:47:20

線粒體DNA拷貝數(shù)變異機(jī)制及疾病預(yù)測(cè)價(jià)值分析

河北醫(yī)學(xué)(2021年10期)2021-10-27 00:37:14

CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性

昆明醫(yī)科大學(xué)學(xué)報(bào)(2021年3期)2021-07-22 07:40:04

乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析

健康之家(2021年19期)2021-05-23 11:17:39

不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討

醫(yī)學(xué)食療與健康(2021年27期)2021-05-13 18:46:23

2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析

農(nóng)業(yè)科技與信息(2021年2期)2021-03-27 07:27:38

胎兒染色體組拷貝數(shù)變異與產(chǎn)前超聲異常的相關(guān)性分析

中國(guó)臨床醫(yī)學(xué)影像雜志(2019年6期)2019-08-27 02:59:50

二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*

生物學(xué)通報(bào)(2019年3期)2019-02-17 18:03:58

高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法

中國(guó)交通信息化(2018年5期)2018-08-21 03:37:40

DNA序列拷貝數(shù)變化決定黃瓜性別

發(fā)明與創(chuàng)新(2015年25期)2015-02-27 10:39:16

聊城大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年6期

聊城大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 硫鉬簇OER催化劑[(Mo2O2S2)(C4N2H6)4(MoO4)]的合成及催化特性; 強(qiáng)L-凸結(jié)構(gòu)的新刻畫; 鎳螯合脂質(zhì)體修飾對(duì)TRAIL穩(wěn)定性及半衰期的影響; 靶向G-四鏈體的抗腫瘤分子研究進(jìn)展; 納米核酸載體和mRNA體外合成體系的構(gòu)建; 環(huán)糊精及其衍生物在藥物制劑中的應(yīng)用

感谢您访问我们的网站，您可能还对以下资源感兴趣：

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

亚洲av乱码国产精品观| 国产乱淫视频| 无码高清视频在线播放十区| 国产激情视频高清在线免费观看| 国产成人精品无码免费看| 欧洲熟妇色xxxxx欧美老妇伦| 一级做a爰片久久毛片| 国产av一区二区三区香蕉| 国产91人妻一区二区三区| 亚洲中文久久精品无码| 亚洲a∨天堂男人无码| 国语对白三级在线观看| 日韩av精品视频在线观看| 日韩少妇内射免费播放| 无码一区久久久久久久绯色AV| 亚洲成生人免费av毛片| 精品国产午夜肉伦伦影院| 人妻av中文字幕无码专区| av狼人婷婷久久亚洲综合| 久久精品国产亚洲av日韩一| 无码gogo大胆啪啪艺术| 国产成人精品午夜福利| 国产麻豆精品久久一二三| 亚洲色图三级在线观看| 国产丝袜在线精品丝袜| 亚洲日韩精品久久久久久| 女同舌吻互慰一区二区| 国模精品一区二区三区| 无码中文字幕色专区| 国产人成在线免费视频| 一二三四区中文字幕在线| 全球av集中精品导航福利| 亚洲欧洲日产国码无码| 丝袜美腿丝袜美腿丝袜美腿丝袜| 麻豆一区二区三区蜜桃免费| 人妻无码视频| 国产精品三级在线不卡| 精品人妻av区乱码| 国产黑丝在线| 精品在线亚洲一区二区三区| 亚洲av无码一区东京热久久|