亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于信息熵的腫瘤樣本純度估算研究?

2021-11-08 06:19:26王麗華

計算機與數(shù)字工程 2021年10期

王麗華

（中國石油大學（華東）計算機科學與技術(shù)學院青島 266580）

1 引言

隨著高通量技術(shù)的發(fā)展和各基因組學和表觀遺傳學數(shù)據(jù)的出現(xiàn)，為研究腫瘤致病模式及解釋腫瘤發(fā)病機制提供了可能。腫瘤研究中一個重要問題是臨床獲得的腫瘤樣本總是混有正常細胞［1］，我們稱為“腫瘤純度”，即腫瘤樣本中腫瘤細胞所占比例。準確評估腫瘤純度有利于腫瘤樣本的準確鑒別分析，降低腫瘤基因分型、復發(fā)風險及療效預測的分析偏差［2～4］。傳統(tǒng)的腫瘤純度估算方法基本上是由病理研究者通過圖像分析獲得，以及后來出現(xiàn)基于細胞分類的技術(shù)，這些方法耗人力且成本高，不適合用來大規(guī)模推廣。巧合的是，腫瘤細胞和正常細胞之間存在著顯著的遺傳和表觀遺傳差異，因此利用現(xiàn)有的高通量數(shù)據(jù)來估計腫瘤純度是可行的。

目前，已有很多方法利用基因表達、拷貝數(shù)變異和單核苷酸多態(tài)性作為預測因子來估計腫瘤純度［5～12］，但很少是基于DNA甲基化。異常的DNA甲基化模式和腫瘤的發(fā)生密切相關，幾乎在所有的癌癥中都存在，并且發(fā)生在癌癥的早期，有望成為癌癥早期診斷的理想標志物。ABSOLUTE［5］利用拷貝數(shù)變異數(shù)據(jù)結(jié)合最大似然估計方法直接計算腫瘤樣本的純度；ESTIMATE［13］利用基質(zhì)、免疫細胞的基因表達譜結(jié)合經(jīng)驗累計分布函數(shù)來估計腫瘤純度；MethylPurify［6］利用DNA甲基化測序數(shù)據(jù)識別差異位點結(jié)合EM算法來評估腫瘤純度；Infinium?Purify［8，12］利用秩和檢驗識別DNA甲基化差異位點并結(jié)合高斯核密度函數(shù)計算腫瘤純度。不難發(fā)現(xiàn)，目前利用甲基化數(shù)據(jù)評估腫瘤純度的方法多是基于信息位點的選擇。選擇信息位點是指在腫瘤樣本和正常樣本中甲基化程度出現(xiàn)差異的CpG位點，差異越顯著越有可能被識別為信息位點。盡管目前根據(jù)腫瘤和正常組織甲基化水平差異確定差異甲基化位點的方法已經(jīng)得到了很好的研究，但不同的信息位點選擇方法對腫瘤純度的估計結(jié)果不盡相同，選擇與腫瘤相關的差異甲基化位點作為信息位點顯得尤為重要。與此同時，DNA甲基化數(shù)據(jù)相對于測序數(shù)據(jù)［14～15］來說是穩(wěn)定且容易獲得的，測序數(shù)據(jù)昂貴且應用范圍有限，而突變數(shù)據(jù)則有樣本不穩(wěn)定的風險。近年來，利用DNA甲基化數(shù)據(jù)估計腫瘤純度的方法開始出現(xiàn)，但仍然很少。

腫瘤純度估算方法側(cè)重于腫瘤間異質(zhì)性［16］，同一種腫瘤類型的樣本識別一組差異基因或CpG位點，忽視了腫瘤生長空間的異質(zhì)性，即樣本特異性。本文基于DNA甲基化數(shù)據(jù)，利用樣本位點的“信息熵”識別具有樣本特異性的差異甲基化位點，并進行樣本的腫瘤純度評估工作。

2 數(shù)據(jù)來源與處理

本文使用了來自UCSC數(shù)據(jù)庫［17～18］的肝癌LI?HC（Liver Hepatocellular Carcinoma）的DNA甲基化樣本數(shù)據(jù)進行實驗。

為了提高分類預測的準確性、有效性和可伸縮性，需要對下載到的數(shù)據(jù)進行預處理：數(shù)據(jù)清理和數(shù)據(jù)過濾。選擇DNA甲基化數(shù)據(jù)中的具有癌旁樣本的腫瘤樣本數(shù)據(jù)；為了消除和減小數(shù)據(jù)噪聲，我們對其中的缺失值進行了刪除或填補處理。去除質(zhì)量較差的CpG位點，過濾掉X、Y染色體上、SNP相關的CpG位點。

3 識別特異性信息位點

為了確定甲基化位點的顯著差異，基于位點的“信息熵”來識別腫瘤樣本的特異性信息位點。對于CpG位點i來說，其正常樣本信息熵INi定義如下：

“超甲基化”定義如下：

式中，βji表示正常樣本j的CpG位點i的β-νalue，ki為用戶定義的閾值。同理，“低甲基化”定義為

本文基于信息熵識別腫瘤樣本的信息位點，IEi越小，說明對于CpG位點i在正常樣本中信息熵越小，甲基化程度表現(xiàn)越穩(wěn)定。對于CpG位點i，其腫瘤信息熵ITi定義如下：

加入腫瘤樣本后帶來的信息量可以表示為

選擇信息量增幅大的前s個CpG位點作為信息位點。為了評估選出的信息位點的顯著差異性，即識別出的信息位點是個小概率事件。換句話說，信息位點的差異性不是隨機的。當然，每個信息位點的p值可以根據(jù)公式進行計算，以保證信息位點選擇的概率極小。根據(jù)王等［19］在全局零假設的前提下，信息位點的具體p值計算公式可以表示為

式中，D f為每次選擇的信息位點的數(shù)量，m為置換檢驗重復的次數(shù)，Di為信息位點i的原始排名，～Di為信息位點i在置換檢驗中的排名，函數(shù)rank是用來計算信息位點的原始排名比置換檢驗中排名靠前的次數(shù)。當信息位點的pi

根據(jù)信息位點的β值估計腫瘤純度，測定方法源于鄭等人［12］。首先，確定腫瘤樣本信息位點的甲基化程度，判定依據(jù)是正常樣本每個CpG位點的平均β值。如果腫瘤樣本中信息CpG位點的β值高于正常樣本中相應的β值，則該CpG位點為高甲基化；如果β值低于正常樣本，則該CpG位點為低甲基化。其次，轉(zhuǎn)換腫瘤樣本信息位點的β值。轉(zhuǎn)換的規(guī)則是，如果CpG位點是超甲基化，則β值保持不變；如果該CpG位點是低甲基化，則β值轉(zhuǎn)換為1-β。最后，利用高斯核密度估計方法對轉(zhuǎn)換后的信息位點的β值進行估計。

4 最佳信息位點數(shù)目選取

本文采用皮爾森相關系數(shù)R（Pearson correla?tion coefficient）來度量不同數(shù)量信息差異甲基化位點的選擇對腫瘤純度的估算結(jié)果的影響。同時為了研究信息位點的顯著差異性，將腫瘤純度結(jié)果與數(shù)據(jù)集中隨機選擇的多組“信息位點”估算的結(jié)果進行比較。

圖1表示的是選擇不同數(shù)量的信息位點和隨機位點的情況下，純度估計值的相關系數(shù)R，這里計算的相關系數(shù)是與InfiniumPurify方法相比的。圖1的橫坐標表示選擇不同數(shù)量的CpG位點，縱坐標表示本文方法估算出的結(jié)果與InfiniumPurify的相關性。圖1中虛線表示的是利用本文方法選出的信息位點進行估計的，實線表示利用隨機選擇位點進行估計的相關性。從圖1中可以看出，利用本文方法選出的信息位點估算出的腫瘤純度結(jié)果與InfiniumPurify方法的相關性更高，這也表明本文方法選出的信息位點更具有顯著差異性。同時，利用信息位點估算腫瘤純度的曲線趨勢，在信息位點數(shù)目未達到1000之前，相關性不斷增加，選擇的信息位點數(shù)目達到1000后相關性基本不再增加，后續(xù)基本保持穩(wěn)定，因此我們后續(xù)實驗過程中，信息位點的數(shù)目選擇為1000。與此同時，利用隨機位點估算腫瘤純度的相關性隨著位點選擇數(shù)目的增加呈現(xiàn)出增長的趨勢，但仍舊低于利用信息位點估計的相關性。我們后續(xù)隨機選擇20000個CpG位點，相關性會呈現(xiàn)出略微下降的趨勢，這是由于選擇的位點數(shù)目越多，冗余信息也越多。

圖1 選擇不同數(shù)量CpG位點的相關性

5 實驗結(jié)果及分析

本文得到的腫瘤純度估算結(jié)果與InfiniumPuri?fy、ESTIMATE、CPE方法比較的散點圖分別如圖2（a）、（b）、（c）所示。圖中的橫坐標表示的都為本文方法估算出的腫瘤純度值，縱坐標分別表示Infini?umPurify、ESTIMATE、CPE方法估計出的腫瘤純度值。圖中的斜線表示相關性近似程度的趨勢線。圖中的R標識兩種方法皮爾森相關系數(shù)，p是指p值，表示的是顯著性水平。

圖2 與InfiniumPurify、ESTIMATE、CPE方法腫瘤純度比較散點圖

通過圖2可以看出，本文方法估算出的腫瘤純度值與現(xiàn)有的其他方法具有較高的一致性。圖2（a）中與InfiniumPurify方法相關性最高，為0.81，最低為與CPE方法的相關性，為0.54。圖2（c）中的CPE方法的結(jié)果是取ABSOLUTE、ESTIMATE、HE染色和LUMP方法腫瘤純度結(jié)果的中值獲得的，而ABSOLUTE方法沒有對應的腫瘤樣本純度值。與CPE方法的相關性略低一些，這不排除是因為我們實驗所用的樣本數(shù)略少的原因，腫瘤純度的差異容易影響相關性的高低。將方法應用于更多的腫瘤樣本，這也是后續(xù)要繼續(xù)研究的方面。

6 結(jié)語

本文使用UCSC數(shù)據(jù)庫中肝癌的DNA甲基化數(shù)據(jù)，篩選出其中的疾病樣本及其配對的正常樣本數(shù)據(jù)，基于CpG位點的“信息熵”識別出腫瘤樣本的特異性信息位點，根據(jù)高斯核密度估計方法，利用甲基化信息位點的顯著差異性估算腫瘤樣本的純度。實驗結(jié)果表明本文能夠準確地估算出腫瘤純度，與現(xiàn)有的其他方法具有高度一致性，且估算出的腫瘤純度結(jié)果考慮了樣本特異性，更具生物學意義，且DNA甲基化數(shù)據(jù)相較于突變數(shù)據(jù)、拷貝數(shù)變異數(shù)據(jù)更具有穩(wěn)定性，為研究腫瘤樣本提供了不同方面的解釋。