王麗華
(中國石油大學(華東)計算機科學與技術(shù)學院 青島 266580)
隨著高通量技術(shù)的發(fā)展和各基因組學和表觀遺傳學數(shù)據(jù)的出現(xiàn),為研究腫瘤致病模式及解釋腫瘤發(fā)病機制提供了可能。腫瘤研究中一個重要問題是臨床獲得的腫瘤樣本總是混有正常細胞[1],我們稱為“腫瘤純度”,即腫瘤樣本中腫瘤細胞所占比例。準確評估腫瘤純度有利于腫瘤樣本的準確鑒別分析,降低腫瘤基因分型、復發(fā)風險及療效預測的分析偏差[2~4]。傳統(tǒng)的腫瘤純度估算方法基本上是由病理研究者通過圖像分析獲得,以及后來出現(xiàn)基于細胞分類的技術(shù),這些方法耗人力且成本高,不適合用來大規(guī)模推廣。巧合的是,腫瘤細胞和正常細胞之間存在著顯著的遺傳和表觀遺傳差異,因此利用現(xiàn)有的高通量數(shù)據(jù)來估計腫瘤純度是可行的。
目前,已有很多方法利用基因表達、拷貝數(shù)變異和單核苷酸多態(tài)性作為預測因子來估計腫瘤純度[5~12],但很少是基于DNA甲基化。異常的DNA甲基化模式和腫瘤的發(fā)生密切相關,幾乎在所有的癌癥中都存在,并且發(fā)生在癌癥的早期,有望成為癌癥早期診斷的理想標志物。ABSOLUTE[5]利用拷貝數(shù)變異數(shù)據(jù)結(jié)合最大似然估計方法直接計算腫瘤樣本的純度;ESTIMATE[13]利用基質(zhì)、免疫細胞的基因表達譜結(jié)合經(jīng)驗累計分布函數(shù)來估計腫瘤純度;MethylPurify[6]利用DNA甲基化測序數(shù)據(jù)識別差異位點結(jié)合EM算法來評估腫瘤純度;Infinium?Purify[8,12]利用秩和檢驗識別DNA甲基化差異位點并結(jié)合高斯核密度函數(shù)計算腫瘤純度。不難發(fā)現(xiàn),目前利用甲基化數(shù)據(jù)評估腫瘤純度的方法多是基于信息位點的選擇。選擇信息位點是指在腫瘤樣本和正常樣本中甲基化程度出現(xiàn)差異的CpG位點,差異越顯著越有可能被識別為信息位點。盡管目前根據(jù)腫瘤和正常組織甲基化水平差異確定差異甲基化位點的方法已經(jīng)得到了很好的研究,但不同的信息位點選擇方法對腫瘤純度的估計結(jié)果不盡相同,選擇與腫瘤相關的差異甲基化位點作為信息位點顯得尤為重要。與此同時,DNA甲基化數(shù)據(jù)相對于測序數(shù)據(jù)[14~15]來說是穩(wěn)定且容易獲得的,測序數(shù)據(jù)昂貴且應用范圍有限,而突變數(shù)據(jù)則有樣本不穩(wěn)定的風險。近年來,利用DNA甲基化數(shù)據(jù)估計腫瘤純度的方法開始出現(xiàn),但仍然很少。
腫瘤純度估算方法側(cè)重于腫瘤間異質(zhì)性[16],同一種腫瘤類型的樣本識別一組差異基因或CpG位點,忽視了腫瘤生長空間的異質(zhì)性,即樣本特異性。本文基于DNA甲基化數(shù)據(jù),利用樣本位點的“信息熵”識別具有樣本特異性的差異甲基化位點,并進行樣本的腫瘤純度評估工作。
本文使用了來自UCSC數(shù)據(jù)庫[17~18]的肝癌LI?HC(Liver Hepatocellular Carcinoma)的DNA甲基化樣本數(shù)據(jù)進行實驗。
為了提高分類預測的準確性、有效性和可伸縮性,需要對下載到的數(shù)據(jù)進行預處理:數(shù)據(jù)清理和數(shù)據(jù)過濾。選擇DNA甲基化數(shù)據(jù)中的具有癌旁樣本的腫瘤樣本數(shù)據(jù);為了消除和減小數(shù)據(jù)噪聲,我們對其中的缺失值進行了刪除或填補處理。去除質(zhì)量較差的CpG位點,過濾掉X、Y染色體上、SNP相關的CpG位點。
為了確定甲基化位點的顯著差異,基于位點的“信息熵”來識別腫瘤樣本的特異性信息位點。對于CpG位點i來說,其正常樣本信息熵INi定義如下:
“超甲基化”定義如下:
式中,βji表示正常樣本j的CpG位點i的β-νalue,ki為用戶定義的閾值。同理,“低甲基化”定義為
本文基于信息熵識別腫瘤樣本的信息位點,IEi越小,說明對于CpG位點i在正常樣本中信息熵越小,甲基化程度表現(xiàn)越穩(wěn)定。對于CpG位點i,其腫瘤信息熵ITi定義如下:
加入腫瘤樣本后帶來的信息量可以表示為
選擇信息量增幅大的前s個CpG位點作為信息位點。為了評估選出的信息位點的顯著差異性,即識別出的信息位點是個小概率事件。換句話說,信息位點的差異性不是隨機的。當然,每個信息位點的p值可以根據(jù)公式進行計算,以保證信息位點選擇的概率極小。根據(jù)王等[19]在全局零假設的前提下,信息位點的具體p值計算公式可以表示為
式中,D f為每次選擇的信息位點的數(shù)量,m為置換檢驗重復的次數(shù),Di為信息位點i的原始排名,~Di為信息位點i在置換檢驗中的排名,函數(shù)rank是用來計算信息位點的原始排名比置換檢驗中排名靠前的次數(shù)。當信息位點的pi 根據(jù)信息位點的β值估計腫瘤純度,測定方法源于鄭等人[12]。首先,確定腫瘤樣本信息位點的甲基化程度,判定依據(jù)是正常樣本每個CpG位點的平均β值。如果腫瘤樣本中信息CpG位點的β值高于正常樣本中相應的β值,則該CpG位點為高甲基化;如果β值低于正常樣本,則該CpG位點為低甲基化。其次,轉(zhuǎn)換腫瘤樣本信息位點的β值。轉(zhuǎn)換的規(guī)則是,如果CpG位點是超甲基化,則β值保持不變;如果該CpG位點是低甲基化,則β值轉(zhuǎn)換為1-β。最后,利用高斯核密度估計方法對轉(zhuǎn)換后的信息位點的β值進行估計。 本文采用皮爾森相關系數(shù)R(Pearson correla?tion coefficient)來度量不同數(shù)量信息差異甲基化位點的選擇對腫瘤純度的估算結(jié)果的影響。同時為了研究信息位點的顯著差異性,將腫瘤純度結(jié)果與數(shù)據(jù)集中隨機選擇的多組“信息位點”估算的結(jié)果進行比較。 圖1表示的是選擇不同數(shù)量的信息位點和隨機位點的情況下,純度估計值的相關系數(shù)R,這里計算的相關系數(shù)是與InfiniumPurify方法相比的。圖1的橫坐標表示選擇不同數(shù)量的CpG位點,縱坐標表示本文方法估算出的結(jié)果與InfiniumPurify的相關性。圖1中虛線表示的是利用本文方法選出的信息位點進行估計的,實線表示利用隨機選擇位點進行估計的相關性。從圖1中可以看出,利用本文方法選出的信息位點估算出的腫瘤純度結(jié)果與InfiniumPurify方法的相關性更高,這也表明本文方法選出的信息位點更具有顯著差異性。同時,利用信息位點估算腫瘤純度的曲線趨勢,在信息位點數(shù)目未達到1000之前,相關性不斷增加,選擇的信息位點數(shù)目達到1000后相關性基本不再增加,后續(xù)基本保持穩(wěn)定,因此我們后續(xù)實驗過程中,信息位點的數(shù)目選擇為1000。與此同時,利用隨機位點估算腫瘤純度的相關性隨著位點選擇數(shù)目的增加呈現(xiàn)出增長的趨勢,但仍舊低于利用信息位點估計的相關性。我們后續(xù)隨機選擇20000個CpG位點,相關性會呈現(xiàn)出略微下降的趨勢,這是由于選擇的位點數(shù)目越多,冗余信息也越多。 圖1 選擇不同數(shù)量CpG位點的相關性 本文得到的腫瘤純度估算結(jié)果與InfiniumPuri?fy、ESTIMATE、CPE方法比較的散點圖分別如圖2(a)、(b)、(c)所示。圖中的橫坐標表示的都為本文方法估算出的腫瘤純度值,縱坐標分別表示Infini?umPurify、ESTIMATE、CPE方法估計出的腫瘤純度值。圖中的斜線表示相關性近似程度的趨勢線。圖中的R標識兩種方法皮爾森相關系數(shù),p是指p值,表示的是顯著性水平。 圖2 與InfiniumPurify、ESTIMATE、CPE方法腫瘤純度比較散點圖 通過圖2可以看出,本文方法估算出的腫瘤純度值與現(xiàn)有的其他方法具有較高的一致性。圖2(a)中與InfiniumPurify方法相關性最高,為0.81,最低為與CPE方法的相關性,為0.54。圖2(c)中的CPE方法的結(jié)果是取ABSOLUTE、ESTIMATE、HE染色和LUMP方法腫瘤純度結(jié)果的中值獲得的,而ABSOLUTE方法沒有對應的腫瘤樣本純度值。與CPE方法的相關性略低一些,這不排除是因為我們實驗所用的樣本數(shù)略少的原因,腫瘤純度的差異容易影響相關性的高低。將方法應用于更多的腫瘤樣本,這也是后續(xù)要繼續(xù)研究的方面。 本文使用UCSC數(shù)據(jù)庫中肝癌的DNA甲基化數(shù)據(jù),篩選出其中的疾病樣本及其配對的正常樣本數(shù)據(jù),基于CpG位點的“信息熵”識別出腫瘤樣本的特異性信息位點,根據(jù)高斯核密度估計方法,利用甲基化信息位點的顯著差異性估算腫瘤樣本的純度。實驗結(jié)果表明本文能夠準確地估算出腫瘤純度,與現(xiàn)有的其他方法具有高度一致性,且估算出的腫瘤純度結(jié)果考慮了樣本特異性,更具生物學意義,且DNA甲基化數(shù)據(jù)相較于突變數(shù)據(jù)、拷貝數(shù)變異數(shù)據(jù)更具有穩(wěn)定性,為研究腫瘤樣本提供了不同方面的解釋。4 最佳信息位點數(shù)目選取
5 實驗結(jié)果及分析
6 結(jié)語