亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信息熵的腫瘤樣本純度估算研究?

        2021-11-08 06:19:26王麗華
        計算機與數(shù)字工程 2021年10期
        關鍵詞:信息熵純度甲基化

        王麗華

        (中國石油大學(華東)計算機科學與技術(shù)學院 青島 266580)

        1 引言

        隨著高通量技術(shù)的發(fā)展和各基因組學和表觀遺傳學數(shù)據(jù)的出現(xiàn),為研究腫瘤致病模式及解釋腫瘤發(fā)病機制提供了可能。腫瘤研究中一個重要問題是臨床獲得的腫瘤樣本總是混有正常細胞[1],我們稱為“腫瘤純度”,即腫瘤樣本中腫瘤細胞所占比例。準確評估腫瘤純度有利于腫瘤樣本的準確鑒別分析,降低腫瘤基因分型、復發(fā)風險及療效預測的分析偏差[2~4]。傳統(tǒng)的腫瘤純度估算方法基本上是由病理研究者通過圖像分析獲得,以及后來出現(xiàn)基于細胞分類的技術(shù),這些方法耗人力且成本高,不適合用來大規(guī)模推廣。巧合的是,腫瘤細胞和正常細胞之間存在著顯著的遺傳和表觀遺傳差異,因此利用現(xiàn)有的高通量數(shù)據(jù)來估計腫瘤純度是可行的。

        目前,已有很多方法利用基因表達、拷貝數(shù)變異和單核苷酸多態(tài)性作為預測因子來估計腫瘤純度[5~12],但很少是基于DNA甲基化。異常的DNA甲基化模式和腫瘤的發(fā)生密切相關,幾乎在所有的癌癥中都存在,并且發(fā)生在癌癥的早期,有望成為癌癥早期診斷的理想標志物。ABSOLUTE[5]利用拷貝數(shù)變異數(shù)據(jù)結(jié)合最大似然估計方法直接計算腫瘤樣本的純度;ESTIMATE[13]利用基質(zhì)、免疫細胞的基因表達譜結(jié)合經(jīng)驗累計分布函數(shù)來估計腫瘤純度;MethylPurify[6]利用DNA甲基化測序數(shù)據(jù)識別差異位點結(jié)合EM算法來評估腫瘤純度;Infinium?Purify[8,12]利用秩和檢驗識別DNA甲基化差異位點并結(jié)合高斯核密度函數(shù)計算腫瘤純度。不難發(fā)現(xiàn),目前利用甲基化數(shù)據(jù)評估腫瘤純度的方法多是基于信息位點的選擇。選擇信息位點是指在腫瘤樣本和正常樣本中甲基化程度出現(xiàn)差異的CpG位點,差異越顯著越有可能被識別為信息位點。盡管目前根據(jù)腫瘤和正常組織甲基化水平差異確定差異甲基化位點的方法已經(jīng)得到了很好的研究,但不同的信息位點選擇方法對腫瘤純度的估計結(jié)果不盡相同,選擇與腫瘤相關的差異甲基化位點作為信息位點顯得尤為重要。與此同時,DNA甲基化數(shù)據(jù)相對于測序數(shù)據(jù)[14~15]來說是穩(wěn)定且容易獲得的,測序數(shù)據(jù)昂貴且應用范圍有限,而突變數(shù)據(jù)則有樣本不穩(wěn)定的風險。近年來,利用DNA甲基化數(shù)據(jù)估計腫瘤純度的方法開始出現(xiàn),但仍然很少。

        腫瘤純度估算方法側(cè)重于腫瘤間異質(zhì)性[16],同一種腫瘤類型的樣本識別一組差異基因或CpG位點,忽視了腫瘤生長空間的異質(zhì)性,即樣本特異性。本文基于DNA甲基化數(shù)據(jù),利用樣本位點的“信息熵”識別具有樣本特異性的差異甲基化位點,并進行樣本的腫瘤純度評估工作。

        2 數(shù)據(jù)來源與處理

        本文使用了來自UCSC數(shù)據(jù)庫[17~18]的肝癌LI?HC(Liver Hepatocellular Carcinoma)的DNA甲基化樣本數(shù)據(jù)進行實驗。

        為了提高分類預測的準確性、有效性和可伸縮性,需要對下載到的數(shù)據(jù)進行預處理:數(shù)據(jù)清理和數(shù)據(jù)過濾。選擇DNA甲基化數(shù)據(jù)中的具有癌旁樣本的腫瘤樣本數(shù)據(jù);為了消除和減小數(shù)據(jù)噪聲,我們對其中的缺失值進行了刪除或填補處理。去除質(zhì)量較差的CpG位點,過濾掉X、Y染色體上、SNP相關的CpG位點。

        3 識別特異性信息位點

        為了確定甲基化位點的顯著差異,基于位點的“信息熵”來識別腫瘤樣本的特異性信息位點。對于CpG位點i來說,其正常樣本信息熵INi定義如下:

        “超甲基化”定義如下:

        式中,βji表示正常樣本j的CpG位點i的β-νalue,ki為用戶定義的閾值。同理,“低甲基化”定義為

        本文基于信息熵識別腫瘤樣本的信息位點,IEi越小,說明對于CpG位點i在正常樣本中信息熵越小,甲基化程度表現(xiàn)越穩(wěn)定。對于CpG位點i,其腫瘤信息熵ITi定義如下:

        加入腫瘤樣本后帶來的信息量可以表示為

        選擇信息量增幅大的前s個CpG位點作為信息位點。為了評估選出的信息位點的顯著差異性,即識別出的信息位點是個小概率事件。換句話說,信息位點的差異性不是隨機的。當然,每個信息位點的p值可以根據(jù)公式進行計算,以保證信息位點選擇的概率極小。根據(jù)王等[19]在全局零假設的前提下,信息位點的具體p值計算公式可以表示為

        式中,D f為每次選擇的信息位點的數(shù)量,m為置換檢驗重復的次數(shù),Di為信息位點i的原始排名,~Di為信息位點i在置換檢驗中的排名,函數(shù)rank是用來計算信息位點的原始排名比置換檢驗中排名靠前的次數(shù)。當信息位點的pi

        根據(jù)信息位點的β值估計腫瘤純度,測定方法源于鄭等人[12]。首先,確定腫瘤樣本信息位點的甲基化程度,判定依據(jù)是正常樣本每個CpG位點的平均β值。如果腫瘤樣本中信息CpG位點的β值高于正常樣本中相應的β值,則該CpG位點為高甲基化;如果β值低于正常樣本,則該CpG位點為低甲基化。其次,轉(zhuǎn)換腫瘤樣本信息位點的β值。轉(zhuǎn)換的規(guī)則是,如果CpG位點是超甲基化,則β值保持不變;如果該CpG位點是低甲基化,則β值轉(zhuǎn)換為1-β。最后,利用高斯核密度估計方法對轉(zhuǎn)換后的信息位點的β值進行估計。

        4 最佳信息位點數(shù)目選取

        本文采用皮爾森相關系數(shù)R(Pearson correla?tion coefficient)來度量不同數(shù)量信息差異甲基化位點的選擇對腫瘤純度的估算結(jié)果的影響。同時為了研究信息位點的顯著差異性,將腫瘤純度結(jié)果與數(shù)據(jù)集中隨機選擇的多組“信息位點”估算的結(jié)果進行比較。

        圖1表示的是選擇不同數(shù)量的信息位點和隨機位點的情況下,純度估計值的相關系數(shù)R,這里計算的相關系數(shù)是與InfiniumPurify方法相比的。圖1的橫坐標表示選擇不同數(shù)量的CpG位點,縱坐標表示本文方法估算出的結(jié)果與InfiniumPurify的相關性。圖1中虛線表示的是利用本文方法選出的信息位點進行估計的,實線表示利用隨機選擇位點進行估計的相關性。從圖1中可以看出,利用本文方法選出的信息位點估算出的腫瘤純度結(jié)果與InfiniumPurify方法的相關性更高,這也表明本文方法選出的信息位點更具有顯著差異性。同時,利用信息位點估算腫瘤純度的曲線趨勢,在信息位點數(shù)目未達到1000之前,相關性不斷增加,選擇的信息位點數(shù)目達到1000后相關性基本不再增加,后續(xù)基本保持穩(wěn)定,因此我們后續(xù)實驗過程中,信息位點的數(shù)目選擇為1000。與此同時,利用隨機位點估算腫瘤純度的相關性隨著位點選擇數(shù)目的增加呈現(xiàn)出增長的趨勢,但仍舊低于利用信息位點估計的相關性。我們后續(xù)隨機選擇20000個CpG位點,相關性會呈現(xiàn)出略微下降的趨勢,這是由于選擇的位點數(shù)目越多,冗余信息也越多。

        圖1 選擇不同數(shù)量CpG位點的相關性

        5 實驗結(jié)果及分析

        本文得到的腫瘤純度估算結(jié)果與InfiniumPuri?fy、ESTIMATE、CPE方法比較的散點圖分別如圖2(a)、(b)、(c)所示。圖中的橫坐標表示的都為本文方法估算出的腫瘤純度值,縱坐標分別表示Infini?umPurify、ESTIMATE、CPE方法估計出的腫瘤純度值。圖中的斜線表示相關性近似程度的趨勢線。圖中的R標識兩種方法皮爾森相關系數(shù),p是指p值,表示的是顯著性水平。

        圖2 與InfiniumPurify、ESTIMATE、CPE方法腫瘤純度比較散點圖

        通過圖2可以看出,本文方法估算出的腫瘤純度值與現(xiàn)有的其他方法具有較高的一致性。圖2(a)中與InfiniumPurify方法相關性最高,為0.81,最低為與CPE方法的相關性,為0.54。圖2(c)中的CPE方法的結(jié)果是取ABSOLUTE、ESTIMATE、HE染色和LUMP方法腫瘤純度結(jié)果的中值獲得的,而ABSOLUTE方法沒有對應的腫瘤樣本純度值。與CPE方法的相關性略低一些,這不排除是因為我們實驗所用的樣本數(shù)略少的原因,腫瘤純度的差異容易影響相關性的高低。將方法應用于更多的腫瘤樣本,這也是后續(xù)要繼續(xù)研究的方面。

        6 結(jié)語

        本文使用UCSC數(shù)據(jù)庫中肝癌的DNA甲基化數(shù)據(jù),篩選出其中的疾病樣本及其配對的正常樣本數(shù)據(jù),基于CpG位點的“信息熵”識別出腫瘤樣本的特異性信息位點,根據(jù)高斯核密度估計方法,利用甲基化信息位點的顯著差異性估算腫瘤樣本的純度。實驗結(jié)果表明本文能夠準確地估算出腫瘤純度,與現(xiàn)有的其他方法具有高度一致性,且估算出的腫瘤純度結(jié)果考慮了樣本特異性,更具生物學意義,且DNA甲基化數(shù)據(jù)相較于突變數(shù)據(jù)、拷貝數(shù)變異數(shù)據(jù)更具有穩(wěn)定性,為研究腫瘤樣本提供了不同方面的解釋。

        猜你喜歡
        信息熵純度甲基化
        基于信息熵可信度的測試點選擇方法研究
        退火工藝對WTi10靶材組織及純度的影響
        基于信息熵的實驗教學量化研究
        電子測試(2017年12期)2017-12-18 06:35:48
        色彩的純度
        童話世界(2017年29期)2017-12-16 07:59:32
        一種基于信息熵的雷達動態(tài)自適應選擇跟蹤方法
        雷達學報(2017年6期)2017-03-26 07:52:58
        間接滴定法測定氯化銅晶體的純度
        基于信息熵的IITFN多屬性決策方法
        鼻咽癌組織中SYK基因啟動子區(qū)的甲基化分析
        胃癌DNA甲基化研究進展
        對氯水楊酸的純度測定
        應用化工(2014年11期)2014-08-16 15:59:13
        不卡av一区二区在线| 99热成人精品热久久66| 国产精品福利片免费看 | 精品无人区无码乱码毛片国产| 18禁真人抽搐一进一出在线| 欧美亚洲综合另类| 美女叉开双腿让男人插| 日韩精品视频高清在线| 国产精品扒开腿做爽爽爽视频 | 四虎国产精品视频免费看| 日本久久精品国产精品| 国产自拍偷拍精品视频在线观看 | 无码专区天天躁天天躁在线| 在线看亚洲十八禁网站| 99久久婷婷国产精品网| 24小时日本在线视频资源| 久久久无码一区二区三区| 精品人妻av区乱码| 99久久精品人妻少妇一| aⅴ精品无码无卡在线观看| 在线看亚洲十八禁网站| 99热久久只有这里是精品| 91视色国内揄拍国内精品人妻| 国精产品推荐视频| 四虎成人在线| 日韩男女av中文字幕| 在线精品亚洲一区二区动态图| 国产人妻精品一区二区三区不卡 | 国产成人精品免费视频大全软件| 300部国产真实乱| 91久久国产情侣真实对白| 五月婷婷开心五月激情| 久久婷婷人人澡人人爽人人爱| 亚洲v日本v欧美v综合v| 日本一区二区高清视频在线| 免费a级毛片18禁网站免费| 国产乱子乱人伦电影在线观看| av无码特黄一级| 给我看免费播放的视频在线观看| 又黄又硬又湿又刺激视频免费| 国产精品爆乳在线播放|