亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于條件關聯(lián)互補基因的乳腺癌預后分析

        2020-09-10 12:29:38張屹閆雙雙張成王冠方黃海云韓珊珊
        河北科技大學學報 2020年4期
        關鍵詞:乳腺癌

        張屹 閆雙雙 張成 王冠方 黃海云 韓珊珊

        摘 要:為了提高乳腺癌患者的生存率,改善病人的臨床治療效果,從分子機制上研究了乳腺癌的致病基因。首先對113個正常組織和1 109個癌癥組織的表達量進行差異分析,然后對差異表達的基因采用條件聯(lián)合分析方式對互補基因進行分組,并用逐步Cox回歸挑選出一組基因擬合預后模型。研究結果顯示:VWCE,SPDYC,CRYBG3,DEFB1,SEL1L2,NMNAT2 6個基因?qū)颊呱媛适怯泻Φ模珹MZ1,GJB2,CXCL2,ALDOC 4個基因?qū)颊呱媛适怯欣?,最終確定10個基因的預后模型能夠顯著地將樣本分為高風險組和低風險組,并且對乳腺癌患者5年和10年的生存率進行了預測,依賴時間的AUC值均可達0.7以上。所提方法能夠利用基因與基因之間的關聯(lián)性,很好地對高維數(shù)據(jù)進行降維,消除基因與基因之間的共線性問題,10個基因的預后模型可以對患者的臨床預測提供幫助。

        關鍵詞:生物數(shù)學;乳腺癌;條件關聯(lián)基因;預后模型;臨床預測

        中圖分類號:Q786?文獻標識碼:A

        文章編號:1008-1542(2020)04-0349-07

        doi:10.7535/hbkd.2020yx04008

        乳腺癌是女性常見的一種癌癥,對女性身心健康有非常嚴重的影響。世界癌癥研究基金會數(shù)據(jù)顯示,2018年,全球有超過200萬新增乳腺癌患者[1]。其中有研究表明被診斷為Ⅰ期和Ⅱ期(腫瘤比較小,或只見局部擴散)的乳腺癌患者,5年的生存率大約為80%以上;但對于Ⅲ和Ⅳ期的晚期乳腺癌患者,5年的存活率僅有20%左右[2-3]。可見,對乳腺癌患者的治療效果還有待提高。手術和藥物治療對乳腺癌患者的治療有所改善,但是近一半的乳腺癌患者仍會復發(fā),并因復發(fā)而導致死亡[4-5]。傳統(tǒng)治療是通過腫瘤大小、分期等風險因素作為乳腺癌患者的風險評估和確定治療計劃的依據(jù)。但是這些臨床病理風險因素無法將高風險和低風險的乳腺癌患者區(qū)分開,亦無法預測哪類患者更能受益于化療的治療方案。

        隨著高通量技術的不斷提高,開始采用測序和基因芯片的數(shù)據(jù)來查找致癌基因或確立疾病的生物標志物。這種數(shù)據(jù)的格式為在n個樣本中測得m個基因的基因表達量,結果應為n×m維的矩陣,xij表示第i個樣本中測的第j個基因的值。針對同一基因在n個樣本中的測量數(shù)據(jù)所組成的向量稱為該基因的基因表達向量,可以表示為xi=[x1i,x2i,…,xni]。基因表達數(shù)據(jù)最明顯的特性就是樣本少而基因(特征)多,這種高維度的基因表達數(shù)據(jù)增加了鑒定出與癌癥相關基因的挑戰(zhàn)難度,嚴重影響了對疾病的正確預測。而且基因與基因之間也有著復雜的聯(lián)系,不同基因之間的關聯(lián)有可能會影響病人的生存期。國內(nèi)外對如何從眾多基因中挑選出與癌癥預后相關的基因一直都有研究。LIU等[6]對差異表達的基因,先使用單變量Cox比例回歸模型選出與預后顯著相關的,再使用逐步多元Cox回歸確立了最終的7個基因的預后模型。BIERMANN等[7]在單變量Cox回歸顯著基因的基礎上,將貝葉斯迭代模型平均應用于多變量Cox回歸模型,確定了最終18個基因的預后模型。SHI等[8]通過構建基因共表達網(wǎng)絡和挖掘與生存相關的模塊來鑒定可作為乳腺癌預后標志物的基因。關于最后的預后模型的建立,通常采用基于基本的統(tǒng)計方法Cox回歸來選擇最后的基因,采用一致性指數(shù)(C-Index)來評估模型擬合,用風險評分(線性預測因子)將不同風險組的患者分開,最后通過ROC曲線函數(shù)下的時間依賴區(qū)域AUC對臨床預測能力進行驗證[9]。

        目前已發(fā)現(xiàn)與乳腺癌相關的某些分子標記,多個基因生物標記物對于癌癥的預后比單個生物標記物更為準確[10-13],但當前臨床預測和治療的結果仍不能令人滿意。主要的難點在于發(fā)現(xiàn)基因與基因之間復雜的聯(lián)系并有效地減少基因個數(shù),為建立良好的預后模型奠定基礎。因此,本文借鑒了YANG 等[14]研究SNP對復雜性狀影響中采用的條件聯(lián)合多SNP分析的部分方法,先尋找互補基因,再對互補基因進行Cox回歸,選擇與乳腺癌預后相關的基因,確定模型能夠很好地將樣本分為高風險組和低風險組,通過了對秩數(shù)的檢驗,并對乳腺

        癌患者5年和10年的生存率進行了預測,檢驗了此預后模型的準確性。這種從分子機制上確定疾病的分子標志物對病人治療的臨床結果有了很大改善,研發(fā)分子診斷標記物來監(jiān)測和預測各種癌癥的療效是有實際意義的[15]。

        通過確立出的生物標志物能夠很好地將不同風險的個體區(qū)分開,采取不同的治療方案,改善治療效果,減少病痛,延長患者壽命。

        1?材料及方法

        針對基因表達量的數(shù)據(jù)特點,提出了基于條件篩選互補基因并進行Cox回歸擬合的預后模型,對確定的預后模型進行測試驗證,算法過程如圖1所示。

        1.1?數(shù)據(jù)的下載與預處理

        從TCGA(the cancer genome atlas)數(shù)據(jù)庫中下載乳腺癌的基因表達量數(shù)據(jù)和對應的臨床數(shù)據(jù),由于乳腺癌的基因表達量數(shù)據(jù)包含1 222個樣本(其中正常組織樣本113個,癌癥組織樣本1 109個),樣本量較大,不能從網(wǎng)頁直接下載基因表達量的數(shù)據(jù),需下載官方下載工具gdc-client并在終端命令行中下載。將下載后的每個樣本中的各個基因的表達量數(shù)據(jù)進行合并,合并后的基因表達量數(shù)據(jù)為矩陣形式,行代表的是1 222個樣本,列代表的是5萬多個基因,基因表達量數(shù)據(jù)有3種格式,本文中用的是counts值格式的數(shù)據(jù)。對ENSEMBL格式的基因名字進行轉(zhuǎn)換,轉(zhuǎn)換成只對人類基因命名的Official Gene Symbol格式,并對樣本中80%以上表達量為0的低質(zhì)量基因進行剔除,減少基因個數(shù)。整理好基因表達量數(shù)據(jù)后,對113個正常組織和1 109個癌癥組織的表達量進行差異分析。首先對數(shù)據(jù)進行標準化,然后創(chuàng)建分組矩陣和設計矩陣,查看上調(diào)基因和下調(diào)基因,篩選出與癌癥顯著相關的基因,降低維數(shù),以利于下一步模型的計算與構建。其中差異表達基因的篩選標準為log FC>2和FDR<0.05,將滿足條件的基因與臨床數(shù)據(jù)合并,其中的臨床數(shù)據(jù)包括生存時間、生存狀態(tài)、年齡、組織學亞型等。

        1.2?尋找多組關聯(lián)互補基因

        對已有的高維基因表達量數(shù)據(jù)進行差異分析,雖然很大程度降低了維數(shù),但是并不能直接對此時的差異基因進行預后模型估計,此時的基因不能滿足Cox回歸模型的前提假設,存在多重共線性問題。因此提出了一種新的方式尋找多組互補關聯(lián)基因。

        假設有多個基因?qū)ι鏁r間有線性影響,采用式(1)來表示此模型:

        1.3?Cox回歸

        對篩選出來的每一組基因分別進行多元Cox回歸時,并不是一組里的每個基因都是有用的。因此,將數(shù)據(jù)分為訓練集和測試集,在訓練集中對每一組數(shù)據(jù)進行逐步Cox回歸,逐步Cox回歸采取AIC信息準則作為衡量模型擬合的優(yōu)劣,AIC越小,說明模型擬合得越好,多個基因的Cox回歸模型如式(18)所示:

        其中h(t,X)表示的是在時刻t時,m個基因影響下的危險率,h0(t)稱為基準危險率。w1是自變量的偏回歸系數(shù),一般取RRj=exp(wj)為相對危險度,通過相對危險度來直觀地解釋Xj的取值是否對h(t,X)的取值產(chǎn)生影響。如果RRj>1,說明第j個基因?qū)Π┌Y樣本有著危害影響;如果RRj<1,說明第j個基因?qū)Π┌Y樣本有著保護影響;如果RRj=1,說明第j個基因基本不會對癌癥樣本產(chǎn)生影響。因此,可以通過擬合好的模型提取對乳腺癌病人生存時間有著主要影響的基因。Cox比例風險模型一般采用一致性指數(shù)即C-Index來評價模型的預測能力,一致性指數(shù)越接近于1,說明模型的預測能力越強,預測的準確率越高。

        1.4?風險評分及預后分析

        對訓練集和測試集的基因表達數(shù)據(jù)利用確定好的多個基因的Cox回歸模型對風險評分進行預測,風險評分表達式如式(19)所示:

        預測出的風險評分的中位數(shù)為閾值,將每個樣本的風險評分與閾值進行比較,大于閾值的樣本為高風險組,小于樣本閾值的為低風險組。對訓練集、測試集和整個數(shù)據(jù)集分別繪制K-M生存曲線,并用對數(shù)秩檢驗,檢驗兩組患者的風險是否有顯著區(qū)別,如果檢驗的p值<0.05,說明通過了顯著性檢驗,選出來的基因確定的Cox回歸預測模型能夠很好地預測患者的風險。然后再對患者5年和10年的臨床預測能力繪制ROC,并計算出AUC值,越接近于1,說明臨床預測能力越強,準確率越高。

        2?實驗結果及分析

        2.1?差異分析結果

        下載后的基因表達量完成數(shù)據(jù)的預處理后為1 222個樣本和21 487個基因,對113個正常組織和1 109個癌癥組織進行差異分析,使用R語言的limma包,將閾值設定為log FC>2和FDR<0.05,對2個條件同時滿足的差異表達基因繪制火山圖,如圖2所示,差異基因中有278個上調(diào)基因和868個下調(diào)基因。

        2.2?預后基因的確定

        1)將差異分析后得到的顯著基因與臨床數(shù)據(jù)合并,分別進行單基因Cox回歸和單基因的一元線性回歸分析,選出與乳腺癌患者總生存期之間顯著的基因,檢驗每個基因回歸系數(shù)值,2個回歸中以p<0.05作為閾值,篩選顯著基因并進行合并,其中線性回歸中顯著基因有211個,Cox回歸中顯著基因有438個,對2種單基因回歸分析中顯著基因取并集后的612個基因按關聯(lián)互補方式選擇開始進行分組。

        2)提取單基因的一元線性回歸系數(shù)及顯著性檢驗的p值, p值最小的一個作為第一組的第一個入選基因,剩下的基因叫做備選組,計算在入選基因組的基礎上再從備選組中選擇一個基因加入的條件閾值,如果有p<0.05,選擇最小的p值加入,以此類推,加入下一個基因,直至沒有p值小于0.05,這樣就選出了第一組基因,共4個。

        3)重復步驟2),至所有的基因都分了組,共分47個組。通過驗證證明了組中基因個數(shù)小于15,進行擬合Cox回歸,C-Index均小于0.7,所以將組中基因個數(shù)小于15的組刪掉,剩下15個組。

        4)完成數(shù)據(jù)分組后,對935個樣本數(shù)據(jù)集采用計算機生成隨機數(shù)的方式劃分訓練集735個樣本和測試集200個樣本,對每一組基因分別進行逐步Cox回歸,最終選出了第8組的10個基因作為乳腺癌的預后基因。 通過這10個基因確定了乳腺癌的預后模型,Cox回歸結果如表1所示。

        最終多變量Cox回歸模型的10個基因中有6個基因(VWCE,SPDYC,CRYBG3,DEFB1,SEL1L2,NMNAT2)的風險比值均大于1,說明對乳腺癌患者的生存率有著危害的影響,剩下的4個基因(AMZ1,GJB2,CXCL2,ALDOC)的風險比值均小于1,說明對乳腺癌患者的生存率有著有利的影響。對10個基因的回歸系數(shù)進行顯著性檢驗,8個p值均小于0.05,剩下2個p值小于0.1,由于對多變量模型的預測能力強而被保留在模型中。

        2.3?預后模型的測試

        通過10個基因在訓練集中估算乳腺癌患者的生存風險評分:

        最終的計算結果表明,風險評分的中位數(shù)為1.013,平均數(shù)為1.473,最小值為0.052,最大值為26.788。采用訓練集中風險評分的中位數(shù)將訓練集、測試集和整個數(shù)據(jù)集中的乳腺癌患者分為高風險組和低風險組,繪制生存風險曲線。訓練集中高風險組和低風險組中樣本個數(shù)分別為367個和368個,測試集中高風險組和低風險組中樣本個數(shù)分別為88個和112個。K-M分析顯示這2組的生存曲線顯著不同,與低風險組相比,高風險組的患者表現(xiàn)出更短的生存時間,且通過了對秩數(shù)檢驗,p值都分別小于0.05,如圖3所示。

        為了評估這10個基因預后模型的準確率,分別對訓練集、測試集和整個數(shù)據(jù)集繪制了時間依賴性的ROC曲線,

        如圖4所示,在訓練集中,5年和10年的AUC值分別為 0.75和0.81。

        如圖5所示,在測試集中,5年和10年的AUC值分別為0.77和0.78。以上這些結果表明,風險評分是乳腺癌患者臨床結果的有力預測指標。

        3?結?論

        研究并設計出能夠區(qū)分基因與基因之間復雜關系、更好地降低維數(shù)、更為簡單高效的癌癥預后模型,具有十分重要的理論意義和臨床應用價值。本研究使用了一種新的方式來尋找關聯(lián)互補基因,對每組基因分別進行Cox回歸,得到了一組穩(wěn)健的預后模型,并分別通過了訓練集和測試集的驗證,通過10個預后基因,可以將高風險組和低風險組顯著分開。

        通過在GeneCard上查找已經(jīng)選擇出來的基因的分子功能,發(fā)現(xiàn)VWCE是β-catenin信號傳導途徑中的調(diào)控元件,也是化學預防細胞癌的靶標。SPDYC通過結合和激活CDK1與CDK2,能夠促進整個細胞周期的進展。GJB2表達于耳蝸,在表皮的上基底層和乳腺及子宮內(nèi)膜的上皮細胞中弱表達。防御素β1(DEFB1)基因與COPD相關,在COPD患者中,人DEFB1的表達上調(diào)會影響肺功能的下降[16]。CXCL2是一種趨化因子,炎癥介質(zhì),趨化因子在協(xié)調(diào)免疫細胞向炎癥或損傷部位的協(xié)調(diào)募集中起作用[17]。比如其他趨化因子CCL2已被報道能夠負面調(diào)節(jié)管腔B乳腺癌細胞的過程,包括自噬和壞死[18]。有文獻證明CXCL2通過抑制ERK1/2信號傳導通路,減弱成骨細胞分化[19]。NMNAT2是維持健康軸突的重要生存因素[20]。

        總之,確定的10個乳腺癌的預后生物標記物基因被證明具有高預測能力,且會隨著時間的推移保持穩(wěn)定研究結果有助于開發(fā)更有效的預后工具,最終改善患者預后。得到的這些標志性基因在其他文獻中雖然沒有顯示出與乳腺癌直接關聯(lián),但是這些基因與疾病相關,說明有致病影響,還需要作進一步的實驗研究,了解這些基因之間的相互作用,對臨床結果進行預測,制定治療方案,從而為高危乳腺癌患者提供更好的治療選擇,對低?;颊邷p少過度治療。此方法也可作為篩選其他癌癥預后標志物的方法,結果有待進一步測試驗證。

        參考文獻/References:

        [1]?BRAY F, FERLAY J, SOERJOMATARAM I, et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J]. CA: A Cancer Journal for Clinicians, 2018, 68(6):394-424.

        [2]?CHEN L, LINDEN H M, ANDERSON B O, et al. Trends in 5-year survival rates among breast cancer patients by hormone receptor status and stage[J]. Breast Cancer Research and Treatment, 2014, 147(3):609-616.

        [3]?SAADATMAND S, BRETVELD R, SIESLING S, et al. Influence of tumour stage at breast cancer detection on survival in modern times: Population based study in 173,797 patients[J]. Nederlands Tijdschrift Voor Geneeskunde, 2016,160: A9800.

        [4]?BREWSTER A M, HORTOBAGYI G N, BROGLIO K R, et al. Residual risk of breast cancer recurrence 5 years after adjuvant therapy[J]. Journal of the National Cancer Institute, 2008, 100(16):1179-1183.

        [5]?ADES F, TRYFONIDIS K, ZARDAVAS D. The past and future of breast cancer treatment from the papyrus to individualised treatment approaches[J]. Ecancer Medical Science, 2017.doi:10.3332/ecancer.2017.746.

        [6]?LIU L, CHEN Z, SHI W, et al. Breast cancer survival prediction using seven prognostic biomarker genes[J]. Oncology Letters, 2019, 18(3):2907-2916.

        [7]?BIERMANN J, NEMES S, PARRIS T Z, et al. A novel 18-marker panel predicting clinical outcome in breast cancer[J].Cancer Epidemiology and Prevention Biomarkers, 2017, 26(11): 1619-1628.

        [8]?MALLETT S, ROYSTON P, WATERS R, et al. Reporting performance of prognostic models in cancer: A review[J]. BMC Medicine, 2010, 8(1):21.

        [9]?HEAGERTY P J, LUMLEY T, PEPE M S. Time-dependent ROC curves for censored survival data and a diagnostic marker[J]. Biometrics, 2000, 56(2): 337-344.

        [10]閆麗娜, 覃婷, 王彤. LASSO 方法在 Cox 回歸模型中的應用[J]. 中國衛(wèi)生統(tǒng)計, 2012, 29(1):58-60.

        YAN Lina, QIN Ting, WANG Tong. The application of LASSO in the Cox model[J]. Chinese Journal of Health Stats, 2012, 29(1):58-60.

        [11]線云開, 孫明立, 于兆進, 等. 基于TCGA數(shù)據(jù)庫篩選乳腺癌不良預后相關mi RNAs及風險評估[J]. 解剖科學進展, 2019, 25(1):38-40.

        [12]孫景波, 陳嘉煒, 王植治, 等. NUF2 基因在乳腺癌中的表達及臨床意義[J]. 南方醫(yī)科大學學報, 2019, 39(5): 591-597.

        SUN Jingbo, CHEN Jiawei, WANG Zhizhi, et al. Expression of NUF2 in breast cancer and its clinical significance[J]. Journal of Southern Medical University, 2019,39(5): 591-597.

        [13]SHI H J, ZHANG L, QU Y J, et al. Prognostic genes of breast cancer revealed by gene coexpression networkanalysis[J]. Oncology Letters, 2017,14(4): 4535-4542.

        [14]YANG J, FERREIRA T, MORRIS A P, et al. Conditional and joint multiple-SNP analysis of GWAS summary statistics identifies additional variants influencing complex traits[J]. Nature Genetics, 2012, 44(4):369-375.

        [15]CH O, WILLIAM C S. Molecular diagnostics for monitoring and predicting therapeutic effect in cancer[J]. Expert Review of Molecular Diagnostics, 2011, 11(1):9-12.

        [16]ELLEN A, GNTHER G, BULLWINKEL J, et al. Increased expression of beta-defensin 1(DEFB1) in chronic obstructive pulmonary disease[J]. Plos One, 2011. doi:10.1371/journal.pone.0021898.

        [17]BORO M, BALAJI K N. CXCL1 and CXCL2 regulate NLRP3 inflammasome activation via G-protein-coupled receptor CXCR2[J]. The Journal of Immunology, 2017, 199(5):1660-1671.

        [18]FANG W B, YAO M, JOKAR I, et al. The CCL2 chemokine is a negative regulator of autophagy and necrosis in luminal B breast cancer cells[J]. Breast Cancer Research and Treatment, 2015, 150(2):309-320.

        [19]YANG Y, ZHOU X Y, LI Y J, et al. CXCL2 attenuates osteoblast differentiation by inhibiting the ERK1/2 signaling pathway[J]. Journal of Cell Science, 2019, 132(16): jcs230490.

        [20]GILLEY J, COLEMAN M P, BARRES B A. Endogenous Nmnat2 is an essential survival factor for maintenance of healthy axons[J]. Plos Biology, 2010, 8(1): e1000300.

        猜你喜歡
        乳腺癌
        絕經(jīng)了,是否就離乳腺癌越來越遠呢?
        中老年保健(2022年6期)2022-08-19 01:41:48
        中醫(yī)治療乳腺癌的研究進展
        乳腺癌的認知及保健
        甘肅科技(2020年20期)2020-04-13 00:30:42
        乳腺癌是吃出來的嗎
        胸大更容易得乳腺癌嗎
        男人也得乳腺癌
        防治乳腺癌吃什么:禽比獸好
        幸福家庭(2019年14期)2019-01-06 09:15:38
        別逗了,乳腺癌可不分男女老少!
        祝您健康(2018年5期)2018-05-16 17:10:16
        PI3K在復發(fā)乳腺癌中的表達及意義
        癌癥進展(2016年9期)2016-08-22 11:33:20
        CD47與乳腺癌相關性的研究進展
        亚洲av无码国产精品色午夜软件| 国产精彩刺激对白视频| 少妇一区二区三区乱码| 亚洲av高清天堂网站在线观看| 日日天干夜夜狠狠爱| 精品熟女少妇av免费观看| 国产午夜精品久久久久九九| 国产福利不卡视频在线| 十八禁视频网站在线观看| 国产精品国产三级国产av′| 国内精品久久久久久久亚洲| 蜜桃av在线播放视频| 亚洲三区在线观看内射后入| 熟妇人妻av无码一区二区三区| 午夜影院91| 免费人妻精品一区二区三区| 久久午夜羞羞影院免费观看| 国产看黄网站又黄又爽又色| 免费无码黄网站在线观看| 久久中文字幕一区二区| 99爱在线精品免费观看| 久热这里只有精品99国产| 精品一区二区亚洲一二三区| 亚洲精品国产第一区二区| 性一交一乱一伧国产女士spa| 久久久久国产亚洲AV麻豆 | 全黄性性激高免费视频| 乱码午夜-极国产极内射| 美腿丝袜一区二区三区| 女人av天堂国产在线| 天天天天躁天天爱天天碰| 免费国产99久久久香蕉| 91亚洲免费在线观看视频| 精品国产免费一区二区三区| 亚洲男同志gay 片可播放| 亚洲精品视频免费在线| 一个少妇的淫片免费看| 好大好深好猛好爽视频免费| 亚洲成aⅴ人片在线观看天堂无码| 久久精品国产69国产精品亚洲| 一本色道久久综合无码人妻|