彭慧,秦凱,戴宇翃,張孟賢,郭秋云
膠質(zhì)瘤起源于神經(jīng)外胚層分化而來的膠質(zhì)細胞,約占顱內(nèi)原發(fā)腫瘤的70%,是中樞神經(jīng)系統(tǒng)最常見的原發(fā)性腫瘤。世界衛(wèi)生組織(WHO)將膠質(zhì)瘤分為Ⅰ~Ⅳ級,級別越高,惡性程度越高,其中Ⅳ級膠質(zhì)母細胞瘤(Glioblastoma, GBM)占所有膠質(zhì)瘤的50%,惡性程度最高,經(jīng)過手術(shù)、放療、化療等綜合治療后,生存期仍僅有12~15月[1]。深入了解膠質(zhì)母細胞瘤的分子機制是改善患者預(yù)后和識別新的預(yù)后生物標志物的關(guān)鍵。
長非編碼RNA(LncRNA)是長度超過200個核苷酸的轉(zhuǎn)錄物,這些核苷酸不翻譯成蛋白質(zhì),但在基因轉(zhuǎn)錄和mRNA翻譯中起調(diào)節(jié)作用[2-4]。越來越多的與癌癥發(fā)生發(fā)展有關(guān)的LncRNA被篩選出來[5]。世界上最大的腫瘤數(shù)據(jù)存儲和分析網(wǎng)站腫瘤基因組圖譜(Cancer Genome Atlas, TCGA)至今收錄了26種組織類型,共計33個癌種的11 000多名患者的腫瘤基因數(shù)據(jù),包括蛋白編碼基因、LncRNA、microRNA以及表觀遺傳學(xué)數(shù)據(jù)[6]。
本研究利用TCGA數(shù)據(jù)庫研究膠質(zhì)母細胞瘤與正常組織的差異表達LncRNA,從中篩選與膠質(zhì)母細胞瘤預(yù)后相關(guān)的LncRNA,建立膠質(zhì)母細胞瘤預(yù)后風險評估的LncRNA模型,并在膠質(zhì)母細胞瘤患者中進行驗證。
2018年12月20 日從TCGA數(shù)據(jù)庫中下載所有膠質(zhì)母細胞瘤患者的基因表達譜數(shù)據(jù)及相關(guān)的臨床數(shù)據(jù)。
對下載的基因表達譜數(shù)據(jù)進行注釋,區(qū)分其中的蛋白編碼基因及LncRNA,使用R語言軟件edgeR包對下載的數(shù)據(jù)進行數(shù)據(jù)標準化,并篩選在膠質(zhì)母細胞瘤組織和正常組織樣本中差異表達的LncRNA,篩選條件為logFC≥2或≤-2,F(xiàn)DR<0.05。對差異LncRNA采用單因素Cox回歸分析,依據(jù)P<0.001篩選影響患者生存的差異LncRNA,納入多因素Cox回歸分析建立LncRNA預(yù)后風險評分模型,并計算每位患者的風險評分(risk score, RS),依據(jù)評分中位值將患者分為高、低風險組,并進一步驗證風險評估模型。
應(yīng)用R3.5.2軟件進行統(tǒng)計學(xué)分析及相應(yīng)圖形繪制,edgeR包篩選差異基因,Survival包進行單因素和多因素Cox比例回歸模型篩選,并建立多基因預(yù)后模型。使用Survival ROC包計算受試者工作特征(ROC)曲線評價模型的有效性,并計算曲線下面積(AUC)。
從TCGA數(shù)據(jù)庫中下載得到膠質(zhì)母細胞瘤表基因表達譜矩陣,包含腫瘤組織169份、正常組織標本5份,共33 800個基因的表達,其中LncRNA 14 143個。使用R語言edgeR包進行差異基因分析(logFC≥2或≤-2, FDR<0.05)得到差異基因7 978個,其中差異LncRNA 1 643個。根據(jù)FDR值排序前10位差異表達LncRNA,見表1。
表1 FDR排名前10的LncRNATable1 Top 10 LncRNA according to FDR
對篩選出的1 643個膠質(zhì)母細胞瘤和正常組織的差異LncRNA進行單因素Cox回歸分析,依據(jù)P<0.001篩選得到影響患者生存的5個LncRNA,分別是ZEB1-AS1、AGAP2-AS1、NDUFB2-AS1、AL139385.1和AC022148.1,將上述5個基因納入多因素Cox回歸分析,構(gòu)建模型得到基于4個LncRNA的多因素預(yù)后風險模型:風險得分=0.59×NDUFB2-AS1-0.41×ZEB1-AS1+0.31×AL139385.1+0.21×AGAP2-AS1,見表2、圖1。
K-M生存分析顯示高風險組預(yù)后顯著差于低風險組(P=7.707×10-8),見圖2。繪制模型的ROC曲線,見圖3,曲線下面積AUC=0.864,模型具有較好的靈敏度和特異性。多因素Cox模型中RS評分與相關(guān)LncRNA表達熱圖及生存時間點圖,見圖4,可見隨著RS值得升高,患者生存時間呈縮短趨勢,且死亡患者(圖中紅點顯示)明顯增多。
表2 差異LncRNA的單因素和多因素Cox回歸分析Table2 Univariate and multivariate Cox regression analyses of differentially-expressed LncRNA
圖1 多因素Cox回歸模型中4個LncRNA森林圖Figure1 Forest maps of four LncRNA in multivariate Cox regression model
圖2 高低風險組的K-M生存分析Figure2 K-M survival analysis of high and low risk groups
圖3 多因素Cox分析模型ROC曲線Figure3 ROC curve of multivariate Cox analysis model
近年來的研究顯示,LncRNA可以通過染色質(zhì)修飾、轉(zhuǎn)錄和翻譯過程參與基因調(diào)控,在基因調(diào)控網(wǎng)絡(luò)中具有關(guān)鍵性作用。其在各種生理病理過程中,例如上皮-間充質(zhì)轉(zhuǎn)化、組織再生和腫瘤發(fā)生等,具有廣泛作用[5,7-9]。研究證實,不受管制的LncRNA表達譜是癌癥的一個新特征,其豐度與腫瘤侵襲性和患者預(yù)后有顯著相關(guān)性[10-11]。
本研究從TCGA數(shù)據(jù)庫中膠質(zhì)母細胞瘤表達譜數(shù)據(jù)和臨床生存數(shù)據(jù)進行統(tǒng)計分析得到基于4個LncRNA的多因素預(yù)后風險模型:風險得分RS=0.59×NDUFB2-AS1-0.41×ZEB1-AS1+0.31×AL139385.1+0.21×AGAP2-AS1。其中,ZEB1-AS1為保護性LncRNA,其余為危險性LncRNA。這4個LncRNA在其他腫瘤中的研究較少,Tian等[12]研究發(fā)現(xiàn)AGAP2-AS1在膠質(zhì)母細胞瘤中表達高于鄰近正常腦組織,且高表達者總生存期更短。對膠質(zhì)母細胞瘤細胞敲降A(chǔ)GAP2-AS1后,細胞的增殖侵襲能力明顯受到抑制。Qi等[13]在胃癌組織和細胞系中得到相似的結(jié)論,且研究顯示轉(zhuǎn)錄因子SP1可以激活A(yù)GAP2-AS1的表達,AGAP2-AS1通過與LSD1和EZH2相互作用并抑制CDKN1A(P21)和E-鈣黏蛋白轉(zhuǎn)錄而發(fā)揮致癌作用。Li等[14]研究顯示AGAP2-AS1在非小細胞肺癌中高表達,可能通過抑制腫瘤抑制因子LATS2和KLF2轉(zhuǎn)錄而作為癌基因發(fā)揮作用。
本研究經(jīng)過TCGA膠質(zhì)母細胞瘤表達譜數(shù)據(jù)庫的挖掘,篩選出差異表達LncRNA并成功構(gòu)建風險預(yù)測模型,用于計算膠質(zhì)母細胞瘤患者的風險評分,可以較好地反應(yīng)患者的預(yù)后,且模型有較好的敏感度和特異性,為膠質(zhì)母細胞瘤的臨床預(yù)后判斷提供幫助,并為基礎(chǔ)研究提供更多可供選擇的生物標志物。然而本研究尚存在許多不足之處,首先模型的預(yù)測能力仍需大量多中心的循證醫(yī)學(xué)證據(jù)證實,其次納入模型的LncRNA在生物體內(nèi)的功能尚不明確,其在膠質(zhì)母細胞瘤發(fā)生發(fā)展中起的作用尚缺乏實驗證據(jù)的支持。