彭雙,譚英征,楊秋紅,易來
(中南大學(xué)湘雅醫(yī)學(xué)院附屬株洲醫(yī)院1.感染內(nèi)科2.血液科,湖南株洲412007)
在全球范圍內(nèi), 肝細胞癌(hepatocellular carcinoma,HCC)是排名第6 位的惡性腫瘤,2018年全球約有841 080 例新發(fā)病例和781 631 例死亡病例[1]。根據(jù)美國疾病控制與預(yù)防中心的數(shù)據(jù),2009—2016年之間,HCC 的病死率上升了25%[2]。盡管目前對HCC 的治療有手術(shù)治療、肝移植、射頻消融、栓塞治療、靶向治療和放化療等多學(xué)科綜合治療,但HCC 的病死率和復(fù)發(fā)率仍呈上升的趨勢[3-4]。因此在臨床中迫切需要采取新的干預(yù)措施來改善HCC 患者的預(yù)后。HCC 通常起源于慢性肝損傷,尤其是乙型病毒性肝炎[5]。對HCC 患者的預(yù)后評估將有助于制定更好的治療策略。常規(guī)臨床實踐中已采用了多種分期系統(tǒng),例如巴塞羅那臨床肝癌系統(tǒng)[6]。但是,目前尚未建立基于分子生物標志物的臨床分層系統(tǒng)來識別高危HCC 患者。
長非編碼RNA(long noncoding RNA,lncRNA)是一類長度超過200 個核苷酸的非編碼RNA。越來越多的研究表明,lncRNA 在調(diào)節(jié)廣泛的生物學(xué)過程中起著重要作用,包括基因表達,細胞生長,分化和染色體分裂[7]。在各種類型的癌癥中都檢測到異常表達的lncRNA,并且某些lncRNA 表現(xiàn)出致癌或抑制腫瘤的作用,這表明了其可能作為腫瘤潛在的生物標志物和治療靶點[8-9]。并且研究發(fā)現(xiàn)與mRNA 和微小RNA(miRNA)相比,lncRNA 是卓越的腫瘤生物標志物[10-11]。目前,盡管對lncRNA的生物學(xué)功能的報道相對較少,但越來越多的研究表明lncRNA 可以為多種類型的腫瘤提供重要的預(yù)后價值[12-15]。隨著新一代測序技術(shù)的應(yīng)用和普及,大量有關(guān)腫瘤的高通量測序數(shù)據(jù)使得利用生物信息學(xué)預(yù)測腫瘤中l(wèi)ncRNA 功能成為可能。
本研究中,通過利用TCGA 數(shù)據(jù)庫中公開獲取的HCC 轉(zhuǎn)錄組測序數(shù)據(jù)和臨床資料,對HCC 免疫相關(guān)lncRNA 進行了全面的分析,建立HCC 預(yù)后免疫相關(guān)lncRNA 預(yù)后風(fēng)險模型并進行評估,這將對HCC 管理和治療策略的制定有很大幫助。
從癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)(https://cancergenome.nih.gov)下載HCC 轉(zhuǎn)錄組數(shù)據(jù)和臨床資料,下載截止日期到2020年10月9日,臨床資料包括:性別、年齡、腫瘤分級,腫瘤病理分期,TNM 分期,生存時間和生存狀態(tài),排除生存時間<30 d、腫瘤病理分級缺失、TNM 分期缺失以及生存信息不詳?shù)牟±齕16],共下載到376 例HCC 轉(zhuǎn)錄組數(shù)據(jù)和相應(yīng)的臨床資料,根據(jù)排除標準,共納入225 例HCC 樣本。
從TCGA 數(shù)據(jù)庫中下載HCC 相對應(yīng)的metadata和manifest,通過Perl 語言腳本提取HCC 原始counts數(shù)據(jù)表達矩陣, 從Ensembl 網(wǎng)站(https://asia.ensembl.org/index.html)下載Homo-sapiens.GRCh38.95.chr.gtf.gz 文件,通過Perl 語言腳本對原始counts 數(shù)據(jù)進行ID 轉(zhuǎn)換得到gene symbol 表達矩陣,再使用Perl 語言腳本提取HCC lncRNA 表達矩陣。
從GSEA 網(wǎng)站(https://www.gsea-msigdb.org/gsea/index.jsp) 獲取免疫相關(guān)基因集列表(Immune system process M13664,Immune response M19817),從225 例HCC 轉(zhuǎn)錄組數(shù)據(jù)中獲得的lncRNA 和免疫相關(guān)基因集數(shù)據(jù),利用R 語言的“l(fā)imma”包以共表達分析計算lncRNA 與免疫相關(guān)基因的相關(guān)性,以相關(guān)系數(shù)Cor>0.6 和P<0.001 篩選HCC 免疫相關(guān)lncRNA[17]。
利用Perl 語言腳本將HCC 生存時間和免疫相關(guān)lncRNA 表達矩陣進行合并,使用“survival”包進行單因素Cox 回歸分析評估免疫相關(guān)lncRNA 的預(yù)后價值,以P<0.05 篩選預(yù)后相關(guān)lncRNA,納入多因素Cox 回歸分析進一步篩選,根據(jù)赤池信息量準則(Akaike information criterion,AIC) 確定最佳lncRNA 建立預(yù)后風(fēng)險模型,計算每例樣本的風(fēng)險評分(risk score),計算公式為:所納入的預(yù)后免疫相關(guān)lncRNA 的基因表達量乘以多因素Cox 回歸系數(shù)之和。根據(jù)中位風(fēng)險評分值將HCC 患者分為低風(fēng)險組和高風(fēng)險組。
利用Kaplan-Meier 生存分析法比較低風(fēng)險組和高風(fēng)險組患者的生存差異,并繪制預(yù)后風(fēng)險模型的生存曲線,同時采用ROC 曲線下面積AUC 值評估預(yù)后風(fēng)險模型的特異度和敏感度。通過單因素和多因素Cox 回歸分析評估HCC 患者風(fēng)險評分和臨床病理信息與總生存期的關(guān)系,并繪制森林圖,篩選HCC 預(yù)后的獨立危險因素,P<0.05 為差異有統(tǒng)計學(xué)意義。
本研究共納入225 例HCC 病例,平均年齡57.03(17~80)歲,性別、年齡、腫瘤分級,腫瘤病理分期和TNM 分期(表1)。
表1 225例HCC患者臨床病理特征[n(%)]Table 1 Clinicopathologic characteristics of 225 patients with HCC[n(%)]
從225 例HCC 轉(zhuǎn)錄組數(shù)據(jù)中獲取lncRNA 和免疫相關(guān)基因集數(shù)據(jù),利用R 語言的“l(fā)imma”包以共表達分析計算lncRNA 與免疫相關(guān)基因的相關(guān)性,以相 關(guān)系 數(shù)Cor>0.6 和P<0.001 提 取HCC 免 疫相 關(guān)lncRNA 143 個。使用“survival”包進行單因素Cox回歸分析篩選出預(yù)后免疫相關(guān)lncRNA 17 個(均P<0.05)(表2)。
表2 單因素Cox回歸分析篩選HCC預(yù)后免疫相關(guān)lncRNATable 2 HCC Prognostic immune-related lncRNAs screened by univariateCox regression analysis
對于預(yù)后免疫相關(guān)lncRNA 進一步納入多因素Cox 回歸分析進行篩選,根據(jù)最優(yōu)AIC 值納入8 個lncRNA 構(gòu)建預(yù)后風(fēng)險模型(表3),計算每例樣本的風(fēng)險評分(risk score)(圖1),根據(jù)中位風(fēng)險評分值將HCC 患者分為低風(fēng)險組和高風(fēng)險組(圖1)。Kaplan-Meier 生存分析法比較兩組患者的生存差異,結(jié)果顯示,高風(fēng)險組患者生存率明顯低于低風(fēng)險組患者(P<0.05),生存曲線顯示隨著風(fēng)險評分越高,患者生存率越低(圖2)。隨后,通過繪制預(yù)后風(fēng)險模型ROC 曲線評價模型的特異度和敏感度,曲線下面積AUC 值為0.774,說明該模型具有良好的效能(圖3)。
表3 多因素Cox 回歸分析篩選免疫相關(guān)lncRNA 構(gòu)建HCC預(yù)后風(fēng)險模型Table 3 Construction of HCC prognostic risk model using the immune-related lncRNAs screened by multivariate Cox regression analysis
進一步探索預(yù)后風(fēng)險模型在HCC 患者預(yù)后中的應(yīng)用價值,通過單因素和多因素Cox 回歸分析評估HCC 患者風(fēng)險評分和臨床病理信息與總生存期的關(guān)系,結(jié)果顯示,風(fēng)險評分為HCC 患者預(yù)后的獨立預(yù)測因子,該預(yù)后風(fēng)險模型可以有效預(yù)測患者的生存預(yù)后(HR=1.608,95%CI=1.351~1.913,P<0.001)(圖4)。
HCC 是一種高度惡性腫瘤,被列為腫瘤病死率的第三大原因。盡管在HCC 的診斷和治療方面已取得了巨大進展,但HCC 患者總生存率的提高仍進展緩慢[6,18]。為了尋找新的生物標志物來改善HCC 患者的預(yù)后,越來越多學(xué)者和研究人員開始關(guān)注lncRNA,發(fā)現(xiàn)lncRNA 與腫瘤發(fā)生發(fā)展有關(guān),在HCC 中l(wèi)ncRNA 出現(xiàn)異常表達,并且與腫瘤的生長和患者的預(yù)后不良密切相關(guān)[19-20]。
過去,研究主要集中在mRNA 和miRNA,對于大多數(shù)lncRNA 的功能了解甚少。隨著高通量測序數(shù)據(jù)的快速發(fā)展,使得研究學(xué)者預(yù)測某些轉(zhuǎn)錄本的生物學(xué)功能的得以實現(xiàn)。對lncRNA 功能的預(yù)測也成為研究的熱點,同時促進了lncRNA 在腫瘤中的探索。最近有研究[21-22]報道了基于自噬相關(guān)lncRNA 的預(yù)測模型在HCC 中的應(yīng)用,并且發(fā)現(xiàn)模型對HCC 具有預(yù)后判斷價值。同時也有學(xué)者[23]報道了基于多基因lncRNA 模型在HCC 中的研究,發(fā)現(xiàn)lncRNA 模型可良好地預(yù)測HCC 患者的生存。此外研究也發(fā)現(xiàn)基于免疫相關(guān)基因的預(yù)測模型也可以有效預(yù)測HCC 患者的預(yù)后[24]。但是目前尚無免疫相關(guān)lncRNA 預(yù)后風(fēng)險模型在HCC 中的研究報道,在本研究中,對TCGA 數(shù)據(jù)庫中HCC 患者的lncRNA 表達譜和相關(guān)臨床信息進行了全面分析。提取HCC 免疫相關(guān)lncRNA 143 個。使用“survival”包進行單因素Cox 回歸分析篩選出免疫預(yù)后顯著相關(guān)lncRNA 17 個,Cox 多因素回歸分析進一步確定8 個lncRNA 構(gòu)建預(yù)后風(fēng)險模型,并且根據(jù)風(fēng)險模型計算每位患者的風(fēng)險評分,將患者分為低風(fēng)險組和高風(fēng)險組,高風(fēng)險組患者生存率顯著低于低風(fēng)險組患者,用于預(yù)測HCC 患者生存率的風(fēng)險評分模型的ROC 曲線下面積AUC 達到0.75 以上,表明在生存預(yù)測方面具有良好的特異度和敏感度。此外,單變量和多變量Cox 回歸分析表明,風(fēng)險評分為HCC 患者預(yù)后的獨立預(yù)測因子,證明該預(yù)后風(fēng)險模型可用于預(yù)測HCC 患者的預(yù)后。在8 個lncRNA 中 AL139384.1、 DANCR、 AC124798.1 和AC023157.3為危險基因, MAPKAPK5-AS1、LINC02362、SLC25A30-AS1 和LINC02499為保護基因。研究[21,25-26]發(fā)現(xiàn)DANCR 在HCC 中出現(xiàn)高表達與腫瘤發(fā)生顯著相關(guān),并且與HCC 預(yù)后顯著相關(guān)。此外,在結(jié)直腸癌中發(fā)現(xiàn)MAPKAPK5-AS1 在腫瘤組織中顯著高表達,敲除MAPKAPK5-AS1 可以顯著抑制結(jié)直腸癌細胞增殖并引起細胞凋亡。MAPKAPK5-AS1 可作為結(jié)直腸癌新型的預(yù)后生物標志物[27-28]。同樣有研究[29-30]報道LINC02499 為HCC的保護基因,可能是潛在的HCC 診斷和預(yù)后生物標志物,并可能在HCC 的發(fā)生發(fā)展中發(fā)揮抑癌作用。而另外5 個lncRNA 目前尚無相關(guān)研究報道,仍有待進一步研究。
綜上所述,基于TCGA 數(shù)據(jù)HCC lncRNA 表達譜的全面分析,最終確定了8 個預(yù)后免疫相關(guān)lncRNA 構(gòu)建的預(yù)后風(fēng)險模型,可以有效預(yù)測HCC患者預(yù)后和危險分層的分子標志物,可作為其獨立的預(yù)后生物標志物。但本研究存在一定的局限性,包括缺乏多中心數(shù)據(jù)庫的驗證,目前8 個lncRNA 在HCC 中分子作用機制和相關(guān)信號通路尚不清楚等,仍需進一步研究。
利益沖突:所有作者均聲明不存在利益沖突。