底斐瑤,王一鶴,底澤亞,袁瑞(通訊作者)
(1.重慶醫(yī)科大學(xué)附屬第一醫(yī)院婦產(chǎn)科,重慶;2.鄭州大學(xué)第一附屬醫(yī)院泌尿外科,河南 鄭州;3.北京大學(xué)信息科學(xué)技術(shù)學(xué)院,北京)
宮頸癌是女性最常見的惡性腫瘤之一,發(fā)病率和死亡率均居女性常見惡性腫瘤的第四位;在世界范圍內(nèi),據(jù)統(tǒng)計,每年大約有53 萬新發(fā)病例,27 萬死亡病例[1-3]。其病理類型最常見的是鱗狀細(xì)胞癌(squamous cell carcinoma,SCC),約占所有宮頸癌的70%[3,4],其他類型的宮頸癌相對少見。早期宮頸癌的標(biāo)準(zhǔn)治療方法為手術(shù)治療,晚期宮頸癌主要是放射治療和化學(xué)治療,由于耐藥性和復(fù)發(fā)性,治療效果有限[5,6],有文獻(xiàn)報道晚期宮頸癌五年生存率僅為16.8%[7],嚴(yán)重危害婦女身心健康。
近幾年,免疫治療逐漸興起。癌癥免疫治療是通過增強(qiáng)或觸發(fā)患者的免疫系統(tǒng)誘發(fā)機(jī)體抗腫瘤的治療總稱[8]。越來越多的研究表明免疫療法在癌癥治療中的可行性[9-11],這種治療方法為癌癥患者帶來了希望。特別是程序性死亡-1(PD-1)/(PD-L1)抑制劑在包括宮頸癌在內(nèi)的多種實體腫瘤中取得了療效,已獲得美國食品和藥物管理局(FDA)的批準(zhǔn)[8]。
長鏈非編碼RNA(long non-conding RNA,LncRNA)是轉(zhuǎn)錄長度大于200 個核苷酸的非編碼RNA,不具備編碼蛋白的能力[6],但是LncRNA 的過表達(dá)、缺失或者突變等對腫瘤的惡性生物學(xué)行為有驅(qū)動作用[12,13]。例如,LncRNA-H19、LncRNAXIST、LncRNA-HOTAIR、LncRNA-NCK1-AS1、LncRNA-IGF2等的異常表達(dá)已被證明與宮頸癌的發(fā)生、發(fā)展及預(yù)后相關(guān)[14-21]。癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫是美國國家癌癥研究所和美國國家人類基因組研究組于2006共同發(fā)起建立的癌癥數(shù)據(jù)庫,該數(shù)據(jù)庫收集了常見腫瘤的臨床數(shù)據(jù)、長鏈非編碼RNA、差異表達(dá)基因、拷貝數(shù)變異、甲基化等,是重要的權(quán)威癌癥數(shù)據(jù)庫之一[22]。TCGA 數(shù)據(jù)病理診斷明確、來源可靠、免費(fèi)、公開,目前已被癌癥研究者廣泛使用。本研究基于TCGA 數(shù)據(jù)庫尋找與宮頸癌預(yù)后相關(guān)的免疫相關(guān)性LncRNA,并將確定的免疫相關(guān)性LncRNA 構(gòu)建宮頸癌預(yù)后模型,為宮頸癌的預(yù)后提供新的研究思路。
從TCGA 數(shù)據(jù)庫中下載宮頸癌轉(zhuǎn)錄數(shù)據(jù)及臨床數(shù)據(jù),從Molecular Signatures Database 下載免疫相關(guān)基因,利用Strawberry Perl 軟件(版本 5.30.1,64-bit)對數(shù)據(jù)進(jìn)行分析與合并,通過R 軟件對數(shù)據(jù)進(jìn)行處理和分析。首先通過構(gòu)建免疫基因-LncRNA 共表達(dá)網(wǎng)絡(luò),篩選出免疫相關(guān)性LncRNA。通過單因素COX 回歸篩選具有預(yù)后價值的LncRNA。通過多因素COX 回歸分析構(gòu)建預(yù)后模型,根據(jù)赤池信息量準(zhǔn)則(Akaike information criterion,AIC)值確定最佳模型。根據(jù)風(fēng)險評分的中位數(shù)將患者分為高風(fēng)險組和低風(fēng)險組,運(yùn)用R 軟件對兩組患者進(jìn)行生存分析。我們使用受試者接受特征(receiver operating characteristic,ROC)曲線對模型進(jìn)行評價,并與T 等級、N 等級、Grade 等級、年齡等臨床特征進(jìn)行比較。最后將得到的關(guān)鍵LncRNA 與宮頸癌臨床特征進(jìn)行相關(guān)性分析。
2020年5 月,從癌癥基因組圖譜(TCGA)數(shù)據(jù)庫(https://tcga-data.nci.nih.gov/tcga/)CSCC 項目下載宮頸癌患者的轉(zhuǎn)錄表達(dá)數(shù)據(jù)及臨床資料。利用strawberry perl(版本 5.30.1,64-bit)腳本語言軟件用于獲取整合轉(zhuǎn)錄組LncRNA 表達(dá)數(shù)據(jù)和相應(yīng)的臨床資料;其中基因表達(dá)數(shù)據(jù)提取包括基因名稱、樣本編號、和表達(dá)值。
患者納入標(biāo)準(zhǔn):1)腫瘤原發(fā)于宮頸;2)病理證實為鱗狀細(xì)胞癌;3)數(shù)據(jù)類型為轉(zhuǎn)錄組;4)數(shù)據(jù)類型:基因表達(dá)量;5)可獲得患者的總體生存時間;
由于本研究制定的模型與預(yù)后相關(guān),因此排除標(biāo)準(zhǔn)如下:
1)排除生存時間≤30 天的患者;2)總體生存時間未知或者生存狀態(tài)未知的患者。
從Molecular Signatures Database 獲取免疫相關(guān)基因即Immune System process 基 因 集,編 號:M13664, Immune Response 基因集,編號:M19817。
獲得表達(dá)數(shù)據(jù)后,在R 軟件中(版本 3.6.2),使用“l(fā)imma package” 和 “cor.test” 函數(shù)進(jìn)行共表達(dá)分析,其中“cor.test”函數(shù)可得到LncRNA 與免疫基因的相關(guān)系數(shù),從而確定有顯著差異的免疫相關(guān)性LncRNA(設(shè)置標(biāo)準(zhǔn):P<0.001,相關(guān)系數(shù)COR 絕對值大于0.4)。
為篩選與宮頸癌預(yù)后相關(guān)的免疫相關(guān)性LncRNA,我們在R 軟件中使用“Survival package”進(jìn)行單因素Cox 回歸分析(P<0.01 認(rèn)為有統(tǒng)計學(xué)差異)篩選出影響宮頸癌預(yù)后的免疫相關(guān)性LncRNA。我們根據(jù)上一步篩選出的LncRNA 在每位患者中的表達(dá)量,通過Cox 回歸分析獲得每個LncRNA 的風(fēng)險系數(shù),計算模型AIC 值并對其進(jìn)行調(diào)整,AIC 值最高者即為最優(yōu)模型,計算得到患者的風(fēng)險評分Risk,計算公式如下;其中exp 代表LncRNA 的表達(dá)量。
根據(jù)風(fēng)險評分的中位值,Risk ≥中位值的患者為高風(fēng)險組,Risk<中位值低風(fēng)險組,利用R 包“Survival package”進(jìn)行生存分析(P<0.05 認(rèn)為有統(tǒng)計學(xué)差異)。根據(jù)每位患者的風(fēng)險值利用R 軟件繪制風(fēng)險狀態(tài)圖,風(fēng)險熱圖。風(fēng)險熱圖使用的R 包“Pheatmap”。為了驗證模型,我們在R 軟件中使用ROC 工作曲線評估每個危險因素的價值。
為了確定LncRNA 與臨床之間的關(guān)系,我們將從TCGA中下載的臨床數(shù)據(jù)進(jìn)行篩選,剔除臨床情況未知的患者。在R 軟件中,使用“ggpubr package”評估LncRNA 表達(dá)量與T分期,M 分期,N 分期和Grade 分級的相關(guān)性,并將其可視化(P<0.05 認(rèn)為有統(tǒng)計學(xué)差異)。
首先我們從TCGA 數(shù)據(jù)庫中獲取255 例宮頸癌樣本,通過構(gòu)建免疫-LncRNA 共表達(dá)網(wǎng)絡(luò)來篩選有顯著差異的免疫相關(guān)性LncRNA,最終篩選出637 個LncRNA。
我們利用R 包 “Survival Package”將上一步鑒定的LncRNA 與TCGA 數(shù)據(jù)庫中下載的255 例宮頸癌患者的生存時間及生存狀態(tài)進(jìn)行單因素COX 回歸分析(P<0.01 認(rèn)為有統(tǒng)計學(xué)差異)篩選出34 個LncRNA(圖1)。
圖1 單因素COX 回歸篩選出和宮頸癌預(yù)后相關(guān)的LncRNA
基于多因素COX 回歸和AIC 值篩選出構(gòu)成最優(yōu)模型的8 個關(guān)鍵的免疫相關(guān)性LncRNA(表1),根據(jù)風(fēng)險評分模型,計算每個患者的預(yù)后風(fēng)險評分Risk,并根據(jù)中位數(shù)將患者分為高風(fēng)險組和低風(fēng)險組以構(gòu)建預(yù)后模型。為了進(jìn)一步驗證模型的預(yù)測能力,將高風(fēng)險組和低風(fēng)險組進(jìn)行生存分析顯示,高風(fēng)險組較低風(fēng)險組生存率有差異(P<0.05 認(rèn)為有統(tǒng)計學(xué)意義)(圖2)。根據(jù)每位患者的風(fēng)險值利用R 軟件繪制風(fēng)險狀態(tài)圖顯示:隨著風(fēng)險值增加,死亡人數(shù)逐漸增加(圖3A);風(fēng)險熱圖顯示:AC004540.2、AL365203.2 表達(dá)量隨著風(fēng)險值增加逐漸增加;相反ATP2A1-AS1、AC096992.2、AC004847.1、AC097468.3、AC099568.2 表達(dá)量隨著風(fēng)險值增加逐漸降低。LncRNA;AC105277.1 表達(dá)量隨著風(fēng)險值增高變化不明顯(圖3B)。
表1 多因素COX 回歸篩選出用于構(gòu)建模型的免疫相關(guān)性lncRNA
圖2 將高風(fēng)險組和低風(fēng)險組進(jìn)行K-M 生存分析
圖3 A:風(fēng)險狀態(tài)圖
圖3 B:風(fēng)險熱圖
為了進(jìn)一步評估模型的準(zhǔn)確性,將風(fēng)險值及臨床性狀共同繪制ROC 曲線(圖4)顯示:風(fēng)險評分模型AUC 值(ROC曲線下面積)為0.758,較其他臨床特征作為預(yù)后因素準(zhǔn)確性高。
圖4 ROC 曲線評價宮頸癌預(yù)后模型
我們將從TCGA 中下載的臨床數(shù)據(jù)進(jìn)行篩選,剔除臨床情況未知的患者。在R 軟件中,評估LncRNA 表達(dá)量與T 分期的相關(guān)性,并將其可視化。結(jié)果顯示AC099568.2、AC105277.1 與T 分期具有相關(guān)性(P<0.05 認(rèn)為有統(tǒng)計學(xué)差異),其表達(dá)量隨著T 分期增加逐漸降低(圖5)。
圖5 將8 個LncRNA 與宮頸癌臨床T 分期進(jìn)行臨床相關(guān)性分析,*代表P<0.05,ns 代表P>0.05
晚期宮頸癌患者一般采取傳統(tǒng)的放射治療和化學(xué)治療,由于耐藥性和易復(fù)發(fā)性,治療效果欠佳[23,24],文獻(xiàn)報道宮頸癌患者的五年生存率仍低[7,23],這個問題亟需解決。隨著免疫治療在多種實體腫瘤的興起,宮頸癌的免疫治療也成為當(dāng)前研究熱點。越來越多的研究顯示LncRNA 的異常如突變、缺失或過表達(dá)等對腫瘤的發(fā)生、發(fā)展、轉(zhuǎn)移、復(fù)發(fā)等有驅(qū)動作用[12,25-28],這為宮頸癌的研究提供了新的思路。夏艷[29]等研究顯示LncRNA TUG1 高表達(dá)與宮頸癌預(yù)后不良密切相關(guān)。Huang[30]等發(fā)現(xiàn)LncRNA PANDAR 在宮頸癌組織和細(xì)胞中的表達(dá)水平上調(diào),能促進(jìn)腫瘤的生長,與宮頸癌的不良預(yù)后相關(guān),提出PANDAR 可能是宮頸癌早期診斷的生物標(biāo)志物,并且是逆轉(zhuǎn)腫瘤惡性表型的潛在治療靶標(biāo)。HaoBo[31]等發(fā)現(xiàn),AFAP1-AS1 在宮頸癌中表達(dá)升高且甲基化不足,并且與宮頸癌患者預(yù)后不良相關(guān)。因此,本文利用生物信息學(xué)方法從TCGA 數(shù)據(jù)庫中提取宮頸癌相關(guān)信息,尋找與宮頸癌預(yù)后相關(guān)的免疫相關(guān)性LncRNA,構(gòu)建預(yù)后模型,為宮頸癌治療提供新的靶點。
我們從TCGA 數(shù)據(jù)庫下載宮頸癌轉(zhuǎn)錄組及臨床數(shù)據(jù),從Molecular Signatures Database 下載免疫相關(guān)基因,通過免疫基因-LncRNA 共表達(dá)篩選出637 個顯著差異的免疫相關(guān)性LncRNA。我們將這些LncRNA 與TCGA 數(shù)據(jù)庫中下載的宮頸癌患者的生存時間及生存狀態(tài)行單因素COX 回歸分析初步篩選出34 個與宮頸癌預(yù)后相關(guān)的LncRNA,基于多因素COX 回歸和AIC 值篩選出構(gòu)成最優(yōu)模型的8 個關(guān)鍵的LncRNA,分別為AC004540.2、AL365203.2、ATP2A1-AS1、AC096992.2、AC004847.1、AC097468.3、AC099568.2、AC105277.1。我們根據(jù)每個病人的LncRNA 表達(dá)量構(gòu)建預(yù)后風(fēng)險模型,根據(jù)風(fēng)險中位值將病人分為高風(fēng)險組及低風(fēng)險組。通過繪制風(fēng)險熱圖可見AC004540.2、AL365203.2 表達(dá)量隨著風(fēng)險值增加逐漸增加,考慮為危險性LncRNA;相反ATP2A1-AS1、AC096992.2、AC004847.1、AC097468.3、AC099568.2 表達(dá)量隨著風(fēng)險值增加逐漸降低,考慮為保護(hù)性LncRNA;AC105277.1 表達(dá)量隨著風(fēng)險值增高變化不明顯,待臨床相關(guān)性實驗進(jìn)一步驗證。將高、低風(fēng)險組進(jìn)行K-M 生存分析、繪制ROC 曲線評估模型的準(zhǔn)確性及預(yù)測能力。在K-M生存分析中,高風(fēng)險組患者生存率顯著低于低風(fēng)險組;ROC 曲線下面積為0.758,兩者結(jié)果一致,驗證了預(yù)后模型的準(zhǔn)確性,聯(lián)合檢測這八個LncRNA 所創(chuàng)建的模型能較準(zhǔn)確地預(yù)測宮頸癌患者的三年和五年生存率,而且其有可能成為宮頸癌治療的潛在靶點。將確定的LncRNA 與患者臨床特征(T、N、M)進(jìn)行相關(guān)性分析,結(jié)果顯示AC099568.2、AC105277.1 與T 分期具有相關(guān)性(P<0.05 認(rèn)為有統(tǒng)計學(xué)差異),且其表達(dá)量隨著T 分期增加逐漸降低,提示其可能為宮頸癌預(yù)后的保護(hù)因素。
ZHOU[32]等人建立了舌鱗狀細(xì)胞癌(SCCT)患者的生存風(fēng)險評估模型,通過生存分析顯示,AC105277.1 與SCCT患者整體生存率顯著相關(guān),認(rèn)為該LncRNA 有可能是預(yù)測SCCT 預(yù)后的生物標(biāo)志物之一。同樣地,在我們的研究中也發(fā)現(xiàn)AC105277.1 與宮頸癌的預(yù)后顯著相關(guān),因此,我們推測其可能成為宮頸癌的潛在治療靶點。我們的研究結(jié)果表明,AC004540.2、AL365203.2、ATP2A1-AS1、AC096992.2、AC004847.1、AC097468.3、AC099568.2 均與宮頸癌的預(yù)后密切相關(guān),但目前尚未發(fā)現(xiàn)關(guān)于它們的研究。在未來的研究中,這些LncRNA 在臨床上的價值仍然需要探索,我們認(rèn)為它們可能作為宮頸癌預(yù)后標(biāo)志物。我們計劃收集自己的臨床數(shù)據(jù)對本研究結(jié)果進(jìn)一步驗證,并從分子生物學(xué)角度對其發(fā)生機(jī)制進(jìn)行研究探討。
綜上所述,我們通過TCGA 數(shù)據(jù)庫挖掘相關(guān)宮頸癌相關(guān)的生物學(xué)信息,創(chuàng)建免疫基因-LncRNA 共表達(dá)網(wǎng)絡(luò),確定了8 個與宮頸癌預(yù)后相關(guān)的免疫相關(guān)性LncRNA,為宮頸癌患者提供可能的免疫治療靶點。并基于此8 個LncRNA 構(gòu)建了宮頸癌預(yù)后模型,預(yù)測準(zhǔn)確性中等。將8 個LncRNA 與宮頸癌患者臨床特征進(jìn)行相關(guān)性分析,其中AC099568.2、AC105277.1 表達(dá)量隨著T 分期增加逐漸降低,提示其可能為宮頸癌預(yù)后的保護(hù)因素。但它們在宮頸癌中的作用機(jī)制有待進(jìn)一步研究和驗證。