張釵紅,關(guān)德鳳,楊永秀
宮頸癌是女性最常見的癌癥之一,發(fā)病率和病死率位居女性惡性腫瘤第4位[1],仍是成年女性生命安全的重大威脅。近年來,隨著宮頸癌規(guī)范化篩查的開展和疫苗的應(yīng)用,宮頸鱗癌的發(fā)病率不斷下降,但宮頸腺癌(cervical adenocarcinoma,CAC)發(fā)病率仍不斷上升,占宮頸癌的10%~20%[2-3],并且其與人乳頭瘤病毒的關(guān)系尚有爭議[4-5],發(fā)病人群呈年輕化趨勢,早期篩查困難,具有較鱗癌更高的卵巢轉(zhuǎn)移及遠(yuǎn)處轉(zhuǎn)移率,宮頸腺癌組織學(xué)已成為宮頸癌預(yù)后不良的因素[6-7],針對腺癌組織學(xué)特異性的基因靶向療法是宮頸癌新的研究熱點,也是改善患者生存期新的切入點。本研究構(gòu)建列線圖預(yù)后模型,使用GSEA_4.0.1軟件進(jìn)行模型mRNAs在CAC中的癌癥和效應(yīng)特征基因集富集分析(gene set enrichment analysis, GSEA),探索模型mRNAs在CAC中的作用機制及模型mRNAs之間相互關(guān)系,尋找穩(wěn)定可靠的CAC靶向治療和預(yù)后評估的關(guān)鍵因子,報道如下。
1.1 數(shù)據(jù)準(zhǔn)備 本研究于2019年8—10月在蘭州大學(xué)第一醫(yī)院實施,使用R3.6.1軟件分析癌癥基因組圖譜數(shù)據(jù)庫(the cancer genome atlas,TCGA)中宮頸腺癌mRNA表達(dá)數(shù)據(jù)。在TCGA官網(wǎng)(https://www.cancer.gov/tcga)獲取CAC的mRNA表達(dá)數(shù)據(jù)建立標(biāo)準(zhǔn)化表達(dá)矩陣并加載R3.6.1軟件edgeR包,采用雙側(cè)t檢驗,篩選顯著差異表達(dá)mRNAs;獲取CAC患者臨床資料,合并mRNAs差異表達(dá)資料構(gòu)建預(yù)后預(yù)測模型。
1.2 篩選預(yù)后相關(guān)mRNAs 運行R3.6.1軟件survival包、glmnet包進(jìn)行單因素Cox回歸、Lasso回歸分析、多因素Cox逐步回歸分析,進(jìn)一步篩選預(yù)后相關(guān)mRNAs,使用survminer包進(jìn)行Log-rank檢驗篩選CAC患者獨立的預(yù)后影響因子,計算C-指數(shù)評價模型。
1.3 列線圖模型構(gòu)建及評價 在R3.6.1軟件中加載rms包和survival包構(gòu)建CAC患者3年和5年生存率的列線圖預(yù)測模型。加載timeROC包和survival包依據(jù)46個CAC樣本的風(fēng)險評分,計算3年和5年生存率的AUC值。
1.4 模型mRNAs分析 在R3.6.1軟件中加載limma包和beeswarm包采用Wilcox檢驗對模型mRNAs在正常組和腫瘤組中的標(biāo)準(zhǔn)化表達(dá)數(shù)據(jù)進(jìn)行分析。加載survminer包和survival包,使用中位數(shù)法將46個CAC樣本的風(fēng)險評分分為高風(fēng)險組和低風(fēng)險組,進(jìn)行高、低風(fēng)險組生存分析。加載survival包,使用中位數(shù)法分別將5個mRNAs分為高、低表達(dá)組,進(jìn)行mRNAs高、低表達(dá)組生存分析。構(gòu)建模型mRNAs的GSEA輸入文件:表型文件和表達(dá)譜文件,使用GSEA_4.0.1軟件設(shè)置基因集數(shù)據(jù)為c6.all.v7.0.symbols.gmt和h.all.v7.0.symbols.gmt進(jìn)行高、低表達(dá)組的癌癥、效應(yīng)、免疫特征基因集富集分析,使用R3.6.1軟件plyr、ggplot2和grid包繪制多GSEA富集圖。
2.1 mRNAs表達(dá)數(shù)據(jù)和臨床資料 在TCGA數(shù)據(jù)庫下載CAC的mRNAs表達(dá)譜資料,包含3個正常樣本和48個CAC樣本,加載R3.6.1軟件進(jìn)行差異表達(dá)分析得到CAC中1 856個|logFC|>2且FDR<0.01的顯著差異mRNAs,即649個顯著上調(diào)mRNAs和1 207個顯著下調(diào)mRNAs。下載CAC患者臨床資料,剔除生存時間為0的2組樣本,共入組46個CAC樣本,用于模型構(gòu)建。
2.2 篩選CAC預(yù)后相關(guān)mRNAs 使用R軟件對CAC的mRNAs表達(dá)與生存數(shù)據(jù)矩陣進(jìn)行單因素Cox回歸分析,篩選得到P<0.01的22個CAC預(yù)后相關(guān)mRNAs,提取22個mRNAs的表達(dá)生存數(shù)據(jù)進(jìn)行Lasso回歸分析,得到最小Lambda為0.110 273 7,包含10個CAC預(yù)后相關(guān)mRNAs,分別是ADAMTSL4、ANKRD53、CDC25A、CILP、CPQ、CTSF、DST、GLIPR2、MYH13、RNF150。提取這10個mRNAs的表達(dá)生存數(shù)據(jù)進(jìn)行多因素Cox逐步回歸分析,獲得5個CAC預(yù)后相關(guān)mRNAs及其在46個CAC樣本中的風(fēng)險評分,該模型風(fēng)險評分=0.944 74×CILP+3.866 33×MYH13-3.776 3×ANKRD53-1.912 99×GLIPR2-0.641 92×CPQ,經(jīng)Log-rank檢驗P<0.01,其中ANKRD53、CILP、GLIPR2、MYH13可作為CAC患者預(yù)后評估的獨立影響因素,P值分別為0.009、0.024、0.007和0.005,而CPQ的P值為0.131,不能作為患者獨立預(yù)后因子。
2.3 CAC患者生存預(yù)測模型及其評價 使用R軟件構(gòu)建CAC患者3年生存率和5年生存率的列線圖預(yù)測模型(圖1)。依據(jù)46個CAC樣本的風(fēng)險評分計算模型C-指數(shù)為0.95,3年生存率的AUC為0.950 1,5年生存率的AUC為0.949 7,該模型預(yù)測效果較好。
2.4 模型mRNAs分析
2.4.1 模型mRNAs的TCGA表達(dá)分析:從CAC的mRNA標(biāo)準(zhǔn)化表達(dá)數(shù)據(jù)矩陣中提取模型mRNAs的表達(dá)數(shù)據(jù),使用R3.6.1軟件進(jìn)行正常組和腫瘤組的表達(dá)差異分析顯示,2組中ANKRD53、CILP、GLIPR2、CPQ、MYH13的表達(dá)差異均有統(tǒng)計學(xué)意義(P均<0.01)。
2.4.2 風(fēng)險評分與生存預(yù)后的關(guān)系:使用R軟件進(jìn)行高、低風(fēng)險組生存分析顯示,低風(fēng)險組患者生存預(yù)后顯著優(yōu)于高風(fēng)險組(P<0.01)。
2.4.3 模型mRNAs表達(dá)情況與患者預(yù)后的關(guān)系:使用R軟件進(jìn)行mRNAs高、低表達(dá)組生存分析顯示,ANKRD53、CLIP、GLIPR2、CPQ高表達(dá)組和MYH13低表達(dá)組提示CAC患者預(yù)后良好,其中ANKRD53、CLIP、GLIPR2高、低表達(dá)組差異有統(tǒng)計學(xué)意義(P=0.023、0.028、0.030)。
2.4.4 模型mRNAs的基因集富集分析
2.4.4.1 癌癥特征基因集分析(oncogenic signatures gene sets) 使用GSEA_4.0.1軟件輸入模型mRNAs的表型文件和表達(dá)譜進(jìn)行癌癥基因集分析顯示,5個模型mRNAs共存在33個共同顯著相關(guān)(P<0.05)的癌癥特征基因集,其中VEGF_A_UP.V1_UP基因集與4個模型mRNAs均顯著相關(guān)(圖2),RB_P107_DN.V1_DN、JAK2_DN.V1_UP、CYCLIN_D1_KE_.V1_DN、JNK_DN.V1_DN、P53_DN.V1_DN、BMI1_DN_MEL18_DN.V1_DN、KRAS.KIDNEY_UP.V1_UP、PTEN_DN.V1_UP基因集分別與3個模型mRNAs顯著相關(guān),24個基因集分別與2個模型mRNAs顯著相關(guān)。
2.4.4.2 效應(yīng)特征基因集分析(hallmark gene sets) 使用GSEA_4.0.1軟件對5個mRNAs的表型文件和表達(dá)譜進(jìn)行效應(yīng)特征基因集分析顯示,5個模型mRNAs共存在9個共同顯著相關(guān)(P<0.05)的效應(yīng)特征基因集,其中MYC TARGETS V1和MTORC1 SIGNALING分別與3個模型mRNAs顯著相關(guān),MYC TARGETS V2、ANGIOGENESIS、EPITHELIAL MESENCHYMAL TRANSITION、HEDGEHOG SIGNALING、UNFOLDED PROTEIN RESPONSE、FATTY ACID METABOLISM、MYOGENESIS分別與2個模型mRNAs顯著相關(guān)(圖3)。
近年來,宮頸腺癌發(fā)病率不斷上升,預(yù)后不良,復(fù)發(fā)率、轉(zhuǎn)移率、病死率均較高[6-9],有效的預(yù)后風(fēng)險評估、精準(zhǔn)的基因靶向治療方案、提高治愈率、延長生存期仍是現(xiàn)階段宮頸腺癌研究的重點和熱點。
現(xiàn)階段,宮頸腺癌患者的預(yù)后評估工作主要基于不同的臨床病理參數(shù),如是否絕經(jīng)、子宮旁受累、脈管內(nèi)瘤栓、淋巴結(jié)轉(zhuǎn)移、Silva分型系統(tǒng)等[6, 10],不同的影像學(xué)參數(shù),如磁共振彌散加權(quán)成像和波譜分析等[11-12]。本研究通過整合TCGA中46例CAC患者的mRNAs表達(dá)和生存數(shù)據(jù),使用R軟件進(jìn)行單因素Cox、Lasso、多因素Cox逐步回歸分析,構(gòu)建預(yù)后評估準(zhǔn)確度較高的分子模型,經(jīng)模型評價預(yù)測準(zhǔn)確性高,C-指數(shù)為0.95,3年生存率的AUC為0.950 1,5年生存率的AUC為0.949 7,其中ANKRD53、CILP、GLIPR2、MYH13可作為CAC患者預(yù)后評估的獨立影響因素,可初步篩選預(yù)后不良需進(jìn)一步行預(yù)防性靶向干預(yù)的患者。
目前,宮頸腺癌的分子靶向治療研究主要集中在探索可以作為患者預(yù)后標(biāo)志物和治療靶標(biāo)的潛在基因。近年來,高通量測序技術(shù)已廣泛應(yīng)用于CAC的基因分析,TCGA數(shù)據(jù)庫31例CAC患者的體細(xì)胞突變數(shù)據(jù)顯示,90.32%的CAC組織樣本存在體細(xì)胞突變,涉及17 342個基因的8 867個染色體突變。基因突變與CAC患者預(yù)后密切相關(guān)。Jiang等[13]發(fā)現(xiàn),宮頸腺癌較鱗癌具有更高的KRAS非同義突變率和更短的無復(fù)發(fā)生存期。精準(zhǔn)靶向性干預(yù)異?;蚩捎行Ц纳艭AC治療效果。Takiguchi等[14]進(jìn)行蛋白質(zhì)印跡分析發(fā)現(xiàn),Src基因在CAC細(xì)胞系(Hela和TCO-2)中高表達(dá),使用比色法測定活細(xì)胞計數(shù)發(fā)現(xiàn),Src抑制劑聯(lián)合化療藥可顯著抑制CAC細(xì)胞生長增殖。Akimoto等[15]也發(fā)現(xiàn)claudin-1在宮頸腺癌呈高表達(dá),敲除claudin-1可誘導(dǎo)細(xì)胞凋亡,顯著抑制CAC細(xì)胞的增殖、遷移和侵襲。本研究通過分析高通量測序得到的CAC全基因組表達(dá)網(wǎng)絡(luò),篩選出高度異常表達(dá)的mRNAs譜,結(jié)合患者生存數(shù)據(jù),獲取與CAC患者預(yù)后高度相關(guān)的新型分子標(biāo)記構(gòu)建生存預(yù)測模型,并通過對比模型mRNAs與全基因組的表達(dá)數(shù)據(jù),進(jìn)行模型mRNAs的癌癥和效應(yīng)特征基因富集分析,探索模型mRNAs在CAC中的作用機制及模型mRNAs之間的相互關(guān)系。癌癥特征基因集分析發(fā)現(xiàn),5個模型mRNAs共存在33個共同顯著相關(guān)的癌癥特征基因集,其中VEGF_A_UP.V1_UP基因集與4個模型mRNAs均顯著相關(guān),8個基因集分別與3個模型mRNAs顯著相關(guān),24個基因集分別與2個模型mRNAs顯著相關(guān)。ANKRD53、CILP、CPQ和GLIPR2等4個模型mRNAs在癌癥特征方面的聯(lián)系更加緊密,與VEGF_A_UP.V1_UP基因集均顯著相關(guān)。MYH13主要通過CPQ與ANKRD53、CILP和GLIPR2發(fā)生聯(lián)系。效應(yīng)特征基因集分析發(fā)現(xiàn),5個模型mRNAs共存在9個共同顯著相關(guān)的效應(yīng)特征基因集,其中MYC TARGETS V1和MTORC1 SIGNALING分別與3個模型mRNAs顯著相關(guān),7個基因集分別與2個模型mRNAs顯著相關(guān)。ANKRD53、CILP、CPQ和MYH13之間聯(lián)系緊密,共存在8個相關(guān)基因集。GLIPR2主要通過CPQ與ANKRD53、CILP和MYH13發(fā)生聯(lián)系??傊┌Y和效應(yīng)特征基因集富集分析顯示,5個模型mRNAs聯(lián)系緊密,主要可能通過VEGF_A_UP.V1_UP、MYC TARGETS V1和MTORC1 SIGNALING等途徑在CAC中發(fā)揮作用并影響患者預(yù)后。
綜上所述,本研究通過分析TCGA中CAC患者的mRNAs表達(dá)和臨床數(shù)據(jù)集,構(gòu)建預(yù)后評估準(zhǔn)確度較高的列線圖模型,用于篩選預(yù)后不良需進(jìn)一步干預(yù)的患者,結(jié)合癌癥和效應(yīng)特征基因集富集分析,探索模型mRNAs在CAC中的作用機制及模型mRNA之間的相互關(guān)系,從而為CAC患者精準(zhǔn)靶向性個體化治療和預(yù)后評估提供新的線索。
(致謝:大連醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院全昱沖碩士在實施R軟件分析中的指導(dǎo),謹(jǐn)此致謝)
利益沖突:所有作者聲明無利益沖突
作者貢獻(xiàn)聲明
張釵紅:課題設(shè)計、實施,數(shù)據(jù)分析,論文撰寫;關(guān)德鳳:資料收集、數(shù)據(jù)核對;楊永秀:論文審核