林詩晗 鄒璐寧 林雪梅 劉熠娟 葛欣婷 李遙遙 傅升 呂紅兵
頭頸癌是最常見的癌癥之一,鱗狀細胞癌占頭頸癌病例的90%以上[1],口腔則是頭頸部區(qū)域鱗狀細胞癌最常見的部位??谇击[狀細胞癌(oral squamous cell carcinoma, OSCC)的病因包括吸煙、飲酒等[2],研究表明,各期OSCC五年生存率約為50%~60%[3-5]。如果患者出現(xiàn)淋巴結(jié)轉(zhuǎn)移或遠處轉(zhuǎn)移,總生存率更低[6],在過去的十幾年里沒有明顯的改變。基因(DNA或RNA)甲基化作為表觀遺傳機制之一,在基因穩(wěn)定和基因表達中起重要作用[7]。異常甲基化可能是導(dǎo)致腫瘤基因功能喪失的重要機制[8]。長鏈非編碼RNA(long non-coding RNA, lncRNA)是一類長度大于200 nt的非編碼RNA,研究顯示,lncRNA可能是癌癥中表觀遺傳失調(diào)的靶標[9]。鑒于OSCC的發(fā)生發(fā)展受多層面的調(diào)控,因此,多方位闡明OSCC發(fā)生發(fā)展的相關(guān)機制,探討lncRNA異常甲基化及其生物學(xué)作用,是為OSCC診斷和預(yù)后判斷提供潛在生物標志物的臨床新策略。
從TCGA數(shù)據(jù)庫(https://portal.gdc.cancer.gov/)下載OSCC腫瘤組織和癌旁正常組織的甲基化數(shù)據(jù)和相應(yīng)的臨床信息,Illumina Human Methylation 450K BeadChip芯片用于獲得基因甲基化數(shù)據(jù)。從GEO數(shù)據(jù)庫(www.ncbi.nlm.nih.gov/geo/)下載GSE87053芯片對基因甲基化數(shù)據(jù)進行進一步驗證和篩選。通過R軟件的ChAMP包篩選差異甲基化位點(|Δβ|> 0.10,P<0.05,adj.P<0.05)。
從TCGA數(shù)據(jù)庫獲取OSCC的轉(zhuǎn)錄數(shù)據(jù)和臨床信息,該數(shù)據(jù)由mRNA和lncRNA表達譜組成。使用R3.6.0的DeSeq2軟件包(http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html)篩選差異表達lncRNA和mRNA(P<0.05,adj.P<0.05,倍數(shù)>2)。
通過 GENCODE 28V 探針對TCGA數(shù)據(jù)庫獲得的數(shù)據(jù)進行甲基化注釋,包括轉(zhuǎn)錄起始點(TSS)和基因編碼區(qū)(body)。將差異表達的lncRNA和甲基化數(shù)據(jù)聯(lián)合分析,選擇甲基化與表達相反的lncRNA為候選基因: (1)低甲基化、高表達; (2)高甲基化、低表達。對lncRNA和差異甲基化位點進行Cox回歸分析及GSE52793芯片驗證,獲得與預(yù)后相關(guān)lncRNA(P<0.05)。使用X-tile software version 3.6.1(耶魯大學(xué),康涅狄格州紐黑文,美國)確定最佳臨界值,將患者分為高甲基化組和低甲基化組。
使用 Kaplan-Meier Plotter 數(shù)據(jù)庫(https://km-plot.com/analysis)預(yù)測高甲基化組和低甲基化組的總生存期(OS)。單因素和多因素分析用于識別潛在的生物標志物。繪制3 年和5 年ROC曲線評估預(yù)后相關(guān)lncRNA的生物學(xué)性能。
統(tǒng)計分析和繪圖使用R(v.3.6.0)軟件。Kaplan-Meier用于生存分析;在3年和5年的生存數(shù)據(jù)中,通過區(qū)分曲線所產(chǎn)生的曲線下面積(AUC),從而評估基因的預(yù)后相關(guān)性;Cox回歸模型用于單因素和多因素分析。對于所有統(tǒng)計方法,P<0.05被認為具有顯著差異。
研究從TCGA數(shù)據(jù)庫獲得346 例腫瘤組織和50 例癌旁正常組織的數(shù)據(jù),從GEO數(shù)據(jù)庫獲得11 例腫瘤組織和10 例癌旁正常組織的數(shù)據(jù)?;跀?shù)據(jù)庫分析,篩選出OSCC中93 746 個(TCGA)和60 885 個(GEO)差異甲基化位點(圖 1)。另外,與正常組織相比,OSCC中總共有13 964 個lncRNA和mRNA具有顯著差異表。
通過檢測位于轉(zhuǎn)錄起始點(TSS)和基因編碼區(qū)(body)的位點,TSS有5 213 個, body有14 233 個差異甲基化位點,將重復(fù)數(shù)據(jù)刪除后共獲得3 696 個獨立位點。將3 696 個位點與GEO數(shù)據(jù)庫中獲得的60 885 個位點進行比對,獲得1 522 個差異甲基化位點,其中1 521 個位點在兩個數(shù)據(jù)庫中顯示出一致的趨勢。甲基化與表達相反的lncRNA為1 282 個。單變量Cox回歸分析顯示, 53 個lncRNA具有預(yù)后意義?;?3 個lncRNA的多變量Cox回歸分析及GSE52793芯片的預(yù)后信息,確認4 個lncRNA具有統(tǒng)計學(xué)意義(P<0.05):SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1(圖 2)。
圖 1 口腔鱗狀細胞癌與正常組織的差異甲基化位點
圖 2 SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1在癌組織和正常組織中的甲基化水平
Kaplan-Meier生存分析顯示,基于TCGA數(shù)據(jù)庫,SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1甲基化水平較高的患者(high expression)比較低的患者(low expression)具有更好的生存率,使用GEO數(shù)據(jù)庫驗證出現(xiàn)相同的情況(圖 3)。ROC曲線顯示,在3 年生存分析中AL445250.1的敏感性和特異性最高,在5 年中SFTA1P最高(圖 4)。單因素分析顯示這4 個lncRNA與患者生存率顯著相關(guān)。
圖 3 口腔鱗狀細胞癌患者總生存期
圖 4 SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1甲基化判斷口腔鱗狀細胞癌3年和5年生存率的ROC曲線分析
多因素分析發(fā)現(xiàn),AL049775.2、TNM分期和年齡是獨立的預(yù)后指標,與患者生存率顯著相關(guān)(表 1)。
表 1 影響口腔鱗狀細胞癌預(yù)后單因素和多因素分析
OSCC患者長期生存不佳及有效判斷預(yù)后工具的匱乏,迫切需要具有理想預(yù)測能力的新型標志物以幫助癌癥的治療和預(yù)后的管理。近年來,越來越多的證據(jù)表明,lncRNA在癌癥中發(fā)揮著重要作用[10]。lncRNA甲基化通過改變?nèi)旧|(zhì)結(jié)構(gòu)、DNA構(gòu)象、DNA穩(wěn)定性等修飾DNA序列,進一步控制基因表達,參與各類癌癥的發(fā)生發(fā)展[11]。有研究表明,MEG3高甲基化通過影響細胞遷移和增殖促進胃癌的發(fā)展[12]。Wang等也通過表觀遺傳數(shù)據(jù)成功驗證了在癌癥中差異表達的lncRNA受基因甲基化水平調(diào)控[13]。
本研究通過分析基因甲基化芯片和表達譜數(shù)據(jù),發(fā)現(xiàn)4個基因的甲基化水平對OSCC有重要的影響:SFTA1P,AL049775.2,AL445250.1和KCNMB2-AS1。它們可能成為評估OSCC患者預(yù)后的新型生物標志物。
目前,有研究發(fā)現(xiàn),LINC00475,LINC01352,MIR503HG和LINC01143共同組成風(fēng)險評估模型時,可以作為生物標志物指導(dǎo)患者的個性化治療,為當(dāng)前的臨床策略增加預(yù)后評估價值[14]。AL049775.2,AL445250.1,KCNMB2-AS1和SFTA1P似乎也可以一起作為OSCC臨床預(yù)后評估系統(tǒng),但尚需進一步證實。
在本研究中,與正常組織相比,OSCC中SFTA1P的甲基化水平明顯降低,SFTA1P高甲基化組患者的總生存期顯著高于低甲基化組。另外,SFTA1P的異常甲基化區(qū)域位于轉(zhuǎn)錄起始位點,其可能與OSCC具有更好的相關(guān)性。研究表明,在OSCC中,P15和P16這兩個抑癌基因的啟動子甲基化狀態(tài)可能是早期癌變的標志物[15];MEG3的過表達受DNA甲基化影響,抑制癌細胞的增殖和轉(zhuǎn)移[16]。然而,目前尚未見報道SFTA1P的甲基化水平是否影響OSCC的進展。
綜上,這4個lncRNA的甲基化水平可能成為生物標志物,為OSCC的預(yù)后提供一個新的搜索平臺。然而,本研究還存在一定的局限性。首先,數(shù)據(jù)來自TCGA和GEO數(shù)據(jù)庫,樣本僅限于某些種族;其次,本研究未經(jīng)臨床樣本和實驗研究的驗證,以上所有結(jié)果還需通過一系列分子生物學(xué)實驗驗證。