趙軍 劉麗娜
中圖分類號:R739.8 文獻標志碼:A doi:10.3969/j.issn.1001-3733.2021.06.018
口腔癌是世界上第六大常見惡性腫瘤,死亡率高,預(yù)后差??谇击[狀細胞癌(oral squamous cell carcinoma,OSCC)是口腔癌的主要病理類型,約占口腔癌的90%,可發(fā)生于口腔的不同部位,如舌、牙齦、口腔黏膜、硬腭、嘴唇和口腔底[1]。盡管外科手術(shù)、放化療和免疫治療取得了一定的進展,但由于其侵襲、轉(zhuǎn)移和復(fù)發(fā),OSCC的5年生存率只有大約50%。OSCC可以早期預(yù)防和治愈,但大多數(shù)OSCC患者直到晚期才被確診[2-3]。因此,尋找潛在的生物標志物對口腔鱗狀細胞癌的早期診斷和治療迫在眉睫。
目前,在高通量實驗方法中,如微陣列分析已廣泛應(yīng)用于差異表達基因分析[4-5]。大量的微陣列數(shù)據(jù)被存儲在公共數(shù)據(jù)庫中。這些儲存庫便于研究人員通過整合多個微陣列數(shù)據(jù)集來識別疾病相關(guān)的生物標志物,有助于理解OSCC形成的分子機制。有學(xué)者利用SEER數(shù)據(jù)庫分析影響腺樣囊性癌患者預(yù)后的臨床病例因素[6]。本研究中從GEO數(shù)據(jù)庫下載了3 個微陣列數(shù)據(jù)集來識別OSCC和正常對照組的差異表達基因(differentially expressed genes,DEGs), 用于尋找與OSCC發(fā)生、發(fā)展有關(guān)的關(guān)鍵基因,這些關(guān)鍵基因可能作為診斷和治療OSCC的潛在生物標志物。
從GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)下載基因表達數(shù)據(jù)集GSE74530、GSE78060和GSE138206。這3 個數(shù)據(jù)集的平臺都是GPL570(Affymetrix Human Genome U133 Plus 2.0 Array),GSE74530和GSE138206分別含有6 個OSCC樣本和6 個正常樣本,GSE78060包含26 個OSCC樣本和4 個正常樣本。微陣列數(shù)據(jù)集匯總?cè)绫?。
表1 3 個微陣列數(shù)據(jù)集的匯總信息Tab 1 Summary of the 3 microarray datasets from the GEO database
GEO2R(www.ncbi.nlm.nih.gov/geo/geo2r/)在線分析工具可用于通過比較兩組或多組樣本來識別DEGs。使用GEO2R對OSCC樣本和正常樣本間的DEGs進行分析,篩選標準是P<0.01和|logFC|>1,并對DEGs用火山圖可視化。隨后用維恩圖在線工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)確定3 個數(shù)據(jù)集中共同上調(diào)和下調(diào)的DEGs。
DAVID(https://david.ncifcrf.gov/)在線分析工具可以為大規(guī)?;蚧虻鞍踪|(zhì)提供全面的生物功能注釋信息?;虮倔w論(gene ontology,GO)包括生物過程(gene process,BP)、分子功能(molecular function,MF)和細胞成分(cellular component,CC)。京都基因和基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)數(shù)據(jù)庫從基因組測序和其他高通量實驗技術(shù)生成的大規(guī)模分子數(shù)據(jù)集中了解生物系統(tǒng)的高級功能和效用。利用DAVID對DEGs進行GO功能和KEGG通路富集分析,P<0.05認為具有統(tǒng)計學(xué)意義。
STRING(https://string-db.org)在線數(shù)據(jù)庫用于搜索已知蛋白質(zhì)和預(yù)測蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI), 包括蛋白質(zhì)之間的直接物理相互作用和間接功能相關(guān)性。DEGs的PPI分析采用STRING數(shù)據(jù)庫,置信度≥0.4,結(jié)果用Cytoscape軟件進行分析和可視化。此外,利用Cytoscape的cytoHubba插件計算每個蛋白節(jié)點的連接度,排名前10的基因被鑒定為hub基因。
UCLCAN(https://ualcan.path.uab.edu/index.html)是一個基于TCGA數(shù)據(jù)庫的分析和挖掘癌癥數(shù)據(jù)的網(wǎng)站工具。通過UCLCAN驗證hub基因的表達,P<0.05被認為具有統(tǒng)計學(xué)意義。
Kaplan-Meier plotter(http://kmplot.com/analysis/)在線的腫瘤分析工具中可以獲得基因表達與多種癌癥患者的生存率相關(guān)的信息。采用Kaplan-Meier對OSCC中hub基因表達的生存狀態(tài)進行分析驗證,P<0.05認為具有統(tǒng)計學(xué)意義。
從GSE74530中獲得2 783 個DEGs,包括2 009 個上調(diào)基因和774 個下調(diào)基因。在GSE78060中,鑒定出2 774 個DEGs,包括1 115 個上調(diào)基因和1 659 個下調(diào)基因。從GSE 138206中共鑒定出1 265 個DEGs,包括569 個上調(diào)基因和696 個下調(diào)基因(圖1)。用維恩圖求出3 組間的重疊部分,最終得到182 個上調(diào)DEGs和75 個下調(diào)DEGs(圖2)。
圖1 3 個數(shù)據(jù)集中OSCC組織與正常組織之間DEGs的火山圖
圖2 3 個數(shù)據(jù)集中共有的DEGs的韋恩圖
2.2.1 上調(diào)DEGs的GO和KEGG富集分析 BP分析表明,DEGs主要富集細胞外基質(zhì)組織、細胞黏附、膠原分解代謝、血管生成和細胞外基質(zhì)分解。在CC中,DEGs主要分布在胞外區(qū)、胞外體、胞外間隙、細胞外基質(zhì)和蛋白質(zhì)類細胞外基質(zhì)。MF分析顯示,DEGs在鈣離子結(jié)合、細胞外基質(zhì)結(jié)構(gòu)成分、膠原結(jié)合、金屬內(nèi)肽酶活性和血小板源性生長因子結(jié)合等方面均顯著富集。另外,KEGG途徑分析表明,DEGs主要集中在細胞外基質(zhì)受體相互作用、PI3K-Akt信號通路、局灶性粘附、阿米巴病、蛋白質(zhì)消化吸收等方面。
2.2.2 下調(diào)DEGs的GO和KEGG富集分析 BP分析表明,DEGs主要富集凋亡過程的陽性調(diào)節(jié)、細胞-底物粘附的陽性調(diào)節(jié)、突觸組裝的陽性調(diào)節(jié)、跨膜受體蛋白酪氨酸激酶信號通路、CD4陽性、α-βT細胞分化。在CC中,DEGs主要集中在細胞外體、蛋白質(zhì)類細胞外基質(zhì)、細胞外基質(zhì)中。MF分析顯示,DEGs在肝素結(jié)合中明顯富集。此外,KEGG途徑分析表明,DEGs主要富集于脂肪酸降解、纈氨酸、亮氨酸和異亮氨酸降解。
用STRING數(shù)據(jù)庫構(gòu)建了DEGs的PPI網(wǎng)絡(luò),包括247 個節(jié)點和1 132 個邊,有10 個基因沒有被發(fā)現(xiàn)。Cytoscape顯示的結(jié)果如圖3,根據(jù)蛋白節(jié)點的連接度得分,前10 位的hub基因分別為FN1、COL1A1、COL1A2、COL3A1、CD44、COL4A1、COL5A1、CXCL8、POSTN和CXCL10(表2)。所有這些hub基因在OSCC樣本中均上調(diào)。
表2 連接度排名前10的基因Tab 2 Top 10 genes ranked by degree
圖3 DEGs的PPI網(wǎng)絡(luò)
除了在UALCAN數(shù)據(jù)庫中未發(fā)現(xiàn)CXCL8外,其他hub基因在OSCC樣本中的表達均顯著高于正常組織(P<0.001)(圖4)。
圖4 hub基因在口腔鱗癌組織和正常組織中的表達
FN1、CD44、COL5A1、CXCL8的高表達與OSCC患者較差的總體生存率(overall survival,OS)顯著相關(guān),而COL3A1的高表達與OSCC患者的良好OS顯著相關(guān)。然而,COL1A1、COL1A2、COL4A1、POSTN和CXCL10的表達與OSCC患者的預(yù)后無關(guān)(圖5)。
圖5 OSCC患者hub基因表達的生存分析
在全球范圍內(nèi),OSCC是一個重要的公共衛(wèi)生問題,每年約有30萬新病例被診斷[7]。盡管有研究發(fā)現(xiàn)NEK2、CCNB1等基因在OSCC的發(fā)生過程中起到一定作用[8-9],但OSCC的病理機制尚不完全清楚。為了進一步探索OSCC發(fā)病機制,本文從GEO數(shù)據(jù)庫中下載OSCC樣本和正常組織樣本的基因表達數(shù)據(jù),通過GEO2R在線分析,成功挖掘到差異表達的基因,用STRING數(shù)據(jù)庫構(gòu)建了差異表達基因的PPI網(wǎng)絡(luò),同時,用Cytoscape軟件尋找hub基因,最后通過UALCAN基因表達驗證以及通過Kaplan-Meier plotter生存分析驗證,最終獲得了FN1、COL3A1、COL5A1、CD44和CXCL8等5 個hub基因。
FN1屬于細胞外基質(zhì)的糖蛋白家族,已被證明參與細胞粘附和遷移過程[10]。據(jù)報道, FN1的過度表達與OSCC侵襲有關(guān),并且與較差的預(yù)后有關(guān)[11-12]。這與此文研究結(jié)果一致。COL3A1編碼III型膠原的pro-alpha1鏈。有研究表明COL3A1與腫瘤有關(guān),高表達的COL3A1意味著較差的預(yù)后[13]。然而,在本研究中,COL3A1的高表達是OSCC的一個有利的預(yù)后因素。目前,在OSCC中對COL3A1的研究較少,因此,對COL3A1的分子機理還有待進一步研究。COL5A1可以編碼V型膠原的α鏈。已有研究表明COL5A1與胃癌、乳腺癌有關(guān),是腫瘤發(fā)生、發(fā)展和預(yù)后的不利因素[14-15]。然而,COL5A1在OSCC中的研究鮮有報道。在本研究中,COL5A1在OSCC中高表達,且高表達是OSCC患者的負面預(yù)后因素。CD44屬于細胞表面糖蛋白家族,參與細胞與細胞的相互作用、細胞粘附和遷移。研究表明高表達的CD44參與了對化療誘導(dǎo)的細胞凋亡的抵抗,這可能導(dǎo)致OSCC復(fù)發(fā)[16-17]。本研究發(fā)現(xiàn)CD44在OSCC中的表達明顯高于正常組織,并且CD44高表達患者的生存率較差。CXCL8編碼的蛋白質(zhì)屬于參與炎癥反應(yīng)的CXC趨化因子家族。CXCL8/CXCL8R軸在人類癌癥中具有負作用,并可通過各種方式導(dǎo)致腫瘤的進展[18-19]。有研究證明,CXCL8與其受體CXCR2結(jié)合與OSCC的進展有關(guān)[20]。本研究發(fā)現(xiàn)高水平的CXCL8與OSCC患者的陰性預(yù)后有關(guān)。
綜上所述,本研究從GEO 公共數(shù)據(jù)庫下載OSCC表達譜芯片數(shù)據(jù),在樣本量相對充足的情況下,篩選OSCC組織和正常組織之間DEGs,并最終確定了與OSCC預(yù)后密切相關(guān)的hub基因。根據(jù)以上內(nèi)容,通過生物信息學(xué)的方法獲得的結(jié)果,具有一定的可靠性,如FN1、CD44和CXCL8在OSCC的研究中已有一些報道,而且本研究的結(jié)果和之前的研究結(jié)果是一致的。然而COL3A1和COL5A1在OSCC 研究中,鮮有報道,后續(xù)需要進一步通過相關(guān)實驗對其進行驗證。