(青島大學醫(yī)學部基礎醫(yī)學院慢病研究院,山東 青島 266071)
卵巢漿液性囊腺癌(OV)是比良性漿液性囊腺瘤和交界性漿液性囊腺瘤(SBT)嚴重的一種卵巢上皮性癌亞型[1]。根據(jù)美國KURMAN教授提出的卵巢癌“二元模型”理論,可以將OV分為兩種類型:Ⅰ型的低級別漿液性囊腺癌(LGSC)和Ⅱ型的高級別漿液性囊腺癌(HGSC)[2]。目前認為,HGSC發(fā)病起源于輸卵管,與LGSC在分子學和組織學水平上存在明顯差異[3-4]。相較于LGSC,HGSC具有發(fā)病年齡較晚(55~65歲)、發(fā)病率高、生存率低、對化療藥物敏感性高且易復發(fā)等特點,因此對HGSC預后判斷和治療策略的深入研究也顯得尤為迫切。本研究運用生物信息學的方法,從GEO(Gene Expression Omnibus)數(shù)據(jù)庫獲取OV基因芯片數(shù)據(jù),從中挖掘HGSC的差異表達基因(DEGs),進行基因本體(GO)富集分析和KEGG信號通路分析,構(gòu)建蛋白質(zhì)相互作用(PPI)網(wǎng)絡,篩選出關鍵基因,并分析關鍵基因表達與HGSC預后的關系,從而為HGSC的靶向治療提供一定的理論依據(jù)。
從GEO數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/GEO/)中檢索并下載的OV相關數(shù)據(jù)集有5個(GSE10971、GSE14001、GSE18521、GSE27651、GSE12470)[5-6],其中前4個數(shù)據(jù)集對應的檢測平臺為GPL570,而最后1個數(shù)據(jù)集對應的檢測平臺為GPL887。在每個GSE數(shù)據(jù)集中,只選擇HGSC樣本以及與之匹配的正常樣本數(shù)據(jù)。其中GSE10971數(shù)據(jù)集中包含腫瘤樣本13個和正常樣本12個,GSE14001數(shù)據(jù)集中包含腫瘤樣本10個和正常樣本3個,GSE18521數(shù)據(jù)集中包含腫瘤樣本53個和正常樣本10個,GSE27651數(shù)據(jù)集中包含腫瘤樣本22個和正常樣本6個, GSE12470數(shù)據(jù)集中包含腫瘤樣本35個和正常樣本10個[7-11]。利用GEO2R (http://www.ncbi.nlm.nih.gov/geo/geo2r)分析工具進行在線分析,將結(jié)果匯總在Excel表格中,去除沒有基因名稱或基因探針以及同一個基因?qū)鄠€基因探針的數(shù)據(jù)。
使用R 3.6.2軟件(https://www.r-pro-ject.org/)中的edgeR包對數(shù)據(jù)進行標準化處理,之后對數(shù)據(jù)進行篩選。篩選標準如下:P<0.01,差異倍數(shù)logFC≥1或≤-1[12]。然后再對篩選出的DEGs進行火山圖的可視化分析。
將上一步篩選的DEGs數(shù)據(jù),按照logFC>1為上調(diào)基因的標準、logFC<-1為下調(diào)基因的標準,進行再次篩選。然后,將5個數(shù)據(jù)集中的上調(diào)基因或下調(diào)基因全部導入Bioinformatics & Evolutionary Genomics(http://bioinformatics.psb.ugent.be/webtools/Venn/)在線數(shù)據(jù)庫中,以尋找5個數(shù)據(jù)集中上調(diào)基因或著下調(diào)基因的交集[13]。
利用DAVID 6.8(Database for Annotation,Visualization and Integrated Discovery, https://david.ncifcrf.gov/)數(shù)據(jù)庫分析基因組規(guī)模數(shù)據(jù)集的生物信息,并進行基因和蛋白質(zhì)的功能信息的可視化[14]。GO分析用于分析大量注釋基因的生物學過程、分子功能及細胞組成[15]。KEGG(Kyoto Encyclopedia of Genes and Genomes)分析是從分子水平上了解基因和蛋白質(zhì)所參與的信號通路和生物學功能。GO和KEGG富集分析均以P<0.05為差異有統(tǒng)計學意義。
將全部的DEGs導入String數(shù)據(jù)庫(http://string-db.org)[16]中進行分析,以置信度≥0.4為PPI顯著。將分析結(jié)果導入Cytoscape 3.7.2軟件中進行可視化分析[17]。應用Cytoscape軟件中的cytoHubba插件從PPI網(wǎng)絡中篩選關鍵基因,選擇度定位≥12的DEGs作為關鍵基因。
通過在線生存分析工具Kaplan-Meier plotter(http://kmp lot.com/analysis/),根據(jù)上述篩選條件,按照關鍵基因排名從上至下進行生存預后分析,評估每個關鍵基因在OV中的預后意義[18]。根據(jù)基因的表達中值,將病人樣本分為兩組(高表達組和低表達組)進行分析,參數(shù)設置為默認,以P<0.05為差異有統(tǒng)計學意義。
本文從GSE18521數(shù)據(jù)集中篩選出了6 669個DEGs(共有45 118個基因),從GSE12470數(shù)據(jù)集中篩選出了6 068個DEGs(共有18 819個基因),從GSE27651數(shù)據(jù)集中篩選出了6 593個DEGs(共有45 118個基因),以及從GSE14001數(shù)據(jù)集中共篩選出了12 408 個DEGs(共有45 118個基因),從GSE10971數(shù)據(jù)集中篩選出了5 612個DEGs(共有45 118個基因),其結(jié)果通過火山圖直觀展示,紅色代表高表達基因,綠色代表低表達基因,黑色表示表達水平差異并不顯著的基因(圖1)。
進一步對5個獨立數(shù)據(jù)集進行交集分析,找出5個數(shù)據(jù)集的共同DEGs,其中表達上調(diào)基因94個(logFC>1,P<0.05),下調(diào)基因為40個(logFC<-1,P<0.05)(圖2),具體的基因名稱見表1。
圖1 從5個數(shù)據(jù)集中篩選出DEGs
圖2 上調(diào)和下調(diào)基因中的共同DEGs
表1 5個數(shù)據(jù)集中篩選出的共同上調(diào)DEGs和下調(diào)DEGs
在生物過程上,上調(diào)DEGs大多參與RNA代謝過程和其他代謝過程的調(diào)節(jié),RNA轉(zhuǎn)錄和DNA模板的調(diào)控以及分子功能調(diào)節(jié),大分子代謝過程和氮化合物代謝過程的調(diào)節(jié);而下調(diào)DEGs大多參與細胞過程、細胞蛋白質(zhì)代謝過程、蛋白質(zhì)修飾過程和蛋白質(zhì)磷酸化過程的調(diào)控(圖3A)。在細胞成分上,上調(diào)DEGs屬于細胞內(nèi)細胞器成分、膜結(jié)合細胞器成分、細胞內(nèi)膜結(jié)合細胞器成分、細胞質(zhì)成分抑或?qū)儆诩毎獬煞?;而下調(diào)DEGs分布于細胞核、細胞外基質(zhì)、細胞質(zhì)和質(zhì)膜上(圖3B)。在分子功能上,上調(diào)DEGs一般具有絲氨酸型內(nèi)肽酶活性、蛋白質(zhì)二聚活性、內(nèi)肽酶活性、微管蛋白結(jié)合和蛋白質(zhì)均聚活性等;而下調(diào)DEGs一般具有polyA結(jié)合功能和一氧化氮合酶結(jié)合功能(圖3C)。在KEGG信號通路上,上調(diào)DEGs多數(shù)參與細胞周期及細胞周期中的有絲分裂過程,細胞周期檢驗點過程,DNA修復和M期信號途徑;而下調(diào)DEGs多參與STAT信號通路、黏附斑粘連途徑、Epstein-Barr病毒感染和腫瘤信號途徑等(圖3D)。
A~C為GO分析;D為KEGG分析。
為了從系統(tǒng)角度發(fā)現(xiàn)和分析相關DEGs之間的相互作用,通過String在線數(shù)據(jù)庫分析得到5個數(shù)據(jù)集的134個DEGs之間的PPI交互網(wǎng)絡(圖4A)。在PPI網(wǎng)絡中,存在一些基因能夠與其他基因發(fā)生強的相互作用,而往往這些基因還處于PPI網(wǎng)絡中的關鍵位置,因此被稱為關鍵基因,它們也被認為是疾病發(fā)生的潛在驅(qū)動因子[19]。為找出導致HGSC發(fā)生的關鍵基因,我們使用Cytoscape軟件插件過濾出69個DEGs,再根據(jù)排名篩選出前12個關鍵基因,顏色由紅至黃,紅色越深表示關鍵基因在PPI中具有的作用越大(圖4B)。
圖4 5個數(shù)據(jù)集的交互分析及關鍵基因的篩選
通過Kaplan Meier-plotter網(wǎng)站對篩選出的12個關鍵基因進行生存預后分析,其中6個基因?qū)GSC預后有顯著影響,分別為BUB1B(r=1.20,P<0.05)、CENPF(r=1.25,P<0.05)、BIRC5(r=0.87,P<0.05)、UBE2C(r=1.15,P<0.05)、ASPM(r=1.55,P<0.05)、TOP2A(r=1.20,P<0.05)(圖5)。這些上調(diào)基因的高表達會顯著降低HGSC病人的生存率。
目前認為,LGSC由卵巢上皮性包涵體(OEI)至良性囊腺瘤再至SBT連續(xù)發(fā)展而來,而HGSC由輸卵管遠端發(fā)展而來,即使二者在起源上有相似之處,但目前普遍認為,兩種疾病在臨床上具有不同的病理特征,這意味著尋找能鑒別LGSC和HGSC的腫瘤標志物極為重要[20]。
有研究表明,50%的HGSC與DNA修復缺陷有關[21]。根據(jù)GO和KEGG富集分析,本研究顯示上調(diào)DEGs參與DNA模板的調(diào)控和DNA修復,這可以作為尋找HGSC靶基因的依據(jù)。之后通過生物信息學分析找到6個與預后顯著相關的基因,這6個基因在HGSC中都表現(xiàn)為表達上調(diào)。有研究結(jié)果表明,BUB1B基因的GLEBS結(jié)構(gòu)域?qū)χ委熌z質(zhì)母細胞瘤有重要作用,并且PTTG3P-FOXM1-BUB1B信號軸上調(diào)成為肺腺瘤的治療靶點[22-23];CENPF基因相關級聯(lián)信號軸的失調(diào)促進前列腺癌的轉(zhuǎn)移[24];BIRC5基因的高表達對淋巴瘤的細胞活力具有重要作用,使用相關藥物降低BIRC5在淋巴瘤中的表達具有潛在靶向治療作用[25];在高風險的乳癌病人中,UBE2C基因高表達者具有不良預后[26];ASPM基因可作為肝細胞癌血管侵襲、早期復發(fā)和預后不良的新型標記物[27];在早期乳癌病人中檢測到TOP2A基因表達異常[28]。目前研究發(fā)現(xiàn)BUB1B基因在高級別腫瘤疾病中的表達較高,并與長期預后有關[29],這與本研究生物信息學分析的結(jié)果一致。雖然上述基因在卵巢癌中的研究甚少,但是根據(jù)它們在其他腫瘤中的研究,我們猜測這些基因處于腫瘤信號通路的某個關鍵節(jié)點上,影響機體的正常生理功能,從而引起腫瘤的發(fā)生。
綜上所述,本研究通過對5個數(shù)據(jù)集進行生物信息學分析,挖掘出了與HGSC有關的DEGs共134個,其中與HGSC預后顯著相關的基因6個,這6個基因可能對HGSC的臨床治療及預后判斷具有潛在的指導價值,并為后續(xù)的實驗研究提供新的思路。但是,對于本研究篩選出的這些基因是否能夠有效鑒別LGSC和HGSC,還需要在今后的研究中進一步探討。