謝成茂,范琳媛
(首都醫(yī)科大學附屬北京婦產醫(yī)院/北京婦幼保健院婦科,北京 100026)
子宮肌瘤(uterine myoma,UM)是女性常見的良性腫瘤,可導致患者盆腔受壓、異常子宮出血、疼痛或生育能力喪失等,嚴重威脅女性健康[1]。子宮肌瘤的治療措施主要為藥物和手術治療,藥物治療效果良好,但停藥后肌瘤復發(fā)幾率高,臨床癥狀反復出現(xiàn)[2]。手術治療主要是子宮肌瘤剔除或子宮切除,是臨床治療中應用較廣的一種方法,但術后殘余幾率大、復發(fā)風險高、創(chuàng)傷大、出血多,可能對生育造成不良影響[3]。近年研究發(fā)現(xiàn),子宮肌瘤的發(fā)病率明顯增高,但其發(fā)病機制并不明確。因此,探索子宮肌瘤發(fā)病的關鍵基因和通路對子宮肌瘤的診療具有重要意義。近年來,生物信息學方法為在分子水平上研究各種疾病的分子機制提供了新的思路。本研究通過收集GEO(Gene Expression Omnibus)數據庫中子宮肌瘤的芯片數據,對子宮肌瘤發(fā)生發(fā)展的相關基因進行挖掘,并進行生物信息學分析,以期為子宮肌瘤發(fā)生發(fā)展與早期診斷治療提供新的方向。
1.1 數據檢索及標本收集 以“Uterine myoma”為關鍵詞在GEO數據庫中檢索與UM相關的基因表達譜數據集。最終選取由Hoffman等[3]提供的GSE593,其標本分為兩組:子宮平滑肌瘤組織:GSM9093-GSM9097;正常子宮肌層組織:GSM9098-GSM9102。選取2019年1月至2020年12月因確診為子宮肌瘤在首都醫(yī)科大學附屬北京婦產醫(yī)院就診且行全子宮切除的30例患者,術中采集部分子宮肌瘤及瘤旁正常組織,經液氮快速冷凍,-80℃冰箱保存。本研究已獲得患者及家屬知情同意并經醫(yī)院倫理委員會審核通過。
1.2 篩選差異基因 應用R軟件對差異表達基因進行篩選,篩選標準為logFoldChange>1且adjustP<0.05。
1.3 差異基因的生物信息學分析 應用R軟件對篩選出的差異基因進行功能富集分析(Gene Ontology,GO)及通路富集分析(KEGG),并對相關基因進行GO與KEGG注釋。將篩選出的差異基因輸入STRING數據庫,找出差異基因對應蛋白之間的可能互作關系,并構建相互作用網絡結構圖(protein-protein interaction,PPI)。應用Cytoscope將富集的通路進行可視化。研究中應用的R軟件包主要有:GEO query,reshape2,DESeq2,limma,Affy,ggplot2,pheatmap,topGo,Rgraphviz,pathview,clusterPro-filer,org.Hs.eg.db,enrichplot,Cytoscape3.7.2。
1.4 GSE593差異基因結果驗證 從芯片數據GSE593分析得到的結果中篩選出4個差異基因KDR、VEGFA、PIK3R1及PRKCB。收集子宮肌瘤及瘤旁組織樣本各30例,RT-PCR及Western blot法檢測這4個基因表達情況,對芯片結果進行驗證。KDR上游引物5'-TTCTGACTGCACAAACCAGCTTC-3',下游引物5'-TTTGACACCACACACAGCTTCAC-3';VEGFA上游引物5'-AAGATCCGCAGACGTGTAAATGTT-3',下游引物5'-CGGCTTGTCACATGCAAGTA-3';PIK3R1上游引物5'-AGCAACCTGGCAGAATTACG-3',下游引物5'-GCTGCTGGAATGACAGGATT-3';PRKCB上游引物5'-ATCGCCCCCGAGATAATTGC-3',下游引物5'-GGATAGCGGGTGAAAAATCG-3'(北京梓熙)。采用RT-PCR試劑盒(購自美國Invitrogen公司),按實驗步驟實行實時熒光定量PCR測定KDR、VEGFA、PIK3R1及PRKCB基因的mRNA表達水平。Western blot法對KDR、VEGFA、PIK3R1及PRKCB基因的蛋白表達水平進行驗證,所用一抗包括Anti-KDR抗體(Ab134191)、Anti-VEGFA抗體(Ab1316)、Anti-PIK3R1抗體(Ab182651)、Anti-PRKCB抗體(Ab195039),均購自美國Abcam公司;二抗試劑盒(生物素標記羊抗小鼠IgG及生物素標記羊抗兔IgG)購自北京中杉金橋。實驗組15例;對照組15例。
2.1 樣本標準化處理 對選取的芯片數據進行背景矯正及標準化處理,篩選差異基因。GSE593芯片中原始探針數據(CEL文件)的分析應用穩(wěn)固多陣列平均算法(robust multiarray average algorithm,RMA)在R軟件中進行分析(Affy包),各探針表達的均值即為該基因的表達值。
2.2 差異基因的篩選 對GSE593進行分析篩選,最終篩選出差異基因共172個,其中高表達72個,低表達100個。差異超過4倍且P<0.01的基因為后續(xù)研究對象,根據所得結果的分布繪制火山圖(圖1)。上調或下調前20的基因,見表1。對所有差異基因行聚類分析,探索不同差異基因的潛在共同特征。
圖1 GSE593數據集差異表達基因的篩選紅色為上調,綠色為下調,黑色為無統(tǒng)計學意義差異基因
表1 差異表達最明顯的前20位基因
2.3 GO功能富集分析 對差異基因進行GO功能富集分析后發(fā)現(xiàn),篩選出的差異基因在細胞組分(cellular component,CC)層面主要富集于細胞外間隙、細胞外基質、細胞外基質蛋白等;在生物學過程(biological process,BP)方面主要集中于RNA聚合酶Ⅱ啟動子轉錄的負調控、血管生成、促細胞成熟等;而在分子功能(molecular function,MF)方面,篩選出的差異基因主要富集于整合素結合、蛋白質結合等(圖2A)。差異前50個基因主要富集于蛋白質結合、RNA聚合酶Ⅱ啟動子轉錄的負調控等9個方面(圖2B)。
圖2 GSE593差異表達基因的GO富集分析及前50基因的富集分析結果A:差異基因的GO分析結果;B:差異基因前50的GO分析結果
2.4 差異基因間PPI網絡分析 應用String數據庫將篩選出的172個差異基因編碼的蛋白進行PPI分析。結果顯示,這些差異基因之間存在廣泛的蛋白相互作用,如VEGF與PIK3R1、EGR1、FLT1、PRKCB及KDR,ATF3與SERPINF1,ANXA1與EMP1,FOS與BCL6等之間均存在較為密切的相互作用(圖3,無相互作用蛋白已隱藏)。
圖3 GSE593差異表達基因PPI網絡分析
2.5 KEGG信號通路的富集 對GSE593差異基因進行KEGG信號通路富集分析并進行可視化,結果顯示篩選出來的差異基因參與的主要信號通路富集于流體剪切應力與動脈粥樣硬化信號通路、糖尿病并發(fā)癥中的AGE-RAGE信號通路、黏著斑激酶信號通路以及EGFR酪氨酸激酶抑制劑耐藥性信號通路等。表明在子宮肌瘤的發(fā)生發(fā)展過程有復雜多樣的信號通路參與調控(圖4A)。應用Cytoscape軟件對差異基因富集信號通路進行可視化分析。發(fā)現(xiàn)篩選出的差異基因富集的信號通路網絡龐大,結構復雜,通路之間存在多種交叉因子(圖4B、表2)。表明這些通路之間可相互影響,在子宮肌瘤發(fā)病過程中發(fā)揮著極其復雜的作用。
圖4 GSE593差異表達基因KEGG信號通路富集分析及可視化A:差異表達基因KEGG信號通路富集分析;B:差異表達基因KEGG信號通路富集分析可視化(紅色:表達升高;綠色:表達降低;藍色:信號通路)
表2 KEGG信號通路富集分析
2.6 GSE593差異基因驗證結果 RT-PCR及Western blot結果顯示,子宮肌瘤組織中PIK3R1及PRKCB表達水平明顯高于對照組,KDR及VEGFA表達水平則低于對照組,與芯片結果完全一致,進一步驗證了芯片數據GSE593的結果真實可靠。見圖5。
圖5 GSE593差異基因結果的RT-PCR及Western blot驗證結果A:RT-PCR法檢測;B、C:Western blot法檢測;**P<0.01
根據生長部位不同,子宮肌瘤分為漿膜下肌瘤、黏膜下肌瘤及肌壁間肌瘤,??蓪е禄颊叱霈F(xiàn)異常子宮出血、盆腔疼痛、尿頻及便秘等壓迫癥狀,以及不孕、流產或早產等,嚴重影響女性生活質量[4-5]。根據流行病學研究顯示,子宮肌瘤的發(fā)病具有明顯的種族差異和家族聚集性,子宮肌瘤患者的直系親屬發(fā)病率明顯高于普通人群[6-8]。子宮肌瘤的發(fā)生發(fā)展是一個多基因、多通路參與的復雜過程。目前關于子宮肌瘤發(fā)病機制有多種理論,其中被廣泛接受的理論是高水平的雌激素、孕激素促使子宮肌瘤的形成和發(fā)展,即子宮肌瘤被認為是一種卵巢性激素依賴性腫瘤,然而其確切病因及機制并不明確[9]。
子宮肌瘤由異常的子宮平滑肌細胞和成纖維細胞組成,周圍有大量的細胞外基質,包括膠原蛋白、纖維連接蛋白、層粘連蛋白和蛋白多糖,其最重要的特點是其生長趨勢取決于肌瘤的位置,并可導致特定的臨床癥狀[10-11]。研究顯示,大的子宮肌瘤生長緩慢,而非常小的子宮肌瘤生長迅速[12]。子宮肌瘤的發(fā)病過程可分為兩個步驟:轉化和腫瘤形成[13]。正常子宮平滑肌細胞向異常子宮平滑肌細胞的轉化主要通過介體復合物亞單位12(MED12)和高遷移率蛋白AT-hook 2(HMGA2)的突變發(fā)生[14-15]。干細胞主要在激素的影響下轉化并生長為子宮肌瘤,而肌瘤的生長是通過大量的細胞擴張和細胞外基質積累實現(xiàn)的[16]。子宮肌瘤細胞依賴于激素刺激,特別是雌激素和孕酮?,F(xiàn)有數據表明,孕酮在子宮肌瘤的發(fā)病中起著重要的作用[17]。盡管目前研究主要集中于子宮肌瘤的發(fā)生發(fā)展與激素之間的關系,但是不能忽視這一過程中涉及的其他重要途徑,因為激素不是導致子宮肌瘤發(fā)展的唯一因素[18-19]。復雜的信號通路改變對子宮肌瘤的發(fā)展至關重要,但子宮肌瘤的確切生物學基礎尚不清楚。子宮肌瘤的病理生理學主要集中在類固醇和其他激素。然而,還有其他非常重要的途徑,它們不僅依賴于激素[20]。
本研究中通過GEO數據庫得到子宮肌瘤芯片數據GSE593,分析發(fā)現(xiàn)子宮肌瘤組織與正常子宮肌層組織相比差異表達基因172個,其中表達上調72個,表達下調100個。進一步對差異基因進行GO及KEGG富集分析發(fā)現(xiàn),這些差異基因具有眾多生物學功能并參與多條信號通路,進而影響子宮肌瘤的發(fā)生發(fā)展。從其差異基因中挑選出4個基因進行結果驗證,與芯片結果完全一致,表明GSE593芯片結果真實可靠。血管內皮生長因子(vascular endothelial growth factor,VEGF)是一種對血管生長有極強誘導作用的生長因子,與血管內皮細胞上的受體高親和力結合后可作為內皮細胞特異性有絲分裂原誘導內皮細胞增生毛細血管袢形成,刺激血管內皮細胞增殖,加速血管生成,誘導子宮肌瘤的生長[21-22]。磷脂酰肌醇-3激酶調節(jié)亞基1(phosphoinositide-3-kinase regulatory subunit 1,PIK3R1)是細胞應答并且傳遞細胞間信號的重要協(xié)調者,與腫瘤的發(fā)生發(fā)展密切相關,但目前關于PIK3R1與子宮肌瘤之間關系的研究很少[23-26]。子宮肌瘤組織中蛋白激酶C-β(protein kinase C beta,PRKCB)分子量為67~83kDa,屬于絲氨酸激酶家族中的單鏈多肽家族,編碼PKC-βI、PKC-βII,定位于16p11.2,全長約375kb[27]。PRKCB在細胞內定位于線粒體,這種激酶與線粒體完整性和氧化磷酸化的調節(jié)有關[28-30]。線粒體是細胞的主要能量產生者,被認為是多種細胞死亡途徑的關鍵參與者和傳感器,若其功能失調可導致多種疾病的發(fā)生發(fā)展[31-33]。目前關于PRKCB與子宮肌瘤之間的關系及其在子宮肌瘤發(fā)生發(fā)展過程中的作用未見相關文獻報道,需進一步研究證實。血管內皮生長因子受體-2(kinase insert domain receptor,KDR)是VEGFA的主要受體,不僅在血管內皮細胞表達,在某些腫瘤細胞中也有廣泛表達,KDR高表達的腫瘤患者預后較差[24-26]。KDR可與VEGFA結合形成VEGF-R復合物,使肌瘤血管內皮細胞對VEGFA敏感性增強,促進肌瘤中血管生長,增加肌瘤血運,進而促進肌瘤生長[34]。本研究結果顯示,子宮肌瘤組織中VEGFA及KDR表達量低于瘤旁組織,這可能是因納入的數據集及樣本量偏小,同時因個體差異所致。后續(xù)將繼續(xù)擴大樣本量及數據集,進一步探索VEGFA及KDR與子宮肌瘤之間的關系。
總之,通過對GEO數據庫子宮肌瘤芯片數據集進行生物信息學分析、挖掘,篩選出子宮肌瘤發(fā)生發(fā)展過程中表達差異的基因及相關信號通路,其中PRKCB基因及其編碼蛋白可能在子宮肌瘤發(fā)病過程中發(fā)揮著重要作用。數據挖掘及生物信息學分析在疾病發(fā)病機制的探索、療效評價及預后預測方面具有應用價值,可為疾病的診療提供新的思路。