結(jié)直腸癌(Colorectal Cancer,CRC)是最常見的消化系統(tǒng)癌癥及全球第三大診斷癌癥,也是癌癥死亡的第二大原因,占全球癌癥發(fā)病率和死亡率的10%[1]。無轉(zhuǎn)移的CRC患者可以通過手術(shù)治愈,但由于早期CRC沒有明顯癥狀,導(dǎo)致超過20%的病例在診斷時已出現(xiàn)轉(zhuǎn)移,且有一半以上患者即使在完全切除原發(fā)性腫瘤后也會出現(xiàn)復(fù)發(fā)和轉(zhuǎn)移[2-3]?;贑RC的診斷和治療現(xiàn)狀,越來越多的研究開始尋求CRC的遺傳改變,通過發(fā)現(xiàn)CRC的內(nèi)在基因改變,實現(xiàn)CRC的早期診斷及靶向治療,從而有效降低其死亡率[4]。
眾所周知,CRC是一種異質(zhì)性疾病,其Hub基因的異常表達與adw 發(fā)生、進展和轉(zhuǎn)移密切相關(guān)[5]。然而,僅使用傳統(tǒng)的生物標(biāo)志物檢測方法只能發(fā)現(xiàn)很小部分的CRC相關(guān)Hub基因,且耗費大量人力、物力和財力。此外,不同實驗方法的結(jié)果并不統(tǒng)一且只有極少數(shù)量的重疊,因此極有必要尋求一種能有效和準確篩選Hub基因的新方法。
隨著計算機科學(xué)和生物信息學(xué)的發(fā)展,基于網(wǎng)絡(luò)的方法已經(jīng)成為研究致病機制的有效工具[6],其中以PPI網(wǎng)絡(luò)應(yīng)用最為廣泛。PPI網(wǎng)絡(luò)被許多研究證明其與包括基因表達、細胞生長、增殖和凋亡在內(nèi)的很多重要的生物學(xué)過程密切相關(guān)[7]。PPI異常是多種復(fù)雜疾病的基礎(chǔ),特別是與癌癥的發(fā)生和發(fā)展有關(guān)[8-9]。PPI網(wǎng)絡(luò)在癌癥生物學(xué)中具有重要作用,已成為篩選癌癥相關(guān)Hub基因的有效方法。目前已經(jīng)有研究指出,基于PPI網(wǎng)絡(luò)的方法可成功預(yù)測乳腺癌[10]、肝癌[11]以及胃癌[12]的Hub基因。
鑒于PPI網(wǎng)絡(luò)在預(yù)測Hub基因中的重要性,目前許多研究利用其預(yù)測CRC相關(guān)基因。Yongfu Xiong[13]等使用TCGA中的CRC數(shù)據(jù),運用PPI網(wǎng)絡(luò)及基因表達數(shù)據(jù),通過尋找差異表達基因(Differentially Expressed Genes,DEGs)及富集分析等方法預(yù)測CRC的Hub基因;Shasha Wu[14]等從GEO(Gene Expression Omnibus)數(shù)據(jù)庫獲得CRC相關(guān)基因及miRNA表達譜,采用GEO2R確定DEGs及差異表達的miRNA,通過PPI網(wǎng)絡(luò)和miRNA網(wǎng)絡(luò)預(yù)測CRC相關(guān)Hub基因及關(guān)鍵的miRNAs;Makondi[15]等從GEO數(shù)據(jù)庫獲得貝伐單抗抗性CRC數(shù)據(jù),通過尋找DEGs、富集分析及PPI網(wǎng)絡(luò)分析,確定貝伐單抗抗性CRC的靶向基因及通路。由此可見,當(dāng)前研究存在著共同的局限性:數(shù)據(jù)來源多為TCGA和GEO數(shù)據(jù)庫,選取的數(shù)據(jù)來自不同平臺、小樣本量,且前期使用的數(shù)據(jù)預(yù)處理方法均不一致,導(dǎo)致后期作為PPI網(wǎng)絡(luò)分析基本數(shù)據(jù)的DEGs在不同的研究中具有高度的不一致性,造成研究結(jié)果差異較大。
綜合考慮上述因素,本文為充分發(fā)揮 PPI 網(wǎng)絡(luò)在預(yù)測癌癥Hub基因中的優(yōu)勢,同時盡可能規(guī)避當(dāng)前研究的局限性,在數(shù)據(jù)方面引入OpenTargets數(shù)據(jù)庫,通過權(quán)威的基因敲除動物模型、遺傳關(guān)聯(lián)、種系突變、RNA 表達、體細胞突變等變量將基因-疾病連接起來,可以快速準確地獲得CRC的所有相關(guān)基因。通過富集分析、PPI網(wǎng)絡(luò)構(gòu)建及網(wǎng)絡(luò)分析,得到CRC相關(guān)Hub基因,并對得到的Hub基因進行驗證,旨在為臨床和實驗研究提供一定的參考,以進一步驗證其臨床病理學(xué)相關(guān)性及預(yù)后價值。
1.1.1 OpenTargets數(shù)據(jù)庫
OpenTargets數(shù)據(jù)庫[16]是公私合作開發(fā)的一個創(chuàng)新型、大規(guī)模的基因-疾病相關(guān)關(guān)系數(shù)據(jù)庫,整合藥物、蛋白質(zhì)、通路等數(shù)10個公共數(shù)據(jù)庫的信息,并與 GSK、EMBL-EBI、Sanger、Biogen、Takeda、Celgene等國際知名的生物醫(yī)學(xué)公司建立長期的合作關(guān)系,為基因-疾病之間的相關(guān)關(guān)系提供通路(affected_pathway)、遺傳關(guān)聯(lián)(genetic _ association)、動物模型(animal_model)、體細胞突變(somatic_mutation)、藥物(known_drug)、文獻(literature)等多種人類遺傳學(xué)和基因組學(xué)方面的變量。每個變量均來源于1個或多個數(shù)據(jù)庫,OpenTargets根據(jù)其來源和特定算法為所有變量提供一個介于0與1之間的相關(guān)分數(shù),表示基因-疾病之間相關(guān)性的大小。該數(shù)據(jù)庫旨在通過目前已知的基因-疾病關(guān)系找到引發(fā)疾病的致病基因,從而發(fā)現(xiàn)疾病治療的最佳靶標(biāo),并將其作為藥物研發(fā)前期藥物靶點確定的關(guān)鍵證據(jù)。
1.1.2 獲取CRC相關(guān)基因
從OpenTargets數(shù)據(jù)庫下載基因—疾病關(guān)聯(lián)的 JSON 文件(2018 Apr version),共獲得2 336 807條基因-疾病關(guān)聯(lián)。OpenTargets中基因-疾病關(guān)聯(lián)分為直接關(guān)聯(lián)和間接關(guān)聯(lián)兩種,為保證關(guān)聯(lián)的準確性,刪除所有間接的基因-疾病關(guān)聯(lián)[17],剩余的直接基因-疾病關(guān)聯(lián)為941 939對.在直接關(guān)聯(lián)中篩選出所有的基因-結(jié)直腸癌相關(guān)關(guān)系,其中包括CRC及mCRC(Metastatic colorectal cancer),共獲得1 396個與其相關(guān)基因.將其作為本研究的基因集,以進行下一步研究(數(shù)據(jù)處理均由Python編碼實現(xiàn))。
使用MetaScape[18]對從OpenTargets獲取的1396個基因進行富集分析。分別在KEGG通路(KEGG Pathway)、GO術(shù)語(GO Terms)、Reactome基因集(Reactome Gene Sets)、Canonical 通路(Canonical Pathways )和 CORUM 5個本體中對輸入的基因集進行基因途徑和生物過程的富集分析。將p value<0.01、Count≥3、富集分數(shù)> 1.5作為納入標(biāo)準(富集分數(shù)是觀察計數(shù)與偶然預(yù)期計數(shù)之間的比率),共得到包含上述5個方面的術(shù)語2 000個,其中Top20如表1及圖1所示。
表1 Top20 通路、生物過程及其分布
注:Count——用戶提供的基因列表中在當(dāng)前本體術(shù)語中的基因數(shù);百分比/%——用戶提供的基因列表中在該術(shù)語中出現(xiàn)的基因數(shù)占該術(shù)語全部基因數(shù)的百分比;Log10(P)——以基數(shù)10為底的p值的對數(shù);Log10(q)——以基數(shù)10為底的q值的對數(shù),其中q為多次測試得到的校正后p值
圖1 Top20 通路、生物過程p值分布
為進一步確定富集術(shù)語之間的關(guān)系,計算Kappa分數(shù)作為術(shù)語之間相似性的度量,構(gòu)建了富集術(shù)語相似性網(wǎng)絡(luò),如圖2所示。通過術(shù)語之間相似性(Kappa>0.3)將節(jié)點相連構(gòu)成網(wǎng)絡(luò),每個節(jié)點代表一個富集術(shù)語。其中圖2(a)節(jié)點的顏色表示節(jié)點所屬集群,可見同屬于相同集群的術(shù)語彼此之間距離較近,關(guān)系更緊密;圖2(b)節(jié)點顏色由深到淺表示其顯著程度(P值),可知包含基因數(shù)量越多的術(shù)語其P值越顯著。
圖2富集術(shù)語相似性網(wǎng)絡(luò)
為探究本研究數(shù)據(jù)集中基因最為聚集的富集術(shù)語,引入Cytoscape中的MCODE(Molecular Complex Detection)插件。該方法基于通過局部鄰域密度的頂點加權(quán)和局部密集種子蛋白的向外遍歷,根據(jù)給定參數(shù)隔離密集區(qū)域,具有優(yōu)于其他圖聚類方法的定向模式。該定向模式允許對感興趣的聚類進行微調(diào)而不考慮網(wǎng)絡(luò)其余部分的連接情況[19]。本文采用MCODE檢測網(wǎng)絡(luò)中的密集連接區(qū)域(子網(wǎng)),其中node score cut-off=0.3,K-core=4,共得到9個子網(wǎng)(圖3),并給出每個子網(wǎng)的種子節(jié)點,即最具代表性的富集術(shù)語(表2)。
由表2可知,目前得到的9個種子富集術(shù)語都與癌癥的發(fā)生和發(fā)展有一定的關(guān)聯(lián)。如PI3K通路[20]通常在人類癌癥中失調(diào),并通過促進異常細胞生長和轉(zhuǎn)化來驅(qū)動腫瘤發(fā)生。調(diào)節(jié)PIK3激酶信號(regulation of phosphatidylinositol 3-kinase signaling)對于腫瘤的治療有至關(guān)重要的作用。最新研究[21]提出了一種新的與突變無關(guān)的癌癥治療方法,即通過靶向生物發(fā)生來抑制致癌基因RAS和MYC,達到治療乳腺癌的目的,表明復(fù)合物生物發(fā)生(Complex I biogenesis)將有可能成為一種新的癌癥治療手段。Filippova Maria等[22]證明,細胞對氧化應(yīng)激的反應(yīng)(cellular response to oxidative stress)可以顯著影響宮頸癌細胞對于化療制劑的敏感程度,從而影響化療效果。凋亡信號通路是眾所周知的與癌癥發(fā)生和發(fā)展有關(guān)的信號通路,其中BCL-2拮抗劑可以作用于內(nèi)源性凋亡信號通路,從而阻止癌癥細胞的轉(zhuǎn)化,但外源性凋亡信號通路(extrinsic apoptotic signaling pathway)[23]一直沒有找到合適的藥物,促凋亡受體激動劑在臨床試驗中效果并不理想,因此,外源性凋亡信號通路可能會成為未來癌癥治療的一個突破點。
圖3 富集術(shù)語相似性網(wǎng)絡(luò)子網(wǎng)
由術(shù)語富集網(wǎng)絡(luò)子網(wǎng)分析可知,本文獲取的基因集在癌癥相關(guān)通路上富集較多,與癌癥的發(fā)生和發(fā)展有一定的關(guān)系。為進一步獲得CRC的Hub基因,將全部基因輸入STRING數(shù)據(jù)庫[24],獲得基因間相互作用的PPI網(wǎng)絡(luò)。將置信分數(shù)(confidence)設(shè)為0.9,得到包含302個節(jié)點、2 143條邊的PPI網(wǎng)絡(luò)。
有研究表明,PPI網(wǎng)絡(luò)具有高度連通區(qū)域(子網(wǎng))的一小部分有更高的概率參與到生物調(diào)節(jié)中,而那些輕度連接的節(jié)點不會在整個網(wǎng)絡(luò)的完整性中發(fā)揮關(guān)鍵作用[25]。此外,基因沉默實驗進一步證實,模塊內(nèi)Hub與疾病狀態(tài)顯著相關(guān)[26]。因此,從PPI子網(wǎng)獲得的Hub基因比沒有網(wǎng)絡(luò)信息篩選的單個基因更有意義[27]?;诖搜芯康那疤幔疚氖褂肕CODE對上述PPI網(wǎng)絡(luò)進行模塊劃分(node score cut-off=0.2,K-core=2),共得到3個子網(wǎng),如圖4所示,其中節(jié)點顏色由淺到深表示MCODE分數(shù)由低到高。從3個子網(wǎng)分別選取MCODE分數(shù)最高的基因,分別為CXCL8、ERBB2和CYCS,將此作為該模塊的Hub基因。
Hub基因相關(guān)的網(wǎng)絡(luò)信息見表3。
圖4 MCODE功能模塊(子網(wǎng))
基因名稱(Genes)MCODE分數(shù)(MCODE_Score)節(jié)點度(Degree)中介中心性(BetweennessCentrality)接近中心性(ClosenessCentrality)CXCL814.4073710.038055510.49401709ERBB213.6579540.021769330.49317406CYCS10.8590310.01545710.45727848
本文選取兩種方法對獲得的3個Hub基因進行驗證。文獻法:在PubMed數(shù)據(jù)庫查找該基因與結(jié)直腸癌相關(guān)的文獻研究;GEPIA數(shù)據(jù)[28]:該數(shù)據(jù)庫以TCGA數(shù)據(jù)庫中的數(shù)據(jù)為基礎(chǔ),采用R、Perl等多種語言對數(shù)據(jù)進行分析,提供腫瘤差異表達譜分析、病例分型及生存分析等,結(jié)果如下。
白細胞介素-8(IL-8)又稱為趨化因子CXCL8,是巨噬細胞和上皮細胞等分泌的細胞因子,具有很強的促血管生成作用。研究表明,CXCL8與CRC血管生成和進展有關(guān)[29]。當(dāng)CRC患者CXCL8高表達時,可以增強CRC細胞對失巢凋亡的抗性,可能是CRC的潛在治療靶標(biāo)。在TCGA數(shù)據(jù)庫中已有的CRC研究顯示,CXCL8在腫瘤和正常組織中的表達存在差異,當(dāng)CXCL8高表達時CRC患者的生存時間較長(圖5)。
圖5 CRC中CXCL8差異表達譜及生存曲線
ERBB2基因能編碼受體酪氨酸激酶表皮生長因子(EGF),但由于該基因沒有配體結(jié)合結(jié)構(gòu)域,不能直接與EGF結(jié)合,而是與其他配體一起與EGF受體家族成員結(jié)合,形成緊密結(jié)合的異二聚體,穩(wěn)定配體結(jié)合并增強激酶介導(dǎo)的下游信號傳導(dǎo)通路的激活。目前已經(jīng)報道了該基因在乳腺癌和卵巢癌中的擴增或過表達。ERBB2擴增是結(jié)腸癌中新興的生物標(biāo)志物,與抗HER2聯(lián)合治療的敏感性密切相關(guān),預(yù)測ERBB2拷貝數(shù)的變化對轉(zhuǎn)移性結(jié)直腸癌中HER2靶向治療至關(guān)重要[30]。另外,ERBB2在CRC和正常組織中存在差異表達且與CRC患者的生存率相關(guān)(圖6)。
圖6 CRC中ERBB2差異表達譜及生存曲線
CYCS基因編碼小的血紅素蛋白,作為線粒體中電子傳遞鏈的中心組分,編碼的蛋白質(zhì)與線粒體的內(nèi)膜結(jié)合,接受來自細胞色素b的電子并將它們轉(zhuǎn)移到細胞色素氧化酶復(fù)合物中,參與細胞凋亡的啟動,并且可以介導(dǎo)細胞凋亡,以在體外和體內(nèi)抑制癌細胞的生長[31],CYCS在腫瘤細胞中高表達能提高腫瘤患者的生存率(圖7)。
綜上,CXCL8、ERBB2及CYCS均與癌癥的發(fā)生和發(fā)展有一定的聯(lián)系,在癌癥組織和正常組織中存在差異表達且與CRC患者的生存情況有關(guān);采用PPI網(wǎng)絡(luò)可預(yù)測CRC相關(guān)Hub基因的可行性,同時可節(jié)省大量的人力、物力及財力,為實驗驗證提供參考。
圖7 CRC中CYCS差異表達譜及生存曲線
本文引入了OpenTargets數(shù)據(jù)庫。該數(shù)據(jù)庫通過整合數(shù)十種權(quán)威數(shù)據(jù)庫的信息,從通路、動物實驗?zāi)P?、體細胞突變等眾多在癌癥中起到至關(guān)重要的因素計算基因-疾病之間的關(guān)系。由于其很多變量為癌癥相關(guān)基因所特有,故可在一定程度上保證結(jié)果的準確性。此外,從該數(shù)據(jù)庫獲取本文的數(shù)據(jù)集能解決當(dāng)前研究選取的數(shù)據(jù)來自于不同平臺、小樣本量,且前期使用的數(shù)據(jù)預(yù)處理方法不一致等問題,不會出現(xiàn)DEGs在不同的研究中高度不一致性的現(xiàn)象。在找到Hub基因后,則可進一步驗證其表達差異。
此外,本文在進行富集分析時選用MetaScape軟件,可以解決解釋復(fù)雜化的問題。在當(dāng)前大多數(shù)富集分析中,描述符和本體的冗余通常會使輸出的解釋復(fù)雜化。Metascape分析通過計算所有富集項對中的Kappa相似性,將術(shù)語首先分層地聚類到樹中,然后將子樹轉(zhuǎn)換為類似術(shù)語的聚類,將大多數(shù)冗余術(shù)語吸收到代表性集群中,從而可以消除富集分析引起的混雜數(shù)據(jù)解釋問題。
本文單獨采取了OpenTargets數(shù)據(jù)庫作為基因集來源,目前看來結(jié)果良好。為進一步提高算法的準確性,后續(xù)研究可能會考慮加入當(dāng)前權(quán)威研究中的DEGs,進一步與本文數(shù)據(jù)集取交集運算,從而更好地實現(xiàn)Hub基因的預(yù)測。
本文從OpenTargets數(shù)據(jù)庫獲得CRC相關(guān)基因集,采用富集分析、PPI網(wǎng)絡(luò)構(gòu)建、PPI子網(wǎng)分析、差異表達分析及功能分析一系列手段,預(yù)測CRC相關(guān)Hub基因,驗證結(jié)果表明本文得到的3個Hub基因(CXCL8、ERBB2、CYCS)均與CRC有一定的關(guān)聯(lián),且在CRC組織和正常組織中差異表達,并與CRC患者的總體生存時間相關(guān),表明采用PPI網(wǎng)絡(luò)能預(yù)測CRC相關(guān)Hub基因的可行性和準確性,可以為Hub基因的驗證提供一種新的方法,為實驗和臨床研究前期提供一定的參考。