向 夢 張 婷 張宗澤
武漢大學中南醫(yī)院麻醉手術科(430071)
背景:結腸癌是最常見的惡性腫瘤之一,生物信息學方法能有效挖掘基因芯片數(shù)據(jù),篩選結腸癌相關的候選生物標記物。目的:使用生物信息學方法并結合腫瘤公共數(shù)據(jù)庫的分析來篩選結腸癌可能的生物標記物。方法:從GEO數(shù)據(jù)庫中下載GSE44861基因表達譜,以R軟件“l(fā)imma”包篩選差異表達基因,行GO和KEGG分析,并構建蛋白質-蛋白質相互作用(PPI)網絡,選擇核心模塊并驗證核心基因。結果:芯片GSE44861包含來自腫瘤和癌旁正常組織的111個結腸組織。在結腸癌組織中篩選出367個差異表達基因,包括123個上調基因和244個下調基因。GO和KEGG分析顯示,差異表達基因分別在生物過程和15條KEGG通路中富集。PPI網絡模塊鑒定出6個核心基因,結腸癌組織中CXCL1、CXCL3表達升高,CXCL12、LPAR1、PYY、SST表達降低,與驗證集GSE44076、Oncomine數(shù)據(jù)庫、GEPIA數(shù)據(jù)庫的驗證結果一致。結論:本研究所鑒定的差異表達基因和核心基因可促進對結腸癌分子機制的理解,并且可能成為結腸癌診斷和治療的分子生物標記物。
結腸癌是最常見的惡性腫瘤之一,其發(fā)病近年呈上升趨勢,但5年生存率僅為65%[1]。據(jù)報道,大多數(shù)結腸癌導致的死亡是由于腫瘤轉移[2],因此,尋找合適的腫瘤標記物進行早期診斷和治療是非常有必要的。目前,一些生物標記物已用于臨床實踐,如K-ras基因突變被認為是EGFR陰性的預測性生物標記物;對于Ⅱ期結腸癌患者,MMR缺陷或MSI可預測氟尿嘧啶單藥治療是否有益。
目前微陣列廣泛應用于分子生物學,具有廣泛的應用前景,如癌癥分子分類、診斷生物標記物的預測和癌癥新藥靶點的發(fā)現(xiàn)等[3]。近年來,微陣列基因表達譜分析已發(fā)現(xiàn)各種腫瘤與其他組織之間的分子差異,揭示了富含各種途徑和生物過程的數(shù)百個差異表達基因[4]。同時,生物信息學方法為篩查具有結腸癌預后和治療意義的生物標記物提供了平臺。Li等[5]利用轉錄組和DNA甲基化分析發(fā)現(xiàn),飲食誘導的肥胖可預測結腸癌風險。Huang等[6]使用TCGA數(shù)據(jù)集發(fā)現(xiàn)K-ras、p53、SMAD4和BRAF為評估結直腸癌患者預后和轉移狀態(tài)的潛在標記物。由此可見,基因芯片在疾病診斷中具有重要作用,可用于腫瘤基因表達檢測、尋找腫瘤分子靶標。本研究通過生物信息學分析并結合腫瘤公共數(shù)據(jù)平臺,旨在鑒定結腸癌可能的生物標記物,從而為結腸癌分子水平的研究提供有價值的信息,并篩選出可能的診斷和治療的生物標記物。
從美國國立生物技術信息中心(NCBI)公共數(shù)據(jù)平臺Gene Expression Omnibus(GEO)(http://www.ncbi.nlm.nih.gov/geo/)下載結腸癌基因芯片數(shù)據(jù)GSE44861的原始數(shù)據(jù)壓縮包,該數(shù)據(jù)包括腫瘤和癌旁正常組織的111個結腸組織的基因表達譜。芯片平臺為Affymetrix Human Genome U133A Array。
根據(jù)預處理程序計算原始表達數(shù)據(jù):RMA背景校正,log2轉換,分位數(shù)歸一化和使用R軟件“affy”包的中值拋光算法匯總。探針由Affymetrix注釋文件注釋。根據(jù)Pearson相關矩陣中不同樣本之間的距離,通過樣本聚類來評估微陣列質量(圖1)。
使用R軟件“l(fā)imma”包來篩選結腸癌樣品和結腸癌旁樣品之間的差異表達基因,以P<0.05和|log2 差異倍數(shù)|>1設定為納入標準。
使用DAVID數(shù)據(jù)庫[7](http://david.abcc.ncifcrf.gov/)對差異表達基因進行富集,并行GO(Gene Ontology)分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)分析,以P<0.05 設定為納入標準。
為評估差異表達基因之間的相互關系,使用STRING數(shù)據(jù)庫(http://www.string-db.org/)來評估PPI信息,并用Cytoscape軟件進行可視化。將置信度>0.4定義為有效值。
使用MCODE(molecular complex detection)插件在Cytoscape軟件中選擇PPI網絡的核心模塊[8]。按以下條件設置參數(shù):degree=10,node score=0.2,k-core=2,max, depth=100。采用芯片GSE44861中的數(shù)據(jù)對核心基因進行驗證,然后通過芯片GSE44076、Oncomine數(shù)據(jù)庫(http://www.oncomine.org/)和GEPIA數(shù)據(jù)庫(http://gepia.cancer-pku.cn/)驗證核心模塊中的基因[9]。
分析GSE44861基因表達譜,共篩選出367個差異表達基因, 其中123個上調,244個下調。所有差異表達基因的火山圖見圖2。
圖1 GSE44861的樣本聚類樹
GO分析結果表明,差異表達基因在生物過程中顯著富集,包括細胞外基質組成、細胞對鋅離子的反應、生長負調控、膠原蛋白分解代謝過程等(圖3A)。此外,差異表達基因在15條KEGG通路中富集,其中礦物質吸收、膽汁分析、氮代謝、AKT信號通路、化學致癌性等通路尤為突出(圖3B)。
將從STRING數(shù)據(jù)庫中下載而來的數(shù)據(jù)導入Cytoscape軟件,得到差異表達基因PPI網絡圖,其中83個基因上調和120個基因下調(圖4)。
根據(jù)設置的參數(shù),得到一個有統(tǒng)計學差異的模塊(在MCODE中有6個節(jié)點,評分為6分)。核心模塊中的成員包括CXC趨化因子配體1(CXCL1)、CXCL3、CXCL12、溶血磷脂酸受體1(LPAR1)、酪酪肽(PYY)、生長激素抑制素(SST)(圖5)。芯片GSE44076驗證核心基因表達顯示,結腸癌組織中CXCL1、CXCL3表達明顯升高,CXCL12、LPAR1、PYY、SST表達明顯降低(圖6),與Oncomine數(shù)據(jù)庫、GEPIA數(shù)據(jù)庫的驗證結果一致(圖7~8)。
A:GO分析;B:KEGG分析
紅色代表上調的基因,藍色代表下調的基因
紅色代表上調的基因,藍色代表下調的基因
結腸癌是全球癌癥死亡的第二大原因[10],盡管近年的研究已取得重大進展,但其療效仍依賴于結腸癌是否能被早期診斷[11],故尋找其特異性生物標記物對腫瘤的早期診斷和治療是非常有意義的。
***P<0.001
圖7 Oncomine數(shù)據(jù)庫驗證核心基因
*P<0.001
GSE44861基因芯片數(shù)據(jù)集的樣本量較大,包括腫瘤樣本與對應癌旁樣本的111個結腸組織基因表達譜,故以此作為測試集來篩選生物標記物較為可靠。本研究結果顯示共篩選出367個差異表達基因,其中123個上調,244個下調。GO分析表明差異表達基因在生物過程中顯著富集,包括細胞外基質組成、細胞對鋅離子的反應、生長負調控、膠原蛋白分解代謝過程等。此外,差異表達基因中有15種KEGG通路過表達。PPI網絡顯示核心基因分別為CXCL1、CXCL3、CXCL12、LPAR1、PYY、SST。
CXCL1屬CXC趨化因子家族的小細胞因子,最初發(fā)現(xiàn)其參與黑素瘤的致癌作用[12]。CXCL1高表達與多種腫瘤的預后不良有關,如乳腺癌、胃癌、膀胱癌等[13-15]。CXCL3的主要功能為控制細胞遷移和黏附[16]。CXCL3與乳腺癌轉移高度相關,有望成為乳腺癌治療的可行靶點[17];多數(shù)侵襲性前列腺癌中可見CXCL3高表達。CXCL12有多種不同的亞型,在乳腺癌中低表達,與腫瘤侵襲密切相關[18]。Roy等[19]證實CXCL12在體內外均能顯著抑制胰腺癌增殖,通過調節(jié)腫瘤生長和轉移部位的細胞凋亡,從而發(fā)揮抑癌作用。LPAR1是結合脂質信號分子溶血磷脂酸的G蛋白偶聯(lián)受體,可明顯抑制肝癌細胞SKHep1的遷移[20]。Liang等[21]發(fā)現(xiàn)LPAR1和CXCL12為結直腸癌相關樞紐基因,參與腫瘤相關信號通路的轉導,可作為結直腸癌診療的潛在靶標。PYY是重要的胃腸肽激素,能抑制胰腺癌MiaPaCa-2細胞增殖[22]。SST可治療多種腫瘤,包括垂體腺瘤、胃腸胰腺腫瘤等[23]。本研究發(fā)現(xiàn),結腸癌中CXCL1和CXCL3表達明顯升高,CXCL12、LPAR1、PYY、SST表達明顯降低,但能否成為評估結腸癌轉移和預后的指標仍有待進一步驗證。
總之,本研究通過使用生物信息學分析,找出可能參與結腸癌進展的367個差異表達基因,并進一步分析了6個核心基因。但仍然需行進一步分子生物學實驗來對其可能的功能和機制進行更深層次的研究。