范振海 邢時(shí)云 馮源
【摘要】目的:采用生物信息學(xué)方法篩選出肝癌的關(guān)鍵差異表達(dá)基因。方法:對(duì)GEO公共數(shù)據(jù)庫中獲取的四組肝癌和癌旁組織基因表達(dá)芯片數(shù)據(jù)進(jìn)行生物信息學(xué)分析,首先用R數(shù)據(jù)包中的limma程序分別對(duì)各數(shù)據(jù)集的差異表達(dá)基因進(jìn)行初篩,再進(jìn)一步應(yīng)用Robust rank aggregation( RRA)法篩選出四組數(shù)據(jù)集共同差異表達(dá)的關(guān)鍵基因。結(jié)果:通過篩選共獲得269個(gè)差異表達(dá)基因,其中上調(diào)基因76個(gè),下調(diào)基因193個(gè),篩選出的差異表達(dá)基因與現(xiàn)有文獻(xiàn)報(bào)道一致。結(jié)論:RRA法是一種對(duì)多組基因表達(dá)數(shù)據(jù)進(jìn)行差異表達(dá)基因篩選的可靠方法。本研究篩選出的差異表達(dá)基因,有望對(duì)肝癌發(fā)生的機(jī)制研究、腫瘤標(biāo)志物的篩選以及治療靶點(diǎn)的選擇提供參考。
【關(guān)鍵詞】肝癌;差異表達(dá)基因;穩(wěn)健排序整合;基因表達(dá)譜芯片
原 發(fā) 性肝癌(primary livercancer,PLC)是全世界第六位最常見的惡性腫瘤,也是導(dǎo)致人類死亡的第二大腫瘤。其中大約75%的肝癌發(fā)生在亞洲,僅中國就占全世界50%以上的腫瘤病例[1]。PLC患者預(yù)后差,美國平均五年生存率僅為14%[2],而在欠發(fā)達(dá)國家患者的預(yù)后則更差。因此,深入研究PLC相關(guān)的發(fā)生發(fā)展機(jī)制將為肝癌的治療及預(yù)后提供臨床參考。
隨著基因組學(xué)領(lǐng)域的快速發(fā)展,PLC研究領(lǐng)域也出現(xiàn)重大的革新性改變。高通量測(cè)序技術(shù)的出現(xiàn)使大量的基因表達(dá)數(shù)據(jù)不斷涌現(xiàn),使人們發(fā)現(xiàn)肝癌組織和細(xì)胞在特定狀態(tài)下的基因表達(dá)情況和關(guān)鍵基因變化規(guī)律提供了可能。另外,由于各個(gè)實(shí)驗(yàn)室實(shí)驗(yàn)條件不同、臨床樣本包含的人群種族差異以及芯片平臺(tái)的不同,大量的研究結(jié)果呈現(xiàn)出的結(jié)果也不盡相同。因此,尋找一種有效評(píng)價(jià)不同基因表達(dá)譜研究結(jié)果的方法具有重要的意義。
穩(wěn)健排序整合( Robust rankaggregation,RRA)法是一種利用概率模型整合排序列表的方法。有研究將其用于整合多組芯片數(shù)據(jù)基因列表,取得良好的效果[3,4]。本研究中我們采用RRA法對(duì)四組肝癌和癌旁組織基因表達(dá)譜數(shù)據(jù)集中差異性表達(dá)基因中的關(guān)鍵基因進(jìn)行篩選,旨在為臨床篩選肝癌發(fā)生、發(fā)展的相關(guān)分子標(biāo)志物及藥物治療靶點(diǎn)提供理論依據(jù)。
1 材料與方法
1.1 材料
生物信息學(xué)分析涉及數(shù)據(jù)集GSE45267、GSE45436、GSE76427、GSE62232均來自美國國立生物技術(shù)信息中心公共數(shù)據(jù)平臺(tái)基因表達(dá)綜合數(shù)據(jù)庫( Gene Expression Omnibus, GEO), 數(shù)據(jù)的研究類型均為Expression profiling byarray,種屬為人,芯片平臺(tái)除GSE76427是GPL10558外,其余均為GPL570(具體數(shù)據(jù)信息見表1)。
1.2 數(shù)據(jù)處理及差異基因分析
各原始數(shù)據(jù)集分別用R語言軟件包進(jìn)行數(shù)據(jù)處理,通過RMA算法對(duì)原始數(shù)據(jù)進(jìn)行背景校正、標(biāo)準(zhǔn)化及表達(dá)值計(jì)算。我們以P<0.05和log(差異倍數(shù))>1為標(biāo)準(zhǔn)分別篩選出肝癌與正常組織的差異表達(dá)基因。
1.3 肝癌差異表達(dá)關(guān)鍵基因的篩選
將各數(shù)據(jù)集篩選出的差異表達(dá)基因用RRA法進(jìn)行排序,篩選出差異表達(dá)的關(guān)鍵基因。
2 結(jié)果
2.1 差異表達(dá)基因的篩選
在P<0.05和log(差異倍數(shù))>1的條件下,GSE45267、GSE45436、GSE76427和GSE62232分別得到了543、1176、394和1147個(gè)差異表達(dá)基因,上調(diào)基因分別為181、413、64和461個(gè),下調(diào)基因分別為362、763、330和686個(gè)。繪制的差異基因表達(dá)火山圖如圖l所示。
2.2 Robust Rank Aggregation法篩選肝癌差異表達(dá)的關(guān)鍵基因
通過對(duì)四組數(shù)據(jù)集的差異表達(dá)基因篩選,共獲得269個(gè)差異表達(dá)基因(肝癌/癌旁正常組織),其中上調(diào)基因76個(gè),下調(diào)基因193個(gè)。并分別將排名前10的上調(diào)及下調(diào)差異基因制作差異表達(dá)基因的熱圖(圖2)。
3 討論
隨著腫瘤分子醫(yī)學(xué)、高通量測(cè)序以及基因芯片技術(shù)的發(fā)展,越來越多的致病基因被發(fā)現(xiàn),如何從浩如煙海、錯(cuò)綜復(fù)雜的數(shù)據(jù)中篩選出關(guān)鍵致病基因作為判斷患者預(yù)后指標(biāo)和臨床治療靶點(diǎn),成為擺在醫(yī)學(xué)科學(xué)家面前的一個(gè)難題。為篩選可作為肝癌診斷的關(guān)鍵基因和治療靶點(diǎn),本研究利用生物信息學(xué)分析方法對(duì)GEO數(shù)據(jù)庫下載的四組肝癌和癌旁組織生物芯片數(shù)據(jù)進(jìn)行分析,分別篩選出肝癌組織與正常組織的差異表達(dá)基因,結(jié)果發(fā)現(xiàn)不同數(shù)據(jù)集篩選出的差異基因數(shù)量及種類排序都存在很大差異。這與國內(nèi)外其他研究結(jié)果類似[5-9]。提示針對(duì)肝癌基因芯片數(shù)據(jù)檢測(cè),不同實(shí)驗(yàn)人員、實(shí)驗(yàn)條件和實(shí)驗(yàn)對(duì)象可得出的結(jié)果存在很大差別,因此,采用一種統(tǒng)計(jì)方法篩選出這些實(shí)驗(yàn)共同存在的差異基因,可能對(duì)發(fā)現(xiàn)肝癌關(guān)鍵的差異表達(dá)基因至關(guān)重要。
我們進(jìn)一步通過RRA法共獲得269個(gè)差異表達(dá)基因,其中上調(diào)基因76個(gè),下調(diào)基因193個(gè)。上調(diào)基因包含GPC3、ASPM、CAP2和KIF2 0A等,具體上講,GPC3是一種存在于細(xì)胞膜上的硫酸乙酰肝素糖蛋白,它參與調(diào)控細(xì)胞生長、繁殖、分化、遷移和粘附等生物學(xué)行為,主要表達(dá)于中胚層來源的組織,在成熟的組織中低表達(dá)或不表達(dá)。多項(xiàng)研究結(jié)果證實(shí)GPC3蛋白在肝癌組織中高表達(dá),而在正常肝組織中不表達(dá)或表達(dá)量極低[10-13];ASPM也被用來作為肝癌血管侵襲性強(qiáng)、早期復(fù)發(fā)以及不良預(yù)后的指標(biāo)[14];CAP2表達(dá)升高有望用于早期發(fā)現(xiàn)甲胎蛋白隱性的肝癌患者[15],而KIF20A在肝癌患者中高表達(dá)也預(yù)示總生存期和無瘤生存期顯著縮短[16]。下調(diào)基因包含HAMP、CLECIB、FCN3和CLEC4G等。HAMP基因編碼的蛋白質(zhì)為鐵調(diào)素,在機(jī)體內(nèi)鐵平衡的調(diào)節(jié)中起到負(fù)性調(diào)節(jié)的作用,研究發(fā)現(xiàn)它在肝癌組織中低表達(dá)[17],CLECIB是血小板相關(guān)的分子,與肝癌瘤內(nèi)出血相關(guān),盡管其具體作用仍不清楚,但研究顯示它在肝癌組織中表達(dá)下調(diào)[18,19];另外,F(xiàn)CN3和CLEC4G基因在肝癌組織中也呈低表達(dá)[20,21]。
綜上所述,本文采用RRA法對(duì)四組肝癌基因芯片數(shù)據(jù)進(jìn)行挖掘分析,篩選出肝癌與癌旁正常組織的關(guān)鍵差異表達(dá)基因,該研究有望為肝癌發(fā)生的機(jī)制研究、腫瘤標(biāo)志物的篩選及治療靶點(diǎn)的選擇提供參考。在以后的研究中,仍需進(jìn)一步的分子實(shí)驗(yàn)加以驗(yàn)證。
參考文獻(xiàn)
[l]McGlynn KA, Petrick JL, LondonWT. Global epidemiology ofhepatocellular carcinoma: anemphasis on demographic andregional variability [J]. ClinLiver Dis, 2015,19(02):223-238.
[2]Cronin KA, Ries LA, Edwards BK.The Surveillance, Epidemiology,and End Results (SEER) Program ofthe National Cancer Institute[J].Cancer, 2014,120 Suppl 23: 3755-3757.
[3]Kolde R, Laur S, Adler P, ViloJ. Robust rank aggregation forgene list integration and Metaanalysis [Jl. Bioinformatics,2012,28 (04): 573-580.
[4]Vosa U, Kolde R, Vilo J, et al.Comprehensive Meta-analysis ofmicroRNA expression using a robustrank aggregation approach [J].Methods Mol Biol, 2014, 1182: 361-373.
[5]白文萱,高健,錢程等,肝癌相關(guān)差異表達(dá)基因的生物信息學(xué)分析[J].中華肝臟病雜志,2017, 25 (06): 435-437.
[6]高冰,寧淑芳,唐艷萍等,人肝癌組織及癌旁正常肝組織的mRNA差異表達(dá)譜[J].世界華人消化雜志,2014 (31): 4734-4744.
[7] Mou T, Zhu D, Wei X, et al.Identification and interactionanalysis of key genes and microRNAsin hepatocellular carcinoma bybioinformatics analysis [Jl. WorldJ Surg Oncol, 2017,15 (01):63.
[8] Zhang C, Peng L, Zhang Y,etal. The identification ofkey genes and pathways inhepatocellular carcinoma bybioinformatics analysis ofhigh-throughput data [Jl. MedOncol, 2017, 34 (06): 101.
[9]Shi SQ, Ke JJ, Xu QS, et al.Integrated network analysisto identify the key genes,transcription factors,and microRNAs involved inhepatocellular carcinoma [J] .Neoplasma, 2018, 65 (01) : 66-74.
[lO]El-Wahab NM, Rashed HG, El-Sherif WT, et al. Glypican-3 andMelanoma Antigen Genes l and 3 asTumor Markers for HepatocellularCarcinoma [Jl. Egypt J Immunol,2017,24(02):187-200.
[ll]Liu H, Yang C, Lu W, et al.Prognostic significance ofglypican-3 expression inhepatocellular carcinoma: A Meta-analysis[Jl. Medicine (Baltimore),2018, 97 (04): e9702.
[12]Tahon AM, El-Ghanam MZ, Zaky S,etal. Significance of Glypican-3 inEarly Detection of HepatocellularCarcinoma in CirrhoticPatients [J]. J GastrointestCancer, 2018, [Epub ahead ofprint].
[13]2hang J, Zhang M, Ma H, et al.Overexpression of glypican-3 isa predictor of poor prognosisin hepatocellular carcinoma: Anupdated Meta-analysis [J] . Medicine(Bal t imore) , 2 018, 97 (24) : elll 3 0.
[14]Lin SY, Pan HW, Liu SH, etal. ASPM is a novel markerfor vascular invasion, earlyrecurrence, and poor prognosis ofhepatocellular carcinoma [J]. ClinCancer Res, 2008, 14 (15) : 4814-4820.
[15]Shibata R, Mori T, Du W, etal. Overexpression of cyclase-associated protein 2 in multistagehepatocarcinogenesis [J] .
ClinCancer Res, 2006,12 (18): 5363-5368.
[16]Lu M, Huang X, Chen Y, et al.Aberrant KIF20A expression mightindependently predict pooroverall survival and recurrence-free survival of hepatocellularcarcinoma [J] . IUBMB Life,2018, 70 (04): 328-335.
[17]Kijima H, Sawada T, TomosugiN,et al. Expression of hepcidinmRNA is uniformly suppressed inhepatocellular carcinoma [J]. BMCCancer, 2008, 8: 167.
[18]Critelli R, Milosa F, FaillaciF, et al. Microenvironmentinflammatory infiltrate drivesgrowth speed and outcome ofhepatocellular carcinoma: aprospective clinical study [Jl.Cell Death Dis, 2017, 8 (08) : e3017.
[19] Hu K, Wang ZM, Li JN, et al.CLECIB Expression and PD-Ll Expression Predict ClinicalOutcome in HepatocellularCarcinomawithTumorHemorrhage [J] .
Transl Oncol,2018,11(02): 552-558.
[20]Ho DW, Kai AK, Ng IO. TCGA whole-transcriptome sequencing datareveals significantly dysregulatedgenes and signaling pathways inhepatocellular carcinoma [J]. FrontMed, 2015, 9 (03) : 322-330.
[21]Luo JH, Ren B, Keryanov S, etal. Transcriptomic and genomicanalysis of human hepatocellularcarcinomas and hepatoblastomas [J].Hepatology, 2006, 44 (04): 1012-1024.