史廣林,繆雨青,錢佳燕,冒昕欣,施偉榮
(1.南通市第六人民醫(yī)院呼吸內(nèi)科,江蘇 南通 226011;2.南通市第六人民醫(yī)院胸外科,江蘇 南通 226011)
肺癌是最常見的惡性腫瘤之一,無論在發(fā)達國家還是發(fā)展中國家,肺癌都是癌癥死亡的主要原因[1-2]。肺癌分為小細胞肺癌(SCLC)和非小細胞肺癌(NSCLC),大約85%的肺癌患者被歸類為非小細胞肺癌并且診斷時通常處于晚期[3]。盡管肺癌在診療技術上有了很大的進展,肺癌的預后仍不滿意,5年生存率小于15%[4]。肺癌的發(fā)生發(fā)展涉及多因素、多步驟、多基因的復雜生物學過程,除了環(huán)境因素作用,肺癌的基因?qū)W說也越來越受重視。在過去的幾十年,對肺癌發(fā)生發(fā)展的分子生物學認識有了很大的提高,然而目前臨床可用的基因數(shù)量有限,僅有EGFR、ALK、ROS1、BRAF、RET和C-MET等幾個基因,而且主要集中于肺腺癌中[5]。在腫瘤發(fā)生發(fā)展過程中,有大量伴隨基因參與癌基因擴增過程,但是絕大多數(shù)并不是關鍵基因。因此,從分子水平揭示腫瘤發(fā)病機制,尋找新的治療靶點,成為腫瘤研究的熱點?;蛐酒夹g是20世紀90年代以來影響最為深遠的重大科技進展,成為生命科學領域的一項重要的技術平臺,是篩選差異表達相關基因的有效手段[6]。基因組富集分析(GSEA)基于基因組系統(tǒng)水平在病例對照類型數(shù)據(jù)上來挖掘影響疾病的重要基因及其通路[7]。本研究采用GSEA等生物信息學方法對NSCLC全基因組表達芯片數(shù)據(jù)進行研究,挖掘出隱藏在芯片數(shù)據(jù)下的生物學信息,篩選出影響肺癌發(fā)生發(fā)展的關鍵基因,為對肺癌靶向治療的研究奠定基礎。
從NCBI共享數(shù)據(jù)庫GEO檢索NSCLC相關的基因芯片數(shù)據(jù)。最終選擇登錄號分別為GSE1987和GSE44077,芯片平臺分別為GPL91、GPL6244。GSE1987芯片平臺為GPL91,來自以色列特拉維夫大學包含從人類肺組織獲得的36個樣本,包括以下內(nèi)容:7例腺癌標本;16例鱗狀細胞癌標本;1腺鱗癌標本;腎轉(zhuǎn)移2例;結腸轉(zhuǎn)移1例;7例癌旁正常肺組織;2例正常肺RNA。對癌和癌旁基因進行差異表達篩選,選取上調(diào)2倍以上的基因,最終提取147個高表達基因。GSE44077芯片平臺為GPL6244,來自美國德克薩斯大學安德森癌癥中心,樣本包含226例NSCLC的癌組織或癌旁正常組織。對癌和癌旁基因進行差異表達篩選,最終提取64個高表達基因。在TCGA數(shù)據(jù)庫檢索NSCLC數(shù)據(jù)庫,對癌和癌旁基因進行差異表達篩選,最終提取510個高表達基因。其中差異基因篩選的條件為:P<0.05、>=2-fold change。
將分析得到的NSCLC分子標簽基因上傳至Funrich軟件中,分析相關基因可能的分子功能、參與的信號通路、編碼蛋白質(zhì)之間的相互作用關系以及建立基于文獻知識的基因轉(zhuǎn)錄子相關或物理相關的網(wǎng)絡圖譜等。使用DAVID進行GO和KEGG通路分析對差異基因進行功能注釋,對其中與腫瘤信號通路如細胞增殖、凋亡、DNA損傷等密切相關的基因進一步分析。STRING分析差異表達基因的蛋白相互作用的網(wǎng)絡關系。選取關鍵基因,GEO數(shù)據(jù)庫分析關鍵基因在不同組織中的表達。利用CCLE數(shù)據(jù)庫分析關鍵基因在不同肺癌細胞系中的表達。并利用人類蛋白質(zhì)組圖譜對關鍵基因的蛋白水平進行分析,并獲得直觀的免疫組化圖像。使用Kaplan-Meier Plotter進行生存分析。通過以上數(shù)據(jù)庫分析,基本可以確定該基因在肺癌的發(fā)生發(fā)展以及預后中的作用。本次研究經(jīng)過本院醫(yī)學倫理委員會同意。
對GSE1987、GSE4077及TCGA三組數(shù)據(jù)使用Funrich V3軟件進行聯(lián)合分析,根據(jù)篩選標準選出7個共同上調(diào)表達的基因分別是:SPP1、SPINK1、母體胚胎亮氨酸拉鏈激酶(MELK)、谷胱甘肽過氧化物酶(GPX2)、CYP24A1、TFAP2、ETV4。
使用Funrich進行GO和KEGG通路分析對差異基因進行功能注釋,發(fā)現(xiàn)這7個基因主要參與血管內(nèi)皮生長因子(VEGF)、PI3K、mTOR、ErbB受體、TNF、信號轉(zhuǎn)導、凋亡等信號通路,主要參與細胞凋亡、蛋白質(zhì)代謝、信號轉(zhuǎn)導、細胞生長等生物學過程。
STRING分析差異表達基因蛋白相互作用的網(wǎng)絡關系,以MELK為中心的PPI網(wǎng)絡,與其相關的蛋白有ZNF622、BUB1、TPX2、CDK1、DLGAP5、TOP2A、CDC20、CCNB1、CCNB2、PBK,其信號通路及生物學過程主要富集在細胞信息傳遞及信號轉(zhuǎn)導。見圖1。
圖1 STRING分析差異表達基因的蛋白相互作用的網(wǎng)絡關系及以MELK為中心的PPI網(wǎng)絡
MELK在TCGA數(shù)據(jù)庫和CCLE數(shù)據(jù)庫分析關鍵基因RNA在不同組織及肺癌不同細胞系中的表達。可以發(fā)現(xiàn)MELK在肺癌組織中有較高表達,在肺癌細胞系A549、HBEC3-KT、SCLC-KT中高表達。見圖2。
圖2 TCGA數(shù)據(jù)庫中MELK在不同組織RNA表達及CCLE數(shù)據(jù)庫中MELK在不同細胞系RNA表達
利用Kaplan-Meier Plotter對720例非小細胞肺癌患者MELK進行生存分析。本文發(fā)現(xiàn)MELK高表達組生存期較短、預后較差(HR 1.56,P=0.000 19)。
MELK在人類蛋白質(zhì)圖譜數(shù)據(jù)庫對其在肺癌組織中的蛋白水平進行分析,并獲得直觀的免疫組化圖像。見圖3。
圖3 MELK在人類蛋白質(zhì)圖譜中免疫組化不同表達水平
基因芯片技術是20世紀90年代以來影響最為深遠的重大科技進展,成為生命科學領域的一項重要的技術平臺,是篩選差異表達相關基因的有效手段[6]。基因芯片技術具有高通量和快速測量等優(yōu)點,解決了傳統(tǒng)核酸印跡雜交等技術復雜、自動化程度低、檢測目的分子數(shù)量少、低通量等缺陷[8]。由于表達譜芯片在研究細胞基因表達模式上具有的優(yōu)勢,利用它可獲取腫瘤細胞生長的各期以及腫瘤發(fā)生與發(fā)展過程中相關基因的表達模式變化,因此,基因表達譜芯片對腫瘤發(fā)生機制、早期診斷、腫瘤基因分型、藥物篩選、指導治療及評估預后等許多研究領域起到了巨大的推動作用[8-11]。隨著表達譜芯片技術的廣泛開展,產(chǎn)生了豐富的、海量的、復雜的生物信息數(shù)據(jù)。如何解讀芯片上成千上萬個基因點的雜交信息,揭示其中蘊含的生命特征和規(guī)律,已成為限制基因芯片技術應用和發(fā)展的主要“瓶頸”。因此,如何共享和利用這些數(shù)據(jù)成為基因表達譜研究的重要課題,也是生物信息學研究的重要內(nèi)容。本研究運用生物信息學方法通過探索GEO NSCLC數(shù)據(jù)庫中的GSE1987、GSE44077和TCGA,通過聯(lián)合分析發(fā)現(xiàn)一組差異表達的基因重組人分泌型蛋白1(SPP1)、SPINK1、MELK、GPX2、CYP24A1、TFAP2、ETV4。GO和KEGG通路分析對差異基因進行功能注釋,發(fā)現(xiàn)這7個基因主要參與VEGF、PI3K、mTOR、ErbB受體、TNF、信號轉(zhuǎn)導、凋亡等信號通路,主要參與細胞凋亡、蛋白質(zhì)代謝、信號轉(zhuǎn)導、細胞生長等生物學過程。MELK基因是Snf1/AMPK激酶家族中一個獨特成員,是一種保守的周期依賴性激酶[12]。MELK在腦星形細胞瘤、膠質(zhì)母細胞瘤、乳腺癌、黑色素瘤及其他人類腫瘤中的表達增加[13-15],可能是它能促進腫瘤的發(fā)生。此外,MELK的高表達與患者預后不良相關。MELK在腫瘤干細胞中異常激活,使腫瘤細胞具有生長、侵襲和遷移能力[16-17]。本研究發(fā)現(xiàn)MELK與ZNF622、BUB1、TPX2、CDK1、DLGAP5、TOP2A、CDC20、CCNB1、CCNB2、PBK等蛋白相互作用,主要功能富集在細胞信息傳遞及信號轉(zhuǎn)導,與細胞周期基因如TOP2A、CCNB2共存,提示MELK與細胞增殖功能密切相關,有望成為藥物治療的靶點[18]。MELK在肺癌中研究較少,通過數(shù)據(jù)庫分析發(fā)現(xiàn)MELK在肺癌組織中有較高表達,在肺癌細胞系A549、HBEC3-KT、SCLC-KT中高表達。Oncomin數(shù)據(jù)庫檢索,也進一步證實MELK在肺腺癌患者癌組織中表達與正常肺組織對比明顯增高。人類蛋白質(zhì)組圖譜數(shù)據(jù)庫中能夠直觀地觀察到肺癌組織中MELK不同表達水平的免疫組化圖片。
綜上所述,本研究通過生物信息學方法篩選出7個在多個非小細胞肺癌數(shù)據(jù)庫中均高表達的核心基因,它們與細胞凋亡、蛋白質(zhì)代謝、信號轉(zhuǎn)導、細胞生長等生物學過程密切相關。MELK在多種腫瘤中表達增加,數(shù)據(jù)庫檢索發(fā)現(xiàn)肺癌組織及細胞中均高表達,并且其高表達與患者預后不良相關,提示其子腫瘤的發(fā)生發(fā)展中發(fā)揮重要作用。病理分析及預后分析表明其有望成為NSCLC分級及預后的生物標志物。對其生物學作用的進一步研究有利于揭示NSCLC的具體發(fā)病機制以及提供新的潛在治療靶點。