夏春偉 丁以艷 徐小峰 劉平
原發(fā)性肺癌是我國(guó)及世界范圍內(nèi)發(fā)病率和死亡率最高的惡性腫瘤之一,嚴(yán)重危害人類健康[1]。肺癌的發(fā)病率和死亡率呈明顯上升趨勢(shì),2015 年我國(guó)新發(fā)肺癌病例 73.33 萬(wàn)(男性50.93 萬(wàn),女性 22.40 萬(wàn)),居惡性腫瘤首位[2]。肺癌可以分為非小細(xì)胞肺癌(non small cell lung cancer,NSCLC)和小細(xì)胞肺癌(small cell lung cancer,SCLC)兩大類,非小細(xì)胞肺癌約占 80%~85%。肺癌的治療已從傳統(tǒng)的手術(shù)、放療、化療發(fā)展為包括分子靶向和免疫治療等綜合性治療,肺癌的分型也由單純的病理組織學(xué)分類,進(jìn)一步細(xì)分為基于驅(qū)動(dòng)基因的分子亞型[3],NSCLC已進(jìn)入精準(zhǔn)診斷與治療時(shí)代[4]。因此,進(jìn)一步研究肺癌特異性高的診斷標(biāo)志物和治療靶點(diǎn)具有重要意義。
目前,高通量測(cè)序已經(jīng)廣泛應(yīng)用于尋找疾病的候選基因,多種生物信息學(xué)數(shù)據(jù)庫(kù)為腫瘤基因的數(shù)據(jù)挖掘提供了便利[5-6]。本文從GEO數(shù)據(jù)庫(kù)中下載原始數(shù)據(jù),對(duì)比NSCLC組織與正常肺組織的基因表達(dá)譜,篩選出差異表達(dá)基因,并進(jìn)行預(yù)后分析,從而為NSCLC治療及判斷預(yù)后提供有價(jià)值的信息。
Gene Expression Omnibus(GEO, http://www.ncbi.nlm.nih.gov/geo)是目前最全面的公共基因表達(dá)數(shù)據(jù)庫(kù),由美國(guó)國(guó)立生物技術(shù)信息中心NCBI創(chuàng)建并維護(hù)[7]。從GEO下載三個(gè)基因表達(dá)數(shù)據(jù)集(GSE19804、GSE27262、GSE18842)。GSE19804數(shù)據(jù)集由Lu等于2010年發(fā)表,包含60個(gè)女性肺癌樣本及配對(duì)的癌旁組織[8]。GSE27262包含25例肺癌組織及配對(duì)肺組織標(biāo)本[9]。GSE18842包含46例肺癌組織及45例正常肺組織[10]。三組數(shù)據(jù)集的研究平臺(tái)均為GPL570,Affymetrix Human Genome U133 Plus 2.0 Array。
利用 GEO2R 軟件分別分析三個(gè)數(shù)據(jù)集中的肺癌組織與正常肺組織中的差異表達(dá)基因。以P≤0.01,log2 FC(fold change)絕對(duì)值≥1.5作為標(biāo)準(zhǔn)篩選差異表達(dá)基因。
DAVID(The Database for Annotation, Visualization and Integrated Discovery)是一個(gè)強(qiáng)大的生物信息數(shù)據(jù)庫(kù),整合了生物學(xué)數(shù)據(jù)和分析工具[11]。KEGG(京都基因與基因組百科全書)用于從高通量實(shí)驗(yàn)技術(shù)生成的大規(guī)模分子數(shù)據(jù)集中分析高級(jí)功能和生物系統(tǒng)的數(shù)據(jù)庫(kù)資源[12]。GO(gene ontology)是基因本體聯(lián)合會(huì)所建立的數(shù)據(jù)庫(kù),用于注釋基因并分析這些基因的生物學(xué)過程[13]。GO的3個(gè)一級(jí)功能,它們分別是細(xì)胞學(xué)組份(Cellular Component)、生物學(xué)功能(Biological Process)和分子功能(Molecular Function)。用DAVID分析差異基因的功能及生物學(xué)信息,P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
對(duì)差異基因通過STRING(Search Tool for the Retrieval of Interacting Genes, http://string-db.org)在線數(shù)據(jù)庫(kù)進(jìn)行PPI網(wǎng)絡(luò)分析[14]。將綜合評(píng)分>0.4的交互作用被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。Cytoscape是一個(gè)生物信息學(xué)軟件平臺(tái),具有可視化的分子相互作用網(wǎng)絡(luò)[15]。通過Cytoscape中的MCODE篩選核心差異基因。選擇的標(biāo)準(zhǔn)是MCODE評(píng)分>5分,degree cut-off=2,node score cut-off=0.2,Max depth=100,k-score=2。
使用Kaplan-Meier plotter(http://kmplot.com/analysis/)數(shù)據(jù)庫(kù)來(lái)評(píng)估差異基因表達(dá)水平與總生存期的關(guān)系。每個(gè)基因根據(jù)mRNA表達(dá)值分為高、低表達(dá)兩組進(jìn)行比較,P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
在oncomine數(shù)據(jù)庫(kù)中(https//www.oncomine.org/)檢索差異基因在NSCLC組織與正常肺組織的表達(dá)差異。同時(shí)選取我院標(biāo)本庫(kù)10例NSCLC術(shù)后組織標(biāo)本,采用實(shí)時(shí)熒光定量PCR(QPCR)檢測(cè)目的基因在NSCLC和正常肺組織中的表達(dá),本研究獲得我院倫理委員會(huì)批準(zhǔn)。使用Trizol試劑提取組織中總RNA,按照試劑盒提供說(shuō)明書步驟進(jìn)行。取一定量的RNA提取物,用RNase-Free ddH2O稀釋,取稀釋液進(jìn)行OD260/OD280測(cè)定,比值在1.8~2.1之間可繼續(xù)用于下一步實(shí)驗(yàn)。采用逆轉(zhuǎn)錄試劑盒將總RNA逆轉(zhuǎn)錄成cDNA,-20℃保存cDNA備用。采用 TaKaRa SYBR Premix Ex Taq Ⅱ進(jìn)行定量檢測(cè),20ul 反應(yīng) 體系中包括1μl cDNA,10μl SYBR Green,100 μM ASPM引物。QPCR的反應(yīng)條件:95℃預(yù)變性3 min;95℃ 15 sec、60℃ 45 sec,40個(gè)循環(huán)。ASPM上游引物:5′-GGAAGTGAGCCCGACCGA-3′;下游引物:5′-GCAAAGGAAAGGAGACC-3′。以GAPDH 為內(nèi)參,上游引物:5′-AGATCCCTCCAAAATCAAGTGG-3′;下游引物:5′-GGCAGAGATGATGACCCTTTT-3′。反應(yīng)結(jié)束后確認(rèn) Real Time PCR 的擴(kuò)增曲線和融解曲線。GAPDH 為內(nèi)參基因,mRNA 的相對(duì)表達(dá)水平用 2-△△CT計(jì)算。
GSE18842從54675個(gè)基因中篩選出2054個(gè)基因,GSE27262從54675個(gè)基因中篩選出1470個(gè)基因,GSE19804從25248個(gè)基因中篩選出699個(gè)基因。對(duì)三個(gè)數(shù)據(jù)集取交集共包含401個(gè)差異基因(見圖1)。
表1 差異基因的GO及KEGG富集分析結(jié)果
用DAVID分析差異基因的生物學(xué)分類、功能及生物學(xué)信息。GO分析顯示生物學(xué)功能(BP)發(fā)生變化的主要表現(xiàn)在血管生成、損傷反應(yīng)、細(xì)胞粘附、調(diào)節(jié)細(xì)胞增殖等。細(xì)胞學(xué)組份(CC)發(fā)生變化主要富集在細(xì)胞外區(qū)域部分、細(xì)胞表面和細(xì)胞質(zhì)膜部分。分子功能(MF)主要富集在生長(zhǎng)因子結(jié)合、碳水化合物結(jié)合、膜式結(jié)合、多糖結(jié)合和細(xì)胞因子活性。KEGG信號(hào)通路主要富集在細(xì)胞外基質(zhì)受體相互作用、粘著斑和細(xì)胞粘附分子等通路(見表1)。
利用STRING進(jìn)行差異基因間的蛋白-蛋白互作網(wǎng)絡(luò)分析,將數(shù)據(jù)導(dǎo)入Cytoscape進(jìn)行可視化,PPI網(wǎng)絡(luò)共涉及個(gè)346節(jié)點(diǎn)和1415條邊(圖2)。同時(shí)用Cytoscape中MCODE模塊進(jìn)行進(jìn)一步篩選,共篩選出29個(gè)節(jié)點(diǎn)386條邊,這29個(gè)即為最重要的差異基因(圖3)。
圖1 從GSE19804、GSE27262、GSE18842三個(gè)數(shù)據(jù)集,以P<0.01,log2FC絕對(duì)值>1.5為標(biāo)準(zhǔn),這三個(gè)數(shù)據(jù)集顯示了401個(gè)差異基因的重疊
圖2 Cytoscape進(jìn)行差異基因的PPI網(wǎng)絡(luò)分析
圖3 PPI網(wǎng)絡(luò)分析篩選出的29個(gè)差異基因
選取PPI網(wǎng)絡(luò)中連通度(degree)排序靠前的基因,使用Kaplan-Meier plotter對(duì)其進(jìn)行預(yù)后分析。其中,ASPM、CDC20、CENPF、DLGAP5、NUSAP1、TOP2A、TPX2、RRM2、ANLN基因的高表達(dá)均影響肺癌患者的總體生存率(見圖4)。
在oncomine數(shù)據(jù)庫(kù)中Selamat數(shù)據(jù)集中[16],對(duì)58例肺癌標(biāo)本及58例正常肺組織進(jìn)行研究,發(fā)現(xiàn)ASPM表達(dá)在肺癌組織中明顯上調(diào)(P<0.001,圖5A)。選取10例正常肺組織及肺癌組織通過QPCR檢測(cè)ASPM,其表達(dá)水平分別為0.97±0.04、2.83±0.59,差異有統(tǒng)計(jì)學(xué)意義,P<0.01(圖5B)。
圖4 差異基因的預(yù)后分析
圖5 ASPM在NSCLC中表達(dá)上調(diào) A.oncomine數(shù)據(jù)庫(kù)中Selamat數(shù)據(jù)集,ASPM在肺癌組織中高表達(dá)。B.QPCR 顯示ASMP在肺癌組織中的表達(dá)較正常組織顯著增加。
GEO 數(shù)據(jù)庫(kù)中存在大量的測(cè)序數(shù)據(jù),通過生物信息學(xué)方法挖掘具有研究?jī)r(jià)值的基因,為進(jìn)一步深入研究提供了方向。本研究從三個(gè)數(shù)據(jù)集中共篩選出401個(gè)差異基因。進(jìn)行GO及KEGG富集分析,通過PPI網(wǎng)絡(luò)分析篩選出29個(gè)差異基因。使用Kaplan-Meier plotter 對(duì)重要的核心基因進(jìn)行預(yù)后分析,發(fā)現(xiàn)ASPM等基因其低表達(dá)患者的總生存期較高表達(dá)患者明顯延長(zhǎng)。通過oncomine數(shù)據(jù)庫(kù)檢索,ASPM表達(dá)在肺癌組織中較正常組織明顯上調(diào),進(jìn)一步行QPCR驗(yàn)證,ASPM在肺癌組織中高表達(dá),差異有統(tǒng)計(jì)學(xué)意義。
人類異常紡錘體樣小頭畸形相關(guān)蛋白基因(Human Abnormal Spindle-like Microcephaly-associated,ASPM),位于染色體1q31,全長(zhǎng)65kb, 編碼區(qū)長(zhǎng)10434bp,由28個(gè)外顯子構(gòu)成。ASPM參與所有分裂細(xì)胞的紡錘體組織,紡錘體定位和胞質(zhì)分裂,并且蛋白質(zhì)的極端C-末端是ASPM定位和功能所必需的[17]。ASPM在胚胎期神經(jīng)形成中起重要作用,與常染色體隱性遺傳小頭畸形的發(fā)病相關(guān)[18]。研究發(fā)現(xiàn),ASPM在胎兒和成人組織中廣泛表達(dá),并在增殖旺盛的組織及腫瘤組織中高表達(dá)[19]。
Wang等的研究首次證明,ASPM在是胰腺導(dǎo)管腺癌(PDAC)細(xì)胞系及腫瘤組織中表達(dá)上調(diào),并與患者預(yù)后相關(guān)。進(jìn)一步研究發(fā)現(xiàn),ASPM通過維持PDAC細(xì)胞的Wnt-β-catenin信號(hào)傳導(dǎo)促進(jìn)PDAC的侵襲性[20]。Bikeye等研究了175個(gè)膠質(zhì)瘤樣本中的mRNA表達(dá),發(fā)現(xiàn)ASPM的表達(dá)與腫瘤分級(jí)密切相關(guān),并且在腫瘤復(fù)發(fā)時(shí)表達(dá)增加,表明ASPM參與膠質(zhì)瘤的惡性進(jìn)展,并且是潛在的治療靶點(diǎn)[21]。Xu 通過TCGA數(shù)據(jù)庫(kù)收集6個(gè)膀胱癌微陣列mRNA表達(dá)數(shù)據(jù)集,并進(jìn)行RT-PCR分析,研究中發(fā)現(xiàn)膀胱癌組織中ASPM mRNA表達(dá)高于癌旁正常組織,ASPM mRNA表達(dá)與膀胱癌的分期和腫瘤轉(zhuǎn)移顯著相關(guān)[22]。Pai VC的研究發(fā)現(xiàn)[23],ASPM的表達(dá)在原發(fā)性和轉(zhuǎn)移性前列腺癌(PCA)中逐漸上調(diào),ASPM表達(dá)的下調(diào)顯著減弱了PCA細(xì)胞的增殖,克隆形成和侵入行為。腫瘤中ASPM高表達(dá)細(xì)胞的比例與PCA患者的無(wú)復(fù)發(fā)存活率成反比。ASPM與經(jīng)典Wnt信號(hào)傳導(dǎo)的上游調(diào)節(jié)因子Dvl-3相互作用,是PCA中Wnt信號(hào)傳導(dǎo)和腫瘤干細(xì)胞的必需調(diào)節(jié)因子,具有重要的臨床和治療意義。
多項(xiàng)研究證實(shí)ASPM在多種腫瘤組織中高表達(dá),可以促進(jìn)腫瘤細(xì)胞的增殖、侵襲,但其在肺癌中的研究較少,具體促癌機(jī)制的研究未見報(bào)道,值得進(jìn)一步研究。綜上所述,本研究對(duì)NSCLC芯片數(shù)據(jù)進(jìn)行生物信息學(xué)分析,發(fā)現(xiàn)ASPM在肺癌組織中高表達(dá),可能是 NSCLC 的潛在治療靶基因,下一步仍然需要更多的研究來(lái)驗(yàn)證。