王卓智,陳秋月,韓勇,陳永孜,黃怡菲,龔衛(wèi)靜,徐雙兵,李居怡,鄧艾平,劉亞妮,曾芳,呂永寧,張玉
(1.天津醫(yī)科大學(xué)生物醫(yī)學(xué)工程與技術(shù)學(xué)院,天津 300070;2.華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬協(xié)和醫(yī)院藥學(xué)部,湖北省重大疾病精準(zhǔn)用藥醫(yī)學(xué)研究中心,武漢 430022;3.天津醫(yī)科大學(xué)腫瘤醫(yī)院腫瘤細(xì)胞生物學(xué)實(shí)驗(yàn)室,天津市腫瘤防治重點(diǎn)實(shí)驗(yàn)室,國家腫瘤臨床醫(yī)學(xué)研究中心,天津市惡性腫瘤臨床醫(yī)學(xué)研究中心,天津 300060;4.華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬協(xié)和醫(yī)院腫瘤科,武漢 430022;5.武漢市中心醫(yī)院,武漢 430024)
肺癌是全球常見的惡性腫瘤之一。肺癌包括兩種主要的組織學(xué)類型:小細(xì)胞肺癌(small cell lung cancer,SCLC)和非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)。其中,NSCLC是常見的組織學(xué)類型,占肺癌總病例的80%[1]。NSCLC是一種高度異質(zhì)性疾病,患者對化療敏感性個體差異較大。近年來有很多研究通過篩選生物標(biāo)志物(如CTR1、ABCB1等)能夠預(yù)測NSCLC患者化學(xué)治療(化療)的生存情況[2-6]。但這些生物標(biāo)志物基于較少臨床樣本量的檢測與驗(yàn)證,且每項(xiàng)研究用于檢測和分析的備篩選生物標(biāo)志物數(shù)量有限。由于NSCLC在早期無典型癥狀,患者確診時多以中晚期為主[7]。長春瑞濱+順鉑序貫化療治療方案(NP方案)是晚期NSCLC的一線化療方案,臨床研究表明,NP 方案可顯著延長晚期患者的生存期(P<0.001)[8-9]。本研究利用生物信息學(xué)中的一致性相關(guān)系數(shù)(concordance correlation coefficient,CCC,或ρc)從GEO和NCI 60等生物學(xué)信息數(shù)據(jù)庫的高通量基因信息中,篩選多類型細(xì)胞系與NSCLC癌癥樣本中表達(dá)一致的基因[10],對NSCLC的NP方案藥物敏感性基因進(jìn)行預(yù)測和分析,為將來結(jié)合臨床樣本進(jìn)一步構(gòu)建、驗(yàn)證和優(yōu)化NP方案精準(zhǔn)化療模型提供研究基礎(chǔ)。
1.1數(shù)據(jù)來源 從美國國家癌癥研究所網(wǎng)站(http://discover.nci.nih.gov)下載使用HG-U133A GeneChip陣列分析的NCI 60細(xì)胞系數(shù)據(jù)(Affymetrix)。從NCI數(shù)據(jù)庫獲得(http://dtp.nci.nih.gov)NCI 60細(xì)胞系50%生長抑制(GI50)的藥物敏感性數(shù)據(jù)。從基因表達(dá)數(shù)據(jù)庫 GEO 數(shù)據(jù)庫中下載NSCLC患者數(shù)據(jù)GSE3593(Potti198,198個NSCLC樣本)[11]。平臺信息:GPL96[HG-U133A]Affymetrix Human Genome U133A Array。
1.2方法
1.2.1篩選藥物敏感性基因 使用5種統(tǒng)計(jì)學(xué)方法,包括Pearson相關(guān)分析、Spearman相關(guān)分析、Welch's t-test、協(xié)方差分析(ANCOVA)和rank-based ANCOVA,以GI50為臨界值,比較兩個化療藥物(順鉑和長春瑞濱)對同一細(xì)胞系各個基因的不同作用,篩選出這兩種藥物的敏感性基因。這些基因與體外藥物敏感性高度相關(guān)或在每種藥物的敏感和耐藥細(xì)胞系之間明顯存在差異表達(dá)。示意圖見圖1。
1.2.2篩選CCC基因 使用CCC進(jìn)行相關(guān)分析[10,12-13]。本研究檢索GEO和ArrayExpress數(shù)據(jù)庫,限定檢索條件“NSCLC;Homo sapiens;Expression profilling by array”篩選出所需NSCLC數(shù)據(jù)庫,選擇樣本量最大的 Potti198作為研究對象[11]。具體過程簡化為3步:①將NCI 60數(shù)據(jù)庫里面的每個基因與剩余其他基因的spearman相關(guān)系數(shù)定義為CRi,N為基因個數(shù),有CRi={cri-1,cri-2,…,cri-N};②將NSCLC樣本Potti198里面每個基因與剩余其他基因spearman相關(guān)系數(shù)定義為HRi,有HRi={hri-1,hri-2,…,hri-N};③計(jì)算每個基因在這兩個數(shù)據(jù)集中的相關(guān)系數(shù)的相關(guān)系數(shù)(correlation of correlations),即ρc=r(CRi,HRi),以截?cái)嘀?cutoff value)為0.1,篩選出一致性相關(guān)基因。所有統(tǒng)計(jì)分析使用R軟件(R Studio,版本1.0.143)分析。經(jīng)CCC算法分析得到的基因?yàn)镃CC基因。
1.2.3DAVID通路分析 將5種統(tǒng)計(jì)學(xué)方法篩選出的基因取合集,導(dǎo)入DAVID 6.8分析工具(https://david.ncifcrf.gov),進(jìn)行KEGG通路富集分析,條件設(shè)定為P<0.01,富集結(jié)果使用“ggplot 2”繪制氣泡圖進(jìn)行展示。
圖1 從細(xì)胞系中篩選藥物敏感性基因
2.1藥物敏感性基因的篩選結(jié)果 NCI 60細(xì)胞系數(shù)據(jù)用于藥物敏感性基因的篩選。篩選出的化療藥物順鉑和長春瑞濱的藥物敏感性基因,其生物學(xué)功能類型見圖2和圖3,其數(shù)量見表1。
圖2 順鉑藥物敏感性基因通路富集圖
圖3 長春瑞濱藥物敏感性基因通路富集圖
表1 順鉑和長春瑞濱的藥物敏感性基因數(shù)量
2.2CCC算法分析結(jié)果 通過CCC算法分析NCI 60細(xì)胞系與 Potti198樣本中具有共同表達(dá)模式的基因,篩選出可能應(yīng)用于預(yù)測NSCLC化療藥物敏感性的基因?;熕幬镯樸K和長春瑞濱的藥物敏感性基因數(shù)量見表1。除了Welch's t-test 分析未得到長春瑞濱藥物敏感性基因外,CCC算法分析結(jié)果與藥物敏感性基因的篩選結(jié)果相似。
2.3基因通路富集分析 將CCC算法分析結(jié)果取合集,在DAVID網(wǎng)站進(jìn)行KEGG通路富集分析,將具有相似功能的基因放到一起,進(jìn)一步解讀基因的功能,作氣泡圖。P值越小,富集越顯著,順鉑的藥物敏感性基因主要富集在蛋白聚糖(Proteoglycan in cancer)、細(xì)菌侵襲上皮細(xì)胞(Bacteria invasion of epithelial cells)中;長春瑞濱的藥物敏感性基因主要與癌癥信號通路(Pathways in cancer)有關(guān)、可能與蛋白聚糖(Proteoglycan in cancer)表達(dá)有關(guān)。其中具代表性的部分生物學(xué)功能和基因見表2。藥物敏感性基因通路富集圖見圖2和圖3。
表2 CCC基因的生物學(xué)功能
NSCLC是一種異質(zhì)性疾病,腫瘤異質(zhì)性一直以來是影響抗腫瘤藥物治療敏感性的一個關(guān)鍵問題,篩選生物標(biāo)志物能預(yù)測患者對化療的敏感性,能夠?yàn)榕R床提供更有效的個體化化療方案。生物信息學(xué)中某些算法可以通過從細(xì)胞系中初步篩選出適用于臨床精準(zhǔn)化療的腫瘤學(xué)生物標(biāo)志物,如進(jìn)一步運(yùn)用臨床樣本進(jìn)行模型構(gòu)建、驗(yàn)證與優(yōu)化,可為克服腫瘤異質(zhì)性、提高抗腫瘤藥物治療敏感性提供精準(zhǔn)治療方案。近年來,生物信息學(xué)被廣泛應(yīng)用于癌癥生物標(biāo)志物的篩選。ZHU等[14]通過生物信息學(xué)中最大化R2算法預(yù)測出表征NSCLC患者NP方案化療預(yù)后的基因。CHEN等[15]使用穩(wěn)健多陣列平均值(robust multi-array average,RMA)算法分析單個基因表達(dá)值篩選與NSCLC患者預(yù)后相關(guān)的惡性風(fēng)險基因,但這些基因都需要更多的數(shù)據(jù)集進(jìn)行驗(yàn)證。
筆者在本研究采用生物信息學(xué)中CCC算法,預(yù)測NSCLC患者一線化療NP方案(順鉑+長春瑞濱)的藥物敏感性基因。研究中對5種統(tǒng)計(jì)方法得到的藥物敏感性基因取合集,并通過KEGG通路富集分析,對篩選出的藥物敏感性基因功能進(jìn)行了分類闡釋。順鉑能夠與DNA分子交叉聯(lián)結(jié),影響DNA復(fù)制,高濃度時也能抑制RNA及蛋白質(zhì)合成。富集分析后發(fā)現(xiàn)藥物敏感性基因主要與蛋白聚糖和細(xì)菌侵襲通路有關(guān)。由性別、煙草史和組織學(xué)類型建立的Cox回歸模型顯示,肺癌組織中蛋白聚糖表達(dá)水平高的患者具有較高的生存風(fēng)險[16]。細(xì)菌侵襲通路中PTK2是miR-16-5p 的靶標(biāo)蛋白,miR-16-5p的過表達(dá)抑制了NSCLC細(xì)胞的增殖和侵襲[17]。上皮-間質(zhì)轉(zhuǎn)化(epithelial-mesenchymal transition,EMT)是癌細(xì)胞轉(zhuǎn)移和化學(xué)耐藥所必需的細(xì)胞過程,而CRK家族銜接子蛋白有望抵消EMT和化學(xué)抗性[18]。長春瑞濱為周期特異藥物,抑制微管蛋白的聚合,并使分裂期微管崩解,導(dǎo)致細(xì)胞在有絲分裂過程中微管形成障礙。富集分析后發(fā)現(xiàn)其藥物敏感性基因主要與癌癥信號通路有關(guān),可能與蛋白聚糖表達(dá)有關(guān)。研究顯示表麻黃醇A通過抑制癌癥信號通路中細(xì)胞遷移關(guān)鍵調(diào)節(jié)劑蛋白激酶B(Akt)的激活,進(jìn)而抑制肺癌細(xì)胞的遷移[19]。SU等[20]研究發(fā)現(xiàn)通過直接介導(dǎo)FZD1下調(diào),miR-135b抑制NSCLC的化學(xué)耐藥性。黃芩素通過靶向RHOA / ROCK信號通路,抑制了NSCLC中血管生成擬態(tài)(VM)的形成,發(fā)揮抗癌作用[21]。
本研究通過生物信息學(xué)中CCC算法初步篩選出可能應(yīng)用于NSCLC化療的NP方案藥物敏感性基因。但由于可以獲得的公開數(shù)據(jù)集非常有限,目前得到的這些基因只能夠作為NSCLC化療中的候選藥物敏感性基因,尚需通過更多的臨床研究數(shù)據(jù)集或臨床樣本信息進(jìn)行驗(yàn)證與優(yōu)化。未來我們將密切關(guān)注TCGA、GEO等數(shù)據(jù)庫中含有兩種藥物治療信息的新公開數(shù)據(jù)集;同時,課題組擬開展相關(guān)臨床研究,收集臨床樣本,基于上述初篩結(jié)果完善相關(guān)生物標(biāo)記物檢測并收集與分析患者信息(如人口學(xué)信息、預(yù)后等各種臨床指標(biāo)),以進(jìn)一步構(gòu)建、驗(yàn)證和優(yōu)化NSCLC的NP方案精準(zhǔn)化療模型[22]。