王萬鵬,張啟迪,傅承宏,陳皓瑜,周素芹,劉艷艷,何中祥,宋 堅(jiān),濮 娟
(1.南京醫(yī)科大學(xué)康達(dá)學(xué)院附屬漣水人民醫(yī)院放療科,江蘇 淮安 223400;2.南京醫(yī)科大學(xué)康達(dá)學(xué)院附屬漣水人民醫(yī)院中心實(shí)驗(yàn)室,江蘇 淮安 223400;3.上海交通大學(xué)醫(yī)學(xué)院附屬上海市第一人民醫(yī)院消化科,上海 200080)
食管鱗狀細(xì)胞癌(esophageal squamous cell carcinoma,ESCC)占食管癌中的約90%,是起源于食管鱗狀上皮系統(tǒng)的惡性腫瘤,其發(fā)病是多階段、多基因、多步驟的聯(lián)合作用導(dǎo)致[1]。隨著腫瘤大數(shù)據(jù)的普及,網(wǎng)絡(luò)公共平臺(tái)也提供了大量的腫瘤組學(xué)數(shù)據(jù),為研究腫瘤的生物學(xué)本質(zhì)提供了極大的便利。但單個(gè)研究樣本量較小,且各研究間存在批次、標(biāo)本獲取方法、實(shí)驗(yàn)?zāi)康幕驅(qū)嶒?yàn)條件的不同,結(jié)果差異較大。雖然不同的數(shù)據(jù)整合方法也相繼出現(xiàn),但由于每種方法都有各自的不足,限制了其廣泛應(yīng)用[2]。本研究采用秩聚合(RRA)方法整合來自公共平臺(tái)的多套ESCC 表達(dá)譜數(shù)據(jù),在獲取相關(guān)差異表達(dá)基因(DEGs)后通過構(gòu)建蛋白互作(PPI)網(wǎng)絡(luò)進(jìn)行基因模塊挖掘,使用TCGA 數(shù)據(jù)庫(kù)中的ESCC 表達(dá)數(shù)據(jù)及免疫組化方法加以實(shí)驗(yàn)驗(yàn)證,以期尋找影響ESCC 發(fā)病機(jī)制的關(guān)鍵基因,為進(jìn)一步探究ESCC 生物標(biāo)志物和分子靶點(diǎn)提供新的科學(xué)思路。
1.1 資料來源 收集基因表達(dá)綜合數(shù)據(jù)庫(kù)(gene expression omnibus,GEO)中ESCC 轉(zhuǎn)錄組表達(dá)譜數(shù)據(jù)原始文件(raw data)。收集標(biāo)準(zhǔn):包含癌組織及及癌旁組織且各組至少包含3 例。共收集到9 個(gè)系列的ESCC 表達(dá)譜數(shù)據(jù):GSE77861、GSE77861、GSE100942、GSE26886、GSE17351、GSE38129、GSE33426、GSE20347、GSE23400。各數(shù)據(jù)集資料見圖1。
圖1 9 個(gè)ESCC 表達(dá)譜數(shù)據(jù)
1.2 數(shù)據(jù)預(yù)處理及整合轉(zhuǎn)錄組學(xué)差異基因分析 采用R 語言(3.6.2 版)中的Affy 包對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,包括ReadAffy 函數(shù)讀取原始文件,RMA 函數(shù)歸一化及對(duì)數(shù)化,KNN 法補(bǔ)充缺失值[3],若多個(gè)探針對(duì)應(yīng)同一基因名稱,則采用平均值法得到基因表達(dá)值。limma 包進(jìn)行差異表達(dá)值計(jì)算,貝葉斯法多重檢驗(yàn)校正,得到不同數(shù)據(jù)集中各基因的校正P 值及倍數(shù)變化(FC)對(duì)數(shù)值的絕對(duì)值,即|Log2FC|。得到9 個(gè)差異表達(dá)矩陣后,使用R 語言包“Robustrankaggreg”對(duì)數(shù)據(jù)集中的基因進(jìn)行整合,“Robustrankaggreg”包是基于RRA 方法,該方法基于不相關(guān)輸入的無效假設(shè)篩選出持續(xù)優(yōu)于預(yù)期的基因,最終通過貝葉斯校正得出各基因的矯正P值[2]。各基因的Log2FC 由各數(shù)據(jù)集中基因的Log2FC 平均值得出。最終選擇閾值為|Log2FC|≥1.5,P<0.05 的基因作為DEGs。
1.3 蛋白互作(PPI)網(wǎng)絡(luò)構(gòu)建和模塊挖掘 應(yīng)用STRING(https://string-db.org/)數(shù)據(jù)庫(kù)分析所得DEGs 的蛋白互作網(wǎng)絡(luò),閾值設(shè)置為confidence score≥0.4,并通過Cytoscape 3.5.1 軟件進(jìn)行可視化處理。使用插件Molecular Complex Detection(MCODE)對(duì)PPI 網(wǎng)絡(luò)進(jìn)行模塊分析,參數(shù)設(shè)置為節(jié)點(diǎn)度閾值(degree cutoff)>5,鄰節(jié)點(diǎn)個(gè)數(shù)(k-core)>5,余均為默認(rèn)設(shè)置。
1.4 關(guān)鍵基因mRNA 水平驗(yàn)證 關(guān)鍵基因的mRNA表達(dá)水平驗(yàn)證使用來自TCGA 數(shù)據(jù)庫(kù)中ESCC 數(shù)據(jù)。從UCSC 癌癥基因組瀏覽器(http://xena.ucsc.edu/welcome-to-ucsc-xena/)中下載來源于TCGA 的食管癌表達(dá)數(shù)據(jù)及對(duì)應(yīng)樣本的臨床資料,數(shù)據(jù)集名為“GDC TCGA Esophageal Cancer(ESCA)”,該數(shù)據(jù)集基于IlluminaHiSeq RNASeq V2 高通量RNA 測(cè)序平臺(tái),表達(dá)數(shù)據(jù)已經(jīng)經(jīng)過歸一化的相對(duì)值。提取其中具有臨床資料的81 例ESCC 患者癌組織和11 例對(duì)照的數(shù)據(jù)進(jìn)行分析。
1.5 病例收集 收集我院2013 年1 月~2015 年12 月就診的184 例ESCC 患者病理資料及蠟塊,其中男157 例,女27 例,年齡36~86 歲。納入標(biāo)準(zhǔn):①經(jīng)過我院病理科證實(shí)病理類型為ESCC;②取樣本前均未行放化療;③入院前無感染病史和血液性疾病。排除標(biāo)準(zhǔn):①臨床資料不全者;②伴隨嚴(yán)重感染或者自身免疫性疾病者。另外收集同期50 例癌旁組織(距離癌組織邊緣5 cm 以上)作為對(duì)照。
1.6 免疫組織化學(xué)檢測(cè)蛋白表達(dá) CDKN3 抗體購(gòu)自美國(guó)Abcam 公司(貨號(hào):ab175393)。石蠟塊來自于我院病理科長(zhǎng)期保存,制成4 μm 組織切片,常規(guī)脫蠟、水洗后與加入一抗(1∶200),于4 ℃濕盒內(nèi)過夜。二抗37 ℃孵育30 min、PBS 液清洗后滴加辣根過氧化物酶并于37 ℃溫箱內(nèi)孵育30 min,DAB 顯色,蘇木素復(fù)染細(xì)胞核、封片。以腫瘤細(xì)胞染色強(qiáng)度和陽性細(xì)胞比例進(jìn)行計(jì)分,評(píng)分標(biāo)準(zhǔn)按照文獻(xiàn)[4]。
1.7 統(tǒng)計(jì)學(xué)分析 使用SPSS 22.0 整理及分析數(shù)據(jù),Graphpad prime 5 制作統(tǒng)計(jì)圖片。計(jì)數(shù)資料使用KS 檢驗(yàn)檢測(cè)正態(tài)分布情況,符合正態(tài)分布的計(jì)量資料使用()表示,組間比較采用t檢驗(yàn);偏態(tài)分布資料使用四分位間距(IQR)表示,組間比較使用Mann-Whitney 檢驗(yàn);計(jì)數(shù)資料使用(n,%)表示,若出現(xiàn)理論頻次小于5 則使用Fisher 確切概率法計(jì)算相應(yīng)的χ2值和P值。所有P值均為雙尾檢驗(yàn),P<0.05 認(rèn)為差異有統(tǒng)計(jì)學(xué)意義。
2.1 整合轉(zhuǎn)錄分析識(shí)別差異表達(dá)基因 對(duì)GEO 數(shù)據(jù)庫(kù)中下載得到的9 套基因表達(dá)譜進(jìn)行整合分析后,以|Log2FC| ≥1.5、P<0.05 為標(biāo)準(zhǔn),共得到ESCC 相關(guān)DEGs 244 個(gè),其中上調(diào)93 個(gè)、下調(diào)151 個(gè)。上調(diào)和下調(diào)排名前10 位的基因見圖2。
2.2 PPI 網(wǎng)絡(luò)構(gòu)建和模塊挖掘 將得到的244 個(gè)DEGs 輸入STRING 數(shù)據(jù)庫(kù),共得到194 個(gè)節(jié)點(diǎn)、864個(gè)連接的PPI 網(wǎng)絡(luò),見圖3A。為了進(jìn)一步探究PPI網(wǎng)絡(luò)中可能存在的具有核心意義的蛋白互作模塊,利用Cytoscape 軟件中的MCODE 插件在網(wǎng)絡(luò)中進(jìn)行了模塊挖掘和分析,結(jié)果顯示得分最高(score=23.304)的蛋白模塊包含24 個(gè)節(jié)點(diǎn)和268 個(gè)連接,見圖3B,其中種子(seed)基因?yàn)榧?xì)胞周期蛋白依賴性激酶抑制因子3(Cyclin-dependent kinase inhibitor 3,CDKN3)。
2.3 CDKN3 mRNA 在ESCC 中的表達(dá)驗(yàn)證 TCGA數(shù)據(jù)庫(kù)分析結(jié)果示,ESCC 組織中CDKN3 相對(duì)表達(dá)量為3.291(IQR:2.833~3.659),11 例對(duì)照組織相對(duì)表達(dá)量為1.184(IQR:0.734~1.720),兩者比較,差異有統(tǒng)計(jì)學(xué)意義(U=18.000,P<0.05),見圖4A。受試者工作特性曲線(ROC)結(jié)果顯示,曲線下面積(AUC)為0.980,以2.149 為截?cái)嘀?,其特異性?0.91%(95%CI:58.72%~99.77%),敏感性為92.59%(95%CI:84.57%~97.23%),見圖4B。
圖2 ESCC 差異表達(dá)基因
圖3 蛋白互作用網(wǎng)絡(luò)構(gòu)建
圖4 CDKN3 mRNA 在ESCC 及癌旁組織中的表達(dá)
2.4 CDKN3 蛋白在ESCC 中的表達(dá) 免疫組織化學(xué)法檢測(cè)結(jié)果顯示,50 例對(duì)照組織中CDKN3 蛋白陰性表達(dá)34 例(68.00%),陽性表達(dá)16 例(32.00%);184 例ESCC 組織中,陰性表達(dá)71 例(38.59%),CDKN3 陽性表達(dá)113 例(61.41%),ESCC 組織中CDKN3 蛋白陽性表達(dá)率高于對(duì)照組織,差異有統(tǒng)計(jì)學(xué)意義(χ2=13.750,P<0.05),見圖5。
圖5 CDKN3 在ESCC 及癌旁組織中的表達(dá)(×400)
2.5 CDKN3 蛋白表達(dá)與ESCC 患者臨床病理特征的關(guān)系 單因素分析顯示,不同性別、年齡、T 及M 分期的ESCC 患者CDKN3 蛋白表達(dá)比較,差異無統(tǒng)計(jì)學(xué)意義(P>0.05);不同N 分期及臨床分期的ESCC患者CDKN3 蛋白表達(dá)比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見表1。
表1 CDKN3 蛋白表達(dá)與ESCC 患者臨床特征關(guān)系(n)
雖然與過去相比,ESCC 的診斷及治療手段已明顯進(jìn)步,但由于其起病隱匿及高度惡性的特點(diǎn),患者預(yù)后仍很差,約10%的患者被診斷時(shí)已為晚期,腫瘤已擴(kuò)散到其他器官[5,6]。近年來,隨著微陣列和高通量測(cè)序技術(shù)的不斷發(fā)展,腫瘤研究進(jìn)入大數(shù)據(jù)時(shí)代,通過高通量技術(shù)對(duì)腫瘤的檢測(cè)不僅可以明確其遺傳學(xué)改變,還可以了解腫瘤患者的個(gè)體化情況,輔助腫瘤個(gè)體化治療。但對(duì)于不同的研究,其重復(fù)性仍然不能令人完全滿意,主要原因如下:①各單獨(dú)實(shí)驗(yàn)所包含的疾病例數(shù)較少;②各中心標(biāo)本取材、存儲(chǔ)手段及條件等客觀因素的存在,因此標(biāo)本質(zhì)量也無法完全一致;③各中心的高通量數(shù)據(jù)往往基于不同的平臺(tái)。因此,不同中心所得出的高通量數(shù)據(jù)之間無論是在數(shù)據(jù)表達(dá)還是數(shù)據(jù)構(gòu)成上均存在差異,這種差異易造成假陽性及假陰性的產(chǎn)生。
基于此,面對(duì)各種不同平臺(tái)提供的海量高通量數(shù)據(jù),一方面給予研究人員提供了極大的便利,一方面又對(duì)于數(shù)據(jù)整合方法提出了新的要求。目前常用的數(shù)據(jù)整合方法主要包括:①通過分析不同表達(dá)譜的差異基因[7],然后取得交集。雖然這種方法非??煽?,但在操作易丟失大量的信息,產(chǎn)生假陰性;②可采用R 語言sva 包中combat 函數(shù)去除批次效應(yīng)[8],但這種方法存在一定的缺點(diǎn):需要被合并的表達(dá)矩陣必須具有相同的探針,因此只能在同一平臺(tái)內(nèi)合并,跨平臺(tái)整合數(shù)據(jù)則無法實(shí)現(xiàn),最終仍需要取得基于不同平臺(tái)的DEGs 交集。本研究采取秩聚合方法進(jìn)行整合不同表達(dá)譜,主導(dǎo)思想是通過不同實(shí)驗(yàn)的差異分析結(jié)果,優(yōu)先排序的基因列表是基因組數(shù)據(jù)分析應(yīng)用程序中常見的結(jié)果表示方法[2]。因此,秩聚合方法可以成為這一類問題有用且通用的解決方案,通過這種方法不再受限于平臺(tái),同時(shí)又可以擴(kuò)大樣本量。最終本研究得到DEGs 共244 個(gè),其中多個(gè)基因已經(jīng)被報(bào)道在ESCC 中發(fā)揮著重要作用,如MMP1[9]、MAGEA6[10]、MAL[11]等,該結(jié)果從側(cè)面說明了秩聚合方法的可靠性。
ESCC 發(fā)生機(jī)制極其復(fù)雜,涉及多種通路及因子,但傳統(tǒng)的生物學(xué)研究以單基因或蛋白為出發(fā)點(diǎn),難以對(duì)系統(tǒng)進(jìn)行全面的探索?;诖?,本研究通過構(gòu)建由DEGs 組成的PPI 網(wǎng)絡(luò),并挖掘其中重要的基因互作模塊,結(jié)果顯示其中最重要的PPI 模塊由FOXM1[12]、DTL[13]等24 個(gè)基因構(gòu)成的模塊,既往研究也顯示其中很多基因也被認(rèn)為是ESCC 相關(guān)基因。進(jìn)一步分析顯示,該基因模塊的中心基因?yàn)镃DKN3,因此可以推斷其生物功能在ESCC 的發(fā)生發(fā)展中具有核心地位。CDKN3 是一種細(xì)胞周期調(diào)控蛋白,可直接或間接與細(xì)胞周期蛋白依賴性激酶(cyclin-dependent protein kinase,CDK)等細(xì)胞周期調(diào)控因子作用,參與細(xì)胞周期調(diào)控,因此與多種腫瘤的發(fā)生發(fā)展密切相關(guān)[14]。本研究結(jié)果顯示,ESCC 組織中CDKN3 mRNA 表達(dá)量較正常組織升高;以2.149為截?cái)嘀?,CDKN3 mRNA 對(duì)于ESCC 具有較高的診斷價(jià)值,其特異性為90.91%,敏感性為92.59%。此外,通過免疫組織化學(xué),進(jìn)一步驗(yàn)證了CDKN3 在蛋白水平的表達(dá)異常,初步提示CDKN3 可能參與ESCC 的進(jìn)展。同時(shí),有研究已經(jīng)在細(xì)胞水平證實(shí)CDKN3 可以通過依賴或非依賴的AKT 信號(hào)通路參與ESCC 的增殖、侵潤(rùn)及轉(zhuǎn)移,這也在分子水平佐證了本研究所用生物信息學(xué)方法的可靠性。
綜上所述,CDKN3 在食管鱗狀細(xì)胞癌組織及癌旁組織中表達(dá)存在差異,其可能是食管鱗狀細(xì)胞癌的關(guān)鍵基因;另外,CDKN3 的表達(dá)與患者N 分期及臨床分期有關(guān),其可作為臨床診斷食管鱗狀細(xì)胞癌的生物標(biāo)志物。