白洋洋,郭依琳,陳瑞廷,潘世杰,孫繼建
(1.河南省中醫(yī)院 泌尿外科,河南 鄭州 450002;2.鄭州大學(xué)第二附屬醫(yī)院 婦產(chǎn)科,河南 鄭州 450014)
腎腫瘤是泌尿系統(tǒng)常見的腫瘤之一,占全人類所有癌癥的3%~5%[1],近年來其發(fā)病率逐年上升,已成為威脅人類健康的最重要腫瘤之一[2]。而腎細(xì)胞癌(renal cell carcinoma,RCC)是成人腎腫瘤中最常見的惡性腫瘤,占90%以上。對于局限性RCC,外科手術(shù)切除是唯一治愈性的方法,但大約1/3的RCC初次確診時已有遠(yuǎn)處轉(zhuǎn)移,對于轉(zhuǎn)移性RCC常需要全身系統(tǒng)治療。通常RCC對放療和化療不敏感,治療效果有限。近年來靶向治療和免疫治療的迅速發(fā)展,使其逐漸成為轉(zhuǎn)移性RCC的一線治療[3]。RCC組織的腫瘤微環(huán)境中存在大量免疫細(xì)胞浸潤,使免疫治療成為RCC治療的有效手段[4-7]。據(jù)此,探討RCC發(fā)生發(fā)展機(jī)制,篩選RCC潛在的診斷標(biāo)志物,分析腫瘤組織中免疫細(xì)胞浸潤特征對指導(dǎo)臨床治療尤為重要。
隨著全基因組測序技術(shù)的迅速發(fā)展,已有更多與腫瘤相關(guān)的基因被發(fā)現(xiàn),打破了傳統(tǒng)的“單疾病單基因”研究思維模式,從而能從多基因協(xié)同角度探討疾病的發(fā)生和發(fā)展[8]。加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)利用生物系統(tǒng)演算方法,描述基因芯片樣本中基因之間的相關(guān)模式,以及高共表達(dá)基因或模塊簇與外部特征之間的關(guān)系[9]。利用這種方法可以將高度相關(guān)的基因歸于同一表達(dá)模塊,并通過引入相關(guān)臨床特征來篩選樞紐基因。本文通過基因表達(dá)匯編(Gene Expression Omnibus,GEO)數(shù)據(jù)庫,利用WGCNA構(gòu)建共表達(dá)網(wǎng)絡(luò),篩選與RCC診斷相關(guān)的樞紐基因,構(gòu)建最小絕對收縮和選擇算法(least absolute shrinkage and selection operator,LASSO),選擇RCC診斷基因,通過受試者工作特征(receiver operator characteristics curve,ROC)曲線評估候選基因的診斷價值,利用腫瘤基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫和基因型和基因表達(dá)量關(guān)聯(lián)(Genotype Tissue Expression,GTEx)數(shù)據(jù)庫對篩選的樞紐基因進(jìn)行驗證,分析RCC中免疫細(xì)胞浸潤程度和5個樞紐基因與免疫細(xì)胞的相關(guān)性,為RCC的診斷和免疫治療提供理論依據(jù)。
1.1 數(shù)據(jù)獲取和處理從GEO數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo)獲取符合要求的基因芯片集。從TCGA數(shù)據(jù)庫(http://cancergenome.nih.gov/)和GTEx數(shù)據(jù)庫(http://xena.ucsc.edu/)獲取符合要求的RNA測序轉(zhuǎn)錄組數(shù)據(jù)集。使用GSE11151和GSE66272作為訓(xùn)練集,構(gòu)建共表達(dá)網(wǎng)絡(luò)篩選差異表達(dá)基因(differentially expressed genes,DEGs),使用GSE53757、TCGA聯(lián)合GTEx數(shù)據(jù)集作為測試集驗證所得結(jié)果。
1.2 篩選DEGs利用R軟件Affy包[10]讀取原始數(shù)據(jù)并對數(shù)據(jù)預(yù)處理,剔除有關(guān)離群樣本后利用R軟件limma包[11]對基因表達(dá)矩陣進(jìn)行分析,基于P<0.05和對數(shù)變化倍數(shù)(|log2FC|)>2.0閾值得到RCC DEGs,結(jié)果繪制火山圖。
1.3 DEGs功能富集分析及免疫相關(guān)的基因富集分析(Gene Set Enrichment Analysis,GSEA)利用R軟件clusterProfiler包[11]對得到的DEGs進(jìn)行基因本體(Gene Ontology,GO)和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析,錯誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)<0.05為差異有統(tǒng)計學(xué)意義。從分子特征數(shù)據(jù)庫(Molecular Signatures Database,MSigDB)(http://www.broadinstitute.org/gsea/msigdb/index.jsp)下載“immunesigdb.gmt”免疫相關(guān)的基因集。利用R軟件中“GSVA”包進(jìn)行GSEA分析。P<0.05為差異有統(tǒng)計學(xué)意義。最后用R軟件“clusterProfiler”包明確DEGs中潛在的與免疫相關(guān)的生物學(xué)功能和可能參與的信號通路。
1.4 加權(quán)共表達(dá)網(wǎng)絡(luò)構(gòu)建采用R軟件中的WGCNA包建立了RCC相關(guān)基因共表達(dá)網(wǎng)絡(luò)。通過計算基因間的Pearson相關(guān)系數(shù)確定最優(yōu)的軟閾值β,使得共表達(dá)網(wǎng)絡(luò)更接近于無尺度網(wǎng)絡(luò)。然后,通過計算將鄰接矩陣轉(zhuǎn)化成拓?fù)渲丿B矩陣(Topological overlap matrix,TOM),并計算出基因之間的相異度(即1與TOM的差值)進(jìn)行層次聚類,從而構(gòu)建了有嵌套的分層聚類樹。最后,采用動態(tài)剪切的方法合并相似模塊。將各模塊與臨床特征相關(guān)聯(lián)后,分別計算基因顯著性(gene significance,GS)以及模塊顯著性(module significance,MS)。GS用于測量各基因與臨床資料之間的相關(guān)性,MS為各模塊內(nèi)各基因GS的平均值,作為各模塊與臨床資料之間的相關(guān)性。
1.5 樞紐基因的篩選及驗證通過計算各個基因模塊身份(module membership,MM)來衡量基因在模塊中的重要性。設(shè)置參數(shù)為|MM|>0.8和|GS|>0.5,進(jìn)一步篩選基因。將樞紐模塊中的基因與篩選的DEGs取交集,即為RCC樞紐基因。利用LASSO回歸對樞紐基因進(jìn)行進(jìn)一步篩選,所得到的基因即為最優(yōu)樞紐基因。后續(xù)為驗證得到的最優(yōu)樞紐基因的準(zhǔn)確性,分別在訓(xùn)練集和測試集中驗證樞紐基因的表達(dá)水平與RCC之間的關(guān)系。繪制ROC曲線和計算ROC曲線下面積(area under curve,AUC)來檢驗5個樞紐基因診斷RCC的價值。在GEO數(shù)據(jù)集(GSE53757)和TCGA聯(lián)合GTEx數(shù)據(jù)集中,檢測預(yù)后相關(guān)的樞紐基因在正常腎組織和癌組織之間的表達(dá)情況。進(jìn)一步采用人類蛋白質(zhì)表達(dá)圖譜(Human Protein Atls,HPA)數(shù)據(jù)庫(http://www.hprd.org/),利用免疫組化分析樞紐基因在正常腎組織和癌組織中的蛋白水平。
1.6 免疫浸潤分析利用聚類分析和單樣本基因集富集分析(single sample gene set enrichment analysis,ssGSEA)評估正常腎組織和RCC組織之間28種免疫細(xì)胞類型的頻率差異,計算免疫細(xì)胞浸潤相對豐度。結(jié)果用R軟件“vioplot”包繪制小提琴展示。最后,通過R軟件“Corrplot”分析5個樞紐基因與28種免疫細(xì)胞的相關(guān)性。
2.1 篩選DEGs基于P<0.05和對數(shù)變化倍數(shù)(|log2FC|)>2.0閾值聚合基因探針GSE11151和GSE66272,共得到DEGs 384個,其中上調(diào)基因129個,下調(diào)基因255個,結(jié)果繪制火山圖,見圖1。
圖1 RCC DEGs火山圖
2.2 GO、KEGG富集分析及免疫相關(guān)的GSEA為了解DEGs可能的生物功能,對各個差異基因進(jìn)行GO富集和KEGG通路分析。GO功能富集分析結(jié)果顯示,DEGs在生物學(xué)功能上主要富集于體液調(diào)節(jié)、一價無機(jī)陽離子穩(wěn)態(tài)、鈉離子轉(zhuǎn)運(yùn)及鈉離子穩(wěn)態(tài)等過程;細(xì)胞成分的變化主要與細(xì)胞質(zhì)膜、細(xì)胞基部和細(xì)胞基膜等有關(guān);分子功能層面主要富集于活性離子跨膜轉(zhuǎn)運(yùn)體活性、陰離子跨膜轉(zhuǎn)運(yùn)蛋白活性及次級活性跨膜轉(zhuǎn)運(yùn)蛋白活性等方面(見圖2A)。KEGG富集分析顯示這些DEGs在酪氨酸代謝、吞噬體、補(bǔ)體與凝血級聯(lián)反應(yīng)、醛固酮調(diào)節(jié)鈉重吸收和PPAR信號通路中顯著富集(見圖2B)。為進(jìn)一步了解DEGs的免疫功能,對DEGs進(jìn)行了免疫相關(guān)的GSEA分析,結(jié)果發(fā)現(xiàn)效應(yīng)CD8+T細(xì)胞、記憶CD8+細(xì)胞、CD4+T細(xì)胞、B細(xì)胞等在腫瘤組織中高表達(dá),提示腎腫瘤發(fā)生發(fā)展過程存在免疫激活和免疫細(xì)胞浸潤,可能對臨床中的免疫治療有效(見圖2C)。
A為DEGs GO功能分析;B為KEGG通路圖;C為DEGs免疫通路富集圖。圖2 RCC DEGs功能富集分析和腫瘤組織免疫通路富集圖
2.3 加權(quán)共表達(dá)網(wǎng)絡(luò)構(gòu)建采用R軟件PickSoft Threshold函數(shù),以相關(guān)系數(shù)0.9為基準(zhǔn),選取相鄰矩陣權(quán)重參數(shù)(軟閾值)β=2來構(gòu)造該基因模塊。利用一步法建立了共表達(dá)矩陣,采用動態(tài)混合剪切方法,獲得了11種不同類型的基因模型,其中包括300個基因的 red模型,比其他模型高(見圖3)。后取red模塊中的基因以備后用。
A為基因共表達(dá)網(wǎng)絡(luò)和共表達(dá)模塊的層次聚類樹;B為red模塊GS和MM相關(guān)性。圖3 共基因表達(dá)網(wǎng)絡(luò)篩選合適模塊
2.4 樞紐基因的篩選首先將上述得到的red模塊中的300個基因與RCC的DEGs取交集,得到15個樞紐基因,結(jié)果見圖4A。為進(jìn)一步篩選診斷基因,將得到的15個樞紐基因構(gòu)建LASSO回歸模型進(jìn)行二次篩選,最終確定5個樞紐基因,即ASS1、DIO1、FAM151A、SLC6A19和SLC22A6,提示其對RCC的診斷具有重要意義,具體結(jié)果見圖4B。
A為DEGs與共表達(dá)網(wǎng)絡(luò)的韋恩圖;B為LASSO模型進(jìn)一步篩選樞紐基因。圖4 樞紐基因的篩選
2.5 樞紐基因的內(nèi)部驗證為驗證上述得到的5個樞紐基因在正常組織和RCC組織之間的表達(dá)水平,分別在訓(xùn)練集和測試集(GSE53757)中計算樞紐基因的表達(dá)量并繪制箱式圖,見圖5A~E和圖5F~J,由結(jié)果可知5個樞紐基因在腎腫瘤組織中均為低表達(dá)且有意義;接著繪制ROC曲線并計算AUC來檢驗5個樞紐基因診斷RCC的價值,見圖5K~N和圖5O~R,結(jié)果提示得到的5個樞紐基因均能很好地診斷RCC。
A~E為訓(xùn)練集中樞紐基因在腫瘤組織和正常組織中的表達(dá);F~J為驗證集中樞紐基因在腫瘤組織和正常組織中的表達(dá);K~O為訓(xùn)練集中樞紐基因診斷RCC的ROC曲線;P~T為驗證集中樞紐基因診斷RCC的ROC曲線;***表示P<0.01。圖5 樞紐基因的內(nèi)部驗證
2.6 樞紐基因的外部驗證在TCGA聯(lián)合GTEx數(shù)據(jù)集中,進(jìn)一步驗證5個樞紐基因在正常組織和RCC組織之間的表達(dá)水平。結(jié)果發(fā)現(xiàn)5個樞紐基因在腎腫瘤組織中均為低表達(dá),與GSE53757數(shù)據(jù)集結(jié)果一致。同時,探討5個樞紐基因的表達(dá)水平與RCC臨床分期的關(guān)系,發(fā)現(xiàn)ASS1、FAM151A、SLC6A19和SLC22A6與RCC臨床分期相關(guān),而DIO1則無關(guān),見圖6A~D。另外,進(jìn)一步分析5個樞紐基因與預(yù)后的關(guān)系,發(fā)現(xiàn)SLC6A19基因與RCC的總生存期(overall survival,OS)和無病生存期(disease-free survival,DFS)均相關(guān)(圖6E~F),其中高表達(dá)SLC6A19的RCC患者的OS和DFS高于低表達(dá)的患者,提示SLC6A19基因在RCC中是一個預(yù)后相關(guān)的樞紐基因。
A~D為樞紐基因的表達(dá)水平與RCC臨床分期的關(guān)系;E、F為SLC6A19基因與RCC患者預(yù)后的生存曲線圖。圖6 樞紐基因的外部驗證
2.7 樞紐基因的免疫組化驗證為進(jìn)一步驗證樞紐基因的準(zhǔn)確性,在HPA數(shù)據(jù)庫利用免疫組化分析樞紐基因ASS1、FAM151A、SLC6A19和SLC22A6在正常腎組織和腫瘤組織中的蛋白水平。截至做文之前,HPA數(shù)據(jù)庫尚未收錄DIO1基因在RCC組織和腫瘤組織中的蛋白水平。從圖7可以直觀看出,樞紐基因ASS1、FAM151A、SLC6A19和SLC22A6均在腎正常組織中高表達(dá),在腫瘤組織中低表達(dá)。
上方為正常組織,下方為腫瘤組織。圖7 樞紐基因的免疫組化驗證
2.8 免疫浸潤分析利用聚類分析和ssGSEA評估正常腎組織和腫瘤組織之間28種免疫細(xì)胞類型的浸潤相對豐度差異,繪制小提琴圖,見圖8A。同時,分析5個樞紐基因與免疫細(xì)胞的相關(guān)性,見圖8B。從中可知免疫細(xì)胞在腎腫瘤組織中表達(dá)較高,提示免疫細(xì)胞與RCC發(fā)生發(fā)展密切相關(guān)。并且樞紐基因中SLC22A6與中性粒細(xì)胞呈明顯正相關(guān)(P<0.05),而DIO1、SLC6A19分別與2型輔助T細(xì)胞、活化CD4+T細(xì)胞呈負(fù)相關(guān)(P<0.05)。
A為免疫細(xì)胞小提琴圖;B為免疫細(xì)胞與樞紐基因的相關(guān)性。圖8 免疫浸潤分析
RCC作為泌尿系統(tǒng)常見的腫瘤之一,其發(fā)病機(jī)制目前尚不明確,很多患者初次診斷往往伴有轉(zhuǎn)移,喪失了手術(shù)治愈的機(jī)會。近年來隨著精準(zhǔn)醫(yī)學(xué)的發(fā)展,人們通過高通量測序技術(shù)發(fā)現(xiàn)了一些具有早期診斷價值和治療決策價值的關(guān)鍵基因。本研究基于生物信息學(xué)方法,利用GEO數(shù)據(jù)庫中的GSE11151和GSE66272數(shù)據(jù)集作為訓(xùn)練集,GEO數(shù)據(jù)集(GSE53757)和TCGA聯(lián)合GTEx數(shù)據(jù)集作為測試集,通過WGCNA共表達(dá)網(wǎng)絡(luò)及LASSO模型篩選具有診斷價值的樞紐基因,比較樞紐基因在腎腫瘤組織和正常組織間的表達(dá)量,評估樞紐基因用于診斷RCC的準(zhǔn)確性,采用免疫組化驗證樞紐基因的可靠性,最后分析RCC的免疫細(xì)胞浸潤程度以及樞紐基因與免疫細(xì)胞的相關(guān)性,為RCC的免疫治療提供理論依據(jù)。
本研究發(fā)現(xiàn)了RCC的5個樞紐基因,即ASS1、DIO1、FAM151A、SLC6A19和SLC22A6。5個樞紐基因在腎癌組織中的表達(dá)量低于正常腎組織,ROC曲線及AUC提示其具有較好的診斷價值。ASS1、FAM151A、SLC6A19和SLC22A6與RCC臨床分期相關(guān)。SLC6A19基因與RCC的OS和DFS均相關(guān),是RCC的保護(hù)因素,其高表達(dá)提示RCC患者的預(yù)后較好。HPA數(shù)據(jù)庫進(jìn)一步驗證ASS1、FAM151A、SLC6A19和SLC22A6這4個樞紐基因在正常腎組織和腫瘤組織中的蛋白表達(dá)水平。ASS1為精氨基琥珀酸合成酶1,是一種從瓜氨酸及天冬氨酸催化合成精氨基琥珀酸的酶,其功能的異常可導(dǎo)致血液內(nèi)的氮及其他尿酸循環(huán)的副產(chǎn)物(如瓜氨酸)增多。近年來,有文獻(xiàn)報道ASS1在骨肉瘤[12]、肝癌[13]等多種腫瘤組織中表達(dá)下降,有可能成為腫瘤診斷的新標(biāo)志物。李文華等[14]利用熒光定量聚合酶鏈反應(yīng)和免疫組化檢測23例RCC腫瘤組織和癌旁組織ASS1mRNA和ASS1蛋白質(zhì)的表達(dá)差異,利用酶聯(lián)免疫吸附試驗檢測癌組織與癌旁正常組織瓜氨酸水平,結(jié)果發(fā)現(xiàn)腫瘤組織中ASS1表達(dá)量降低,瓜氨酸水平升高。這與本研究的結(jié)論相仿。DIO1是薯、蕷、菝葜、七葉一枝花等多種中藥的活性成分,具有降血脂、祛痰、免疫調(diào)節(jié)、消炎等作用[15]。近年來研究發(fā)現(xiàn),DIO具有明顯的抗腫瘤作用,可以抑制乳腺癌、肺癌和黑色素瘤等多種腫瘤細(xì)胞生長。張廣獻(xiàn)[16]研究發(fā)現(xiàn)DIO可有效促進(jìn)腎786-0細(xì)胞的縫隙連接,并且具有明顯的劑量效應(yīng)關(guān)系。SLC6A19和SLC22A6同屬于溶質(zhì)載體蛋白亞家族,是一個較大的氨基酸-多肽-組織定位轉(zhuǎn)運(yùn)體超家族的組成之一[17]。前者可參與腎、小腸和腦組織中氨基酸的主動再攝取,后者可參與腎消除內(nèi)源性和外源性有機(jī)陰離子過程。有研究表明腎癌中離子轉(zhuǎn)運(yùn)體膜蛋白表達(dá)增高可增強(qiáng)腎癌藥物的敏感性[18]。既往研究發(fā)現(xiàn)溶質(zhì)載體蛋白亞家族既可以誘導(dǎo)T細(xì)胞和樹突狀細(xì)胞浸潤,又可以產(chǎn)生血管抑制作用,還可以促進(jìn)免疫增強(qiáng)蛋白的產(chǎn)生等,為機(jī)體創(chuàng)造一個有效的免疫微環(huán)境[19]。
近年來,RCC的全身系統(tǒng)治療發(fā)展迅速,特別是免疫治療為RCC帶來了新的治療選擇。目前,轉(zhuǎn)移性RCC患者一線治療方案主要是靶向治療、多種免疫藥物聯(lián)合治療和靶向聯(lián)合免疫治療。因此,在臨床診療過程中,如何為患者選擇合適的個性化治療方案是RCC研究的關(guān)鍵問題[20]。本研究通過免疫細(xì)胞GSEA發(fā)現(xiàn)RCC組織和正常組織間存在免疫細(xì)胞浸潤的顯著差異,對比正常組織,T細(xì)胞、樹突狀細(xì)胞、髓系抑制性細(xì)胞、B細(xì)胞、自然殺傷細(xì)胞、巨噬細(xì)胞和肥大細(xì)胞在RCC組織中的相對豐度較高,提示免疫細(xì)胞在RCC發(fā)生發(fā)展中發(fā)揮著重要作用。既往研究表明,巨噬細(xì)胞與腫瘤增殖、侵襲、轉(zhuǎn)移密切相關(guān)[21],高水平的巨噬細(xì)胞是RCC的核心特征之一,高水平的靜息態(tài)樹突狀細(xì)胞與RCC的預(yù)后呈正相關(guān)[22]。同時本研究還分析了5個樞紐基因與免疫細(xì)胞的相關(guān)性,結(jié)果顯示SLC22A6的表達(dá)與中性粒細(xì)胞呈正相關(guān),而DIO1、SLC6A19的表達(dá)分別與2型輔助T細(xì)胞、活化的CD4+T細(xì)胞呈負(fù)相關(guān)。由此可以推測活化的CD4+T細(xì)胞可能通過調(diào)控SLC6A19和DIO1在RCC發(fā)生發(fā)展中發(fā)揮著重要作用。然而,本研究缺乏臨床試驗的驗證,擬開展求證性試驗進(jìn)一步驗證本研究的結(jié)果。
最后,本研究通過WGCNA共表達(dá)網(wǎng)絡(luò)篩選了與RCC相關(guān)的5個樞紐基因(ASS1、DIO1、FAM151A、SLC6A19和SLC22A6)并對其進(jìn)行了初步驗證,同時通過免疫浸潤分析發(fā)現(xiàn)5個樞紐基因與免疫細(xì)胞浸潤密切相關(guān),為RCC的診斷和免疫治療提供理論依據(jù)。