王益民 蘇小藝 蘇文革 彭偉 李焱 王怡斐
(1.山東中醫(yī)藥大學第一臨床醫(yī)學院,濟南 250014;2.山東中醫(yī)藥大學附屬醫(yī)院,濟南 250014)
高血壓腎?。╤ypertensive nephropathy,HN)由慢性高血壓引起,是終末期腎病的主要病因之一。高血壓是一種容易導致靶器官損傷的疾病,腎臟損傷是其重要的一部分,包括腎小球硬化和萎縮、足細胞丟失以及腎小管間質纖維化等[1-2]。然而,有研究發(fā)現即使血壓降至目標水平,也只能減緩而不能阻止HN的進展[3]。腎小管間質部分占腎臟總質量的95%,間質炎癥和纖維化是導致腎功能下降的重要原因,也是腎硬化癥的主要特征[4-5]。大量研究已證實免疫系統(tǒng)在高血壓的發(fā)病機制中發(fā)揮關鍵作用,淋巴細胞是高血壓發(fā)生和靶器官損傷的重要參與者[6]。目前尚無反映高血壓腎損傷的早期診斷標志物能對HN的發(fā)生起到預警作用?;诖?,本研究擬以腎小管間質組織為研究對象,進一步探討HN發(fā)病的相關機制,并發(fā)掘其潛在的診斷標志物;并利用評估22種免疫細胞相對含量的CIBERSORT算法對HN腎小管間質組織的免疫細胞浸潤情況進行分析研究,以揭示免疫細胞浸潤模式。
1.1 GEO數據集的獲取 從GEO數據庫(https://www.ncbi.nlm.nih.gov/geo/)下載HN患者和健康人(Normal)腎小管間質組織樣本的數據集,GSE編號分別為GSE37455、GSE99325和GSE104954[4,7-8]。其中GSE37455和GSE104954均包括20例HN患者和21例健康人腎小管間質組織樣本,GSE99325包括20例HN患者和4例健康人腎小管間質組織樣本。所選數據集均具有完整的基因表達譜,同時不存在道德問題、倫理問題和其他利益沖突。本研究中實驗組和驗證組數據集選擇如表1所示。
表1 GEO數據集Tab.1 GEO datasets
1.2 數據處理和差異表達基因(differentially expressed genes,DEGs)的篩選 根據探針注釋文件將每個數據集中的探針名稱轉換為基因名稱,應用R軟件(版本4.1.2)中“SVA”包的combat功能消除批次效應,使用R軟件的“l(fā)imma”包對實驗組中的40個HN樣本和24個Normal樣本進行差異表達分析。調整后的假陽性率P<0.05和|log2FC|>0.5的樣本作為DEGs的閾值。
1.3 功能富集分析 為進一步探索DEGs的生物學意義,采用Metascape[9]在線分析平臺(https://metascape.org/gp/index.html)對DEGs進行功能富集分析。將P<0.01、最小計數為3,且富集因子>1.5的項分組到聚類中,相似性>0.3的項由邊連接,并呈現為網絡圖。
1.4 機器學習篩選特征基因 本研究采用3種機器學習算法進一步篩選DEGs。分別是最小絕對收縮和選擇算子(LASSO)、支持向量機遞歸特征消除法(SVM-RFE)和隨機森林(RF),在R軟件中分別用“glmnet”包、“e1071”包和“randomForest”包實現,然后將3種方法篩選的結果取交集,進而確定HN的特征基因。
1.5 特征基因的診斷價值 分別使用實驗組和驗證組數據將得到的特征基因進行驗證,并繪制受試者工作特征(receiver operating characteristic,ROC)曲線,曲線下面積(area under curve,AUC)值用于確定特征基因在HN和Normal樣本中的診斷有效性。
1.6 免疫細胞浸潤分析 將基因表達矩陣數據上傳至CIBERSORT,篩選出P<0.05的樣本,得到免疫細胞浸潤矩陣。然后利用R軟件中“corrplot”包繪制相關性熱圖,將22種免疫細胞浸潤水平的相關性可視化;“ggplot2”包繪制小提琴圖,將免疫細胞浸潤的差異可視化。
1.7 特征基因與免疫細胞浸潤水平的相關性 為探討特征基因與免疫細胞浸潤水平的相關性,采用R軟件進行Spearman等級相關分析,并用“ggplot2”包進行可視化。
2.1 DEGs的結果 本研究對實驗組40例HN和24例Normal樣本進行了分析,在去除批次效應后,使用“l(fā)imma”包對數據集進行分析,共獲得277個DEGs,其中128個DEGs下調,149個DEGs上調,DEGs的結果顯示在熱圖和火山圖中(圖1、圖2)。
圖1 DEGs熱圖Fig.1 Heat map of DEGs
圖2 DEGs火山圖Fig.2 Volcano map of DEGs
2.2 功能富集分析結果 在Metascape在線分析平臺上進行了DEGs的功能富集分析,圖3、圖4列出了排在前20的具有顯著意義的富集結果,并呈現出關系網絡,其中基因本體論(gene ontology,GO)生物過程主要與先天免疫反應、對細胞因子的反應、體液免疫反應、細胞因子產生的正向調節(jié)、炎癥反應和免疫系統(tǒng)過程的負向調節(jié)等有關。反應組基因集(Reactome Gene Sets)主要與免疫系統(tǒng)中的細胞因子信號傳導、干擾素信號傳導和中性粒細胞脫顆粒等有關。維基通路(WikiPathways)主要與同種異體移植排斥等有關。
圖3 DEGs富集項的條形圖Fig.3 Bar graph of enriched terms of DEGs
圖4 DEGs富集項的網絡圖Fig.4 Network diagram of enrichment terms of DEGs
2.3 特征基因篩選結果 使用LASSO回歸算法確定17個基因作為HN的候選特征基因。使用SVMRFE算法確定40個基因作為HN的候選特征基因。使用RF算法得出最佳決策樹數目為136個,在DEGs中挑選出評分最高的30個基因作為候選特征基因。取三種不同算法得到基因的重疊部分。最后獲得了3個特征基因:CISH、GADD45A和ZFP36(圖5)。
圖5 三種機器學習算法篩選結果圖Fig.5 Screening results of three machine learning algorithms
2.4 特征基因的診斷價值結果 如圖6所示,3個特征基因在實驗組和驗證組中均表現出良好的診斷價值,在實驗組數據集中,CISH的AUC值為0.963(95%CI:0.915~0.993),GADD45A的AUC值為0.953(95%CI:0.893~0.994),ZFP36的AUC值為0.916(95%CI:0.835~0.972)。在驗證組數據集中,CISH的AUC值為0.793(95%CI:0.648~0.923),GADD45A的AUC值為0.775(95%CI:0.616~0.895),ZFP36的AUC值為0.755(95%CI:0.595~0.889)。
圖6 驗證3個特征基因診斷價值的ROC曲線Fig.6 ROC curve for verifying diagnostic value of three characteristic genes
2.5 免疫細胞浸潤分析結果 得到的22種免疫細胞浸潤水平相關性熱圖如圖7,其中單核細胞和活化肥大細胞存在明顯的正相關關系(R=0.41),幼稚CD4+T細胞和活化肥大細胞存在明顯的正相關關系(R=0.37)。幼稚B細胞和記憶B細胞存在明顯的負相關關系(R=-0.64),活化肥大細胞和靜息肥大細胞存在明顯的負相關關系(R=-0.62),漿細胞和M2巨噬細胞存在明顯的負相關關系(R=-0.45)。免疫細胞浸潤差異的小提琴圖顯示,與Normal組相比,HN組中腎小管間質組織調節(jié)性T細胞和M1巨噬細胞浸潤較多(圖8)。
圖7 HN中免疫細胞間的相關性分析熱圖Fig.7 Analysis of correlation between immune cells in HN by heat map
圖8 HN與Normal組間免疫細胞浸潤差異的小提琴圖Fig.8 Violin diagram of the difference of immune cell infiltration between HN and Normal groups
2.6 特征基因與免疫細胞浸潤水平的相關性 相關性分析結果顯示(圖9),CISH與靜息樹突狀細胞呈正相關(R=0.33,P=0.017),與M1巨噬細胞呈負相關(R=-0.41,P=0.002 6)。GADD45A與漿細胞(R=0.59,P=5.6e-06)、活化CD4+記憶T細胞(R=0.29,P=0.035)和幼稚CD4+T細胞(R=0.28,P=0.046)呈正相關,與M1巨噬細胞(R=-0.38,P=0.005)、M2巨噬細胞(R=-0.30,P=0.029)和調節(jié)性T細胞(R=-0.27,P=0.048)呈負相關。ZFP36與靜息樹突狀細胞(R=0.37,P=0.007 1)和活化肥大細胞(R=0.37,P=0.006 1)呈正相關,與M1巨噬細胞(R=-0.37,P=0.006 9)和靜息肥大細胞(R=-0.36,P=0.007 6)呈負相關。
圖9 3個特征基因與免疫細胞浸潤水平的相關性Fig.9 Relationship between three characteristic genes and level of immune cell infiltration
目前HN的治療仍以控制血壓為主,尚無特異性治療方式。由于人口老齡化和心血管疾病存活率的提高,預計HN的發(fā)病率在未來幾十年將進一步增加,這也對HN的防治提出了新的挑戰(zhàn)。本研究通過分析包含40個HN和24個Normal腎小管間質組織的基因表達譜,得到277個DEGs。利用Metascape在線分析平臺進行生物信息學分析,發(fā)現DEGs與多種免疫相關過程有關,如先天免疫反應、體液免疫反應、對細胞因子的反應、細胞因子產生的正向調節(jié)、免疫系統(tǒng)中的細胞因子信號傳導、干擾素信號傳導及中性粒細胞脫顆粒等有關。研究發(fā)現,先天免疫反應的激活伴隨著炎癥反應的發(fā)展,進而引起纖維化、基質沉積和進行性腎損傷被認為是包括高血壓腎損害在內的多種腎臟疾病發(fā)病機制的關鍵因素[10]。體液免疫系統(tǒng)激活與高血壓發(fā)病之間的關聯也得到證實,系統(tǒng)性紅斑狼瘡(systemic lupus erythematosus,SLE)小鼠體液免疫系統(tǒng)激活和高血壓的發(fā)病具有明確的因果關系,用小鼠抗CD20抗體以消耗B細胞,可顯著減弱自身抗體的產生,并防止SLE小鼠模型高血壓的發(fā)展,強烈支持體液免疫系統(tǒng)激活可導致高血壓的發(fā)?。?1-12]。多種細胞因子參與HN的發(fā)病機制,炎癥相關細胞因子如IL-1β、IL-6、單核細胞趨化蛋白-1(MCP-1)、細胞間黏附分子-1(ICAM-1)和TNF-α等參與了包括高血壓腎損傷在內的炎癥反應[13-14]。纖維化相關細胞因子如TGF-β、結締組織生長因子(CTGF)等,在HN腎間質纖維化的形成中發(fā)揮關鍵作用[15-17]。由此可見,免疫相關機制在HN的發(fā)病中扮演重要角色,為揭示HN的發(fā)病機制提供了新方向。
本研究采用三種機器學習算法進一步篩選DEGs。LASSO是一種回歸分析算法,其使用正則化來提高預測精度[18]。支持向量機(SVM)是一種有監(jiān)督的機器學習技術,在分類和預測方面具有優(yōu)異的性能[19]。RF是通過集成學習的思想將多棵樹集成的一種算法,在處理多特征數據方面表現出優(yōu)異的性能[20]。這三種機器學習算法目前廣泛應用于特征基因的篩選[21-22]。本研究基于這三種機器學習算法,最終在DEGs中篩選出3個特征基因,分別是CISH、GADD45A和ZFP36。細胞因子誘導的含SH2蛋白(CISH)屬于細胞因子信號傳導抑制因子(SOCS)家族成員,SOCS家族包括SOCS1~SOCS7和CISH,最新研究表明,SOCS家族成員可通過介導細胞因子信號傳導的負反饋抑制,在先天性和適應性免疫應答中起關鍵作用[23]。生長停滯和DNA損傷誘導蛋白45α(GADD45A)是生長停滯和DNA損傷誘導蛋白45(GADD45)蛋白家族成員,GADD45A在各種細胞功能中發(fā)揮至關重要的作用,包括DNA修復、細胞凋亡和DNA甲基化等[24]。鋅指蛋白36(ZFP36)是一種ARE結合蛋白,可促進促炎細胞因子降解,例如TNF-α、粒細胞-巨噬細胞集落刺激因子(GM-CSF)、IL-6和環(huán)氧合酶-2(COX-2)等,在限制炎癥反應方面具有重要作用[25]。3個特征基因在實驗組和驗證組均表現出良好的診斷價值,在生理功能上與細胞因子功能的調控、細胞功能的調節(jié)以及炎癥反應的調節(jié)等相關,有望成為HN潛在的診斷標志物和治療靶點。
免疫細胞浸潤的結果顯示HN組中腎小管間質組織調節(jié)性T細胞(regulatory T cells,Tregs)和M1巨噬細胞浸潤較多,提示Tregs和M1巨噬細胞在HN中發(fā)揮關鍵作用。根據目前的研究,Tregs可影響免疫系統(tǒng)的多個環(huán)節(jié)來預防高血壓,以及減輕靶器官損傷[26]。缺乏Tregs會加重血管緊張素Ⅱ(Ang Ⅱ)依賴性高血壓,而反復過繼轉移Tregs則會減弱血壓升高[27]。Tregs產生的IL-10可通過減輕血管氧化應激改善高血壓微血管內皮功能[28]。Tregs還與補體系統(tǒng)相互作用。有研究表明,特異性靶向Tregs中的補體受體C3aR和C5aR可能是治療高血壓的另一種新方法[29]。M1巨噬細胞是極化巨噬細胞的一種,可產生活性氧和促炎細胞因子加劇炎癥,特別是TNF-α和IL-1β,介導了高血壓發(fā)病中的眾多機制[30]。還有研究指出,CD14+M1巨噬細胞通過其強烈表達血管緊張素轉換酶促進血壓升高,提示它們可能通過RAS系統(tǒng)參與高血壓的發(fā)生[31]。22種免疫細胞浸潤水平的相關性結果顯示,多種免疫細胞在HN的發(fā)病中具有相關性,單核細胞和活化的肥大細胞存在較強的正相關關系,幼稚B細胞和記憶B細胞存在較強的負相關關系。特征基因與免疫細胞浸潤水平的相關性結果顯示,3個特征基因與M1巨噬細胞均具有顯著的負相關性,CISH和ZFP36與靜息樹突狀細胞均呈正相關,GADD45A與漿細胞、活化CD4+記憶T細胞等呈正相關。目前關于各免疫細胞之間、特征基因與免疫細胞之間相關性的基礎研究尚缺乏大規(guī)模驗證,本研究結果具有一定的參考價值。
本研究也存在一定的局限性,數據來源依賴于GEO數據庫、樣本數量有限均可能造成分析結果的偏倚,同時還需要進一步的實驗驗證??傊?,本研究利用生物信息學和機器學習的方法對HN的DEGs進行了分析研究,并探討了HN的免疫細胞浸潤機制,對于HN發(fā)病機制的探討、診斷標志物的篩選及治療均具有參考意義。