郝 謙,陳 勇
膿毒癥是一種異質(zhì)性、復(fù)雜的病理生理綜合征,可引起多器官功能障礙,死亡率高。據(jù)估計,全世界每年約有800萬人死于膿毒癥,主要原因為膿毒癥休克,而循環(huán)、細胞和代謝異常可顯著增加死亡率[1,2]。這些不良的結(jié)果可能是由于缺乏對膿毒癥分子機制的理解。近年來發(fā)展的高通量測序技術(shù)可以快速明確膿毒癥發(fā)病機制,以及膿毒癥相應(yīng)的標記物,但是傳統(tǒng)的篩選差異基因表達極易遺漏調(diào)控過程中的核心分子,同時僅基于差異基因篩選難以對生物系統(tǒng)整體探索研究。通過系統(tǒng)的繪制個體生物網(wǎng)絡(luò)互作圖可以精準地尋找出與預(yù)后相關(guān)的核心分子[3,4],加權(quán)基因共表達網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)可以有效地解決上述問題[5,6]。筆者擬利用該方法探索出與膿毒癥發(fā)生、預(yù)后相關(guān)的關(guān)鍵基因,為今后的研究提供線索。
選擇Gene Expression Omnibus(GEO)數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)。GEO數(shù)據(jù)庫為目前最常用的非腫瘤研究數(shù)據(jù)庫,其內(nèi)含有比較齊全及數(shù)據(jù)量最多的數(shù)據(jù)庫。
1.2.1 數(shù)據(jù)檢索方法與要求
通過GEO數(shù)據(jù)庫檢索膿毒癥,下載時間:2020年12月28日。
納入分析數(shù)據(jù)集要求為:①數(shù)據(jù)量大于100;②含有膿毒癥患者和健康對照組;③膿毒癥患者有預(yù)后情況。
1.2.2 加權(quán)基因共表達網(wǎng)絡(luò)構(gòu)建和模塊篩選
WGCNA是一種常用的基因共表達網(wǎng)絡(luò)篩選技術(shù),已被廣泛應(yīng)用于識別和篩選各種疾病生物標記物[7]。第一步,對每個樣本基因名稱進行轉(zhuǎn)換,對基因表達值進行質(zhì)檢,檢測是否有缺失值,同時對每個樣本表達值進行層次聚類分析,篩選是否存在離群樣本,基于上述篩選,對缺失基因表達值及離群樣本予以剔除。第二步,通過R軟件中的“WGCNA”分析包構(gòu)建基因共表達網(wǎng)絡(luò)[4,8]。第三步,構(gòu)建基因之間的相關(guān)矩陣,確定軟閾值大小。第四步,構(gòu)建拓撲重疊矩陣(topological overlap matrix,TOM),用于度量基因的網(wǎng)絡(luò)連通性[3,9]。第五步,基于TOM數(shù)據(jù)將表達譜相似的基因歸為同一個基因模塊,并進行連鎖層次聚類[4,8]。第六步,計算每個模塊在每個數(shù)據(jù)集中所占權(quán)重,計算出權(quán)重最大模塊,用于后續(xù)研究。
1.2.3 核心基因篩選
在對基因模塊分析時,通過對上述模塊權(quán)重計算獲得占比最大模塊TURQUOISE模塊,為進一步識別模塊中核心靶基因,首先通過對模塊基因進行皮爾森相關(guān)分析,并進一步通過STRING(search tool for recurring instances of neighbouring genes)網(wǎng)站進行了蛋白與蛋白之間的相互作用分析(protein protein interaction,PPI)(選擇連接數(shù)最大10個),并利用Cytoscape軟件中的MCODE插件對模塊中基因進一步評分篩選。綜合上述的3個結(jié)果篩選真正的核心靶基因,SCAP。
1.2.4 GO功能學(xué)、KEGG通路分析和基因富集分析
為了解TURQUOISE模塊主要涉及的功能學(xué)和通路。采用標準富集計算方法進行基因本體(gene ontology,GO)功能分析和京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析用以篩選與其相關(guān)的功能和通路。為了解SCAP基因在膿毒癥患者中的潛在功能,利用實驗所納入的2個數(shù)據(jù)集進行基因富集分析(gene set enrichment analysis,GSEA)。其注釋基因集c2.cp.kegg.v5.2,選擇基因通路列表(gene lists per pathway,GMT)數(shù)據(jù)庫作為參考基因集。將P<0.05和富集評分(enrichment score,ES)>0.3作為截止標準,并選擇2個數(shù)據(jù)集中一致的通路認為是其可能影響通路。
統(tǒng)計分析采用的是SPSS 24.0,GraphPad Prism 7.0和R 3.4.1,同時用上述軟件進行圖像生成處理。t檢驗用來分析兩個組別之間的平均數(shù)的差異。繪制受試者工作特性 (receiver operating characteristic,ROC)曲線,評估核心靶基因的預(yù)測能力,利用曲線下面積(area under curve,AUC)評估靈敏度和特異度。P<0.05為差異有統(tǒng)計學(xué)意義。
檢索GEO數(shù)據(jù)庫并按篩選要求得到了2個數(shù)據(jù)集GSE26378和GSE54514。GSE54514含有163例患者全血芯片數(shù)據(jù),其中健康對照組36例,膿毒癥患者127例,膿毒癥患者中其中死亡31例;含有男性64例,女性99例;平均年齡55.56歲(標準差17.21歲);使用基因芯片平臺為GPL6947。用于實驗中進行外部驗證數(shù)據(jù)集GSE26378有103例患者全血芯片數(shù)據(jù),其中健康對照組21例,膿毒癥患者82例,膿毒癥患者中其中死亡12例;平均年齡53.75歲(標準差3.21歲);使用基因芯片平臺為GPL570。
基于21 085個基因在163例膿毒癥患者的表達數(shù)據(jù),利用WGCNA方法對每個樣本基因表達值及樣本表達值進行層次聚類分析,163例樣本無剔除離群樣本。進一步利用基于無序列網(wǎng)絡(luò)的WGCNA方法,首先對軟閾值進行篩選(圖1),當軟閾值選擇為6時即可獲得較好的連接關(guān)系。將基因進行模塊化富集分析(圖2),將基因依據(jù)其各相關(guān)表達量進一步進行分類。共篩選獲得了22個相應(yīng)的基因模塊(圖3),依據(jù)各模塊在各個樣本上皮爾森系數(shù)絕對值相加為最高者認定為響應(yīng)系數(shù)最高模塊,最后篩選獲取了TURQUOISE模塊,TURQUOISE模塊共含有1 377個基因。
為尋找TURQUOISE模塊中主要富集的細胞功能和通路,基于GO功能富集及KEGG數(shù)據(jù)庫中信號通路的上下游關(guān)系,依據(jù)TURQUOISE模塊中所含有的1 377個相關(guān)基因篩選表達響應(yīng)基因參與的信號通路的關(guān)聯(lián)圖(圖4A、B)。研究結(jié)果提示,發(fā)現(xiàn)多條極為相關(guān)的信號通路,即RNA調(diào)控表達異常、RNA剪切組成等。為進一步尋找TURQUOISE模塊中真正的核心分子,同時為避免遺漏真正的核心分子,將TURQUOISE模塊中的基因上傳到STRING網(wǎng)站中,進行PPI,并利用Cystacape軟件中復(fù)雜的分子檢測(molecular complex detection,MCODE)插件對PPI進行評分篩選位于調(diào)控核心位置的基因(圖5),并結(jié)合PPI網(wǎng)絡(luò)所獲得的基因連接數(shù)(納入連接數(shù)前10位的基因)用于篩選真正的核心分子。將上述3種方法所篩選的結(jié)果綜合分析,最后篩選出了固醇調(diào)節(jié)元件結(jié)合蛋白裂解激活蛋白(srebpcieavage activating protein,SCAP)基因為核心靶基因。
為了進一步驗證篩選的基因其在健康對照組和膿毒癥組中,以及在死亡組和存活組中表達情況,實驗利用建模數(shù)據(jù)集GSE54514,對SCAP基因進一步驗證(圖6)。SCAP基因在膿毒癥患者存活組中表達較死亡組顯著更高(9.036±0.032vs8.857±0.067。P<0.01),SCAP基因在健康對照組表達較膿毒癥組顯著更高(9.190±0.073 vs 8.99±0.030。P<0.01)。同時在ROC曲線下分析發(fā)現(xiàn),SCAP基因?qū)τ诎l(fā)生膿毒癥和膿毒癥患者中死亡情況也有較好的預(yù)測能力(圖7)。其在預(yù)測膿毒癥患者死亡上的ROC AUC為0.64,P=0.02。在預(yù)測是否發(fā)生膿毒癥上其AUC=0.62,P=0.03。上述結(jié)果進一步闡明實驗所篩選的SCAP基因具有較好的預(yù)測膿毒癥發(fā)生和死亡能力。
為了明確實驗所篩選的SCAP基因是否真正可以有效地預(yù)測膿毒癥的發(fā)生和預(yù)后情況,進一步利用外部數(shù)據(jù)集GSE26378中對所篩選的SCAP基因表達進行驗證其在健康對照組和膿毒癥組中,以及在死亡組和存活組中表達情況(圖8),SCAP基因在膿毒癥患者存活組中表達較死亡組顯著更高(0.886±0.030 vs 0.730±0.061。P=0.045),SCAP基因在健康對照組表達較膿毒癥組顯著更高(1.154±0.088 vs 0.863±0.078。P<0.01)。同時在ROC曲線下分析發(fā)現(xiàn),SCAP基因?qū)τ诎l(fā)生膿毒癥和膿毒癥患者中死亡情況也有較好的預(yù)測能力(圖9)。其在預(yù)測膿毒癥患者死亡上的AUC=0.69,P=0.04。在預(yù)測是否發(fā)生膿毒癥上其AUC=0.71,P<0.01。上述結(jié)果進一步闡明實驗篩選的SCAP基因在外部數(shù)據(jù)集中也有較好的預(yù)測膿毒癥發(fā)生和死亡能力,進一步驗證了SCAP基因的可靠性。
為了解SCAP基因主要涉及何種功能調(diào)控,實驗進一步利用GEO數(shù)據(jù)庫中GSE54514和GSE26378數(shù)據(jù)集并采用GSEA其所涉及的下游通路。發(fā)現(xiàn)SCAP基因主要涉及了T細胞受體及糖代謝。見圖10、11。
膿毒癥是由于炎性細胞因子的失調(diào)導(dǎo)致體內(nèi)細胞因子風(fēng)暴最終造成多器官衰竭和死亡[10,11],是目前臨床中所面臨的一個主要的公共衛(wèi)生問題;在過去的10年里,重癥監(jiān)護醫(yī)學(xué)取得了巨大的進步,但是膿毒癥的死亡率卻沒有實質(zhì)性的改善[12]。就目前研究結(jié)果而言,由于膿毒癥發(fā)病過程復(fù)雜,可能涉及到復(fù)雜的全身炎癥效應(yīng)、免疫功能障礙、凝血功能異常、組織損傷及宿主對不同感染病原微生物和其毒素的異常反應(yīng)等多個方面,與機體多系統(tǒng)、多器官病理生理改變密切相關(guān),膿毒癥的根本發(fā)病機制尚未明確[13]。筆者研究為尋找膿毒癥發(fā)生的機制,通過精準的WGCNA算法識別出與膿毒癥發(fā)生和預(yù)后顯著的SCAP基因。SCAP基因在內(nèi)部和外部數(shù)據(jù)集進行了相應(yīng)的驗證,均獲得了良好的結(jié)果,提示筆者研究所篩選的基因具有較強的重復(fù)性和可靠性。
SCAP是細胞脂肪合成酶的表達調(diào)控因子,在調(diào)節(jié)體內(nèi)甘油三酯和膽固醇水平中起著重要作用[14]。目前已有較多研究顯示,SCAP通過結(jié)合膽固醇調(diào)節(jié)元件結(jié)合蛋白 (sterol-regulatory element binding proteins,SREBP)并將它們從內(nèi)質(zhì)網(wǎng)運輸?shù)礁郀柣w進行蛋白水解處理,蛋白水解釋放的SREBP轉(zhuǎn)錄因子進入細胞核,從而促進膽固醇的合成和攝取[15]。當內(nèi)質(zhì)網(wǎng)中的膽固醇堆積阻止了SCAP/SREBP復(fù)合物的運輸,隨即中止SREBP的蛋白水解過程,導(dǎo)致靶基因轉(zhuǎn)錄水平下降[16]。因此,SREBP不再被加工,膽固醇合成和攝取受到抑制,膽固醇的穩(wěn)態(tài)得到恢復(fù)。目前已有較多的研究揭示了SCAP在脂質(zhì)代謝中所發(fā)揮的功能,其可能影響多種代謝通路等[17,1,8]。但目前尚無SCAP在膿毒癥中的作用及相關(guān)機制的報道。
筆者通過分析GEO中含有膿毒癥發(fā)生和預(yù)后相關(guān)的數(shù)據(jù)集GSE54514,首先利用了基于無序基因表達網(wǎng)絡(luò)的WGCNA方法,識別出對每個樣本具有最大影響作用的TURQUOISE模塊,為篩選出TURQUOISE模塊中最為核心的靶基因,即可能為數(shù)據(jù)集最為核心的靶基因,運用了多種網(wǎng)絡(luò)識別算法,最終獲得了SCAP基因。為進一步驗證筆者研究上述算法是否真正可行,利用內(nèi)部數(shù)據(jù)集GSE54514通過驗證SCAP基因在膿毒癥患者和健康對照組中SCAP基因表達顯著在健康對照組更高,提示SCAP基因高表達可能預(yù)示患者發(fā)生膿毒癥概率更低;同時在膿毒癥患者中死亡組和存活組患者的SCAP基因表達差異,結(jié)果提示存活組患者SCAP基因表達更高。上述結(jié)果進一步提示SCAP基因在膿毒癥發(fā)生和發(fā)展過程中可能作為一個保護因素。為進一步驗證筆者研究通過內(nèi)部數(shù)據(jù)集篩選所獲得數(shù)據(jù)是否可靠,再次利用GEO數(shù)據(jù)集篩選獲得了含膿毒癥和健康對照組數(shù)據(jù)集GSE26738。并通過差異表達分析和ROC曲線驗證了SCAP基因在膿毒癥患者中較健康對照組低表達,同時在死亡患者中表達也較存活患者低。進一步說明了SCAP基因作為膿毒癥中保護因子的可靠性。為進一步探索SCAP基因所涉及的通路和功能,實驗通過GSEA分析篩選了SCAP基因下游通路。結(jié)果提示SCAP基因可能通過T細胞受體及糖代謝兩個功能產(chǎn)生作用,也有研究顯示其與膿毒癥發(fā)生、發(fā)展相關(guān)。進一步佐證了筆者研究的結(jié)果。因此,筆者研究結(jié)果對未來探索或者應(yīng)用SCAP基因表達與膿毒癥患者發(fā)生和預(yù)后奠定了一定的基礎(chǔ),具有較強的指導(dǎo)意義。但不可否認的是,筆者研究的結(jié)果還需要進一步在臨床實際樣本中獲得更為可靠的驗證,以及通過一系列的體內(nèi)/體外實驗驗證SCAP基因的臨床和生物學(xué)意義。
總之,筆者采用WGCNA等生物信息學(xué)方法利用GEO數(shù)據(jù)庫研究了膿毒癥患者發(fā)生和預(yù)后相關(guān)基因,并發(fā)現(xiàn)了SCAP基因的低表達與膿毒癥發(fā)生和較差的預(yù)后相關(guān)。同時,筆者研究利用外部數(shù)據(jù)集對上述結(jié)果進一步驗證。上述的SCAP基因有可能成為新的預(yù)后指標,有助于膿毒癥患者個性化治療及臨床預(yù)后判斷。