陳濤,茍士學(xué),鄭偉,金銀戈,蔣美玲,羅賢,周小青*
(1.五邑大學(xué) 生物科技與大健康學(xué)院,廣東江門 529020;2.中國科學(xué)院 廣州生物醫(yī)藥與健康研究院,廣東廣州 510530)
非洲豬瘟(African Swine Fever,ASF)是一種高傳染性出血性疾病,主要感染對(duì)象是家豬和野豬。豬感染ASF 后的臨床癥狀表現(xiàn)不盡相同,從死亡率100%的急性癥狀到慢性甚至無癥狀均有[1]。非洲豬瘟病毒(African Swine Fever Virus,ASFV)是一種具有包膜的大型DNA 病毒,是非洲豬瘟病毒科非洲豬瘟病毒屬的唯一成員。ASFV 基因組信息量巨大,具有顆粒結(jié)構(gòu)復(fù)雜、免疫逃逸手段多樣高效、定期重組自身基因組等特點(diǎn),這些都給疫苗的研制造成了很大困難[2]。迄今為止,人們還沒有研發(fā)出可用于預(yù)防或治療非洲豬瘟的有效疫苗和抗病毒藥物,因此對(duì)ASFV 的傳染機(jī)制和致病機(jī)制進(jìn)行深度探索具有十分重要的意義[3]。本研究利用生物信息學(xué)方法,對(duì)非洲豬瘟感染樣本的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行分析,旨在探究與非洲豬瘟感染機(jī)制和致病機(jī)制相關(guān)的關(guān)鍵基因,為ASFV 的疫苗和藥物開發(fā)提供新的候選靶點(diǎn)。
基因表達(dá)綜合(Gene Expression Omnibus,GEO)公共數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo)收錄了全世界大部分的表達(dá)譜數(shù)據(jù)及高通量測序數(shù)據(jù)。本研究通過篩選下載了GSE132905(GPL26793)的轉(zhuǎn)錄組數(shù)據(jù),該數(shù)據(jù)包含感染ASFV 后3 h、6 h、9 h、12 h、15 h、18 h 的6 個(gè)時(shí)間點(diǎn)的轉(zhuǎn)錄組數(shù)據(jù),每個(gè)時(shí)間點(diǎn)有3 個(gè)重復(fù)。
本研究利用主成分分析(Principal Component Analysis,PCA)對(duì)各時(shí)間樣本之間的情況進(jìn)行分析。PCA 是一種常用的多元數(shù)據(jù)分析方法,在生物信息學(xué)領(lǐng)域中被廣泛應(yīng)用。它可以將高維數(shù)據(jù)映射到低維空間,并保留數(shù)據(jù)的主要特征。這種方法可以用于尋找數(shù)據(jù)的主要變化模式,幫助研究人員更好地理解數(shù)據(jù)。
針對(duì)GSE132905 數(shù)據(jù),首先根據(jù)GPL26793 平臺(tái)提供的注釋文件,將探針I(yè)D 轉(zhuǎn)換為對(duì)應(yīng)的基因ID,并根據(jù)數(shù)據(jù)集中提供的差異倍數(shù)值|log FC|>1 作為條件篩選差異基因。
本研究所選擇的數(shù)據(jù)集中的所有樣本都是以不同時(shí)間點(diǎn)為實(shí)驗(yàn)條件進(jìn)行測序的,所以可以選擇采用基于時(shí)間變量的聚類分析模塊DEG-Patttern 分析方法進(jìn)行差異基因的分析,該分析是使用DEGreport包中的degPatterns 函數(shù)區(qū)分差異基因的不同表達(dá)模式。
為了描述感興趣基因列表的分子功能或通路,使用gprofiler2 進(jìn)行功能富集分析。gprofiler2 是一個(gè)生物信息學(xué)工具包,用于對(duì)基因和蛋白質(zhì)序列進(jìn)行功能和富集分析,它可以幫助研究人員在大規(guī)模基因表達(dá)數(shù)據(jù)中尋找生物學(xué)過程、代謝途徑、信號(hào)通路等方面的富集。
為了探究關(guān)鍵基因潛在的相互作用,對(duì)各時(shí)間點(diǎn)的差異基因取交集,并將交集基因上傳到STRING 數(shù)據(jù)庫(https://cn.string-db.org/)構(gòu)建蛋白質(zhì)互作網(wǎng)絡(luò)(PPI)的可視化結(jié)果。
對(duì)數(shù)據(jù)集中的各樣本進(jìn)行主成分分析(PCA),結(jié)果表明感染初期的樣本較集中,感染后期的樣本聚類較集中,反映出實(shí)驗(yàn)樣本具有可靠性(圖1)。根據(jù)|log FC|>1 的條件篩選得到918 個(gè)差異基因,并以柱狀圖的形式展示各時(shí)間點(diǎn)的差異基因數(shù)量,發(fā)現(xiàn)差異基因主要集中在感染后期,說明感染的時(shí)間越長,樣本之間的差異越大,差異基因的數(shù)量越多(圖2)。
圖1 主成分分析圖
圖2 差異基因柱狀圖
對(duì)篩選得到的差異基因,使用DEGreport包(https://rdrr.io/github/lpantano/DEGreport/man/degPatterns.html)的degPatterns 函數(shù)進(jìn)行DEG-Pattern 聚類分析,聚類結(jié)果顯示聚類4 的535 個(gè)基因和聚類2 的258 個(gè)基因表達(dá)分為兩個(gè)趨勢:一種是隨著感染時(shí)間的增加,基因的表達(dá)逐漸下調(diào);另一種是隨著時(shí)間的增加,基因的表達(dá)逐漸上調(diào),說明該部分的基因具有研究意義(圖3、圖4)。然后利用gprofiler 包[4]中的gost 函數(shù)對(duì)聚類中的差異基因進(jìn)行富集分析,富集分析結(jié)果發(fā)現(xiàn)聚類4 的基因主要與抗病毒反應(yīng)和免疫反應(yīng)等通路相關(guān),符合在感染初期由于病毒的入侵迅速激起免疫反應(yīng),而隨著感染時(shí)間的增加,病毒會(huì)對(duì)免疫系統(tǒng)產(chǎn)生影響從而降低基因的表達(dá)。聚類2 的基因主要與免疫細(xì)胞的增殖相關(guān),猜測是由于隨著感染時(shí)間的增加,體內(nèi)病毒載量增加,生物體會(huì)促進(jìn)免疫細(xì)胞的增殖(圖5、圖6)。
圖3 DEG-Pattern 聚類2 結(jié)果圖
圖4 DEG-Pattern 聚類4 結(jié)果圖
圖5 DEG-Pattern 聚類2 富集分析圖
圖6 DEG-Pattern 聚類4 富集分析圖
對(duì)各時(shí)間點(diǎn)的差異基因取交集,共獲得12 個(gè)關(guān)鍵基因,表明這些基因參與病毒入侵的全程,對(duì)于病毒入侵機(jī)制的研究具有一定的意義。用柱狀圖對(duì)這些基因在各時(shí)間的表達(dá)進(jìn)行展示,發(fā)現(xiàn)基因的表達(dá)與聚類的結(jié)果一致。UBE2L6、ISG15、ISG20、HERC6基因的表達(dá)在感染初期逐漸升高,隨后保持不變;APOL3、IL1RN、DOX58、IFIT1、IFIT2、RSAD2、RHPN2、CXCL10 基因的表達(dá)在感染的初期高表達(dá),隨著感染時(shí)間的增加表達(dá)逐漸降低,猜測這部分基因可能在感染初期產(chǎn)生反應(yīng),基因的表達(dá)快速升高,隨著感染時(shí)間的增加,病毒對(duì)免疫系統(tǒng)產(chǎn)生影響,導(dǎo)致基因的表達(dá)下調(diào)(圖7)。
圖7 關(guān)鍵基因在各實(shí)驗(yàn)組的表達(dá)圖
利用STRING 蛋白互作網(wǎng)絡(luò)在線數(shù)據(jù)庫(https://cn.string-db.org/)分析篩選得到的12 個(gè)關(guān)鍵基因潛在的相互作用。蛋白質(zhì)互作網(wǎng)絡(luò)圖(圖8)結(jié)果表明,在12 個(gè)關(guān)鍵基因中有9 個(gè)關(guān)鍵基因存在相互作用,這9個(gè)基因分別是IFIT1、IFIT2、ISG15、ISG20、CXCL10、DDX58、HERC6、UBE2L6、IRG6(RSAD2)。查閱NCBI 數(shù)據(jù)庫發(fā)現(xiàn),這9 個(gè)基因的表達(dá)主要與細(xì)胞的抗病毒作用和先天免疫反應(yīng)及免疫細(xì)胞的增殖相關(guān):IFIT1、IFIT2 是編碼干擾素誘導(dǎo)的四肽重復(fù)蛋白;ISG15、ISG20 是干擾素刺激基因,與免疫系統(tǒng)的信號(hào)通路相關(guān);HERC6、UBE2L6 是泛素酶,與免疫蛋白的合成相關(guān);CXCL10 是編碼趨化因子,與NK細(xì)胞、T 細(xì)胞的遷移相關(guān);DDX58 可編碼RNA 受體RIG-I,與先天免疫系統(tǒng)和干擾素的產(chǎn)生相關(guān);IRG6(RSAD2)可編碼抗病毒蛋白,能夠在細(xì)胞抗病毒反應(yīng)和先天免疫中發(fā)揮作用。
圖8 關(guān)鍵基因蛋白互作網(wǎng)絡(luò)分析圖
綜合當(dāng)前的研究發(fā)現(xiàn),干擾素相關(guān)基因在宿主抵抗病毒時(shí)發(fā)揮著至關(guān)重要的作用[3,5]。HEIDEGGER 等[6]揭示了DDX58 編碼的RNA 受體RIG-I 蛋白能夠誘導(dǎo)促炎性細(xì)胞因子和IFN-I 產(chǎn)生;PICHLMAIR 等[7]發(fā)現(xiàn)IFIT 家族蛋白能夠調(diào)節(jié)轉(zhuǎn)錄起始、細(xì)胞增殖與細(xì)胞遷移等多種生命活動(dòng);BOGUNOVIC 等[8]發(fā)現(xiàn)干擾素刺激基因ISG15、ISG20 能夠刺激T 淋巴細(xì)胞與NK 細(xì)胞釋放IFN-γ,在抵抗病毒、細(xì)菌等先天免疫和適應(yīng)性免疫中發(fā)揮重要作用;FREITAS 等[9]發(fā)現(xiàn)病毒在復(fù)制的過程需要泛素結(jié)合酶E2 等多種酶的參與;GAO 等[10]證實(shí)UBE2L6 可能被干擾素上調(diào),從而產(chǎn)生抗病毒作用。
本研究對(duì)公用數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行挖掘,首先對(duì)數(shù)據(jù)進(jìn)行主成分分析,發(fā)現(xiàn)感染后不同時(shí)間的樣本聚類明顯,反映了轉(zhuǎn)錄組數(shù)據(jù)的可靠性。使用差異分析和DEG-Pattern 聚類分析相結(jié)合,共篩選出918 差異基因,對(duì)這些差異基因進(jìn)行聚類分析,發(fā)現(xiàn)第一部分差異基因在剛感染時(shí)表達(dá)量增加,隨著感染時(shí)間的增加表達(dá)量呈現(xiàn)逐漸減少的趨勢,第二部分差異基因在感染后表達(dá)量呈現(xiàn)逐漸增加的趨勢。對(duì)這兩部分的差異基因進(jìn)行富集分析,結(jié)果表明第一部分的差異基因主要與細(xì)胞的抗病毒反應(yīng)及免疫反應(yīng)等通路有關(guān),第二部分的差異基因主要與免疫細(xì)胞的增殖通路有關(guān)。對(duì)不同時(shí)間點(diǎn)的差異基因取交集,得到了12 個(gè)關(guān)鍵基因。將這些基因上傳到STRING 蛋白互作網(wǎng)絡(luò)在線數(shù)據(jù)庫進(jìn)行分析,蛋白互作網(wǎng)絡(luò)分析結(jié)果顯示有9個(gè)基因存在相互作用,并通過檢索NCBI 數(shù)據(jù)庫發(fā)現(xiàn)這9 個(gè)基因大多數(shù)都參與干擾素的生成、泛素酶的合成、先天免疫反應(yīng)、抗病毒機(jī)制、病毒的復(fù)制、免疫細(xì)胞的增殖等。這些基因的異常表達(dá)很可能是由于非洲豬瘟病毒的入侵對(duì)其產(chǎn)生了干預(yù)。筆者篩選出來的多個(gè)表達(dá)異常的基因,如DDX58、IFIT1、IFIT2、ISG15、ISG20 和UBE2L6 等,已經(jīng)在非洲豬瘟相關(guān)文獻(xiàn)有過類似報(bào)道[9],說明這些基因是研究非洲豬瘟感染機(jī)制和致病機(jī)制的潛在靶點(diǎn)基因。
綜上所述,通過生物信息學(xué)分析和蛋白互作數(shù)據(jù)庫篩選,可鑒定出有助于揭示ASFV 潛在感染機(jī)制和致病機(jī)制的關(guān)鍵基因,為ASFV 的疫苗和藥物開發(fā)提供新的候選靶點(diǎn)。雖然本研究得到的關(guān)鍵基因需要進(jìn)一步通過實(shí)驗(yàn)進(jìn)行驗(yàn)證,但基于數(shù)據(jù)庫進(jìn)行的生物信息學(xué)的數(shù)據(jù)挖掘還是提供了可靠的方法,縮小了對(duì)于關(guān)鍵基因的篩選范圍,節(jié)省了大量的資源成本和人力成本。