朱 淵, 何瑞瑞, 劉 源, 朱華慶*, 李 棟,2),*
(1)安徽醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院, 合肥 230032;2)河北大學(xué)生命科學(xué)學(xué)院, 河北 保定 071002;3)軍事醫(yī)學(xué)研究院生命組學(xué)研究所,北京蛋白質(zhì)組研究中心,蛋白質(zhì)組學(xué)國家重點實驗室, 北京 102206)
免疫系統(tǒng)中,不同的免疫功能由高度特化的不同類型的細胞執(zhí)行,各種細胞在免疫系統(tǒng)中的交互作用類似于一個社會網(wǎng)絡(luò),而細胞因子則是連接這一網(wǎng)絡(luò)的重要分子。細胞因子是由免疫細胞和某些非免疫細胞經(jīng)刺激而合成、分泌的一類具有廣泛生物學(xué)活性的小分子多肽蛋白質(zhì)或糖蛋白質(zhì)。在免疫系統(tǒng)中,免疫細胞通過交換細胞因子實現(xiàn)細胞間的動態(tài)通訊,從而產(chǎn)生各種適應(yīng)環(huán)境的反應(yīng)。細胞因子包括白細胞介素(interleukin, IL)[1, 2]、干擾素(interferon, IFN)、腫瘤壞死因子(tumor necrosis factor, TNF)[3]、集落刺激因子(colony stimulating factor, CSF)、趨化因子(chemokines)[4]和生長因子(growth factor)[5]等,以自分泌、旁分泌、內(nèi)分泌3種方式作用于自身細胞或其他細胞,通過結(jié)合相應(yīng)的受體誘導(dǎo)細胞凋亡、調(diào)控細胞發(fā)育和分化、調(diào)控機體免疫應(yīng)答、介導(dǎo)炎癥反應(yīng)和促進組織修復(fù)[6]。眾多細胞通過細胞因子在機體內(nèi)相互促進或相互制約,形成極其復(fù)雜的細胞因子調(diào)節(jié)網(wǎng)絡(luò)。
目前,已發(fā)展了多種實驗方法用于發(fā)現(xiàn)細胞-細胞因子的信息傳遞網(wǎng)絡(luò)[7, 8],但這些方法通常存在周期長、設(shè)備要求高和成本高等缺陷,有必要發(fā)展生物信息學(xué)方法助力細胞因子-細胞相互作用的發(fā)現(xiàn)。為此,Kveler等[9]發(fā)展了一種文本挖掘的方法,從廣泛疾病條件下的所有可用的PubMed摘要中提取340種細胞類型與140種細胞因子的關(guān)系,建立了目前規(guī)模最大的細胞-細胞因子相互作用數(shù)據(jù)集immuneXpresso (iX)。進而通過聚類的方式來系統(tǒng)地預(yù)測細胞和細胞因子之間的相互作用關(guān)系。然而,iX數(shù)據(jù)集以及[9]文中預(yù)測的839對細胞-細胞因子的結(jié)果,同整個的免疫細胞-細胞因子相互作用空間(iX數(shù)據(jù)集提供,包括345種免疫細胞和143種細胞因子)相比仍然是極為有限,有必要發(fā)展更為高效的預(yù)測模型,進一步推進細胞-細胞因子相互作用的研究。細胞與細胞因子相互作用的預(yù)測本質(zhì)是一種關(guān)聯(lián)關(guān)系的研究,變分圖自編碼器(VGAE)作為一種無監(jiān)督學(xué)習(xí)框架,被廣泛應(yīng)用于鏈接預(yù)測任務(wù)[10-12],其有望在細胞-細胞因子相互作用的預(yù)測中發(fā)揮重要作用。
VGAE將變分自編碼器(variational auto-encoder, VAE)中的變分思想引入到圖,充分利用圖在表征和計算領(lǐng)域的優(yōu)點[13]。圖是現(xiàn)實生活中廣泛存在的一類數(shù)據(jù)[14],生物醫(yī)學(xué)領(lǐng)域中的分子網(wǎng)絡(luò)、化合物分子等都可以用圖來表示。利用VGAE中的圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network, GCN)能夠很好地融合圖的網(wǎng)絡(luò)拓撲特征和節(jié)點屬性特征[15, 16]。除此之外,自編碼器因其較強的特征學(xué)習(xí)能力、訓(xùn)練速度快、更少的中間參數(shù)等優(yōu)點而被廣泛使用[17]。
因此,本文提出一種基于VGAE預(yù)測細胞-細胞因子相互作用的深度學(xué)習(xí)模型——DeepCKI。此模型利用細胞因子組成的蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction, PPI)網(wǎng)絡(luò)和蛋白質(zhì)不同類型的特征構(gòu)成圖,通過GCN學(xué)習(xí)圖的節(jié)點以及節(jié)點屬性之間的內(nèi)在規(guī)律和更加深層次的語義特征。利用已知的細胞-細胞因子相互作用和學(xué)習(xí)到節(jié)點嵌入向量訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)分類器,進而預(yù)測新的細胞-細胞因子之間的關(guān)聯(lián)。
本文從iX數(shù)據(jù)庫(http://www.immunexpresso.org)下載了文本挖掘獲得的人類細胞-細胞因子相互作用數(shù)據(jù)集。該數(shù)據(jù)集包括細胞作用于細胞因子以及細胞因子作用于細胞兩大類(Table 1)。其中,細胞因子作用于細胞可進一步細分為:細胞因子正調(diào)控細胞(cytokine-cell+)、細胞因子負調(diào)控細胞(cytokine-cell-)、細胞因子調(diào)控細胞(cytokine-cell)。匯總所有數(shù)據(jù)集并刪除重復(fù)項,得到3 345對細胞-細胞因子相互作用。
Table 1 Details of cell-cytokine interaction datasets
本文用圖來描述蛋白質(zhì)相互作用網(wǎng)絡(luò)。圖(graph)是由節(jié)點(node)和連接這些節(jié)點的邊(edge)組成的數(shù)據(jù)結(jié)構(gòu),圖定義為G=(V, E)。其中,V表示節(jié)點的集合,E表示節(jié)點之間相連邊的集合。通用的圖表示是一個五元組:G(V, E, A, X, D)。其中,AN×N代表圖的鄰接矩陣,XN×F代表節(jié)點的特征矩陣,DN×N代表度矩陣,N和F分別代表節(jié)點的數(shù)量和節(jié)點特征向量的維度。
1.3.1 蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò) 本文從STRING(v11.0)[18]數(shù)據(jù)庫下載PPI(9606.protein.links.v11.0.txt.gz)數(shù)據(jù)。細胞-細胞因子相互作用數(shù)據(jù)集劃分為不同的類型。根據(jù)每種類型數(shù)據(jù)集中的細胞因子,篩選2個蛋白質(zhì)都是細胞因子且“combined score”大于300的高可靠的PPI,然后構(gòu)建鄰接矩陣AN×N表示蛋白質(zhì)之間的連接關(guān)系,而如果使用STRING數(shù)據(jù)庫中經(jīng)過實驗驗證的PPI,最多只能整合55對PPI,這么小的規(guī)模無法構(gòu)建有效的預(yù)測體系,所以,采用了全部證據(jù)來源的相互作用。蛋白質(zhì)vi和vj之間有相互作用,那么對應(yīng)的鄰接矩陣的元素Aij=1,否則Aij=0。鄰接矩陣對角元素通常設(shè)為0。
1.3.2 蛋白質(zhì)序列 從Swiss-Prot[19]數(shù)據(jù)庫中下載所有人類蛋白質(zhì)及其序列數(shù)據(jù)。采用聯(lián)合三聯(lián)體(conjoint triad,CT)[20]編碼將蛋白質(zhì)序列轉(zhuǎn)換為固定維度的嵌入向量,而包含模糊氨基酸(B、O、J、U、X、Z)的蛋白質(zhì)被刪去。常見的20種氨基酸根據(jù)偶極子和側(cè)鏈體積的差異被分成7類(Table 2),所有同一類的氨基酸都被認為是相同的。CT編碼嵌入向量的維度為7 × 7 × 7 = 343。任意3個連續(xù)的氨基酸作為1個三聯(lián)體單位,嵌入向量第i維值為三聯(lián)體在蛋白質(zhì)序列中出現(xiàn)的頻率。
Table 2 Classification of amino acids according to their dipoles and volumes of the side chains
CT定義為:
V=[n0,n1,…,nq-1]
其中,ni是每種三聯(lián)體在蛋白質(zhì)序列中出現(xiàn)的頻率,q等于343。
1.3.3 蛋白質(zhì)的亞細胞定位、結(jié)構(gòu)域和功能注釋 從Swiss-Prot數(shù)據(jù)庫中下載蛋白質(zhì)的亞細胞定位(subcellular localization)、結(jié)構(gòu)域(domain)和GO(gene ontology)注釋信息,采用詞袋模型(bag-of-words)[21]編碼上述數(shù)據(jù),以蛋白質(zhì)的亞細胞定位為例,假設(shè)本文獲得n個不同的亞細胞定位,則亞細胞定位被編碼為一個長度為n的二進制向量,向量中的每個元素表示該蛋白質(zhì)是否被標(biāo)注了亞細胞定位。對于無任何亞細胞定位注釋的蛋白質(zhì),它被表示為一個全為0的長度為n的向量。采用詞袋模型編碼蛋白質(zhì)結(jié)構(gòu)域和GO條目時,為了避免維度災(zāi)難和降低復(fù)雜性,只使用在數(shù)據(jù)集中出現(xiàn)5次以上的結(jié)構(gòu)域條目(term),以及10次以上的GO注釋。
DeepCKI整體架構(gòu)如Fig.1所示。模型主要分為3個模塊:輸入特征轉(zhuǎn)換模塊、VGAE模塊和DNN分類器模塊。3個模塊具體介紹如下:
Fig.1 The framework of DeepCKI model (A) Input feature conversion module. This module takes input as the human PPI network downloaded from the STRING database and protein amino acid sequences from the Swiss-Prot database. The PPI network is converted to the format of the adjacency matrix A, and a node attributes matrix X encoded by different protein features. (B) VGAE module. VGAE is an encoder-decoder approach. The encoder is two-layer graph convolutional network and the decoder is a dot product decoder. We obtained the mean embedding vector μ of cytokines for downstream classification tasks. (C) DNN module. The mean vector μ and cell-cytokines label matrix as input for the DNN classification, and the DNN classifier outputs the probabilities of the cell-cytokines interactions
1.4.1 輸入特征轉(zhuǎn)換模塊 如Fig.1A所示,此模塊以 STRING 數(shù)據(jù)庫中下載的人類PPI網(wǎng)絡(luò)和來自Swiss-Prot數(shù)據(jù)庫的蛋白質(zhì)氨基酸序列為輸入,PPI網(wǎng)絡(luò)被轉(zhuǎn)換為鄰接矩陣A的格式。CT方法編碼蛋白質(zhì)氨基酸序列,詞袋模型編碼亞細胞定位、結(jié)構(gòu)域和GO 注釋,轉(zhuǎn)換后的不同維度的二進制向量作為特征矩陣X。
1.4.2 VGAE模塊 如Fig.1B所示,VGAE是一種無監(jiān)督特征提取方法,它基于網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點特征生成細胞因子的潛在表示。其一般包含編碼器和解碼器2個部分,基本思路是:編碼器采用2層GCN結(jié)構(gòu),學(xué)習(xí)節(jié)點隱含向量表示的均值(μ)和方差(σ)的分布,然后從正態(tài)分布中采樣得到節(jié)點的向量表示zi,解碼器利用學(xué)習(xí)到的潛變量Z通過內(nèi)積的方式重構(gòu)鄰接矩陣A。編碼器與解碼器的詳細構(gòu)造如下:
1.4.2.1 編碼器
VGAE的編碼器由GCN組成。它以鄰接矩陣A和特征矩陣X作為輸入,生成潛在變量Z作為輸出。首先,2層GCN定義為:
(1)
Z=μ+σ⊙
(2)
q(zi|X,A) =N(zi|μi,diag(σi2))
(3)
1.4.2.2 解碼器
VGAE解碼器將使用學(xué)習(xí)到隱變量zi的內(nèi)積來重構(gòu)鄰接矩陣:
(4)
1.4.2.3 損失函數(shù)
L=Eq(Z|X,A)[logp(A|Z)-
KL(q(Z|X,A)||p(Z)]
(5)
1.4.3 DNN分類器模塊 正如Fig.1(C)所示,DNN分類模塊由3部分組成:輸入層(input layers)、隱藏層(hidden layers)與輸出層(output layer)。DNN分類器的輸入是每個細胞因子經(jīng)過GCN編碼后提取的均值向量μ和已知的細胞-細胞因子相互作用關(guān)系。隱藏層與輸出層包含功能神經(jīng)元,神經(jīng)元之間的“連接權(quán)”,以及每個功能神經(jīng)元的閾值會在學(xué)習(xí)過程中根據(jù)訓(xùn)練數(shù)據(jù)進行調(diào)整。DNN分類器是一個多標(biāo)簽分類模型,輸出為m×n形狀的概率矩陣,每一行表示某個細胞因子與n個細胞發(fā)生相互作用的概率,每一列表示m個細胞因子與某類細胞發(fā)生相互作用的概率?;诟怕示仃嚺c細胞-細胞因子構(gòu)成的標(biāo)簽矩陣,計算出各個閾值下預(yù)測結(jié)果的真陽性率和假陽性率,進而繪制n條ROC(Receiver Operating Characteristic)曲線,每條曲線對應(yīng)一類細胞與m個細胞因子的二分類結(jié)果。DeepCKI代碼的編寫參考了Graph2GO[22]文章。
1.5.1 k-倍交叉驗證 為了驗證模型的效果,本文將所有已知細胞-細胞因子相互作用的數(shù)據(jù)集數(shù)據(jù)分為k份,k-1份作為訓(xùn)練集,1份作為驗證集,依次輪換訓(xùn)練集和驗證集k次。交叉驗證可降低由于訓(xùn)練集和驗證集單次劃分而導(dǎo)致的偶然性,提高泛化能力。
1.5.2 ROC曲線 ROC的全稱是“受試者工作特征”曲線[23],該曲線能夠反映在不同閾值下敏感度與特異度之間的關(guān)系。一個理想的預(yù)測模型應(yīng)該同時具有較高的真陽性率(true positive rate, TPR)和較低的假陽性率(False Positive Rate, FPR)。ROC曲線圖中,每個點以對應(yīng)的FPR值為橫坐標(biāo),以TPR值為縱坐標(biāo)。ROC曲線下面積(area under the curve of ROC, AUC)衡量模型優(yōu)劣的一種評價指標(biāo)。本文使用機器學(xué)習(xí)的Scikit-learn[24]包中的roc_curve和auc函數(shù)繪制ROC曲線,并計算AUC值。
1.5.3 精確率、召回率和F1-score 真陽性(true positive, TP)指的是將陽性樣本正確預(yù)測為陽性樣本;假陽性 (false positive, FP)指的是將陰性樣本錯誤預(yù)測為陽性樣本;真陰性(true negative, TN)指的是將陰性樣本正確預(yù)測為陰性樣本;假陰性(false negative, FN)指的是將陽性樣本錯誤預(yù)測為陰性樣本。本文同時使用精確率(precision)、召回率(recall)和F1-socre評估模型的預(yù)測性能。具體計算公式如下所示:
(6)
(7)
(8)
本文通過整合細胞因子的PPI網(wǎng)絡(luò)和蛋白質(zhì)序列特征,建立了細胞-細胞因子預(yù)測模型——DeepCKI,該模型包含3個模塊,其中輸入特征轉(zhuǎn)換模塊實現(xiàn)蛋白質(zhì)相互作用網(wǎng)絡(luò)和蛋白質(zhì)屬性特征到編碼向量的轉(zhuǎn)換;VGAE模塊使用Adam優(yōu)化器進行迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重,學(xué)習(xí)率lr等于0.001,迭代次數(shù)epochs等于60,2層GCN隱藏層神經(jīng)元個數(shù)分別是800和400;DNN模塊的隱藏層為3層,每層神經(jīng)元的個數(shù)分別為1 024、512、256,在訓(xùn)練過程中對每層的輸入數(shù)據(jù)加1個批標(biāo)準(zhǔn)化處理(batch normalization),隱藏層的激活函數(shù)為LeakyRelu,添加Dropout防止模型過擬合,Adam優(yōu)化器實現(xiàn)對模型的優(yōu)化,二進制交叉熵損失(binary crossentropy)作為損失函數(shù),輸出層使用sigmod激活函數(shù)完成最終的多標(biāo)簽分類任務(wù)。本文利用已知細胞-細胞因子相互作用數(shù)據(jù)集訓(xùn)練DeepCKI模型,訓(xùn)練的目標(biāo)是不斷調(diào)節(jié)模型的超參數(shù),提高模型預(yù)測的準(zhǔn)確率,降低損失函數(shù)的值。DeepCKI基于Tensorflow深度學(xué)習(xí)框架,代碼和數(shù)據(jù)集都已上傳到https://github.com/zhuyuan804/DeepCKI/tree/master。
為了驗證不同類型的特征對模型預(yù)測性能的影響,進而尋找最合適的特征或特征組合。本文使用蛋白質(zhì)序列、亞細胞定位、結(jié)構(gòu)域、GO 功能4種蛋白質(zhì)屬性特征來訓(xùn)練模型,從中選擇與細胞因子信息傳遞功能最相關(guān)的特征。其中,不同特征的嵌入向量以首尾橫向拼接的方式實現(xiàn)特征的組合。5倍交叉驗證(5-fold cross-validation)評估模型預(yù)測效果,ROC曲線下面積評估蛋白質(zhì)不同屬性特征對DeepCKI模型預(yù)測性能的影響。
由Fig.2A可知,在只使用單類型特征的情況下,蛋白質(zhì)序列作為特征時模型的ROC曲線下面積等于0.8701,優(yōu)于亞細胞定位、結(jié)構(gòu)域、GO功能。在Fig.2(B)中,將序列特征分別與亞細胞定位和結(jié)構(gòu)域進行組合,模型預(yù)測性能略低于只使用序列信息。雖然GO和序列的組合對模型的預(yù)測效果略有提升,但可以忽略不計??傊A(yù)測結(jié)果說明,蛋白質(zhì)序列特征比其他類型特征包含更多的信息量,多種特征的組合并不能顯著提升模型的預(yù)測性能,而僅使用序列特征就能達到,較好的預(yù)測效果。因此,本文僅使用蛋白質(zhì)序列特征對細胞-細胞因子相互作用進行預(yù)測。
Fig.2 Prediction model performance comparison against using different protein attributes (A) Individual protein attributes sequence, subcellular location, protein domains and GO. (B) Combined protein attributes. sequence and location, sequence and domain, location and domain, sequence, location and domain, GO and sequence
VAE與DNN是兩類經(jīng)典的深度學(xué)習(xí)算法,可以用于鏈接預(yù)測或分類任務(wù)。VAE無法讀入圖,DNN僅是對細胞-細胞因子相互作用數(shù)據(jù)進行簡單的分類訓(xùn)練,并不能捕捉細胞因子之間的內(nèi)在相似性,而DeepCKI可以用于圖,因此,本文建立的DeepCKI模型在預(yù)測細胞-細胞因子相互作用時,將會比上述2種經(jīng)典深度學(xué)習(xí)模型更有優(yōu)勢。為了驗證這一假設(shè),本文利用相同的去除重復(fù)的3 345對細胞-細胞因子相互作用數(shù)據(jù)集對3個模型的預(yù)測性能進行比較,并利用5倍交叉驗證評估模型預(yù)測性能。
從Fig.3的結(jié)果可知,基于變分圖自編碼器的DeepCKI模型取得了最優(yōu)的結(jié)果(AUC=0.8701),遠高于VAE模型(AUC=0.7637)和DNN模型(AUC=0.6960)。DeepCKI模型預(yù)測性能得到顯著提高的原因是因為VAGE相對于VAE而言增加了對圖特征的提取,編碼器的GCN結(jié)構(gòu)從輸入的網(wǎng)絡(luò)拓撲結(jié)構(gòu)和蛋白質(zhì)序列中捕獲細胞因子包含的深層次信息。結(jié)果可知,將VGAE學(xué)習(xí)到細胞因子的隱含表示均值向量μ輸入到DNN分類器,比簡單使用DNN進行分類更為有效。
Fig.3 Comparison of DeepCKI, VAE and DNN Each model was evaluated using 5-fold cross-validation. DeepCKI has the highest area under ROC curve (AUC=0.8701) among the three models
細胞-細胞因子之間具有多種類型的關(guān)聯(lián)關(guān)系(詳情可查看Table 1),其中包括:細胞正調(diào)控細胞因子(例如,巨噬細胞和T細胞產(chǎn)生IL-10促進淋巴細胞性脈絡(luò)叢腦膜炎病毒(LCMV)克隆感染的慢性[25])、細胞因子正調(diào)控細胞(例如IL-2在體外能有效誘導(dǎo)T細胞擴增[26])、細胞因子負調(diào)控細胞(例如IL-21和IL-12抑制宮頸癌患者調(diào)節(jié)性T細胞的分化[27])、細胞因子調(diào)控細胞(例如IL-7, IL-4, IL-6,IL-10作用于B細胞[28])。為了考察DeepCKI模型預(yù)測不同類型細胞-細胞因子預(yù)測的能力,本文使用Table 1中不同類型的細胞-細胞因子相互作用數(shù)據(jù)對DeepCKI模型進行訓(xùn)練,采用AUC、精確率、召回率和F1-score共4種評估指標(biāo)評估模型預(yù)測性能。由Fig.4可知,雖然在擁有最多PPI數(shù)據(jù)的cytokin-cell得不到最高的召回率和F1-score,但他的精確率和F1-score值最高。模型在4種類型數(shù)據(jù)集上的AUC值均在0.8 以上,證明了模型具有較好的預(yù)測能力。此外,本文發(fā)現(xiàn)在,4類相互作用中,已知PPI越多,該類AUC值越高,表明數(shù)據(jù)集越完整,算法可以學(xué)習(xí)到更多的信息,預(yù)測更加準(zhǔn)確。本文使用cell-cytokine+數(shù)據(jù)集將該模型與上述2種深度學(xué)習(xí)模型(VAE和DNN),以及17種來源于Pykeen[29]包中基于知識圖譜用來預(yù)測節(jié)點之間關(guān)系的嵌入方法。結(jié)果正如Fig.5所示,DeepDKI具有最優(yōu)的預(yù)測性能,進一步證明了模型的高效預(yù)測性能。
Fig.4 AUC, precision, recall, and F1-Score values of DeepCKI model against four different datasets during 5-fold cross validation The AUC values of the model on the four types of data sets are all above 0.8, which proves that the model has good predictive ability
Fig.5 The performance of the DeepCKI and 19 other methods on the cell-cytokine interaction datasets These methods include two deep learning models (VAE and DNN). Seventeen embedding methods from the pykeen package are used to predict relationships between nodes. DeepDKI has the best predictive performance
為了進一步驗證DeepCKI模型的預(yù)測能力,本文使用3 345對細胞-細胞因子相互作用數(shù)據(jù)集對DeepCKI模型進行訓(xùn)練,在全蛋白質(zhì)組范圍內(nèi)進行細胞-細胞因子的關(guān)聯(lián)預(yù)測。刪除與已知數(shù)據(jù)集重疊的部分,本文預(yù)測獲得12 410對細胞-細胞因子相互作用(結(jié)果未顯示)。利用Cytoscape[30]開源軟件對預(yù)測分值排名前100的細胞-細胞因子相互作用進行可視化展示,結(jié)果正如Fig.5展示,涉及21種細胞與41種細胞因子,其中有36對在最新發(fā)表的文獻中被證實,表明DeepCKI具有發(fā)現(xiàn)新的細胞-細胞因子相互作用的關(guān)系的能力。
結(jié)果正如Fig.6所示,巨噬細胞(macrophage)和T細胞具有最多的細胞因子數(shù)量。文獻證明,巨噬細胞存在于大部分組織中,是一類具有吞噬作用的天然免疫細胞,參與細胞碎片和病原體的識別、吞噬和降解,在炎癥和宿主防御中以及疾病進展中發(fā)揮至關(guān)重要的作用[31]。當(dāng)巨噬細胞受到刺激時,通過釋放TNF、IL-1、IL-6、IL-20、趨化因子(C-X-C motif)配體9 (chemokine (C-X-C motif) ligand 9, CXCL9)等細胞因子發(fā)揮重要調(diào)節(jié)作用。其中,TNF是引起感染性休克的主要細胞因子之一,在下丘腦中TNF刺激促腎上腺皮質(zhì)釋放激素的釋放,抑制食欲,誘導(dǎo)發(fā)燒[32]。IL-1是一個多效應(yīng)的細胞因子,在炎癥期間IL-1可刺激肝產(chǎn)生急性期蛋白(acute phase proteins),并作用于中樞神經(jīng)系統(tǒng),誘導(dǎo)發(fā)熱和前列腺素分泌[33]。IL-6具有促炎和抗炎的雙向調(diào)節(jié)功能,影響從免疫到組織修復(fù)和新陳代謝的調(diào)節(jié)過程[32]。IL-20可以通過調(diào)節(jié)脂肪生成和巨噬細胞失調(diào)參與肥胖[32, 34],促進白細胞和上皮細胞之間的細胞通訊[35]。巨噬細胞來源的CXCL9為免疫檢查點阻斷后的抗腫瘤免疫應(yīng)答所必需[36]。T細胞是免疫系統(tǒng)中核心組分及效應(yīng)細胞,具有多種細胞亞型,包括CD8+T細胞,CD4+ T細胞以及T調(diào)節(jié)細胞等。CD8+T細胞可將細胞毒素釋放到受感染的細胞,導(dǎo)致細胞死亡。腫瘤微環(huán)境中的CD8+T細胞可生成IL-2、IL-12和IFNγ,靶向殺死腫瘤細胞。CD4+ T細胞分泌的CCL2可召集免疫調(diào)節(jié)細胞在感染部位集聚。調(diào)節(jié)性T細胞在活化時可分泌免疫調(diào)節(jié)因子,例如IL-10、轉(zhuǎn)化生長因子β和IL-35。不同細胞因子也參與調(diào)節(jié)T細胞的功能,CXCL1通過調(diào)節(jié)T細胞功能來幫助宿主防御微生物敗血癥[37],CCL8誘導(dǎo)活化的T細胞趨化[37, 38],MIF(macrophage migration inhibitory factor)抑制T細胞活化[39]。細胞因子IL23A可以同最多類型的細胞關(guān)聯(lián)。一方面,細胞因子IL-23A可以由多種免疫細胞分泌,例如巨噬細胞[40],CD4陽性T細胞(CD4-positive T cell)[41]和B細胞[42]。另一方面,IL-23A可以調(diào)控多種細胞的功能,例如可使極化T細胞向不同的效應(yīng)功能表型分化,參與活化T細胞增殖的正向調(diào)節(jié),抑制調(diào)節(jié)性T細胞活性,導(dǎo)致T細胞依賴性結(jié)腸炎[43]。Fig.5網(wǎng)絡(luò)的分析結(jié)果與文獻報道一致,其一定程度上證明了DeepCKI模型預(yù)測結(jié)果的可靠性。
Fig.6 Insights into the top 100 predicted cell-cytokine interaction network Orange and purple nodes, respectively, stand for cell and cytokine. Edges represent cell and cytokine interactions. Solid lines indicate that the predicted cell-cytokine interactions have been validated in the literature, and dotted lines indicate that they have not been validated. " (+)” denotes cytokines that promote cells, e.g. induces"; "(-)" indicates that cytokines inhibit cells, e.g. "decreased"; "(·)" means cytokines act on cells, a neutral regulation, e.g. "correlate”; (*) indicates that cells secrete cytokines
了解免疫細胞間網(wǎng)絡(luò)的通訊對理解疾病中的免疫反應(yīng)至關(guān)重要。本文構(gòu)建的預(yù)測細胞-細胞因子相互作用的深度學(xué)習(xí)模型加速推進對細胞間通訊的系統(tǒng)研究。該模型采用圖結(jié)構(gòu)設(shè)計,以細胞因子組成的鄰接矩陣A和蛋白質(zhì)序列組成的特征矩陣X作為輸入,通過整合網(wǎng)絡(luò)節(jié)點和節(jié)點特征生成潛在表示,以DNN分類器輸出預(yù)測的細胞-細胞因子相互作用。通過對不同蛋白質(zhì)特征進行篩選,發(fā)現(xiàn)僅使用序列作為初始特征時模型的預(yù)測性能最優(yōu),說明蛋白質(zhì)序列特征比其他類型特征包含更多的信息量。此外,具有GCN結(jié)構(gòu)的DeepCKI模型性能,優(yōu)于無GCN結(jié)構(gòu)的變分自編碼器和不經(jīng)過編碼直接使用特征信息進行分類的深度神經(jīng)網(wǎng)絡(luò),說明GCN能從圖中學(xué)習(xí)到節(jié)點和邊的內(nèi)在規(guī)律,以及節(jié)點屬性蘊含更加深層次的特征信息。此外,該模型在不同類型數(shù)據(jù)集的訓(xùn)練中均表現(xiàn)出了魯棒性和有效性,并且新預(yù)測的細胞和細胞因子,通過查閱文獻證明其與多種疾病的發(fā)生發(fā)展密切相關(guān)。
綜上結(jié)果可以推測,DeepCKI模型具有發(fā)現(xiàn)新的細胞-細胞因子相互作用的能力,有助于為大規(guī)模的細胞-細胞因子的實驗研究提供一定的理論指導(dǎo)。但模型尚不能實現(xiàn)對細胞-細胞因子激活/抑制關(guān)系及方向性的預(yù)測。未來,可在此方面進一步拓展模型的性能,同時對模型的可解釋性進行深入研究。
中國生物化學(xué)與分子生物學(xué)報2022年8期