關鍵詞:卷積神經網(wǎng)絡;結合位點預測;TCR-多肽相互作用;深度學習
中圖分類號:TP311.5 文獻標志碼:A
0 引言(Introduction)
蛋白質-蛋白質相互作用(PPI)在細胞生物學中占有重要地位,對揭示蛋白質功能和解釋細胞生物學特性具有深遠的影響。其中,約四成的蛋白質-蛋白質相互作用是由相對較小的多肽介導,這些多肽介導的相互作用涉及多種異常細胞行為,有可能引發(fā)腫瘤、神經退行性疾病等。在攻克這些疾病時,人體的免疫系統(tǒng)發(fā)揮著核心作用,并且對抗原的識別和應答至關重要。T細胞受體(TCR)與抗原多肽的結合作為蛋白質多肽相互作用中關鍵的一環(huán),是免疫反應不可或缺的步驟之一。因此,準確預測TCR與特定多肽結合的位點不僅有助于相關疾病的藥物設計,還對探究疾病的潛在分子基礎有著深遠的意義。
1 研究現(xiàn)狀(Research status)
當前,已有多個數(shù)據(jù)庫,例如蛋白質功能數(shù)據(jù)庫BioLip[1]和蛋白質結構數(shù)據(jù)庫(PDB)[2]為實驗測定的TCR-多肽相互作用位點提供查詢服務。然而,傳統(tǒng)生物學實驗測定相互作用位點的過程耗費了巨大的資源和時間。因此,利用各類計算方法如機器學習或深度學習預測蛋白質及其配體結合位點具有重要的影響。鑒于TCR-多肽相互作用的構象復雜性和高度特異性,目前尚未出現(xiàn)專門用于TCR-多肽結合位點的預測工具,仍以更通用的蛋白質-多肽結合位點預測工具為主。這些算法模型主要分為兩大類,即基于蛋白質序列信息的算法模型和基于蛋白質結構信息的算法模型。
基于蛋白質序列信息的算法模型從蛋白質的氨基酸序列出發(fā),利用氨基酸序列的獨特性質進行結合位點的預測。TAHERZADEH等[3]提出的SPRINT-Seq采用基于序列的特征,包括編碼后的氨基酸種類信息、進化信息、結構信息和理化性質,用于預測與肽結合的殘基。除此之外,已有研究表明,蛋白質與肽的結合與蛋白質的內在無序性密切相關[4],PepBind[5]方法首次引入了基于共識的內在無序性概念。
基于蛋白質結構信息的算法模型是使用每條蛋白質對應的結構信息作為輸入特征,包括蛋白質的二級結構和三級結構。ABDIN等[6]提出的PepNN-Struct采用圖學習方法,引入圖注意模塊編碼蛋白質結構的上下文,通過多頭注意模塊整合肽序列的上下文信息,并確定與肽和蛋白質嵌入的結合殘基。但是,目前許多蛋白質結構仍是未知的,限制了基于蛋白質結構信息的算法模型的應用范圍。
盡管前人的研究在蛋白質-多肽的結合位點預測領域取得了一定進展,但依舊存在改進的空間。通過巧妙地結合序列和結構特征,可以開發(fā)更可靠的預測方法,因此本研究提出了一種基于深度學習的TCR-多肽相互作用位點的預測模型,充分利用TCR序列和結構信息對氨基酸進行特征編碼以提升模型的預測性能。此外,為解決當前研究中TCR-多肽結合位點數(shù)據(jù)集稀缺的問題,本研究綜合多個文獻及數(shù)據(jù)庫整理了一個TCR-多肽結合位點數(shù)據(jù)集并進行預處理,以期為后續(xù)研究提供便利。
2 基于雙卷積神經網(wǎng)絡預測模型的構建(Construction of prediction model based ondual-module convolutional neural network)
2.1TCR-多肽結合位點數(shù)據(jù)集的構建
由于目前的研究大多聚焦于蛋白質序列上的多肽結合位點預測,忽略了TCR的相關內容,因此本研究從蛋白質結合位點數(shù)據(jù)庫PEPBDB[7]收集了一個TCR-多肽結合位點數(shù)據(jù)集,設置篩選條件為蛋白質類別中的TCR鏈且該序列上的結合殘基的原子距離小于3.5 ?。在經過去重等數(shù)據(jù)預處理之后,最終得到一個具有113個不同的TCR的298條鏈的序列數(shù)據(jù)和對應的結合位點標簽,將這298條鏈的序列數(shù)據(jù)按照8∶2的比例劃分為訓練集和測試集,分別命名為Training_Dataset_tcr和Testing_Dataset_tcr。利用這個數(shù)據(jù)集訓練了一個深度學習模型用于預測TCR序列上的肽結合位點。
Training_Dataset_tcr包括238條TCR序列,含有3 871個結合位點和49 297個非結合位點。Testing_Dataset_tcr包括60條TCR序列,含有1 100個結合位點和12 276個非結合位點。此外,本研究采用了SPRINT-Str中收集的蛋白質-多肽結合位點數(shù)據(jù)集Testing_Dataset_pro Ⅱ作為一個獨立測試集,用于判斷模型對TCR上的結合位點預測的準確性。
所有數(shù)據(jù)集對應的詳細信息如表1所示。
2.2 特征提取
在構建機器學習或深度學習模型進行預測時,需要將輸入數(shù)據(jù)轉換為數(shù)值型,以便計算機進行有效的處理。對于本研究的目標數(shù)據(jù),即TCR序列,采用特殊的特征提取方法將原始的fasta格式的TCR序列編碼為數(shù)值型向量或張量,方便計算機讀取。
2.2.1 位置特異性矩陣特征
位置特異性矩陣特征(Position-Specific Scoring Matrix,PSSM)是在生物信息學和計算生物學領域廣泛應用的方法,用于描述DNA(脫氧核糖核酸)、RNA(核糖核酸)或蛋白質序列中的位置特異性模式。這些模式通常與特定的生物學功能或結構關聯(lián),對理解基因調控、蛋白質結構與功能,以及其他生物學過程至關重要。對于一條長度為N 的TCR序列,利用經過注釋的蛋白質序列數(shù)據(jù)庫Swiss-Prot[8],運行PSI-BLAST[9]后通過3次E-value值為0.001的迭代,生成每條序列對應的PSSM矩陣。
2.2.2 二級結構
蛋白質二級結構指的是由氨基酸殘基之間的內部氫鍵相互作用形成的局部結構模式。在蛋白質結構中,氨基酸殘基通常有α 螺旋、β 折疊和無規(guī)則卷曲(random coil)3種主要形式排列?,F(xiàn)有研究存在兩種分類蛋白質二級結構的方法,一種是每個氨基酸有3種可能的二級結構,另一種是每個氨基酸對應8種可能的二級結構。有研究表明,蛋白質的二級結構與蛋白質及其配體的結合特性相關,這同樣適用于TCR-多肽的結合。本研究采用spider3[10]獲取每條TCR序列對應的8類二級結構特征文件。每個氨基酸對應一個八維的向量。
2.2.3 氨基酸的理化特性和物理特性
考慮到氨基酸的化學性質、構象性質、側鏈性質和疏水性等特性是蛋白質序列編碼的關鍵影響因素。氨基酸的理化特性[11]為每條長度為N 的蛋白質序列生成一個N ×7的二維特征矩陣,物理特性利用氨基酸的原子數(shù)、靜電電荷和潛在氫鍵為每條長度為N 的蛋白質序列生成一個N ×3的二維特征矩陣。這些特性提供的有價值的信息,有助于數(shù)值化表示和功能預測。
2.3 基于雙模塊卷積神經網(wǎng)絡的深度學習模型
2.3.1 構建滑動窗口讀取TCR特征
滑動窗口法是深度學習中常用的數(shù)據(jù)處理和特征提取技術,主要用于處理具有序列結構的數(shù)據(jù)。該方法通過將輸入的序列劃分為固定大小的窗口,將這些窗口作為模型的輸入,實現(xiàn)在維持序列信息的同時引入局部上下文的相關性。
窗口的大小是滑動窗口法的一個關鍵參數(shù),它決定了每個窗口中包含的元素數(shù)量。在判斷輸入序列中氨基酸殘基是否為多肽結合位點時,目標殘基的領域信息對預測結果有顯著影響。滑動窗口過大或過小都可能導致模型性能下降。因此,滑動窗口大小的選擇是影響預測結果的一個重要因素。為了比較不同大小的滑動窗口對TCR-多肽結合位點預測模型性能的影響,本研究將滑動窗口的大小設定在[7,15]的區(qū)間進行對比實驗,最終得出最佳的滑動窗口大小為11。
2.3.2 卷積神經網(wǎng)絡模型的構建
本文的深度學習架構采用不同的模塊捕捉不同的信息。如圖1所示,該模型包含兩個卷積神經網(wǎng)絡(CNN)模塊,分別接收經過滑動窗口讀取的PSSM和二級結構的融合特征,以及氨基酸理化性質和物理性質的融合特征。通過Flatten(扁平)層和全連接層對前兩個組件的輸出進行解碼,從而獲得目標殘基的分類結果。該模型的一個顯著特點是其利用滑動窗口法采用的多對一結構,即利用許多殘基的信息預測中心單個殘基的結合傾向。對于預測目標的每個氨基酸,以該氨基酸位置為中心,使用大小為11的窗口收集鄰近10個殘基的信息幫助預測。序列的開頭和結尾部分通過零填充。多對一結構是一種數(shù)據(jù)增強技術。深度學習模型需要大量數(shù)據(jù)訓練,在數(shù)據(jù)有限的蛋白質組學中,在訓練過程中多次使用每個殘基的特征有助于模型更好地學習。
2.3.3 針對不平衡數(shù)據(jù)集的訓練策略
(1)Focal Loss 損失函數(shù)。Focal Loss[12]的提出旨在解決樣本數(shù)據(jù)失衡的問題,它是一種基于對標準交叉熵損失函數(shù)的修改而改進的損失函數(shù)。當數(shù)據(jù)集中正例或負例的數(shù)量占據(jù)絕對優(yōu)勢時,會導致訓練效果低下。Focal Loss損失函數(shù)通過減小易分類樣本的權重,使得模型在訓練過程中更專注于難以分類的樣本,其公式如式(1)所示:
(2)過采樣。過采樣(Oversampling)是一項用于應對分類問題中樣本不平衡挑戰(zhàn)的技術。在分類問題中,樣本不平衡表現(xiàn)為不同類別的樣本數(shù)量存在顯著差異,從而導致模型在訓練和預測過程中對少數(shù)類別的分類性能下降。
過采樣的核心思想是通過增加少數(shù)類別的樣本數(shù)量,使其與多數(shù)類別的樣本數(shù)量相當,從而實現(xiàn)數(shù)據(jù)集的平衡。這一方法的優(yōu)勢在于提高模型對少數(shù)類別的學習能力,進而改善分類的精確度和召回率指標,模型能夠更有效地捕捉少數(shù)類別的特征,從而提升對整個數(shù)據(jù)集的分類性能。
2.4 評價指標
對于蛋白質多肽結合和非結合位點預測,結合和非結合位點分別由陽性和陰性樣本表示。本文使用5個測量評估指標:召回率(Recall)、精確度(Precision)、馬修斯相關系數(shù)(MCC)、ROC曲線下面積(AUROC)和精確召回曲線下面積(AUPRC)對本文提出的模型性能進行評估,并與其他類似模型進行了比較。馬修斯相關系數(shù)、精確度、召回率的方程如公式(2)至公式(4)所示:
對于二分類問題,TP 為真陽性,表示結合位點預測被正確預測為結合;TN 為真陰性,表示非結合位點預測被正確預測為非結合;FP 為假陽性,表示將非結合位點預測被錯誤預測為結合;FN 為假陰性,表示將結合位點錯誤預測為非結合。AUROC表示ROC曲線下面積,主要用于衡量模型的泛化能力,即分類器效果的好壞。AUROC作為一個數(shù)量值,相較于ROC曲線,具有可比性,可以進行定量比較。
3 實驗結果與分析(Experimental result andanalysis)
3.1 不同蛋白質表示特征均發(fā)揮作用
為了深入了解不同蛋白質特征對模型性能的個體貢獻,本文對提出的模型進行了多方面的實驗,分別使用位置特異性矩陣(PSSM)、二級結構特征,以及氨基酸的理化特性和物理特性進行獨立訓練和測試。此外,本文構建了一個綜合模型,該模型同時使用三個特征表征蛋白質序列并進行訓練和測試。不同特征對模型性能的影響如表2所示。值得注意的是,在所有的特征設置中,PSSM的各類指標表現(xiàn)出顯著的優(yōu)越性。與其他特征相比,僅使用理化特性信息無法充分捕捉到TCR序列與多肽結合的相關特征。實驗結果表明,將PSSM、SS、理化特性3類特征有效結合,有助于協(xié)同增強整體模型的性能及對蛋白質的準確表征。
3.2 氨基酸類別對多肽結合的影響
本文通過使用氨基酸的結合傾向衡量不同氨基酸類別對多肽結合的影響,氨基酸的結合傾向被定義為特定殘基在界面上的百分比與界面殘基總百分比之間的比率,具體定義如公式(5)所示:
如表3和圖2所示,酪氨酸的結合傾向最大,大約是結合概率最低的氨基酸的9倍。這可能與酪氨酸的側鏈結構包含芳香環(huán)和羥基,其具有多樣性的化學性質相關。這種多樣性可能使酪氨酸在蛋白質-多肽結合事件中具有較高的親和性和特異性,從而成為結合位點中的優(yōu)勢氨基酸。對于TCR(T細胞受體)與多肽結合來說,酪氨酸的高頻出現(xiàn)可能影響了TCR的結合特異性,進而調控T細胞對抗原的識別和響應。
3.3 深度學習方法與傳統(tǒng)方法的性能比較分析
為深入評估本文提出的深度學習模型在多肽結合預測任務中的表現(xiàn),將其與多個經典機器學習算法包括XGBoost(極端梯度提升)、Logistic Regression(邏輯回歸)、SVM(支持向量機)、KNN(K近鄰)以及RandomForest(隨機森林)在測試集Testing_Dataset_tcr上進行了全面比較,實驗結果如表4所示,本文提出的深度學習模型在Testing_Dataset_tcr上取得了最顯著的效果。與傳統(tǒng)機器學習算法相比,該模型僅有MCC和Recall略微遜色于隨機森林分類器,但隨機森林算法的AUROC遠遠遜色于本文所提模型。綜合實驗結果得出,本文提出的模型更準確地捕捉了氨基酸類別對多肽結合的影響,整體預測性能更好。
3.4TCR與多肽的相互作用具有更高的特異性
為驗證模型是否具有預測多肽結合位點的特異性,從YAN等[13]和WANG等[14]的研究中收集了30個DNA結合蛋白、30個RNA結合蛋白和30個碳水化合物結合蛋白,為方便討論,分別記為DNA30、RNA30、CBH30和Testing_Dataset_pro Ⅱ,將它們作為測試集。測試結果如圖3所示,本文提出的模型在TCR-多肽數(shù)據(jù)集上的AUROC遠高于其他配體數(shù)據(jù)集,表明該模型在預測TCR-多肽結合位點時具有顯著的特異性。
4 結論(Conclusion)
本文構建了一個深度學習框架Propep-TCR 用于預測TCR-多肽結合位點,該方法通過同時結合輸入TCR序列的特征以及對應的結構信息進行編碼,將序列特征和結構特征輸入兩個不同的二維卷積神經網(wǎng)絡模塊進行預測。實驗結果表明,本文提出的方法在與機器學習算法以及類似工具進行比較后取得了優(yōu)異的效果,可以從TCR序列中尋找到潛在的多肽結合位點。同時,為了幫助推進此領域的研究進展,本研究收集并整理了一個全新的結合位點數(shù)據(jù)集,給后續(xù)TCR與多肽相互作用研究領域提供了新的基準數(shù)據(jù)集。
在后續(xù)的研究中,可以在已有的二級結構的基礎上擴展到TCR及其配體的3D結構特征,這對TCR-多肽結合位點以及廣譜的蛋白質-配體相互作用的預測,將會起到至關重要的作用。此外,用于訓練人工智能的模型的結合位點數(shù)據(jù)集的擴大,將有助于提升模型性能,挖掘出更多樣本中的隱藏特征。
作者簡介:
高 媛(1999-),女,碩士生。研究領域:生物信息學。
魯曼曼(1995-),女,碩士生。研究領域:生物信息學。
林 勇(1978-),男,博士,副教授。研究領域:智能醫(yī)學信息處理。本文通信作者。
謝 鷺(1968-),女,博士,教授。研究領域:生物信息學。