梁 瀟,吳 昊,劉全中*
(1.西北農林科技大學 信息工程學院,陜西 楊凌 712100;2.陜西省農業(yè)信息感知與智能服務重點實驗室,陜西 楊凌 712100)
生物體內廣泛分布著上萬種多肽,近年來,隨著科學研究的發(fā)展和對生命活動規(guī)律的深入探索,越來越多的功能性多肽分子被不斷發(fā)現,部分多肽具有抗癌、抗菌、抗炎、抗病毒、穿透細胞等特性,這些特性為疾病治療提供了重要依據[1]。
抗癌肽(anticancer peptides,ACPs)能破壞腫瘤細胞膜結構,對癌細胞增殖和遷移具有抑制作用,而對正常的體細胞基本無損傷,因此抗癌肽檢測有助于抗腫瘤藥物的研究[1];抗菌肽(anti-bacterial peptides,ABPs)對部分細菌、真菌、病毒有殺傷作用,其潛在的價值也受到醫(yī)學界的廣泛關注[2];細胞穿透肽(cell penetrating peptides,CPPs)被廣泛用作藥物進入細胞的運輸載體[3];結合肽(surface-binding peptides,SBPs)有助于在噬菌體展示實驗中建立高效的ELISA(enzyme linked immunosrbent assay)系統(tǒng)[4]。
具有治療特性的多肽目前已經越來越廣泛地應用于臨床診斷和治療中,因此識別這些多肽對于發(fā)現新的、高效的疾病治療方法具有重要的現實意義[2]。傳統(tǒng)的生物實驗方法識別多肽耗時、耗力且成本高,隨著高通量測序技術的發(fā)展和測序成本的持續(xù)降低,研究界和醫(yī)學界不斷產生海量的測序序列,然而傳統(tǒng)方法從高通量序列中識別多肽效率低下。為了提高多肽的識別效率,基于機器學習的多肽識別方法越來越受到研究界的青睞[5]。近年來,研究界已提出了許多基于機器學習的治療肽的預測模型,根據其使用算法進行分類,分為基于傳統(tǒng)的機器學習肽預測模型與基于深度學習的肽預測模型。
基于傳統(tǒng)的機器學習肽預測模型主要使用不同的序列特征把肽序列表示為特征向量,構造二分類樣本集,使用不同的分類模型進行訓練,然后預測新的肽序列。主要工作如下:2007年7月,Lata等人利用抗菌肽中N端和C端殘基的特異性分別建立了基于神經網絡、QM(quantitative matrices)和支持向量機的ABP預測模型[5];2017年5月,Wei等人整合了基于序列的特征描述符PC-PseAAC(parallel correlation pseudo-amino-acid composition)、SC-PseAAC(series correlation pseudo-amino-acid composition)、ASDC(adaptive skip dipeptide composition)、PPs(physicochemical properties),構建了基于隨機森林算法的兩層CPP預測框架CPPred-RF[6];2017年7月,Li等人使用OAAC(optimized amino acid composition)和ODPC(optimized dipeptide composition)兩種特征開發(fā)了基于支持向量機的SBP預測器PSBinder,它可以快速有效地排除假陽性肽,更準確地獲得SBP[7];2018年6月,Wei等人提出了一個基于支持向量機的ACP預測器ACPred-FL[8],使用了BPF(binary profile features)、GDC(G-gap dipeptide composition)、OPF(overlapping property features)、CTD(composition-transition-distribution)4種序列特征表示樣本,通過最大相關-最小冗余和順序前向搜索特征選擇方法剔除冗余特征,提高了預測器的預測性能。以上預測方法都是針對識別特定的肽而構造的模型,2019年4月,Wei等人提出了基于隨機森林的多肽預測模型PEPred-Suit,該模型引入了一種自適應特征表示策略,可以學習不同肽類型的最具代表性的特征,能有效識別多種不同類型肽[9]。
深度學習主要使用卷積神經網絡和循環(huán)神經網絡自動抽取出抽象特征,其中循環(huán)神經網絡主要用于處理文本和序列數據。肽是一種序列數據,因此循環(huán)神經網絡更適合肽的預測研究。針對基于深度學習的肽預測模型,2019年9月,Yi等人使用兩種序列特征K-mer稀疏矩陣和BPF(binary profile features),構建了基于長期短期記憶LSTM(long short-term memory)循環(huán)神經網絡的ACP預測模型ACP-DL,實現了一個DeepLSTM模型來自動學習如何識別抗癌肽和非抗癌肽。在基準數據集五折交叉驗證實驗結果表明,ACP-DL具有較高的識別性能[10]。
已有的基于機器學習肽預測方法促進了肽的研究,但分類器的識別性能仍有待提高,而且除了PEPred-Suit模型外,其他模型都只能識別某一種特定肽。針對以上問題,該文提出了一種通用的基于GRU循環(huán)神經網絡的多肽預測模型DeepPEPred,能有效識別多種類型的肽。DeepPEPred用如下四種特征作為輸入序列的編碼:氨基酸組成(amino acid composition,AAC)、K-spaced氨基酸對的組成(composition of k-spaced amino acid pairs,CKSAAP)、構成/變遷/分布(composition/transition/distribution,CTD)、偽氨基酸組成(pseudo-amino acid composition,PAAC)能夠有效預測不同的肽段,其中AAC在ACPred-FL模型被使用預測抗癌肽,CTD在PEPred-Suit模型被使用預測各種類型的肽。通過初步的實驗驗證:這四種特征使得DeepPEPred模型能夠獲得較好的總體性能。為了驗證DeepPEPred的性能,該研究在抗癌肽、抗菌肽、細胞穿透肽和結合肽四種不同肽數據集上進行實驗。經過十折交叉驗證和獨立測試結果表明,與現有的肽預測模型相比,DeepPEPred模型具有更強的識別性能。
該文旨在構建一個通用的深度學習模型預測具有不同治療特性的肽,使用ACP、ABP、CPP和SBP四種肽數據集評估提出的模型,每種肽數據集包括一個訓練集和一個獨立測試集,訓練集和獨立測試集都由正例樣本和負例樣本組成,正例樣本是經過實驗驗證的治療性多肽(如抗癌活性),負例樣本通常是沒有相關特性(如非抗癌活性)或隨機序列的多肽[9]。
該研究使用的ACP數據包括文獻[9-13]提供的數據集和數據庫CancerPPD[14]中最新的ACP數據,為了避免整合后序列中含有重復序列,該研究使用CD-HIT軟件[15]去除同源性超過90%的序列。最后得到的ACP訓練集中包括422個經實驗驗證的ACP序列以及1 688個非ACP序列;ACP獨立測試集中包括97個經實驗驗證的ACP序列以及97個非ACP序列。該文使用了Lata等人[5]提供的ABP數據集、Wei等人[6]提供的CPP數據集以及Li等人[7]提供的SBP數據集。四種肽數據集的詳細信息如表1所示。
表1 四種肽數據集
該研究通過iLearn[16]選取了四種特征表示肽序列,分別是:氨基酸組成(AAC)、K-spaced氨基酸對的組成(CKSAAP)、構成/變遷/分布(CTD)、偽氨基酸組成(PAAC)。
氨基酸組成(AAC)[17]是計算肽序列中每種氨基酸的出現頻率,AAC特征編碼的維度為20,序列中每種氨基酸出現的頻率可由公式(1)計算:
(1)
其中,R(i)是肽序列中名稱為i的氨基酸出現的次數,L是肽序列的長度。最終可以得到20種氨基酸在肽序列中的出現頻率。
這個蜘蛛精……是人?青辰一邊聽著天葬師的話,一邊仔細打量。那唐飛霄矮小瘦弱,整個身子都裹在硬甲中,只有一顆碩大的光頭露在外面,看起來怪誕而不合比例。自己先入為主,竟將其當做了蜘蛛精,著實鬧了個笑話。
CTD使用組成(C)、過渡(T)和分布(D)三個描述符描述蛋白質序列中[18]的每個基團中各性質的氨基酸分布,CTD采用七種物理化學性質表示蛋白質或肽序列,它們包括疏水性、標準化范德華體積、極性、極化度、電荷、二級結構和溶劑可及性,ilearn包[16]中將疏水性又分為七個不同性質,加上其他六種性質,共有13種性質。基于主要的氨基酸指數,針對每一種性質,將20種氨基酸分為三類。本研究只使用描述符D來編碼肽序列,D統(tǒng)計三類氨基酸中每類氨基酸含量為0%,25%,50%,75%,100%時相對于整條肽序列的分布情況,即每類有五個描述符值,因此每種性質使用3×5=15個描述符表示。因此,CTD將一個肽序列編碼成一個由13×15=195個描述符值組成的向量。
傳統(tǒng)的氨基酸組成只考慮蛋白質序列中20個氨基酸出現的頻率,這會丟失蛋白質鏈的序列信息。PAAC將20個氨基酸的序列順序信息和頻率整合在一起進行編碼[19]。一個蛋白質序列編碼成一個20+A維向量,向量的前20個分量表示20個氨基酸的出現頻率,最后的A個分量表示序列順序信息。PAAC被證明是一種有效的特征編碼方案,并被廣泛應用于蛋白質序列或者肽序列相關領域的研究[20]。輸入肽序列的PAAC計算由ilearn包提供。經實驗驗證,當A=4時,模型預測性能最優(yōu),因此PAAC將一個肽序列編碼成一個24維特征向量。
不同特征向量往往具有不同的量度,這將影響到模型預測性能,因此需要對原始特征組合進行標準化使得每個特征處于同一數量級,有利于預測模型的建立[21]。
該研究使用的Z-score方法是基于原始特征的均值(mean)和標準差(standard deviation)進行數據的標準化,該方法適用于數據屬性值的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況[21]。Z-score標準化可由公式(2)計算:
(2)
其中,Z為標準化后的變量值,X為實際變量值,μ為各變量(特征)的算術平均值(數學期望),σ為標準差。
深度學習(deep learning,DL)作為機器學習的新興技術[22],近年來已被廣泛應用于生物信息學中[23]。深度學習模型包括卷積神經網絡模型、堆棧自編碼網絡模型、長短期記憶網絡模型(long short-term memory,LSTM)[24-25]等。
提出的基于深度學習的多肽識框架如圖1所示,主要包含以下幾個步驟。
圖1 DeepPEPred預測方法流程
步驟一:肽序列數據集構造。該研究收集了ACP、ABP、CPP和SBP四種肽數據集,四種數據集分別包含一個訓練集和一個獨立測試集,每種數據的訓練集和獨立測試集見表1。
步驟二:肽序列樣本集表示。該研究通過對多種肽序列特征進行性能評估,篩選出四種對于ACP、ABP、CPP、SBP序列有較強識別能力的特征,四種特征分別是AAC、CKSAAP、CTDD、PAAC,它們編碼維數分別是20、2 000、195、24,每一個肽序列樣本被編碼的維度為2 239,得到四種肽序列的二分類樣本集。
步驟三:深度學習模型構建。輸入層特征維度為2 239個,將輸入層神經元輸入隱藏層,隱藏層的第一層為GRU層,輸出維度為59,GRU層后面增加一個Dropout層,設置為0.465,防止模型過擬合;輸出層空間維度為1,使用sigmoid激活函數。在模型訓練過程中,使用early-stop早停機制,防止模型過擬合;損失函數使用交叉熵損失函數,優(yōu)化器使用Adam,迭代次數(epoch)為100次。
步驟四:模型訓練。該研究先使用ACP數據集訓練一個初步的預測模型,由于ACP數據集中負例樣本數是正例樣本數的四倍,樣本集嚴重不平衡,將影響模型的性能。該研究借鑒BootStrapping[28]方法來解決數據集中正負例樣本不平衡問題,BootStrapping方法是指對數據集進行有放回的抽樣,將每次抽取的數據作為一個新樣本,重復多次,形成多個新樣本。該研究對負例樣本集采取不放回抽樣方法,該策略的示意圖如圖2所示。假設P和N分別表示正例樣本集(ACP序列)和負例樣本集(非ACP序列),TP和TN表示正例樣本和負例樣本的數量,以大小為TP的窗口循環(huán)遍歷負例樣本集,循環(huán)n=TN/TP次,每次循環(huán)抽取的TP個負例樣本作為一個負子集,與正例樣本集結合生成一個正負例數目相同訓練集,并用這個訓練集進行模型訓練,保留每次循環(huán)訓練的模型,最終預測結果取n次模型預測結果的均值。
圖2 ACP數據集劃分圖
步驟五:模型優(yōu)化。首先在ACP數據集上經過貝葉斯參數調優(yōu)[29]進行參數尋優(yōu),得到一個最優(yōu)參數的框架,然后用最優(yōu)參數框架訓練ABP、CPP、SBP數據集。貝葉斯優(yōu)化方法首先采用高斯過程不斷地更新目標函數的后驗分布,然后在預先設置的參數范圍內自動搜索最好的參數。在參數優(yōu)化時,設置GRU層輸出維度的初始范圍為[8,128],優(yōu)化后的最優(yōu)值為59;設置Dropout的初始范圍為[0.1,0.6],優(yōu)化后的最優(yōu)值為0.465。經過上述操作確定了最優(yōu)參數,并構建了一個適用于四種治療肽的最優(yōu)模型。
步驟六:模型評估。該研究使用十折交叉驗證和獨立測試方法對模型進行評估,并與現有模型進行預測性能比較。
為了評估DeepPEPred模型的預測性能,該研究使用了五種常用指標來評價模型的性能,包括AUC(area under the ROC curve)值、準確度(accuracy,Acc)、特異性(specificity,Sp)、敏感性(sensitivity,Sn) 和馬修斯相關系數(Matthews correlation coefficient,MCC)。其中AUC表示ROC(receiver operating characteristic)曲線下的面積,ROC曲線是指按順序逐個對樣本進行預測,每次計算出真陽性率(TPR)與假陽性率(FPR)分別以它們作為縱、橫坐標進行繪制而生成的曲線。較大的AUC值表示該模型實現了更好和更強大的預測性能。這五種評價指標的定義如下:
(3)
(4)
(5)
MCC=
(6)
其中,TP、TN、FP和FN分別表示真陽性、真陰性、假陽性和假陰性的樣本數量。
該研究對比的ACP識別方法在同樣的數據集上采用獨立測試,其他三種肽的識別方法在相同的數據集上采用十折交叉驗證方法,為了公平比較,該研究分別采用同樣的策略。
圖3表示DeepPEPred與現有模型在ABP、CPP、SBP三種肽數據集上十折交叉驗證結果的比較。由于現有的模型僅僅通過AUC值進行評價,為了公平對比,該研究也僅僅提供了每種數據集的AUC值。
圖3 DeepPEPred和現有預測器在ABP、CPP和
從圖3的結果可知:在相同數據集上DeepPEPred預測模型在AUC方面取得了比其他預測方法更好的性能。在三個數據集(ABP、CPP和SBP)上比目前最新模型PEPred-Suite的AUC值分別高0.8%、0.3%和1.2%,比其他預測同類型肽模型(AntiBP、CPPred-RF和PSBinder)的AUC值分別高出2.7%、1.3%和5.9%。
在表2分別給出了DeepPEPred和PEPred-Suite在三個數據集上十折交叉驗證的其余指標(Acc、Sn、Sp、MCC)的值,在ABP數據集上實驗結果表明:DeepPEPred比PEPred-Suite的MCC和Acc分別高出2.3%和1.2%;在CPP數據集上實驗結果表明:DeepPEPred比PEPred-Suite模型的MCC和Acc分別高出2.5%和1.2%;在SBP數據集上實驗結果表明:DeepPEPred比PEPred-Suite模型的MCC和Acc分別高出2.4%和1.2%。
表2 ABP、CPP、SBP數據集上十折交叉驗證結果
為了驗證DeepPEPred的泛化能力,該研究在ABP、CPP和SBP數據集上進行了獨立測試,并與現有方法進行了性能比較,結果如圖4所示。從圖4中結果可知:在三個數據集上與PEPred-Suite預測模型相比,AUC值分別提升了0.7%、1.5%和1.0%。在ABP數據集上,DeepPEPred與同類型肽預測模型AntiBP相比AUC值分別提升了0.7%;在CPP數據集上,DeepPEPred與在同類型肽預測模型CPPred-RF相比AUC值提升了2.6%;在SBP數據集上,DeepPEPred與PSBinder的AUC值相等。
圖4 DeepPEPred和現有預測器獨立測試的性能對比
DeepPEPred模型在ABP、CPP和SBP數據集上獨立測試的MCC、Acc、Sn、Sp評價結果如表3所示。即使DeepPEPred是基于ACP數據集構建及調優(yōu)的,從圖4和表3結果可知,DeepPEPred對于ABP、CPP和SBP三種肽預測也是有效的,說明DeepPEPred具有較強的遷移能力。
表3 ABP、CPP、SBP獨立測試詳細結果
由于ACP數據集正負例樣本不平衡,該研究首先將負例樣本分成四份,每份與正例樣本相結合生成四個正負均衡的訓練集;然后對模型進行四次訓練,每次訓練得到的模型進行獨立測試,測試結果如表4所示,最終結果為四次結果的均值,其AUC、MCC和Acc最終值分別為0.875、0.631和0.811。
表4 ACP數據集獨立測試結果
為了進一步驗證DeepPEPred模型預測ACP的性能,該研究比較了DeepPEPred與PEPred-Suite、ACPred[30]兩個ACP預測模型,獨立測試結果如表5所示。需要強調的是,PEPred-Suite和ACPred獨立測試結果是使用對應文獻中提供的在線預測平臺測試獲得的。從表5的結果可知:DeepPEPred相對于PEPred-Suite和ACPred,在Acc、MCC、Sp值方面都有較為顯著的提升,其中Acc值分別提升了29.6%和4.3%,MCC值分別提升了59.7%和9.4%,Sp分別提升了17.5%和10.3%,Sn相比PEPred-Suite提升了41.5%。這說明了該研究提出的模型對于ACP預測是有效的。
表5 不同模型預測ACP的性能對比
提出了一種基于深度學習的多肽預測方法DeepPEPred。該方法利用四種特征對輸入序列進行編碼,將標準化的編碼作為模型輸入,經過貝葉斯參數調優(yōu),構建出一個最優(yōu)的多種肽預測模型。
該方法的主要貢獻是構造一個通用的模型,能有效預測多種肽。DeepPEPred模型對不同的多肽表現出一致的魯棒性,說明它具有很強的泛化能力。在四種肽數據集上與現有的方法進行了對比,實驗結果表明:DeepPEPred模型在AUC、Acc和MCC三個綜合性評價指標上比現有的預測方法更好。