布 曉 婷, 曹 雋 喆, 顧 宏
( 大連理工大學(xué) 控制科學(xué)與工程學(xué)院, 遼寧 大連 116024 )
基于多標(biāo)簽直推學(xué)習(xí)的抗菌肽及其抗菌功能預(yù)測(cè)
布 曉 婷, 曹 雋 喆, 顧 宏*
( 大連理工大學(xué) 控制科學(xué)與工程學(xué)院, 遼寧 大連 116024 )
抗菌肽是廣泛存在于生物體內(nèi)的一類(lèi)具有廣譜抗菌作用的天然多肽,因其不易導(dǎo)致細(xì)菌耐藥性,已成為醫(yī)藥界開(kāi)發(fā)新型抗菌制劑的主要選擇,識(shí)別出更多的抗菌肽并預(yù)測(cè)其抗菌功能具有重要意義.提出了一種基于多標(biāo)簽直推學(xué)習(xí)的抗菌肽及其抗菌功能的預(yù)測(cè)方法,該方法利用K-spaced氨基酸對(duì)組成方法提取多肽特征,采用多標(biāo)簽學(xué)習(xí)框架和加權(quán)近鄰圖構(gòu)建直推預(yù)測(cè)模型,通過(guò)對(duì)有標(biāo)簽訓(xùn)練樣本和無(wú)標(biāo)簽待測(cè)樣本的共同學(xué)習(xí)來(lái)提升預(yù)測(cè)性能.該方法不僅能夠識(shí)別多肽是否為抗菌肽,還能同時(shí)預(yù)測(cè)出抗菌肽所具有的單種或多種抗菌功能,且適用于對(duì)多效抗菌肽和普通抗菌肽的預(yù)測(cè).?dāng)?shù)值實(shí)驗(yàn)表明,與已有的iAMP-2L預(yù)測(cè)方法相比,所提方法在全局預(yù)測(cè)精度和多標(biāo)簽預(yù)測(cè)性能上均有較大提升.
抗菌肽;多標(biāo)簽學(xué)習(xí);直推學(xué)習(xí);K-spaced氨基酸對(duì)組成方法
抗菌肽(antimicrobial peptide,AMP)是廣泛存在于生物體內(nèi)的具有抗菌活性的多肽,一般由5~100個(gè)氨基酸構(gòu)成,是生物體先天免疫系統(tǒng)的重要組成部分.抗菌肽具有廣譜抗菌性,對(duì)真菌、原蟲(chóng)、病毒及癌細(xì)胞等都具有強(qiáng)效的殺傷作用,并且耐藥性致病菌也不易對(duì)其產(chǎn)生抗藥作用[1].目前抗生素濫用問(wèn)題日益嚴(yán)重,醫(yī)藥界對(duì)于新型抗菌藥物的需求愈加強(qiáng)烈,近年來(lái)不少學(xué)者都致力于利用抗菌肽開(kāi)發(fā)新型抗菌劑[2].但由于抗菌肽抗菌功能類(lèi)別多樣,抗菌作用機(jī)理復(fù)雜,業(yè)界對(duì)各類(lèi)抗菌肽的結(jié)構(gòu)和抗菌作用機(jī)理都不甚了解,發(fā)現(xiàn)更多的抗菌肽并了解其抗菌功能是解決這一問(wèn)題的有效途徑.然而現(xiàn)階段已發(fā)現(xiàn)的抗菌肽種類(lèi)不多,還有相當(dāng)大數(shù)量的天然抗菌肽未被識(shí)別,甚至對(duì)于已知抗菌肽的具體抗菌功能了解得也不夠全面.
針對(duì)上述問(wèn)題,研究人員主要采用基于實(shí)驗(yàn)的方法和基于計(jì)算的方法來(lái)對(duì)抗菌肽識(shí)別加以解決.實(shí)驗(yàn)方法是通過(guò)實(shí)驗(yàn)分離測(cè)定的方式對(duì)多肽的抗菌活性進(jìn)行觀察判定,該方法的優(yōu)點(diǎn)是識(shí)別精度高,但操作過(guò)程復(fù)雜,需要投入大量的物力、人力及時(shí)間成本[3],效率較低且不具備大規(guī)模操作性,隨著醫(yī)藥界對(duì)抗菌肽新型制劑開(kāi)發(fā)的不斷深入,這種方法越來(lái)越難以滿(mǎn)足研究需求.而隨著生物信息學(xué)的迅猛發(fā)展,基于計(jì)算的方法被應(yīng)用于該領(lǐng)域,其中基于機(jī)器學(xué)習(xí)的計(jì)算方法以其高精度、低成本、高可行性及高可靠性等優(yōu)勢(shì),被越來(lái)越多地應(yīng)用于抗菌肽及其抗菌功能的預(yù)測(cè)中.機(jī)器學(xué)習(xí)方法通過(guò)對(duì)大量抗菌肽生物數(shù)據(jù)的分析和學(xué)習(xí),不僅能夠發(fā)現(xiàn)抗菌功能同生化屬性之間的線性關(guān)系,還可以挖掘內(nèi)在的非線性關(guān)聯(lián),這對(duì)于深入挖掘大規(guī)模無(wú)序數(shù)據(jù)中隱藏的生物信息,更深入地了解抗菌肽的分子組成結(jié)構(gòu)、基因表達(dá)機(jī)制及抗微生物作用機(jī)理有十分積極的作用.
基于機(jī)器學(xué)習(xí)的抗菌肽預(yù)測(cè)屬于分類(lèi)學(xué)習(xí)問(wèn)題,主要的步驟為建立數(shù)據(jù)集、提取多肽特征、設(shè)計(jì)分類(lèi)器.最初發(fā)現(xiàn)的抗菌肽只具有一種抗菌活性,因此早期的研究主要用于推斷待測(cè)多肽是否為抗菌肽,即二分類(lèi)問(wèn)題,常見(jiàn)的算法包括神經(jīng)網(wǎng)絡(luò)[4-5]、支持向量機(jī)[6-7]和隨機(jī)森林[8-9]等.而隨著越來(lái)越多的多效抗菌肽(即同時(shí)具有多種抗菌功能的抗菌肽)被發(fā)現(xiàn),近年來(lái)一些學(xué)者開(kāi)始考慮對(duì)抗菌肽的多效抗菌功能進(jìn)行預(yù)測(cè),如Joseph等[10]提出了基于隨機(jī)森林和支持向量機(jī)的多標(biāo)簽預(yù)測(cè)方法ClassAMP,用以區(qū)分抗細(xì)菌肽、抗真菌肽和抗病毒肽3類(lèi)不同功能的抗菌肽;Zou等[11]提出了基于序列信息和多標(biāo)簽學(xué)習(xí)的LIFT預(yù)測(cè)方法,用以預(yù)測(cè)抗菌肽是否具有抗細(xì)菌、抗病毒、抗真菌等8種不同抗菌活性.這兩種方法只是針對(duì)確定為抗菌肽的樣本進(jìn)行功能預(yù)測(cè),而不能判斷一條多肽是否為抗菌肽.而Xiao等[12]提出的iAMP-2L預(yù)測(cè)方法則同時(shí)考慮了對(duì)抗菌肽預(yù)測(cè)和對(duì)其功能的預(yù)測(cè),該方法分為兩個(gè)階段,先利用二分類(lèi)算法鑒別某多肽是否為抗菌肽,然后對(duì)被鑒別為抗菌肽的多肽采用多標(biāo)簽學(xué)習(xí)算法進(jìn)行抗菌功能的預(yù)測(cè).
總的來(lái)說(shuō),目前能對(duì)多效抗菌肽預(yù)測(cè)的方法非常少,現(xiàn)有的方法都是采用多標(biāo)簽學(xué)習(xí)算法進(jìn)行處理.然而多標(biāo)簽學(xué)習(xí)的初衷是為了解決歧義性問(wèn)題,樣本通常都是具有一個(gè)或多個(gè)正標(biāo)簽的正類(lèi)樣本,一般不存在負(fù)類(lèi)樣本,而抗菌肽的預(yù)測(cè)問(wèn)題則完全不同,一條多肽完全可以是不具有任何抗菌活性的非抗菌肽,其本質(zhì)是個(gè)具有負(fù)類(lèi)樣本的預(yù)測(cè)問(wèn)題,這是傳統(tǒng)的多標(biāo)簽學(xué)習(xí)所無(wú)法直接處理的.因此,文獻(xiàn)[10]和[11]的方法為了避開(kāi)這個(gè)問(wèn)題,只針對(duì)抗菌肽進(jìn)行功能預(yù)測(cè).而在實(shí)際應(yīng)用中,待測(cè)樣本的屬性其實(shí)是完全未知的,完整的預(yù)測(cè)任務(wù)應(yīng)該包含兩部分:首先判斷出這些樣本是否為抗菌肽,然后再對(duì)確定為抗菌肽的樣本進(jìn)一步預(yù)測(cè)其抗菌功能.而文獻(xiàn)[12]的方法則采用這兩部分先后處理的方式,這種兩階段鑒定方法不僅過(guò)程復(fù)雜,并且兩個(gè)階段的誤差疊加導(dǎo)致預(yù)測(cè)精度不高,而且還割裂了兩個(gè)預(yù)測(cè)問(wèn)題的聯(lián)系.
針對(duì)上述問(wèn)題,本文提出一種新的基于多標(biāo)簽直推學(xué)習(xí)的抗菌肽及其抗菌功能預(yù)測(cè)方法,該方法將預(yù)測(cè)問(wèn)題看作一個(gè)可以含有負(fù)標(biāo)簽樣本的特殊多標(biāo)簽學(xué)習(xí)問(wèn)題來(lái)處理,不僅具有預(yù)測(cè)多效抗菌肽的能力,還能在一個(gè)學(xué)習(xí)算法下將抗菌肽預(yù)測(cè)及其抗菌功能預(yù)測(cè)兩個(gè)任務(wù)同時(shí)完成.
本文建立了兩個(gè)數(shù)據(jù)集:基準(zhǔn)數(shù)據(jù)集S1和獨(dú)立測(cè)試集S2,其中基準(zhǔn)數(shù)據(jù)集S1用于訓(xùn)練和交叉驗(yàn)證,獨(dú)立測(cè)試集S2用于驗(yàn)證預(yù)測(cè)方法的泛化性.S1中的數(shù)據(jù)來(lái)自文獻(xiàn)[12],并對(duì)其中的個(gè)別錯(cuò)誤進(jìn)行修正得到,S2中的數(shù)據(jù)由文獻(xiàn)[12]的獨(dú)立測(cè)試集部分提取得到.兩個(gè)數(shù)據(jù)集均包括抗菌肽數(shù)據(jù)和非抗菌肽數(shù)據(jù).
基準(zhǔn)數(shù)據(jù)集S1包括兩大類(lèi):抗菌肽數(shù)據(jù)和非抗菌肽數(shù)據(jù),其表示方法如下:
(1)
表1 基準(zhǔn)數(shù)據(jù)集S1各類(lèi)別數(shù)量
為了更好地驗(yàn)證本預(yù)測(cè)方法的泛化性,本文還使用獨(dú)立測(cè)試集S2進(jìn)行獨(dú)立測(cè)試集實(shí)驗(yàn),其中無(wú)重復(fù)統(tǒng)計(jì)的抗菌肽數(shù)量為350.獨(dú)立測(cè)試集S2各類(lèi)別數(shù)量見(jiàn)表2.
表2 獨(dú)立測(cè)試集S2各類(lèi)別數(shù)量
2.1 多肽序列特征信息的提取
對(duì)于某一多肽而言,其肽鏈的結(jié)構(gòu)直接決定著其生物學(xué)功能如抗菌功能,而一級(jí)結(jié)構(gòu)作為最基本的結(jié)構(gòu)直接決定著其二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu),故多肽的一級(jí)結(jié)構(gòu)對(duì)于其抗菌功能的有無(wú)及具體類(lèi)型至關(guān)重要.多肽的一級(jí)結(jié)構(gòu)可以由組成它的氨基酸序列表示,本文特征信息提取的出發(fā)點(diǎn)即將多肽的氨基酸序列信息轉(zhuǎn)化為可量化的特征向量,通過(guò)特征向量盡可能形象地將特定多肽表達(dá)出來(lái).
本文使用K-spaced氨基酸對(duì)組成方法(composition ofK-spaced amino acid pairs,CKSAAP) 對(duì)樣本進(jìn)行特征提?。瓹KSAAP首先由Chen等[13]于2007年提出并用于蛋白質(zhì)靈活化區(qū)域預(yù)測(cè)中,該方法的優(yōu)點(diǎn)在于充分利用蛋白質(zhì)或多肽序列中各個(gè)氨基酸的局部相互作用信息,故在不少生物信息學(xué)領(lǐng)域都獲得了不錯(cuò)的實(shí)驗(yàn)結(jié)果,例如蛋白質(zhì)磷酸化作用位點(diǎn)預(yù)測(cè)[14]、三型效應(yīng)蛋白鑒別[15]、賴(lài)氨酸甲基化位點(diǎn)及甲基化度預(yù)測(cè)[16]等領(lǐng)域.由于抗菌肽的氨基酸序列通常較短,最短的抗菌肽僅由5個(gè)氨基酸構(gòu)成,而CKSAAP 作為一種關(guān)注于組成多肽的各個(gè)氨基酸局部相互作用信息的特征提取方法,對(duì)短肽特征的刻畫(huà)較為出色.通過(guò)前期比較發(fā)現(xiàn),相對(duì)于關(guān)注蛋白質(zhì)長(zhǎng)鏈氨基酸出現(xiàn)概率的氨基酸組成方法(amino acid composition,AAC)和關(guān)注氨基酸出現(xiàn)概率和物化性質(zhì)的偽氨基酸組成方法(pseudo-amino acid composition,PseAAC),CKSAAP 對(duì)本文所研究問(wèn)題的表征效果更好一些,因此本文選定CKSAAP提取的特征用于最終的預(yù)測(cè).當(dāng)K=0時(shí),該方法將多肽一級(jí)結(jié)構(gòu)所蘊(yùn)含的信息提取為以下向量:
P=(NAANAC…NAV)T
(2)
其中NXY表示序列中氨基酸X與氨基酸Y連續(xù)出現(xiàn)的次數(shù),X與Y可以是相同的氨基酸,由于組成多肽的基本氨基酸為20個(gè),氨基酸兩兩任意組合會(huì)產(chǎn)生20×20種可能,故該情況下特征向量維數(shù)為400.當(dāng)K=1時(shí),特征向量為
P=(NAANAC…NAVNAxANAxC…NAxV)T
(3)
其中前400行與式(2)相同,401至800行中NXxY表示序列中氨基酸X與氨基酸Y中間相隔一個(gè)氨基酸的情況出現(xiàn)的次數(shù),其中x表示任意一個(gè)氨基酸.K=2、3、4時(shí)對(duì)應(yīng)的1 200、1 600、2 000 維特征向量依此類(lèi)推.在本文實(shí)驗(yàn)中,選擇K=0即特征維度最小的情況,此時(shí)每個(gè)多肽均由一個(gè)400維的特征向量表示.
2.2 基于多標(biāo)簽直推學(xué)習(xí)的預(yù)測(cè)方法
直推學(xué)習(xí)(transductive learning)由Vapnik[17]于1995年首次提出,現(xiàn)已應(yīng)用于文本識(shí)別[18]、視覺(jué)跟蹤[19]、蛋白質(zhì)亞細(xì)胞定位[20]等多個(gè)領(lǐng)域并取得了不錯(cuò)的效果.該方法不同于傳統(tǒng)的歸納演繹式學(xué)習(xí)方法,在構(gòu)建方法的過(guò)程中除了使用訓(xùn)練集中的信息之外,將待測(cè)試樣本中的信息也利用起來(lái)進(jìn)行方法構(gòu)建.通常這種學(xué)習(xí)方法應(yīng)用在無(wú)標(biāo)簽樣本數(shù)量較大而有標(biāo)簽樣本數(shù)量不夠多的問(wèn)題中,將測(cè)試集合信息也用于預(yù)測(cè)方法的構(gòu)建能夠使預(yù)測(cè)方法更好地識(shí)別整個(gè)空間的數(shù)據(jù)特性[21],從而使預(yù)測(cè)方法具有更好的預(yù)測(cè)性能.
對(duì)于本文的研究問(wèn)題而言,目前已知的抗菌肽非常有限,還有數(shù)量十分大的抗菌肽未被發(fā)現(xiàn),傳統(tǒng)的預(yù)測(cè)方法僅使用已知抗菌肽的信息來(lái)構(gòu)建預(yù)測(cè)模型而忽視了未知測(cè)試集中包含的大量信息,往往不能得出準(zhǔn)確率較高的預(yù)測(cè)結(jié)果,而直推學(xué)習(xí)方法恰恰能夠使有效信息得以利用從而得到不錯(cuò)的預(yù)測(cè)結(jié)果.本文在利用直推學(xué)習(xí)方法構(gòu)建近鄰圖時(shí),在對(duì)各樣本局部關(guān)聯(lián)關(guān)系計(jì)算時(shí)對(duì)各抗菌功能類(lèi)別加以不同權(quán)重,將不同類(lèi)別對(duì)預(yù)測(cè)方法的貢獻(xiàn)度區(qū)分開(kāi)來(lái),從而使得基于多標(biāo)簽直推學(xué)習(xí)的抗菌肽及其抗菌功能預(yù)測(cè)方法預(yù)測(cè)結(jié)果更佳.本文構(gòu)建的預(yù)測(cè)模型如圖1所示.
圖1 基于多標(biāo)簽直推學(xué)習(xí)的抗菌肽及其抗菌功能預(yù)測(cè)模型示意圖
Fig.1 Diagram of the model for predicting the antimicrobial peptides and their functional types based on multi-label transductive learning
(4)
其中N(Xi)表示樣本Xi的近鄰集合;S(i,j)表示樣本Xi與樣本Xj在特征空間的相似度;C(i,j)表示樣本Xi與樣本Xj在標(biāo)簽空間的相似度.顯然,對(duì)于矩陣W,其任意行向量的元素之和均為1.
采用高斯核(Gaussian kernel)函數(shù)計(jì)算特征空間的相似度S(i,j),特征空間越相似則值越大,其具體定義如下:
(5)
其中d表示距離度量,本文選用歐氏距離;μ為超參數(shù),本文取為2;σ為調(diào)節(jié)參數(shù),本文取所有樣本之間的平均距離.
C(i,j)表示樣本Xi與樣本Xj在標(biāo)簽空間的相似度,標(biāo)簽空間越相似則值越大.當(dāng)樣本Xi和Xj不都是待測(cè)樣本時(shí),有
(6)
(7)
其中Np表示訓(xùn)練集中抗菌肽的樣本個(gè)數(shù),Nt表示訓(xùn)練集中具有第t個(gè)標(biāo)簽的樣本個(gè)數(shù).這種權(quán)重確定方法減弱了那些在大多數(shù)樣本中存在的標(biāo)簽的重要程度,同時(shí)增強(qiáng)了一些在小部分樣本中出現(xiàn)的低頻標(biāo)簽的重要程度,即若訓(xùn)練集中具有第t個(gè)標(biāo)簽的樣本個(gè)數(shù)越少,則該標(biāo)簽的權(quán)值越大,可以認(rèn)為第t個(gè)標(biāo)簽具有較好的類(lèi)別區(qū)分能力,對(duì)多標(biāo)簽分類(lèi)有較大幫助[22].由表1可以看出,具有抗細(xì)菌標(biāo)簽的抗菌肽個(gè)數(shù)為770,而具有抗HIV標(biāo)簽的抗菌肽個(gè)數(shù)為85,顯然這兩種抗菌功能標(biāo)簽對(duì)于分類(lèi)的貢獻(xiàn)度不同,即具有一定的不平衡性,因此將其賦予依據(jù)數(shù)量確定的不同的權(quán)值是有必要的.
在最優(yōu)化確定信任度之前,需將訓(xùn)練集標(biāo)簽向量進(jìn)行預(yù)處理.對(duì)于訓(xùn)練集中的抗菌肽樣本,有
(8)
依據(jù)上文的平滑性假設(shè)本文提出一個(gè)求解信任度的最優(yōu)化問(wèn)題:
(9)
最優(yōu)化目標(biāo)是最小化相似樣本的標(biāo)簽之間的加權(quán)差,為了簡(jiǎn)化上式,有以下公式:
(10)
這樣式(9)便能簡(jiǎn)化成下式:
(11)
為求解待測(cè)樣本Xi所含標(biāo)簽個(gè)數(shù)θi,本文提出一個(gè)最優(yōu)化問(wèn)題:
(12)
式(11)和(12)表示的優(yōu)化問(wèn)題均有唯一最優(yōu)解,文獻(xiàn)[23]對(duì)此給出了理論證明,因此可求得直推的結(jié)果.預(yù)測(cè)算法流程如下:
輸入:
預(yù)測(cè)算法:
構(gòu)建有限加權(quán)近鄰圖,并確定近鄰間邊的權(quán)重矩陣W,見(jiàn)式(4);
輸出:
2.3 評(píng)價(jià)指標(biāo)
本文研究的課題屬于一種特殊的多標(biāo)簽問(wèn)題,能夠同時(shí)將正負(fù)類(lèi)樣本和正類(lèi)樣本的一個(gè)或多個(gè)抗菌功能標(biāo)簽預(yù)測(cè)出來(lái),故本文將使用全局評(píng)價(jià)指標(biāo)和多標(biāo)簽評(píng)價(jià)指標(biāo)這兩類(lèi)指標(biāo)來(lái)衡量預(yù)測(cè)方法的效果.
全局評(píng)價(jià)指標(biāo)[24]為二分類(lèi)指標(biāo),主要用來(lái)評(píng)價(jià)預(yù)測(cè)方法對(duì)于抗菌肽和非抗菌肽的分類(lèi)效果,若某待測(cè)樣本的預(yù)測(cè)標(biāo)簽全為0則被預(yù)測(cè)為非抗菌肽,否則是抗菌肽.全局評(píng)價(jià)指標(biāo)包括敏感性(sensitivity,Ssn)、特異性(specificity,Ssp)、正確率(accuracy,A)和馬氏相關(guān)系數(shù)(Mathew′s correlation coefficient,Mc),其具體公式如下:
(13)
(14)
其中Tp(true positive)表示抗菌肽被預(yù)測(cè)為抗菌肽的個(gè)數(shù),Tn(true negative)表示非抗菌肽被預(yù)測(cè)為非抗菌肽的個(gè)數(shù),F(xiàn)p(false positive)表示非抗菌肽被預(yù)測(cè)為抗菌肽的個(gè)數(shù),F(xiàn)n(false negative) 表示抗菌肽被預(yù)測(cè)為非抗菌肽的個(gè)數(shù),如式(14),N表示符合某條件的多肽的個(gè)數(shù),其中N的上角標(biāo)表示某多肽實(shí)際為抗菌肽或非抗菌肽,分別用+和-兩符號(hào)表示,N的下角標(biāo)表示某多肽被預(yù)測(cè)為抗菌肽或非抗菌肽,表示方法同上.對(duì)于以上4個(gè)全局評(píng)價(jià)指標(biāo),Ssn、Ssp和A的取值范圍均為[0,1],Mc的取值范圍為[-1,1],并且它們的值越大則表示預(yù)測(cè)方法越好.
多標(biāo)簽評(píng)價(jià)指標(biāo)[25]主要用來(lái)評(píng)價(jià)預(yù)測(cè)方法對(duì)于抗菌肽樣本所含標(biāo)簽的預(yù)測(cè)準(zhǔn)確度,它包括漢明損失(Hamming Loss,Hl)、準(zhǔn)確度(accuracy,Ac)、查準(zhǔn)率(precision,P)、查全率(recall,R)和完全正確率(absolute true,At),其具體公式如下:
(15)
(16)
以上這5個(gè)多標(biāo)簽評(píng)價(jià)指標(biāo)的取值均為[0,1],準(zhǔn)確度、查準(zhǔn)率、查全率和完全正確率均越大越好,而漢明損失越小越好.
本文在構(gòu)建近鄰圖時(shí)首先需確定該方法的參數(shù)即近鄰數(shù)K,為避免結(jié)果的隨機(jī)不確定性,本文選用留一法(leave-one-out,LOO).為了獲得預(yù)測(cè)性能最佳的預(yù)測(cè)方法,以基準(zhǔn)數(shù)據(jù)集S1上的全局指標(biāo)中的正確率指標(biāo)最大來(lái)選取最優(yōu)的近鄰數(shù)K,本文對(duì)K取1至30均進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,當(dāng)K為3時(shí),S1上的全局指標(biāo)中的正確率最大,由此確定K=3.表3選列了部分K下的全局指標(biāo)中的正確率指標(biāo)結(jié)果統(tǒng)計(jì)表.
表3 不同近鄰數(shù)K下的正確率結(jié)果
表4 S1上的全局評(píng)價(jià)指標(biāo)結(jié)果
本文預(yù)測(cè)方法的所有指標(biāo)結(jié)果均優(yōu)于iAMP-2L預(yù)測(cè)方法,其中全局指標(biāo)中的準(zhǔn)確率高達(dá)98.20%,多標(biāo)簽評(píng)價(jià)指標(biāo)中的漢明損失也僅為0.110 1.實(shí)驗(yàn)結(jié)果表明,本文預(yù)測(cè)方法的全局性能和多標(biāo)簽學(xué)習(xí)性能比現(xiàn)有方法有了大幅提升.
表上的多標(biāo)簽評(píng)價(jià)指標(biāo)結(jié)果
表6 S2上的全局評(píng)價(jià)指標(biāo)結(jié)果
表上的多標(biāo)簽評(píng)價(jià)指標(biāo)結(jié)果
由以上兩表看出,本文預(yù)測(cè)方法在獨(dú)立測(cè)試集S2上的預(yù)測(cè)表現(xiàn)依然很好,全局評(píng)價(jià)指標(biāo)中所有指標(biāo)都優(yōu)于iAMP-2L預(yù)測(cè)方法,其中正確率指標(biāo)高達(dá)98.43%,而多標(biāo)簽評(píng)價(jià)方面指標(biāo)結(jié)果雖然比在基準(zhǔn)數(shù)據(jù)集S1上略差,但漢明損失也僅有0.122 9.總的來(lái)說(shuō),本文預(yù)測(cè)方法比現(xiàn)有方法具有更好的泛化性能.
對(duì)于多標(biāo)簽評(píng)價(jià)問(wèn)題,除了從以上指標(biāo)分析方法性能外,本文還對(duì)不同標(biāo)簽數(shù)的樣本預(yù)測(cè)完全正確率進(jìn)行了統(tǒng)計(jì),結(jié)果見(jiàn)表8.從表8可以看出,本文預(yù)測(cè)方法對(duì)于樣本標(biāo)簽數(shù)為1、2、3、4的樣本的預(yù)測(cè)完全正確率均高于iAMP-2L預(yù)測(cè)方法,其中前3個(gè)預(yù)測(cè)完全正確率都超過(guò)了45%.而對(duì)于同時(shí)具有5個(gè)標(biāo)簽的樣本來(lái)講,本文預(yù)測(cè)方法效果相對(duì)欠佳,主要原因在于本文的一體化預(yù)測(cè)方法是在有負(fù)樣本參與的情況下進(jìn)行的,其直推學(xué)習(xí)算法采用了樣本的部分聚類(lèi)信息進(jìn)行學(xué)習(xí),一些邊緣負(fù)樣本對(duì)標(biāo)簽的推斷具有比較大的影響,尤其是對(duì)具有多個(gè)正標(biāo)簽的樣本影響更加明顯,而iAMP-2L預(yù)測(cè)方法在第2階段中提前把負(fù)樣本剔除,因此影響較?。硗鉃榱四軌蛏韶?fù)樣本分類(lèi)結(jié)果,算法在每類(lèi)標(biāo)簽上的學(xué)習(xí)都是相對(duì)獨(dú)立的,而對(duì)標(biāo)簽間的關(guān)聯(lián)性學(xué)習(xí)不夠,也影響了對(duì)標(biāo)簽的學(xué)習(xí)效果,這一點(diǎn)在后續(xù)的研究中需要改進(jìn).
表上的不同標(biāo)簽數(shù)預(yù)測(cè)完全正確率
本文構(gòu)建的基于多標(biāo)簽直推學(xué)習(xí)的抗菌肽及其抗菌功能預(yù)測(cè)方法能夠一次性進(jìn)行抗菌肽的鑒別及其抗菌功能的鑒定工作,該方法在構(gòu)建近鄰圖時(shí)將各類(lèi)別標(biāo)簽加以不同權(quán)重,將不同標(biāo)簽對(duì)預(yù)測(cè)方法的貢獻(xiàn)度區(qū)分開(kāi)來(lái),并且突破傳統(tǒng)的利用樣本特征信息計(jì)算樣本局部關(guān)聯(lián)關(guān)系的方法,將樣本的標(biāo)簽信息加入到局部關(guān)聯(lián)關(guān)系的公式中,使計(jì)算出的各近鄰樣本的關(guān)聯(lián)關(guān)系更貼近真實(shí)值.本文預(yù)測(cè)方法將直推學(xué)習(xí)算法應(yīng)用在抗菌肽預(yù)測(cè)領(lǐng)域,充分適應(yīng)了抗菌肽領(lǐng)域未知抗菌肽數(shù)量遠(yuǎn)遠(yuǎn)大于已知抗菌肽數(shù)量以及抗菌肽序列間同源性較低的特點(diǎn),有效提高了對(duì)待測(cè)樣本抗菌功能的預(yù)測(cè)精確度.為了將算法實(shí)際應(yīng)用于抗菌肽的實(shí)驗(yàn)判定,下一步計(jì)劃基于本文預(yù)測(cè)方法開(kāi)發(fā)抗菌肽在線預(yù)測(cè)平臺(tái),為相關(guān)研究人員提供高精度在線預(yù)測(cè)服務(wù).
[1] ZASLOFF M. Antimicrobial peptides of multicellular organisms [J]. Nature, 2002, 415(6870):389-395.
[2] HAMMAMI R, FLISS I. Current trends in antimicrobial agent research: chemo- and bioinformatics approaches [J]. Drug Discovery Today, 2010, 15(13/14):540-546.
[3] KHOSRAVIAN M, FARAMARZI F K, BEIGI M M,etal. Predicting antibacterial peptides by the concept of Chou′s pseudo-amino acid composition and machine learning methods [J]. Protein and Peptide Letters, 2013, 20(2):180-186.
[4] TORRENT M, ANDREU D, NOGUéS V M,etal. Connecting peptide physicochemical and antimicrobial properties by a rational prediction model [J]. PLoS One, 2011, 6(2):e16968.
[5] HOLTON T A, POLLASTRI G, SHIELDS D C,etal. CPPpred: prediction of cell penetrating peptides [J]. Bioinformatics, 2013, 29(23):3094-3096.
[6] VIJAYAKUMAR S, PTV L. ACPP: A web server for prediction and design of anti-cancer peptides [J]. International Journal of Peptide Research and Therapeutics, 2015, 21(1):99-106.
[8] CHANG K Y, YANG J R. Analysis and prediction of highly effective antiviral peptides based on random forests [J]. PLoS One, 2013, 8(8):e70166.
[9] KARNIK S, PRASAD A, DIWEVEDI A,etal. Identification of defensins employing recurrence quantification analysis and random forest classifiers [J]. Lecture Notes in Computer Science, 2009, 5909: 152-157.
[10] JOSEPH S, KARNIK S, NILAWE P,etal. ClassAMP: a prediction tool for classification of antimicrobial peptides [J]. IEEE-ACM Transactions on Computational Biology and Bioinformatics, 2012, 9(5):1535-1538.
[11] ZOU Hongliang, XIAO Xuan. A new multi-label classifier in identifying the functional types of human membrane proteins [J]. The Journal of Membrane Biology, 2015, 248(2):179-186.
[12] XIAO Xuan, WANG Pu, LIN Weizhong,etal. iAMP-2L: A two-level multi-label classifier for identifying antimicrobial peptides and their functional types [J]. Analytical Biochemistry, 2013, 436(2):168-177.
[13] CHEN Ke, KURGAN L A, RUAN Jishou. Prediction of flexible/rigid regions from protein sequences usingk-spaced amino acid pairs [J]. BMC Structural Biology, 2007, 7(1):25.
[14] ZHAO Xiaowei, ZHANG Wenyi, XU Xin,etal. Prediction of protein phosphorylation sites by using the composition ofk-spaced amino acid pairs [J]. PLoS One, 2012, 7(10):e46302.
[15] DONG Xiaobao, ZHANG Yongjun, ZHANG Ziding. Using weakly conserved motifs hidden in secretion signals to identify type-Ⅲ effectors from bacterial pathogen genomes [J]. PLoS One, 2013, 8(2):e56632.
[16] JU Zhe, CAO Junzhe, GU Hong. iLM-2L: A two-level predictor for identifying protein lysine methylation sites and their methylation degrees by incorporatingk-gap amino acid pairs into Chou′s general PseAAC [J]. Journal of Theoretical Biology, 2015, 385(8):50-57.
[17] VAPNIK V. The Nature of Statistical Learning Theory [M]. Berlin: Springer, 1995.
[18] JOACHIMS T. Transductive inference for text classification using support vector machines [C] // Sixteenth International Conference on Machine Learning. Burlington: Morgan Kaufmann Publishers Inc., 1999: 200-209.
[19] ZHA Yufei, YANG Yuan, BI Duyan. Graph-based transductive learning for robust visual tracking [J]. Pattern Recognition, 2010, 43(1):187-196.
[20] CAO Junzhe, LIU Wenqi, HE Jianjun,etal. Identifying the singleplex and multiplex proteins based on transductive learning for protein subcellular localization prediction [J]. Biotechnology Letters, 2013, 35(7):1107-1113.
[21] 陳毅松,汪國(guó)平,董士海. 基于支持向量機(jī)的漸進(jìn)直推式分類(lèi)學(xué)習(xí)算法[J]. 軟件學(xué)報(bào), 2003, 14(3):451-460.
CHEN Yisong, WANG Guoping, DONG Shihai. A progressive transductive inference algorithm based on support vector machine [J]. Journal of Software, 2003, 14(3):451-460. (in Chinese)
[22] 蔣 健. 文本分類(lèi)中特征提取和特征加權(quán)方法研究[D]. 重慶: 重慶大學(xué), 2010.
JIANG Jian. Study on feature selection and feature weighting of text classification [D]. Chongqing: Chongqing University, 2010. (in Chinese)
[23] KONG Xiangnan, NG M K, ZHOU Zhihua. Transductive multilabel learning via label set propagation [J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(3):704-719.
[24] CHEN Wei, FENG Pengmian, LIN Hao,etal. iRSpot-PseDNC: identify recombination spots with pseudo dinucleotide composition [J]. Nucleic Acids Research, 2013, 41(6):e68.
[25] MAIMON O, ROKACH L. Data Mining and Knowledge Discovery Handbook [M]. Heidelberg: Springer, 2010.
Prediction of antimicrobial peptides and their functional types based on multi-label transductive learning
BU Xiaoting, CAO Junzhe, GU Hong*
( School of Control Science and Engineering, Dalian University of Technology, Dalian 116024, China )
Antimicrobial peptides, a type of natural polypeptides with broad-spectrum antimicrobial activity, are widely found in organisms. Because of a slim chance of bacterial resistance, antimicrobial peptides have become a preferred option for the pharmaceutical industry to develop new antibacterial preparations. In this sense, it is of great significance to identify more antimicrobial peptides and then make clear their antimicrobial functional types. In view of this fact, a prediction method based on multi-label transductive learning is proposed to predict antimicrobial peptides and their functional types. This method extracts the polypeptide characteristics by composition ofK-spaced amino acid pairs and constructs transductive prediction models by the weighted neighbor graph and multi-label learning framework. Through the study of labeled training data and unlabeled data to be tested, this method can not only predict whether a polypeptide is an antimicrobial peptide, but also predict what type of antimicrobial function a polypeptide would have. In addition, this method is applicable to both multiple-effect antimicrobial peptides and common antimicrobial peptides. Numerical experiments have shown that the proposed method is more accurate than iAMP-2L method in performance in terms of overall prediction and multi-label prediction.
antimicrobial peptides; multi-label learning; transductive learning; composition ofK-spaced amino acid pairs (CKSAAP)
1000-8608(2017)03-0293-09
2016-09-20;
2017-03-23.
國(guó)家自然科學(xué)基金資助項(xiàng)目(U1560102,61502074);中國(guó)博士后科學(xué)基金資助項(xiàng)目(2016M591430);大連理工大學(xué)基本科研業(yè)務(wù)費(fèi)資助項(xiàng)目(DUT15RC(3)030).
布曉婷(1991-),女,碩士生,E-mail:pudding_bxt@126.com;曹雋喆(1984-),男,講師;顧 宏*(1961-),男,教授,博士生導(dǎo)師,E-mail:guhong@dlut.edu.cn.
TP181
A
10.7511/dllgxb201703012