李佳楠,李 卓,滕小華,高興泉,唐 友,*
(1.吉林化工學(xué)院信息與控制工程學(xué)院,吉林吉林 132000;2.吉林農(nóng)業(yè)科技學(xué)院電氣與信息工程學(xué)院,吉林吉林 132101)
蛋白質(zhì)的亞細(xì)胞定位與其功能緊密相關(guān),蛋白質(zhì)只有處于正確的亞細(xì)胞位置才能維持細(xì)胞系統(tǒng)的正常運(yùn)轉(zhuǎn),蛋白質(zhì)亞細(xì)胞定位研究不僅能夠幫助人們了解蛋白質(zhì)的性質(zhì)和功能和蛋白質(zhì)之間的調(diào)控機(jī)制,還能為人們開發(fā)新藥物提供有效的參考信息。大多數(shù)蛋白質(zhì)只能在細(xì)胞中的1個(gè)特定位置(如細(xì)胞核、細(xì)胞膜)發(fā)揮作用,然而一些其他的蛋白質(zhì)可以在細(xì)胞中的幾個(gè)位置發(fā)揮作用。一個(gè)蛋白質(zhì)想要正常的發(fā)揮功能,必須處于細(xì)胞中的一個(gè)或幾個(gè)特定的位置上,否則該蛋白質(zhì)就會(huì)失效。自后基因組時(shí)代以來,產(chǎn)生了大量的蛋白質(zhì)序列,單純依靠傳統(tǒng)的實(shí)驗(yàn)方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位十分的耗時(shí)、耗力。為了更加精準(zhǔn)、快速解決蛋白質(zhì)亞細(xì)胞定位問題,人們將研究方法從傳統(tǒng)的實(shí)驗(yàn)手段逐步擴(kuò)展到機(jī)器學(xué)習(xí)領(lǐng)域。鑒于此,筆者從蛋白質(zhì)序列特征的刻畫、預(yù)測(cè)算法、算法評(píng)價(jià)3個(gè)方面闡述現(xiàn)階段蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的研究進(jìn)展,總結(jié)蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法方面取得的成果及需要不斷完善的3個(gè)方面(特征選擇、數(shù)據(jù)處理和改進(jìn)算法),并提出了未來機(jī)器學(xué)習(xí)在提高預(yù)測(cè)性能方面的研究重點(diǎn)及重要意義。
圖1 蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)應(yīng)用框架Fig.1 Application framework of protein subcellular localization prediction
對(duì)國(guó)內(nèi)外相關(guān)研究的分析顯示,機(jī)器學(xué)習(xí)領(lǐng)域的蛋白質(zhì)亞細(xì)胞定位的發(fā)展基本可以分為5個(gè)階段:第1階段(2006—2010年)的工作主要集中在預(yù)測(cè)單位點(diǎn)的蛋白質(zhì)亞細(xì)胞位置,但忽略了多位點(diǎn)蛋白質(zhì)的存在。第2階段(2011—2013年)的工作主要集中在單位點(diǎn)和多位點(diǎn)蛋白質(zhì)亞細(xì)胞位置的預(yù)測(cè),但是大部分為多位點(diǎn)蛋白質(zhì)開發(fā)的技術(shù),在嘗試進(jìn)行預(yù)測(cè)時(shí)卻將多位點(diǎn)的問題轉(zhuǎn)化為了單位點(diǎn)的問題。第3階段(2017—2018年)使用不同的特征提取技術(shù),例如將基因本體(GO)信息融合到通用偽氨基酸組成(PseAAC)中,為多標(biāo)簽蛋白質(zhì)亞細(xì)胞定位開發(fā)出了許多的預(yù)測(cè)器。第4階段(2018—2020年)是在用預(yù)測(cè)器對(duì)特征提取后的特征向量進(jìn)行預(yù)測(cè)之前,使用不同的數(shù)據(jù)平衡技術(shù)處理多標(biāo)簽蛋白質(zhì)亞細(xì)胞定位中的數(shù)據(jù)不平衡問題。第5階段(2020—2021年)通過優(yōu)化機(jī)器學(xué)習(xí)算法以及特征融合來提升預(yù)測(cè)的準(zhǔn)確性,其中具有代表性的算法有深度學(xué)習(xí)和集成學(xué)習(xí)。
很多研究者在闡述關(guān)于蛋白質(zhì)亞細(xì)胞定位的相關(guān)研究時(shí),都用到了Chou的五步法則:①有效構(gòu)建優(yōu)質(zhì)的基準(zhǔn)數(shù)據(jù)集用于模型/分類器的訓(xùn)練與預(yù)測(cè);②從蛋白質(zhì)樣本中提取可用于區(qū)分不同類別的蛋白質(zhì)的相關(guān)特征;③采用或設(shè)計(jì)1個(gè)優(yōu)異的分類算法,用于預(yù)測(cè)各自類別中的不同蛋白質(zhì);④選擇1個(gè)合適的驗(yàn)證方法直觀的評(píng)價(jià)分類模型的有效性;⑤構(gòu)建1個(gè)可公開訪問的用戶友好型的網(wǎng)絡(luò)服務(wù)器。具體機(jī)器學(xué)習(xí)方法在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中的應(yīng)用框架如圖1所示。
在進(jìn)行蛋白質(zhì)序列特征刻畫之前需要構(gòu)建一個(gè)合適的數(shù)據(jù)集,數(shù)據(jù)集是算法模型訓(xùn)練和測(cè)試的數(shù)據(jù)基礎(chǔ),它決定了模型訓(xùn)練和測(cè)試的效果,因此構(gòu)建一個(gè)合適的數(shù)據(jù)集十分重要。在構(gòu)建數(shù)據(jù)集時(shí)應(yīng)考慮到以下5個(gè)因素:①蛋白質(zhì)序列條數(shù);②需要預(yù)測(cè)的位點(diǎn)的個(gè)數(shù);③是否需要研究多位點(diǎn)定位問題;④特定物種數(shù)據(jù)集以及基因組數(shù)據(jù)集的差異;⑤序列同源性大小控制。
目前使用的數(shù)據(jù)集基本來源于Swiss-Prot數(shù)據(jù)庫(kù)和其他的一些關(guān)于物種和位置的專門的數(shù)據(jù)庫(kù),如PPDB(plant proteomics database)和NPD(nuclear protein data base)等。
蛋白質(zhì)是由氨基酸組成的,蛋白質(zhì)組成形式可由如下公式表示:
=…
(1)
式中,代表蛋白質(zhì)序列,(=1,2,…,)代表蛋白質(zhì)序列下的每一個(gè)氨基酸。
蛋白質(zhì)序列原始字母式數(shù)據(jù)無(wú)法直接經(jīng)過機(jī)器學(xué)習(xí)的方法進(jìn)行分類和處理,因此需要先將蛋白質(zhì)的數(shù)據(jù)轉(zhuǎn)換為一種能夠準(zhǔn)確地刻畫出序列模式信息的離散性數(shù)據(jù),再通過機(jī)器學(xué)習(xí)的算法對(duì)其進(jìn)行接下來的分類和處理操作。20種不同的氨基酸殘基按照不同的排列組合形成了蛋白質(zhì)序列,序列中包含了進(jìn)化特征、序列特征、理化特征等,這些特征對(duì)算法的設(shè)計(jì)和預(yù)測(cè)結(jié)果都會(huì)產(chǎn)生影響。提取的特征過少會(huì)導(dǎo)致提取后的數(shù)據(jù)缺失一些重要信息,影響最終預(yù)測(cè)的結(jié)果;提取的特征過多則會(huì)導(dǎo)致維數(shù)災(zāi)難,嚴(yán)重影響算法的效率。因此,如何提取有效的特征并進(jìn)行融合來提升算法預(yù)測(cè)的結(jié)果仍然是現(xiàn)階段的核心問題。該研究從序列信息、注釋信息和多特征融合3個(gè)方面來介紹目前主要使用的特征提取方法:
基于序列信息進(jìn)行蛋白質(zhì)序列特征提取的表示方法又可細(xì)分為以下3種方法:序列同源性、序列信號(hào)、氨基酸組成。
(1)序列同源性?;谛蛄型葱苑椒ㄖ饕ㄟ^一些相似性比對(duì)工具進(jìn)行序列間的相似性檢驗(yàn):BLAST(Basic local alignment search tool)、PSI-BLAST是2個(gè)很常用的相似性比對(duì)搜索工具,PSI-BLAST在BLAST的基礎(chǔ)上做了一定的改進(jìn),改良過后的PSI-BLAST可對(duì)同源性較低的序列之間進(jìn)行相似性度量。2005年Xie等、2006年Guo等將蛋白質(zhì)序列同源性信息用于蛋白質(zhì)亞細(xì)胞定位,該方法的缺點(diǎn)為對(duì)于一些待測(cè)的蛋白質(zhì),并不能找到同源性較高的蛋白質(zhì)序列與之匹配,那么該方法將不再有效。
(2)序列信號(hào)。蛋白質(zhì)的序列上擁有著一部分特殊的子序列,同樣特殊的子序列位于蛋白質(zhì)的N端,而此類子序列被稱為分選信號(hào)。分選信號(hào)的存在會(huì)使的蛋白質(zhì)在功能開展及分選過程當(dāng)中,轉(zhuǎn)移到特定的亞細(xì)胞的位置。目前,已知的分選信號(hào)有信號(hào)肽、葉綠體運(yùn)輸肽、線粒體轉(zhuǎn)移肽等。序列信號(hào)的研究工作一直持續(xù)進(jìn)行,并取得了一定的研究成果,如2000年Emanuelsson等利用N端分選信息預(yù)測(cè)葉綠體運(yùn)輸肽;2007年Emanuelsson 等開發(fā)了基于N端分選信號(hào)的蛋白質(zhì)亞細(xì)胞定位方法;2012年Tardif等基于N端分選信號(hào)開發(fā)了可進(jìn)行綠藻亞細(xì)胞定位預(yù)測(cè)的工具:PredAlgo。
(3)氨基酸組成。氨基酸是蛋白質(zhì)序列當(dāng)中簡(jiǎn)單直接的特征。ACC的向量表示形式為:
=[,,,…,]
(2)
式中,(=1,2,3,…,)表示蛋白質(zhì)在中的20中原生氨基酸出現(xiàn)的頻率。1994年,Nakashima等最早利用組成蛋白質(zhì)氨基酸含量的百分率來區(qū)分細(xì)胞內(nèi)和細(xì)胞外的蛋白質(zhì);1995年Chou對(duì)ACC的表現(xiàn)形式由原本的20維簡(jiǎn)化至19維,發(fā)現(xiàn)兩者是等價(jià)的;1998年Reinhardt等在Nakashima和Nishikawa的基礎(chǔ)上提出了用氨基酸對(duì)進(jìn)行蛋白質(zhì)亞細(xì)胞定位,構(gòu)造了蛋白質(zhì)亞細(xì)胞定位第1個(gè)人工神經(jīng)網(wǎng)絡(luò)。在接下來的幾年里,ACC在蛋白質(zhì)亞細(xì)胞定位領(lǐng)域得到了廣泛的使用。該方法的缺點(diǎn)為氨基酸組分無(wú)法反應(yīng)序列的局部信息,只能反應(yīng)序列的整體信息,且氨基酸組分的方法未能考慮到氨基酸的物理化學(xué)性質(zhì),因此氨基酸組分具有局限性。2000年Chou將序列的順序因素加入氨基酸組成中進(jìn)行蛋白質(zhì)亞細(xì)胞定位,發(fā)現(xiàn)該方法能有效地提升最終預(yù)測(cè)結(jié)果。
偽氨基酸組成(pseudo amino acid composition,PseAAC)是在2001年由Chou首次提出的一種新的特征提取方法。PseAAC的向量表示形式為:
=[……20+]
(3)
即一組(20+λ)離散因子。PseAAC中的前20個(gè)元素域AAC相同,而20+1到20+λ的元素代表不同的序列的順序相關(guān)因子。因子的數(shù)量會(huì)有所不同,具體取決于所選氨基酸和層級(jí)的功能/特性數(shù)量。目前,已經(jīng)開發(fā)出4個(gè)開放式訪問軟件:PseAAC、PseAAC-Builder、propy和PseAAC-General。前3個(gè)程序作為 PseAAC 的補(bǔ)充,用于計(jì)算各種形式的 PseAAC,而PseAAC-General不僅用于生成蛋白質(zhì)特征向量的所有特殊模式,還用于生成高階特征向量模式,如功能域模式、基因本體模式和序列進(jìn)化模式或“PSSM” 模式?,F(xiàn)階段偽氨基酸組成的特征提取方式使用較為廣泛。
蛋白質(zhì)所處的亞細(xì)胞位置決定了蛋白質(zhì)的功能,想要知道蛋白質(zhì)的亞細(xì)胞位置可以從蛋白質(zhì)的功能信息著手。蛋白質(zhì)功能域注釋信息(functional domain,F(xiàn)unD)。2004、2007年Scott等分別將蛋白質(zhì)序列上的功能域注釋信息用于蛋白質(zhì)亞細(xì)胞定位。功能域注釋信息雖然具備較高的可靠性,但同時(shí)該方法也有一定的缺陷,即使用功能域注釋信息時(shí)需要保證功能域數(shù)據(jù)庫(kù)中的功能域條目達(dá)到一定的量才能確定序列中特定的功能域。
基因本體(gene ontology,GO)是基于GO數(shù)據(jù)庫(kù)的一種特征提取方法,包括了分子功能、生物學(xué)過程和細(xì)胞組件3種基本信息。2010年Qu等、2013年P(guān)acharawongsakda等通過使用GO特征提取,實(shí)現(xiàn)了蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)精度的顯著提高。2018年研究人員通過提取GO特征信息,開發(fā)出了一系列用于多位點(diǎn)蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的web服務(wù)。盡管GO很重要,但它有以下主要缺點(diǎn):①提取蛋白質(zhì)的GO注釋信息會(huì)產(chǎn)生大量特征,需要進(jìn)一步處理和過濾才能提取出有區(qū)別的特征;②新蛋白質(zhì)的GO信息不可用,許多研究使用基于同源性的方法來提取這些蛋白質(zhì)的 GO信息,從而導(dǎo)致提取的信息不準(zhǔn)確。
單純依靠單一的特征提取模型來提取特征是遠(yuǎn)遠(yuǎn)不夠的,將幾個(gè)模型結(jié)合起來可能會(huì)得到顯著的性能,但如果里面包含不合適的模型,結(jié)果會(huì)適得其反,這是由于過擬合影響模型的計(jì)算造成的。因此,需要對(duì)于不同的數(shù)據(jù)集要有針對(duì)性選擇不同的特征提取方法進(jìn)行融合。
Qu等融合了5種基于氨基酸物理化學(xué)性質(zhì)的特征提取算法,使用過程當(dāng)中發(fā)現(xiàn)分類器性能相比于單個(gè)特征提取算法的分類器更為明顯。Javed等將29種氨基酸物理化學(xué)性質(zhì)用于偽氨基酸組成方法,通過和SAAC方法的融合,構(gòu)建出的分類器性能得到顯著提升。國(guó)內(nèi)一些學(xué)者在特征融合的道路上也取得了一定的成就:2019年,劉清華等基于特征融合思想在Gram-negative和Gram-positive數(shù)據(jù)集準(zhǔn)確率分別達(dá)到了89.6%和97.8%。2020年王藝皓等將改進(jìn)型偽氨基酸組成法、偽位置特異性得分矩陣法和三聯(lián)體編碼法共3種特征提取方法進(jìn)行融合,在Viral proteins數(shù)據(jù)集和Plant proteins數(shù)據(jù)集上分別取得了98.24%和97.63%高準(zhǔn)確率。
多特征融合的目的就是為了更好地提高分類器的效率和算法預(yù)測(cè)的準(zhǔn)確度,但同樣多特征融合也是蛋白質(zhì)序列特征提取的重點(diǎn)和難點(diǎn)部分,對(duì)于不同的數(shù)據(jù)集不能采用同種方式進(jìn)行多特征融合,需要根據(jù)數(shù)據(jù)類型有所區(qū)分,選擇適合該數(shù)據(jù)的特征進(jìn)行融合。目前多特征融合提取蛋白質(zhì)序列特征的方法是現(xiàn)階段主要的研究方法之一。
通常,模型開發(fā)面臨的一個(gè)問題是用于實(shí)驗(yàn)的數(shù)據(jù)集不平衡。細(xì)胞內(nèi)有的蛋白質(zhì)峰度較高,有的蛋白質(zhì)峰度較低,這樣容易導(dǎo)致樣本集中的樣本嚴(yán)重不均衡。用于預(yù)測(cè)的數(shù)據(jù)集中屬于某一個(gè)類別的蛋白質(zhì)數(shù)量通常情況下不同于屬于其他類別的蛋白質(zhì)數(shù)量,如果不同類別下的蛋白質(zhì)數(shù)量之間的差異很大,這種情況下就會(huì)使得分類模型過度分類,即由于屬于某個(gè)類別的蛋白質(zhì)樣本數(shù)量較多,分類器在預(yù)測(cè)數(shù)量較多的類別下的蛋白質(zhì)時(shí)達(dá)到的精度可能會(huì)更高。
為了解決數(shù)據(jù)不平衡問題,增強(qiáng)識(shí)別交互對(duì)的能力,很多的研究者提出了很多不同的方法:1992年Zhang等提出了蒙特卡羅樣本擴(kuò)展方法(Monte Calo sampling approach);1995年Zhang等提出了種子傳播方法(Seed-propagation approach);2006年Cai開發(fā)出了LogiBoost分類器;2001年Laurikkala提出了NCR(neighborhood cleaning technique)方法用于去除冗余的樣本;與NCR類似的還有KNCC方法。以上這些方法一部分是在少數(shù)類中添加重復(fù)的實(shí)例或者從多數(shù)的類中裁剪同源樣本來使數(shù)據(jù)集達(dá)到平衡,另一部分則為訓(xùn)練樣本分配權(quán)重來處理數(shù)據(jù)不平衡問題。研究人員證明了這種線性重采樣對(duì)訓(xùn)練模型的性能沒有多大的提升,因?yàn)槿绻谏贁?shù)類中添加類似的樣本,分類器會(huì)識(shí)別出這些相似的區(qū)域,這種情況下會(huì)導(dǎo)致模型訓(xùn)練的過擬合。2002年Chawla等提出了SMOTE算法,SMOTE算法也在數(shù)量較少的類中增加額外的樣本,但這些樣本并不是類似的樣本,而是通過沿著屬于特定少數(shù)類的線的“K個(gè)最近鄰”來綜合收集的。
結(jié)果表明,在對(duì)不同的數(shù)據(jù)集進(jìn)行平衡過程中,SMOTE算法很明顯幾乎優(yōu)于其他所有的重采樣方法。在后續(xù)的很多研究中也證明了平衡后的數(shù)據(jù)在通過分類器進(jìn)行分類時(shí)的效果要優(yōu)于未平衡前的數(shù)據(jù)。
預(yù)測(cè)算法的優(yōu)劣對(duì)蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的準(zhǔn)確性有較大影響。開發(fā)一個(gè)性能優(yōu)異的預(yù)測(cè)器需要達(dá)到2方面的條件:其一是進(jìn)行特征提取時(shí)要根據(jù)數(shù)據(jù)的特性合理的提取特征,其二就是需要一個(gè)高通量、高準(zhǔn)確率的預(yù)測(cè)算法。在過去的研究期間內(nèi),曾出現(xiàn)非常多的預(yù)測(cè)算法。剛開始的算法設(shè)計(jì)較為單一,進(jìn)行分類的精度不夠,后逐步開始研究集成機(jī)器學(xué)習(xí);起初未發(fā)現(xiàn)多位點(diǎn)蛋白質(zhì)時(shí)研究重點(diǎn)在單位點(diǎn)的蛋白質(zhì)亞細(xì)胞定位,后來多位點(diǎn)蛋白質(zhì)的發(fā)現(xiàn)研究重點(diǎn)轉(zhuǎn)移至多位點(diǎn)多標(biāo)記學(xué)習(xí)問題。雖然現(xiàn)階段算法預(yù)測(cè)的準(zhǔn)確率不斷提高,但仍需要進(jìn)一步深入的研究。集成學(xué)習(xí)的方法仍舊是目前及未來研究的重點(diǎn)。接下來介紹幾個(gè)具有代表性的算法及多標(biāo)記學(xué)習(xí)算法:
最近鄰算法(nearest neighbor,NN)通過某種距離度量方法判斷2個(gè)樣本之間的距離關(guān)系:若距離越近,出現(xiàn)在同一個(gè)細(xì)胞器中的可能性越大;反之則可能性越小。1996年Horton等提出了KNN(K-nearest neighbor,KNN)分類算法;2004年Huang等使用了模糊KNN方法預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位;2006年Chou等通過融合優(yōu)化的證據(jù)理論 K 最近鄰分類器(OET-KNN)預(yù)測(cè)真核蛋白質(zhì)亞細(xì)胞位置;2017年薛衛(wèi)等基于相似性比對(duì)改進(jìn)KNN的Adaboost集成分類預(yù)測(cè)算法,在數(shù)據(jù)集CH317和Gram1253上的最高預(yù)測(cè)準(zhǔn)確率達(dá)到了92.4%和93.1%。目前一種解決多標(biāo)記問題的多標(biāo)簽K近鄰算法(ML-KNN)正被廣泛使用。
KNN算法的思想是某個(gè)樣本類別由其附近的個(gè)相似樣本中的大多數(shù)決定。模糊KNN算法在KNN算法的基礎(chǔ)上為增加了樣本隸屬度,這樣可以減少KNN算法在運(yùn)算時(shí)的錯(cuò)誤率從而提高分類的準(zhǔn)確率。
人工神經(jīng)網(wǎng)絡(luò)是一種可以進(jìn)行信息處理的數(shù)學(xué)模型,在使用過程當(dāng)中,類似于人類大腦中的神經(jīng)突觸連接結(jié)構(gòu),模擬人類大腦進(jìn)行信息的傳遞以及信息的處理。人工神經(jīng)網(wǎng)絡(luò)算法有3個(gè)非常顯著的優(yōu)點(diǎn):第一,本身具備非常強(qiáng)的自我學(xué)習(xí)功能;第二,具備先進(jìn)的聯(lián)想存儲(chǔ)功能;第三具備尋找優(yōu)化解的能力。1998年,Reinhardt等第1次將神經(jīng)網(wǎng)絡(luò)用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究;2000年Emanuelsson等采用了人工神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行預(yù)測(cè);后來Sun等將概率神經(jīng)網(wǎng)絡(luò)用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè);目前的一些研究中,使用ML-RBF(RBF neural networks for multi-label learning)對(duì)多位點(diǎn)的蛋白質(zhì)進(jìn)行亞細(xì)胞定位預(yù)測(cè),并取得了較好的效果。
1995年Vapnik最先提出支持向量機(jī)(Support Vector Machine,SVM)的概念。支持向量機(jī)方法在使用過程當(dāng)中能夠針對(duì)高維模式識(shí)別,非線性以及小樣本問題進(jìn)行有效的解決并且具備該方法具備獨(dú)特的應(yīng)用優(yōu)勢(shì),能夠?qū)⑵鋺?yīng)用到函數(shù)擬合等其他的機(jī)器學(xué)習(xí)問題當(dāng)中。2011年Hua等第1次將SVM算法用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè);后來一些學(xué)者使用SVM算法進(jìn)行預(yù)測(cè)并取得了較好的效果;2017年趙南等運(yùn)用詞袋模型結(jié)合傳統(tǒng)的蛋白質(zhì)特征提取方法,在SVM分類器上進(jìn)行分類,在一定程度上提升了預(yù)測(cè)的準(zhǔn)確率;2019年研究人員基于特征融合的思想利用LDA方法進(jìn)行降維,再利用SVM算法進(jìn)行分類,在Gram-negative和Gram-positive數(shù)據(jù)集上取得了較好的預(yù)測(cè)效果;2020年胡雪嬌等提出了一種基于PSO_BFA優(yōu)化的詞袋模型,獲得蛋白質(zhì)序列的詞袋特征后放入SVM分類器中有效地提高了蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)精度。
集成機(jī)器學(xué)習(xí)即使用多個(gè)不同的學(xué)習(xí)器的方式來解決同一個(gè)問題,通過集成學(xué)習(xí)的方式可以大大提高學(xué)習(xí)系統(tǒng)的泛化能力。但同樣集成機(jī)器學(xué)習(xí)也有其局限性,研究小組將集成學(xué)習(xí)的方法用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè):Laurila等提出了一種集成方法(PROlocalizer),它結(jié)合了多個(gè)專門的二進(jìn)制定位預(yù)測(cè)算法;Park等開發(fā)了一種線性判別分析 (LDA) 方法 (ConLoc) 來為加權(quán)投票分配 LDA 最佳權(quán)重;Assfalg等提出了2種集成定位算法:一種是基于預(yù)測(cè)器的預(yù)測(cè)精度等級(jí)的評(píng)分投票方案,另一種選擇J48決策樹(DT)分類器作為集成方案;Shen等提出了1種兩層決策樹方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)。這些方法大都數(shù)集成了10種或者更多的方法用于預(yù)測(cè),但沒有考慮它們之間冗余或互補(bǔ)的關(guān)系,導(dǎo)致集成算法的計(jì)算量很大,后來Lin等提出的極簡(jiǎn)集成算法有效地解決了這個(gè)問題,2017年薛衛(wèi)等基于相似性比對(duì)改進(jìn)KNN的Adaboost集成分類預(yù)測(cè)算法在數(shù)據(jù)集CH317和Gram1253上的最高預(yù)測(cè)準(zhǔn)確率達(dá)到了92.4%和93.1%。
現(xiàn)階段研究的重點(diǎn)就在于多位點(diǎn)蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)問題,多位點(diǎn)蛋白質(zhì)亞細(xì)胞定位換種方式講就是一種多標(biāo)記學(xué)習(xí)的問題,對(duì)于多標(biāo)記學(xué)習(xí)問題可以按照算法分為2類,即問題轉(zhuǎn)換型和算法適應(yīng)型。問題轉(zhuǎn)換型算法即通過二分類算法解決分類問題的方式解決多標(biāo)記學(xué)習(xí)問題;算法適應(yīng)型算法直接構(gòu)造一種有效的算法解決多標(biāo)記學(xué)習(xí)的問題。
問題轉(zhuǎn)換型。BR (binary relevance ) 方法是一種十分經(jīng)典的問題轉(zhuǎn)換型方法,它的特點(diǎn)是簡(jiǎn)單有效且算法復(fù)雜度低,在多位點(diǎn)蛋白質(zhì)亞細(xì)胞定位中多以SVM作為基本算法。BR方法的缺點(diǎn):BR方法雖可以并行運(yùn)算,但卻沒有考慮標(biāo)記之間的相關(guān)性。
CC(classifier chain) 方法在使用過程當(dāng)中,注重標(biāo)記樣本之間存在的關(guān)聯(lián)性,并在此基礎(chǔ)之上進(jìn)行模型構(gòu)建,但它不能進(jìn)行并行運(yùn)算且標(biāo)記的訓(xùn)練順序具有隨機(jī)性,對(duì)預(yù)測(cè)器性能影響較大。
ECC(Ensemble Classifier Chains)方法通過集成學(xué)習(xí)的方法解決了標(biāo)記順序帶來的隨機(jī)性問題,但同樣也帶來了計(jì)算量大等問題。
算法適應(yīng)型。ML-KNN(Multi-label k-nearest neighbor) 方法是一種基于實(shí)例的多標(biāo)簽分類方法,由傳統(tǒng)的KNN算法發(fā)展而來。ML-KNN在訓(xùn)練集中識(shí)別K近鄰并捕獲每個(gè)實(shí)例的相關(guān)統(tǒng)計(jì)信息,采用最大后驗(yàn)概率準(zhǔn)則來預(yù)測(cè)未知的標(biāo)簽。試驗(yàn)結(jié)果表明,ML-KNN算法有較好的效果。
ML-GKR(Multi-label gaussian kernel regression)在很多現(xiàn)有的預(yù)測(cè)器中都有使用,且達(dá)到了不錯(cuò)的效果。
ML-RBF(RBF neural networks for multi-label learning)方法與傳統(tǒng)的徑向基函數(shù)存在直接關(guān)系,算法中第一層主要針對(duì)標(biāo)記進(jìn)行聚類,并對(duì)這些標(biāo)記進(jìn)行分析,分析后聚類中心作為算法的基函數(shù)原型向量,通過最小化殘差平方和計(jì)算,得到神經(jīng)網(wǎng)絡(luò)第二層。
算法預(yù)測(cè)的準(zhǔn)確率是衡量算法優(yōu)劣的重要指標(biāo),而評(píng)價(jià)一個(gè)分類算法性能好壞的重要指標(biāo)是對(duì)該算法的性能評(píng)估。目前在測(cè)試過程當(dāng)中主要應(yīng)用的驗(yàn)證方法有3種,分別為獨(dú)立數(shù)據(jù)集測(cè)試、二次抽樣測(cè)試以及刀切法測(cè)試。其中,刀切法(Jackknife test)是目前最為普遍采用、最被人們認(rèn)可的驗(yàn)證測(cè)試方法。
Jackknife測(cè)試方法是Maurice Quenouille在1949年提出的一種再抽樣方法,jackknife方法主要將數(shù)據(jù)集的每個(gè)樣本依次挑選出來,挑選出來的樣本用作測(cè)試,其余的樣本用作訓(xùn)練,這樣做的好處是每一個(gè)樣本都有可能被作為測(cè)試,這樣能最大程度上減小誤差,極大增強(qiáng)了測(cè)試的客觀性,是現(xiàn)階段使用的最多且最為客觀的驗(yàn)證測(cè)試方法。在獨(dú)立數(shù)據(jù)集測(cè)試中,將訓(xùn)練集和測(cè)試集作為2個(gè)互相獨(dú)立的蛋白質(zhì)數(shù)據(jù)庫(kù);而二次抽樣測(cè)試(sub-sampling test)則是從訓(xùn)練集中輪流抽取一個(gè)樣本作為測(cè)試集,將其余的樣本作為訓(xùn)練集。
蛋白質(zhì)亞細(xì)胞定位分類器的性能通??梢詮囊韵聨讉€(gè)指標(biāo)進(jìn)行評(píng)價(jià):
總體準(zhǔn)確率ACC:
總體準(zhǔn)確率ACC:
(5)
敏感度SN:
(6)
特異性SP:
(7)
精度PV:
(8)
馬氏相關(guān)系數(shù)MCC:
(9)
式中,TP為分類模型正確預(yù)測(cè)的正樣本數(shù)量;FP為分類模型錯(cuò)誤預(yù)測(cè)為正類的負(fù)樣本數(shù);TN為分類模型正確預(yù)測(cè)為負(fù)類的負(fù)樣本數(shù);FN為分類模型錯(cuò)誤預(yù)測(cè)為負(fù)類的正樣本數(shù);MCC取值范圍為0~1,MCC的取值越高說明算法性能越好。
當(dāng)一個(gè)算法通過驗(yàn)證具有優(yōu)異的性能及預(yù)測(cè)結(jié)果后,應(yīng)當(dāng)考慮建立一個(gè)web服務(wù)供其他的研究人員使用。目前已有大量的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)服務(wù)器提供了相應(yīng)的web服務(wù),其中包括單位點(diǎn)和多位點(diǎn)預(yù)測(cè)服務(wù)器,表1列出了一些比較有影響力的預(yù)測(cè)服務(wù)器:
表1 部分有影響力的預(yù)測(cè)服務(wù)器列表Table 1 List of some influential prediction servers
蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究是生物信息學(xué)領(lǐng)域研究的重點(diǎn)問題之一,面對(duì)海量的蛋白質(zhì)序列數(shù)據(jù),研究出如何利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)高效、精準(zhǔn)的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)是十分必要的。經(jīng)過幾十年的發(fā)展,亞細(xì)胞定位預(yù)測(cè)的方法不斷地完善,主要體現(xiàn)在以下3個(gè)方面:
(1) 刻畫蛋白質(zhì)序列的信息越來越豐富。面對(duì)越來越復(fù)雜的蛋白質(zhì)序列數(shù)據(jù),單一特征提取的方法已不能有效地將這些蛋白質(zhì)區(qū)分開來,多特征融合的方法是現(xiàn)階段改進(jìn)識(shí)別效果最有效的手段。
(2) 數(shù)據(jù)集平衡后提升預(yù)測(cè)精度。數(shù)據(jù)集中屬于某一個(gè)類別的蛋白質(zhì)數(shù)量通常情況下不同于屬于其他類別的蛋白質(zhì)數(shù)量,如果不同類別下的蛋白質(zhì)數(shù)量之間的差異很大,就會(huì)使得分類模型的過度分類。后續(xù)研究者研究發(fā)現(xiàn),數(shù)據(jù)集平衡后能有效提升預(yù)測(cè)精度。
(3) 識(shí)別算法越來越復(fù)雜。從初期的簡(jiǎn)單分支算法到KNN、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和深度學(xué)習(xí)的使用再到現(xiàn)階段很多預(yù)測(cè)器使用的集成算法,這些復(fù)雜的算法有效克服了數(shù)據(jù)復(fù)雜度增加帶來的困難,大大提升了預(yù)測(cè)精度。
通過對(duì)以上3個(gè)方面有關(guān)完善蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方法的總結(jié),提出了4點(diǎn)關(guān)于未來機(jī)器學(xué)習(xí)在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)方面的重要研究方向及研究意義:
(1) 特征融合時(shí)若包含不合適的模型往往會(huì)影響模型的計(jì)算,因此如何選擇更加合適的模型進(jìn)行融合依舊是研究熱點(diǎn)。多個(gè)合適的模型進(jìn)行融合后會(huì)覆蓋數(shù)據(jù)的大部分重要信息,對(duì)預(yù)測(cè)結(jié)果有十分積極的影響,是蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究的重點(diǎn)部分。
(2) 多位點(diǎn)蛋白質(zhì)數(shù)據(jù)往往會(huì)存在很嚴(yán)重的數(shù)據(jù)不平衡現(xiàn)象,因此如何有效解決數(shù)據(jù)不平衡問題來提升預(yù)測(cè)精度成為研究重點(diǎn)之一。解決數(shù)據(jù)不平衡問題,增強(qiáng)識(shí)別交互對(duì)的能力,有利于提升整體預(yù)測(cè)效果,達(dá)到提升預(yù)測(cè)精度的目的。
(3) 蛋白質(zhì)之間存在一定的相關(guān)性,如何利用好蛋白質(zhì)之間的相關(guān)性提升預(yù)測(cè)精度是重要的研究方向。有效利用蛋白質(zhì)之間的標(biāo)記相關(guān)性,能更好提升蛋白質(zhì)亞細(xì)胞定位的預(yù)測(cè)性能。
(4) 一個(gè)性能優(yōu)異的預(yù)測(cè)算法能充分的反應(yīng)分類問題的本質(zhì),能很好地提升預(yù)測(cè)的精度。集成學(xué)習(xí)方法是現(xiàn)階段研究的重點(diǎn)內(nèi)容,因此開發(fā)高效的集成學(xué)習(xí)方法也是重要的研究方向。