摘要:蛋白質(zhì)間的相互作用是細(xì)胞實(shí)現(xiàn)功能的基礎(chǔ),其研究對(duì)疾病的診斷和治療有著重要意義。蛋白質(zhì)相互作用預(yù)測(cè)方法有實(shí)驗(yàn)方法和計(jì)算方法兩大類(lèi)。作為實(shí)驗(yàn)方法的有效補(bǔ)充和驗(yàn)證工具,計(jì)算方法受到越來(lái)越多人的重視。本文主要分析了預(yù)測(cè)蛋白質(zhì)相互作用的主要方法及其優(yōu)缺點(diǎn),對(duì)當(dāng)前需待解決的相關(guān)問(wèn)題進(jìn)行了闡述。
關(guān)鍵詞:蛋白質(zhì)相互作用預(yù)測(cè);實(shí)驗(yàn)方法;計(jì)算方法
中圖分類(lèi)號(hào):Q51 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 18-0000-02
1 引言
蛋白質(zhì)間的相互作用是細(xì)胞實(shí)現(xiàn)功能的基礎(chǔ),幾乎在所有的細(xì)胞活動(dòng)中,蛋白質(zhì)相互作用(PPIs,Protein-protein interactions)都發(fā)揮著關(guān)鍵性的作用,例如DNA合成、生命代謝過(guò)程、產(chǎn)物分泌、病毒感染等[1]。任何一種疾病在表現(xiàn)出可察覺(jué)癥狀之前,體內(nèi)就已經(jīng)有一些蛋白質(zhì)發(fā)生了變化,進(jìn)而引起了相互作用關(guān)系、生物信號(hào)傳遞等變化。如果能夠掌握蛋白質(zhì)在不同時(shí)間、空間和不同環(huán)境中的相互作用,就會(huì)幫助我們了解這些蛋白質(zhì)的功能,進(jìn)而了解許多生命活動(dòng)的分子機(jī)制,從而有利于疾病的診斷和病理的研究[2]。
總的來(lái)說(shuō),PPIs預(yù)測(cè)方法有兩大類(lèi):實(shí)驗(yàn)方法和計(jì)算方法。
2 預(yù)測(cè)PPIs的實(shí)驗(yàn)方法
預(yù)測(cè)PPIs的實(shí)驗(yàn)方法有兩類(lèi):小規(guī)模實(shí)驗(yàn)和大規(guī)模實(shí)驗(yàn)。傳統(tǒng)的小規(guī)模實(shí)驗(yàn)準(zhǔn)確率高、目的性強(qiáng),但是一次只能檢測(cè)一對(duì)或幾對(duì)蛋白質(zhì)之間的相互作用。大規(guī)模實(shí)驗(yàn)一次可以獲得很多個(gè)相互作用對(duì),然而,實(shí)驗(yàn)設(shè)計(jì)條件要求較高,其所檢測(cè)出的相互作用數(shù)據(jù)間的重合度又非常低,得到的蛋白質(zhì)相互作用存在大量的假陽(yáng)性和假陰性數(shù)據(jù),并且并不是所有的PPIs都能被實(shí)驗(yàn)方法所鑒定[3]。
3 預(yù)測(cè)PPIs的計(jì)算方法
由于傳統(tǒng)的實(shí)驗(yàn)方法耗時(shí)耗力,且檢測(cè)出來(lái)的PPIs數(shù)據(jù)都有著不同程度上的“假陽(yáng)性”和“假陰性”特征,使結(jié)果分析起來(lái)非常困難,因此,研究人員開(kāi)始轉(zhuǎn)而尋求計(jì)算方法預(yù)測(cè)PPIs:
3.1 基于基因組信息的方法
有三種典型方法是基于基因組信息的:系統(tǒng)發(fā)育譜、基因鄰接和基因融合。但這種方法不能判斷功能相關(guān)的蛋白是否“物理”上直接接觸,準(zhǔn)確性依賴(lài)于完成測(cè)序的基因組數(shù)量以及系統(tǒng)發(fā)育譜構(gòu)建的可靠性,只適用于進(jìn)化早期的結(jié)構(gòu)簡(jiǎn)單的微生物,不適用于大多數(shù)生物都具有的蛋白質(zhì)[4]。
3.2 基于進(jìn)化信息的方法
這類(lèi)方法基于“發(fā)生相互作用的蛋白質(zhì)對(duì)有著共同進(jìn)化的趨勢(shì)”這一假設(shè),也正因此,要同時(shí)考慮各個(gè)基因組中的相應(yīng)蛋白質(zhì)。
3.3 基于蛋白質(zhì)結(jié)構(gòu)的方法
結(jié)構(gòu)決定功能,蛋白質(zhì)所有的功能信息都蘊(yùn)藏在其氨基酸排列中。此類(lèi)方法都是從蛋白質(zhì)的結(jié)構(gòu)出發(fā),使用從結(jié)構(gòu)中所獲得的信息來(lái)研究PPIs。然而,此類(lèi)方法的一個(gè)難點(diǎn)是怎樣選取合適的理化特征以及對(duì)蛋白質(zhì)序列的矢量化,另外,現(xiàn)有的絕大多數(shù)基于結(jié)構(gòu)的方法都沒(méi)考慮到相同結(jié)構(gòu)域復(fù)制和不同結(jié)構(gòu)域組合對(duì)PPIs的影響。
3.4 基于氨基酸序列的方法
這類(lèi)方法基于蛋白質(zhì)序列結(jié)合其理化屬性進(jìn)行預(yù)測(cè)。然而,由于氨基酸序列的理化屬性較多,編碼方式多種多樣,如何提取氨基酸的特征并對(duì)編碼方式進(jìn)行有效整合以提高預(yù)測(cè)精度,一直以來(lái)是個(gè)難題。
3.5 基于自然語(yǔ)言處理的文獻(xiàn)挖掘方法
目前,在生物醫(yī)學(xué)的相關(guān)文獻(xiàn)中,存在大量的PPIs數(shù)據(jù),這些數(shù)據(jù)促進(jìn)了文獻(xiàn)挖掘PPIs方法的發(fā)展。然而,文本的復(fù)雜性和人類(lèi)語(yǔ)言的不確定性使得處理的數(shù)據(jù)具有很高的噪聲。同時(shí),大部分出版刊物的全文是需付費(fèi)的,這使得對(duì)數(shù)據(jù)的挖掘僅僅停留在掃描文獻(xiàn)數(shù)據(jù)庫(kù)中的標(biāo)題和摘要上面。另外,基因名和蛋白質(zhì)名稱(chēng)存在同義或多義的情況也使處理問(wèn)題的難度增大。[5]
3.6 機(jī)器學(xué)習(xí)方法
機(jī)器學(xué)習(xí)方法包括核方法、SVM、隨機(jī)森林等。核方法通過(guò)坐標(biāo)變換進(jìn)行重新編碼,能夠高效率地分析數(shù)據(jù)之間的非線性關(guān)系,并避免過(guò)度擬合。SVM能較好解決非線性、高維數(shù)、小樣本和局部最小等問(wèn)題。隨機(jī)森林是一個(gè)由許多單棵分類(lèi)回歸樹(shù)組合而成的組合分類(lèi)器算法,適用于數(shù)據(jù)集中存在大量未知特征,當(dāng)數(shù)據(jù)集中存在大量的噪音時(shí)同樣可以取得很好的預(yù)測(cè)性能。用機(jī)器學(xué)習(xí)方法預(yù)測(cè)PPIs是當(dāng)前的研究熱點(diǎn)之一。
3.7 基于PPIs網(wǎng)絡(luò)的方法
基于蛋白質(zhì)的序列同源性、拓?fù)浣Y(jié)構(gòu)及網(wǎng)絡(luò)motif等,從網(wǎng)絡(luò)層次考慮蛋白質(zhì)之間的相互作用,通過(guò)網(wǎng)絡(luò)比較[6]]等方法來(lái)預(yù)測(cè)PPIs是目前比較新穎的一個(gè)研究方向。
目前,對(duì)于PPIs的研究,計(jì)算方法在一定程度上取得了成功。但是計(jì)算方法與實(shí)驗(yàn)方法都存在同樣的問(wèn)題:第一、不同的計(jì)算方法對(duì)相同的數(shù)據(jù)對(duì)象評(píng)估結(jié)果不一致,有時(shí)差別甚至更大;第二、相同的計(jì)算方法對(duì)不同的數(shù)據(jù)對(duì)象的預(yù)測(cè)準(zhǔn)確率不穩(wěn)定;第三、兩類(lèi)方法所預(yù)測(cè)的結(jié)果都具有較高的假陽(yáng)性和假陰性。因此,研發(fā)新的計(jì)算方法、分析和提取關(guān)鍵的蛋白質(zhì)序列信息和改進(jìn)目前的算法就成為當(dāng)前PPIs研究的重中之重[3]。
4 討論與結(jié)束語(yǔ)
目前,PPIs預(yù)測(cè)特別是利用計(jì)算方法預(yù)測(cè)PPIs仍然是一個(gè)相對(duì)新的領(lǐng)域。雖然在這個(gè)領(lǐng)域的一些子問(wèn)題己經(jīng)被深入透徹地研究了很多,然而,目前PPIs的研究還遠(yuǎn)沒(méi)有達(dá)到系統(tǒng)地理解生命現(xiàn)象的要求,并且高通量的檢測(cè)技術(shù)、預(yù)測(cè)方法及PPIs數(shù)據(jù)都還沒(méi)有精確標(biāo)準(zhǔn),還有很多重要的問(wèn)題有待于解決:
4.1 預(yù)測(cè)物種之間的PPIs。研究物種之間的PPIs,例如病毒和宿主蛋白質(zhì)之間的相互作用有著一定的應(yīng)用價(jià)值。在預(yù)測(cè)過(guò)程中,同樣存在如數(shù)據(jù)噪聲、特征提取、異源數(shù)據(jù)整合等問(wèn)題,因此,如何發(fā)展具有高魯棒性的計(jì)算方法來(lái)鑒定可靠性高的PPIs仍然是一個(gè)很有挑戰(zhàn)性的問(wèn)題。
4.2 研究與疾病相關(guān)的PPIs。任何一種疾病在表現(xiàn)出可察覺(jué)癥狀之前,體內(nèi)就已經(jīng)有一些蛋白質(zhì)發(fā)生了變化。用計(jì)算方法確定致病蛋白的相互作用關(guān)系有利于疾?。ū热绨┌Y、早老性癡呆等人類(lèi)重大疾?。┑脑\斷和病理的研究,推動(dòng)生物醫(yī)學(xué)更快的發(fā)展。
4.3 有效整合PPIs數(shù)據(jù)。目前,存大大量的與PPIs相關(guān)的數(shù)據(jù)庫(kù),如DIP、MIPS、PDB等等,數(shù)據(jù)的大幅增加無(wú)疑將會(huì)提高其預(yù)測(cè)精度。然而,由于不同技術(shù)得到的PPIs數(shù)據(jù)之間的覆蓋率不同,為提供一個(gè)相對(duì)準(zhǔn)確、較為可靠的數(shù)據(jù)源,需要把不同來(lái)源的PPIs數(shù)據(jù)進(jìn)行有效整合、優(yōu)化,以建立一個(gè)針對(duì)各種數(shù)據(jù)源的整合模型。
4.4 集成學(xué)習(xí)方法的研究
現(xiàn)在,大多數(shù)PPIs預(yù)測(cè)采用的都是單分類(lèi)器,然而,單分類(lèi)器的性能畢竟是有限的,所得數(shù)據(jù)精確度有待提高,我們可以考慮用多分類(lèi)器,利用集成學(xué)習(xí)方法來(lái)進(jìn)行PPIs預(yù)測(cè)。
4.5 蛋白質(zhì)編碼方法的研究
蛋白質(zhì)的編碼方法對(duì)最終的預(yù)測(cè)性能具有很大的影響,如何對(duì)蛋白質(zhì)提取有效特征并進(jìn)行有效編碼,一直是PPIs預(yù)測(cè)的難點(diǎn)。隨著人們對(duì)蛋白質(zhì)認(rèn)識(shí)的深入,利用其它特征參數(shù)對(duì)蛋白質(zhì)進(jìn)行特征編碼己成為可能,可以將蛋白質(zhì)的序列、結(jié)構(gòu)、理化性質(zhì)等特征結(jié)合起來(lái),以提高相互作用預(yù)測(cè)的性能。
4.6 從PPIs網(wǎng)絡(luò)中挖掘PPIs數(shù)據(jù)
隨著PPIs數(shù)據(jù)的積累,構(gòu)建的PPIs網(wǎng)絡(luò)將越來(lái)越精準(zhǔn)和完整,這也促進(jìn)了從PPIs網(wǎng)絡(luò)中挖掘PPIs信息。
4.7 蛋白質(zhì)與DNA、RNA之間的相互作用的研究
在許多生命活動(dòng)中,蛋白質(zhì)-DNA、蛋白質(zhì)-RNA之間的相互作用扮演了關(guān)鍵角色,從DNA復(fù)制、轉(zhuǎn)錄、翻譯、基因表達(dá)調(diào)控到染色質(zhì)的組裝,都涉及到蛋白質(zhì)與DNA的相互作用,而幾乎所有的RNA生物功能的發(fā)揮都需要蛋白質(zhì)可逆或不可逆地結(jié)合。因此,研究蛋白質(zhì)與DNA、RNA之間的相互作用將有助于PPIs的研究。
總之,蛋白質(zhì)是細(xì)胞生命活動(dòng)的主要體現(xiàn)者,蛋白質(zhì)之間的相互作用是生命活動(dòng)的基礎(chǔ),發(fā)展新的有效的PPIs預(yù)測(cè)方法將在揭示人類(lèi)某些疾?。℉IV、癌癥等)的發(fā)病機(jī)理、尋找藥物靶點(diǎn)、構(gòu)造PPIs網(wǎng)絡(luò)等方面都具有非常重要的應(yīng)用價(jià)值,同時(shí)也將大大地促進(jìn)人類(lèi)分析、利用蛋白質(zhì)數(shù)據(jù)。
參考文獻(xiàn):
[1]倪青山.蛋白質(zhì)相互作用與功能預(yù)測(cè)方法研究[D].國(guó)防科學(xué)技術(shù)大學(xué),2009.
[2]Janet M. Doolittle1, Shawn M. Gomez. Mapping Protein Interactions between Dengue Virus and Its Human and Insect Hosts[J], PLoS Negl Trop Dis 2011,5(2):e954. doi:10.1371/journal. Pntd.0000954
[3]楊曉飛.基于多源數(shù)據(jù)融合的蛋白質(zhì)一蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2009.
[4]史明光.蛋白質(zhì)相互作用預(yù)測(cè)方法的研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2009.
[5]杜秀全.基于智能計(jì)算的蛋白質(zhì)相互作用預(yù)測(cè)方法研究[D].安徽大學(xué),2010.
[作者簡(jiǎn)介]
彭利紅(1978-),女,漢族,湖南岳陽(yáng)人,在讀博士,長(zhǎng)沙醫(yī)學(xué)院講師,研究方向:生物計(jì)算、數(shù)據(jù)挖掘;劉海燕(1983-),女,湖南邵陽(yáng)人,碩士,長(zhǎng)沙醫(yī)學(xué)院講師,研究方向:數(shù)據(jù)挖掘;唐啟濤(1975-),男,漢族,湖南長(zhǎng)沙人,碩生,長(zhǎng)沙醫(yī)學(xué)院講師,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與信息安全
湖南省教育廳資助科研項(xiàng)目(項(xiàng)目編號(hào):09C163,項(xiàng)目名:互作網(wǎng)絡(luò)中的蛋白質(zhì)功能預(yù)測(cè)及其在疾病分析中的應(yīng)用研究)
計(jì)算機(jī)光盤(pán)軟件與應(yīng)用2012年18期