亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于計算的蛋白質復合物預測方法綜述

        2022-01-18 11:38:28潘玉亮關佶紅石運佳周水庚
        計算機與生活 2022年1期
        關鍵詞:方法

        潘玉亮,關佶紅+,姚 恒,石運佳,周水庚

        1.同濟大學 電子與信息工程學院,上海201804

        2.同濟大學 嵌入式系統(tǒng)與服務計算教育部重點實驗室,上海201804

        3.復旦大學 計算機科學技術學院,上海200433

        4.復旦大學 上海市智能信息處理重點實驗室,上海200433

        作為生命活動的物質基礎,蛋白質(proteins)存在于所有的生物細胞中,參與了幾乎所有的生命活動過程。大多數(shù)蛋白質不是單獨地行使生物學功能,而是通過與其他蛋白質相互作用形成蛋白質復合物(protein complexes)來完成。因此,蛋白質復合物預測有助于更加深入地理解細胞的組成及其生命過程。

        盡管一些生物實驗技術,例如串聯(lián)親和純化與質譜(TAP-MS)和酵母菌雙雜交技術(Y2H)可以直接探測蛋白質復合物,但實驗結果不僅存在較高的假陽性和假陰性,而且還存在諸多弊端,譬如在串聯(lián)親和純化與質譜實驗中,吸附性較低的蛋白質在多次沖洗后很難再次被檢測到;由于非穩(wěn)態(tài)蛋白質復合物中蛋白質之間相互作用動態(tài)可變,實驗方法也很難檢測到;有些復合物的合成需要某種特定的生物環(huán)境,如果生物實驗方法無法模擬相應的環(huán)境,則相應復合物將不能被檢測到;由于蛋白質相互作用發(fā)生的時間、空間等信息難以捕獲,這也將影響復合物檢測的準確性;生物實驗方法存在耗時長、成本高等問題,不能滿足后基因組時代相關研究的實際需要。

        隨著高通量實驗技術的發(fā)展,蛋白質相互作用(protein-protein interaction,PPI)數(shù)據(jù)日益增多,這使得通過計算方法預測蛋白質復合物成為了可能。針對生物實驗技術中存在的諸多問題,計算方法逐漸被應用到該領域。計算方法具有速度快、成本低等優(yōu)勢,可以在短時間內(nèi)預測一些高置信度的蛋白質復合物,有效地彌補了生物實驗的不足。利用大量的蛋白質相互作用數(shù)據(jù),可以構建蛋白質相互作用網(wǎng)絡(PPI network,PIN)。其中,網(wǎng)絡中的節(jié)點表示蛋白質,節(jié)點之間的連接表示對應蛋白質之間的相互作用,進而可以通過復雜網(wǎng)絡理論和機器學習方法在PIN 上預測蛋白質復合物。

        目前,針對基于計算的蛋白質復合物預測問題,國內(nèi)外已有大量相關研究。最初,人們將圖聚類算法應用到PPI 網(wǎng)絡中,通過挖掘局部密集子圖來預測蛋白質復合物。這種方法不僅簡單直觀,而且取得了較好的效果,但預測準確率有待提高。鑒于PPI網(wǎng)絡存在較高的假陰性、假陽性問題,不少研究開始使用網(wǎng)絡拓撲結構特征、蛋白質功能、基因表達等信息為PPI 網(wǎng)絡進行加權以提升網(wǎng)絡的可靠性,進而提高蛋白質復合物預測的準確性。另外,通過對已有蛋白質復合物結構的研究,人們發(fā)現(xiàn)復合物具有核心-附屬結構,因而提出了基于核心-附屬結構的預測方法。部分研究者針對蛋白質間互作的動態(tài)性,提出了基于動態(tài)網(wǎng)絡的預測方法。有些研究團隊利用已知的蛋白質復合物作為先驗知識,提出基于監(jiān)督學習的算法。還有的研究者提出從功能到互作的研究思路,從新的角度預測蛋白質復合物。

        針對蛋白質復合物預測問題,這些年來國內(nèi)外已有少量相關評述和比較研究,但這些工作未能系統(tǒng)地將該領域的方法進行有效歸類和指出該領域有待解決的問題。其中,Chen 等人的綜述對靜態(tài)蛋白質相互作用網(wǎng)絡到動態(tài)蛋白質相互作用網(wǎng)絡的復合物預測算法進行了總結,但由于其發(fā)表時間較早,缺乏近些年的預測方法;Wu 等人的綜述雖然涉及比較多的復合物預測方法,但是對于這些方法的分類界限較為模糊,不能有效區(qū)分和總結所述算法;于楊的綜述只囊括了基于靜態(tài)網(wǎng)絡的復合物預測方法,沒有涵蓋基于動態(tài)網(wǎng)絡的方法;代啟國和郭茂祖的綜述涉及方法較少,且只關注于方法本身,未對性能評估指標和測試數(shù)據(jù)集進行介紹,也沒有進行主要方法的性能比較??偟膩碚f,目前的綜述工作存在如下三方面的不足:第一,涵蓋方法較少,未能對該領域進行全面描述。第二,對已有方法的分類標準模糊,不能有效將各個方法按類別分開,無法為研究者提供清晰的領域視野。第三,由于每年都會有不少基于計算的蛋白質復合物預測新算法發(fā)表,鑒于之前綜述涵蓋的方法已經(jīng)比較陳舊,因此有必要對該領域的方法進行全新的梳理和評述以及性能比較。

        本文旨在對現(xiàn)有蛋白質復合物預測方法進行綜述,除介紹各種方法的技術特點外,還對比、分析了各類方法的優(yōu)、缺點,并指出蛋白質復合物預測中的一些挑戰(zhàn)和開放性問題。此外,利用酵母菌PPI 數(shù)據(jù),對一些代表性方法的性能進行了測試和比較分析。本文希望通過對現(xiàn)有方法的全面、深入的闡述與分析,為該領域的研究者和用戶在使用這些方法和開發(fā)新方法方面提供一些有價值的參考意見和方向指導。

        1 蛋白質復合物及其預測

        蛋白質復合物是一組在特定的時間和空間上通過彼此相互作用聚集在一起完成特定生物功能或生物過程的蛋白質集合。因此,蛋白質復合物對于生物體正常生命運轉有著至關重要的作用。常見的蛋白質復合物有在轉錄過程中用于合成RNA 的RNA聚合酶和用于分子降解的蛋白酶體等。圖1 所示為新型冠狀病毒RNA 依賴的RNA 聚合酶(PDB ID:6M71),其作為新冠病毒轉錄復制的核心部件,被認為是重要的抗病毒藥物靶標,目前緊急獲批的瑞德西韋便是基于此靶標的抗病毒藥物。圖中的不同顏色代表不同的肽鏈,綠色、橘色、紫色和藍色分別代表復合物中的A 鏈、B 鏈、C 鏈和D 鏈,不同鏈之間通過相互作用構成了蛋白質復合物。

        圖1 RNA 聚合酶復合物(PDB ID:6M71)Fig.1 RNA polymerase complex(PDB ID:6M71)

        目前,檢測蛋白質復合物的生物學方法主要包括串聯(lián)親和純化與質譜技術和酵母菌雙雜交技術。下面,對這兩種生物方法作簡要介紹。

        串聯(lián)親和純化與質譜技術是當前蛋白質組學研究中的重要工具。其主要步驟是嵌入一段蛋白質標記并導入目標蛋白質,在生理條件下與目標蛋白質發(fā)生相互作用的蛋白質就可以一起被洗脫下來,然后通過質譜技術進行鑒定,如此便可以快速地得到生理條件下真實的蛋白質復合物。

        酵母菌雙雜交技術檢測蛋白質復合物,首先是把已知編碼的蛋白質DNA 序列連接到帶有轉錄調控因子DNA 的表達載體上;然后將導入的酵母菌細胞與報告基因上游的啟動調控區(qū)相結合作為“誘餌”蛋白質;接下來將已知編碼轉錄激活結構域的DNA 與待篩選cDNA 文庫中的不同片段連接獲得“獵物”載體;最后激活報告基因表達并獲得蛋白質復合物。

        雖然可以在生物實驗中使用串聯(lián)親和純化與質譜和酵母菌雙雜交等技術直接探測蛋白質復合物,但實驗結果存在較嚴重的假陽性和假陰性。另外,由于實驗技術限制,部分蛋白質復合物很難被檢測到,而且存在實驗耗時長、成本高等問題,無法滿足后基因組時代相關研究的實際需求。隨著高通量實驗方法的發(fā)展,全基因組蛋白質相互作用數(shù)據(jù)日益增多,為通過計算方法來預測蛋白質復合物創(chuàng)造了條件。

        基于計算的方法預測蛋白質復合物可以有效彌補生物實驗的不足,短時間內(nèi)可在大型生物網(wǎng)絡上預測出許多高置信度的蛋白質復合物。在現(xiàn)有的計算方法中,通常用無向網(wǎng)絡來表示蛋白質之間相互作用關系,記為=(,)。其中,表示蛋白質相互作用網(wǎng)絡,代表蛋白質集合,代表蛋白質之間相互作用集合。圖2 所示為酵母菌蛋白質相互作用網(wǎng)絡。基于計算的方法預測蛋白質復合物,主要是利用網(wǎng)絡所包含的拓撲結構和節(jié)點所包含的生物屬性為特征,采用聚類方法在PPI 網(wǎng)絡上挖掘密集子圖,將得到的密集子圖作為最終的蛋白質復合物。結果表明,基于計算的方法對于分析PPI 網(wǎng)絡、預測蛋白質復合物等效果顯著。

        圖2 蛋白質相互作用網(wǎng)絡Fig.2 Protein-protein interaction network

        2 基于計算的蛋白質復合物預測方法

        目前,國內(nèi)外研究學者已經(jīng)提出多種基于計算的蛋白質復合物預測算法,本文將這些方法分為如下七類:基于局部密集子圖的預測算法、基于核心-附屬結構的預測算法、基于動態(tài)網(wǎng)絡的預測算法、基于監(jiān)督學習的預測算法、從功能到互作的預測算法、基于多源數(shù)據(jù)的預測算法以及其他方法。下面對以上七類方法分別加以闡述。

        2.1 基于局部密集子圖的預測算法

        在現(xiàn)有七類預測算法中,基于局部密集子圖的預測算法誕生最早且數(shù)量最多。由于大部分蛋白質需要與其他蛋白質通過相互作用形成復合物才能完成相應的生物功能,復合物中的蛋白質組對應于相互作用網(wǎng)絡中聯(lián)系緊密的若干個節(jié)點,即局部密集子圖。同時,大量針對蛋白質相互作用網(wǎng)絡的研究表明,蛋白質相互作用網(wǎng)絡具有模塊性。從網(wǎng)絡拓撲結構的角度來看,PPI 網(wǎng)絡中的模塊是由聯(lián)系緊密的蛋白質構成。從生物學的角度看,PPI 網(wǎng)絡中的模塊代表了共同執(zhí)行某項生物功能的蛋白質集合。由此可以通過挖掘PPI 網(wǎng)絡中的模塊結構(即密集子圖或子網(wǎng)絡)來預測蛋白質復合物。根據(jù)PPI 網(wǎng)絡中的邊是否加權,可將基于局部密集子圖的方法大致分為兩類:基于非加權網(wǎng)絡的預測算法和基于加權網(wǎng)絡的預測算法。

        2003 年Bader 和Hogue 提出的MCODE方法,作為早期預測蛋白質復合物的計算方法之一,分三個步驟完成對蛋白質復合物的預測。首先,通過計算節(jié)點的-core 值和局部子圖密度的乘積得到節(jié)點的局部鄰居密度。然后將密度值較大的節(jié)點選為種子節(jié)點,并從種子節(jié)點開始遍歷其鄰居節(jié)點并進行擴展,將滿足相應閾值的節(jié)點依次加入當前子圖中,直到子圖不再擴展即得到初期的蛋白質復合物。當復合物預測完成后,若網(wǎng)絡中還有未被處理的節(jié)點,則作為新的種子節(jié)點,重復上述過程。最后,MCODE為提升預測結果的準確性,對上述預測出的初期復合物進行相應后處理操作。第一,將節(jié)點數(shù)少于2 的復合物直接移除。第二,對于候選復合物中每個節(jié)點,若其直接鄰居(包括節(jié)點)所構成子圖的密度高于給定參數(shù),則的所有鄰居節(jié)點依次加入到當前復合物中并生成最終的蛋白質復合物。

        基于網(wǎng)絡的聚類算法被應用到蛋白質相互作用網(wǎng)絡中以挖掘密集子圖作為蛋白質復合物,例如,MCL算法通過在蛋白質相互作用網(wǎng)絡上模擬隨機游走,進而提取密集子圖來預測蛋白質復合物。隨機游走在PPI 網(wǎng)絡構建的鄰接矩陣上迭代執(zhí)行“擴展”和“膨脹”兩個操作,使得PPI 網(wǎng)絡中原本密集的區(qū)域更加密集,原本稀疏的區(qū)域更加稀疏,從而將連接緊密的節(jié)點組作為復合物輸出。由于該算法直接進行矩陣運算,是一個快速且可擴展的聚類算法。

        根據(jù)蛋白質相互作用網(wǎng)絡的特點,基于代價函數(shù)來識別復合物的算法被提出。其中,Nepusz 等人提出的ClusterONE 算法,是近幾年提出的經(jīng)典算法之一。作者為評估當前子圖構成蛋白質復合物的概率,定義一個有效的“緊密度”函數(shù)。此函數(shù)描述了蛋白質復合物應該滿足的兩個基本結構特征:復合物內(nèi)部的節(jié)點之間應該連接緊密;不同復合物之間的節(jié)點應該連接稀疏。“緊密度”函數(shù)定義如下:

        其中,()代表子圖內(nèi)所有邊上權重之和,()表示當前子圖與子圖外節(jié)點之間連邊的權重之和,對于非加權網(wǎng)絡,即為邊數(shù)之和,最后()作為懲罰因子,用來模擬蛋白質互作網(wǎng)絡中存在但未被發(fā)現(xiàn)的互作連邊的不確定性。ClusterONE 選取度數(shù)最高的節(jié)點作為種子節(jié)點向外擴展,但異于其他只增加節(jié)點的擴展方法,它會同時進行添加和刪除節(jié)點兩項操作,直到?jīng)]有節(jié)點再加入或離開當前子圖為止,以保證當前子圖“緊密度”函數(shù)值最優(yōu)。然后將未處理的節(jié)點中以度數(shù)最高的節(jié)點選作種子節(jié)點,重復以上步驟,直到所有節(jié)點被處理完。該算法不但可預測出具有重疊性質的蛋白質復合物,而且具有很高的預測準確性。同樣GraphEntropy也是采用代函數(shù),利用種子點增長策略找到圖熵值最小的子圖作為復合物輸出。

        基于局部密集子圖以及復合物內(nèi)部節(jié)點間應緊密連接的思想,“完全圖”的概念被應用到蛋白質復合物預測中。Clique算法分別通過窮舉法、超順磁性聚類和蒙特卡洛模擬三種方法從PPI 網(wǎng)絡中提取完全圖,按照一定規(guī)則對完全圖進行進一步的后處理,包括舍棄、合并和選擇等操作。Li 等人提出的LCMA 算法首先為每個蛋白質節(jié)點找到局部完全圖,然后將其中重疊率高的子圖合并生成極大密集區(qū)域,從而得到蛋白質復合物。CFinder算法首先從PPI 網(wǎng)絡中找到k-完全圖,然后通過合并所有相鄰的k-完全圖生成更大的子圖,以此預測蛋白質復合物。

        除以上算法外,針對局部密集子圖的算法層出不窮。其中包括大量從種子節(jié)點出發(fā),按照一定規(guī)則向外擴展的算法。如Ucar 等人提出的Hub Duplication 方法選取度數(shù)大于25 的蛋白質節(jié)點作為Hub 蛋白質,并通過加入其鄰居節(jié)點建立密集子圖以生成滿足要求的蛋白質復合物。SCAN算法將公共鄰居數(shù)大于給定閾值的兩個蛋白質認為是結構可達的,以結構可達節(jié)點最多的節(jié)點作為種子節(jié)點向外擴展,逐步將結構可達的鄰居節(jié)點納入聚簇。Zhang 等人提出從計算子圖中三節(jié)點連通圖個數(shù)的角度來評價局部子圖的聯(lián)通緊密性,借鑒ClusterONE 方法的思想,從度數(shù)最大的節(jié)點開始擴展,通過加入新節(jié)點、刪除內(nèi)部節(jié)點兩個方向的操作,使子圖緊密度最大化。Ren 等人考慮蛋白質復合物可能存在低密度高模塊化或高密度低模塊化的情況,對子圖定義了一個新的適應度函數(shù),同時提出了LF_PIN 算法,通過局部最大適應度值來擴展種子邊,從而預測蛋白質復合物。

        此外,Navlakha 等人將原PPI 網(wǎng)絡壓縮成概要圖,并在其上進行蛋白質復合物預測。Geva和Sharan提出的CODEC 方法使用質譜實驗獲取的數(shù)據(jù)建立二分圖,節(jié)點集合分別為誘餌、靶標蛋白質。CODEC算法先從靶標及其鄰居中尋找潛在的復合物組成,再通過增減節(jié)點最大化子圖得分獲得最終的預測結果。此外,Jia 等人提出基于Co-Graph 社區(qū)概念的復合物預測算法。Hu 等人針對具有重疊性質的蛋白質復合物,采用模糊聚類的算法進行預測。Rahman 等人定義了點到點的聚類值概念,公式如下:

        非加權蛋白質相互作用網(wǎng)絡僅考慮蛋白質間是否存在相互作用。但由于目前的生物實驗尚不完備,蛋白質相互作用數(shù)據(jù)中其實存在著一定的假陽性和假陰性,以此構建的非加權網(wǎng)絡置信度低。因此,部分研究通過將PPI 網(wǎng)絡的拓撲結構、基因表達數(shù)據(jù)、蛋白質功能等信息對邊進行加權,提高PPI 網(wǎng)絡的可靠性,并在此基礎上提出相應的基于加權網(wǎng)絡的復合物預測算法。

        早期加權網(wǎng)絡的構建是通過計算存在相互作用的一對蛋白質之間的公共鄰居數(shù)為其連邊加權。Altaf-Ul-Amin 等人提出的DPClus 算法根據(jù)節(jié)點對的公共鄰居數(shù)給節(jié)點對之間的邊賦值,節(jié)點的權重為鄰接邊的權重之和。DPClus 將權重最大的節(jié)點作為種子,使用聚簇屬性將鄰居節(jié)點中與之連接較為緊密的節(jié)點加入聚簇。另外,IPCA在DPClus 的基礎上做出改進,提出了一種新的拓撲結構用于預測蛋白質復合物。Liu 等人提出基于最大完全圖的聚類方法CMC,首先根據(jù)節(jié)點的公共鄰居數(shù)來衡量相應邊的權重,并迭代修改此值,然后找到PPI 網(wǎng)絡中的完全圖并對邊權打分,最后根據(jù)分數(shù)對其合并生成復合物。MKE算法根據(jù)每對蛋白質的公共鄰居數(shù)生成有向加權圖,首先選取度數(shù)較高的蛋白質作為第一層核心,然后將權值均高于給定閾值的鄰居節(jié)點與第一層核心相連,生成第二層核心,最后通過繼續(xù)擴展,生成最終的蛋白質復合物。Ni等人也利用蛋白質對的公共鄰居數(shù)為邊加權,提出了WN-PC方法來預測蛋白質復合物。ProRank+應用輪輻模型根據(jù)節(jié)點類型和重要性值生成團簇,然后根據(jù)內(nèi)聚性合并得到最終的蛋白質復合物。SPICi基于復合物的加權密度和團簇大小定義閾值,采取和DPClus 類似的策略生成復合物,可以在大型的生物網(wǎng)絡上快速生成聚類結果。

        近幾年,涌現(xiàn)出大量利用拓撲結構特征構建目標函數(shù),并利用遺傳算法進行蛋白質復合物預測的算法。其中,Cao 等人提出的MOEPGA 算法,根據(jù)PPI 網(wǎng)絡的多種網(wǎng)絡拓撲特征構造目標函數(shù),利用遺傳算法的三個主要步驟,種群初始化、子圖突變和子圖選擇,迭代計算,實現(xiàn)蛋白質復合物的識別。此外,Arnau 等人根據(jù)兩個節(jié)點之間的最短路徑長度為其邊加權。Ma 等人重新定義高階邊聚類系數(shù)概念對網(wǎng)絡進行加權,具體計算公式如下:

        其中,(,)表示邊聚集系數(shù),Z表示節(jié)點、的共同鄰居。Li 等人利用蛋白質間連接親和度構建加權蛋白質相互作用網(wǎng)絡,同時提出了CACE 算法進行蛋白質復合物預測。Chua 等人提出的PCP 方法使用拓撲結構來衡量PPI 網(wǎng)絡中互作的可信度,將可靠度較低的邊剔除并通過有效的完全圖發(fā)現(xiàn)算法來預測復合物。Friedel 等人使用Bootstrap 采樣法尋找復合物,首先從PPI 數(shù)據(jù)中做有放回的采樣,通過計算蛋白質形成相互作用的傾向程度為邊加權,并采用MCL 算法生成蛋白質聚簇,根據(jù)多次聚類的結果建立“Bootstrap 網(wǎng)絡”,其中節(jié)點為蛋白質,各邊的權重由相鄰蛋白質在同一個初步聚類結果中出現(xiàn)的次數(shù)計算得到,最后在此網(wǎng)絡中使用MCL 算法生成復合物。Wu 等人提出的idenPC-MIIP方法通過在有權網(wǎng)絡上定義相互重要性鄰居來改變原始網(wǎng)絡權重,進而采用貪心算法識別蛋白質復合物。隨著圖神經(jīng)網(wǎng)絡的興起,PPI 網(wǎng)絡的拓撲結構信息可以通過圖神經(jīng)網(wǎng)絡來獲得更為高階的信息。Yao 等人通過使用圖自編碼器重構PPI 網(wǎng)絡,并使用一些經(jīng)典的聚類算法在重構后的PPI 網(wǎng)絡上識別蛋白質復合物。實驗發(fā)現(xiàn),經(jīng)過圖自編碼器重構后的PPI 網(wǎng)絡可以有效去除噪聲數(shù)據(jù),使預測結果更為準確。

        一般來說,形成功能團的蛋白質具有相同的基因表達。Feng 等人提出的圖分裂算法GFA 使用最密子圖算法找到PPI 網(wǎng)絡中密度最大的子圖。其中,子圖密度通過基因表達數(shù)據(jù)計算,同一子圖內(nèi)蛋白質表達量之和越高則子圖密度越大。Maraziotis 等人提出的DMSP 算法首先對基因表達數(shù)據(jù)進行模糊聚類,兩個蛋白質的相互作用可以通過它們到各自聚類中心的距離與兩個聚類中心的距離之和估計。DMSP 從種子節(jié)點開始聚類,通過加入它的直接、間接鄰居使聚類密度大于一定閾值來預測功能團。

        一些預測蛋白質復合物的方法通過借助基因表達數(shù)據(jù)來估計PPI網(wǎng)絡中邊的權重以提高準確率。Ulitsky 等人提出的MATISEE 算法使用基因表達數(shù)據(jù)的相關度來衡量一對蛋白質的互作強度,并以此得到蛋白質節(jié)點權重。聚類算法從種子節(jié)點開始,通過加入、刪除其鄰居節(jié)點找到子圖,并根據(jù)一定條件合并子圖得到最終的預測結果。Ou-Yang 等人提出的SGNMF方法則是利用基因表達數(shù)據(jù)構建帶符號的PPI 網(wǎng)絡,并在此基礎上預測復合物。SEDMTG由Wang 等人提出,其在網(wǎng)絡的權重上既考慮拓撲結構也加入了Go 基因信息,最后的聚類算法采用高內(nèi)聚低耦合的思想設計代價函數(shù)來識別蛋白質復合物。

        蛋白質功能也為蛋白質復合物預測提供了重要的信息。King 等人提出的RNSC 算法從 一個隨機聚簇開始,啟發(fā)式地改變其中的節(jié)點使該聚簇滿足代價最小,再利用蛋白質功能注釋數(shù)據(jù)評估聚簇是否為蛋白質復合物。Lubovac等人提出的SWEMODE算法,首先計算兩個蛋白質功能的語義相似度,公式如下:

        其中,p(t,t)是t,t最小子集的概率,然后構建加權網(wǎng)絡,節(jié)點權重通過加權聚類系數(shù)以及最近鄰居數(shù)給出,最后使用與MCODE類似的聚類算法從加權網(wǎng)絡中識別蛋白質復合物。Cho 等人首先根據(jù)功能相似度給邊加權,節(jié)點的權重為其連邊權重之和。隨后采用流模擬算法,從信息量(即節(jié)點權重)較大的節(jié)點開始,向鄰居節(jié)點發(fā)散出模擬的流,流的影響會根據(jù)先后經(jīng)過節(jié)點的相似度逐步衰減,直到小于某一閾值時停止,由此將PPI 網(wǎng)絡分割成多個子圖。

        一個蛋白質互作界面上的重合區(qū)域可能會阻止多對蛋白質同時作用,結合蛋白質結構域互作信息可以考察多對蛋白質組合是兼容還是互斥。Jung等人首先使用了MCODE和LCMA兩種方法生成聚簇。從兩個結果集中排除可能有沖突的互作,得到并發(fā)蛋白質互作集合。Will和Helms提出的基于結構域的緊密優(yōu)化算法DACO 將蛋白質相互作用與結構域相互作用結合,在PPI 網(wǎng)絡中使用圖聚類算法預測蛋白質復合物時,要求預測到的蛋白質集合內(nèi)的蛋白質間存在結構域互作。Maruyama 等人提出 的PPSampler2-PIME 算 法,其 在PPSampler2 算 法基礎之上,加入相互排斥邊對的考慮。根據(jù)作者的假設:一個蛋白質復合物中的邊與邊之間不能存在相互排斥現(xiàn)象,并據(jù)此設計目標函數(shù),以此達到最優(yōu)目標。實驗結果表明,通過引入相互排斥邊對的思想能夠有效提升蛋白質復合物預測準確度。

        基于局部密集子圖的蛋白質復合物預測方法簡單直觀,但是受網(wǎng)絡本身的噪聲影響較大,而且無法有效預測小復合物(蛋白質數(shù)量<3)及內(nèi)部連接稀疏的復合物。

        2.2 基于核心-附屬結構的預測算法

        除了基于局部密集子圖的預測算法,研究學者通過研究已知復合物的內(nèi)部結構特征,提出了基于核心-附屬結構的預測算法。Gavin 等人通過研究酵母菌蛋白質復合物的結構,發(fā)現(xiàn)每個復合物由兩部分組成:存在大量互作的蛋白質集合構成復合物的核心結構,與核心結構相連接且相對稀疏的蛋白質構成附屬結構。

        Leung 等人提出的CORE 算法通過兩個蛋白之間以及它們與公共鄰居的互作情況計算出它們?yōu)橥粡秃衔锏暮诵牡鞍踪|的概率,具體計算公式如下:

        其中,、是節(jié)點、的度,(|,,)是節(jié)點、具有相互作用的概率,(|,,,)是節(jié)點、具有相互作用并且共同鄰居數(shù)為的概率。之后,通過合并大小為2、3 的核心集合以獲得更大的核心集合,直到整合條件不再滿足為止,以此構成最終的復合物核心結構。之后根據(jù)其他節(jié)點與核心蛋白質的連接強度添加附屬蛋白質,形成最終的蛋白質復合物。

        Wu 等人提出的COACH 算法則根據(jù)蛋白質及其鄰居節(jié)點在網(wǎng)絡中的重要性(權重大小)尋找核心蛋白質,再添加其連接的附屬蛋白質。WCOACH算法在COACH 算法的基礎之上,通過GO 語義相似性對邊進行加權,將其改進為可在加權網(wǎng)絡上進行復合物預測的新算法,預測結果顯示加權網(wǎng)絡的預測效果要好于非加權網(wǎng)絡。Peng 等人提出的WPNCA 算法,首先在加權PPI網(wǎng)絡中利用PageRank-Nibble 算法,將PPI 網(wǎng)絡劃分為多個連接緊密的子圖,然后在每個子圖中,通過基于核心-附屬結構的思想來預測蛋白質復合物分子。Luo 等人提出的動態(tài)核心-附屬結構(DCA)算法,從動態(tài)PPI 網(wǎng)絡(DPN)中挖掘連接緊密且在多個動態(tài)子網(wǎng)絡中共同活躍的蛋白質集合作為核心結構,進而通過向核心添加緊密連接的直接鄰居節(jié)點以構成最終的復合物集合。Mehranfar等人提出采用區(qū)間二型模糊表決模型融合GO 注釋、基因表達等生物數(shù)據(jù),建立可靠性比較高的加權蛋白質相互作用網(wǎng)絡,并基于核心-附屬結構預測蛋白質復合物。EWCA算法首先為蛋白質網(wǎng)絡重新設置邊權,然后基于結構相似性識別復合物的核,隨后以核為基礎辨別附屬蛋白和外圍蛋白,最后將核心蛋白和附屬蛋白結合形成復合物。

        基于核心-附屬結構的預測方法從生物角度出發(fā),考慮了復合物的結構特征,在一定程度上提升了蛋白質復合物預測的準確性,但泛化能力差,因為不是所有復合物均滿足核心-附屬結構,例如,小復合物、稀疏復合物等依然無法被有效預測。

        2.3 基于動態(tài)網(wǎng)絡的預測算法

        早期的預測算法多是從靜態(tài)PPI 網(wǎng)絡中預測蛋白質復合物,但蛋白質之間的相互作用是動態(tài)的且隨時間改變,因此在靜態(tài)PPI 網(wǎng)絡上預測將會限制預測的準確性。近幾年,基于動態(tài)網(wǎng)絡的預測算法越來越多,研究者將基因表達等時序信息加入到蛋白質復合物預測工作中,利用時序等信息幫助識別PPI 網(wǎng)絡中的靜態(tài)互作和動態(tài)互作,通過建立靜態(tài)網(wǎng)絡、動態(tài)網(wǎng)絡等工作有效提升了復合物預測的準確性。由此可見,基于動態(tài)網(wǎng)絡的預測算法大有可為。

        Tang 等人利用時序表達數(shù)據(jù)建立多個動態(tài)的蛋白質互作網(wǎng)絡,其中時序表達數(shù)據(jù)包含了每種基因產(chǎn)物在36 個測試時間段的表達量,以此表示各基因、蛋白質在各時間段的活躍程度。首先,為獲得各時間段內(nèi)活躍的蛋白質,作者通過設定全局閾值來過濾表達量低的蛋白質,即在某時間段內(nèi)表達量高于該閾值的蛋白質屬于活躍蛋白質,反之亦然。該步驟得到36 個蛋白質集合,每個集合對應該時間段內(nèi)所有活躍的蛋白質。然后,若一對在靜態(tài)PPI 網(wǎng)絡中有連邊的蛋白質在某一時間段內(nèi)共同活躍,那么它們將構成相應時序動態(tài)網(wǎng)絡的一條邊,以此類推可以構建得到36 個時序網(wǎng)絡。最后,作者將多種經(jīng)典算法,如MCL、RNSC、MCODE 等分別在靜態(tài)網(wǎng)絡和時序動態(tài)網(wǎng)絡上做實驗,通過顯著性分析發(fā)現(xiàn),其建立的動態(tài)網(wǎng)絡比靜態(tài)網(wǎng)絡、隨機網(wǎng)絡更具有生物意義。

        鑒于不同蛋白質表達水平的差異性,用全局閾值來篩選活躍蛋白質顯然不太合理?;诖?,Wang等人通過自定的three-sigma 模型,基于每種蛋白質的表達曲線,為其計算屬于自己的活躍閾值。實驗結果表明,針對蛋白質特異性構造出的動態(tài)網(wǎng)絡較全局閾值構造出的網(wǎng)絡能更好地反映蛋白質互作網(wǎng)絡的生物意義,在復合物預測上也取得更好的預測效果。

        Ou-Yang 等人使用基因表達數(shù)據(jù)識別瞬態(tài)、穩(wěn)態(tài)蛋白質互作。使用不同時間的表達數(shù)據(jù)建立動態(tài)互作網(wǎng)絡,運用概率模型從各動態(tài)網(wǎng)絡中預測動態(tài)蛋白質復合物以及在各時刻都存在的穩(wěn)定蛋白質復合物。Mucha等人通過計算、比較蛋白質組合在靜態(tài)網(wǎng)絡內(nèi)、臨近動態(tài)網(wǎng)絡間、全部動態(tài)網(wǎng)絡間的連邊數(shù)量來預測蛋白質復合物。Jin 等人在預測蛋白質復合物時要求其在靜態(tài)圖中聯(lián)通,且組成同一復合物的蛋白質在不同時刻的表達水平具有相關性。Shen 等人基于核心-附屬結構在動態(tài)PPI 網(wǎng)絡上預測復合物。Zhang 等人使用基因表達數(shù)據(jù)、通過改良后的three-sigma 方法識別瞬態(tài)、穩(wěn)定的蛋白質互作,計算蛋白質活躍概率,并利用核心-附屬結構預測復合物,計算公式如下:

        其中,取值為1、2、3,()與()分別是基因的算法平均值和標準差,G()表示在時刻基因的表達值,Pr()表示在時刻基因的活躍概率。如果在時刻基因的表達值大于等于(),那么時刻基因的活躍概率就是0.99。Lei 等人也是使用three-sigma 方法識別瞬態(tài)、穩(wěn)定蛋白質互作,建立動態(tài)互作網(wǎng)絡,然后采用螢火蟲算法對馬爾科夫聚類相關參數(shù)進行優(yōu)化。另外,Lei 等人提出的TP-WDPIN 算法也是先利用three-sigma 模型構建動態(tài)PPI 網(wǎng)絡,然后在每個子網(wǎng)絡上基于拓撲勢等信息為蛋白質節(jié)點加權,通過選取權值較高的部分節(jié)點作為種子節(jié)點進行擴展來預測蛋白質復合物。CPredictor4.0基于動態(tài)加權網(wǎng)絡預測蛋白質復合物,其在動態(tài)PPI 網(wǎng)絡上采用核心-附屬結構的方式來尋找蛋白質復合物,通過合并重合率較高的復合物得到最終的預測結果。另外,李敏和Chen 等人的蛋白質復合物預測綜述也對動態(tài)PPI 網(wǎng)絡上的復合物預測做了比較全面的評述,可見基于動態(tài)網(wǎng)絡的蛋白質互作網(wǎng)絡是個值得深入研究的方向。

        動態(tài)PPI網(wǎng)絡相較于靜態(tài)PPI網(wǎng)絡能夠更加準確反映蛋白質相互作用的動態(tài)特性,但是目前構建動態(tài)PPI網(wǎng)絡的方法較少,仍有待進一步研究。

        2.4 基于監(jiān)督學習的預測算法

        除了無監(jiān)督方法外,有些人提出基于監(jiān)督學習的復合物預測算法,其本質是借助標準蛋白質復合物集合中的信息來預測潛在的蛋白質復合物。Qi等人將真實的蛋白質復合物作為訓練集,選取了生物及拓撲結構作為特征,使用概率貝葉斯模型對從PPI 網(wǎng)絡中隨機生成的子圖進行分類,判斷其是否為復合物,再使用模擬退火算法對候選子圖進行修改以預測復合物。Shi 等人使用神經(jīng)網(wǎng)絡,采用與Qi等人類似的策略進行復合物預測。為了能夠預測僅由2、3 個蛋白質組成的小復合物,Yong 等人以真實復合物作為訓練數(shù)據(jù),融合了互作數(shù)據(jù)、功能、文本信息以及拓撲結構來計算特征,使用貝葉斯模型估計所有蛋白質互作對組成的小復合物、大復合物以及非復合物成員的概率,再從中提取大小為2、3 的小復合物。Yu 等人構建正、負、中三種樣本作為訓練集,且分別為非加權、加權網(wǎng)絡選取多種特征,利用以上訓練集與特征集訓練回歸模型來判斷當前子圖為蛋白質復合物的概率,并通過Clique 算法初始化復合物集合,以回歸模型為基礎,選擇性向當前子圖添加鄰居節(jié)點以達到回歸模型值最優(yōu)。SLPC首先將生物文獻中提取的PPI數(shù)據(jù)與現(xiàn)有PPI數(shù)據(jù)集進行整合,然后剔除置信度較低的相互作用實現(xiàn)網(wǎng)絡重構,最后通過基于監(jiān)督學習的算法完成重構PPI 網(wǎng)絡上的蛋白質復合物預測。SIKARNDAR 等人提出的IoMT方法認為蛋白質的氨基酸序列決定蛋白質的形成且對預測蛋白質間的相互作用性質具有重要意義。因此,在預測蛋白質復合物時不僅使用了拓撲特征還計算了氨基酸序列的生物學特征,即離散小波系數(shù)、長度和熵值。最后基于部分樹和非嵌套廣義樣本等關聯(lián)規(guī)則,訓練監(jiān)督學習方法來識別蛋白質復合物。

        基于監(jiān)督學習的預測方法有別于非監(jiān)督學習算法,其充分利用已知復合物信息作為先驗知識,能有效預測蛋白質復合物,尤其在小復合物、稀疏復合物的預測上貢獻很大。但該類方法受特征選取影響較大,目前選取可以充分描述蛋白質復合物的生物特征還有待進一步研究。

        2.5 從功能到互作的預測算法

        與上述研究思路不同,Xu 等人提出的CPredictor系列算法,提出從功能到互作的研究新思路。CPredictor首先根據(jù)基因本體中的生物過程項計算蛋白質之間的功能相似度,然后使用譜聚類算法從中獲取功能相似的蛋白質聚簇,最后利用蛋白質相互作用數(shù)據(jù)從中依次提取聯(lián)通子圖,并擴展、合并子圖得到蛋白質復合物。其中,子圖擴展時,對每個提取的聯(lián)通子圖,統(tǒng)計其在原蛋白質相互作用網(wǎng)絡中的鄰居與子圖中節(jié)點的連接數(shù)量,并通過設定參數(shù)控制子圖擴展。

        針對基于密集子圖的預測算法難以預測小復合物,而少數(shù)預測小復合物的方法很難用于大復合物預測的問題,Xu 等人在CPredictor算法基礎上提出兼顧大小復合物的CPredictor 2.0 算法。該算法采用更直觀的FunCat(function catalogue)功能目錄對蛋白質進行功能分組,然后根據(jù)蛋白質相互作用信息在每一個分組內(nèi)建立相互作用子網(wǎng)絡,最后使用馬爾科夫聚類算法從中獲取蛋白質復合物。實驗表明,從功能到互作的預測算法在預測兼顧大、小復合物上取得了良好的效果。隨著圖嵌入的興起,Yao 等人利用圖嵌入方法加權蛋白質互作網(wǎng)絡,并融合蛋白質的功能信息來預測復合物。

        2.6 基于多源數(shù)據(jù)的預測算法

        鑒于生物實驗自身的局限性,蛋白質相互作用數(shù)據(jù)存在假陽性和假陰性的問題。為解決這一問題,同時提高蛋白質相互作用網(wǎng)絡的置信度,研究者們開始通過融合PPI 數(shù)據(jù)和其他多種相關數(shù)據(jù)資源來彌補蛋白質互作實驗中缺失的信息,例如基因表達數(shù)據(jù)、蛋白質功能注釋、蛋白質域及蛋白質序列等。目前,大多數(shù)方法通過融合多源數(shù)據(jù)構建加權網(wǎng)絡,在加權網(wǎng)絡上進行蛋白質復合物預測。

        基因表達數(shù)據(jù)代表了不同時刻編碼蛋白質的相關基因表達水平。文獻[79-82]等方法,通過融合PPI數(shù)據(jù)和基因表達數(shù)據(jù)構建加權蛋白質相互作用網(wǎng)絡,以基因表達數(shù)據(jù)的相關度衡量蛋白質相互作用強度。文獻[22-23,105]等方法,利用基因表達數(shù)據(jù)構建動態(tài)蛋白質相互作用網(wǎng)絡,更加準確描述了蛋白質的動態(tài)特性。蛋白質復合物通常由功能相似的一組蛋白質構成,通過蛋白質功能注釋數(shù)據(jù)計算蛋白質功能相似性,以此作為網(wǎng)絡權值,在一定程度上提升了網(wǎng)絡置信度。Xu 等人利用功能注釋數(shù)據(jù)對蛋白質進行聚類或分組,然后再預測蛋白質復合物。Wu 等人提出的idenPC-CAP方法在RNA-蛋白質相互作用的異質網(wǎng)絡上進行蛋白質復合物的識別,這樣可以有效消除蛋白質互作網(wǎng)絡的假陽性,提高預測的準確率。融合多源數(shù)據(jù)提升了蛋白質相互作用網(wǎng)絡置信度,也在一定程度上提高了蛋白質復合物預測的準確率。

        2.7 其他預測算法

        除了上述幾類預測算法外,還有一些其他的預測算法。例如,Sharan 等人基于不同物種中復合物的組成具有保守性這一發(fā)現(xiàn),通過建立釀酒酵母菌和幽門螺桿菌的同源圖來尋找共有的保守蛋白質復合物。Wu 等人對傳統(tǒng)的聚類集成進行了擴展,提出了EnsemHC 框架進行蛋白質復合物預測。首先,將不同聚類結果結合構建共簇矩陣來描述每對蛋白質是否屬于同一復合物;然后,利用迭代加權方法對共簇矩陣進行處理后得到一個集成矩陣;最后,對集成矩陣層次聚類得到蛋白質復合物。

        為了便于方法的復現(xiàn)及擴展,根據(jù)不同的類別將可獲得代碼鏈接的方法展示在表1 中??梢钥闯觯诰植棵芗訄D的方法擁有較多公開代碼,可為讀者提供思路和實踐上的參考。由于歸類于“其他預測算法”的工作較少且沒有可獲得的方法鏈接,并未在表中列出具體方法鏈接。

        表1 蛋白質復合物預測主要方法及其代碼鏈接匯總Table 1 Summary of main methods and source code for protein complex prediction

        盡管基于計算的蛋白質復合物預測已經(jīng)取得了顯著的進展,且各種預測方法層出不窮,但是仍然存在一些不足?;诰植棵芗訄D的預測算法簡單直觀,但是對于小復合物(蛋白質數(shù)量不超過3)的預測結果有待提高,而且這類方法非常依賴蛋白質相互作用數(shù)據(jù)的準確度,而現(xiàn)有數(shù)據(jù)中過高的假陰性、假陽性使得網(wǎng)絡置信度低,導致預測結果準確率不足?;诤诵?附屬結構的預測算法從蛋白質復合物自身的生物結構特性出發(fā),在一定程度上提高了實驗的準確率,然而不是所有的復合物都具有核心-附屬結構,這類算法無法預測具有其他結構的蛋白質復合物,因此泛化能力較差?;趧討B(tài)網(wǎng)絡的預測算法是近年來一個大有可為的研究方向,但是目前工作比較少,現(xiàn)有的構建動態(tài)蛋白質相互作用網(wǎng)絡的方法也比較少,無法準確描述蛋白質的動態(tài)特性?;诒O(jiān)督學習的預測算法主要利用已知的蛋白質復合物及其相關的結構特征來訓練分類模型,對提取的蛋白質相互作用網(wǎng)絡中的子圖候選項進行預測,因此這類方法受復合物的特征表示影響較大,尋找和篩選真正符合要求的特征也太過耗時費力。

        3 性能評估方法與測試數(shù)據(jù)集

        本章將對蛋白質復合物預測問題中所用到的評估準則、數(shù)據(jù)集進行介紹,并在此基礎上比較不同的算法在同一數(shù)據(jù)集下的預測結果,并對其結果進行分析。

        3.1 評估準則

        在介紹評估準則之前,首先要得到預測的復合物與標準蛋白質復合物的匹配程度。假設預測復合物標記為=(V,E),標準復合物記為=(V,E),那么兩個蛋白質復合物的匹配度(overlapping score,OS)可以用下面的公式表示,其中代表復合物中的蛋白質,表示蛋白質間的相互作用。公式中的分子代表兩個復合物中公共蛋白質節(jié)點個數(shù)的平方,分母為兩個復合物中蛋白質個數(shù)的乘積。

        當兩個蛋白質復合物的匹配度(,)≥(閾值),就可認為二者是匹配的,反之亦然。常見的匹配度閾值選擇包括0.20 和0.25 兩種。

        目前,評估蛋白質復合物識別算法性能的指標有很多種,下面對其中一些常見指標進行詳細介紹。假設算法的預測結果集為={,,…,p},復合物的標準驗證集表示為={,,…,r}。召回率()反映了算法對真實蛋白質復合物的預測覆蓋率,值越大,說明算法能夠預測出更多真實的蛋白質復合物。

        其中,N為與至少一個預測復合物匹配的真實復合物的個數(shù)。精準度()則反映了一個預測算法的預測結果的精度,值越高,預測結果的精度越高。

        其中,N為與至少一個真實復合物匹配的預測復合物的個數(shù)。1 值(1-measure)是與的調和平均值,用來評估一個蛋白質復合物預測算法的整體性能。

        敏感度()用來評估實驗結果中包含的蛋白質占標準復合物中所包含蛋白質的比例。

        其中,T表示第個標準復合物與第個預測復合物的公共蛋白質數(shù)量,N表示第個標準復合物中蛋白質的數(shù)量。

        表示實驗結果中被正確預測的蛋白質復合物所占的比例。

        準確度()是和的幾何平均值,當或者某一值低時,那么值也低。因此,值高時表示和值均比較高。

        3.2 數(shù)據(jù)集

        隨著實驗技術的發(fā)展和數(shù)據(jù)的積累,蛋白質相互作用數(shù)據(jù)不斷增加。這里主要介紹蛋白質復合物預測實驗中常用的數(shù)據(jù)庫及相關數(shù)據(jù)集。

        STRING 數(shù)據(jù)庫是一個包含大量蛋白質相互作用的數(shù)據(jù)庫,覆蓋了2 000 多個物種,不僅整合了已被實驗驗證的蛋白質相互作用數(shù)據(jù),還包括了通過生物信息學方法預測得到的蛋白質相互作用數(shù)據(jù)。

        DIP 數(shù)據(jù)庫主要存儲經(jīng)過實驗驗證的蛋白質相互作用數(shù)據(jù),包括蛋白質信息、蛋白質相互作用信息和描述預測蛋白質相互作用的實驗技術細節(jié)三部分內(nèi)容。DIP 數(shù)據(jù)庫的主要數(shù)據(jù)來源是各種科學雜志和其他蛋白質數(shù)據(jù)庫,是研究蛋白質相互作用的主要數(shù)據(jù)庫之一。

        BioGRID 數(shù)據(jù)庫收集的蛋白質和遺傳相互作用數(shù)據(jù)主要來自酵母菌、果蠅和人等。BioGRID 數(shù)據(jù)庫的主要數(shù)據(jù)來源是文獻研究和其他高通量相互作用數(shù)據(jù)庫,其中每一條相互作用數(shù)據(jù)都包括實驗驗證編碼,并且可以鏈接到支持的出版期刊。目前,最新的版本4.2.192 中包含了1 997 840 個蛋白質和基因相互作用。

        IntAct 數(shù)據(jù)庫是一個開源的分子相互作用數(shù)據(jù)庫,由高質量文獻或用戶直接提交的蛋白質相互作用數(shù)據(jù)組成。到目前為止,IntAct 數(shù)據(jù)庫包含了來自22 037篇出版物的1 130 596個精選的相互作用。上述4 個數(shù)據(jù)庫的鏈接地址如表2 所示。

        表2 蛋白質相互作用數(shù)據(jù)庫Table 2 Protein-protein interaction databases

        上述4 個數(shù)據(jù)庫中均涉及多個物種的蛋白質相互作用數(shù)據(jù),但酵母菌中的蛋白質復合物被研究得更為廣泛,下面對常見的酵母菌蛋白質相互作用數(shù)據(jù)集進行詳細介紹。

        在酵母菌蛋白質復合物預測實驗中,數(shù)據(jù)集被分為蛋白質互作數(shù)據(jù)集和標準復合物數(shù)據(jù)集。Gavin數(shù)據(jù)集、Krogan數(shù)據(jù)集和Collins數(shù)據(jù)集是常用的蛋白質相互作用數(shù)據(jù)集。其中,Gavin 數(shù)據(jù)集可從BioGRID 數(shù)據(jù)庫下載,包含1 855 個蛋白質和7 669個相互作用。該數(shù)據(jù)集是Gavin 等人通過親和純化與質譜技術檢測蛋白質相互作用得到的,過程中采用socio-affinity 指數(shù)計算兩個蛋白質之間相互作用被檢測到的概率。Krogan 數(shù)據(jù)集可由BioGRID 數(shù)據(jù)庫進行下載,含2 674 個蛋白質和7 075 個相互作用。該數(shù)據(jù)集是Krogan 等人使用LC-MS/MS 技術檢測蛋白質相互作用,并借助機器學習的方法評估蛋白質相互作用的可信度。Collins 數(shù)據(jù)集也可由BioGRID數(shù)據(jù)庫進行下載,其中包含1 622 個蛋白質,9 074 個相互作用。上述3 個酵母菌數(shù)據(jù)集的具體信息如表3所示。

        表3 蛋白質相互作用數(shù)據(jù)集Table 3 Protein-protein interaction data sets

        除了之前介紹的蛋白質相互作用數(shù)據(jù)集,蛋白質的標準復合物數(shù)據(jù)集通常采用MIPS和CYC2008數(shù)據(jù)集。其中,MIPS 數(shù)據(jù)集是常用的蛋白質功能注釋數(shù)據(jù)集,包含了313 個蛋白質復合物。CYC2008 數(shù)據(jù)集包含349 個通過生物方法檢測得到的蛋白質復合物,每個復合物包含2 個或2 個以上的蛋白質,具體信息如表4 所示。

        表4 蛋白質復合物數(shù)據(jù)集Table 4 Protein complex data sets

        4 性能比較與分析

        為了比較各類算法在不同數(shù)據(jù)集下的預測效果,本章選取了21 種經(jīng)典且常用的蛋白質復合物識別算法,如MCODE、ClusterOne 和CPredictor 算法等,并對其結果進行了比較分析。

        實驗中的蛋白質相互作用數(shù)據(jù)采用Collins 和Gavin 數(shù)據(jù)集,將CYC2008 數(shù)據(jù)集作為標準復合物數(shù)據(jù)集。表5 和表6 顯示了不同算法在Collins 與Gavin相互作用數(shù)據(jù)集上預測蛋白質復合物的基本情況,其中小復合物表示構成復合物的蛋白質數(shù)量不大于3,而包含3 個以上蛋白質的復合物稱為大復合物。復合物平均大小是指預測復合物中所含蛋白質數(shù)量的平均值。從表5 中可以明顯看出,CPredictor2.0 算法預測到的蛋白質復合物數(shù)量最多(764 個),并且小復合物數(shù)量在所列方法中數(shù)量最多。主要是因為CPredictor2.0 通過對蛋白質進行分組后再采用馬爾科夫聚類算法將每個蛋白質聚類到復合物中,更有利于產(chǎn)生小規(guī)模團簇。另外,EWCA 算法得到大復合物數(shù)量最多(588 個),且復合物平均尺寸最大,達到了21.6。表6 顯示的是Gavin 數(shù)據(jù)集上各種方法預測復合物屬性的結果比較。Clique方法在Gavin 數(shù)據(jù)集上預測的復合物數(shù)量最多(1 148 個),并且大復合物數(shù)量也是所列方法中最多的,這主要是由于Clique算法是基于局部密集子圖識別蛋白質復合物。該類算法傾向于將圖中的密集團簇預測為復合物,因此傾向于輸出較大體積的團簇。

        表5 Collins數(shù)據(jù)集上各種方法預測結果中蛋白質復合物的屬性比較Table 5 Attribute comparison of protein complexes for different computational methods on Collins data set

        表6 Gavin 數(shù)據(jù)集上各種方法預測結果中蛋白質復合物的屬性比較Table 6 Attribute comparison of protein complexes for different computational methods on Gavin data set

        表7 是CYC2008 作為標準復合物數(shù)據(jù)集時,不同算法在Collins 和Gavin 數(shù)據(jù)集上性能比較結果,這里使用了召回率()、精確率()和1 值來評估預測結果。在Collins 數(shù)據(jù)集中,召回率最高的方法是CPredictor5.0,達到了0.60,說明CYC2008中許多蛋白質復合物大部分都可以匹配到預測的復合物,因而在真實蛋白質復合物集合中被正確預測出的復合物比例較高。CPredictor4.0 算法通過采用動態(tài)網(wǎng)絡預測蛋白質復合物,并在這些方法中精確率達到最高的0.73,并且1 值也最高為0.63。1 值主要得益于較高的召回率和精確率,說明其預測結果質量很高,預測得到的復合物基本和標準集中的復合物相匹配。在Gavin 數(shù)據(jù)集中,IPCA 算法以0.54的召回率高居第一,同時,發(fā)現(xiàn)CPredictor3.0 與CPredictor5.0 算法的召回率同樣具有競爭力,而且CPredictor 算法預測的復合物數(shù)量遠小于IPCA 算法。在精確率與1 值上發(fā)現(xiàn)CPredictor4.0 取得了最優(yōu)結果,這與在Collins 數(shù)據(jù)集上的發(fā)現(xiàn)相一致,說明基于動態(tài)網(wǎng)絡和從功能到互作的預測算法相比于其他方法更為準確。

        表7 CYC2008 標準庫上各種方法的蛋白質復合物預測結果比較Table 7 Comparison of protein complex prediction results for various methods on CYC2008 standard set

        綜合上述比較,可以發(fā)現(xiàn)各種算法都存在各自的優(yōu)勢及不足?;诰植棵芗訄D的算法更加傾向于輸出大復合物,但對于小復合物的預測不盡如人意;基于核心-附屬結構的算法雖然解決了重疊蛋白質的預測問題,但如何定義核心蛋白質和附屬蛋白質仍需要進一步研究;基于動態(tài)網(wǎng)絡的預測方法取得了較好的預測結果,主要是由于其在多個靜態(tài)網(wǎng)絡上進行復合物的預測,使得其結果更加魯棒;從結構到互作的預測算法預測的復合物大、小比例更加接近,相比其他算法得到的復合物數(shù)量較少,而且預測結果較好。目前,各類方法既有自己的優(yōu)勢也存在自己的劣勢,因此基于計算的蛋白質復合物預測算法仍存在很大的發(fā)展空間。

        5 總結與展望

        蛋白質復合物預測作為計算生物學和生物信息學領域的重要課題已被廣泛關注。該問題的研究有助于了解生命科學中細胞的功能是如何實現(xiàn)的,從而幫助醫(yī)學人員了解復雜疾病的各個階段并最終找到治療方案。隨著高通量技術的發(fā)展,蛋白質相互作用數(shù)據(jù)日益增多,使基于計算的蛋白質復合物預測方法成為可能。本文對基于計算的蛋白質復合物預測算法進行了分類評述與性能比較,將已有的基于計算的蛋白質復合物預測方法大致分為如下七個類別:基于局部密集子圖的預測算法、基于核心-附屬結構的預測算法、基于動態(tài)網(wǎng)絡的預測算法、基于監(jiān)督學習的預測算法、從功能到互作的預測算法、基于多源數(shù)據(jù)的預測算法和其他方法。需要指出的是,在已有文獻中,對于現(xiàn)有預測方法可能會有不同的分類體系,這里不作深究。另外,由于文獻眾多,力求對主要的工作進行評述,但難免掛一漏萬。

        盡管基于計算的蛋白質復合物預測已經(jīng)經(jīng)歷了十多年的發(fā)展,取得顯著的進展,但仍然存在諸多不足?;诿芗訄D挖掘的預測方法主要對較大(包含的蛋白質個數(shù)>3)的復合物效果較好;基于核心-附屬結構的方法只能發(fā)現(xiàn)一部分復合物,泛化能力較差;基于動態(tài)PPI 網(wǎng)絡的預測方法是一個大有可為的研究方向,但目前的工作還很少,有待深入研究;基于監(jiān)督學習的方法受復合物表達屬性影響很大,而且很難尋找到真正符合蛋白質復合物生物性質的屬性,預測效果不盡如意。從高通量實驗獲得的蛋白質互作本身可靠度較低,有大量的假陽性、假陰性存在,在這樣的數(shù)據(jù)上進行檢測,即便是結合了像互作網(wǎng)絡拓撲結構特征、基因表達數(shù)據(jù)、蛋白質功能和蛋白質域等某一類信息,也并不能取得令人滿意的效果,這方面也需要進一步的探索。未來的研究可以從以下幾個方面展開:

        (1)具有重疊性質的蛋白質復合物預測

        通常,一個蛋白質具有多種功能,即參與到不同的蛋白質復合物中。在PPI 網(wǎng)絡中,這些存在相同蛋白質的復合物表現(xiàn)為具有重疊性質的復合物。這些復合物可能形成于不同的細胞周期,出現(xiàn)在不同的位置,即使同時出現(xiàn),它們?nèi)詫儆趩为毜膫€體,即重疊復合物中的共有蛋白質與不同復合物中的連邊不可同時出現(xiàn)。但是在靜態(tài)PPI 網(wǎng)絡中,這些信息并未被反映,因此如何有效預測出這些具有重疊性質的復合物,有待進一步研究。

        針對以上問題,研究者們利用結構域(DDI)信息為互作信息構建兼容、互斥數(shù)據(jù),并假設一個蛋白質復合物中的邊與邊之間不能存在相互排斥現(xiàn)象。Ozawa 等人在原有經(jīng)典算法MCL 和MCODE 的實驗結果上,利用以上假設對實驗結果進行優(yōu)化,剔除復合物中具有互斥關系的邊。另外,Jung 等人利用結構域信息將PPI 網(wǎng)絡劃分為多個子網(wǎng)絡,其中每個子網(wǎng)絡中只包含沒有互斥關系的互作。由于復合物的形成要求其中的蛋白質同時同地活躍,Liu 等人利用細胞定位基因本體術語對蛋白質互作網(wǎng)絡進行劃分,其中每個子網(wǎng)絡中的蛋白質出現(xiàn)在同一細胞空間。實驗結果表明,這些方法相較于其他方法提升了預測準確率,但是仍需要進一步的研究。

        (2)稀疏性復合物的預測

        目前,大部分預測算法以預測PPI 網(wǎng)絡中的密集子圖為出發(fā)點,進行蛋白質復合物的預測。但是很多內(nèi)部連接稀疏的復合物不能被有效預測,加之PPI網(wǎng)絡的高假陰性,導致網(wǎng)絡中重要互作信息的缺失,這也為預測稀疏復合物增加了難度。PPI 網(wǎng)絡中互作信息的缺失源于多個方面。首先,某些在特定生物環(huán)境中才出現(xiàn)的互作信息,在生物實驗條件有限的情況下很容易被漏檢。其次,譬如在串聯(lián)親和純化與質譜實驗中,吸附性較低的蛋白質在多次沖洗后很難再被預測到。因此,基于不完整的互作網(wǎng)絡預測稀疏性復合物仍然是個挑戰(zhàn)。

        鑒于以上問題,Srihari 等人在現(xiàn)有預測復合物方法的基礎上,結合蛋白質功能等信息向初始復合物中添加具有強功能相似性的蛋白質互作以幫助識別稀疏復合物,雖然在一定程度上提升了稀疏性復合物預測的準確性,但是并未取得令人滿意的效果,因此這方面還需進一步的探索。

        (3)兼顧大、小復合物的預測

        由2、3 個蛋白質組成的復合物被稱為小復合物,研究表明,蛋白質復合物大小的分布遵循冪律分布,即小復合物占據(jù)很大一部分比例。以目前較成熟的復合物參照集CYC2008 和MIPS 為例,小復合物的數(shù)量分別占總數(shù)的37.7%與63.6%。由此可見,小復合物的預測對于提升復合物預測的準確性至關重要。

        目前,基于局部密集子圖的預測算法一般通過預測完全聯(lián)通子圖的方法預測小復合物,但是預測結果中假陽性很高,因此很難準確預測小復合物。此外,PPI 網(wǎng)絡的高假陰性導致互作信息的缺失,僅擁有較少連邊的小復合物預測依然極具挑戰(zhàn)。

        針對這個問題,Yong 等人提出基于監(jiān)督學習的SSS 算法。通過選取互作數(shù)據(jù)、功能、文本信息以及拓撲結構等多種數(shù)據(jù)設計特征向量,利用現(xiàn)有復合物參照集構建分類模型來預測任意兩個蛋白質屬于同一小復合物概率。Xu 等人提出的CPredictor2.0算法為小復合物的預測提供了新的思路。該方法認為復合物是完成某一生物功能的蛋白質集合,因此依據(jù)功能信息將蛋白質進行分組,將相同功能的蛋白質分為一組,而沒有相同功能的蛋白質被分離。通過使用功能對蛋白質進行分組不僅更加直觀、快速、準確,而且得到的復合物也更具有生物意義。上述兩個方法在預測小復合物方面略優(yōu)于現(xiàn)存的其他方法,但是針對小復合物預測的工作還比較少,未來復合物預測方法可以從兼顧不同大小的蛋白質復合物方向進行改進。

        (4)動態(tài)蛋白質相互作用網(wǎng)絡構建

        細胞作為生物體的基本結構和功能單位,具有高度的動態(tài)性和對環(huán)境刺激的響應。同時,蛋白質也隨著細胞周期的變化而不斷變化。相較于靜態(tài)蛋白質相互作用網(wǎng)絡,動態(tài)蛋白質相互作用網(wǎng)絡能夠更加準確地描述蛋白質相互作用的動態(tài)特性。然而目前構建蛋白質相互作用網(wǎng)絡的主要方法就是利用基因表達數(shù)據(jù),基于three-sigma 準則,根據(jù)蛋白質在不同時刻的活躍狀態(tài)將靜態(tài)相互作用網(wǎng)絡劃分為動態(tài)的蛋白質相互作用網(wǎng)絡。但是這種方法未充分考慮到某些處于活躍狀態(tài)的蛋白質其基因表達值低的情況,因此如何有效構建動態(tài)蛋白質相互作用網(wǎng)絡仍是一個研究熱點。

        (5)基于深度學習算法的蛋白質復合物預測

        隨著深度學習在圖像領域的成功應用,深度學習算法已被運用到了各行各業(yè)。近期,谷歌旗下DeepMind 團隊推出的Alphafold2,運用深度學習算法在蛋白質結構預測上達到了可與生物實驗相匹敵的準確度,改變了人們對計算生物學的認知。而在蛋白質復合物預測領域,基于深度學習算法預測蛋白質復合物的方法還很少。目前主要是運用圖嵌入方法,如node2vec、圖自編碼器等算法,根據(jù)PPI網(wǎng)絡拓撲結構為網(wǎng)絡中的每個節(jié)點計算特征,然后對PPI 網(wǎng)絡進行降噪處理,以此提高網(wǎng)絡質量,進而為后期的相關聚類算法服務。這些方法都是將深度學習算法作為復合物預測的其中一步,并未完全基于深度學習算法端到端地輸出蛋白質復合物。因此,將來可望針對蛋白質復合物預測開發(fā)一套深度學習模型,用戶只需要輸入PPI 網(wǎng)絡即可得到較好的預測結果。

        (6)蛋白質復合物在線預測平臺

        在線預測平臺的開發(fā)是生物信息學的重要研究內(nèi)容,目前蛋白質復合物預測算法越來越多,但是缺少一個高效且直觀的在線預測平臺。未來可以融合多種公開數(shù)據(jù)資源,部署高性能計算模型,構建蛋白質復合物在線預測的平臺。

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學教學改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學反應多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學習方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        色欲色欲天天天www亚洲伊| 久久久人妻丰满熟妇av蜜臀| 91精品人妻一区二区三区水蜜桃| 国产爆乳无码一区二区麻豆| 老色鬼永久精品网站| 亚洲国产精品500在线观看| 国产免费一区二区三区在线视频| 亚洲av中文无码乱人伦在线观看| 高清偷自拍第1页| 国产成人精品三级在线影院| 精品国产污黄网站在线观看| 在线观看午夜视频一区二区| 激情综合一区二区三区| 成人亚洲欧美久久久久| 亚洲一二三四五中文字幕| 国产精品女同久久久久电影院| 18禁超污无遮挡无码免费游戏| 亚洲色欲色欲大片www无码| 免费国产交换配乱淫| 亚洲VA不卡一区| 日本精品啪啪一区二区| 国产成人无码精品久久久免费| 无码精品人妻一区二区三区人妻斩 | 国产精品无码av无码| 国产成人综合久久精品免费| 超碰观看| 久久青青草原亚洲av| 亚洲精品国产精品乱码视色| 国产精品白丝喷水在线观看| 2020国产精品久久久久| 国产麻豆剧传媒精品国产av| 亚洲国产精品国自产拍av| 午夜婷婷国产麻豆精品| 美腿丝袜中文字幕在线观看| 18禁裸体动漫美女无遮挡网站| 亚洲av无码精品色午夜蛋壳| 四虎无码精品a∨在线观看| 亚洲国产av精品一区二| 琪琪色原网站在线观看| 久久天天躁狠狠躁夜夜96流白浆| 91色婷婷成人精品亚洲|