宋益東,袁乾沐,楊躍東
(中山大學計算機學院,廣東 廣州 510000)
蛋白質(zhì)在生物體內(nèi)發(fā)揮著至關重要的作用,包括信號轉導、催化代謝反應、維持細胞結構等,準確的蛋白質(zhì)功能鑒定有助于疾病機制的闡明和藥物新靶點的發(fā)現(xiàn)[1]。由于傳統(tǒng)測定蛋白質(zhì)功能的生化實驗通常成本高、耗時長、通量低,開發(fā)高效且有效的蛋白質(zhì)功能預測計算方法十分重要[2]。同時,傳統(tǒng)的計算方法如分子動力學模擬、統(tǒng)計能量函數(shù)、分子對接等需要耗費大量資源且耗時較長,限制了這一領域的發(fā)展[3-5]。隨著深度學習的蓬勃發(fā)展,通過深度學習進行蛋白質(zhì)功能預測已經(jīng)成為生物信息學的研究熱點[6-8]。蛋白質(zhì)功能預測可以分為殘基水平的結合位點預測和蛋白水平的基因本體論(gene ontology, GO)預測,下面我們將從這兩個方面逐一進行介紹。蛋白質(zhì)的結合位點預測和GO預測是兩個不同水平的預測,GO預測研究的是蛋白質(zhì)具有的不同功能,而結合位點預測則是研究蛋白質(zhì)在殘基水平所具有的一些性質(zhì),兩者是對蛋白質(zhì)功能不同水平的刻畫[6,9]。
蛋白質(zhì)結合位點是蛋白質(zhì)上與特異性配體相結合的區(qū)域,蛋白質(zhì)的結合位點預測在信號轉導、運輸和代謝[10]、揭示疾病的分子機制[11]和設計新藥[12]等方面有著重要作用。目前蛋白質(zhì)結合位點預測的方法可以分為基于序列和基于結構的方法?;谛蛄械姆椒ㄈ鏒ELPHI[13]、PepNN[14]等,利用序列提取的特征學習生物理化特征的局部模式,其優(yōu)點是它們可以通過序列對任意蛋白進行預測。然而,由于結合殘基的潛在模式并不能僅從它們的序列中顯式地體現(xiàn),而可能在空間結構[15]中是保守的,從蛋白質(zhì)序列中捕獲的特征可能不足以充分地表示殘基。因此,基于序列的方法的性能可能受到限制。與基于序列的方法不同,以實驗結構為輸入的基于結構的方法往往更加準確,其一般可分為基于模板的方法、基于機器學習的方法和混合方法。基于模板的方法如MIB[16]使用比對算法來轉移模板的結構信息并推斷結合位點。然而,當缺少高質(zhì)量的模板時,這些方法將受到嚴重的限制。基于結構的機器學習方法從蛋白質(zhì)結構提取幾何特征,然后再將其輸送到神經(jīng)網(wǎng)絡,如DELIA[17]。另外,也可以考慮蛋白質(zhì)結構的上下文拓撲信息,并使用端到端的方式進行訓練,如GraphBind[7]。對于混合方法,如COACH[18]和IonCom[19],則同時集成了基于模板和基于機器學習的方法。相對于基于序列的方法,基于結構的方法更加準確,但這種方法應用范圍有限,只適用于存在實驗三維結構的蛋白。
蛋白質(zhì)功能可通過GO中的功能項描述[20],其中GO涵蓋了分子功能(molecular function, MF)、生物過程(biological process, BP)和細胞組分(cellular component, CC)三個生物學領域。通常一個蛋白質(zhì)會與多個GO項相關,因此蛋白質(zhì)功能預測可以看作是一個大規(guī)模、多類別、多標簽的問題。此外,GO是一個有向無環(huán)圖(directed acyclic graph, DAG),如果蛋白質(zhì)被注釋了GO項,那么它所有的祖先項也應該被注釋。因此,蛋白質(zhì)功能預測應該考慮GO的層次結構并產(chǎn)生合理的輸出:一個GO項的預測概率必須等于或大于其所有子項[21]。為了促進蛋白質(zhì)GO功能預測的發(fā)展,CAFA比賽(critical assessment of functional annotation)已成功舉辦了四次。具體來說,給定一個蛋白質(zhì),參加者需要在T0之前提交預測結果,幾個月后(T1)組織者會收集具有最新實驗注釋的蛋白質(zhì)作為測試集,對不同的方法進行評估?,F(xiàn)有的蛋白質(zhì)GO功能預測的方法根據(jù)所使用的信息大致可以分為三類:基于序列、基于結構和基于生物網(wǎng)絡。大多數(shù)基于序列的方法利用序列相似性,搜索序列域,或者采用深度學習捕獲判別性特征來進行預測。其中,由于相似的序列往往具有相似的功能,一種基本的方法就是直接從已知功能的同源序列中轉移注釋,如Blast2GO[22]。此外,另一種方法是尋找序列的結構域或蛋白家族進行預測。例如,GOLabeler[23]利用排序學習(learning to rank, LTR)[24]算法整合了序列同源性、蛋白質(zhì)結構域和家族信息。隨著深度學習技術的發(fā)展,通過設計復雜的神經(jīng)網(wǎng)絡,如DeepGOPlus[9]中的卷積神經(jīng)網(wǎng)絡和TALE[25]中的Transformer,也可以從序列中自動提取判別性嵌入信息。然而,目前基于序列的方法預測精度較低。相比于基于序列的方法,基于結構的方法具有更高的預測精度。基于結構的方法使用天然的蛋白質(zhì)結構作為輸入,通常使用圖神經(jīng)網(wǎng)絡(graph neural networks, GNN)學習局部三級模式進行功能預測,如DeepFRI[26]。此外,基于網(wǎng)絡的方法,利用生物網(wǎng)絡(例如蛋白質(zhì)-蛋白質(zhì)相互作用或代謝網(wǎng)絡)中連接的蛋白質(zhì)可能具有相同功能的原理[27],對蛋白質(zhì)GO功能進行預測。例如,NetGO[28]在STRING[29]中集成了多個蛋白質(zhì)網(wǎng)絡,在網(wǎng)絡中從最近的鄰居轉移注釋至目標蛋白。NetGO 2.0[30]將文獻和序列信息融入到NetGO中,進一步提高性能。盡管CAFA比賽表明結合多種信息的集成預測方法通常優(yōu)于基于序列的方法,但這些額外的特征對于大多數(shù)蛋白質(zhì)來說往往是不可用、不完整或難以獲得的,這限制了它們的應用范圍。單獨從序列中預測蛋白質(zhì)功能的方法則更具有普遍性,適用于大多數(shù)尚未被廣泛研究的蛋白質(zhì)。
通過與實驗結合,使用計算方法對蛋白質(zhì)功能進行準確預測具有重要意義。由于對蛋白質(zhì)的全鏈篩選耗時且昂貴,預測方法可以幫助縮小潛在的結合位點范圍。在我們之前的合作研究[31]中,通過計算預測方法并結合濕實驗成功驗證了JAK2激酶中的結合殘基。同時,SPOT-Struc[32]使用結構比對和蛋白質(zhì)結合親和力預測對糖結合蛋白進行識別,并成功找到了糖結合蛋白。準確的蛋白質(zhì)功能預測也可以為許多致病基因突變機制提出假設或結論,例如影響mRNA轉運的THOC2突變[33]。在新的藥物設計中,結合位點預測可用于預測藥物的可藥用性[34]或作為從頭分子設計的生成模型的條件[35]。綜上所述,研究高效準確的蛋白質(zhì)功能預測方法在生命科學領域具有重要作用,這也突出了這項研究的重要意義。
在本文中,我們將從殘基水平的結合位點預測和蛋白水平的GO預測兩方面對蛋白質(zhì)功能預測進行詳細的介紹。首先,我們將介紹該領域常用的數(shù)據(jù)庫和蛋白特征。然后,在結合位點預測方面,我們按照配體的不同類型分別介紹了蛋白質(zhì)-蛋白質(zhì)、蛋白質(zhì)-多肽、蛋白質(zhì)-核酸和蛋白質(zhì)-小分子或離子配體的結合位點預測方法,著重分析了每種方法的優(yōu)缺點及不同方法之間的區(qū)別。同時,我們根據(jù)GO預測所使用的信息分別介紹了基于序列、基于結構和基于網(wǎng)絡的GO預測方法,對這些方法進行詳細的對比分析。最后,本文綜合前面的介紹進行總結與展望,希望能推動該領域的進一步發(fā)展。
首先,我們介紹蛋白質(zhì)功能預測領域的常用數(shù)據(jù)庫,如表1所示。
表1 常用數(shù)據(jù)庫介紹Table 1 Commonly used databases
在蛋白質(zhì)結構方面,PDB數(shù)據(jù)庫是目前最重要的生物大分子結構數(shù)據(jù)庫,包括蛋白質(zhì)、核酸、多糖等的結構數(shù)據(jù)。在蛋白質(zhì)序列方面,UniProt數(shù)據(jù)庫包含世界上大部分公開可用的蛋白質(zhì)序列,是研究蛋白質(zhì)序列的重要資源。BioLiP數(shù)據(jù)庫是重要的研究蛋白質(zhì)與配體相互作用的數(shù)據(jù)庫。GO數(shù)據(jù)庫包含了不同生物體的基因功能的計算表示。基因本體注釋(gene ontology annotation, GOA)數(shù)據(jù)庫則在GO數(shù)據(jù)庫的基礎上對UniProt數(shù)據(jù)庫進行注釋,廣泛地應用于GO預測研究中。
蛋白質(zhì)結構數(shù)據(jù)庫(protein data bank, PDB)是美國Brookhaven國家實驗室于1971年創(chuàng)建的,由結構生物信息學研究合作組織(Research Collaboratory for Structural Bioinformatics, RCSB)維護。該數(shù)據(jù)庫是結構生物學研究中的重要資源,并且每周更新,截至2022年11月,PDB數(shù)據(jù)庫已收集了約20萬條實驗測得的結構數(shù)據(jù)。PDB數(shù)據(jù)庫是目前最主要的收集生物大分子(蛋白質(zhì)、核酸、多糖和病毒)結構的數(shù)據(jù)庫,其中的三維結構主要通過X射線單晶衍射、核磁共振、電子衍射等實驗手段確定。PDB儲存的內(nèi)容包括生物大分子的原子坐標、參考文獻、一級和二級結構信息,也包括了晶體結構因數(shù)以及NMR實驗數(shù)據(jù)等。
BioLiP是一個半自動半手動生成的生物相關的配體-蛋白質(zhì)相互作用數(shù)據(jù)庫。此前,大多數(shù)配體結合位點預測方法使用PDB中的蛋白質(zhì)結構作為模板。然而,并非PDB中存在的所有配體都具有生物學相關性,因為小分子通常用作解析蛋白質(zhì)結構的添加劑。為了促進基于模板的配體-蛋白質(zhì)對接、配體虛擬篩選和蛋白質(zhì)功能注釋,BioLiP開發(fā)了一種分層程序來評估PDB結構中存在的配體的生物學相關性,包括四步的生物特征過濾以及仔細的人工驗證。簡單來說,判斷配體與蛋白質(zhì)受體具有生物相關性的要求是配體不在人工添加物列表中且同一個PDB文件中出現(xiàn)次數(shù)小于15次,與配體相互作用的受體結合位點殘基不少于2個且結合位點殘基不連續(xù),如果配體在人工添加物列表中則檢查其是否在PDB相關文獻的PubMed摘要中被提及,如果被提及則是生物相關的。BioLiP數(shù)據(jù)庫一般一周更新一次,其中的每個條目都包含以下注釋:配體結合殘基、配體結合親和力、催化位點、酶 學 委 員 會 注 釋編 號、基因本體論項以及連接到其他數(shù)據(jù)庫的鏈接。
UniProt數(shù)據(jù)庫是蛋白質(zhì)序列和注釋數(shù)據(jù)的綜合資源,是歐洲生物信息學研究所 (EMBL-EBI)、瑞士生物信息學研究所(SIB)、蛋白質(zhì)信息資源(PIR)的合作項目。UniProt數(shù)據(jù)庫包含三個部分,分別是UniProt Knowledgebase (UniProtKB)、UniProt Reference Clusters (UniRef)和UniProt Archive(UniParc)。UniProtKB是收集蛋白質(zhì)功能信息的中心樞紐,具有準確、一致和豐富的注釋。UniRef 提供來自UniProt(包括異構體)和選定的UniParc記錄的集群序列集,以便在多個分辨率下獲得對序列空間的完整覆蓋,同時從視圖中隱藏冗余序列。UniParc是一個全面且非冗余的數(shù)據(jù)庫,包含世界上大部分公開可用的蛋白質(zhì)序列,蛋白質(zhì)可能存在于不同的源數(shù)據(jù)庫中,也可能存在于同一數(shù)據(jù)庫中的多個副本中。UniParc通過僅存儲每個唯一序列一次并為其提供穩(wěn)定且唯一的標識符(UPI)來避免這種冗余,從而可以從不同的源數(shù)據(jù)庫中識別相同的蛋白質(zhì)。UniParc僅包含蛋白質(zhì)序列,有關蛋白質(zhì)的所有其他信息必須使用數(shù)據(jù)庫交叉引用從源數(shù)據(jù)庫中檢索。
GO數(shù)據(jù)庫提供了來自許多不同生物體的基因功能的計算表示,該數(shù)據(jù)庫于2000年由GO組織(Gene Ontology Consortium)建立,擬在構建一個結構化的標準生物學模型,建立基因及其產(chǎn)物知識的標準詞匯體系,包括細胞組分(cellular component)、分子功能(molecular function)、生物學過程(biological process)三個部分。
GOA數(shù)據(jù)庫旨在使用GO數(shù)據(jù)庫的標準化詞匯為UniProt數(shù)據(jù)庫(Swiss-Prot、TrEMBL和PIR-PSD)提供高質(zhì)量的電子和手動注釋。作為GO注釋的補充存檔,GOA通過將UniProt注釋轉換為公認的計算格式來促進UniProt中表示的知識與其他數(shù)據(jù)庫的高度集成。通過聯(lián)合其他模型生物組的GO注釋,GOA將專業(yè)知識和專家意見進行整合,以確保數(shù)據(jù)仍然是最新生物信息的關鍵參考。GOA已經(jīng)越來越多地用于評估文本挖掘或蛋白質(zhì)相互作用實驗產(chǎn)生的GO預測,同時也用于增強特定模型生物體或基因表達數(shù)據(jù)集的注釋。
本節(jié)首先介紹蛋白質(zhì)序列的獨熱(one-hot)編碼,基于20位的狀態(tài)存儲器對蛋白質(zhì)序列進行編碼;之后介紹位置特異性打分矩陣和隱馬爾科夫矩陣;以及SPIDER3[36]軟件,該軟件在蛋白質(zhì)序列及其他信息的基礎上,進一步生成蛋白質(zhì)的預測結構信息;此外還包括氨基酸物理化學性質(zhì)和最新的語言模型特征。語言模型特征包括ESM和ProtTrans,這類模型通過在大規(guī)模數(shù)據(jù)上進行訓練并學習相關生物學特性。同時還介紹了常用的結構特征,包括DSSP和蛋白距離圖,該類特征用于基于結構的方法中,包含豐富的特征信息。
由于蛋白質(zhì)序列共包含20種氨基酸,屬于離散特征,且取值之間無大小的意義,因此可以對氨基酸序列進行one-hot編碼,即對序列中的每個氨基酸使用20位的狀態(tài)寄存器表示,這20位狀態(tài)寄存器中只有一位是有效的,將其記為1,其余寄存器記為0。最后我們可以得到大小為L×20的矩陣,其中L為序列長度。
由進化保守氨基酸形成的蛋白基序(motif)常常與蛋白結合功能密切相關,如蛋白結合性質(zhì)。我們可以通過PSI-BLAST[37]程序進行多序列比對得到氨基酸序列的進化信息,在UniRef90[38]數(shù)據(jù)庫上進行迭代搜索,為每個蛋白質(zhì)生成PSSM特征,該特征將表示為L×20的矩陣,其中矩陣的每一行表示序列中特定位置氨基酸殘基發(fā)生替代的對數(shù)似然分值,共L行。由于共有20種氨基酸,因此PSSM矩陣M共包含20列。其中Mi,j表示蛋白質(zhì)序列在進化過程中第i個位置的氨基酸發(fā)生突變成為第j種氨基酸類型的分值,高度保守的位置將會獲得較高的分值,而低度保守的位置會取得較低的得分。
HHblits[39]是一種應用于蛋白質(zhì)序列搜索和比對的開源工具包。相比于PSI-BLAST,HHblits能夠更快且更準確地搜索出數(shù)據(jù)庫中具有相似序列的蛋白質(zhì)。HHblits將查詢蛋白序列和數(shù)據(jù)庫中的蛋白序列相互轉換,接著通過隱馬爾科夫模型(hidden Markov model,HMM)進行統(tǒng)計。HMM是一種在序列比對過程中統(tǒng)計出現(xiàn)突變可能性的模型,能夠有效地提高子序列相似性搜索的準確率和靈敏度。通過在Uniclust30[40]數(shù)據(jù)庫上運行HHblits以生成隱馬爾科夫模型的序列譜,該特征將表示為L×30的矩陣。
通過SPIDER3[36]軟件可生成蛋白質(zhì)的預測結構信息,SPIDER3的輸入包括蛋白質(zhì)序列以及通過PSI-BLAST和HHblits獲得的PSSM和HMM特征,輸出包括:①ASA(solvent accessible surface area),指的是溶劑可達(可以接觸到溶劑)的生物分子表面積,簡稱溶劑可及性;②二面角(torsional angles),蛋白質(zhì)主鏈的二面角通常包括5個,即θ、φ、ψ、ω和τ。由于蛋白質(zhì)的平面性,ω通常是180°,所以一般不使用ω二面角,其余4個二面角分別取其正弦和余弦值,因此共8個特征;③CN,指的是在三維空間內(nèi),以殘基為中心,給定的長度為半徑的球體內(nèi)包含了多少其他氨基酸,代表了這片區(qū)域內(nèi)氨基酸的疏密度;④半球暴露(half-sphere exposure,HSE),這是CN特征的一個擴展,它將CN中的球體拆分成了上半部分和下半部分,對其分別計數(shù),HSE以蛋白質(zhì)二級結構中的Cα-Cα方向向量和Cα-Cβ方向向量來確定兩個半球的分界;⑤三個二級結構(即α螺旋、β折疊和無規(guī)卷曲)的預測概率值。
7維的氨基酸物理化學性質(zhì)特征向量[41],包括了空間參數(shù)、疏水性、體積、極化率、等電點、螺旋概率和片狀概率,也常被用于蛋白表征學習當中。
ESM(evolutionary scale modeling)[42]是由Facebook提出,基于2.5億個蛋白質(zhì)序列訓練大容量的Transformer語言模型,并使用該語言模型學習生物學特性。在人工智能領域,無監(jiān)督學習所帶來的數(shù)據(jù)規(guī)模和模型能力的結合,讓表征學習和統(tǒng)計生成取得了重大進步。ESM團隊使用無監(jiān)督學習在跨越進化多樣性的2.5億個蛋白質(zhì)序列上訓練了一個包含860億個氨基酸的深度上下文語言模型。得到的模型表示中包含了有關生物屬性的重要信息,該信息在一系列應用中具有普適性,可以實現(xiàn)對突變效應和二級結構的監(jiān)督預測,并改進用于遠程接觸預測的最新特征。
ProtTrans[43]是一個蛋白質(zhì)語言模型(protein language model,pLM),在包含3930億個氨基酸的UniRef[38]和Big Fantastic Database數(shù)據(jù)集上進行訓練,將自然語言處理(natural language processing,NLP)中的語言模型概念進行復制,將蛋白質(zhì)序列中的氨基酸看作語言模型的詞,將整個蛋白質(zhì)視為語言模型中的句子。首先,將這些語言模型以自監(jiān)督的方式進行訓練,本質(zhì)上是學習預測已知序列中隱藏的氨基酸。在訓練完成后,需要確定語言模型捕獲了相關信息。然后,通過提取嵌入信息來遷移語言模型學習到的內(nèi)容,同時將其作為輸入用于監(jiān)督訓練每個殘基和每個蛋白質(zhì)的預測任務。
使用DSSP[44]軟件可以對蛋白的PDB結構進行特征提取,計算出三個類別的結構特征:①8維的one-hot二級結構分類;②肽骨架扭轉角PHI和PSI,取其正弦值和余弦值;③溶劑可及性表面積,隨后根據(jù)對應氨基酸類型的最大ASA歸一化為相對溶劑可及性(relative solvent accessibility,RSA)。
根據(jù)蛋白質(zhì)的PDB文件,可以得到每個氨基酸的Cα原子坐標,然后計算所有氨基酸對之間Cα原子坐標的歐氏距離,即可得到一個L×L的蛋白距離圖。一種常見的處理方法是設定一個距離閾值,距離圖中大于此閾值的值轉換為0,小于此閾值的轉換為1,從而得到一個鄰接矩陣,用于表示蛋白質(zhì)氨基酸之間接觸與否。此鄰接矩陣可用于表示蛋白圖,從而應用圖卷積神經(jīng)網(wǎng)絡(graph convolutional network, GCN)等圖模型進行學習。另一種處理方法是將蛋白距離圖矩陣轉換為熱力圖,從而運用卷積神經(jīng)網(wǎng)絡等圖像學習模型進行學習。
在上面介紹的特征中,由于GO預測的數(shù)據(jù)規(guī)模較大,而PSSM、HMM、SPIDER3特征需要的計算時長較長,因此此類特征一般不適合進行GO預測。同時GO數(shù)據(jù)集沒有結構,DSSP特征對這類問題也不適合。GO預測問題一般使用one-hot特征,或者使用當下最新提出的語言模型(ESM或ProtTrans)提取豐富的特征信息作為輸入。對于結合位點預測問題,上面所介紹的各種特征被廣泛用于多種預測方法,該類問題使用的特征范圍更廣。
在這里按照不同的配體類型選擇部分結合位點預測方法進行介紹,方法總結于表2。
表2 結合位點預測最新方法總結Table 2 Summary of the latest binding site prediction methods
3.1.1 蛋白質(zhì)-蛋白質(zhì)結合位點預測方法
DELPHI[13]是一種基于序列的PPI位點預測框架,集成了卷積神經(jīng)網(wǎng)絡(CNN)和循環(huán)神經(jīng)網(wǎng)絡(RNN)進行結合位點預測。DELPHI使用的特征有GO詞頻、序列對比信息、氨基酸三聯(lián)體(3 mer)、蛋白家族信息、結構域和基序、ProFET[58]序列特征,同時該方法具有開源代碼和可供使用的服務器。DELPHI使用不同的模型去捕獲不同的信息,模型主要由三部分組成,分別是卷積神經(jīng)網(wǎng)絡模塊、循環(huán)神經(jīng)網(wǎng)絡模塊以及集成模塊。CNN和RNN組件的核心層分別為卷積和雙向門控循環(huán)單元(GRU)層,而集合模型主要負責對前兩個分量的輸出進行解碼。除了提出一種基于CNN和RNN的集成模型之外,DELPHI又一重要貢獻是提出了三種全新的特征,并將這三種特征首次用到PPI位點預測中,具有重要意義。相比于基于序列的方法,基于結構的方法使用了蛋白質(zhì)的結構信息,這類方法通常具有較高的準確度。
GraphPPIS[8]是一種基于結構的方法,使用深度圖網(wǎng)絡進行蛋白質(zhì)結合位點的預測。該模型將蛋白質(zhì)視為無向圖,將PPI位點預測視為圖節(jié)點分類問題,同時綜合進化信息和結構信息構建節(jié)點特征,計算成對氨基酸之間的距離構建鄰接矩陣。然后,使用初始殘差和恒等映射實現(xiàn)深度圖卷積框架,并用來捕獲來自高階氨基酸鄰居的信息。GraphPPIS使用的特征有PSSM、HMM和DSSP,并且具有可下載的代碼及可使用的web服務器。GraphPPIS通過初始殘差連接以及恒等映射的方式使得GCN克服了堆疊高層數(shù)時出現(xiàn)的梯度消失以及過平滑現(xiàn)象,并能夠很好地捕捉到蛋白質(zhì)圖的遠程鄰居消息。普通圖卷積網(wǎng)絡已經(jīng)被證明會逐步將節(jié)點的低階鄰居信息聚合到自身,這在多數(shù)圖相關的任務上可以取得很好的性能效果,但限制了其感知遠程鄰居的能力,且本身還存在過平滑現(xiàn)象。GraphPPIS通過初始殘差連接以及恒等映射將普通GCN擴展為深層GCN,與普通GCN相比,深層GCN有兩個優(yōu)勢:第一是在一定程度上能夠保證層數(shù)堆疊起來之后仍然保留蛋白質(zhì)的初始結構消息,從而能夠減緩梯度消失以及過平滑現(xiàn)象;第二是為權重矩陣加入了恒等映射矩陣,它保證了深層GCN在僅堆疊少數(shù)基層的時候仍然能夠保持性能不下降。該方法是第一個使用深度圖卷積網(wǎng)絡進行蛋白質(zhì)結合位點預測的工作,可以很容易地擴展到其他功能位點預測的任務中。
3.1.2 蛋白質(zhì)-多肽結合位點預測方法
在蛋白質(zhì)-多肽結合方面,最新的方法有BiteNetpp[59]、PepNN[14],BiteNetpp和PepNN分別是基于3D卷積神經(jīng)網(wǎng)絡和圖神經(jīng)網(wǎng)絡構建的模型,兩者均是當前比較突出的模型。BiteNetpp和PepNN均是基于結構的方法,其中BiteNetpp基于三維圖像的目標檢測進行蛋白質(zhì)-多肽結合位點預測,PepNN則提出了一種相互注意力模塊(reciprocal attention),增強了輸入之間的信息流動。
BiteNetpp是一種基于結構的深度學習模型,通過將蛋白質(zhì)結構視為目標檢測的三維圖像來識別蛋白質(zhì)-多肽結合位點。BiteNetpp使用的特征有體素化的11種原子密度并且具有可下載的代碼和web服務器。基于從PDB蛋白質(zhì)數(shù)據(jù)庫中檢索到的蛋白質(zhì)-多肽復合物的非冗余集合,模型訓練了一個3D卷積神經(jīng)網(wǎng)絡進行蛋白質(zhì)-配體結合位點預測模型,據(jù)悉,這是首次使用域自適應技術將蛋白質(zhì)-小分子復合物的模型微調(diào)為蛋白質(zhì)-多肽復合物的模型。BiteNetpp使用了一種基于張量的空間蛋白質(zhì)結構表示,并將其輸入到3D卷積神經(jīng)網(wǎng)絡,利用3D卷積神經(jīng)網(wǎng)絡對蛋白質(zhì)結構進行體素化表示,即對蛋白進行3D單元表示,最終輸出蛋白質(zhì)-多肽結合位點的坐標及其概率得分。BiteNetpp使用了域自適應技術,即在蛋白質(zhì)-多肽數(shù)據(jù)集上微調(diào)在蛋白質(zhì)-小分子復合物上訓練的原始BiteNetpp模型,通過這種域適應技術來提高模型性能。該方法可以對大規(guī)模的結合位點進行快速檢測,只需要不到1 s的時間就可以分析單個蛋白質(zhì)結構。
PepNN是一種基于結構和序列的蛋白質(zhì)-多肽結合位點預測方法。預測蛋白質(zhì)-多肽的結合位點的一個主要困難是多肽的柔性及其在結合時發(fā)生的構象變化,考慮到這些因素,PepNN提出了一種相互注意力模塊(reciprocal attention),在增強對稱性的同時同步更新多肽和蛋白質(zhì)殘基的編碼,允許兩個輸入之間的信息流動。PepNN將該模塊與圖神經(jīng)網(wǎng)絡層集成,并在訓練時使用遷移學習來彌補蛋白質(zhì)-多肽復合物信息的稀缺性。在這項研究中,作者整合了語言模型、可用的蛋白質(zhì)-蛋白質(zhì)復合物數(shù)據(jù)和基于任務的注意力架構,分別開發(fā)了基于結構和基于序列的并行模型PepNNStruct和PepNN-Seq。由于蛋白質(zhì)-多肽復合物數(shù)據(jù)較為稀缺,PepNN-Struct和PepNN-Seq使用了集成了遷移學習的基于注意力的深度學習模塊,來彌補這種數(shù)據(jù)限制。此外,PepNN的成功可以作為相互注意力機制有效性的證明,該模塊可以有效地用于建模數(shù)據(jù)點對之間的雙向關系,因此可以擴展到其他生物分子相互作用,包括蛋白質(zhì)-蛋白質(zhì)和蛋白質(zhì)-DNA的相互作用。在這些情況下,序列或結構信息可以通過序列或圖注意力模塊進行傳播,然后相互注意力模塊可以有效地將受體蛋白與之聯(lián)系起來,同時保持兩者的對稱性。
3.1.3 蛋白質(zhì)-核酸結合位點預測方法
GraphBind[7]是一種基于結構的蛋白質(zhì)-核酸結合位點預測器,基于端到端圖神經(jīng)網(wǎng)絡,通過層次圖神經(jīng)網(wǎng)絡(HGNN)學習蛋白質(zhì)結構上下文嵌入規(guī)則,并用于識別與核酸結合的殘基。GraphBind輸入的特征包括殘基的原子特征、DSSP、PSSM和HMM,由于結合位點在局部三級結構上往往表現(xiàn)出高度的保守模式,GraphBind首先根據(jù)目標殘基的結構上下文及其空間鄰域構建圖。然后,使用層次圖神經(jīng)網(wǎng)絡學習結構與理化特征的局部模式的隱含嵌入用于識別結合的殘基。對于每個目標殘基,首先基于目標殘基的局部環(huán)境構建一個圖。初始節(jié)點特征向量由進化保守性、二級結構信息、其他生物理化特征和位置嵌入組成,其中位置嵌入是通過定義結構上下文中殘基空間關系的幾何知識來計算的。之后再構建一個分層圖神經(jīng)網(wǎng)絡來學習潛在的局部模式,并用于結合殘基預測,其中設計了邊更新模塊、節(jié)點更新模塊和圖更新模塊來學習目標殘基的高級幾何和生物理化特征。此外,GraphBind還利用門控循環(huán)單元[60]堆疊了多個GNN-blocks,充分利用了所有block的信息,避免了梯度消失問題??偟膩碚f,GraphBind的優(yōu)越性主要表現(xiàn)在兩個方面:①基于結構上下文的圖表示適合表示目標殘基局部環(huán)境的幾何和生物物理化學知識;②在預測結合殘基方面,HGNN是一種高效的學習高級模式的算法。同時,GraphBind也有一定的局限性,當使用預測的結構作為GraphBind的輸入時會降低GraphBind的性能,這表明結構質(zhì)量與幾何知識有關,而幾何知識對HGNN非常重要。GraphBind需要找到一種新的構建異質(zhì)圖的方法,使得對結構信息具有更好的魯棒性。
GraphSite[6]是一種基于序列的方法,通過使用AlphaFold2預測的結構對DNA結合殘基進行精確預測。GraphSite結合了圖Transformer和AlphaFold2預測的蛋白質(zhì)結構,并應用于DNA結合殘基的預測。GraphSite將結合位點預測問題轉化為圖節(jié)點分類任務,并使用Transformer變體模型來考慮蛋白質(zhì)的結構信息,通過利用預測的蛋白質(zhì)結構和圖轉換器,GraphSite相較于最新的基于序列和基于結構的方法都有了很大的改進。具體來說,GraphSite在計算Transformer中的注意力分數(shù)時,融合了多序列比對(multi-sequence alignment, MSA)信息和結構信息來構建殘差特征,并通過計算成對氨基酸距離來覆蓋空間上距離較遠的氨基酸。這是第一個利用AlphaFold2預測的結構和圖轉換器進行蛋白質(zhì)-DNA結合位點預測的工作。總的來說,GraphSite的優(yōu)越性主要體現(xiàn)在兩個方面:①AlphaFold2可以預測出較高質(zhì)量的蛋白質(zhì)結構;②在結合殘基的預測方面,結構感知的圖轉換器是學習模式的有效算法。同時,GraphSite模型仍然存在一些局限性,GraphSite的性能很大程度上受到AlphaFold2預測質(zhì)量的影響。這可以通過添加其他信息豐富的序列衍生特征來提高模型對結構預測質(zhì)量的魯棒性來解決。在GraphSite[6]的文章中,GraphSite和其他眾多方法在測試集Test_129上進行了比較。其中,GraphSite、GraphBind和NucBind均表現(xiàn)出較好的性能,其AUC分別為0.934、0.928和0.858。GraphSite借助于AlphaFold2預測的蛋白質(zhì)結構,使用圖Transformer對DNA結合殘基進行預測,相較于目前的方法有了很大的改進。GraphBind則基于層次圖神經(jīng)網(wǎng)絡(HGNN)對與核酸結合的殘基進行識別。該方法的優(yōu)勢在于基于結構上下文的圖表示包含了重要的特征信息,同時HGNN是一種高效的學習高級模式的算法,在結合位點預測中較為有效。NucBind則基于所輸入的PSSM、HMM、預測的二級結構、預測結構等特征對結合位點進行了很好的預測。
3.1.4 蛋白質(zhì)-小分子或離子配體結合位點預測方法
DELIA[17]是一種新的基于深度學習的蛋白質(zhì)-配體結合殘基的預測方法。該方法輸入的特征有PSSM、HMM、二級結構、可溶性,S-SITE特征和基于結構的距離矩陣,同時該方法提供了一個可供使用的web服務器。DELIA設計了一種混合深度神經(jīng)網(wǎng)絡,將基于序列的一維特征與基于結構的二維氨基酸距離矩陣進行融合。同時為了克服結合殘基和非結合殘基之間嚴重的數(shù)據(jù)不平衡問題,DELIA設計了小批量過采樣、隨機欠采樣和堆疊集成的策略來增強模型,并且在五個基準數(shù)據(jù)集上達到很好的效果。為了開發(fā)出更強大的蛋白質(zhì)-配體結合殘基預測的預測器,DELIA設計了一種融合卷積神經(jīng)網(wǎng)絡和雙向長短時記憶網(wǎng)絡(BiLSTM)的混合深度神經(jīng)網(wǎng)絡來處理異質(zhì)蛋白質(zhì)數(shù)據(jù),包括一維序列特征向量和二維距離矩陣[61-62]。其中距離矩陣是蛋白質(zhì)結構的有效表示,表達的是蛋白質(zhì)結構中每一對殘基之間的距離信息。為了從距離矩陣中挖掘出更多的信息,DELIA中使用CNN從距離矩陣中提取局部信息,并且設計深度架構來學習用于結合位點識別的高層表示。同時,與體素化表示相比,二維距離矩陣更加緊湊,對旋轉和平移具有不變性,因此更適合此類問題。
LMetalSite[63]是一種無需序列比對的預測BioLiP中最常見的四種金屬離子(Zn2+,Ca2+,Mg2+和Mn2+)結合位點的方法。LMetalSite利用預訓練的語言模型快速生成信息豐富的序列表示,并使用Transformer捕獲長程依賴關系。同時采用多任務學習來彌補訓練數(shù)據(jù)的稀缺性,捕捉不同金屬離子之間的內(nèi)在相似性,并在多個基準數(shù)據(jù)集上取得較好效果。LMetalSite利用最近發(fā)布的預訓練語言模型ProtTrans[43]以避免耗時的數(shù)據(jù)庫搜索,在短時間內(nèi)生成信息豐富的序列表示。其還利用多任務學習,通過彌補訓練數(shù)據(jù)的稀缺性和更好地建模不同金屬離子之間的內(nèi)在相似性來進一步提高預測質(zhì)量。具體來說,LMetalSite使用Transformer模型[64-65]作為共享網(wǎng)絡來捕獲蛋白質(zhì)序列中的長程依賴等常見的結合機制,然后使用四個針對于不同離子的特異性多層感知器(MLP)來學習特定金屬離子的結合模式??偟膩碚f,LMetalSite僅使用蛋白質(zhì)序列就取得了很好的性能(超越了最好的基于結構的方法),這有望同時解決當前基于結構和基于序列方法的局限性。同時LMetalSite所采用的多任務學習技術能夠進一步提高預測質(zhì)量,而其他方法則忽略了相似離子之間的潛在關系。此外,LMetalSite仍然存在可以改進的空間,如元學習(meta-learning,指的是在多個學習階段改進學習算法的過程)[66-67]在多任務問題中有重要的作用,LMetalSite可以結合元學習進行更深的探索。
3.1.5 多任務整合不同類型的配體
MTDsite[68]是一種新的結合位點預測器,采用多任務深度學習策略,基于序列來同時預測具有多個重要分子類型的結合位點。MTDsite輸入的特征包括PSSM、HMM、SPIDER3、溶劑可及性表面積、扭轉角、分界線內(nèi)的殘基數(shù)、半球暴露等,同時該方法提供了可下載的源代碼。通過合并DNA、RNA、多肽和糖結合蛋白的4個訓練集,MTDsite在各自的獨立測試集上獲得了準確和魯棒的預測。而且據(jù)我們所知,這也是第一個使用多任務框架同時預測多個分子結合位點的方法。在MTDsite中,不同的任務之間共享一個網(wǎng)絡,互相促進學習,從而獲得相對較強的抽象能力,其中長短期記憶網(wǎng)絡(LSTM)作為共享網(wǎng)絡來收集蛋白質(zhì)鏈中長距離殘基的信息。同時,針對四種不同的個體類型MTDsite分別訓練了四個小的特定子網(wǎng)絡,用來提取個體屬性。
DeepDISOBind[69]是一種創(chuàng)新的深度多任務架構,可以從蛋白質(zhì)序列中準確預測與DNA、RNA和蛋白質(zhì)結合的內(nèi)在無序的區(qū)域(IDRs)。該方法通過輸入one-hot蛋白序列、相對氨基酸親和性、二級結構、內(nèi)部無序性等特征進行結合位點預測,并且提供了可下載的源代碼和web服務器。DeepDISOBind依賴于一個信息豐富的序列譜,該序列譜由一個創(chuàng)新的多任務深度神經(jīng)網(wǎng)絡處理,并且在后續(xù)層逐漸特異化,以預測特定模式的結合。其中普通輸入層會鏈接到區(qū)分蛋白質(zhì)和核酸結合的層,該層再進一步鏈接到區(qū)分DNA和RNA相互作用的層。實證檢驗表明,與單一任務設計相比,這種多任務設計在三種不同類型任務中提供了統(tǒng)計上顯著的預測質(zhì)量增益。多任務學習旨在通過使用共享表示來預測相關學習任務[70-71]并進一步提高預測性能,該方法可以推廣到其他領域。
我們根據(jù)使用信息的不同對蛋白質(zhì)GO預測的方法進行了逐一介紹,并著重分析了部分最新的方法,表3將各種預測方法進行了總結。
表3 最新GO預測類方法總結Table 3 Summary of the latest GO prediction methods
3.2.1 基于序列的方法
GOLabeler[23]是一種用于預測未知蛋白質(zhì)功能的新方法,它集成了5個組件分類器,并從不同的特征中進行訓練,包括GO項頻率、序列比對、氨基酸三聯(lián)體(3 mer)和生物物理特性等,同時該方法提供了可供下載的代碼并且具有web服務器。GOLabeler在基于排序學習(LTR)的框架中進行訓練,其中排序學習是機器學習中的一種范式,對于多標簽分類尤為有效。GOLabeler的基本思想是在排序學習的框架下整合不同類型的基于序列的信息。LTR的邏輯是,對于排名較低的正樣本會受到更多的懲罰,而在常規(guī)分類中,它們會受到無區(qū)分平等的處理。LTR最初是為了使網(wǎng)頁排序與網(wǎng)頁和用戶查詢之間的相關性一致而開發(fā)的。如果關注二進制相關性,那么排序問題就變成了預測給定查詢的相關網(wǎng)頁的問題。這正是多標簽分類,將網(wǎng)頁視為標簽,查詢視為示例。LTR可以通過對標簽進行排序并選擇排名靠前的標簽來解決這類問題。因此,以GO項為標簽,以蛋白質(zhì)為例,可以將LTR應用于相應的自動功能預測(automated function prediction,AFP)中。另外,LTR的另一個值得注意的優(yōu)點是GOLabeler可以有效地集成多個基于序列的信息,這些信息是由不同類型的分類器(或組件)生成的,其中所有的信息都來自于序列??偟膩碚f,基于序列的蛋白質(zhì)大規(guī)模AFP(SAFP)是一個重要的問題,主要具有三方面的挑戰(zhàn):①結構化的本體;②每個蛋白質(zhì)有許多標簽;③每個蛋白質(zhì)的GO條目數(shù)量變化大。針對上面的問題,GOLabeler進行了針對性設計,并解決了以下問題:①使用GO的DAG結構中所有對應的GO項;②通過排序學習,進行更有效的多標簽分類;③通過LTR,允許不選擇每個蛋白質(zhì)的GO項數(shù)量。
DeepGOPlus[9]是一種新穎的單獨從序列預測蛋白質(zhì)功能的方法,將深度卷積神經(jīng)網(wǎng)絡模型與基于序列相似性的預測相結合,在多個基準數(shù)據(jù)集上達到了很好的效果。DeepGOPlus使用的特征有基于序列和基序的功能信息,并且該方法具有web服務器。DeepGOPlus在2017年提出的DeepGO[74]基礎上進行了改進,克服了其在序列長度、缺失特征和預測類別數(shù)量方面的限制。DeepGOPlus模型將輸入的長度增加到2000個氨基酸(覆蓋了UniProt中99%以上的序列),同時將新模型的架構進行改進,使其能夠分割更長的序列和掃描更小的模塊來進行功能預測。在模型方面,DeepGOPlus將神經(jīng)網(wǎng)絡預測與基于序列相似性的方法相結合,以捕獲直接和間接的相互作用信息??偟膩碚f,DeepGOPlus是一種從蛋白質(zhì)序列中預測蛋白質(zhì)功能的快速而準確的工具。特別地,DeepGOPlus對氨基酸序列的長度沒有限制,因此可以用于蛋白質(zhì)功能的基因組尺度注釋,這在新測序的生物體中尤為重要。DeepGOPlus也不對蛋白質(zhì)所屬的分類做任何假設,因此可以進行宏基因組學的功能預測。此外,DeepGOPlus速度較快,即使在單個CPU上也能在幾分鐘內(nèi)注釋數(shù)千個蛋白質(zhì),這使其能夠進一步應用于宏基因組學或大量未知功能蛋白質(zhì)的鑒定項目。
GAT-GO[75]是一種基于圖注意網(wǎng)絡(graph attention network,GAT)的方法,可以通過利用預測的結構信息和蛋白質(zhì)序列的嵌入信息來大幅提高蛋白質(zhì)功能的預測能力。GAT-GO 使用的特征有one-hot蛋白序列、PSSM、HMM和ESM-1b 嵌入信息。GAT-GO使用RaptorX[76]預測的蛋白質(zhì)的結構信息,并使用Facebook的ESM-1b[42]生成其嵌入信息。即使在測試蛋白與訓練蛋白的序列一致性較低的情況下,GAT-GO也優(yōu)于傳統(tǒng)的基于同源性的算法,如BLAST[77]和以前的深度學習方法[9]。最近的兩項研究[26,78]探索了GCN和蛋白質(zhì)嵌入信息在蛋白質(zhì)功能預測方面的作用,但與僅基于序列的方法相比,它們的改進有限。GAT-GO與GCN方法DeepFRI[26]的不同之處在于:GATGO使用了GAT[79]代替?zhèn)鹘y(tǒng)的GCN,GAT可以通過自注意力機制進行靈活的節(jié)點特征聚合來增強模型容量。此外,GAT-GO使用了拓撲池化[80]實現(xiàn)更高效的下采樣,提高模型的泛化能力。通過結合序列特征、蛋白質(zhì)嵌入信息和殘基間接觸圖,GAT-GO可以從局部和全局信息中預測蛋白質(zhì)功能。相反,基于序列的方法不能利用預測的結構信息,因此不善于處理與任何訓練序列不相似的測試序列。同時,GAT-GO沒有使用非常大的宏基因組數(shù)據(jù)庫來生成用于殘基間接觸預測的多序列比對,從而節(jié)約了搜索這些數(shù)據(jù)庫所需要的計算資源。
3.2.2 基于結構的方法
DeepFRI[26]是一種基于圖卷積網(wǎng)絡(GCN)的蛋白質(zhì)功能注釋和檢測蛋白質(zhì)中功能區(qū)域的方法,稱為深度功能殘基識別(deep functional residue identification, DeepFRI)。DeepFRI輸入的特征包括蛋白質(zhì)接觸圖和語言模型特征,并且具有可供使用的web服務器。DeepFRI通過利用從蛋白質(zhì)語言模型和蛋白質(zhì)結構中提取的序列特征來預測蛋白質(zhì)的功能,具有顯著的去噪能力,并且其類激活映射使其達到了較高分辨率的預測。DeepFRI具有一個兩階段的體系結構,將蛋白質(zhì)結構和來自預先訓練的、與任務無關的語言模型的序列表示作為輸入,并表示為3D結構中氨基酸相互作用的圖。盡管高質(zhì)量的序列比對往往足以傳遞折疊或結構信息[53],但由于不同功能需要不同的閾值、部分比對、蛋白質(zhì)兼并和新功能化等原因,序列比對很難用于傳遞函數(shù)。因此,DeepFRI的一個重要優(yōu)勢是能夠通過提取局部序列和全局結構特征進行超越同源比對的功能預測[2]??傊?,DeepFRI描述了一種將計算生物學中的兩個關鍵問題(蛋白質(zhì)結構預測和蛋白質(zhì)功能預測)聯(lián)系起來的方法。DeepFRI將深度學習與越來越多的可用序列和結構數(shù)據(jù)聯(lián)系起來,有可能滿足不斷增長的基因組序列數(shù)據(jù)帶來的挑戰(zhàn),為我們解釋蛋白質(zhì)生物多樣性提供了新的見解。
3.2.3 基于網(wǎng)絡的方法
NetGO[28]是一個能夠通過整合海量蛋白質(zhì)-蛋白質(zhì)網(wǎng)絡信息來進一步提高大規(guī)模蛋白質(zhì)自動功能預測(AFP)性能的Web服務器。該方法使用的特征包括GO 詞頻、序列對比信息、氨基酸三聯(lián)體(3 mer)、 蛋白家族信息、結構域和基序、ProFET序列特征、蛋白質(zhì)相互作用網(wǎng)絡。NetGO的基本思想是將基于網(wǎng)絡的信息整合到GOLabeler框架中[23],從而提高大規(guī)模AFP的性能,其主要的優(yōu)勢有以下3個方面:①NetGO依靠機器學習強大的排序學習框架,有效整合了蛋白質(zhì)的序列和網(wǎng)絡信息;②NetGO利用了STRING數(shù)據(jù)庫中所有物種(大于2000)的海量網(wǎng)絡信息,而不僅僅是一些特定的物種;③即使某個蛋白質(zhì)不包含在STRING中,NetGO仍然可以利用網(wǎng)絡信息通過同源轉移來注釋蛋白質(zhì)。NetGO將網(wǎng)絡信息與其他類型的數(shù)據(jù)相結合,以進行更好的蛋白質(zhì)功能預測,其將幾個組件集成到一個有效的框架中,在大規(guī)模網(wǎng)絡的綜合實驗中取得了最好的性能。同時,NetGO網(wǎng)絡服務器運行速度快,具有可視化界面,適合大規(guī)模蛋白質(zhì)功能預測,是一款高性能Web服務器。另外,在2021年該團隊提出了更新版本NetGO 2.0[30],其在NetGO的基礎上,將通過邏輯回歸得到的文獻信息和循環(huán)神經(jīng)網(wǎng)絡提取的序列信息納入框架。實驗結果表明,NetGO 2.0在生物過程(BP)和細胞成分(CC)子本體上的表現(xiàn)明顯優(yōu)于NetGO。進一步分析,NetGO 2.0的優(yōu)越性能表明:①額外信息的使用有助于AFP,NetGO 2.0進一步結合了SwissProt[81]中通過邏輯回歸手動注釋的每個蛋白質(zhì)的文獻信息和RNN的潛在序列信息,這些信息將有助于提供大規(guī)模AFP的性能;②神經(jīng)網(wǎng)絡可以進一步提取隱藏在序列中的高階信息;③排序學習框架可以很好地集成新的信息和方法。在NetGO 2.0[30]文章中,NetGO 2.0和其他眾多方法在測試集(testing data)上進行了比較,NetGO 2.0、NetGO和GOLabeler均達到了較好的性能。其中,NetGO 2.0的MFO(AUPR)、BPO(AUPR)和CCO(AUPR)分別是0.655、0.269和0.593;NetGO分別為0.653、0.239和0.583;GOLabeler的分別是0.647、0.193和0.193。NetGO 2.0是在NetGo的基礎上,加入了文獻信息和循環(huán)神經(jīng)網(wǎng)絡提取的序列信息,更進一步地提高了模型的性能。GOLabeler則是在排序學習的框架下整合不同類型的基于序列的信息,所使用的特征包括GO項頻率、序列比對、氨基酸三聯(lián)體(3 mer)和生物物理特性等,在蛋白質(zhì)功能預測方面有很好的性能。
S2F[82]是一種新穎的基于網(wǎng)絡傳播的預測蛋白質(zhì)功能的方法,其主要思想是系統(tǒng)地將功能相關的數(shù)據(jù)從模式生物轉移到新測序的生物,從而可以使用標簽傳播方法。S2F引入了一種新穎的標簽擴散算法,可以解釋具有相關功能的蛋白質(zhì)重疊在網(wǎng)絡中的重疊(overlapping)效應。S2F將網(wǎng)絡傳播算法應用于只有序列信息可用的生物體,通過系統(tǒng)地傳遞模式生物的功能數(shù)據(jù)來創(chuàng)建網(wǎng)絡,并利用這些網(wǎng)絡來組合和增強通過同源性或可識別的蛋白質(zhì)特征獲得的一些初步的GO標簽。使用網(wǎng)絡上的擴散過程是提高簡單同源性預測的有效方法,S2F通過一個擴散過程,將同源信息和可識別的蛋白質(zhì)特征以及同源映射圖中包含的進化信息有效地融合在一起。同時,S2F允許通過學習到的系數(shù)對不同網(wǎng)絡進行線性組合,其組合方法與GeneMANIA[83]中使用的方法類似,但它允許學習這些線性權重,而不依賴于初始的已知功能標簽集。
DeepGraphGO[84]提出了一種基于端到端的多物種圖神經(jīng)網(wǎng)絡AFP方法,該方法充分利用了蛋白質(zhì)序列和高階蛋白質(zhì)網(wǎng)絡的信息,其多物種策略允許對所有物種訓練一個單一的模型,這使得DeepGraphGO比現(xiàn)有方法擁有更多的訓練樣本。DeepGraphGO是一種半監(jiān)督的深度學習方法,通過圖神經(jīng)網(wǎng)絡[85]同時利用蛋白質(zhì)序列和網(wǎng)絡信息,并且具有3個顯著特點:①蛋白質(zhì)表示是由InterPro數(shù)據(jù)庫[86]生成,InterPro結合了Pfam[87]、SUPERFAMILY[88]、CATH-Gene3D[89]和CDD[90]等14個不同的數(shù)據(jù)庫,提供了蛋白家族、結構域和基序等多種類型的功能信息。②DeepGraphGO包含多個圖卷積神經(jīng)網(wǎng)絡(GCN)層。GNN已被開發(fā)用于各種任務,如節(jié)點嵌入、鏈接預測、節(jié)點分類和圖分類[91]。GCN是一種典型的GNN,它可以通過一個GCN層獲得每個節(jié)點的表示向量,該層聚合了相鄰節(jié)點的表示。而在DeepGraphGO中使用了多層GCN,有助于捕獲節(jié)點之間的高階信息,提升模型性能。③DeepGraphGO具有多物種策略。DeepGraphGO使用所有物種的蛋白質(zhì)只訓練一個單一的模型,這種被稱為多物種策略的方法與以往專注于單個物種的工作相比,它可以利用更多的數(shù)據(jù)來達到更好的性能,特別是對于那些缺少注釋數(shù)據(jù)的物種尤為重要。
本篇文章首先介紹了與蛋白質(zhì)功能預測有關的數(shù)據(jù)庫(PDB、BioLiP、UniProt、GO和GOA數(shù)據(jù)庫),然后介紹了常用的特征。之后根據(jù)配體類型分別介紹了最新的蛋白質(zhì)結合位點預測方法,并根據(jù)使用的信息介紹了基于序列、基于結構和基于網(wǎng)絡的蛋白質(zhì)GO功能預測方法。
總的來說,蛋白質(zhì)結合位點預測的方法可以分為基于序列和基于結構的方法?;谛蛄械姆椒ㄖ恍鑿男蛄兄袑θ我獾鞍走M行預測,但由于結合殘基的潛在模式并不能僅從它們的序列中顯式地體現(xiàn),而在空間結構[15]中是保守的,基于序列的方法相對于基于結構的方法性能上受到一定限制?;诮Y構的方法可分為基于模板的方法、基于機器學習的方法和混合方法?;谀0宓姆椒ㄊ窃擃I域早期的研究主流,然而對于不存在高質(zhì)量模板的輸入蛋白,基于模板的方法準確率通常較低,這使得后來的主流方法主要基于機器學習,或結合機器學習與模板搜索?;诮Y構的機器學習方法是從蛋白質(zhì)結構提取幾何特征,然后再將其輸送到神經(jīng)網(wǎng)絡,或者直接考慮蛋白質(zhì)結構的上下文拓撲結構,并使用端到端的方式進行訓練?;诮Y構的混合方法則同時集成了基于模板和基于機器學習的方法。相對于基于序列的方法,基于結構的方法更加準確,但這種方法受限于實驗測得的蛋白質(zhì)結構的數(shù)量,只適用于具有可用三級結構的蛋白質(zhì)。蛋白質(zhì)GO功能預測的方法按照使用信息的不同大致可以分為基于序列、基于結構和基于網(wǎng)絡的方法。大多數(shù)基于序列的方法利用序列相似性,搜索序列域,或者采用深度學習捕獲判別性特征來進行預測。目前基于序列的方法預測精度較低,相比于基于序列的方法,基于結構的方法使用天然的蛋白質(zhì)結構進行GO功能預測,具有更高的準確度。此外,基于網(wǎng)絡的方法利用生物網(wǎng)絡中連接的蛋白質(zhì)可能具有相同功能的原理[27]進行預測。
盡管當前蛋白質(zhì)功能預測的方法已經(jīng)達到了很好的效果,但是仍然存在一些可以改進的地方。首先,在對蛋白質(zhì)功能進行預測時,不同配體之間存在潛在聯(lián)系,如蛋白和多肽以及不同金屬離子之間,因此可以使用多任務學習提高預測質(zhì)量。然而最新的研究表明,元學習[66-67]也可以很好地應用在多任務問題中,并能夠快速適應標簽有限的未知任務,因此可以嘗試使用元學習進一步提升模型性能。其次,基于語言模型的預測結構已經(jīng)被證明對結合位點問題有用,如GraphSite[6]。而ESMfold[92]實驗證明具有和AlphaFold2[93]相近的準確率,因此可以使用ESMFold快速生成高質(zhì)量三維結構,并通過更好的幾何學習模型捕捉結構信息,如GVP[94]和Graph Transformer[95]等,以此來提高預測性能。同時,對于數(shù)據(jù)不均衡問題,可以使用先進的采樣技術加以解決。對比學習[96]是一種自監(jiān)督學習方法,用于在沒有數(shù)據(jù)標注的情況下,讓模型學習同類數(shù)據(jù)之間的相似和不同類數(shù)據(jù)之間的差異性,從而學習數(shù)據(jù)的一般特征,目前對比學習方法也被應用到了蛋白質(zhì)GO預測領域[97]。在使用PPI網(wǎng)絡預測GO時,可以將對比學習應用于PPI網(wǎng)絡,以最大化網(wǎng)絡鄰居之間的功能相似性,進一步提高預測性能。另外,知識圖譜技術[98]也可以引入到這一問題中,用以融合藥物和疾病信息??梢蕴剿鞯鞍踪|(zhì)結合位點預測和GO預測之間的關系,如使用不同配體的結合位點的預測信息作為GO預測的特征,進一步豐富特征表示,提高性能。同時,還可以進一步增加新的特征信息來提高預測性能,包括生物進化樹、宏基因組、基因表達信息等。通過對蛋白質(zhì)進行更加豐富的表達,深入探索蛋白質(zhì)功能的內(nèi)在聯(lián)系,更好地進行預測。