亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于片段組裝的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法綜述

        2021-09-20 10:25:54張貴軍趙凱龍
        數(shù)據(jù)采集與處理 2021年4期
        關(guān)鍵詞:結(jié)構(gòu)方法模型

        張貴軍,劉 俊,趙凱龍

        (浙江工業(yè)大學(xué)信息工程學(xué)院,杭州 310012)

        引 言

        蛋白質(zhì)是生命活動的主要承擔(dān)者,幾乎支撐著生命的所有功能,細胞內(nèi)發(fā)生的大部分反應(yīng)都依賴于蛋白質(zhì)。蛋白質(zhì)的功能取決于其獨特的三維結(jié)構(gòu),也就是常說的“結(jié)構(gòu)決定功能”。隨著2003年人類基因組計劃宣布完成[1],由DNA 或RNA 轉(zhuǎn)譯為蛋白質(zhì)氨基酸序列的第一遺傳密碼已被破解,然而蛋白質(zhì)序列折疊成特定的三維結(jié)構(gòu)才能夠執(zhí)行其特定的功能。蛋白質(zhì)序列如何折疊形成獨特的三維結(jié)構(gòu)仍然是未解之謎[2]?!禨cience》雜志在紀念創(chuàng)刊125 周年之際,把“能否預(yù)測蛋白質(zhì)折疊?”列為21 世紀125 個科學(xué)前沿問題之一[3]。因此,對蛋白質(zhì)折疊過程的深入研究,對于直接、準確地分析蛋白質(zhì)的生物學(xué)功能和解釋各種生命活動現(xiàn)象至關(guān)重要,將為相關(guān)疾病的診斷與治療、創(chuàng)新藥物研發(fā)奠定基礎(chǔ)。

        目前,主要通過X 射線衍射、核磁共振和冷凍電鏡等生物實驗手段來測定蛋白質(zhì)的三維結(jié)構(gòu),這些方法不僅費錢費力,而且周期長,導(dǎo)致已測定蛋白質(zhì)結(jié)構(gòu)的數(shù)量遠遠低于已測定蛋白質(zhì)的序列數(shù)量。2021年4 月最新統(tǒng)計數(shù)據(jù)顯示,UniProtKB/TrEMBL 數(shù)據(jù)庫中共存儲蛋白質(zhì)序列214 406 399 條(數(shù)據(jù)來源于http://www.ebi.ac.uk/uniprot/TrEMBLstats),其中177 426 條序列結(jié)構(gòu)被實驗測定(數(shù)據(jù)來源于http://www1.rcsb.org/stats/growth/growth?released?structures),僅占序列總數(shù)的0.083%,而且這一差距仍然在不斷增加。顯然,實驗測定方法無法滿足高效獲取蛋白質(zhì)結(jié)構(gòu)的需求。

        在理論研究和實際應(yīng)用雙重需求的推動下,依據(jù)Anfinsen 準則[4],通過計算機技術(shù)根據(jù)氨基酸序列預(yù)測三維結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)預(yù)測取得了蓬勃發(fā)展。CASP 競賽是由美國科學(xué)家Moult 發(fā)起的蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)關(guān)鍵評估活動,能夠客觀地反映蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域發(fā)展的最新技術(shù)水平,是蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的奧林匹克競賽[5]。CASP 競賽每兩年舉行一次,自1994年創(chuàng)辦至今已舉辦14 屆。CASP 根據(jù)目標蛋白預(yù)測難易程度分為基于模板(Template?based modeling,TBM)和無模板(Free modeling,F(xiàn)M)兩類建模方法[6]。一般來講,TBM 方法中目標蛋白可以從PDB(Protein data bank)結(jié)構(gòu)數(shù)據(jù)庫中檢測到同源模板,建模精度基本能夠達到實驗測定水平[5];然而,由于無法獲得同源模板,F(xiàn)M 類目標蛋白必須采用從頭預(yù)測方法,成為CASP 中最具挑戰(zhàn)、也是最受關(guān)注的一類研究問題。能量模型的復(fù)雜性和構(gòu)象空間采樣瓶頸是限制從頭預(yù)測方法發(fā)展的主要原因[7]。

        從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測不受限于模板信息,能夠正確預(yù)測具有未發(fā)現(xiàn)的整體拓撲結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu),一直受到生物信息學(xué)領(lǐng)域和進化計算社區(qū)的高度關(guān)注。片段組裝技術(shù)在從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域應(yīng)用廣泛,事實證明片段組裝方法是最有前景的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法之一[6,8]。本文結(jié)合國內(nèi)外研究現(xiàn)狀以及本課題組開展的一些研究工作,針對基于片段組裝的蛋白質(zhì)結(jié)構(gòu)從頭預(yù)測方法的研究進展進行分析和綜述。

        1 片段組裝

        由于蛋白質(zhì)構(gòu)象空間的高維特性,在巨大的構(gòu)象空間中進行采樣是不合適的。片段組裝技術(shù)利用已測定蛋白質(zhì)結(jié)構(gòu)的局部信息,將每一個殘基的二面角約束在一組離散值內(nèi),從而極大地縮小了構(gòu)象搜索空間[9?10]。在蛋白質(zhì)結(jié)構(gòu)預(yù)測中,片段組裝技術(shù)分為3 個步驟:首先,隨機在目標序列上選擇一個包含若干個(一般為3 個或9 個)連續(xù)殘基的插入窗口;然后,從該窗口對應(yīng)的片段庫中隨機選擇一個片段替換該窗口對應(yīng)的片段;最后,采用能量函數(shù)計算片段替換前后構(gòu)象的能量差值,并根據(jù)Metropolis 準則判斷是否保留片段組裝后的構(gòu)象[9]。圖1 為長度為L的蛋白質(zhì)進行3 殘基片段組裝的示意圖。片段組裝利用PDB 數(shù)據(jù)庫中已測定蛋白質(zhì)結(jié)構(gòu)的短且連續(xù)的片段信息,在基于知識力場構(gòu)建的能量函數(shù)的引導(dǎo)下,不斷組合向天然態(tài)折疊,既利用了已知蛋白質(zhì)的結(jié)構(gòu)信息,同時避免了同源建模方法高度依賴模板質(zhì)量的缺陷[11]。

        圖1 片段組裝示意圖Fig.1 Schematic diagram of fragment assembly

        2 國內(nèi)外研究現(xiàn)狀

        蛋白質(zhì)結(jié)構(gòu)預(yù)測一直受到計算生物學(xué)領(lǐng)域和計算智能社區(qū)的高度關(guān)注,是一個前沿研究課題[12]。1994年,Bowie 和Eisenberg 首次從PDB 中提取序列長度為9 的小片段來組裝形成一個新的三維結(jié)構(gòu)[13]。此后的二十多年間,片段組裝成為廣泛使用的從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。雖然自從2016年CASP12 深度學(xué)習(xí)在蛋白質(zhì)殘基接觸/距離預(yù)測取得重大突破后,基于距離約束的幾何優(yōu)化方法逐漸占據(jù)主導(dǎo)地位[14?15],但從CASP12 至CASP14(2016—2020年)的結(jié)果中可以發(fā)現(xiàn)片段組裝方法仍然是最具競爭力的從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測方法之一[8,16]。國內(nèi)外研究學(xué)者針對基于片段組裝的結(jié)構(gòu)預(yù)測做了大量深入研究[17?18],本文將從經(jīng)典的片段組裝結(jié)構(gòu)預(yù)測方法、基于進化算法的片段組裝方法和殘基接觸距離輔助的片段組裝方法這3 方面進行介紹。

        2.1 經(jīng)典片段組裝方法

        華盛頓大學(xué)Baker 實驗室開發(fā)的Rosetta[11,19]是較早采用片段組裝技術(shù)的從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。在Rosetta 中,已知結(jié)構(gòu)的短片段通過蒙特卡洛策略組裝,以產(chǎn)生類似天然的蛋白質(zhì)構(gòu)象。Rosetta通過能量力場來描繪蛋白質(zhì)折疊過程中不同狀態(tài)的構(gòu)象,根據(jù)熱力學(xué)假說,天然態(tài)的蛋白質(zhì)結(jié)構(gòu)對應(yīng)于自由能最低的構(gòu)象,通過最小化構(gòu)象能量獲取近天然態(tài)構(gòu)象。由于蛋白質(zhì)構(gòu)象空間極其復(fù)雜,為了提高采樣效率,通常采用Rosetta 低分辨率能量函數(shù)score3 來減小自由度,同時保留重要信息。能量函數(shù)score3 由10 個能量項組成,反映原子排斥、氨基酸傾向、殘基環(huán)境、殘基對相互作用、二級結(jié)構(gòu)元素之間的相互作用、密度和緊致性等,其定義為[11]

        Rosetta 片段組裝折疊模擬主要分為4 個階段,在每個階段采用不同的能量函數(shù),每個能量項的權(quán)重逐漸增加。在Rosetta 的前3 個階段使用殘基數(shù)目為9 的片段執(zhí)行片段組裝,實現(xiàn)大規(guī)模的構(gòu)象空間探索,在第4 階段使用殘基數(shù)目為3 的片段來更精細地調(diào)整構(gòu)象拓撲結(jié)構(gòu)。Rosetta 的每個階段執(zhí)行大量的片段插入,并根據(jù)片段插入情況動態(tài)調(diào)整溫度因子。當片段插入連續(xù)失敗150 次,通過提高溫度因子來降低構(gòu)象接受的條件,從而提高片段插入成功率;當片段插入成功后,將溫度因子恢復(fù)為初始值。為了生成可靠的蛋白質(zhì)模型,通常需要運行成千上萬次的片段組裝折疊模擬最終生成最低能量模型,這是一個極其耗時且消耗計算代價的過程。

        密西根大學(xué)張陽實驗室開發(fā)的QUARK[20?21]是另一個優(yōu)秀的基于片段組裝的從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。QUARK 使用的片段長度為1 至20 個殘基,采用基于知識的復(fù)合力場引導(dǎo)的副本交換蒙特卡洛來從片段組裝全長結(jié)構(gòu)模型。為了便于力場的發(fā)展和搜索引擎的設(shè)計,QUARK 采用半簡化模型,用主干原子和側(cè)鏈質(zhì)心來表示蛋白質(zhì)殘基。對于查詢序列,首先通過神經(jīng)網(wǎng)絡(luò)預(yù)測各種結(jié)構(gòu)特征。然后通過副本交換蒙特卡洛模擬,將無縫穿線生成的小片段組裝起來,從而生成全局折疊。QUARK 設(shè)計了包含11 個能量項的復(fù)合力場來引導(dǎo)構(gòu)象搜索,總能量的計算公式為[20]

        式中:Eprm、Eprs和Eev為原子級能量項,分別表示主鏈原子對勢能、側(cè)鏈中心成對勢能和排除體積;Ehb、Esa、Edh和Edp為殘基級能量項,分別表示氫鍵作用力、溶劑可及性、主鏈扭轉(zhuǎn)角勢能和基于片段的距離譜能量;Erg、Ebab、Ehp和Ebp為拓撲級的能量項,分別表示回轉(zhuǎn)半徑、β?α?β懲罰項、α?α能量項和β對能量項。

        QUARK 設(shè)計了11 個局部構(gòu)象運動來增強算法的采樣能力,這些局部運動分為殘基級、片段級、拓撲級3 個層次,在40 個平行副本中運行蒙特卡洛模擬。雖然在低溫下的模擬可以探測到較低能量的構(gòu)象,但很容易陷入到局部能量盆地中。副本交換的目的是利用高溫副本模擬幫助低溫副本跳出局部低能源盆地。因此,對于交換每一對相鄰的副本,保持高接受率是必要的。每個副本在每個周期內(nèi)單獨運行,其中將根據(jù)Metropolis 準則嘗試30L1/2(L是蛋白質(zhì)長度)次局部運動。在一個運行周期完成后,將嘗試在每兩個相鄰副本之間進行互換操作,交換它們的誘餌構(gòu)象?;Q操作也遵循Metropolis 準則。與Rosetta 單純的片段替換相比,QUARK 模擬包含了自由鏈結(jié)構(gòu)的復(fù)合運動和結(jié)構(gòu)之間的片段替換。這些技術(shù)極大地提高了構(gòu)象搜索的靈活性和效率。

        除Rosetta 和QUARK 之外,F(xiàn)RAGFOLD[22]、SCRARTCH[23]、PROFESY[24]等一系列方法都屬于早期典型的基于片段組裝的從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。

        2.2 基于進化算法的片段組裝方法

        進化算法[25?26]是一種基于自然選擇和遺傳變異等生物進化機制的全局性搜索算法,是研究蛋白質(zhì)構(gòu)象優(yōu)化的一類重要方法。進化算法通過交叉和變異算子以及選擇策略來模擬生物進化過程,提高算法的可靠性。進化算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域應(yīng)用廣泛,總體實現(xiàn)流程如下:①通過隨機片段組裝生成包含若干個構(gòu)象的初始種群;②對種群中的父代構(gòu)象進行交叉和變異操作,生成子代構(gòu)象;③計算子代構(gòu)象的能量,通過選擇策略判斷是否用子代構(gòu)象替換父代構(gòu)象;④迭代步驟②和③,直到滿足終止條件。由于蛋白質(zhì)的高維特性,能量景觀中存在著大量的局部能量陷阱,蒙特卡洛算法極易陷入局部能量陷阱,使算法早熟。在進化算法的框架下通過片段組裝來預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),無須重復(fù)運行大量獨立軌跡,能夠?qū)崿F(xiàn)種群中構(gòu)象的信息交互,從而提升算法的采樣效率和預(yù)測精度。

        Garza?Fabre 等在Rosetta 片段組裝協(xié)議的基礎(chǔ)上提出多階段模因算法RMA(Rosetta?based memetic algorithm)[27]。RMA 分為4 個階段,每個階段都是基于標準Rosetta 片段組裝的相應(yīng)階段設(shè)計的。第1 階段,利用Rosetta 第1 階段的隨機片段組裝進行種群初始化,得到一組多樣化的初始構(gòu)象。在第2、3 和4 階段,首先將Rosetta 相應(yīng)階段作為局部搜索更新種群中的構(gòu)象;然后將種群中的構(gòu)象進行兩兩配對作為父代構(gòu)象,利用預(yù)測的二級結(jié)構(gòu)信息設(shè)計了基于loop 區(qū)域殘基的重組和突變遺傳算子,通過對每對父代構(gòu)象執(zhí)行遺傳算子操作生成子代構(gòu)象;最后在生存選擇環(huán)節(jié),通過同時考慮構(gòu)象的能量和多樣性從父代和子代構(gòu)象中選擇較優(yōu)構(gòu)象構(gòu)建新的種群。日本理化學(xué)研究所的Zhang 研究小組提出了基于統(tǒng)計學(xué)原理的隨機優(yōu)化算法EDA(Estimation of distribution algorithm)的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法EdaFold[28],通過統(tǒng)計構(gòu)象搜索過程中的進化信息來指導(dǎo)當前構(gòu)象搜索,以生成優(yōu)秀的新構(gòu)象。基于全原子力場模型,在Eda?Fold 算法基礎(chǔ)上,該研究小組進一步提出了EdaFoldAA方法[29]和基于聚類變異更新策略的EdaFoldC方法[17]。Baker 團隊在Rosetta 基礎(chǔ)上開發(fā)了迭代的雜化協(xié)議,整個迭代過程由進化算法指導(dǎo),在每次迭代時將雜化作為變異或交叉操作,并控制構(gòu)象的多樣性以防止快速收斂[19],此外,根據(jù)預(yù)測的接觸圖與PDB中已知結(jié)構(gòu)的接觸圖對齊以進行折疊識別,并利用接觸圖比對工具map_align 來挑選不連續(xù)的片段,進一步整合宏基因組數(shù)據(jù),為614 個目前結(jié)構(gòu)未知的蛋白質(zhì)家族生成模型[30]。

        本課題組在基于進化算法的片段組裝方面進行了深入研究。由于蛋白質(zhì)的高維特性,需要搜索的構(gòu)象空間過于龐大,傳統(tǒng)的片段組裝方法通常分為多個階段來搜索構(gòu)象空間。針對不同蛋白質(zhì)的階段切換問題,本課題組提出了包含探索和增強兩階段的群體蛋白質(zhì)結(jié)構(gòu)預(yù)測算法PAIE[18],旨在通過基于熵的階段切換策略和基于扭轉(zhuǎn)角分布的選擇策略來克服當前多階段算法的局限性,確保適當搜索構(gòu)象空間并進一步增強算法的探索能力。此外,根據(jù)探索階段構(gòu)象的扭轉(zhuǎn)角分布設(shè)計了一種選擇策略,并將其應(yīng)用于增強階段。針對能量模型的不精確性,提出了一種基于距離譜引導(dǎo)的差分進化算法DP?DE[31]。在DPDE 中,設(shè)計了一種基于距離譜的選擇策略來指導(dǎo)構(gòu)象空間采樣,除能量外,將殘基-殘基距離作為一種輔助構(gòu)象評估指標,以補償能量函數(shù)的不準確性,并基于距離分布設(shè)計了一個距離接受概率,用于選擇構(gòu)象。當試驗構(gòu)象的能量低于目標構(gòu)象的能量時,試驗構(gòu)象直接被下一代接受。否則,首先計算從片段庫中提取的殘基-殘基距離與從構(gòu)象中所有殘基對的距離分布圖獲得的預(yù)測殘基-殘基距離之間的平均距離誤差。如果試驗構(gòu)象在平均距離誤差方面優(yōu)于目標構(gòu)象,則計算試驗構(gòu)象的距離接受概率,并根據(jù)距離接受概率接受試驗構(gòu)象。該策略保留了具有更高能量但更合理結(jié)構(gòu)的構(gòu)象。通過使用基于距離譜的選擇策略引導(dǎo)采樣,提高了算法逃逸局部能量陷阱的能力和搜索效率。在距離譜研究的基礎(chǔ)上,進一步提出了一種基于距離特征的兩階段蛋白質(zhì)結(jié)構(gòu)預(yù)測優(yōu)化算法TDFO[32]。通過二分K?means 算法提取距離譜中的特征信息用于構(gòu)建構(gòu)象相似性評估指標,并設(shè)計了基于構(gòu)象相似度的選擇策略引導(dǎo)構(gòu)象采樣,在一定程度上降低了不精確的能量模型的影響,同時提高了采樣過程中構(gòu)象的多樣性;此外,根據(jù)算法的不同階段提出了兩種變異算子,并設(shè)計了一種狀態(tài)估計模型以實現(xiàn)不同搜索階段的平衡。

        2.3 殘基間接觸距離輔助的片段組裝方法

        自CASP12 以來,基于深度學(xué)習(xí)的蛋白殘基間接觸(contact)預(yù)測和距離(distance)預(yù)測取得了重大進展,使得結(jié)構(gòu)預(yù)測精度顯著提升[5,14]。蛋白質(zhì)的多序列比對蘊含著序列的進化信息,根據(jù)殘基對的共變特性可以推斷出它們在空間中的位置關(guān)系(是否接觸或距離),研究表明遠程contact 對結(jié)構(gòu)預(yù)測非常有幫助,而殘基間距離分布為蛋白質(zhì)折疊提供了更加豐富和細粒度的約束信息。殘基接觸和距離預(yù)測的成功也進一步推動了基于片段組裝蛋白質(zhì)結(jié)構(gòu)預(yù)測的發(fā)展。

        早在2014年,Jones 團隊就發(fā)現(xiàn)了將基于片段組裝的折疊算法FRAGFOLD 與殘基間接觸預(yù)測方法PSICOV 相結(jié)合的潛在好處[33]。將PSICOV 預(yù)測的殘基間接觸作為能量項添加到FRAGFOLD 現(xiàn)有的能量函數(shù)中,并通過模擬退火將超二級結(jié)構(gòu)片段和長度固定的短片段組裝成三維結(jié)構(gòu)。結(jié)果證明,使用殘基間接觸的FRAGFOLD 的預(yù)測精度得到了顯著提升。在2016年的CASP12 中,張陽課題組將基于序列預(yù)測的殘基間接觸約束信息加入I?TASSER 和QUARK 中,使得QUARK 在FM 目標的前5 個預(yù)測模型中最好模型的平均精度提高了37%[8];在CASP13 中,張陽團隊發(fā)布了C?I?TASSER 和C?QUARK,將殘基間接觸信息進一步優(yōu)化為一個新的接觸勢能項,與包括基于穿線的距離約束和基于固有知識(物理勢能)在內(nèi)的其他能量項相平衡,以指導(dǎo)結(jié)構(gòu)組裝模擬折疊目標蛋白[16];2020年11 月召開的CASP14 會議摘要顯示,基于深度學(xué)習(xí)預(yù)測的殘基間距離和扭轉(zhuǎn)角也被整合到I?TASSER 和QUARK 之中,以進一步提升結(jié)構(gòu)預(yù)測精度。

        本課題組在片段組裝的基礎(chǔ)上,結(jié)合殘基間接觸距離信息,提出了一些有效的采樣策略和優(yōu)化方法來提升蛋白質(zhì)結(jié)構(gòu)預(yù)測的精度和效率。利用殘基間接觸和二級結(jié)構(gòu)信息,設(shè)計了基于二級結(jié)構(gòu)和殘基-殘基接觸的選擇策略來引導(dǎo)構(gòu)象采樣,分別用于提高算法在構(gòu)象空間中探索近天然二級結(jié)構(gòu)區(qū)域和合理結(jié)構(gòu)的能力;此外,還設(shè)計了一個概率函數(shù)來平衡這兩種選擇策略;實驗結(jié)果表明,該方案可以提高近天然態(tài)結(jié)構(gòu)的采樣能力[34]。在前期距離譜輔助片段組裝研究的基礎(chǔ)上,引入了殘基間接觸約束,提出了一種殘基接觸和距離譜耦合的結(jié)構(gòu)預(yù)測方法CoDiFold[35]。設(shè)計了兩個基于殘基接觸和距離譜的能量項,并將其融合到Rosetta 低分辨率能量函數(shù)score3 中;由兩個殘基接觸聯(lián)合的接觸能量項用來約束構(gòu)象,在基于接觸的距離譜能量項中,利用接觸信息來減弱或增強距離譜的約束;兩個能量項的設(shè)計是為了緩解低分辨率能量函數(shù)的不準確性,提高模型能量與預(yù)測精度的相關(guān)性;針對搜索過程中容易陷入局部極小值的問題,設(shè)計了3 種不同的變異策略,以提高開發(fā)和勘探的性質(zhì)。針對結(jié)構(gòu)靈活的蛋白質(zhì)結(jié)構(gòu)loop 區(qū)域,提出了一種基于全局探索和loop 擾動的殘基接觸輔助的從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測方法CGLFold[10]。使用過濾后的殘基間接觸信息構(gòu)建選擇模型指導(dǎo)構(gòu)象采樣。在全局探索階段,利用片段重組和片段組裝大規(guī)模構(gòu)象空間并生成近似天然態(tài)的拓撲結(jié)構(gòu);在loop 擾動階段,設(shè)計了loop 區(qū)域特定的局部擾動模型,并通過差分進化算求解擾動量,進一步提高構(gòu)象的精度。實驗結(jié)果表明,loop 擾動可以對拓撲進行微小的調(diào)整,這種微小的調(diào)整不斷累積最終產(chǎn)生可觀的增益,進而顯著提高預(yù)測模型的精度。由于能量力場的不完善,計算蛋白質(zhì)折疊模擬中的數(shù)學(xué)最優(yōu)解并不總是對應(yīng)于最優(yōu)結(jié)構(gòu),傳統(tǒng)的構(gòu)象采樣算法難以跨越高能障礙物,容易陷入局部盆地。針對該問題,在最新的研究中課題組提出了兩種多模態(tài)蛋白質(zhì)結(jié)構(gòu)預(yù)測方法[36?37]。實驗結(jié)果顯示,通過多模態(tài)優(yōu)化算法可以有效避免采樣浪費或者采樣不充足,并且能夠采樣到更多具有多樣性的近天然態(tài)構(gòu)象,從而顯著提升結(jié)構(gòu)預(yù)測的效率和精度。

        隨著殘基接觸和距離預(yù)測精度的不斷提升,基于幾何優(yōu)化的蛋白質(zhì)結(jié)構(gòu)建模方法得到了廣泛應(yīng)用。這類方法沒有采用片段組裝等精巧的折疊方法,而是利用預(yù)測的contact 或distance 構(gòu)建幾何約束,通過CNS 或梯度下降能量極小化協(xié)議生成結(jié)構(gòu)模型。CONFOLD[38]、RaptorX[39]和DMPfold[40]等方法將contact 或distance 以及其他約束送入CNS 中來生成模型;AlphaFold[41]和trRosetta[42]等方法將預(yù)測的distance 分布轉(zhuǎn)化成蛋白質(zhì)特定的統(tǒng)計勢能函數(shù),并與經(jīng)典的能量函數(shù)相結(jié)合,通過梯度下降能量極小化協(xié)議生成模型。

        3 蛋白質(zhì)結(jié)構(gòu)預(yù)測實驗評測

        3.1 相關(guān)的蛋白質(zhì)數(shù)據(jù)庫

        PDB[43]蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫由美國Brookhaven 國家實驗室于1971年創(chuàng)建,由結(jié)構(gòu)生物信息學(xué)研究合作組織維護,是最全的結(jié)構(gòu)數(shù)據(jù)庫,收錄了通過實驗方法測定的蛋白質(zhì)結(jié)構(gòu)。PDB 數(shù)據(jù)庫中收集了蛋白質(zhì)、多糖、核酸和病毒等生物大分子的三維結(jié)構(gòu)數(shù)據(jù),這些數(shù)據(jù)可通過X 射線單晶衍射、核磁共振和電子衍射等實驗方法測定。通過互聯(lián)網(wǎng)信息門戶和可下載的數(shù)據(jù)檔案可以訪問大型生物分子(蛋白質(zhì)、DNA 和RNA)的三維結(jié)構(gòu)數(shù)據(jù)。

        UniProt[44]數(shù)據(jù)庫是收錄信息最全面的蛋白質(zhì)序列數(shù)據(jù)庫,主要包括UniParc 序列歸檔庫、Uni?ProtKB 蛋白質(zhì)知識庫和UniRef 序列參考庫。UniProtKB 知識庫包含了蛋白質(zhì)的序列數(shù)據(jù)和大量注釋信息,分為由人工審閱和注釋的Swiss?Prot 數(shù)據(jù)庫和計算分析的TrEMBL 數(shù)據(jù)庫;UniRef 數(shù)據(jù)庫按照序列相似度將UniProtKB 和UniParc 中的序列分為UniRef100、UniRef90 和UniRef50 三個數(shù)據(jù)集,可顯著減小數(shù)據(jù)庫大小,從而加快序列搜索的速度。

        3.2 評價指標

        均方根偏差(Root mean square deviation,RMSD)和TM?score[45]是兩種常用的計算目標結(jié)構(gòu)與參考結(jié)構(gòu)相似度的評價指標。RMSD 表示兩個蛋白質(zhì)結(jié)構(gòu)經(jīng)過結(jié)構(gòu)的剛體旋轉(zhuǎn)平移后計算原子間的平均距離,以? 為單位,1 ?=10-10m,RMSD 值越小,表明兩個結(jié)構(gòu)越相似。通常主要考慮主鏈上Cα 原子間的RMSD。假設(shè)對于某個目標蛋白,考慮預(yù)測蛋白質(zhì)模型P與實驗測定結(jié)構(gòu)P′的n個原子,RMSD計算公式為

        式中:(Pix,Piy,Piz)和分別表示模型P和結(jié)構(gòu)P′第i個原子的三維坐標。

        TM?score 也是通過剛體旋轉(zhuǎn)平移比對結(jié)構(gòu)的相似度。不同于RMSD 的是,結(jié)構(gòu)的局部差異對TM?score 的影響較小。TM?score 的大小不受蛋白質(zhì)序列長度的影響,取值在(0,1]之間,其計算公式為[45]

        式中:Ltarget為目標蛋白的序列長度;Laligned為兩個結(jié)構(gòu)對齊區(qū)域的長度;d0為距離歸一化參數(shù),;di為第i個殘基對間的距離。兩個結(jié)構(gòu)越相似,它們之間的TM?score 越大;當TM?score≥0.5 時,表明兩個結(jié)構(gòu)的拓撲形狀大致相同[46]。

        3.3 幾種常見基于片段組裝的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法的性能分析與比較

        為了真實反映近幾年基于片段組裝的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法的性能,本節(jié)根據(jù)最新的基于片段組裝的結(jié)構(gòu)預(yù)測相關(guān)論文進行了方法描述,并對論文中的實驗結(jié)果進行性能分析與比較。

        CGLFold[10]是一種基于全局探索和loop 擾動的殘基接觸輔助的從頭蛋白質(zhì)結(jié)構(gòu)預(yù)測方法。在全局探索階段,利用片段重組和片段組裝大規(guī)模構(gòu)象空間并生成近似天然態(tài)的拓撲結(jié)構(gòu);在loop 擾動階段,設(shè)計了loop 區(qū)域特定的局部擾動模型,并通過差分進化算求解擾動量,進一步提高構(gòu)象的精度。如圖2 所示,loop 擾動可以對拓撲進行微小的調(diào)整,這種微小的調(diào)整不斷累積最終產(chǎn)生可觀的增益,進而顯著提高預(yù)測模型的精度。

        MMpred[36]是一種distance 輔助的多模態(tài)優(yōu)化采樣方法。如圖3 所示,在蛋白質(zhì)結(jié)構(gòu)預(yù)測過程中,能量模型的不準確性導(dǎo)致數(shù)學(xué)上的最優(yōu)解不一定對應(yīng)于天然態(tài)結(jié)構(gòu),而次優(yōu)解或局部極小值解可能與之對應(yīng)。MMpred 包括模態(tài)探測、模態(tài)維持和模態(tài)增強3 個階段。在模態(tài)探測階段,通過結(jié)構(gòu)相似性快速評估模型來控制種群的多樣性,在不同的低能量盆地中生成具有多樣性的構(gòu)象;在模態(tài)維持階段,通過自適應(yīng)聚類算法對種群進行劃分,并調(diào)節(jié)蒙特卡羅模擬退火溫度來實現(xiàn)模態(tài)的融合;在模態(tài)增強階段,使用貪婪搜索策略加快模態(tài)收斂速度,并利用預(yù)測的殘基間距離信息設(shè)計構(gòu)象評分模型指導(dǎo)構(gòu)象選擇。

        圖3 蛋白質(zhì)折疊的能量景觀示意圖Fig.3 Schematic diagram of protein-folding energy landscape

        表1給出了CGLFold、QUARK、BAKKER ? ROSETTASERVER、MULTICOM_CLUSTER 和RaptorX?Contact 在14 個CASP13 的FM 目標上的預(yù)測精度[10]。QUARK、BAKKER?ROSETTASER?VER、MULTICOM_CLUSTER 和RaptorX ? Contact 是CASP13 中4 種先進的服務(wù)器方法,其中QUARK 在FM 目標蛋白的搜索服務(wù)器組中排名第一。QUARK 和CGLFold 均是基于片段組裝開發(fā)的算法,可以發(fā)現(xiàn)QUARK 和CGLFold 在這14 個FM 蛋白上取得了更高的平均預(yù)測精度。

        表1 CGLFold、C?QURK、MULTICOM_CLUSTER、BAKER?ROSETTASERVER 和RaptorX?Contact在14 個CASP13 的FM 目標上的預(yù)測結(jié)果比較[10]Table 1 Prediction results comparison of CGLFold,C?QUARK,MULTICOM _CLUSTER,BAK?ER?ROSETTASERVER,and RaptorX?Con?tact on the 14 FM targets of CASP13[10]

        表2 給出了MMpred 和Rosetta?d(distance 約束的Rosetta 片段組裝方法)在320 個非冗余基準測試蛋白上的平均預(yù)測結(jié)果[36]。MMpred 與Rosetta?d 使用了相同的片段庫、distance 約束和能量函數(shù)??梢园l(fā)現(xiàn)在相同條件下,MMpred 取得了更高的預(yù)測精度。

        表2 MMpred 和Rosetta?d(距離約束的Rosetta)在320 個基準測試蛋白上的平均預(yù)測結(jié)果[36]Table 2 Average prediction results of MMpred and Rosetta?d(Rosetta with distance con?straints)on 320 benchmark proteins[36]

        4 結(jié)束語

        蛋白質(zhì)三維結(jié)構(gòu)的測定對疾病研究、診斷醫(yī)療和藥物設(shè)計等有著重要的作用。然而,利用生物實驗方法測定蛋白質(zhì)結(jié)構(gòu)耗時費力,代價極高。以計算機技術(shù)為手段實現(xiàn)蛋白質(zhì)結(jié)構(gòu)從頭預(yù)測得到廣泛關(guān)注。片段組裝作為一種有效的插件式蛋白質(zhì)構(gòu)象空間優(yōu)化技術(shù),在蒙特卡洛構(gòu)象優(yōu)化算法中得到了廣泛的應(yīng)用。然而隨著基于深度學(xué)習(xí)的殘基間距離預(yù)測精度的不斷提升,越來越多的方法直接采用幾何優(yōu)化方法來快速生成三維結(jié)構(gòu)。為了進一步提升基于片段組裝的蛋白質(zhì)結(jié)構(gòu)預(yù)測的性能,以下幾個方面的研究方向是潛在的突破口。

        (1)從已有研究成果來看,對于基于片段組裝的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法而言,構(gòu)象空間采樣仍然是一個瓶頸問題,尤其是隨著蛋白質(zhì)長度的增加構(gòu)象空間呈幾何倍數(shù)擴大。因此,設(shè)計高效的采樣策略是提高算法效率和預(yù)測精度的關(guān)鍵之一。此外,片段組裝將連續(xù)的二面角優(yōu)化問題轉(zhuǎn)換成了離散的實驗局部結(jié)構(gòu)的組合優(yōu)化問題,雖然有效縮小了構(gòu)象搜索,但也導(dǎo)致極有可能無法搜索最優(yōu)解,并且隨著蛋白質(zhì)長度的增加這種影響會不斷累計擴大。因此,如果能設(shè)計一個連續(xù)的二面角優(yōu)化策略與離散的片段組裝形成互補,將有望彌補片段組裝這一固有缺陷。

        (2)蛋白質(zhì)能量模型不僅崎嶇復(fù)雜,其構(gòu)象搜索空間也十分龐大,這使得現(xiàn)有方法極易收斂到局部極值解。另外,即使搜索到全局最優(yōu)解,能量模型的不準確性使得最優(yōu)解不一定是最穩(wěn)定的天然結(jié)構(gòu)。進化計算社區(qū)的多模態(tài)優(yōu)化方法,不僅能夠發(fā)現(xiàn)全局最優(yōu)解,而且可以獲得更多樣化的次優(yōu)解,從而緩解能量模型的不準確性,提高搜索算法本身的穩(wěn)定性(比如,全局最優(yōu)解不一定對應(yīng)于天然結(jié)構(gòu),某一個次優(yōu)解可能更接近穩(wěn)定的天然結(jié)構(gòu))。因此,基于群體的多模態(tài)優(yōu)化方法是提高預(yù)測精度的重要保障。

        (3)深度學(xué)習(xí)技術(shù)在蛋白質(zhì)殘基間距離預(yù)測中的成功應(yīng)用使得蛋白質(zhì)結(jié)構(gòu)預(yù)測的精度取得了突破性進展,基于幾何約束的能量極小化方法逐漸成為主流。然而,片段組裝仍然具有其獨特優(yōu)勢,既利用了已知蛋白質(zhì)結(jié)構(gòu)信息,又避免了同源建模方法高度依賴模板質(zhì)量的缺陷,這使得片段組裝方法能夠正確預(yù)測具有未發(fā)現(xiàn)的整體拓撲結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)。如果能夠針對精細的殘基間距離信息設(shè)計具有針對性的搜索算法,或是將能量極小化協(xié)議引入到構(gòu)象采樣過程中形成互補,可能會推動基于片段組裝和基于幾何約束能量極小化方法的進一步發(fā)展。

        猜你喜歡
        結(jié)構(gòu)方法模型
        一半模型
        《形而上學(xué)》△卷的結(jié)構(gòu)和位置
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        論結(jié)構(gòu)
        中華詩詞(2019年7期)2019-11-25 01:43:04
        可能是方法不對
        論《日出》的結(jié)構(gòu)
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        精品国产网红福利在线观看| 少妇饥渴偷公乱a级无码| 亚洲精品第四页中文字幕| 一区二区三区四区草逼福利视频| 国产91清纯白嫩初高中在线观看| 久久精品国产99国产精品澳门| 免费不卡在线观看av| 亚洲国产成人精品无码区二本| 天堂а√在线中文在线新版 | 亚洲av色先锋资源电影网站| 久草视频福利| 91精品国产91| 日韩人妻系列在线视频| 男生自撸视频在线观看| 精品国产精品三级在线专区| 99国产精品99久久久久久| 国产人妻精品无码av在线| 人与禽交av在线播放| 波多野结衣亚洲一区二区三区| 亚洲欧美日韩中文字幕网址| 久久久诱惑一区二区三区 | 色综合悠悠88久久久亚洲| 一区二区和激情视频| 3d动漫精品一区二区三区| av深夜福利在线| 一本色道加勒比精品一区二区| 变态另类人妖一区二区三区| 亚洲精品第一国产综合精品 | 国产精品一区二区AV不卡| 亚洲国产一区中文字幕| 嫩呦国产一区二区三区av| 在线观看精品视频网站| 久久亚洲精品无码va大香大香| 亚洲欧洲精品成人久久曰不卡| 国产精品美女久久久久浪潮AVⅤ | 亚洲av日韩av高潮潮喷无码| 国产精品日韩欧美一区二区区| av无码特黄一级| 亚洲中文字幕一二区精品自拍| 91伦理片视频国产精品久久久| 特级av毛片免费观看|