畢瀟文 李娟 方慧生
摘要:CASP(critical assessment of structure prediction)是代表蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的世界前沿水平的評(píng)比活動(dòng)。模板依賴型蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法(Template-based modeling,TBM)可以進(jìn)行蛋白質(zhì)結(jié)構(gòu)與功能關(guān)系分析及蛋白質(zhì)分子設(shè)計(jì)。本文詳細(xì)綜述了CASP10中靶蛋白收集、預(yù)測(cè)模型收集和方法評(píng)估以及利用分析討論得出的CASP10中最佳5種模板依賴型蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法,可對(duì)研究蛋白質(zhì)組尤其是對(duì)那些通過實(shí)驗(yàn)難以測(cè)定結(jié)構(gòu)的蛋白質(zhì)分析則具有理論意義與實(shí)用價(jià)值。
關(guān)鍵詞:CASP10;蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型質(zhì)量評(píng)估;模板依賴型蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法
Abstract:CASP is the assessment activities representative of the world advanced level of protein structure prediction . TBM can analyze the relationship between structure and function of proteins and protein molecular design. This paper reviews target protein collection, prediction model collection , evaluation measures and the top5 template-based protein structure prediction methods through the analysis and discussion in CASP10. For proteome studying,especially for those who is difficult to determine the protein structure through experiment analysis has theoretical significance and practical value.
Key words:CASP10; Evaluation measures ;Template-based modeling
迄今為止,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)已經(jīng)有近40年的歷史,期間,人們提出了一系列預(yù)測(cè)方法,取得了豐碩成果。自1994 年起每?jī)赡暝诿绹永D醽喼菖e辦一次蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)評(píng)比活動(dòng)-CASP。它代表著蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的世界前沿水平,深入客觀的分析了當(dāng)前的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)水平, 認(rèn)識(shí)到當(dāng)前的方法能力與局限以及將來的發(fā)展方向。CASP 主要包括三部分:①靶蛋白質(zhì)序列的收集;②蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型的收集;③蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型及預(yù)測(cè)方法的評(píng)估, 組織會(huì)議公布和討論結(jié)果。
1 CASP10簡(jiǎn)介
1.1靶蛋白質(zhì)序列的收集 在2012年舉辦的CASP10中,來自23個(gè)國家的217個(gè)預(yù)測(cè)小組以114個(gè)靶蛋白提交了超過66000個(gè)預(yù)測(cè)結(jié)果。所選擇的靶蛋白被分為全型靶蛋白和僅服務(wù)器靶蛋白。全型靶蛋白是從具有挑戰(zhàn)性的靶蛋白中選出來的典型例子,難度評(píng)估指標(biāo)是基于啟發(fā)式搜索和PSI-BLAST模板搜索得出的[1]。并且,在CASP10中,考慮到模板的共識(shí)增加了目標(biāo)類別定義的特殊性,基于得分和LOMETS線串比對(duì)的共同判斷將靶蛋白分為四組:平常組、簡(jiǎn)單組、困難組和極其困難組。
1.2蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型的收集 靶蛋白預(yù)測(cè)結(jié)果公布的時(shí)間內(nèi),各個(gè)靶蛋白通過自動(dòng)分配系統(tǒng)自動(dòng)轉(zhuǎn)發(fā)給參賽服務(wù)器,追蹤收集服務(wù)器的狀況。經(jīng)過初步評(píng)估服務(wù)器預(yù)測(cè)結(jié)果之后,預(yù)測(cè)小組提交較好的模型(GDT_TS[2,3]> 60)。在近三次的CASP比賽中,每次都有超多100個(gè)服務(wù)器小組參賽,服務(wù)器預(yù)測(cè)組數(shù)量超過了專家預(yù)測(cè)組,這反映了在結(jié)構(gòu)預(yù)測(cè)方面自動(dòng)化程度的提高。為了適應(yīng)預(yù)測(cè)結(jié)果的龐大數(shù)據(jù),修改了預(yù)測(cè)結(jié)果處理,存儲(chǔ),評(píng)估和可視化的原則。在CASP10中,接受五種不同格式的預(yù)測(cè)結(jié)果:三級(jí)結(jié)構(gòu)TS,殘基-殘基接觸RR,無序區(qū)域DR,模型質(zhì)量評(píng)估QA,結(jié)合位點(diǎn)的預(yù)測(cè)FN。
1.3蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型及方法的評(píng)估 CASP10最大的變化是質(zhì)量評(píng)估的分類,除了QA之外,稍微改變了RR和DR分類的規(guī)則,對(duì)每一個(gè)靶蛋白限制預(yù)測(cè)結(jié)果數(shù)目。在DR分類中,也開始要求殘基的預(yù)測(cè)結(jié)果以無序態(tài)。CASP10最明顯的改進(jìn)是類別的精化。首次出現(xiàn)一個(gè)預(yù)測(cè)小組能成功的提高所有靶蛋白預(yù)測(cè)的準(zhǔn)確度。令人鼓舞的是,這個(gè)結(jié)果由分子動(dòng)力學(xué)方法得出的,顯示出更多的物理學(xué)衍生的方法可為模建做出貢獻(xiàn)。輔助接觸型模建新的分類結(jié)果證實(shí)這些方法可以與適量的額外信息產(chǎn)生更緊缺型的模型[3]。所有提交的模型以預(yù)測(cè)中心與獨(dú)立評(píng)估小組磋商得出的相應(yīng)實(shí)驗(yàn)參考結(jié)構(gòu)為標(biāo)準(zhǔn)進(jìn)行評(píng)估。為了進(jìn)行評(píng)估,靶蛋白的結(jié)構(gòu)序列,殘基編號(hào),鏈ID需要與公布序列一致[4]。
RMSD[5]是CASP評(píng)估中第一個(gè)評(píng)估標(biāo)準(zhǔn),并仍然使用。它很適合評(píng)估結(jié)構(gòu)非常相似的兩個(gè)蛋白之間的差異,但當(dāng)模建的模型結(jié)果非常偏離實(shí)驗(yàn)結(jié)果的時(shí)候,就不是評(píng)估的最佳標(biāo)準(zhǔn);GDT-TS[5,6]的開發(fā)是為了解決RMSD存在的不足之處,并在CASP中成為一個(gè)標(biāo)準(zhǔn)的評(píng)價(jià)標(biāo)準(zhǔn)。通過擴(kuò)大閾值后的平均值,更能突出正確結(jié)構(gòu)的得分;GDT-HA[5,6]是GDT-TS改進(jìn)版,縮小了閾值,更適合高同源性靶蛋白骨架精度評(píng)估;GDT-SC[6]用臨近每一條側(cè)鏈末端特征原子來比較殘基位置,從而著重在側(cè)鏈位置上來突出模型之間差異;GDT-like[5,6]評(píng)估模板和模型靶蛋白殘基和相應(yīng)的靶蛋白預(yù)測(cè)殘基全局相似性。這些得分,有序列依賴性性質(zhì),不能將模型與從與靶蛋白有高結(jié)構(gòu)相似性的不正確構(gòu)象區(qū)分開來,想要完全得出這些差異,用比對(duì)準(zhǔn)確度得分AL0(AL4),可以顯示出比對(duì)正確對(duì)齊殘基所占比例。
CAD[7]是比較基于兩個(gè)結(jié)構(gòu)殘基-殘基接觸域不同的一種新的評(píng)估標(biāo)準(zhǔn),得分可幫助找到物理學(xué)上更加合理的模型;LDDT[8]是另一種最新推出的無疊合評(píng)估標(biāo)準(zhǔn),是基于模型全原子距離圖譜和靶蛋白結(jié)構(gòu)的比較。相似于CAD得分,非常適合在結(jié)構(gòu)域動(dòng)態(tài)存在的本地模型質(zhì)量評(píng)估,仍然保留良好的相關(guān)性;SG[4]得分反映基于相應(yīng)子結(jié)構(gòu)局部相似性的模板-靶蛋白相似性,得出的是模型結(jié)構(gòu)與靶蛋白球體一致的百分比;RPF[9]最初開發(fā)是用來評(píng)估NMR結(jié)構(gòu)準(zhǔn)確度的,類似于IDDT,它是一種基于比較模板和靶蛋白距離矩陣的無疊合標(biāo)準(zhǔn)。已經(jīng)觀察到RPF值和GDT-TS/RMSD值有一個(gè)很強(qiáng)的相關(guān)性。
Molprobity[10]得分可幫助評(píng)估者區(qū)分正確和扭曲立體化學(xué)特征的模型。整體得分包括四個(gè)部分來評(píng)估結(jié)構(gòu)定義的準(zhǔn)確性:沖突得分,旋轉(zhuǎn)異構(gòu)體異常得分,拉式構(gòu)像圖偏離得分,拉式構(gòu)象圖符合得分。
2 CASP10中最佳模板依賴型蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法
目前,常用的蛋白結(jié)構(gòu)預(yù)測(cè)方法分為三類:①針對(duì)高相似序列的同源模建;②針對(duì)較低序列相似性的折疊識(shí)別;③不依賴于模板而利用物理學(xué)原理直接進(jìn)行從頭計(jì)算。但實(shí)際上由于現(xiàn)在大多數(shù)從頭預(yù)測(cè)技術(shù)依賴結(jié)構(gòu)數(shù)據(jù)庫和統(tǒng)計(jì)學(xué)原理及其他技術(shù),為了研究需要,自CASP7開始,前兩者合并為模板依賴型蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法。CASP10選擇114個(gè)蛋白,因?yàn)楦鞣N原因,最后只包括96個(gè)序列,112個(gè)評(píng)估單元,其中有111個(gè)評(píng)估單元是基于模板模建的。
2.1自動(dòng)化的結(jié)構(gòu)評(píng)估打分 CASP允許每個(gè)提交者提供5個(gè)蛋白結(jié)構(gòu),每一個(gè)預(yù)測(cè)小組,只有命名為“模型1”的模型用于排名。自動(dòng)化結(jié)構(gòu)評(píng)估分為如下四步:①對(duì)提交的模型計(jì)算GDT-HA,GDC-all,LDDT-15,RPF-9;接著,計(jì)算這些打分的平均值和標(biāo)準(zhǔn)偏差,用于計(jì)算Z-得分;基于Z-得分,對(duì)預(yù)測(cè)小組進(jìn)行排名,用來消除差模型造成的罰分。②Z-得分小于-2.0的直接排除;對(duì)每一評(píng)估單元計(jì)算,加入U(xiǎn)B即最高得分后,重新計(jì)算GDT-HA,GDC-all,LDDT-15,RPF-9的平均值和標(biāo)準(zhǔn)偏差;同時(shí)當(dāng)Z值小于-2時(shí),設(shè)置Z值等于-2。③計(jì)算每一個(gè)度量的Z-得分,并進(jìn)行求和。④計(jì)算了每個(gè)AU的得分,通過評(píng)估單元的數(shù)目分配綜合得分。而Z-得分只能用于確定前25組,不能用來確定排名,還需配對(duì)T檢驗(yàn)進(jìn)行重新排名,同時(shí)還對(duì)模型選擇對(duì)結(jié)果的影響做了分析。經(jīng)過分析,CASP10評(píng)估認(rèn)證Zhang-Server,QUARK,PMS, LEEcon,Zhang作為基于模板模建最佳預(yù)測(cè)小組[11]。
2.2最佳模板依賴型蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法方法簡(jiǎn)介 QUARK[12]最開始是開發(fā)作為無需用到全局模板結(jié)構(gòu)的蛋白質(zhì)從頭結(jié)構(gòu)預(yù)測(cè)的,開始于從非冗余PDB結(jié)構(gòu)庫用無縫線串法得到的連續(xù)的分散片段集合。最后,這些片段被運(yùn)用復(fù)制-交換蒙特卡洛模擬由距離輪廓和基于物理學(xué)和經(jīng)驗(yàn)誘發(fā)復(fù)合指導(dǎo)下組裝成全長(zhǎng)模型。在新的開發(fā)中,從LOMETS線串比對(duì)提取的空間限制被用于協(xié)助QUARK結(jié)構(gòu)重組模擬。
Zhang和Zhang-Server[13]方法是由I-TASSER與QUARK結(jié)合相互作用開發(fā)的。本質(zhì)上是相同的,不同的是Zhang是采用的CASP10服務(wù)器上的模板,而后者采用的是內(nèi)部線串方法得到的模板。整體結(jié)構(gòu)預(yù)測(cè)包括以下三個(gè)基本步驟:①模型識(shí)別, 目標(biāo)序列來自非冗余PDB結(jié)構(gòu)庫,用LOMETS來確定合適的模板比對(duì);②基于模板和從頭結(jié)構(gòu)組裝;③模型的選擇與改進(jìn)。運(yùn)用7-MQAP方案來選擇模型,包括I-TASSER 的C-得分,TM-得分,五個(gè)統(tǒng)計(jì)指標(biāo)(RW,RWplus, Dfire,Dope和verify3D)。最后,7個(gè)MQAP得分總和作為MQAP一致性得分,低一致性得分的模型最終被選擇出來用于提交。
PMS[14]是基于能量函數(shù)和蛋白質(zhì)3D模型質(zhì)量評(píng)估的全局優(yōu)化方法,在側(cè)鏈原子細(xì)節(jié)模建以及主鏈結(jié)構(gòu)模建的準(zhǔn)確性來說相當(dāng)成功。PMS對(duì)于蛋白質(zhì)的3D模型的模建,開發(fā)了一種新的洛倫茲型能量項(xiàng)取代在MODELLER中使用的高斯型或樣條函數(shù)用于結(jié)構(gòu)約束限制。利用構(gòu)象空間退火來優(yōu)化能量函數(shù)。對(duì)于模板選擇和比對(duì),利用隨機(jī)森林算法開發(fā)了一種新的質(zhì)量評(píng)估方法。在折疊識(shí)別步驟中,質(zhì)量評(píng)估方法被用于重新排序由FOLDFINDER產(chǎn)生的候選模板。
LEEcon[15]相似于PMS,但是考慮到從FOLDFINDER獲得其他模板。Leecon模建是利用SERVER預(yù)測(cè)方法即從CASP10發(fā)布的所有SERVER模型最大集群中選擇模型的一致性方法。進(jìn)行SERVER模型的結(jié)構(gòu)集群,并確定出最大的集群。對(duì)于序列查詢,F(xiàn)OLDFINDER用域從PDB中識(shí)別最佳模板。排除掉與模板有幾乎相同的結(jié)構(gòu)(TM-得分≥0.975)和很不相似的結(jié)構(gòu)(TM-得分<0.65)?;谛蛄械梅趾突?D得分結(jié)合起來,確定重心模板和次級(jí)可選模板。模板合并生成一個(gè)模板列表,對(duì)于每個(gè)模板列表,進(jìn)行多重序列比對(duì)、側(cè)鏈構(gòu)架、質(zhì)量評(píng)估和側(cè)鏈重建。
3 總結(jié)和展望
掌握蛋白質(zhì)的結(jié)構(gòu)信息對(duì)于研究蛋白質(zhì)的功能及作用機(jī)制具有重要意義。對(duì)于蛋白質(zhì)結(jié)構(gòu)和功能, 雖然可以通過實(shí)驗(yàn)的方法來實(shí)現(xiàn), 但當(dāng)前的蛋白檢測(cè)技術(shù)水平還遠(yuǎn)遠(yuǎn)跟不上由“人類基因組計(jì)劃”不斷發(fā)展所產(chǎn)生的海量生物信息,所以利用蛋白質(zhì)預(yù)測(cè)技術(shù)協(xié)助實(shí)驗(yàn)科學(xué)變得尤為重要。CASP作為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的世界前沿水平代表,可以客觀的反映蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)水平。CASP10所得到的最佳5種模板依賴型蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法:Zhang-Server,QUARK, PMS,LEEcon,Zhang可對(duì)研究蛋白質(zhì)組尤其是對(duì)那些通過實(shí)驗(yàn)難以測(cè)定結(jié)構(gòu)的蛋白質(zhì)分析則具有理論意義與實(shí)用價(jià)值。并且首次出現(xiàn)一個(gè)由分子動(dòng)力學(xué)方法得出的預(yù)測(cè)小組能成功的提高所有靶蛋白的準(zhǔn)確度,顯示出更多的物理學(xué)衍生的方法可為模建做出貢獻(xiàn)??傊?,藥物生物信息學(xué)對(duì)蛋白結(jié)構(gòu)和功能的預(yù)測(cè)與實(shí)驗(yàn)科學(xué)的發(fā)展結(jié)合起來,將給蛋白質(zhì)設(shè)計(jì)、藥物設(shè)計(jì)等生命科學(xué)領(lǐng)域提供巨大的幫助。
參考文獻(xiàn):
[1]Moult J, Fidelis K, Kryshtafovych A, et al. Critical assessment of methods of protein structure prediction (CASP)-round x[J]. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 1-6.
[2]Zemla A. LGA: a method for finding 3D similarities in protein structures[J]. Nucleic acids research, 2003, 31(13): 3370-3374.
[3]Kryshtafovych A, Fidelis K, Moult J. CASP10 results compared to those of previous CASP experiments[J]. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 164-174.
[4]Kryshtafovych A, Monastyrskyy B, Fidelis K. CASP prediction center infrastructure and evaluation measures in CASP10 and CASP ROLL[J]. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 7-13.
[5]Moult J. A decade of CASP: progress, bottlenecks and prognosis in protein structure prediction[J]. Current opinion in structural biology, 2005, 15(3): 285-289.
[6]Monastyrskyy B, Kryshtafovych A, Moult J, et al. Assessment of protein disorder region predictions in CASP10[J]. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 127-137.
[7]Olechnovi? K, Kulberkyt? E, Venclovas. CAD‐score: A new contact area difference‐based function for evaluation of protein structural models[J]. Proteins: Structure, Function, and Bioinformatics, 2013, 81(1): 149-162.
[8]Mariani V, Biasini M, Barbato A, et al. lDDT: a local superposition-free score for comparing protein structures and models using distance difference tests[J]. Bioinformatics, 2013, 29(21): 2722-2728.
[9]Huang Y J, Powers R, Montelione G T. Protein NMR recall, precision, and F-measure scores (RPF scores): structure quality assessment measures based on information retrieval statistics[J]. Journal of the American Chemical Society, 2005, 127(6): 1665-1674.
[10]Chen V B, Arendall W B, Headd J J, et al. MolProbity: all-atom structure validation for macromolecular crystallography[J]. Acta Crystallographica Section D: Biological Crystallography, 2009, 66(1): 12-21.
[11]Huang Y J, Mao B, Aramini J M, et al. Assessment of template‐based protein structure predictions in CASP10[J]. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 43-56.
[12]Xu D,Zhang Y.Ab initio protein structure assembly using continuous structure fragments and optimized knowledge‐based force field[J]. Proteins: Structure,F(xiàn)unction,and Bioinformatics,2012, 80(7):1715-1735.
[13]Xu D, Zhang J, Roy A, et al. Automated protein structure modeling in CASP9 by I‐TASSER pipeline combined with QUARK‐based ab initio folding and FG‐MD‐based structure refinement[J]. Proteins: Structure, Function, and Bioinformatics, 2011, 79(S10): 147-160.
[14]Joo K, Lee J, Sim S, et al. Protein structure modeling for CASP10 by multiple layers of global optimization[J]. Proteins: Structure, Function, and Bioinformatics, 2014, 82(S2): 188-195.
[15]Lee J, Gross S P, Lee J. Modularity optimization by conformational space annealing[J]. Physical Review E, 2012, 85(5): 056702.
編輯/成森