劉棟 崔新月 王浩東 張貴軍
(浙江工業(yè)大學(xué)信息工程學(xué)院,杭州 310014)
蛋白質(zhì)參與生命活動(dòng)的各個(gè)過(guò)程,是生命體的重要組成部分.了解蛋白質(zhì)結(jié)構(gòu)可以進(jìn)一步揭示生命過(guò)程中生物分子復(fù)雜的相互作用機(jī)制[1-3].經(jīng)過(guò)實(shí)驗(yàn)科學(xué)家近60年來(lái)巨大的努力,已經(jīng)解析出了二十余萬(wàn)種蛋白質(zhì)結(jié)構(gòu).然而,由于生物實(shí)驗(yàn)過(guò)程耗時(shí)長(zhǎng)且成本較高,致使實(shí)驗(yàn)解析結(jié)構(gòu)僅占已知兩億多蛋白質(zhì)序列數(shù)量的0.1%[4],因此,通過(guò)高效且準(zhǔn)確的計(jì)算方法實(shí)現(xiàn)大規(guī)模蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)成為50多年來(lái)計(jì)算生物學(xué)家努力的方向[5].廣泛使用的Rosetta[6],I-TASSER[7]是蛋白質(zhì)領(lǐng)域經(jīng)典結(jié)構(gòu)預(yù)測(cè)方法,隨著深度學(xué)習(xí)技術(shù)在該領(lǐng)域研究的廣泛應(yīng)用,國(guó)內(nèi)外學(xué)者陸續(xù)提出了RaptorX[8],trRosetta[9],AlphaFold2[5],PAthreader[10],ESMFold[11]等方法.尤其是DeepMind和Meta研究團(tuán)隊(duì)基于Alpha-Fold2和ESMFold的方法,分別構(gòu)建了約兩億預(yù)測(cè)結(jié)構(gòu)的數(shù)據(jù)庫(kù)AlphaFold Protein Structure Database[12]和約七億預(yù)測(cè)結(jié)構(gòu)的數(shù)據(jù)庫(kù)ESM Metagenomic Atlas[11].針對(duì)同一序列,上述方法預(yù)測(cè)出的結(jié)構(gòu)存在顯著差異.為解決此類問(wèn)題,模型精度估計(jì)或者模型質(zhì)量評(píng)估方法(estimation of model accuracy,EMA)[13]就成為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)流程中一個(gè)關(guān)鍵的環(huán)節(jié).EMA方法主要目的是估計(jì)參考結(jié)構(gòu)與預(yù)測(cè)模型在整體拓?fù)?全局結(jié)構(gòu))和殘基級(jí)別(局部結(jié)構(gòu))相似的程度,并能夠進(jìn)一步實(shí)現(xiàn)模型單殘基、連續(xù)殘基塊的拓?fù)渚?常用的指標(biāo)包括GDT-TS[14],TM-score[15],lDDT[16],CAD[17],SG[18]等.
Moult等[19]1994年創(chuàng)立的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的關(guān)鍵評(píng)估(CASP) 被譽(yù)為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的奧林匹克競(jìng)賽.CASP每?jī)赡昱e辦一次,目前開(kāi)展了15屆,已經(jīng)成為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù)發(fā)展的風(fēng)向標(biāo)[20,21].在2006年CASP7中引入了模型質(zhì)量評(píng)估方法的評(píng)測(cè),這足以說(shuō)明EMA方法對(duì)結(jié)構(gòu)預(yù)測(cè)的重要性.此外,另一個(gè)重要的國(guó)際賽事CAMEO[22]自CASP12之后引入了每周在線的自動(dòng)盲測(cè)評(píng)估服務(wù)器,成為CASP兩年間評(píng)測(cè)的重要補(bǔ)充平臺(tái).值得一提的是,AlphaFold2在CASP14中取得巨大的突破,使得單體結(jié)構(gòu)預(yù)測(cè)幾乎到達(dá)了實(shí)驗(yàn)解析的精度[23].因此,在CASP15中接觸預(yù)測(cè)、優(yōu)化和單體模型質(zhì)量評(píng)估被取消,而新增RNA結(jié)構(gòu)、蛋白質(zhì)與配體復(fù)合物、復(fù)合物結(jié)構(gòu)及其界面的質(zhì)量評(píng)估類別[24],對(duì)于復(fù)合物評(píng)估,除了全局結(jié)構(gòu)與局部結(jié)構(gòu)的精度估計(jì)之外,還新增接觸界面精度估計(jì),如DockQ[25]和QS-score[26].
自CASP7至目前為止,已經(jīng)開(kāi)發(fā)出許多蛋白質(zhì)模型質(zhì)量評(píng)估方法和在線服務(wù)器,如圖1所示.本文梳理了最近5年主流的模型質(zhì)量評(píng)估方法,主要分為共識(shí)方法(多模型方法)、準(zhǔn)單模型方法、單模型方法[27].共識(shí)方法假設(shè)正確的結(jié)構(gòu)包含在重復(fù)結(jié)構(gòu)模式集合中,通過(guò)聚類提取來(lái)自多個(gè)方法或不同模板生成的蛋白質(zhì)結(jié)構(gòu)模型的共識(shí)信息,代表性方法有Cheng課題組開(kāi)發(fā)的MULTICOM系列[28-30],Xu和Shang課題組開(kāi)發(fā)的MUfoldQA系列[31,32]等.在CASP7—15評(píng)測(cè)中,共識(shí)方法在大多數(shù)情況下都比單模型方法表現(xiàn)得更好.準(zhǔn)單模型方法將單個(gè)模型輸入的便利性與共識(shí)方法預(yù)測(cè)能力的優(yōu)勢(shì)相結(jié)合,通過(guò)內(nèi)部參考結(jié)構(gòu)生成方法產(chǎn)生的一組蛋白質(zhì)結(jié)構(gòu)對(duì)預(yù)測(cè)模型進(jìn)行評(píng)分,代表性的方法有McGuffin課題組[33-35]開(kāi)發(fā)的ModFOLD系列等.單模型方法基于單一蛋白質(zhì)模型特征提取(序列信息、幾何結(jié)構(gòu)、理化信息),通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)估殘基或者拓?fù)涞馁|(zhì)量.隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域廣泛、深入地應(yīng)用,單模型方法在性能逐漸與多模型方法持平甚至超越,成為EMA方法中一個(gè)熱點(diǎn)研究方向,代表性的方法主要有Baker課題組[27]開(kāi)發(fā)的DeepAcc Net系列、Elofsson課題組[36,37]開(kāi)發(fā)的ProQ系列,Venclovas課題組[38-40]開(kāi)發(fā)的Voro系列,楊建益課題組[41]開(kāi)發(fā)的Yang_TBM,張貴軍課題組[42-44]開(kāi)發(fā)的DeepUMQA系列等.
圖1 在CASP中主流的模型質(zhì)量評(píng)估方法Fig.1.Mainstream model quality assessment methods in CASP.
本文將按順序介紹CASP和CAMEO,其次詳細(xì)討論蛋白質(zhì)模型質(zhì)量評(píng)估的指標(biāo)體系,包括單體蛋白、復(fù)合物的評(píng)估指標(biāo)以及綜合性能分析指標(biāo).然后,對(duì)近5年來(lái)主流的共識(shí)方法、準(zhǔn)單模型方法和單模型方法進(jìn)行梳理,并介紹CASP15的復(fù)合物模型質(zhì)量評(píng)估方法.考慮到深度學(xué)習(xí)對(duì)蛋白質(zhì)領(lǐng)域的影響,本文重點(diǎn)討論單模型方法中的數(shù)據(jù)集、蛋白質(zhì)特征和網(wǎng)絡(luò)架構(gòu)這三個(gè)方面,并介紹了本課題組近年來(lái)在模型質(zhì)量評(píng)估方面所開(kāi)展的一些工作.最后,分析給出了蛋白質(zhì)模型質(zhì)量評(píng)估方法所面臨的一些關(guān)鍵挑戰(zhàn),并對(duì)未來(lái)可能的發(fā)展趨勢(shì)進(jìn)行了展望.
CASP[19]自1994年以來(lái),已成功舉辦了15屆.CASP為研究團(tuán)隊(duì)提供了一個(gè)客觀測(cè)試蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法的平臺(tái),并為研究團(tuán)隊(duì)和軟件用戶提供了對(duì)蛋白質(zhì)結(jié)構(gòu)建模最新技術(shù)水平的獨(dú)立評(píng)估.在CASP7中引入了蛋白質(zhì)模型質(zhì)量評(píng)估的評(píng)測(cè),其中蛋白質(zhì)模型結(jié)構(gòu)由三維結(jié)構(gòu)預(yù)測(cè)組提交,為評(píng)估模型質(zhì)量方法提供了測(cè)試數(shù)據(jù)集.CASP的評(píng)估過(guò)程分為兩個(gè)階段.在第1階段,通過(guò)共識(shí)方法為每個(gè)蛋白質(zhì)目標(biāo)選擇約20個(gè)蛋白質(zhì)結(jié)構(gòu)模型,覆蓋了整個(gè)模型質(zhì)量范圍進(jìn)行評(píng)估;在第2階段,選擇前150個(gè)模型用于質(zhì)量評(píng)估.在這兩個(gè)階段中,EMA方法需要評(píng)估每個(gè)模型的全局拓?fù)滟|(zhì)量和殘基級(jí)別的局部質(zhì)量[45,46].第1階段的結(jié)果僅用于與第2階段的結(jié)果比較,以確定EMA方法是否是單模型方法[47].在每屆CASP比賽中,表現(xiàn)最好的EMA方法通常代表了蛋白質(zhì)質(zhì)量評(píng)估領(lǐng)域的最新發(fā)展水平.
此外,瑞士生物信息研究所和巴塞爾大學(xué)聯(lián)合舉辦CAMEO[48]是一個(gè)全球持續(xù)進(jìn)行的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)平臺(tái),被認(rèn)為是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域最重要的比賽之一.CAMEO中每位參賽者每周對(duì)由世界范圍內(nèi)的結(jié)構(gòu)生物學(xué)家最新破解出的20個(gè)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè).在CAMEO-QE中,預(yù)測(cè)出的結(jié)構(gòu)由模型質(zhì)量評(píng)估參賽者進(jìn)行評(píng)估并在線提交.多年來(lái),CASP和CAMEO不斷進(jìn)步和相互促進(jìn),為EMA研究帶來(lái)了新的思路和方法,并推動(dòng)了這一領(lǐng)域的不斷突破和發(fā)展.
蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確性和可靠性對(duì)于理解生命活動(dòng)過(guò)程至關(guān)重要.為了評(píng)估計(jì)算方法的性能,必須使用有效的評(píng)估指標(biāo)來(lái)衡量蛋白質(zhì)模型的質(zhì)量.這些評(píng)估指標(biāo)能夠判斷蛋白質(zhì)模型與實(shí)驗(yàn)解析結(jié)構(gòu)之間的相似程度,并識(shí)別模型中可能存在的結(jié)構(gòu)缺陷或誤差,從而進(jìn)一步改進(jìn)和優(yōu)化模型.此外,蛋白質(zhì)評(píng)估指標(biāo)對(duì)于蛋白質(zhì)設(shè)計(jì)和藥物設(shè)計(jì)等領(lǐng)域也具有重要意義.隨著多年來(lái)蛋白質(zhì)結(jié)構(gòu)領(lǐng)域的發(fā)展,衍生出了多種評(píng)估指標(biāo),特別是在最近CASP或CAMEO比賽中采用的指標(biāo).總體上來(lái)講,這些指標(biāo)大致分為“單體結(jié)構(gòu)質(zhì)量評(píng)估指標(biāo)”和“復(fù)合物結(jié)構(gòu)質(zhì)量評(píng)估指標(biāo)”,其中單體結(jié)構(gòu)質(zhì)量評(píng)估指標(biāo)主要側(cè)重于局部評(píng)估指標(biāo)和全局評(píng)估指標(biāo),下面將分別介紹一些常用的評(píng)估指標(biāo)及其應(yīng)用場(chǎng)景.
對(duì)于CASP評(píng)估者而言,其中一個(gè)主要挑戰(zhàn)是定義合適的數(shù)值指標(biāo),以量化預(yù)測(cè)與實(shí)驗(yàn)結(jié)構(gòu)之間的準(zhǔn)確度.在CASP評(píng)估過(guò)程中,研究者通過(guò)評(píng)估預(yù)測(cè)模型質(zhì)量來(lái)反映結(jié)構(gòu)預(yù)測(cè)技術(shù)的最新水平[16].均方根誤差(root mean square deviation,RMSD)在CASP早期作為主要評(píng)估標(biāo)準(zhǔn)[49,50],然而RMSD存在極易受到預(yù)測(cè)不準(zhǔn)確區(qū)域的異常值影響、對(duì)模型中的缺失部分不敏感、對(duì)參考結(jié)構(gòu)的疊加具有較高依賴性的問(wèn)題[17].為了更為客觀地評(píng)估蛋白質(zhì)結(jié)構(gòu)模型的質(zhì)量,研究者相應(yīng)提出了多種評(píng)估指標(biāo)來(lái)綜合描述蛋白質(zhì)結(jié)構(gòu)的質(zhì)量.
GDT-score (global distance test score)[14]從CASP4引入以來(lái)一直被廣泛使用.GDT-score通過(guò)將預(yù)測(cè)與實(shí)驗(yàn)參考結(jié)構(gòu)進(jìn)行疊合后,計(jì)算模型結(jié)構(gòu)中某種原子(如Cα)落在實(shí)驗(yàn)結(jié)構(gòu)對(duì)應(yīng)位置的某個(gè)閾值范圍內(nèi)所得到最大的原子數(shù)目.通常GDTHA使用的閾值為0.5,1,2和4 ?,GDT-TS使用的閾值為1,2,4和8 ?,計(jì)算公式[14]如下:
其中Mp是預(yù)測(cè)模型;Mr是參照模型;P1?P2?P4和P8是Mp中的Cα原子與Mr的Cα原子距離小于1,2,4和8 ?的概率.此外,根據(jù)所比較的原子類型,分為使用側(cè)鏈的原子GDC_SC[51]和全原子GDC_ALL.與RMSD相比,局部低精度的原子不會(huì)對(duì)質(zhì)量分?jǐn)?shù)產(chǎn)生顯著影響.然而,GDT-score對(duì)于蛋白質(zhì)的大小具有依賴性.當(dāng)?shù)鞍踪|(zhì)序列的長(zhǎng)度較短時(shí),它可能接近于隨機(jī)選擇結(jié)構(gòu)模型.這種顯著依賴于序列長(zhǎng)度的現(xiàn)象使得評(píng)分絕對(duì)值大小可能變得毫無(wú)意義[15].此外,GDT-score評(píng)估中的缺失片段會(huì)導(dǎo)致較低的質(zhì)量得分,而類似于GDTscore這種基于全局疊加比對(duì)的度量方法,其主要局限性在具有多個(gè)結(jié)構(gòu)域的柔性蛋白質(zhì)時(shí)更為突出.全局剛體疊合會(huì)由最大的結(jié)構(gòu)域主導(dǎo),因此較小的結(jié)構(gòu)域無(wú)法正確匹配,導(dǎo)致不合適的質(zhì)量分?jǐn)?shù).而且結(jié)構(gòu)域相對(duì)位置輕微變化(在生物學(xué)上可能是可以忽略的)可能會(huì)強(qiáng)烈影響GDT-score.這導(dǎo)致在CASP中需要將蛋白質(zhì)模型分割成評(píng)估單元(AU)來(lái)減少結(jié)構(gòu)域的影響,并對(duì)其進(jìn)行單獨(dú)評(píng)估.
TM-score[15]利用蛋白質(zhì)長(zhǎng)度相關(guān)的數(shù)值來(lái)消除之前評(píng)估指標(biāo)中對(duì)于蛋白質(zhì)長(zhǎng)度的依賴性.其次,與設(shè)置特定距離閾值并僅計(jì)算低于閾值誤差的部分不同,TM-score會(huì)對(duì)齊預(yù)測(cè)模型與參考結(jié)構(gòu)之間所有殘基對(duì)進(jìn)行評(píng)估,計(jì)算公式[15]如下:
其中Laligned和Lref分別是對(duì)齊的預(yù)測(cè)和參考結(jié)構(gòu)的序列長(zhǎng)度,di是指預(yù)測(cè)蛋白中的殘基與參考蛋白中相應(yīng)殘基之間的距離,d0(Lref) 是用來(lái)歸一化di的距離.由于TM-score是基于兩個(gè)結(jié)構(gòu)之間單個(gè)疊加比對(duì)計(jì)算得出的分?jǐn)?shù),當(dāng)?shù)鞍踪|(zhì)長(zhǎng)度依賴性對(duì)模型評(píng)估沒(méi)有影響時(shí),GDT-score可以在多個(gè)閾值距離下進(jìn)行評(píng)估,綜合考慮了更多的結(jié)構(gòu)信息,從而提供了更全面的相似性度量[17].
一般來(lái)講,單體蛋白全局結(jié)構(gòu)模型質(zhì)量的評(píng)估指標(biāo)是從整體拓?fù)渖媳容^預(yù)測(cè)結(jié)構(gòu)與參考結(jié)構(gòu)的相似度,而局部結(jié)構(gòu)質(zhì)量評(píng)估指標(biāo)能夠細(xì)致地分析蛋白質(zhì)中局部區(qū)域的結(jié)構(gòu)特征和穩(wěn)定性,幫助研究者們識(shí)別和定位潛在的結(jié)構(gòu)問(wèn)題和缺陷.
為了更好地理解單體蛋白質(zhì)主鏈中局部原子的相互作用,驗(yàn)證其立體化學(xué)的合理性.lDDT(local distance difference test)[16]通過(guò)比較參考結(jié)構(gòu)中一定范圍內(nèi)較近的、不屬于同一殘基的原子對(duì)之間的距離進(jìn)行計(jì)算.如果模型中的距離與參考結(jié)構(gòu)中的距離在一定的閾值范圍內(nèi)(如0.5,1,2和4 ?),則被認(rèn)為是符合要求的距離.通過(guò)計(jì)算保留距離的比例,可以得到預(yù)測(cè)模型的lDDT.其能夠捕獲結(jié)合位點(diǎn)中的局部幾何結(jié)構(gòu),并且對(duì)結(jié)構(gòu)域的方位變化不敏感,使得絕對(duì)值分?jǐn)?shù)具有指導(dǎo)性的意義.并且,該指標(biāo)可用于進(jìn)一步指導(dǎo)結(jié)構(gòu)模型的精細(xì)修正和拓?fù)湮⒄{(diào).
由于蛋白質(zhì)的空間結(jié)構(gòu)是通過(guò)殘基的相互作用形成,而這種互作模式可以用空間結(jié)構(gòu)上的接觸表示.因此,通過(guò)量化蛋白質(zhì)模型結(jié)構(gòu)的接觸預(yù)測(cè)相對(duì)于參考結(jié)構(gòu)偏差,并且不需要兩個(gè)結(jié)構(gòu)之間的對(duì)齊,從而避免一些疊合對(duì)齊的問(wèn)題.基于接觸面積差異的評(píng)估指標(biāo)接觸區(qū)域差異CAD (contact area difference)[17],它通過(guò)計(jì)算殘基之間的接觸面積差異來(lái)量化模型與參考結(jié)構(gòu)之間的接觸,計(jì)算公式[17]如下:
其中i和j代表預(yù)測(cè)模型和參考結(jié)構(gòu)中的殘基,G是參考結(jié)構(gòu)中的接觸殘基對(duì)的集合,T(i,j)和M(i,j)分別表示參考結(jié)構(gòu)和預(yù)測(cè)模型中的接觸面積.CADscore可以單獨(dú)考慮殘基主鏈和側(cè)鏈,具有處理模型中缺失殘基的能力,并且類似于GDT-score,能夠?qū)ν暾筒煌暾哪P瓦M(jìn)行排名.此外,另一個(gè)指標(biāo)是Sphere Grinder (SG)[18],通過(guò)簡(jiǎn)單直觀的方式識(shí)別預(yù)測(cè)模型中不正確的區(qū)域.
對(duì)于單體蛋白質(zhì)模型的質(zhì)量評(píng)估,局部指標(biāo)和全局指標(biāo)相互彌補(bǔ),有效地揭示蛋白質(zhì)模型的局部和整體結(jié)構(gòu)質(zhì)量,并為蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)提供更可靠的指導(dǎo).
隨著人工智能技術(shù)在單體結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的突破,之前的評(píng)估指標(biāo)更適用于描述單體結(jié)構(gòu)的質(zhì)量,而研究的重點(diǎn)逐步向復(fù)合物轉(zhuǎn)移.為了探究蛋白質(zhì)與蛋白質(zhì)之間的相互作用,研究者們?cè)O(shè)計(jì)了專門用于復(fù)合物(多聚體)的評(píng)估指標(biāo),這對(duì)于預(yù)測(cè)復(fù)合物的結(jié)構(gòu)發(fā)展至關(guān)重要.
蛋白質(zhì)相互作用的關(guān)鍵評(píng)估競(jìng)賽(CAPRI)旨在評(píng)估蛋白質(zhì)對(duì)接方法和預(yù)測(cè)蛋白質(zhì)與蛋白質(zhì)相互作用關(guān)系[52].CAPRI引入Fnat,LRMS和iRMS指標(biāo)用于評(píng)估模型[25].Fnat衡量了預(yù)測(cè)復(fù)合物界面中在實(shí)驗(yàn)參考結(jié)構(gòu)中界面接觸殘基所占的比例,界面接觸被定義為兩個(gè)相互作用的蛋白質(zhì)(受體和配體)之間任意一對(duì)重原子之間的距離在5 ?以內(nèi).LRMS是在將預(yù)測(cè)和參考復(fù)合物的受體(兩個(gè)蛋白質(zhì)中較大的一個(gè))進(jìn)行疊合比對(duì)后,計(jì)算配體(較小的蛋白質(zhì))預(yù)測(cè)和參考復(fù)合物的RMSD.LRMS是一個(gè)全局指標(biāo),取決于配體的大小.因此,在接觸界面區(qū)域的匹配情況中,它可能不是一個(gè)較好的評(píng)估指標(biāo).iRMS僅針對(duì)接觸界面殘基的RMSD,其接觸界面的殘基距離范圍重新定義為10 ?以內(nèi),即Fnat定義界面閾值的兩倍.雖然這些評(píng)估指標(biāo)可以量化蛋白質(zhì)對(duì)接模型質(zhì)量的不同方面,但在對(duì)模型排序、模型質(zhì)量與評(píng)分函數(shù)的相關(guān)性分析以及在機(jī)器學(xué)習(xí)算法中作為目標(biāo)函數(shù)時(shí)存在一定限制.因此,需要綜合考慮多個(gè)指標(biāo),以更準(zhǔn)確地評(píng)估模型的質(zhì)量.DockQ[25]將Fnat,LRMS和iRMS綜合到一個(gè)介于0到1之間的單一評(píng)估指標(biāo)中,可以更加定量地評(píng)估蛋白質(zhì)對(duì)接模型的質(zhì)量,計(jì)算公式[25]如下所示:
其中 RMSscaled表示與LRMS或iRMS(RMS)中的任何一項(xiàng)相對(duì)應(yīng)的縮放后的 RMS 偏差,di是一個(gè)縮放因子,d1用于 LRMS,d2用于 iRMS.Fnat被定義為預(yù)測(cè)的復(fù)合物界面中保留的原生界面接觸的比例.在評(píng)估CAPRI中的蛋白模型時(shí),DockQ幾乎可以重現(xiàn)原始的CAPRI分類,這意味著不需要使用閾值對(duì)預(yù)測(cè)模型進(jìn)行分類,并且可以使用Z-score來(lái)評(píng)估模型質(zhì)量,類似于CASP中使用的方法.
在蛋白質(zhì)與蛋白質(zhì)對(duì)接模型評(píng)估指標(biāo)的發(fā)展歷程中,主要集中在二聚體的相互作用.然而,對(duì)于多聚體(鏈數(shù)大于兩條)需要將其分解為二聚體可能需要大量的比較工作,并且可能會(huì)缺失一些整體結(jié)構(gòu)的接觸界面殘基.因此,研究者設(shè)計(jì)了QSscore[26],用于量化界面之間的相似性,該相似性取決于共同的界面接觸.其能夠區(qū)分不同的多聚體結(jié)構(gòu)和結(jié)合模式,計(jì)算公式[26]如下所示:
其中d代表殘基之間的歐式空間Cβ距離,|di-dj|代表相對(duì)誤差(將12 ?作為最大誤差),w是加權(quán)函數(shù).當(dāng)涉及的所有殘基都被“映射”時(shí),形成的接觸被定義為s.而那些接觸但未被“映射”的殘基對(duì),或者只在其中一個(gè)寡聚體中形成接觸被定義為n-s.這里所提及的“映射”是指一個(gè)復(fù)合物中的蛋白質(zhì)鏈與另一個(gè)復(fù)合物中蛋白質(zhì)鏈之間的對(duì)應(yīng)關(guān)系.QS-score能夠評(píng)估組裝界面的質(zhì)量,適用于比較鏈的相對(duì)方位.在最近的CASP15中,評(píng)估者還使用界面接觸分?jǐn)?shù)(ICS)和接觸區(qū)域分?jǐn)?shù)(IPS)來(lái)評(píng)估模型.ICS以F1-score[53]的形式計(jì)算,用于衡量預(yù)測(cè)的鏈間接觸的精準(zhǔn)率和召回率之間的關(guān)系.IPS則通過(guò)計(jì)算模型預(yù)測(cè)的接觸殘基與參考結(jié)構(gòu)接觸殘基之間的部分,得出Jaccard[54]系數(shù).
伴隨著結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的發(fā)展,復(fù)合物結(jié)構(gòu)的評(píng)估逐漸變得尤為關(guān)鍵.復(fù)合物的評(píng)估指標(biāo)可以從多個(gè)獨(dú)立計(jì)算卻相關(guān)的指標(biāo)綜合成一個(gè)評(píng)估指標(biāo),并且可以從二聚體拓展到多聚體的評(píng)估指標(biāo).
模型質(zhì)量評(píng)估(EMA)是CASP重要的組成部分,理想情況下,EMA方法可以提供與計(jì)算的評(píng)估指標(biāo)分?jǐn)?shù)相關(guān)的模型質(zhì)量估計(jì).在CASP14之前的比賽中約有70多種參賽方法[55],這凸顯了模型質(zhì)量評(píng)估對(duì)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的重要性,并且研究人員通常將模型質(zhì)量估計(jì)整合到建模流程.蛋白質(zhì)模型的精度估計(jì)包括了每個(gè)模型的全局精度評(píng)估和每個(gè)殘基的局部精度估計(jì).此外,CASP對(duì)參賽組進(jìn)行分別排名,這些排名通常使用多個(gè)評(píng)估指標(biāo)綜合計(jì)算得出.
評(píng)估全局結(jié)構(gòu)精度估計(jì)包含Top1 loss[47],AUC(area under the curve)[56],相關(guān)性和絕對(duì)誤差分析.Top1 loss用于對(duì)比蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型的精度估計(jì),并選擇排名第一的模型作為最佳模型.在不同指標(biāo)下,計(jì)算選定的最佳模型與實(shí)際最佳模型質(zhì)量的絕對(duì)誤差.相關(guān)性分析使用Pearson和Spearman[57]來(lái)評(píng)估預(yù)測(cè)全局模型與真實(shí)模型質(zhì)量之間的相關(guān)性.通過(guò)絕對(duì)誤差分析(MAE或MSE),分析不同指標(biāo)下模型質(zhì)量預(yù)測(cè)值與真實(shí)值之間的差異.AUC[56]用于判斷預(yù)測(cè)模型質(zhì)量是否可以接受,它通過(guò)計(jì)算ROC曲線下的面積衡量模型的性能,而ROC曲線則反映了在不同質(zhì)量閾值下,準(zhǔn)確和不準(zhǔn)確模型的真陽(yáng)性率和假陽(yáng)性率之間的關(guān)系.
局部結(jié)構(gòu)精度評(píng)估是在評(píng)估單元(EUs)[47]級(jí)別進(jìn)行.ASE(average S-score error)[47]是通過(guò)計(jì)算每個(gè)殘基的S-score誤差的平均值來(lái)評(píng)估:
其中第i個(gè)殘基的S-score誤差是對(duì)預(yù)測(cè)模型中評(píng)估單元 (EU) 的第i個(gè)Cα原子的預(yù)測(cè)距離誤差(ei)和實(shí)際距離誤差 (di) 之間的差值.通過(guò)LGA[14]在評(píng)估單元的疊合后,使用S-function函數(shù)來(lái)計(jì)算,N是評(píng)估單元中的殘基數(shù)目.ULR (unreliable local region)[47]是由預(yù)測(cè)模型中3個(gè)或更多連續(xù)殘基組成的區(qū)域,其在最佳疊合下與相應(yīng)參考結(jié)構(gòu)的殘基之間的距離偏差超過(guò)3.8 ?.相隔一個(gè)殘基的兩個(gè)ULR將合并為一個(gè)ULR.確定ULR后,計(jì)算它們的準(zhǔn)確度和覆蓋率,并在實(shí)際ULR邊界上以及在兩個(gè)殘基以內(nèi)的預(yù)測(cè)被認(rèn)為是準(zhǔn)確預(yù)測(cè).對(duì)于每個(gè)CASP評(píng)估組,通過(guò)調(diào)整閾值計(jì)算以最大化平均F1-score[53].在CASP中,組的排名往往是根據(jù)蛋白質(zhì)目標(biāo)的評(píng)估指標(biāo)對(duì)應(yīng)平均Z-score統(tǒng)計(jì),其中每個(gè)組的Z-score是對(duì)每個(gè)目標(biāo)的結(jié)果計(jì)算的均值和標(biāo)準(zhǔn)差,將Z-score設(shè)置為-2—2.
隨著AlphaFold2在單體結(jié)構(gòu)預(yù)測(cè)方面的巨大進(jìn)展,幾乎解決了單體結(jié)構(gòu)預(yù)測(cè)問(wèn)題,促使CASP15將重點(diǎn)轉(zhuǎn)向復(fù)合物的預(yù)測(cè)和模型質(zhì)量評(píng)估.其中,整體模型拓?fù)滟|(zhì)量評(píng)估采用GTD-Score和TMScore指標(biāo);鏈間相互作用質(zhì)量評(píng)估采用DockQ和QS-Score進(jìn)行衡量;界面接觸殘基質(zhì)量評(píng)估采用CAD-Score,lDDT,PatchQS和PatchDockQ[24]指標(biāo)衡量.CASP參賽組的性能往往是通過(guò)這些指標(biāo)對(duì)應(yīng)的Pearson,Spearman,AUC和Loss進(jìn)行綜合加權(quán)給出最終排名.
在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域,質(zhì)量評(píng)估對(duì)于建模過(guò)程具有重要意義.質(zhì)量評(píng)估指標(biāo)提供了一種客觀、量化的方法來(lái)評(píng)估模型的準(zhǔn)確性和質(zhì)量,同時(shí)為改進(jìn)和優(yōu)化建模過(guò)程提供了指導(dǎo)和依據(jù).
在最近的CASP中,研究者已經(jīng)開(kāi)發(fā)了許多方法,包括共識(shí)、準(zhǔn)單模型和單模型的質(zhì)量評(píng)估方法,主要步驟如圖2所示.此外,鑒于復(fù)合物模型評(píng)估的重要性,我們回顧了CASP15中的復(fù)合物質(zhì)量評(píng)估方法.最后,介紹了本課題組近年來(lái)在模型質(zhì)量評(píng)估方面開(kāi)展的工作.
圖2 模型質(zhì)量評(píng)估三類方法示意圖Fig.2.Schematic diagram of three methods of model quality assessment.
訓(xùn)練數(shù)據(jù)集在神經(jīng)網(wǎng)絡(luò)中起著至關(guān)重要的作用,它是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和理解模式的基礎(chǔ)[58].通過(guò)訓(xùn)練數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)可以從中學(xué)習(xí)到輸入與輸出之間的關(guān)聯(lián)性,使其能夠?qū)π聰?shù)據(jù)進(jìn)行準(zhǔn)確的預(yù)測(cè)和推斷.豐富、多樣且代表性的訓(xùn)練數(shù)據(jù)可以幫助神經(jīng)網(wǎng)絡(luò)克服過(guò)擬合和欠擬合等問(wèn)題,提高模型的泛化能力和穩(wěn)定性.因此,對(duì)基于神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)模型質(zhì)量評(píng)估而言,高質(zhì)量數(shù)據(jù)集需要包含不同精度的結(jié)構(gòu)并且達(dá)到一定程度的數(shù)量,這可以使網(wǎng)絡(luò)學(xué)習(xí)到蛋白質(zhì)的結(jié)構(gòu)與質(zhì)量的潛在映射關(guān)系.
CASP1-CASP15數(shù)據(jù)集由每屆參加CASP結(jié)構(gòu)預(yù)測(cè)組提交的模型構(gòu)成.每個(gè)蛋白質(zhì)目標(biāo)至少包含150個(gè)預(yù)測(cè)結(jié)構(gòu),這些結(jié)構(gòu)的精度各不相同,往往被用于訓(xùn)練和測(cè)試模型.截止至2023年6月28日,CAMEO-QE數(shù)據(jù)已經(jīng)持續(xù)評(píng)估了74704個(gè)蛋白質(zhì)預(yù)測(cè)模型,針對(duì)每個(gè)蛋白質(zhì)目標(biāo)的模型數(shù)大約為10個(gè),相比于CASP,模型的相似度較高且預(yù)測(cè)難度較低.AlphaFoldDB和ESM Metagenomic Atlas分別是AlphaFold2與ESMfold預(yù)測(cè)的高精度蛋白質(zhì)模型數(shù)據(jù)庫(kù).雖然大部分結(jié)構(gòu)還未通過(guò)實(shí)驗(yàn)解析出來(lái),但是這兩個(gè)數(shù)據(jù)集對(duì)于蛋白質(zhì)結(jié)構(gòu)領(lǐng)域的研究具有重要的意義.Zhanglab服務(wù)器中非冗余的蛋白質(zhì)目標(biāo)所生成的誘餌結(jié)構(gòu)包含3DRo bot數(shù)據(jù)集、I-TASSER數(shù)據(jù)集、QUARK數(shù)據(jù)集等.而DeepAccNet,GNNRefine,DeepUMQA,Deep UMQA3,GraphCPLMQA和GraphGPSM這些方法都采用大致相同的數(shù)據(jù)集制作思路: 從PDB庫(kù)中篩選出一批非冗余的蛋白質(zhì)目標(biāo),通過(guò)不同的方法生成預(yù)測(cè)模型結(jié)構(gòu)(Decoys)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò).在開(kāi)發(fā)基于深度學(xué)習(xí)模型質(zhì)量評(píng)估的方法,往往可以組合這些數(shù)據(jù)進(jìn)行訓(xùn)練,如表1所列.
表1 模型質(zhì)量評(píng)估的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)集(誘餌)Table 1.Protein structure dataset (Decoys) for model quality assessment.
共識(shí)方法在CASP蛋白質(zhì)模型精度評(píng)估上具有顯著優(yōu)勢(shì).Cheng課題組[28-30]開(kāi)發(fā)的MULTICOM系列結(jié)合了各種質(zhì)量評(píng)估技術(shù),包括半聚類方法、單模型機(jī)器學(xué)習(xí)方法以及組合方法.其中,MULTI COM-cluster和MULTICOM-construct[29]在CASP質(zhì)量評(píng)估測(cè)試中表現(xiàn)優(yōu)異.MULTICOM系列評(píng)估方法通過(guò)結(jié)合來(lái)自12種不同EMA方法(9種單模型方法和3種多模型方法)以及1種蛋白質(zhì)接觸預(yù)測(cè)方法(DNCON2[47])的預(yù)測(cè)結(jié)果,生成10個(gè)質(zhì)量分?jǐn)?shù)作為預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的輸入特征.對(duì)于MULTICOM-construct,這10個(gè)質(zhì)量分?jǐn)?shù)取平均值.而MULTICOM-cluster則將13個(gè)初步預(yù)測(cè)結(jié)果和10個(gè)DNNs預(yù)測(cè)結(jié)果的組合輸入另一個(gè)DNN,進(jìn)一步預(yù)測(cè)最終的質(zhì)量分?jǐn)?shù).該研究方法表明,使用殘基與殘基接觸特征可以顯著提高該方法的性能.在MULTICOM-AI[16]中,基于深度學(xué)習(xí)技術(shù)和共進(jìn)化分析,新增了殘基間距離特征,其計(jì)算一組結(jié)構(gòu)模型中的殘基距離與DeepDist[30]預(yù)測(cè)的距離之間的相關(guān)性.此外,MULTICOM-AI還使用了基于DNCON4生成殘基間接觸特征.
Xu和Shang課題組開(kāi)發(fā)的MUfoldQA[31,32]系列方法,在CASP13中涵蓋了MUfoldQA_M和MUfoldQA_T兩種方法,其核心思想是利用一組參考模型對(duì)每個(gè)候選模型進(jìn)行評(píng)分.它們之間的區(qū)別在于選擇參考模型和計(jì)算給定一組參考模型的候選模型評(píng)分方式.MUfoldQA結(jié)合了準(zhǔn)單模型的質(zhì)量評(píng)估方法,首先通過(guò)在PDB數(shù)據(jù)庫(kù)中搜索蛋白質(zhì)序列來(lái)獲得一組模板.然后,從候選模型中選擇一個(gè)子集作為參考模型,并根據(jù)與模板的相似性對(duì)每個(gè)參考模型進(jìn)行評(píng)分.最后,每個(gè)候選模型根據(jù)其與參考模型的相似性進(jìn)行評(píng)分,并考慮到參考模型的評(píng)分進(jìn)行加權(quán).此外,MUfoldQA_G[59]結(jié)合了蛋白質(zhì)模板和參考模型的信息,以優(yōu)化最大化皮爾遜相關(guān)系數(shù)的QA指標(biāo).MUfoldQA_Gr通過(guò)重采樣訓(xùn)練數(shù)據(jù)并訓(xùn)練模型,學(xué)習(xí)到更好的共識(shí)模式,同時(shí)最小化了平均GDT-TS誤差.MUfoldQA_G將MUfoldQA_Gr和MUfoldQA_Gp的結(jié)果相結(jié)合,使最終的預(yù)測(cè)結(jié)果接近MUfoldQA_Gr的低平均GDT-TS誤差,并保持與MUfoldQA_Gp結(jié)果相同皮爾遜相關(guān)系數(shù).
McGuffin開(kāi)發(fā)的ModFOLDclust2[60]是一種基于自動(dòng)聚類的領(lǐng)先方法,用于對(duì)局部和全局模型的質(zhì)量評(píng)估.ModFOLDclust2服務(wù)器在CASP9-CASP14中測(cè)試的方法基本相同.ModFOLDclust2最初的開(kāi)發(fā)目標(biāo)是減少計(jì)算代價(jià),并提供比Mod FOLDclust[61]更高的預(yù)測(cè)精度.ModFOLDclust2的全局質(zhì)量分?jǐn)?shù)為ModFOLDclustQ和ModFOLD clust全局質(zhì)量評(píng)估分?jǐn)?shù)的平均值.為了進(jìn)行全面的比較模型,使用了一種修改后的無(wú)結(jié)構(gòu)比對(duì)的Q-measure[62].ModFOLDclust2的殘基的質(zhì)量評(píng)估分?jǐn)?shù)是直接從ModFOLDclust中獲取.
楊建益課題組[41]開(kāi)發(fā)QDistance(Yang_TBM)是基于trRosetta預(yù)測(cè)的殘基間距離估計(jì)全局和局部質(zhì)量.QDistance使用trRosetta預(yù)測(cè)查詢蛋白的殘基間距離和結(jié)構(gòu)模型.為了預(yù)測(cè)每個(gè)模型的全局質(zhì)量評(píng)估分?jǐn)?shù),設(shè)計(jì)了三組特征,包括基于2D距離矩陣比對(duì)、勢(shì)能分?jǐn)?shù)和其他單一QA方法以及1D結(jié)構(gòu)特征比較的特征.這些特征被輸入到線性回歸模型中,以預(yù)測(cè)GDT_TS.為了進(jìn)行局部QA預(yù)測(cè),首先選擇排名靠前的模型(根據(jù)預(yù)測(cè)的GDT_TS分?jǐn)?shù)),然后使用共識(shí)分析來(lái)推斷每個(gè)模型的局部質(zhì)量分?jǐn)?shù).
clustQ是Bhattacharya課題組[63]基于加權(quán)距離比較的無(wú)超聚(superposition-free)方法評(píng)估質(zhì)量.clustQ對(duì)在序列中相隔較遠(yuǎn)的殘基,分配了較高的權(quán)重.這類殘基之間相互作用相對(duì)于局部短程相互作用提供了更多的信息,并且使用基于Qscore[62]擴(kuò)展的WQ-score對(duì)模型之間進(jìn)行了配對(duì)比較,以估計(jì)預(yù)測(cè)模型質(zhì)量精度.
此外,UOSHAN[64]是基于聚類SARTclust_G和SARTclust_L的評(píng)估方法.在全局和局部評(píng)分中,根據(jù)SART_G分?jǐn)?shù)對(duì)預(yù)測(cè)模型進(jìn)行排名,形成一個(gè)包含前N個(gè)模型的參考集合.然后,將待評(píng)估模型與參考集合中的所有模型進(jìn)行TM-score比對(duì).對(duì)于全局評(píng)分,計(jì)算N個(gè)比較得到的GDT_TS分?jǐn)?shù),并使用SARTclust_G對(duì)這些分?jǐn)?shù)進(jìn)行加權(quán)平均.對(duì)于局部評(píng)分,計(jì)算相應(yīng)殘基之間的N個(gè)距離值,然后使用SARTclust_G對(duì)這些S-score進(jìn)行加權(quán)平均.MESHI_consensus[65]是基于Light-GBM[66]隨機(jī)森林回歸器,利用結(jié)構(gòu)、序列和共識(shí)特征來(lái)估計(jì)蛋白質(zhì)模型的質(zhì)量.
共識(shí)方法在CASP測(cè)試中表現(xiàn)出色,因?yàn)樗鼈兡軌蚶枚鄠€(gè)模型之間的信息來(lái)生成更準(zhǔn)確的預(yù)測(cè).然而,共識(shí)方法的性能很大程度上受候選模型池質(zhì)量和全面性的影響.如果候選模型池質(zhì)量較低或缺乏全面性,那么共識(shí)方法的性能可能會(huì)受到影響.鑒于共識(shí)方法的局限性,準(zhǔn)單模型方法通過(guò)參考其內(nèi)部方法生成的一組蛋白質(zhì)結(jié)構(gòu)來(lái)評(píng)估預(yù)測(cè)模型,從而避免了依賴于候選模型池的問(wèn)題.
McGuffin[35]開(kāi)發(fā)ModFOLD系列方法作為準(zhǔn)單模型方法在CASP測(cè)試中表現(xiàn)出色,其中ModF OLD6[67],ModFOLD7[68]和ModFOLD8[33]在CASP評(píng)測(cè)中表現(xiàn)突出.它們具有類似的工作流程,通過(guò)使用不同的單模型和準(zhǔn)單模型方法對(duì)蛋白質(zhì)模型進(jìn)行獨(dú)立評(píng)估,并生成局部質(zhì)量評(píng)分.這些局部質(zhì)量評(píng)分被視為特征,并輸入到神經(jīng)網(wǎng)絡(luò)中,以推導(dǎo)出最終的預(yù)測(cè)的全局評(píng)分.ModFOLD6采用了多個(gè)評(píng)估方法,如ProQ2[36]、接觸距離一致性(CDA)、二級(jí)結(jié)構(gòu)一致性(SSA)、無(wú)序B-factor一致性(DBA)、ModFOLD5(MF5s)和ModFOLDclustQ(MFcQs).在ModFOLD6[69]中,為了提高局部質(zhì)量預(yù)測(cè)的準(zhǔn)確性和單模型排名的一致性,它采用了與之前類似的十種單模型和準(zhǔn)單模型方法.Mod FOLD7還提供了兩個(gè)版本,分別是在排序Top 1模型方面表現(xiàn)最好的ModFOLD7-rank和在反映估計(jì)絕對(duì)誤差方面表現(xiàn)良好的ModFOLD7-cor.ModFOLD8[35]結(jié)合了來(lái)自13種評(píng)估方法(包括9個(gè)單模型和4個(gè)準(zhǔn)單模型)進(jìn)一步發(fā)揮多個(gè)單模型和準(zhǔn)單模型方法的各自優(yōu)勢(shì)提高預(yù)測(cè)準(zhǔn)確性.
此外,QMEANDisco[70]利用與同源模型結(jié)構(gòu)的距離分布,使用訓(xùn)練神經(jīng)網(wǎng)絡(luò)將多模板DisCo分?jǐn)?shù)和單模型QMEAN[71]分?jǐn)?shù)加權(quán)組合,得到QMEANDisCo復(fù)合分?jǐn)?shù).
隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,在蛋白質(zhì)領(lǐng)域單模型評(píng)估方法得到越來(lái)越多關(guān)注與研究.這些方法只需要一個(gè)模型作為輸入,并能夠表現(xiàn)出與共識(shí)方法相似或更好的性能.單模型方法可以分為基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的評(píng)估方法,并鑒于深度學(xué)習(xí)對(duì)蛋白質(zhì)領(lǐng)域的影響,將對(duì)基于深度學(xué)習(xí)模型評(píng)估方法從特征、網(wǎng)絡(luò)以及架構(gòu)展開(kāi)描述.
基于傳統(tǒng)機(jī)器學(xué)習(xí)的單模型質(zhì)量評(píng)估方法通常使用多種特征作為輸入,包括基于能量的特征、基本的物理化學(xué)特征和統(tǒng)計(jì)特征.例如SVMQA[72]方法則將基于勢(shì)能的特征和基于一致性的特征作為輸入,使用隨機(jī)森林算法預(yù)測(cè)全局質(zhì)量.此外,還通過(guò)改變特征組合改善質(zhì)量得分.MESHI-enrich-server,MESHI-corr-server和MESHI-server使用機(jī)器學(xué)習(xí)訓(xùn)練的3種不同損失函數(shù)分析對(duì)該方法性能的影響.
對(duì)基于深度學(xué)習(xí)的單模型質(zhì)量評(píng)估而言,蛋白質(zhì)模型特征和網(wǎng)絡(luò)架構(gòu)對(duì)于方法的性能有關(guān)鍵影響.特征可以顯性刻畫蛋白質(zhì)的屬性,其中包括蛋白質(zhì)的結(jié)構(gòu)特征和非結(jié)構(gòu)特征.對(duì)于結(jié)構(gòu)的特征,3DCNN[73]僅利用3D結(jié)構(gòu)的原始原子密度作為特征,沒(méi)有進(jìn)行任何特征調(diào)整.Ornate[74]表示基于體素化特征的蛋白質(zhì)拓?fù)浣Y(jié)構(gòu),這些體素化特征根據(jù)骨架中原子的方向構(gòu)建立方圖,描繪了殘基及其鄰域.Atom-ProteinQA設(shè)計(jì)了兩個(gè)提取幾何和拓?fù)湓蛹?jí)關(guān)系模塊.幾何感知模塊捕捉輸入蛋白質(zhì)的幾何特征,生成細(xì)粒度的原子級(jí)預(yù)測(cè),基于化學(xué)鍵構(gòu)建原子級(jí)圖通過(guò)拓?fù)涓兄K的消息傳遞并行輸出殘基級(jí)別的預(yù)測(cè).這些方法通過(guò)低維空間關(guān)系來(lái)表示蛋白質(zhì)幾何模型結(jié)構(gòu).
對(duì)于非結(jié)構(gòu)特征,ProQ3D[75]采用了基于Rosetta能量項(xiàng)的兩個(gè)特征,即全原子Rosetta能量項(xiàng)和粗?;行狞c(diǎn)Rosetta能量項(xiàng).Venclovas課題組[38]開(kāi)發(fā)的VoroMQA,將統(tǒng)計(jì)勢(shì)的概念與原子球的Voronoi[76]分割相結(jié)合評(píng)估模型質(zhì)量.其將蛋白質(zhì)結(jié)構(gòu)表示為一組原子球,每個(gè)球具有對(duì)應(yīng)于原子類型的范德瓦耳斯半徑分配的空間區(qū)域,并使用Voronoi面和球面的三角表示,接觸面積被計(jì)算為對(duì)應(yīng)三角的面積.其中,VoroMQA-A通過(guò)使用SCWRL4[77]重構(gòu)其側(cè)鏈對(duì)輸入模型進(jìn)行預(yù)處理,而VoroMQA-B在評(píng)估之前不會(huì)修改輸入模型.此外,特別是,序列信息中在包含潛在的蛋白質(zhì)進(jìn)化關(guān)系,可以提高模型評(píng)估的準(zhǔn)確性.ProQ4[78]使用多序列比對(duì)的統(tǒng)計(jì)信息熵提升原有評(píng)估的精度.Bhattacharya-QDeepU(QDeep[79]的變體方法)使用從全基因組序列數(shù)據(jù)庫(kù)與宏基因組數(shù)據(jù)庫(kù)合并生成的多序列比對(duì)信息(MSA)進(jìn)行訓(xùn)練.Voro CNN-GEMME使用GEMME[80]計(jì)算了每個(gè)殘基的共進(jìn)化描述符,其預(yù)測(cè)了在該序列位置發(fā)生突變對(duì)其他每個(gè)氨基酸的影響程度,GEMME的輸入也是MSA信息.DeepAccNet-MSA[27]通過(guò)trRosetta[9]網(wǎng)絡(luò)將MSA信息轉(zhuǎn)換為幾何約束特征輸入神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)質(zhì)量分?jǐn)?shù).
深度學(xué)習(xí)網(wǎng)絡(luò)可以捕獲蛋白質(zhì)內(nèi)部的潛在聯(lián)系.Venclovas課題組[81]開(kāi)發(fā)VoroMQA-dark是基于部分VoroMQA,通過(guò)神經(jīng)網(wǎng)絡(luò)(NN)來(lái)預(yù)測(cè)局部(每殘基)CAD-score值.其針對(duì)每個(gè)氨基酸殘基輸出包括3個(gè)CAD-score: CAD-score-level0是基于涉及中心殘基的所有氨基酸殘基間接觸;CAD-score-level1是基于涉及至少一個(gè)來(lái)自中心殘基的第一層鄰居(直接鄰居)的所有氨基酸殘基間接觸;CAD-score-level2是基于中心殘基的直接鄰居和直接鄰居的鄰居與所有氨基酸殘基之間的間接接觸來(lái)計(jì)算的.輸入向量已經(jīng)進(jìn)行了預(yù)卷積操作,最終只使用了一個(gè)全連接隱藏層.VoroCNN[40]是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型質(zhì)量評(píng)估方法,它處理無(wú)向加權(quán)圖表示的蛋白質(zhì)模型.為了處理這些圖,VoroCNN由一個(gè)基于消息傳遞圖卷積層和一個(gè)池化層組成.此外,VoroCNN-GDT網(wǎng)絡(luò)輸出層之前增加了一個(gè)1D卷積層,以實(shí)現(xiàn)在蛋白質(zhì)序列上有更好的局部質(zhì)量預(yù)測(cè)的平滑性.Bhattacharya課題組[79]提出的QDeep (Bhattacharya-QDeep)采用堆疊式深度 ResNet估計(jì)模型在四個(gè)不同距離閾值1,2,4和8 ?下每殘基的誤差.其中,4個(gè)ResNet網(wǎng)絡(luò)獨(dú)立訓(xùn)練.DeepQA[82]使用多個(gè)特征(包括能量、物理化學(xué)性質(zhì)和結(jié)構(gòu)信息)輸入到深度置信網(wǎng)絡(luò)中預(yù)測(cè)質(zhì)量,該網(wǎng)絡(luò)由受限玻爾茲曼機(jī)(RBM)[83]隱藏層和邏輯回歸層構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu).AngularQA[84]將原子結(jié)構(gòu)信息轉(zhuǎn)化為二面角和鍵長(zhǎng),并將序列信息通過(guò)LSTM[85]神經(jīng)網(wǎng)絡(luò)輸入.它使用每個(gè)殘基作為時(shí)間步,預(yù)測(cè)模型的質(zhì)量,并考慮LSTM單元的返回值.GraphQA[86]使用圖卷積網(wǎng)絡(luò)并使用與ProQ4相同的特征,將蛋白質(zhì)分子轉(zhuǎn)化為具有旋轉(zhuǎn)不變性的圖形來(lái)評(píng)估質(zhì)量.tFold[87]通過(guò)更改消息傳遞網(wǎng)絡(luò)(MPNN)[88]的圖形通用架構(gòu),學(xué)習(xí)了殘基之間的相互作用對(duì)模型進(jìn)行評(píng)分.
通過(guò)構(gòu)建編解碼可以更好地利用神經(jīng)網(wǎng)絡(luò)的模塊,以實(shí)現(xiàn)更準(zhǔn)確的預(yù)測(cè).Baker課題組[27]開(kāi)發(fā)的DeepAccNet是基于一維、二維和三維特征的模型,在不同層次上反映蛋白質(zhì)模型.它通過(guò)對(duì)三維原子網(wǎng)格在旋轉(zhuǎn)不變的局部框架中對(duì)每個(gè)殘基周圍執(zhí)行三維卷積操作來(lái)捕捉高分辨率原子空間結(jié)構(gòu).二維特征提取了模型結(jié)構(gòu)中所有殘基對(duì)的信息,包括Rosetta殘基間的相互作用項(xiàng),進(jìn)一步描述原子間相互作用的細(xì)節(jié),而殘基與殘基的距離和角度特征提供了較低分辨率的結(jié)構(gòu)信息.在每個(gè)殘基水平上的一維特征包括氨基酸序列、主鏈扭轉(zhuǎn)角和Rosetta殘基能量項(xiàng).該網(wǎng)絡(luò)使用三維卷積評(píng)估局部原子環(huán)境,然后通過(guò)二維卷積提供全局環(huán)境來(lái)預(yù)測(cè)蛋白質(zhì)的局部質(zhì)量,并預(yù)測(cè)每個(gè)殘基的質(zhì)量精度和蛋白質(zhì)模型中殘基間的距離誤差,并利用這些預(yù)測(cè)來(lái)指導(dǎo)蛋白質(zhì)結(jié)構(gòu)的精修和優(yōu)化.此外,AlphaFold2通過(guò)Evoformer編碼序列信息,并在Structure模塊解碼中預(yù)測(cè)原子坐標(biāo)和結(jié)構(gòu)的質(zhì)量.
在CASP15中,模型質(zhì)量評(píng)估從單體質(zhì)量評(píng)估轉(zhuǎn)移到復(fù)合物的質(zhì)量評(píng)估.MULTICOM_qa是結(jié)合了基于深度學(xué)習(xí)鏈間接觸預(yù)測(cè)和界面接觸概率評(píng)分的方法,使用一個(gè)蛋白質(zhì)目標(biāo)的多聚體模型池作為輸入,預(yù)測(cè)它們的全局質(zhì)量得分.并使用MMalign[89]將多聚體模型相互比對(duì),并計(jì)算模型與池中其他模型之間的平均TM-score作為模型質(zhì)量的度量.此外,對(duì)于每個(gè)多聚體目標(biāo)蛋白質(zhì),使用基于深度學(xué)習(xí)方法[18]預(yù)測(cè)的多聚體殘基間接觸或距離,計(jì)算鏈間殘基接觸的概率,并將其平均值作為模型全局質(zhì)量的另一個(gè)度量.最后,通過(guò)加權(quán)計(jì)算得到池中每個(gè)多聚物模型的最終預(yù)測(cè)質(zhì)量得分.MULTICOM_egnn基于DProQA[90]將多聚體模型作為輸入并將其表示為三維圖,使用門控圖Transformer架構(gòu)預(yù)測(cè)DockQ質(zhì)量分?jǐn)?shù).此外,MULTICOM_deep采用類似的方式.
McGuffin課題組[91]開(kāi)發(fā)了ModFOLDdock的三種變體: ModFOLDdock,ModFOLDdockR和ModFOLDdockS.這些變體結(jié)合了一系列單模型、聚類和深度學(xué)習(xí)方法形成共識(shí)來(lái)計(jì)算評(píng)估復(fù)合物質(zhì)量.ModFOLDdock優(yōu)化了預(yù)測(cè)分?jǐn)?shù)與參考分?jǐn)?shù)的相關(guān)性,ModFOLDdockR優(yōu)化了挑選Top 1模型的能力,而ModFOLDdockS使用MultiFOLD方法從輸入序列生成參考模型集,并使用多個(gè)評(píng)分方法將每個(gè)模型與參考集進(jìn)行比較.
MUFold和MUFold2[32]結(jié)合AlphaFold-Multimer[92]作為蛋白質(zhì)復(fù)合物質(zhì)量評(píng)估的方法.MU Fold采用了基于AlphaFold-Multimer預(yù)測(cè)結(jié)果的單階段機(jī)器學(xué)習(xí)方法,而MUFold2則采用了兩階段機(jī)器學(xué)習(xí)方法.在MUFold2中,首先使用Alpha Fold-Multimer的輸出結(jié)果訓(xùn)練一個(gè)模型進(jìn)行初始預(yù)測(cè),然后使用第二個(gè)預(yù)訓(xùn)練的模型生成更準(zhǔn)確的預(yù)測(cè)結(jié)果.
VoroIF-jury[93]包含了兩種界面評(píng)分方法: 一種是通用的基于原子間接觸面積的能量勢(shì)函數(shù),該勢(shì)函數(shù)是從蛋白質(zhì)界面的VoroMQA勢(shì)能函數(shù)推導(dǎo)出來(lái)的;另一種VoroIF-GNN[93]方法是基于接受由Voronoi鑲嵌派生的蛋白質(zhì)鏈間界面接觸圖的圖注意力網(wǎng)絡(luò)(GAT)預(yù)測(cè)復(fù)合物模型中的殘基級(jí)別界面精度.此外,APOLLO[94]使用基于能量模型(EBM)來(lái)評(píng)估整體折疊、界面準(zhǔn)確性以及界面殘基的置信度得分.
張貴軍課題組在最近幾年開(kāi)發(fā)了DeepUMQA系列、GraphGPSM等模型質(zhì)量局部及全局評(píng)估方法.基于DeepUMQA[42-44]系列算法開(kāi)發(fā)的Guijun-Lab-RocketX服務(wù)器與基于GraphGPSM[95]算法開(kāi)發(fā)的GuijunLab-Threader服務(wù)器首次參加了2022年舉行CASP15,并表現(xiàn)出了不錯(cuò)的性能.
DeepUMQA[42]基于超快速形狀識(shí)別(USR)[96]來(lái)補(bǔ)充對(duì)于描述殘基級(jí)別的拓?fù)湫畔⒖赡懿蛔愕那闆r,其能夠與深度學(xué)習(xí)方法相結(jié)合進(jìn)一步反映殘基級(jí)別拓?fù)涞奶卣鱽?lái)提高模型質(zhì)量評(píng)估的性能.體素化方法有效地描述了殘基的局部結(jié)構(gòu)信息,但它并未完全反映殘基與整體結(jié)構(gòu)之間的拓?fù)潢P(guān)系.此外,體素化特征向量的計(jì)算和三維卷積非常復(fù)雜且耗時(shí).因此,通過(guò)選擇適當(dāng)?shù)囊唤M原子間距離,可以幾乎不增加額外的計(jì)算成本快速捕捉蛋白質(zhì)結(jié)構(gòu)的拓?fù)湫畔?具體而言,考慮了四個(gè)參考位置有效代表蛋白質(zhì)結(jié)構(gòu)中心和邊界關(guān)系,并利用它們之間的距離子集構(gòu)建蛋白質(zhì)整體結(jié)構(gòu)的拓?fù)潢P(guān)系.
DeepUMQA2[44]是基于DeepUMQA的顯著改進(jìn)版本.在基于之前特征基礎(chǔ)上,結(jié)合了來(lái)自多序列比對(duì)的序列信息和同源模板的結(jié)構(gòu)特征,對(duì)模型的潛在屬性進(jìn)行表征.DeepUMQA2首先根據(jù)輸入模型的序列進(jìn)行多序列比對(duì)(MSA)和同源模板搜索,然后提取序列特征和模板結(jié)構(gòu)特征,并與輸入模型相關(guān)特征結(jié)合,形成初始?xì)埢鶎?duì)信息.通過(guò)基于三角乘法更新和軸向注意機(jī)制的網(wǎng)絡(luò)迭代更新殘基對(duì)信息.然后,使用兩個(gè)分支網(wǎng)絡(luò)分別預(yù)測(cè)殘基間距離偏差和接觸圖(閾值為15 ?),進(jìn)一步計(jì)算模型的每個(gè)殘基的準(zhǔn)確性.
DeepUMQA3[97]適用于評(píng)估蛋白質(zhì)復(fù)合物模型質(zhì)量的方法.在DeepUMQA和DeepUMQA2的基礎(chǔ)上,為復(fù)合物結(jié)構(gòu)設(shè)計(jì)了新的特征,并使用改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)了每個(gè)殘基的lDDT和界面殘基的準(zhǔn)確性.DeepUMQA3在CASP15的蛋白質(zhì)復(fù)合物界面殘基準(zhǔn)確性估計(jì)中名列第一,參見(jiàn)圖3.其Web服務(wù)器為蛋白質(zhì)復(fù)合物提供了快速準(zhǔn)確的界面殘基準(zhǔn)確性預(yù)測(cè)和每個(gè)殘基的lDDT預(yù)測(cè)服務(wù).對(duì)于待評(píng)估的復(fù)合物結(jié)構(gòu),DeepUMQA3從三個(gè)層次描述它: 整體復(fù)合物特征、單體內(nèi)特征和單體間特征.在整體復(fù)合物層次上,將整個(gè)復(fù)合物視為一個(gè)大的單體結(jié)構(gòu).考慮到蛋白質(zhì)復(fù)合物在序列上是不連續(xù)的,提取了與殘基順序無(wú)關(guān)的特征,包括整體USR、殘基體素化、殘基間距離和方向以及氨基酸性質(zhì).在單體內(nèi)層次上,分別提取了每個(gè)單體的特征,包括由ESM-1b[98]生成的序列嵌入、二級(jí)結(jié)構(gòu)和Rosetta能量項(xiàng).在單體間層次上,使用單體間成對(duì)序列的注意力圖描述了單體之間的序列關(guān)系.此外,設(shè)計(jì)了單體間USR來(lái)描述一個(gè)單體中殘基與其他單體的拓?fù)潢P(guān)系.這三個(gè)層次的特征被輸入帶有三角形更新和軸向注意力的深度卷積神經(jīng)網(wǎng)絡(luò),以預(yù)測(cè)殘基間距離偏差和閾值為15 ?的殘基間接觸圖,從而計(jì)算每個(gè)殘基的lDDT和界面殘基準(zhǔn)確性.
圖3 (a) lDDT,CAD,PatchDockQ和PatchQS的平均Z分?jǐn)?shù)之和,CASP15官方公布各個(gè)小組在界面殘基精確度估計(jì)排名(數(shù)據(jù)來(lái)自https://predictioncenter.org/casp15).CASP15中DeepUMQA3的組名稱為“GuijunLab-RocketX”;(b) 針對(duì)CASP15,每個(gè)蛋白質(zhì)目標(biāo)上的預(yù)測(cè)的lDDT質(zhì)量與真實(shí)lDDT質(zhì)量的Pearson相關(guān)性,其中,白色方框是均值,中間橫線是中位數(shù)Fig.3.(a) The sum of average Z-scores of lDDT,CAD,PatchDockQ and PatchQS,CASP15 officially announces the ranking of each group in the interface residue accuracy estimation (data from https://predictioncenter.org/casp15).The group name of DeepUMQA3 in CASP15 is “GuijunLab-RocketX”.(b) Pearson correlation of predicted and true lDDT quality on each protein target.The white box is the mean and the middle horizontal line is the median.
在DeepUMQA系列算法基礎(chǔ)上,張貴軍課題組[99]進(jìn)一步結(jié)合圖耦合網(wǎng)絡(luò)開(kāi)發(fā)了GraphCP LMQA算法.算法利用蛋白質(zhì)語(yǔ)言模型的嵌入來(lái)評(píng)估殘基級(jí)別的蛋白質(zhì)模型質(zhì)量.GraphCPLMQA由圖編碼模塊和基于變換的卷積解碼模塊組成.在編碼模塊中,利用具有ESM蛋白質(zhì)語(yǔ)言模型提取序列和高維幾何結(jié)構(gòu)的潛在關(guān)系表示,能夠捕捉蛋白質(zhì)模型的序列和結(jié)構(gòu)特征的重要信息.在解碼模塊中,利用提取的嵌入表示和低維特征推斷蛋白質(zhì)結(jié)構(gòu)與質(zhì)量之間的映射關(guān)系.為了增強(qiáng)局部結(jié)構(gòu)和整體拓?fù)渲g的關(guān)聯(lián)性,設(shè)計(jì)了三角定位和殘基級(jí)別接觸順序特征.其中,三角定位基于DeepUMQA中的USR引入了殘基之間方向的信息,可以更為充分地描述蛋白質(zhì)局部空間的結(jié)構(gòu).接觸序(contact order)[100]用于描述整體拓?fù)涞膹?fù)雜性,并擴(kuò)展到殘基級(jí)別特征以描述局部結(jié)構(gòu)之間的復(fù)雜性.這些特征有助于捕捉蛋白質(zhì)模型的局部結(jié)構(gòu)元素與全局折疊模式之間的關(guān)系.通過(guò)結(jié)合圖編碼模塊和基于變換的卷積解碼模塊,能夠評(píng)估蛋白質(zhì)模型的殘基級(jí)別的質(zhì)量.GraphCPLMQA持續(xù)參加了一年的CAEMO (https://www.cameo3d.org),結(jié)果如下表2所列.
表2 CAMEO-QE: 模型質(zhì)量評(píng)估性能(數(shù)據(jù)來(lái)自官網(wǎng)2022-6-24—2023-6-17)Table 2.CAMEO-QE: Model Quality Evaluation Performance (Data from official website 2022-6-24-2023-6-17).
此外,本課題組[95]還開(kāi)發(fā)了全局質(zhì)量評(píng)估模型GraphGPSM,該模型利用高斯徑向基函數(shù)對(duì)原子級(jí)別的主鏈特征進(jìn)行編碼,基于DeepUMQA的USR,Rosetta能量項(xiàng)、距離和方向、序列的獨(dú)熱編碼以及殘基的位置嵌入來(lái)描述蛋白質(zhì)結(jié)構(gòu).這些特征被配置到初始圖的節(jié)點(diǎn)和邊上,并與坐標(biāo)嵌入相結(jié)合,構(gòu)建了EGNN[101]的初始架構(gòu).通過(guò)堆疊EGNN架構(gòu)形成了一個(gè)密集的消息傳遞網(wǎng)絡(luò).最后,通過(guò)多層感知器(由Dropout層、激活函數(shù)和線性層組成)生成結(jié)構(gòu)模型的全局評(píng)分.特別地,GraphGPSM(GuijunLab-Threader)在CASP15性能如表3所列.
表3 在所有蛋白質(zhì)目標(biāo)與CASP15服務(wù)器的性能比較(數(shù)據(jù)來(lái)自GraphGPSM)Table 3.Performance comparison with CASP15 server on all protein targets (data from GraphGPSM).
深度學(xué)習(xí)在蛋白質(zhì)模型質(zhì)量評(píng)估領(lǐng)域得到廣泛應(yīng)用,并成為主流技術(shù),評(píng)估質(zhì)量的效果也顯著提升.回顧模型質(zhì)量評(píng)估方法,可以得出以下幾點(diǎn)結(jié)論:
1) 近三年來(lái)開(kāi)發(fā)出的單模型方法大多都是基于深度學(xué)習(xí).尤其,與之前CASP中最佳的單模型方法以及CASP中最佳的多模型方法相比,CASP14上最佳單模型方法(DeepAccNet和DeepAccNet-MSA)在全局結(jié)構(gòu)準(zhǔn)確性評(píng)估方面取得顯著的提升.雖然,在CASP15全局質(zhì)量評(píng)估和接口界面評(píng)估中最好的兩種方法分別是MULTICOM_qa和ModFOLDdock這兩種共識(shí)方法.但是,在局部接觸界面的質(zhì)量評(píng)估方法基于深度學(xué)習(xí)的DeepUMQA3相比于排名第二的共識(shí)方法具有顯著的優(yōu)勢(shì),單模型方法依然是未來(lái)的發(fā)展趨勢(shì).
2) 從CASP13—CASP15模型質(zhì)量評(píng)估的參賽組可以看出: 在CASP13中分別有51個(gè)和29個(gè)參賽組提交了全局和局部精度估計(jì);在CASP14中分別有72個(gè)和38個(gè)參賽組提交了對(duì)全局和局部精度估計(jì);在CASP15中分別有22個(gè),13個(gè)和17個(gè)參賽組提交了全局,局部和接觸界面精度估計(jì).從CASP13至CASP14對(duì)于評(píng)估質(zhì)量的參賽組的數(shù)量呈現(xiàn)上升的趨勢(shì),但是從CASP14至CASP15的參賽數(shù)量非常明顯的減少.這可能的原因是: ①對(duì)于復(fù)合物的模型質(zhì)量評(píng)估,很多之前的參賽組并沒(méi)有開(kāi)發(fā)出相應(yīng)的方法.②現(xiàn)階段復(fù)合物的結(jié)構(gòu)模型質(zhì)量評(píng)估依舊存在挑戰(zhàn).
3) 通過(guò)深度學(xué)習(xí)的發(fā)展歷程可以看出,在網(wǎng)絡(luò)層面,從ProQ3D簡(jiǎn)單的幾層神經(jīng)網(wǎng)絡(luò)逐步引入了更加復(fù)雜的模型,即3DCNN的3維卷積網(wǎng)絡(luò)、AngularQA的LSTM網(wǎng)絡(luò)、GraphQA的圖神經(jīng)網(wǎng)絡(luò)、GraphGPSM的等變圖網(wǎng)絡(luò),DeepUMQA2的注意力機(jī)制網(wǎng)絡(luò)以及編解碼模塊AlphaFold2或者GraphCPLMQA.在特征層面,距離圖的特征和序列編碼向表征局部空間結(jié)構(gòu),全局拓?fù)浣Y(jié)構(gòu)和進(jìn)化信息設(shè)計(jì)特征描述蛋白質(zhì)模型,如USR,體素化,MSA多序列比對(duì)信息等.這表明深度網(wǎng)絡(luò)的架構(gòu)和蛋白質(zhì)特征對(duì)網(wǎng)絡(luò)模型性能的提升產(chǎn)生關(guān)鍵作用.
模型質(zhì)量評(píng)估方法在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中扮演著關(guān)鍵角色,并持續(xù)成為該領(lǐng)域的研究熱點(diǎn).然而,這一領(lǐng)域依然面臨許多挑戰(zhàn),以下從單體模型評(píng)估、復(fù)合物模型評(píng)估和模型評(píng)估的共性問(wèn)題三個(gè)方面進(jìn)行討論.
在單體模型評(píng)估方面,盡管AlphaFold2已經(jīng)取得了卓越的精度,但對(duì)于缺乏多序列比對(duì)(MSA)數(shù)據(jù)或模板質(zhì)量較低的情況,建模精度仍存在局限性.目前關(guān)鍵問(wèn)題在于如何區(qū)分高質(zhì)量模型(如AlphaFold2生成的模型)和低質(zhì)量模型,并評(píng)估高質(zhì)量模型中需要改進(jìn)的相對(duì)不正確區(qū)域.此外,目前蛋白質(zhì)預(yù)測(cè)的結(jié)構(gòu)數(shù)據(jù)庫(kù)規(guī)模龐大,如Alpha-Fold Protein Structure Database (~2億)和ESM Metagenomic Atlas (~7億).雖然這些預(yù)測(cè)結(jié)構(gòu)有自評(píng)估的質(zhì)量分?jǐn)?shù),但是這些分?jǐn)?shù)與預(yù)測(cè)的結(jié)構(gòu)相關(guān)性依然需要提升,特別是在局部區(qū)域.如何通過(guò)模型質(zhì)量評(píng)估合理利用這些預(yù)測(cè)數(shù)據(jù)促進(jìn)生物學(xué)研究值得深思.
在復(fù)合物評(píng)估方面,研究者們面臨著許多需要進(jìn)一步探索的問(wèn)題,這些問(wèn)題源于復(fù)合物結(jié)構(gòu)的復(fù)雜性和多樣性.首先,復(fù)合物的質(zhì)量評(píng)估需要解決基于深度學(xué)習(xí)的方法如何構(gòu)建適當(dāng)?shù)挠?xùn)練數(shù)據(jù)集的問(wèn)題.由于復(fù)合物模型可能包含多個(gè)鏈,而蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)中主要以雙鏈結(jié)構(gòu)為主,如何有效地收集和組織復(fù)合物結(jié)構(gòu)數(shù)據(jù),以便用于訓(xùn)練深度學(xué)習(xí)模型.其次,復(fù)合物的結(jié)構(gòu)通常比單體結(jié)構(gòu)更加復(fù)雜和龐大,其復(fù)雜性意味著在網(wǎng)絡(luò)訓(xùn)練過(guò)程中需要更大的計(jì)算和內(nèi)存資源,并且訓(xùn)練時(shí)間可能會(huì)顯著增加.最后,復(fù)合物評(píng)估指標(biāo)體系的建立和應(yīng)用也需要進(jìn)一步發(fā)展.目前,許多復(fù)合物的評(píng)估指標(biāo)仍在沿用單體結(jié)構(gòu)的評(píng)估方法,然而復(fù)合物具有獨(dú)特的結(jié)構(gòu)和功能特征,需要開(kāi)發(fā)適用于復(fù)合物質(zhì)量評(píng)估的專用指標(biāo),以更好地反映復(fù)合物的質(zhì)量和功能特性,并促進(jìn)復(fù)合物結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的進(jìn)一步發(fā)展.
除了在單體和復(fù)合物評(píng)估中面臨的挑戰(zhàn)之外,模型評(píng)估中還存在一些共性問(wèn)題需要解決.首先,對(duì)于模型的質(zhì)量評(píng)估,傳統(tǒng)上常常依賴于多序列比對(duì)(MSA)和模板的信息來(lái)提高評(píng)估的準(zhǔn)確性.然而,在某些情況下,蛋白質(zhì)的序列可能缺乏足夠的相關(guān)信息或者沒(méi)有相關(guān)的模板結(jié)構(gòu)可供參考.因此,如何僅僅利用蛋白質(zhì)的單序列和結(jié)構(gòu)本身的信息來(lái)評(píng)估模型的質(zhì)量成為一個(gè)重要的問(wèn)題.其次,在模型評(píng)估中,有時(shí)會(huì)發(fā)現(xiàn)模型的結(jié)構(gòu)在局部區(qū)域被認(rèn)為是較低質(zhì)量的,然而卻缺乏對(duì)這些局部結(jié)構(gòu)進(jìn)一步處理的方法.如何在模型評(píng)估的基礎(chǔ)上進(jìn)行結(jié)構(gòu)的精修成為一個(gè)需要關(guān)注的問(wèn)題.
綜上所述,未來(lái)模型質(zhì)量評(píng)估的趨勢(shì)將聚焦于復(fù)合物模型結(jié)構(gòu)的評(píng)估.借助深度學(xué)習(xí)網(wǎng)絡(luò)和最新技術(shù)的融合,以及對(duì)復(fù)合物模型的結(jié)構(gòu)和序列特征進(jìn)行工程化的探索,以揭示不同類型復(fù)合物的互作方式.同時(shí),引入更加全面和合理的評(píng)估指標(biāo)體系,將進(jìn)一步推動(dòng)復(fù)合物結(jié)構(gòu)預(yù)測(cè)的發(fā)展,并為模型評(píng)估提供更加可靠和準(zhǔn)確的基礎(chǔ).這一努力的成果將為蛋白質(zhì)領(lǐng)域帶來(lái)更為深入的認(rèn)知和應(yīng)用前景,為研究者揭示復(fù)合物結(jié)構(gòu)的復(fù)雜性和功能特征提供更精準(zhǔn)的工具和方法.