曹 衛(wèi) 潘憲明
(清華大學(xué)生命科學(xué)院,蛋白質(zhì)科學(xué)教育部重點實驗室,北京 100084)
蛋白質(zhì)是生命活動的主要承擔(dān)者和體現(xiàn)者,一切生命活動都離不開蛋白質(zhì),了解蛋白質(zhì)功能的基本方法之一是研究其三維結(jié)構(gòu)。高通量測序技術(shù)的發(fā)展使蛋白質(zhì)序列信息呈指數(shù)增長,相對地,蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)的增長速度遠(yuǎn)遠(yuǎn)低于其序列數(shù)據(jù)的增長速度[1]。蛋白質(zhì)結(jié)構(gòu)主要通過X射線晶體學(xué)(X-ray crystallography)、核磁共振(nuclear magnetic resonance, NMR)和冷凍電鏡(cryo-electron microscopy,cryo-EM)等方法解析, 雖然這些方法可以產(chǎn)生高分辨率和高質(zhì)量的蛋白質(zhì)結(jié)構(gòu),但是耗時、昂貴且不適用于所有蛋白質(zhì)。隨著計算領(lǐng)域技術(shù)的進(jìn)步,人工智能在生物學(xué)中的應(yīng)用日益廣泛,因此,用計算的方法從蛋白質(zhì)序列出發(fā)預(yù)測結(jié)構(gòu)是非常必要的。
蛋白質(zhì)結(jié)構(gòu)非常復(fù)雜,結(jié)構(gòu)化學(xué)家從概念上將蛋白質(zhì)結(jié)構(gòu)分為四個“層次”。一級結(jié)構(gòu)是由氨基酸脫水縮合組成的多肽鏈;二級結(jié)構(gòu)描述了局部區(qū)域的一般三維(3D)形式,這些區(qū)域與蛋白質(zhì)的其余部分獨(dú)立地組織成重復(fù)出現(xiàn)的結(jié)構(gòu)片段,多肽鏈最主要的局部構(gòu)象是α 螺旋(α helices)和β 片層(β sheets),不規(guī)則形狀也是蛋白質(zhì)結(jié)構(gòu)和功能的重要組成部分,通常稱其為環(huán)區(qū)(loop);三級結(jié)構(gòu)是一條多肽鏈的3D結(jié)構(gòu),即每個原子的3D坐標(biāo);四級結(jié)構(gòu)指其亞基之間是如何定向和排列的,也就是說四級結(jié)構(gòu)僅適用于多亞基蛋白質(zhì)[2]。
20 世紀(jì)70 年代初期Anfinsen[3]進(jìn)行的經(jīng)典實驗表明,蛋白質(zhì)正確折疊所需的所有信息均包含在其氨基酸序列中。近50 年來,研究人員在解決蛋白質(zhì)折疊問題上做了諸多嘗試,主要可分為兩大類,分別是基于模板(template-based)和無模板(template-free)的預(yù)測方法。
基于模板的結(jié)構(gòu)預(yù)測方法,即同源建模方法,首先選擇合適的結(jié)構(gòu)模板,然后將靶標(biāo)序列與模板結(jié)構(gòu)比對,最后使用分子建模等技術(shù)補(bǔ)充靶標(biāo)-模板比對中存在的突變、插入和缺失部分的結(jié)構(gòu)。由于蛋白質(zhì)折疊類型的總量有限,且折疊覆蓋率隨著蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)量的增長而增加[4],基于模板的結(jié)構(gòu)預(yù)測方法的適用性在不斷增長,根據(jù)可用的蛋白質(zhì)結(jié)構(gòu),基于模板的結(jié)構(gòu)預(yù)測方法可以預(yù)測大約2/3 蛋白質(zhì)家族的結(jié)構(gòu)[5]。研究表明,基于模板的方法(同源建模和折疊識別)所預(yù)測的模型的準(zhǔn)確率和生物學(xué)實用性均要遠(yuǎn)高于使用無模板的方法(從頭預(yù)測)[6]。
無模板的結(jié)構(gòu)預(yù)測方法適用于預(yù)測在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(protein data bank,PDB)中找不到同源蛋白質(zhì)的結(jié)構(gòu),由于缺少結(jié)構(gòu)模板,該類方法需要用于生成候選模型的構(gòu)象采樣方法和用于選擇類似天然構(gòu)象的物理能量函數(shù)。構(gòu)象采樣的一個顯著發(fā)展是使用基于片段的組裝方法,它在某些方面連接了基于模板的方法和無模板從頭計算的方法,其中模型是基于已知結(jié)構(gòu)的蛋白質(zhì)中短的連續(xù)主鏈片段(通常長度為3~15個殘基)構(gòu)建的,并使用蒙特卡羅模擬組裝成全長模型。
蛋白質(zhì)結(jié)構(gòu)預(yù)測的下一個重大進(jìn)展是有效利用共進(jìn)化信息,該方法首先用于識別接觸的殘基對,并進(jìn)一步擴(kuò)展以推導(dǎo)殘基距離和二面角分布,所有這些都用作無模板從頭計算的約束[7]。基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法進(jìn)一步將多序列比對的使用擴(kuò)展到端到端的蛋白質(zhì)結(jié)構(gòu)預(yù)測,2020 年CASP14(critical assessment of structure prediction) 中,Alphafold2在有模板預(yù)測和無模板預(yù)測蛋白質(zhì)三級結(jié)構(gòu)都有較為出色的表現(xiàn),實現(xiàn)了原子水平上的準(zhǔn)確,是一種依賴于PDB 中的多序列比對信息和實驗結(jié)構(gòu)的深度學(xué)習(xí)算法。相對的,如果蛋白質(zhì)序列在已知數(shù)據(jù)庫中同源性低于30%,進(jìn)而產(chǎn)生低質(zhì)量的多序列比對信息,最終預(yù)測的蛋白質(zhì)3D 結(jié)構(gòu)準(zhǔn)確率也會降低,這種現(xiàn)象在2022年的CASP15中依然存在。
蛋白質(zhì)結(jié)構(gòu)預(yù)測的最終目標(biāo)之一是在不依賴實驗數(shù)據(jù)的情況下識別高分辨率預(yù)測的蛋白質(zhì)結(jié)構(gòu),對這種高精度的預(yù)測需要能夠區(qū)分具有低均方根偏差的非常相似的結(jié)構(gòu)。蛋白質(zhì)折疊理論的基本假設(shè)是蛋白質(zhì)結(jié)構(gòu)在天然狀態(tài)下一般具有最低的吉布斯自由能[3]。因此,準(zhǔn)確的能量函數(shù)是解決蛋白質(zhì)折疊和蛋白質(zhì)結(jié)構(gòu)預(yù)測問題的關(guān)鍵。
科學(xué)家們已經(jīng)做了很多工作來捕捉蛋白質(zhì)內(nèi)部的能量相互作用并發(fā)展這些力場。這些勢能的兩個最普遍的類別是基于物理的力場和基于知識的力場?;谖锢淼牧鍪褂梦锢淼幕径蓙斫Y(jié)合其原子之間在原子水平上發(fā)生的所有類型的相互作用(例如范德華力、氫鍵、靜電相互作用等)。最早由 Shneior Lifson 團(tuán)隊在1960 年代開始,他們擴(kuò)展模擬有機(jī)小分子的分子力學(xué)方法到大分子系統(tǒng)[8],開發(fā)了一致力場(consistent force field,CFF)能量函數(shù),這為現(xiàn)今蛋白質(zhì)建模中使用的一些最重要的全原子勢能方法發(fā)展奠定了基礎(chǔ),包括CHARMM[9]、Amber[10]和ECEPP[11]。然而,由于未考慮溶劑化效應(yīng),事實證明它們不足以對溶液中穩(wěn)定的致密蛋白質(zhì)折疊進(jìn)行熱力學(xué)描述,并且無法區(qū)分天然蛋白質(zhì)和錯誤折疊的模型[12]。下一步是在經(jīng)典勢中添加隱式溶劑化項,由此產(chǎn)生的力場可以識別肽或蛋白質(zhì)的天然狀態(tài),但是準(zhǔn)確性有限[13]?;谥R的力場需要更少的計算能力,使用統(tǒng)計方法計算結(jié)構(gòu)特征的頻率并將這些頻率轉(zhuǎn)換為自由能貢獻(xiàn)[14],這些勢能采用蛋白質(zhì)的簡化粗粒度模型,同時使用來自PDB 實驗確定的蛋白質(zhì)結(jié)構(gòu)信息,例如TASSER/I-TASSER[15]、ROSETTA[16]、DeepAccNet[17]等。基于知識的力場已成功應(yīng)用于許多領(lǐng)域,包括折疊識別、從頭算蛋白質(zhì)結(jié)構(gòu)預(yù)測、結(jié)構(gòu)模型評估、蛋白質(zhì)-蛋白質(zhì)對接和蛋白質(zhì)穩(wěn)定性預(yù)測。然而,蛋白質(zhì)的巨大構(gòu)象空間進(jìn)行采樣仍然是一個問題,基于知識的力場方法也越來越多地依賴蛋白質(zhì)序列和對應(yīng)已知蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)來解決這個問題。
CASP是一項社區(qū)范圍的實驗,兩年一次,旨在確定和推進(jìn)從氨基酸序列建模蛋白質(zhì)結(jié)構(gòu)的最新技術(shù)水平,參與者將被邀請?zhí)峤灰唤M尚未公開實驗結(jié)構(gòu)的蛋白質(zhì)模型。CASP最重要的衡量標(biāo)準(zhǔn)是全局距離測試總分(GDT_TS),較高的值表示模型更接近給定的參考結(jié)構(gòu)。這為研究小組提供了測試其蛋白質(zhì)結(jié)構(gòu)預(yù)測方法的機(jī)會,并向研究團(tuán)體和軟件用戶提供了對蛋白質(zhì)結(jié)構(gòu)建模最新技術(shù)水平的獨(dú)立評估,結(jié)果顯示了過去兩年取得的進(jìn)展,并揭示了未來應(yīng)重點關(guān)注的方向。在2022 年的CASP15中,來自世界的162 個小組提交了53 764 個模型,涉及5個預(yù)測類別的127個建模目標(biāo)。
過去幾年見證了蛋白質(zhì)3D 結(jié)構(gòu)建模的突破。這一突破可歸因于兩個主要因素:a. 蛋白質(zhì)序列數(shù)據(jù)庫的非凡增長,以及實驗確定的結(jié)構(gòu)數(shù)據(jù)庫的多產(chǎn)性較低但也在穩(wěn)步增長,這兩種類型的數(shù)據(jù)都可以在公共數(shù)據(jù)庫中獲得;b. 逐步將深度學(xué)習(xí)中的前沿方法引入成熟的蛋白質(zhì)建模領(lǐng)域。在CASP14中,AlphaFold2預(yù)測模型的準(zhǔn)確率取得了蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域突破性進(jìn)展,隨后改進(jìn)版本的RoseTTAFold發(fā)布,使科學(xué)界可以廣泛使用接近實驗精度的蛋白質(zhì)結(jié)構(gòu)預(yù)測工具。CASP15的單體結(jié)構(gòu)預(yù)測評估結(jié)果中,Yang-server、UM-TBM 和PEZYFolding位列前三,這些工具都將多個預(yù)測算法(包括AlphaFold2)組合到自己的預(yù)測算法中并進(jìn)行整體優(yōu)化排序,這在一定程度上表明,多方法組合優(yōu)化可能是提高整體結(jié)構(gòu)預(yù)測準(zhǔn)確率的有效方向。
值得注意的是,雖然這些工具不需要模板結(jié)構(gòu),但它們確實依賴于多序列比對信息,低同源性的蛋白質(zhì)序列多序列比對(multiple sequence alignment,MSA)質(zhì)量降低,從而導(dǎo)致最終預(yù)測結(jié)構(gòu)的準(zhǔn)確率降低。這些算法提供置信度指標(biāo),例如pLDDT(predicted local distance difference test)表示預(yù)測模型對其在局部距離差異測試的置信度,以及PAE(predicted aligned error)表示有關(guān)殘基對之間相對位置的置信度,為了結(jié)構(gòu)生物學(xué)實驗工作者可以更有效地使用蛋白質(zhì)結(jié)構(gòu)預(yù)測軟件,針對這些指標(biāo)的驗證與評估工作也陸續(xù)從跨膜蛋白、中心體和中心粒蛋白以及整個蛋白質(zhì)組等各類蛋白質(zhì)的預(yù)測結(jié)果中開展[18]。
蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的突破性進(jìn)展并沒有讓實驗結(jié)構(gòu)生物學(xué)過時,而是提供了前所未有的新機(jī)會。通過在分子置換中使用AlphaFold2 預(yù)測的模型可以有助于解析X 射線或冷凍電鏡結(jié)構(gòu)[19];結(jié)合實驗數(shù)據(jù)與預(yù)測模型有助于確定復(fù)雜的核孔復(fù)合體結(jié)構(gòu)[20];蛋白質(zhì)結(jié)構(gòu)預(yù)測可為實驗工作者篩選可能的翻譯后修飾(post-translational modification,PTM)位點[21]。
2022年,AlphaFold PDB中提供了超過 2.14 億個預(yù)測的蛋白質(zhì)結(jié)構(gòu),涵蓋了UniProt 數(shù)據(jù)庫中的大部分序列[22],極大地增加了具有蛋白質(zhì)結(jié)構(gòu)的蛋白質(zhì)序列空間的覆蓋范圍,并在結(jié)構(gòu)生物學(xué)和結(jié)構(gòu)生物信息學(xué)領(lǐng)域提出了新的挑戰(zhàn)和機(jī)遇。缺乏蛋白質(zhì)建模經(jīng)驗的研究人員現(xiàn)在可以使用這些模型來解決具有挑戰(zhàn)性的生物學(xué)問題,與此同時,模型置信度指標(biāo)對于做出可靠的解釋仍然至關(guān)重要。這個新的結(jié)構(gòu)數(shù)據(jù)庫和相關(guān)的軟件工具在計算和實驗結(jié)構(gòu)生物學(xué)領(lǐng)域引發(fā)了一系列研究,包括優(yōu)化輸入AlphaFold2的多序列比對等。此外,預(yù)測結(jié)構(gòu)數(shù)據(jù)庫的出現(xiàn)極大地改變了蛋白質(zhì)結(jié)構(gòu)域的格局,數(shù)百萬個結(jié)構(gòu)域序列可能成為建模良好的結(jié)構(gòu)域結(jié)構(gòu),同時數(shù)據(jù)量的龐大對蛋白質(zhì)結(jié)構(gòu)域分類工作帶來了挑戰(zhàn),在初始AlphaFold PDB的21種模型生物中確定了700 000 個推定的CATH 結(jié)構(gòu)域,但其中49%的結(jié)構(gòu)域因預(yù)測模型質(zhì)量和無序區(qū)域被過濾掉[23]。
蛋白質(zhì)結(jié)構(gòu)是研究蛋白質(zhì)功能的基礎(chǔ),但結(jié)構(gòu)解析方法耗時、昂貴且不適用于所有蛋白質(zhì)。因此,利用計算的方法從蛋白質(zhì)序列出發(fā)預(yù)測結(jié)構(gòu)變得非常必要。盡管在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域應(yīng)用深度學(xué)習(xí)方法給結(jié)構(gòu)生物學(xué)帶來了新的機(jī)遇,但仍然沒有從理論上解決蛋白質(zhì)折疊的問題。此外,為了識別高分辨率預(yù)測的蛋白質(zhì)結(jié)構(gòu),需要使用準(zhǔn)確的能量函數(shù)來區(qū)分具有低均方根偏差的非常相似的結(jié)構(gòu)。
現(xiàn)有的工具缺乏關(guān)于蛋白質(zhì)動態(tài)特性的信息,許多蛋白質(zhì)采用對其功能至關(guān)重要的多種構(gòu)象狀態(tài),即結(jié)合其他蛋白質(zhì)、核酸和小分子配體或在功能活性和非活性狀態(tài)之間切換,這對于理解和模擬蛋白質(zhì)的功能狀態(tài)很重要。在這種情況下,深度學(xué)習(xí)方法也提供了一個可行的方向,首先學(xué)習(xí)已知結(jié)構(gòu)蛋白質(zhì)樣本的構(gòu)象狀態(tài)以及它們之間可能的轉(zhuǎn)換路徑,訓(xùn)練完成的模型用于生成實驗上未觀察到但類似于天然的蛋白質(zhì)構(gòu)象來進(jìn)一步擴(kuò)展構(gòu)象空間的采樣[24],訓(xùn)練和測試此類方法的關(guān)鍵將是開發(fā)單鏈蛋白質(zhì)和復(fù)合物的生理功能相關(guān)結(jié)構(gòu)的數(shù)據(jù)集。
蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測的方法依賴于蛋白質(zhì)之間的共同進(jìn)化信息,但對于宿主-病原體的相互作用,由于二者屬于不同物質(zhì),進(jìn)化關(guān)系與源自同一生物體兩種蛋白質(zhì)的進(jìn)化關(guān)系非常不同,在宿主和致病蛋白之間幾乎無法找到直系同源序列。因此,預(yù)測這些復(fù)合物的預(yù)期準(zhǔn)確性要低得多。那么完全從序列出發(fā),不依賴于多序列比對信息的模型開發(fā)將會是跨物種蛋白質(zhì)復(fù)合物結(jié)構(gòu)預(yù)測的一個可行方案,另一種選擇是利用遷移學(xué)習(xí)對現(xiàn)有模型進(jìn)行微調(diào)以適應(yīng)特定任務(wù),即使在缺乏數(shù)據(jù)的情況下也可以學(xué)習(xí)復(fù)雜的概念,這在主要組織相容性復(fù)合體(MHC)受體和肽鏈相互作用的預(yù)測已經(jīng)有相關(guān)應(yīng)用[25]。
基于AI 的結(jié)構(gòu)預(yù)測算法的其他應(yīng)用可能包括模擬翻譯后修飾的結(jié)構(gòu)效應(yīng)、突變和變異的構(gòu)象后果以及蛋白質(zhì)設(shè)計領(lǐng)域的應(yīng)用,目前,基于深度學(xué)習(xí)的方法仍然無法解釋氨基酸單點突變對整體蛋白質(zhì)結(jié)構(gòu)的影響[26]。開發(fā)更準(zhǔn)確的基于先進(jìn)人工智能技術(shù)的可靠分子對接算法來模擬蛋白質(zhì)和小分子之間的相互作用,可以促進(jìn)基于結(jié)構(gòu)的藥物研發(fā)并加速醫(yī)學(xué)研究。
隨著端到端機(jī)器學(xué)習(xí)方法得到改進(jìn)并被更廣泛的結(jié)構(gòu)生物學(xué)界所掌握,對很大一部分蛋白質(zhì)及復(fù)合物僅從其氨基酸序列進(jìn)行建模將成為常規(guī),同樣,將這些新方法擴(kuò)展到預(yù)測核酸結(jié)構(gòu),特別是RNA,以及它們與蛋白質(zhì)形成的復(fù)合物結(jié)構(gòu)是未來結(jié)構(gòu)預(yù)測領(lǐng)域重要的前進(jìn)方向。要實現(xiàn)這些拓展,一個主要挑戰(zhàn)是整理足夠的實驗數(shù)據(jù)來訓(xùn)練和驗證機(jī)器學(xué)習(xí)方法。未來計算和實驗方法將更緊密結(jié)合,從冷凍電鏡數(shù)據(jù)中提取大分子復(fù)合物結(jié)構(gòu)異質(zhì)性信息,基于AI 的結(jié)構(gòu)預(yù)測算法和分子模擬技術(shù)相結(jié)合,CASP在檢驗相關(guān)領(lǐng)域的算法預(yù)測結(jié)果中依然會發(fā)揮重要的參考作用。