亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)算法研究進(jìn)展

        2023-07-10 02:39:52陳志航季夢(mèng)麟戚逸飛
        合成生物學(xué) 2023年3期
        關(guān)鍵詞:殘基骨架蛋白質(zhì)

        陳志航,季夢(mèng)麟,戚逸飛

        (復(fù)旦大學(xué)藥學(xué)院,上海 201203)

        蛋白質(zhì)是生物體內(nèi)的“生命機(jī)器”,在轉(zhuǎn)錄、翻譯、信號(hào)傳導(dǎo)和細(xì)胞周期調(diào)控等幾乎所有的生命活動(dòng)過(guò)程中發(fā)揮著至關(guān)重要的作用。天然蛋白質(zhì)以一種極端經(jīng)濟(jì)且嚴(yán)謹(jǐn)?shù)姆绞綄?duì)其氨基酸序列進(jìn)行編碼,并在體內(nèi)自發(fā)折疊成特定三維結(jié)構(gòu)來(lái)實(shí)現(xiàn)其生物活性。探尋蛋白質(zhì)結(jié)構(gòu)和功能的關(guān)系在過(guò)去幾十年內(nèi)一直是基礎(chǔ)醫(yī)學(xué)和生物學(xué)研究的焦點(diǎn)。隨著對(duì)蛋白質(zhì)功能研究的深入和實(shí)際應(yīng)用的展開(kāi),天然蛋白質(zhì)已無(wú)法完成人類(lèi)日益增長(zhǎng)的需求。對(duì)蛋白質(zhì)的改造和設(shè)計(jì)也從依賴(lài)天然蛋白的隨機(jī)突變和定向進(jìn)化,向理性設(shè)計(jì)甚至是從頭設(shè)計(jì)(de novodesign)全新的具有特定功能的蛋白質(zhì)轉(zhuǎn)變。

        蛋白質(zhì)的氨基酸序列排布方式?jīng)Q定了其折疊后結(jié)構(gòu)和活性功能。對(duì)于一個(gè)鏈長(zhǎng)為100個(gè)氨基酸的蛋白質(zhì),其可能的氨基酸序列組合有20100種。在如此廣大的序列空間內(nèi)進(jìn)行氨基酸序列的優(yōu)化搜索面臨著巨大的困難[1]。蛋白計(jì)算設(shè)計(jì)避免了相對(duì)隨機(jī)的突變策略,并提供了基于蛋白質(zhì)的生物物理和生物化學(xué)原理的指導(dǎo)性設(shè)計(jì)藍(lán)圖。計(jì)算蛋白質(zhì)設(shè)計(jì)的目標(biāo)是設(shè)計(jì)一個(gè)能夠折疊成預(yù)定義的結(jié)構(gòu)且具有所需功能的氨基酸序列,通常會(huì)從一個(gè)已知的結(jié)構(gòu)出發(fā),保留活性位點(diǎn),并修改部分序列以提高所設(shè)計(jì)蛋白質(zhì)的穩(wěn)定性或?qū)崿F(xiàn)新的功能[2-3]。

        依據(jù)Anfinsen的折疊熱力學(xué)假說(shuō)[4],蛋白質(zhì)折疊到最低自由能狀態(tài),其3D結(jié)構(gòu)由氨基酸序列決定。然而,在折疊過(guò)程中最重要的不是折疊態(tài)的絕對(duì)能量,而是折疊態(tài)與最低的備選態(tài)之間的能量差。這種計(jì)算不僅涉及到所有可能的氨基酸序列,而且涉及到所有可能的結(jié)構(gòu),因此多數(shù)現(xiàn)有的方法都集中在尋找所需結(jié)構(gòu)的最低能量氨基酸序列這個(gè)更容易處理的問(wèn)題上。目前廣泛使用的方法仍然是基于能量函數(shù)和啟發(fā)式采樣方法的算法[5]。RosettaDesign[6]、FoldX[7]、EvoDesign/EvoEF2[8]等設(shè)計(jì)方法使用使用蛋白質(zhì)結(jié)構(gòu)參數(shù)化的打分項(xiàng)來(lái)量化氨基酸序列和特定三維結(jié)構(gòu)之間的匹配度,其中RosettaDesign是目前使用最為廣泛的方法之一。RosettaDesign采用能量函數(shù)[9]來(lái)捕捉序列-結(jié)構(gòu)關(guān)系,對(duì)結(jié)構(gòu)中每個(gè)殘基側(cè)鏈的氨基酸種類(lèi)和構(gòu)象進(jìn)行采樣,并使用蒙特卡洛模擬退火等方法進(jìn)行優(yōu)化以獲得低能序列和構(gòu)象。在過(guò)去的三十年中,基于能量函數(shù)的蛋白計(jì)算設(shè)計(jì)取得了巨大的進(jìn)展,包括設(shè)計(jì)新穎的3D折疊[10]、酶[11]和復(fù)合物[11],更包括免疫信號(hào)[12-13]、靶向治療蛋白[14-15]、蛋白質(zhì)開(kāi)關(guān)[16-17]、自組裝蛋白[18-19]等。盡管取得了這些成功,但是基于能量函數(shù)的蛋白質(zhì)設(shè)計(jì)方法準(zhǔn)確度仍然較低,在沒(méi)有多輪實(shí)驗(yàn)試錯(cuò)的情況下無(wú)法可靠使用,導(dǎo)致蛋白設(shè)計(jì)實(shí)驗(yàn)成功率難以提升[20]。

        以深度學(xué)習(xí)為代表的人工智能技術(shù),隨著算法和算力的發(fā)展以及大數(shù)據(jù)的積累,近期在多個(gè)領(lǐng)域取得了重要進(jìn)展。在生物學(xué)和化學(xué)領(lǐng)域中,深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于可以從蛋白質(zhì)結(jié)構(gòu)的原子坐標(biāo)、氨基酸種類(lèi)、二級(jí)結(jié)構(gòu)等簡(jiǎn)單的輸入數(shù)據(jù)中學(xué)習(xí)高階特征。深度學(xué)習(xí)模型一旦學(xué)會(huì)了蛋白質(zhì)特征間的關(guān)系,就可以用來(lái)為結(jié)構(gòu)生物學(xué)和生物分子的設(shè)計(jì)提供新的見(jiàn)解和指導(dǎo)。海量具備真實(shí)性和可用性的數(shù)據(jù)[21-24]使得深度學(xué)習(xí)表現(xiàn)出比經(jīng)典物理模型或其他機(jī)器學(xué)習(xí)方法更好的性能[25]。目前,深度學(xué)習(xí)已被應(yīng)用于蛋白質(zhì)-配體打分[26-29]、蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測(cè)[30-32]、化合物性質(zhì)預(yù)測(cè)[33]、分子結(jié)構(gòu)生成[34-36]等諸多領(lǐng)域[37],近期更是在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面取得了引人注目的進(jìn)展。以AlphaFold[38]和RoseTTAFold[39]為代表的結(jié)構(gòu)預(yù)測(cè)算法通過(guò)多序列比對(duì)(multiple sequence alignment,MSA)、基于注意力機(jī)制的序列分析和蛋白三維結(jié)構(gòu)生成等模塊,以端到端的方法大幅提高了蛋白三維結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率。

        在蛋白質(zhì)設(shè)計(jì)領(lǐng)域,近年來(lái)設(shè)計(jì)方法也逐漸從基于物理化學(xué)原理的打分函數(shù),轉(zhuǎn)變到利用深度學(xué)習(xí)進(jìn)行設(shè)計(jì)的策略。本文將回顧近年深度學(xué)習(xí)在蛋白設(shè)計(jì)方向的研究進(jìn)展,按照模型的采樣方式、搜索空間大小和蛋白設(shè)計(jì)任務(wù)的難易程度分成三個(gè)方面:①固定主鏈構(gòu)象的蛋白質(zhì)設(shè)計(jì);②可變骨架的序列設(shè)計(jì);③結(jié)構(gòu)和序列生成模型。在固定骨架設(shè)計(jì)任務(wù)中,模型已知蛋白骨架的走向和殘基位置,僅需對(duì)骨架上的序列進(jìn)行設(shè)計(jì);可變骨架設(shè)計(jì)中則允許一定程度的蛋白骨架結(jié)構(gòu)柔性,模型搜索空間增大,設(shè)計(jì)的自由度提高;生成模型可從頭生成全新的蛋白序列和骨架,或根據(jù)局部功能位點(diǎn)進(jìn)行結(jié)構(gòu)補(bǔ)全,解決了前兩類(lèi)設(shè)計(jì)方法中初始骨架來(lái)源的問(wèn)題。

        1 固定主鏈構(gòu)象的蛋白質(zhì)設(shè)計(jì)

        固定骨架蛋白質(zhì)設(shè)計(jì)的目標(biāo)是找到一個(gè)最能折疊成目標(biāo)結(jié)構(gòu)的氨基酸序列,也可以看作是找到一個(gè)折疊成目標(biāo)結(jié)構(gòu)的概率比其他所有序列都大的序列[40-41]。

        1.1 早期工作

        SPIN使用一個(gè)基于片段局部特征和能量非局部輪廓的神經(jīng)網(wǎng)絡(luò)來(lái)解決基于固定骨架結(jié)構(gòu)的蛋白序列設(shè)計(jì)問(wèn)題[42],其輸入特征包括目標(biāo)蛋白質(zhì)主鏈的φ、ψ二面角,通過(guò)比較相鄰5個(gè)殘基的結(jié)構(gòu)片段得到局部片段衍生序列圖譜[43],并采用DFIRE統(tǒng)計(jì)勢(shì)[44]計(jì)算全局能量。SPIN在500個(gè)蛋白質(zhì)的測(cè)試集上平均序列恢復(fù)率約為30%。

        Qi團(tuán)隊(duì)[45]開(kāi)發(fā)了用于蛋白計(jì)算設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型,使用目標(biāo)殘基及其相鄰殘基的距離、主鏈二面角和二級(jí)結(jié)構(gòu)等幾何特征,以約3倍于SPIN的訓(xùn)練集對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將序列恢復(fù)率提高至33%。同期,SPIN2[46]使用一個(gè)具有三個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),在蛋白骨架特征中添加另外兩個(gè)骨架二面角θ和ι,并改用正弦和余弦表示作為特征輸入,將序列恢復(fù)率提高至34%。

        SPIN2僅使用一維結(jié)構(gòu)特征,不足以表征具有復(fù)雜三維結(jié)構(gòu)的蛋白質(zhì)。SPROF[47]則通過(guò)兩兩殘基距離的二維距離矩陣來(lái)表示蛋白質(zhì)中殘基之間距離(圖1)。SPROF使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)與自注意力二維卷積神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)蛋白質(zhì)序列。SPROF方法在獨(dú)立測(cè)試集上取得了39.8%的序列恢復(fù)率,明顯高于僅從一維結(jié)構(gòu)特征訓(xùn)練的SPIN2方法取得的34.6%。

        圖1 SPROF中殘基距離計(jì)算方法(a)dij為殘基i和j的Cα原子之間的距離,d0=0.4 nm;(b)蛋白質(zhì)殘基-殘基距離矩陣Fig.1 Calculating the distance of residues in SPROF(a) dij is the distance between the Cα atoms of residues i and j, d0=0.4 nm, and (b) matrix for residue-residue distance of a protein structure.

        1.2 卷積神經(jīng)網(wǎng)絡(luò)

        卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[48]是最成功的神經(jīng)網(wǎng)絡(luò)架構(gòu)之一,主要包括卷積和池化兩種基本操作。在蛋白質(zhì)設(shè)計(jì)中,卷積層用于對(duì)蛋白質(zhì)殘基間距離圖或蛋白質(zhì)在三維空間網(wǎng)格中的密度距離分布進(jìn)行變換并提取特征,更深的卷積網(wǎng)絡(luò)能從輸入特征中迭代提取更復(fù)雜的特征。池化層通過(guò)連續(xù)降采樣的方式逐漸降低數(shù)據(jù)的空間尺寸,以減少網(wǎng)絡(luò)中的參數(shù)數(shù)量,使得計(jì)算資源耗費(fèi)變少,也有效控制過(guò)擬合。另外,卷積使得模型能夠處理大小可變的輸入數(shù)據(jù)。

        ProDCoNN[49]、Anand等[50]發(fā)展的方法和DenseCPD[51]均使用三維卷積網(wǎng)絡(luò)從目標(biāo)殘基周?chē)娜S結(jié)構(gòu)環(huán)境特征來(lái)預(yù)測(cè)殘基類(lèi)型(圖2)。模型以殘基周?chē)脑用芏群驮宇?lèi)型網(wǎng)格作為輸入,使用DenseNet[52]等多層卷積網(wǎng)絡(luò)對(duì)密度分布數(shù)據(jù)進(jìn)行學(xué)習(xí),捕獲不同尺度下的結(jié)構(gòu)信息。網(wǎng)絡(luò)中的卷積層提取蛋白質(zhì)共價(jià)鍵信息、鍵角、二面角和二級(jí)結(jié)構(gòu)的特征圖,池化層精簡(jiǎn)特征圖數(shù)量,最后輸出目標(biāo)殘基為20種天然氨基酸的概率大小。其中,ProDCoNN和Anand模型分別在相同的T500和TS50上達(dá)到約40%的序列恢復(fù)率,DenseCPD則達(dá)到51%。

        圖2 三維卷積神經(jīng)網(wǎng)絡(luò)提取網(wǎng)格中的蛋白質(zhì)空間結(jié)構(gòu)信息Fig.2 Extracting spatial information of a protein structure from 3D convolutional neural network

        MutCompute[53]使用殘基原子(C,H,O,N,S)坐標(biāo)、部分電荷(partialcharge)和溶劑可及表面積(solvent-accessible surface area,SASA)作為結(jié)構(gòu)特征輸入3D-CNN網(wǎng)絡(luò)。MutCompute以蛋白質(zhì)中心目標(biāo)殘基的Cα為中心,掩蔽2 nm立方體內(nèi)的所有肽原子,構(gòu)造為該殘基的局部化學(xué)微環(huán)境(microenvironment)樣本,以這種方式從19 300個(gè)蛋白質(zhì)結(jié)構(gòu)中構(gòu)造170萬(wàn)個(gè)微環(huán)境作為訓(xùn)練集。訓(xùn)練后的模型能夠識(shí)別穩(wěn)定的突變,根據(jù)殘基局部化學(xué)微環(huán)境預(yù)測(cè)蛋白質(zhì)中不穩(wěn)定的位點(diǎn)。Lu等[54]使用MutCompute模型設(shè)計(jì)了一種聚對(duì)苯二甲酸乙二醇酯(PET)水解酶,指導(dǎo)野生型水解酶PETase組合N233K/R224Q/S121E和骨架的D186H/R280A五個(gè)位點(diǎn)的突變,得到的突變體FAST-PETase具有優(yōu)異的催化活性和熱穩(wěn)定性。FAST-PETase在30~50 ℃和一系列pH水平之間顯示出優(yōu)越的PET水解活性,適用于至少51種未經(jīng)處理的PET降解,工業(yè)上可廣泛用于塑料的回收與循環(huán)。

        TrDesign[55]使用基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)預(yù)測(cè)模型trRosetta進(jìn)行反向序列設(shè)計(jì)。首先將隨機(jī)氨基酸序列輸入到蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型trRosetta[56]中,輸出殘基之間距離、角度和二面角的分布(圖3)。其次計(jì)算預(yù)測(cè)分布與目標(biāo)蛋白結(jié)構(gòu)分布之間的差異,使用梯度反向傳播來(lái)更新氨基酸序列,重復(fù)該過(guò)程直到收斂。TrDesign通過(guò)trRosetta遍歷全局構(gòu)象勢(shì)能面,和RosettaDesign單點(diǎn)能量計(jì)算方法相比,能夠多方面捕獲序列折疊勢(shì)能,保證設(shè)計(jì)蛋白質(zhì)的可折疊性和穩(wěn)定性。高分辨率的Rosetta模型用于創(chuàng)建目標(biāo)結(jié)構(gòu)的深度能量極小值,而低分辨率的trRosetta模型用于減少在能量極小值點(diǎn)備選序列的數(shù)量。將兩種方法結(jié)合,能夠在遍歷勢(shì)能面的同時(shí)減少候選序列的數(shù)量。然而使用trRosetta進(jìn)行反向序列設(shè)計(jì)需要反復(fù)運(yùn)行trRosetta模型,計(jì)算效率不高并且容易陷入勢(shì)能面上次優(yōu)解。

        圖3 trDesign模型架構(gòu)圖Fig.3 Architecture for the trDesign model

        1.3 圖神經(jīng)網(wǎng)絡(luò)

        圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)運(yùn)行在圖(graph)這種非歐氏數(shù)據(jù)結(jié)構(gòu)上,已被廣泛應(yīng)用于知識(shí)圖譜、社交網(wǎng)絡(luò)、藥物發(fā)現(xiàn)和蛋白質(zhì)生物信息學(xué)等領(lǐng)域[57-58]。蛋白質(zhì)結(jié)構(gòu)可用圖進(jìn)行編碼,殘基信息編碼在節(jié)點(diǎn)特征中,空間中相鄰殘基之間的關(guān)系可編碼為邊特征。

        在蛋白質(zhì)序列中距離較遠(yuǎn)的一對(duì)殘基在折疊后的三維結(jié)構(gòu)中可能存在近距離相互作用。在網(wǎng)絡(luò)中引入注意力機(jī)制使圖網(wǎng)絡(luò)能夠識(shí)別殘基在三維空間中的緊密/稀疏關(guān)系,在考慮全局構(gòu)象的同時(shí)又聚焦局部關(guān)鍵特征。此外,圖結(jié)構(gòu)在表示蛋白質(zhì)結(jié)構(gòu)時(shí),可同時(shí)描述主鏈柔性拓?fù)浣Y(jié)構(gòu)的全局整體特征和精確原子位置的局部細(xì)節(jié)特征。使用圖結(jié)構(gòu)表征蛋白質(zhì)具有更高的靈活性和較高的計(jì)算效率。

        GraphTrans[59]使用圖G={V,E}表示蛋白質(zhì)結(jié)構(gòu),節(jié)點(diǎn)特征V={v1,v2…vN}描述每個(gè)殘基的氨基酸類(lèi)型,邊特征E={eij}i≠j捕捉它們之間的關(guān)系(圖4)。模型通過(guò)三維結(jié)構(gòu)的自回歸解碼Transformer[60]以捕獲序列殘基之間稀疏的成對(duì)依賴(lài)關(guān)系信息。GraphTrans模型可以有效地捕獲序列和結(jié)構(gòu)之間的高階依賴(lài)關(guān)系,序列恢復(fù)率在Ollikainen 40測(cè)試集上達(dá)到39.2%,高于RosettaDesign的33.1%;在CATH測(cè)試集上殘基困惑度(per-residue perplexities)為6.85,精度比以往基于神經(jīng)網(wǎng)絡(luò)(LSTM:17.13;SPIN2:12.61)的模型顯著提高。

        圖4 GraphTrans編碼器與解碼器示意圖Fig.4 Architecture for the GraphTrans encoder and decoder

        一個(gè)給定的蛋白質(zhì)結(jié)構(gòu),對(duì)應(yīng)于單一的距離矩陣,可以由許多不同的滿(mǎn)足距離矩陣約束的同源序列折疊而成。ProteinSolver[61]是一個(gè)預(yù)訓(xùn)練的圖卷積神經(jīng)網(wǎng)絡(luò),將使用氨基酸序列填充特定目標(biāo)結(jié)構(gòu)表述為一個(gè)約束滿(mǎn)足問(wèn)題(constraint satisfaction problem),其目標(biāo)是在兼顧長(zhǎng)程和短程的約束的同時(shí),為鏈中的殘基分配氨基酸標(biāo)簽,使得殘基之間的作用力是有利的。訓(xùn)練好的ProteinSolver網(wǎng)絡(luò)能夠以很高的準(zhǔn)確度快速生成數(shù)千個(gè)匹配特定蛋白質(zhì)拓?fù)浣Y(jié)構(gòu)的序列。

        為同時(shí)將蛋白質(zhì)殘基的幾何結(jié)構(gòu)和關(guān)系特征納入統(tǒng)一網(wǎng)絡(luò)架構(gòu),Jing等[62]提出使用幾何向量感知器(geometric vector perceptron,GVP)(圖5)來(lái)代替多層感知器(multi-layer perceptron,MLP)。給定一個(gè)標(biāo)量和向量輸入特征(s,V)的元組,GVP 將殘基原子三維坐標(biāo)轉(zhuǎn)化為殘基距離特征,并將其與標(biāo)量特征組合,輸出一個(gè)更新的元組(s',V')。GVP模型在標(biāo)量特征進(jìn)行轉(zhuǎn)換之前,會(huì)將其與轉(zhuǎn)換后向量特征的范數(shù)進(jìn)行拼接,這允許模型從輸入向量中提取旋轉(zhuǎn)不變信息,以便圖中節(jié)點(diǎn)的信息傳播。GVP-GNN[62]使用GVP層來(lái)增強(qiáng)GNN對(duì)于幾何結(jié)構(gòu)特征的感知,并能夠在歐氏向量特征上執(zhí)行和表達(dá),在蛋白質(zhì)結(jié)構(gòu)的質(zhì)量評(píng)估和序列設(shè)計(jì)方面具有獨(dú)特的優(yōu)勢(shì)。

        圖5 GVP原理示意圖Fig.5 Architecture for GVP

        Orellana等[63]對(duì)上述GVP的結(jié)構(gòu)提出了改進(jìn),使用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network,GCN)同時(shí)對(duì)節(jié)點(diǎn)和結(jié)構(gòu)信息進(jìn)行端到端的學(xué)習(xí)。模型添加每個(gè)氨基酸骨架中所有原子之間的歸一化距離作為節(jié)點(diǎn)特征;將每個(gè)氨基酸的Cα與其k個(gè)最近鄰氨基酸的Cα之間的標(biāo)準(zhǔn)化距離(k值鄰近,k=35)作為邊特征,然后將節(jié)點(diǎn)和邊特征嵌入空間進(jìn)行編碼,并將其引入到GCN模型中,輸出為序列中每個(gè)位置的氨基酸種類(lèi),可用于指導(dǎo)基于能量函數(shù)的蛋白設(shè)計(jì)方法。該模型的序列恢復(fù)率從以往模型的40.2%提高到44.7%。

        TERMinator[64]使用三級(jí)motifs(TERM)捕獲序列-結(jié)構(gòu)關(guān)系[65],融合了殘基原子坐標(biāo)信息作為特征。TERMinator提取目標(biāo)蛋白中與TERM結(jié)構(gòu)匹配的信息來(lái)構(gòu)建節(jié)點(diǎn)和邊,嵌入空間編碼后輸入圖神經(jīng)網(wǎng)絡(luò)中,輸出序列空間中擬合了能量函數(shù)的Potts模型。GNN Potts模型編碼器接受TERM數(shù)據(jù)并提取特征,使用使用馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC)模擬退火算法生成最優(yōu)序列,輸出位置氨基酸標(biāo)簽。作者還進(jìn)行消融了實(shí)驗(yàn),完整的TERMinator模型(恢復(fù)率41.73%)性能強(qiáng)于消融TERM信息輸入的模型(恢復(fù)率40.29%),表明聯(lián)合使用TERM和空間坐標(biāo)作為特征有利于蛋白質(zhì)設(shè)計(jì)。

        ESM-IF1[66]使用GVP來(lái)學(xué)習(xí)向量特征的等變轉(zhuǎn)換和標(biāo)量特征的不變變換。該工作嘗試以下三種架構(gòu):①GVP-GNN;②更寬和更深的GVP-GNN-large;③由GVP-GNN結(jié)構(gòu)編碼器和Transformer組成的混合模型。ESM-IF1使用AlphaFold2預(yù)測(cè)的1200萬(wàn)個(gè)結(jié)構(gòu),將訓(xùn)練數(shù)據(jù)增加了近3個(gè)數(shù)據(jù)級(jí),克服了實(shí)驗(yàn)數(shù)據(jù)的限制,最終在CATH 4.3測(cè)試集上進(jìn)行評(píng)估并根據(jù)殘基困惑度(perplexity,越低越好)和序列恢復(fù)率進(jìn)行比較。GVP-GNN-large和GVP-Transformer模型均在序列恢復(fù)率上比簡(jiǎn)單GVP-GNN提高約9%,達(dá)到與DenseCPD相當(dāng)?shù)?1%,且困惑度由6降低至4。在突變效應(yīng)的zeroshot多項(xiàng)預(yù)測(cè)測(cè)試中(包括復(fù)合物穩(wěn)定性、結(jié)合親合力和插入效應(yīng)),ESM-IF1均取得優(yōu)異的性能表現(xiàn)。

        McPartion[67]引入了一種深度SE(3)-等變圖Transformer架構(gòu),直接對(duì)從蛋白質(zhì)主鏈結(jié)構(gòu)衍生的特征進(jìn)行操作,實(shí)現(xiàn)了同時(shí)預(yù)測(cè)每個(gè)殘基的氨基酸類(lèi)型和側(cè)鏈構(gòu)象。局部感知圖(locality aware graph)Transformer利用蛋白質(zhì)主鏈的幾何形狀來(lái)優(yōu)化單個(gè)殘基和殘基對(duì)的特征表示,并將注意力限制在空間上相鄰的殘基對(duì)上。該模塊的輸出和蛋白質(zhì)主鏈坐標(biāo)一起被傳遞到張量融合網(wǎng)絡(luò)(tensor fusion network,TFN)[68]輸出一個(gè)標(biāo)量和殘基位置,然后由TFN-Transformer為每個(gè)輸入殘基產(chǎn)生側(cè)鏈構(gòu)象和氨基酸類(lèi)型。作者評(píng)估了5種不同的殘基掩蔽方法并分別進(jìn)行了損失函數(shù)、網(wǎng)絡(luò)架構(gòu)和模型超參數(shù)的消融實(shí)驗(yàn),發(fā)現(xiàn)從損失函數(shù)中移除側(cè)鏈坐標(biāo)均方根偏差 (root mean squared deviation,RMSD)和預(yù)測(cè)的側(cè)鏈原子之間的成對(duì)距離兩個(gè)特征顯著降低了測(cè)試蛋白上的天然序列恢復(fù)率。除此之外,移除模型中的TFN-Transformer層對(duì)恢復(fù)率的影響最大。與幾種現(xiàn)有的序列設(shè)計(jì)方法對(duì)比而言,該模型在4個(gè)測(cè)試集上展現(xiàn)了更高的序列恢復(fù)率。

        ABACUS-R[69-71]使用一個(gè)多任務(wù)學(xué)習(xí)的編碼器-解碼器網(wǎng)絡(luò),根據(jù)固定骨架上局部環(huán)境預(yù)測(cè)中心位置的殘基類(lèi)型(圖6)。網(wǎng)絡(luò)的輸入是目標(biāo)殘基與最鄰近k個(gè)殘基聯(lián)合形成的局部特征,包含空間層面的相對(duì)位置與取向信息、序列層面的相對(duì)位置信息以及鄰近殘基的殘基類(lèi)型。ABACUS-R模型不需要顯式地模擬側(cè)鏈,從而避免優(yōu)化的過(guò)程。模型擬合了給定結(jié)構(gòu)下側(cè)鏈類(lèi)型的能量函數(shù),通過(guò)在目標(biāo)骨架上殘基的迭代,逐輪降低隨機(jī)殘基數(shù)目,使得設(shè)計(jì)結(jié)果逐漸收斂,產(chǎn)生自洽的整體序列。ABACUS-R在單個(gè)殘基平均序列恢復(fù)率達(dá)到53%,多個(gè)濕實(shí)驗(yàn)結(jié)果(包括X射線(xiàn)晶體學(xué)解析的晶體結(jié)構(gòu))表明,ABACUS-R在設(shè)計(jì)精度和成功率方面都優(yōu)于基于能量函數(shù)的從頭序列設(shè)計(jì)方法。

        圖6 ABACUS-R模型架構(gòu)示意圖Fig.6 Architecture for the ABACUS-R model

        Roney等[72]認(rèn)為AlphaFold從蛋白質(zhì)的共進(jìn)化數(shù)據(jù)中學(xué)習(xí)了一個(gè)高精度的能量函數(shù),可以在不使用任何共進(jìn)化數(shù)據(jù)的情況下,確定蛋白質(zhì)3D結(jié)構(gòu)和序列之間的關(guān)系,從而用于蛋白質(zhì)設(shè)計(jì)問(wèn)題中。該流程類(lèi)似于TrDesign,將目標(biāo)蛋白骨架結(jié)構(gòu)提供給AlphaFold作為模板,最小化目標(biāo)結(jié)構(gòu)和預(yù)測(cè)結(jié)構(gòu)之間的差異,并優(yōu)化關(guān)于輸入序列的復(fù)合置信度評(píng)分(composite confidence score)。該設(shè)計(jì)方法的序列恢復(fù)率達(dá)到約30%。

        ProteinMPNN[73]參考GraphTrans,使用具有3個(gè)編碼器和3個(gè)解碼器層以及每層寬度為128的消息傳遞網(wǎng)絡(luò)(message passing network,MPNN)。作者認(rèn)為相較于殘基主鏈二面角和旋轉(zhuǎn)走向,殘基N、Cα、C、O和Cβ原子之間的距離提供了更好的歸納偏置來(lái)捕獲殘基之間的相互作用。將上述特征輸入MPNN網(wǎng)絡(luò)(圖7),使模型預(yù)測(cè)序列恢復(fù)從41.2%增加到49.0%。

        圖7 ProteinMPNN模型的整體結(jié)構(gòu)Fig.7 Architecture for the ProteinMPNN model

        雖然不少蛋白設(shè)計(jì)模型都致力于提升設(shè)計(jì)序列的恢復(fù)率,但在實(shí)際的蛋白設(shè)計(jì)應(yīng)用中,恢復(fù)率最高的序列并不一定是最優(yōu)解。因此,ProteinMPNN在設(shè)計(jì)時(shí)使用了采樣溫度來(lái)獲取更多的差異序列。PDB數(shù)據(jù)庫(kù)在收集蛋白質(zhì)晶體結(jié)構(gòu)數(shù)據(jù)時(shí)會(huì)根據(jù)序列對(duì)原子坐標(biāo)進(jìn)行修正,ProteinMPNN訓(xùn)練時(shí)在骨架上添加高斯噪聲來(lái)避免模型學(xué)到這種修正帶來(lái)的誤差,以提高模型穩(wěn)定性并增強(qiáng)模型的泛化能力。噪聲的添加在大部分情況下降低了ProteinMPNN的序列恢復(fù)率,并使AlphaFold對(duì)設(shè)計(jì)序列進(jìn)行結(jié)構(gòu)預(yù)測(cè)時(shí)更具有魯棒性。

        ProteinMPNN還使用一種order-agnostic方法使得模型能在結(jié)構(gòu)一部分固定的情況下設(shè)計(jì)其他部分,這使得ProteinMPNN適用于更復(fù)雜的結(jié)構(gòu),例如蛋白-蛋白復(fù)合物、環(huán)狀蛋白、蛋白質(zhì)納米顆粒等。除了計(jì)算實(shí)驗(yàn),研究人員使用ProteinMPNN進(jìn)行了蛋白質(zhì)單體、蛋白質(zhì)納米籠和蛋白質(zhì)功能設(shè)計(jì),并對(duì)先前使用RosettaDesign 設(shè)計(jì)失敗的蛋白進(jìn)行了重新設(shè)計(jì)。這些設(shè)計(jì)蛋白能在大腸桿菌體系中可溶表達(dá),并在生化實(shí)驗(yàn)中驗(yàn)證了其結(jié)構(gòu)和活性,證明了ProteinMPNN設(shè)計(jì)蛋白的可靠性和合理性。

        如果一個(gè)設(shè)計(jì)氨基酸序列的每個(gè)殘基都與其局部環(huán)境很好地吻合,那么它就有望折疊成一個(gè)與目標(biāo)結(jié)構(gòu)相似的結(jié)構(gòu),ProDESIGN-LE[74]便采用該思路。ProDESIGN-LE以每個(gè)鄰近殘基的殘基類(lèi)型和相對(duì)于中心殘基的3×3變換矩陣R和三維平移向量t來(lái)表示中心殘基的局部環(huán)境,將特征輸入一個(gè)3層的Transformer來(lái)學(xué)習(xí)殘基對(duì)其局部環(huán)境的依賴(lài)性,并輸出其嵌入圖,后進(jìn)一步使用全連接層將嵌入圖轉(zhuǎn)化為20種氨基酸類(lèi)型的分布。訓(xùn)練好的Transformer模型在目標(biāo)結(jié)構(gòu)的序列上迭代地選擇合適的殘基,并相應(yīng)地更新相鄰殘基的局部環(huán)境,最終獲得所有殘基都與自身局部環(huán)境匹配良好的設(shè)計(jì)序列。ProDESIGN-LE模型在計(jì)算指標(biāo)評(píng)估和實(shí)驗(yàn)驗(yàn)證上均取得不錯(cuò)的結(jié)果,在設(shè)計(jì)的5個(gè)CATⅢ蛋白中,有3個(gè)具有良好的溶解性。

        與CNN方法相比,圖模型不需要像CNN那樣單獨(dú)處理每個(gè)殘基及其周邊結(jié)構(gòu),從而減小了編碼的數(shù)據(jù)規(guī)模并提高了訓(xùn)練效率。GNN能夠充分挖掘結(jié)構(gòu)信息并獲得不錯(cuò)的序列恢復(fù)率,能夠正確處理序列中殘基對(duì)的長(zhǎng)、短程相互作用關(guān)系,可以在效率和精度之間取得較好的平衡。

        隨著固定骨架蛋白質(zhì)序列設(shè)計(jì)模型的不斷發(fā)展,其預(yù)測(cè)性能和精度大幅度提升,序列恢復(fù)率逐步提升,預(yù)測(cè)困惑度逐步降低(表1,表2)。

        表1 固定骨架序列設(shè)計(jì)模型在CATH 4.2測(cè)試集上的序列恢復(fù)率和困惑度Table 1 Sequence recovery rate and perplexity of the fixedbackbone sequence design model on CATH 4.2 test set

        表2 固定骨架序列設(shè)計(jì)模型在TS50 &TS500測(cè)試集上的序列恢復(fù)率和困惑度Table 2 Sequence recovery rate and perplexity of the fixed-backbone sequence design model on TS50 &TS500 test sets

        2 可變骨架的序列設(shè)計(jì)

        與固定骨架設(shè)計(jì)問(wèn)題不同,在可變骨架設(shè)計(jì)問(wèn)題中,蛋白質(zhì)確切的骨架結(jié)構(gòu)通常都是未知的,因此在設(shè)計(jì)過(guò)程中需要同時(shí)考慮優(yōu)化序列和結(jié)構(gòu)。

        2.1 幻想設(shè)計(jì)

        深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠從蛋白質(zhì)結(jié)構(gòu)或節(jié)點(diǎn)關(guān)系中識(shí)別和提取特征并將這些特征顯著增強(qiáng)后輸出。若反其道行之,對(duì)神經(jīng)元輸入一些抽象的特征,讓每個(gè)神經(jīng)元模擬出最可能具有這些特征的蛋白結(jié)構(gòu),再將結(jié)構(gòu)信息反傳回網(wǎng)絡(luò),經(jīng)過(guò)多輪迭代優(yōu)化即能生成最合適的蛋白序列或結(jié)構(gòu)。2015年Google發(fā)布的DeepDream便是能夠以此原理在圖片中產(chǎn)生不存在的物品,生成的圖片如同夢(mèng)境中的畫(huà)面一樣。

        前文提到trRosetta能夠快速預(yù)測(cè)一個(gè)蛋白質(zhì)序列的空間約束,Anishchenko等[80]重新訓(xùn)練了一個(gè)背景網(wǎng)絡(luò),將輸入trRosetta的序列在自身的輸出結(jié)構(gòu)上不斷迭代,使預(yù)測(cè)結(jié)構(gòu)的空間約束逐漸具有清晰的分布,這種方法被稱(chēng)為幻想(hallucination)設(shè)計(jì)。首先將一個(gè)隨機(jī)序列轉(zhuǎn)換為折疊蛋白序列的編碼,同時(shí)輸入隨機(jī)噪聲得到背景的空間約束。使用馬爾科夫鏈蒙特卡洛(MCMC)算法對(duì)序列進(jìn)行隨機(jī)突變,再將其輸入trRosetta模型中逐輪預(yù)測(cè)空間約束,以Kullback-Leibler(KL)散度對(duì)序列約束和背景約束的分布差異進(jìn)行優(yōu)化,使得到的空間約束逐漸逼近真實(shí)蛋白質(zhì),并借此折疊蛋白3D結(jié)構(gòu)(圖8)。

        圖8 hallucination模型原理示意圖Fig.8 Architecture for the hallucination model

        TrDesign-motif[81]將trRosetta和hallucination有機(jī)結(jié)合起來(lái)用于蛋白質(zhì)結(jié)合motif的設(shè)計(jì)。對(duì)于活性位點(diǎn),初始輸入骨架的2D特征作為目標(biāo)分布,讓motif功能部分預(yù)測(cè)序列與原結(jié)構(gòu)盡可能地相似;而在自由幻想部分,將隨機(jī)噪聲的2D特征分布作為背景,讓生成的序列盡可能遠(yuǎn)離其分布。使用混合的損失函數(shù)來(lái)優(yōu)化結(jié)構(gòu)和序列,創(chuàng)造出一個(gè)攜帶功能motif片段的新蛋白結(jié)構(gòu)。

        RFDesign使用constrained hallucination[82]對(duì)幻想算法進(jìn)行約束,優(yōu)化序列,在保證預(yù)測(cè)結(jié)構(gòu)的功能基序(motif)與目標(biāo)結(jié)構(gòu)接近的同時(shí),自由幻想生成其非功能位點(diǎn)(圖9)。inpainting[82]進(jìn)行蛋白結(jié)構(gòu)補(bǔ)全(即RFjoint2[82]),將trRosetta換成RoseTTAFold框架,并嘗試不同的結(jié)構(gòu)掩蔽方式訓(xùn)練一個(gè)蛋白結(jié)構(gòu)和序列模型,從功能位點(diǎn)出發(fā)填充非功能區(qū)的序列和結(jié)構(gòu),創(chuàng)建一個(gè)可行的蛋白質(zhì)主鏈。inpainting可以同時(shí)進(jìn)行結(jié)構(gòu)和序列生成,不依賴(lài)于trRosetta或反向傳播的更新,可以通過(guò)輸入主鏈走向來(lái)提高性能。

        圖9 Constrained hallucination模型原理示意圖Fig.9 Architecture for the Constrained hallucination model

        研究人員使用以上三種幻想方法設(shè)計(jì)了金屬蛋白、酶活性位點(diǎn)和蛋白結(jié)合蛋白等,并都進(jìn)行了計(jì)算機(jī)模擬和實(shí)驗(yàn)測(cè)試相結(jié)合的驗(yàn)證[82]。模型中的inpainting和hallucinate模塊能夠?qū)崿F(xiàn)大腸桿菌鐵蛋白(E.colibacterioferritin)雙鐵結(jié)合位點(diǎn)的重新構(gòu)建,在設(shè)計(jì)的96個(gè)鐵蛋白結(jié)構(gòu)中有76個(gè)可溶性表達(dá),8個(gè)具有金屬結(jié)合的特征光譜位移,3個(gè)具有與AlphaFold折疊結(jié)構(gòu)一致的二級(jí)結(jié)構(gòu)(圓二色光譜鑒定),并且能夠穩(wěn)定地與金屬絡(luò)合?;孟朐O(shè)計(jì)能夠產(chǎn)生碳酸酐酶Ⅱ上三個(gè)Zn2+配位組氨酸和環(huán)上蘇氨酸組成的基序,并正確放置Zn2+配位;幻想模型還構(gòu)建了參與甾體激素生物合成的D5-3-酮甾體異構(gòu)酶(KSI)的催化側(cè)鏈,兩種酶的活性位點(diǎn)與天然晶體結(jié)構(gòu)幾乎完全匹配。文章中還展示了幻想設(shè)計(jì)通過(guò)固定靶點(diǎn)蛋白和結(jié)合蛋白部分位點(diǎn),修復(fù)缺失位點(diǎn)(inpainting)或自由幻想(hallucinate)全新的骨架結(jié)構(gòu)來(lái)設(shè)計(jì)蛋白質(zhì)結(jié)合蛋白的過(guò)程。其中設(shè)計(jì)的結(jié)合蛋白pdl1_inp_1與PDL1結(jié)合能力(Kd=326 nmol/L)相較于野生型PD-1(Kd=3.9 mmol/L)增強(qiáng);設(shè)計(jì)的TrkA在配體結(jié)合時(shí)呈現(xiàn)與天然結(jié)構(gòu)相同的二聚化現(xiàn)象;多種設(shè)計(jì)的Mdm2癌基因結(jié)合蛋白與抑癌蛋白p53的天然N端螺旋結(jié)合緊密。

        然而,RFDesign在使用RoseTTAFold生成時(shí),由于采用單次運(yùn)行預(yù)測(cè)缺失結(jié)構(gòu)的方式,生成的序列長(zhǎng)度和結(jié)構(gòu)質(zhì)量都受到一定限制。

        Zhang等[83]基于上文提到的hallucinate方法,提出一種從頭設(shè)計(jì)蛋白質(zhì)折疊的自動(dòng)自適應(yīng)優(yōu)化工具包AutoFoldFinder,通過(guò)序列優(yōu)化的方式產(chǎn)生具有新蛋白元件排列方式的氨基酸序列與結(jié)構(gòu),使用同余系數(shù)圖對(duì)齊(congruence coefficient map alignment,CM-Align)替換hallucinate方法中的KL散度,無(wú)需對(duì)整個(gè)接觸圖的全局比較,能夠更精細(xì)地反映接觸圖在局部二級(jí)結(jié)構(gòu)上的特征差異。AutoFoldFinder通過(guò)序列優(yōu)化將生成一千條蛋白質(zhì)序列中低相似度序列比例從22%提升至30.9%,加入CM-Align方法后,超過(guò)50%的結(jié)構(gòu)與已知結(jié)構(gòu)有顯著差異。

        最近Baker團(tuán)隊(duì)[84]發(fā)布了首個(gè)使用深度學(xué)習(xí)工具從頭設(shè)計(jì)熒光酶結(jié)構(gòu)的工作。研究人員選擇合成熒光素酶底物二苯基特拉嗪(diphenylterrazine,DTZ)作為目標(biāo)酶的作用底物,作者首先構(gòu)建了DTZ陰離子構(gòu)象系綜,隨后圍繞每個(gè)構(gòu)象,使用RIFGen方法[85-86]枚舉了與DTZ相互作用的氨基酸側(cè)鏈旋轉(zhuǎn)異構(gòu)體相互作用場(chǎng)(RIF),最后使用RIFDock將每個(gè)DTZ構(gòu)象和RIF在約4000個(gè)天然蛋白骨架的中心腔中進(jìn)行對(duì)接,以最大化蛋白-DTZ相互作用。此方法發(fā)現(xiàn)與DTZ結(jié)構(gòu)互補(bǔ)的結(jié)合口袋中大多為核轉(zhuǎn)運(yùn)因子2(nuclear transport factor 2,NTF2)家族蛋白,將對(duì)接獲得的骨架和口袋使用family-wide hallucination方法進(jìn)行優(yōu)化設(shè)計(jì)。

        family-wide hallucination集成了無(wú)限制幻想設(shè)計(jì)[80,82]與Rosetta序列設(shè)計(jì)方法[55],對(duì)環(huán)(loop)和可變區(qū)域(variable regions)的序列和結(jié)構(gòu)進(jìn)行從頭設(shè)計(jì),并對(duì)核心區(qū)域的結(jié)構(gòu)進(jìn)行序列優(yōu)化。該方法從2000個(gè)天然NTF2序列出發(fā),在序列空間中進(jìn)行蒙特卡洛搜索,每一步都進(jìn)行一次序列變化,并使用trRosetta進(jìn)行結(jié)構(gòu)預(yù)測(cè)。模型的損失函數(shù)由兩部分構(gòu)成:結(jié)構(gòu)保守區(qū)域基于與NTF2-like蛋白實(shí)驗(yàn)結(jié)構(gòu)的輸入殘基距離和方向分布的一致性進(jìn)行評(píng)估;而可變區(qū)域基于網(wǎng)絡(luò)預(yù)測(cè)與背景分布之間的KL散度計(jì)算的預(yù)測(cè)殘基間幾何結(jié)構(gòu)的置信度進(jìn)行評(píng)估。氫鍵網(wǎng)絡(luò)也被納入設(shè)計(jì)的結(jié)構(gòu)中,以增加結(jié)構(gòu)特異性。實(shí)驗(yàn)數(shù)據(jù)顯示family-wide hallucination生成的1615個(gè)骨架在原生結(jié)構(gòu)的空間內(nèi)采樣更多,并且比原生骨架或非深度學(xué)習(xí)能量?jī)?yōu)化生成的骨架具有更強(qiáng)的序列結(jié)構(gòu)關(guān)系。

        研究人員運(yùn)用以上方法生成的蛋白骨架設(shè)計(jì)了人工熒光素酶,能夠以高選擇性催化DTZ的氧化化學(xué)發(fā)光。其中活性最強(qiáng)的酶LuxSit-i在保持與天然熒光酶催化效率相當(dāng)?shù)耐瑫r(shí)大大提高了對(duì)底物的特異性和熱穩(wěn)定性(變性溫度>95 ℃)。

        2.2 能量模型

        可變骨架的蛋白質(zhì)設(shè)計(jì)可以分解成骨架結(jié)構(gòu)的生成和固定骨架設(shè)計(jì)兩個(gè)獨(dú)立的子任務(wù)。中國(guó)科學(xué)技術(shù)大學(xué)劉海燕組[87]提出了一種全新的、使用神經(jīng)網(wǎng)絡(luò)形式能量項(xiàng)的統(tǒng)計(jì)模型——SCUBA,使基于連續(xù)采樣和優(yōu)化主鏈中心能量面來(lái)設(shè)計(jì)新主鏈的方法成為可能。SCUBA模型將主鏈的可設(shè)計(jì)性分解為幾個(gè)關(guān)鍵因素的作用,包括局部構(gòu)象傾向性、肽主鏈氫鍵幾何構(gòu)象以及手性附著和緊密排列的側(cè)鏈所需的骨架空間。研究者使用統(tǒng)計(jì)能量項(xiàng)來(lái)表示各種相互作用,用一種名為鄰接計(jì)數(shù)神經(jīng)網(wǎng)絡(luò)(neighbor counting-neural network,NC-NN)的通用方法訓(xùn)練。NC-NN包含兩步過(guò)程,首先通過(guò)基于核的密度估計(jì)(即鄰接計(jì)數(shù))從原始結(jié)構(gòu)數(shù)據(jù)估計(jì)統(tǒng)計(jì)能量值,然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)(三層全連接感知機(jī))表示勢(shì)。得到的統(tǒng)計(jì)能量項(xiàng),除了可以提供易于計(jì)算的函數(shù)值和導(dǎo)數(shù)用于結(jié)構(gòu)采樣和優(yōu)化外,還可以高保真地表示復(fù)雜的、高維且高度相關(guān)的真實(shí)結(jié)構(gòu)數(shù)據(jù)分布。

        在模板未知條件下,使用神經(jīng)網(wǎng)絡(luò)形式的能量項(xiàng)模型SCUBA驅(qū)動(dòng)的隨機(jī)動(dòng)力學(xué)(stochastic dynamics)和模擬退火算法(simulated annealing)來(lái)生成可設(shè)計(jì)的新蛋白質(zhì)主鏈骨架,再使用前文中提到的ABACUS2[69]對(duì)主鏈骨架序列進(jìn)行序列優(yōu)化和骨架松弛[10]設(shè)計(jì)的迭代,從而完成對(duì)蛋白質(zhì)的可變骨架從頭設(shè)計(jì)任務(wù)。在9種用SCUBA設(shè)計(jì)的高精度骨架蛋白結(jié)構(gòu)中,其中有4種具有新穎的非天然結(jié)構(gòu)。這一結(jié)果充分展示了SCUBA在蛋白設(shè)計(jì)中的實(shí)用性,特別是在設(shè)計(jì)功能蛋白時(shí),能量函數(shù)驅(qū)動(dòng)的骨架采樣和優(yōu)化可以很容易地進(jìn)行定制,以促進(jìn)對(duì)結(jié)構(gòu)空間的廣泛探索。另外,SCUBA+ABACUS2[87]策略所設(shè)計(jì)的蛋白質(zhì)具有高于天然蛋白質(zhì)骨架的熱穩(wěn)定性,設(shè)計(jì)成功率約為42%(38個(gè)經(jīng)實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)中有16個(gè)成功折疊,14個(gè)H2E4蛋白質(zhì)和4個(gè)H4蛋白質(zhì)),設(shè)計(jì)的骨架與實(shí)驗(yàn)獲得的結(jié)構(gòu)一致,達(dá)到原子精度,同時(shí)設(shè)計(jì)的H2E4和H4蛋白與具有相似結(jié)構(gòu)的已知天然蛋白質(zhì)具有低序列同一性(平均同一性14%)。

        Liang等[88]隨后發(fā)展了一個(gè)基于級(jí)數(shù)展開(kāi)的能量函數(shù)模型OSCAR-Design。在四個(gè)獨(dú)立的階段中優(yōu)化目標(biāo)函數(shù)Etotal=Eside+Ebb+Eref的各項(xiàng)參數(shù),最大化原結(jié)構(gòu)和其他旋轉(zhuǎn)異構(gòu)體之間的能量差;最小化天然環(huán)結(jié)構(gòu)中選擇環(huán)誘餌之間的RMSD,最大化氨基酸組成與天然序列的相似性;懲罰埋藏的非氫鍵極性原子。作者使用Monte Carlo模擬退火算法對(duì)OSCAR-Design進(jìn)行測(cè)試。OSCARDesign在側(cè)鏈和loop預(yù)測(cè)任務(wù)中與OSCAR[89-90]和LEAP[91]一樣準(zhǔn)確。在從頭設(shè)計(jì)任務(wù)中,OSCARDesign在測(cè)試集達(dá)到38%~43%天然序列恢復(fù)率,成功還原了75%的親疏水性殘基,氨基酸組成的整體相似性達(dá)到90%。

        3 結(jié)構(gòu)和序列生成模型

        在第一部分介紹的蛋白質(zhì)設(shè)計(jì)工作中,設(shè)計(jì)過(guò)程往往從設(shè)計(jì)蛋白的主鏈結(jié)構(gòu)開(kāi)始,該結(jié)構(gòu)可以源自天然蛋白質(zhì),蛋白結(jié)構(gòu)預(yù)測(cè)模型的輸出,根據(jù)對(duì)天然蛋白的觀察、比較等方式手工搭建的大致三維構(gòu)象等。近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域生成模型的巨大進(jìn)展為生成全新的蛋白質(zhì)結(jié)構(gòu)和序列奠定了基礎(chǔ)。深度生成模型在快速發(fā)現(xiàn)新穎、合理的蛋白質(zhì)結(jié)構(gòu)方面有著巨大的潛力。

        3.1 生成對(duì)抗網(wǎng)絡(luò)(GAN)與變分自編碼器(VAE)

        Huang團(tuán)隊(duì)[92]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)的生成模型,策略具體細(xì)節(jié)如圖10所示。蛋白質(zhì)的結(jié)構(gòu)使用蛋白質(zhì)主鏈上成對(duì)Cα之間的距離(以?為單位)來(lái)表示。GAN模型中的生成器通過(guò)輸入一個(gè)正態(tài)分布隨機(jī)變量z~N(0,I),輸出一個(gè)成對(duì)距離圖,判別器判斷生成器輸出的結(jié)果是真實(shí)的(數(shù)據(jù)樣本)或是虛假的(生成器輸出),而后生成器對(duì)生成的結(jié)果不斷迭代優(yōu)化用以欺騙判別器,整個(gè)模型最終輸出得到合理的成對(duì)距離圖。得到的距離圖隨后通過(guò)交替方向乘子法(alternating direction multiplier method,ADMM)折疊成3D結(jié)構(gòu)從而得到Cα的坐標(biāo),最后使用一個(gè)快速追蹤腳本將Cα原子的坐標(biāo)匹配到一個(gè)合理的蛋白質(zhì)骨架。研究者將此方案應(yīng)用于補(bǔ)全蛋白質(zhì)結(jié)構(gòu)中缺失殘基的任務(wù),同時(shí)還擴(kuò)展生成建模程序來(lái)解決端到端的結(jié)構(gòu)恢復(fù)問(wèn)題,并減少當(dāng)前模型在精細(xì)局部結(jié)構(gòu)中出錯(cuò)的問(wèn)題。在后續(xù)研究中,Huang等[93]進(jìn)一步優(yōu)化了他們的方案,通過(guò)所有主鏈原子之間的成對(duì)距離來(lái)表示蛋白質(zhì)結(jié)構(gòu),并提出了一種以可微分的方式直接恢復(fù)和細(xì)化相應(yīng)主鏈坐標(biāo)的方法(圖11)。具體來(lái)說(shuō),在GAN生成骨架原子距離矩陣之后,采用卷積神經(jīng)網(wǎng)絡(luò),通過(guò)自編碼器損失從成對(duì)距離矩陣中恢復(fù)蛋白質(zhì)骨架坐標(biāo)。相較于ADMM恢復(fù)方法,這種新提出的方案是一種快速、完全可微分的方法,即生成的3D骨架坐標(biāo)的錯(cuò)誤可以反向傳播到生成器網(wǎng)絡(luò)。

        圖10 生成對(duì)抗模型用于蛋白二維接觸圖和三維骨架的生成Fig.10 Generative adversarial network for generating contact map and 3D backbone structure.

        圖11 Famliy-wide幻想蛋白質(zhì)結(jié)構(gòu)生成模型架構(gòu)圖Fig.11 Architectuer for the famliy-wide hallucination protein structure generation model

        以上提到的GAN方法在結(jié)構(gòu)生成領(lǐng)域表現(xiàn)出了較好的性能,但也存在一定的弊端,例如生成的距離約束不能保證是歐氏有效的,因此不能恢復(fù)完全滿(mǎn)足生成約束的3D坐標(biāo)[94]。2020年Huang等[94]提出了一種構(gòu)建蛋白質(zhì)骨架的新方法Ig-VAE,使用變分自編碼器(variational autoencoder,VAE)直接生成免疫球蛋白的三維坐標(biāo)。模型的架構(gòu)如圖12所示。首先通過(guò)輸入蛋白的原子坐標(biāo)計(jì)算出主鏈殘基二面角和距離矩陣,其次將距離矩陣輸入編碼器壓縮特征得到低維的潛在空間表征,潛在空間表征傳遞給解碼器,解碼器直接生成蛋白3D空間中的坐標(biāo)(圖12)。通過(guò)重構(gòu)出的坐標(biāo)重新計(jì)算主鏈殘基二面角和距離矩陣,角度和距離矩陣的誤差都通過(guò)3D坐標(biāo)反向傳播進(jìn)網(wǎng)絡(luò)中。訓(xùn)練完成后,Ig-VAE在結(jié)構(gòu)嵌入及重構(gòu)、隱空間插值以及生成能力方面表現(xiàn)良好,是一種構(gòu)建單結(jié)構(gòu)域抗體的有效工具。

        圖12 Ig-VAE模型架構(gòu)Fig.12 Framwork for Ig-VAE

        2022年許錦波組[95]提出了一種直接在三維坐標(biāo)空間中對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行建模的、基于VAE的模型,相比于先前提出的直接坐標(biāo)生成模型[3],其應(yīng)用僅限于固定長(zhǎng)度的蛋白質(zhì),新提出的模型通過(guò)提取關(guān)于蛋白質(zhì)幾何形狀的不變表征(invariant representations),并使用局部對(duì)齊的坐標(biāo)損失函數(shù)直接在坐標(biāo)空間上執(zhí)行梯度優(yōu)化,解決了輸入和輸出空間中的旋轉(zhuǎn)和平移等方差,因此可以直接、靈活地對(duì)三維結(jié)構(gòu)進(jìn)行建模。

        此外基于VAE的模型還有Guo等[96]提出的DECO-VAE模型。在該模型中,訓(xùn)練數(shù)據(jù)集中的3D結(jié)構(gòu)首先表示為二維接觸圖,而后經(jīng)由圖神經(jīng)網(wǎng)絡(luò)提取節(jié)點(diǎn)和邊特征輸入編碼器,解碼器的輸出以既定的方法還原為蛋白質(zhì)3D結(jié)構(gòu)。Harteveld等[97]提出的GENESIS模型通過(guò)優(yōu)化蛋白質(zhì)拓?fù)渚Ц衲P驮诰嚯x和角度特征圖中的2D表示來(lái)去噪蛋白質(zhì)拓?fù)渚Ц衲P筒輬D。GENESIS結(jié)合trRosetta[80]設(shè)計(jì)框架,為不同的蛋白質(zhì)折疊生成了大量的不同序列。

        3.2 擴(kuò)散模型

        現(xiàn)有的蛋白質(zhì)3D結(jié)構(gòu)生成方法僅限于在高度約束的環(huán)境中生成蛋白的拓?fù)浣Y(jié)構(gòu)[94]。去噪擴(kuò)散概率模型(denoising diffusion probabilistic models,DDPM)是一類(lèi)從復(fù)雜數(shù)據(jù)分布中采樣的生成模型。DDPM定義了一個(gè)正向擴(kuò)散過(guò)程,將數(shù)據(jù)擾動(dòng)為噪聲,學(xué)習(xí)反向過(guò)程中每一步的噪聲為何,再逐步從數(shù)據(jù)分布中將隨機(jī)高斯噪聲去噪最終產(chǎn)生樣本。近年來(lái)DDPM已被訓(xùn)練用來(lái)重建不同形式的被噪聲破壞的數(shù)據(jù)(例如圖像或文本)。DDPM應(yīng)用于蛋白設(shè)計(jì)領(lǐng)域則是將加噪后的蛋白質(zhì)結(jié)構(gòu)多步迭代后還原為真實(shí)結(jié)構(gòu)用以訓(xùn)練;使用訓(xùn)練好的模型對(duì)輸入隨機(jī)的高斯噪聲逐步“去噪”來(lái)生成折疊性質(zhì)完好的蛋白結(jié)構(gòu),實(shí)現(xiàn)蛋白設(shè)計(jì)或結(jié)構(gòu)生成。

        DDPM模型[98-99]輸入的隨機(jī)性使得去噪軌跡和輸出的結(jié)構(gòu)具備高度多樣性,模型不需要起始的三維拓?fù)浣Y(jié)構(gòu)信息,但可以通過(guò)提供額外初始結(jié)構(gòu)信息或施加外部約束條件,引導(dǎo)結(jié)構(gòu)生成過(guò)程中每個(gè)步驟的迭代,直至特定的設(shè)計(jì)目標(biāo)(圖13)。

        圖13 蛋白質(zhì)結(jié)構(gòu)生成擴(kuò)散模型的原理示意圖[100]Fig.13 Schematic diagram of the diffusion model for protein structure generation[100]

        Trippe等[101]開(kāi)發(fā)了ProtDiff(一種蛋白骨架擴(kuò)散概率模型)以及SMCDiff(一種以模體為條件的骨架生成方法)。ProtDiff模型采用分子E(3)等變擴(kuò)散模型用于蛋白質(zhì)結(jié)構(gòu)生成。SMCDiff是一種基于順序蒙特卡洛的模體-骨架問(wèn)題解決模型,將無(wú)條件訓(xùn)練的擴(kuò)散概率模型用于條件采樣。模體-骨架生成整體框架包含兩個(gè)步驟,首先訓(xùn)練 ProtDiff來(lái)學(xué)習(xí)蛋白質(zhì)骨架上的分布,然后使用 SMCDiff和ProtDiff來(lái)修補(bǔ)給定模體。評(píng)估結(jié)果表明,該框架能夠生成多樣化的超過(guò)20個(gè)氨基酸骨架結(jié)構(gòu),計(jì)算時(shí)間縮短至數(shù)分鐘甚至更短。2022年Wu等[102]提出了FoldingDiff,一種使用Transformer作為主要架構(gòu)訓(xùn)練的去噪擴(kuò)散概率模型(圖14)。對(duì)于蛋白質(zhì)的3D結(jié)構(gòu),研究者們使用氨基酸殘基間的角度(ψ、ω、φ、θ1、θ2、θ3)來(lái)表示,其中3個(gè)角為二面角,另外3個(gè)角為鍵角。訓(xùn)練天然蛋白骨架X0開(kāi)始,通過(guò)正向過(guò)程向其中迭代添加高斯噪聲,直到Xt時(shí)刻角度無(wú)法辨識(shí)。反向過(guò)程中,研究者們采用了一個(gè)雙向的Transformer架構(gòu),在正向過(guò)程中得到的實(shí)例上學(xué)習(xí)反向去噪過(guò)程。經(jīng)過(guò)訓(xùn)練得到的擴(kuò)散模型可以生成高質(zhì)量的、多樣化的、在生物學(xué)上合理的蛋白質(zhì)結(jié)構(gòu)。生成的結(jié)構(gòu)可帶有手性,同時(shí)表現(xiàn)出高度的可設(shè)計(jì)性。

        圖14 FoldingDiff訓(xùn)練流程Fig.14 Training flow of the FoldingDiff model

        除了上述的僅能生成蛋白主鏈骨架的模型外,DDPM模型還能夠聯(lián)合生成蛋白質(zhì)的結(jié)構(gòu)和序列,完成蛋白質(zhì)的從頭設(shè)計(jì)任務(wù)。

        ProteinSGM[103]模型可以從頭產(chǎn)生真實(shí)的蛋白質(zhì),并且可以將輸入的蛋白骨架和功能位點(diǎn)修復(fù)為預(yù)定義長(zhǎng)度的完整蛋白結(jié)構(gòu)。ProteinSGM將兩個(gè)殘基之間的6D坐標(biāo)特征作為輸入特征,將其轉(zhuǎn)化為2D的蛋白質(zhì)殘基接觸矩陣(圖15)。擴(kuò)散模型在2D接觸矩陣上逐漸添加噪聲并迭代進(jìn)行學(xué)習(xí)正向擴(kuò)散的進(jìn)程,訓(xùn)練完成的模型再對(duì)噪聲反向逐步去噪,從噪聲中生成真實(shí)的殘基接觸矩陣樣本,后轉(zhuǎn)化為蛋白質(zhì)6D坐標(biāo)。使用模型的輸出殘基約束指導(dǎo)Rosetta Design[104]和Relax生成與6D坐標(biāo)約束相對(duì)應(yīng)的蛋白質(zhì)結(jié)構(gòu)。因?yàn)檫B續(xù)時(shí)間擴(kuò)散模型的采樣需要大量正向傳播的得分網(wǎng)絡(luò)來(lái)求解反向梯度,而RosettaDesign依賴(lài)于昂貴的蒙特卡洛算法來(lái)遍歷結(jié)構(gòu)勢(shì)能面找到局部最小值對(duì)應(yīng)的低能量結(jié)構(gòu),因此模型在高通量設(shè)計(jì)任務(wù)中選擇外接結(jié)構(gòu)預(yù)測(cè)算法(如AlphaFold2等)來(lái)減小計(jì)算量。

        圖15 ProteinSGM蛋白編碼和模型架構(gòu)圖Fig.15 Protein structure encoding and model architecture of ProteinSGM

        Ingraham等[105]提出的Chroma模型,能夠直接對(duì)新的蛋白質(zhì)結(jié)構(gòu)和序列進(jìn)行采樣,并調(diào)節(jié)生成過(guò)程,使其達(dá)到所需的特性和功能,同時(shí)實(shí)現(xiàn)完整蛋白復(fù)合物的3D結(jié)構(gòu)和序列的聯(lián)合建模且計(jì)算效率十分可觀。模型可以在不同線(xiàn)索下實(shí)現(xiàn)條件采樣,而無(wú)需重新訓(xùn)練。Chroma實(shí)現(xiàn)了一種可編程蛋白質(zhì)設(shè)計(jì)的新模式,這種模式為生成特定和量身定制的蛋白質(zhì)提供了可行性。

        Anand[106]模型通過(guò)定義二級(jí)結(jié)構(gòu)和殘基接觸矩陣約束嵌入到高維空間,再使用IPA模塊降維到三維空間中表征蛋白結(jié)構(gòu)。作者使用AlphaFold網(wǎng)絡(luò)架構(gòu)[38]中的不變點(diǎn)注意力(invariant point attention,IPA)模塊替換Transformer中的標(biāo)準(zhǔn)注意力模塊保證模型的平移旋轉(zhuǎn)不變性,使用類(lèi)似于BERT[107]的擴(kuò)散方法在骨架上生成序列。與其他DDPM模型不同,該模型不使用隨機(jī)產(chǎn)生的高斯噪聲,而是通過(guò)隨機(jī)掩蓋部分殘基,在[0,1]中作為t的函數(shù)進(jìn)行線(xiàn)性插值來(lái)訓(xùn)練模型;在生成時(shí),模型在t=T時(shí)掩蔽所有的殘基來(lái)進(jìn)行反向過(guò)程,從t=T到t= 0的時(shí)間步進(jìn)行迭代采樣。模型還允許人為給定條件信息編碼蛋白結(jié)構(gòu)。該模型完全從真實(shí)蛋白結(jié)構(gòu)數(shù)據(jù)中學(xué)習(xí),并生成蛋白質(zhì)拓?fù)浣Y(jié)構(gòu)的條件約束,以產(chǎn)生全原子骨架構(gòu)型以及序列和側(cè)鏈預(yù)測(cè)。作者用了3個(gè)獨(dú)立訓(xùn)練的模型分別生成蛋白結(jié)構(gòu)、序列和旋轉(zhuǎn)異構(gòu)體,并將模型應(yīng)用于無(wú)序列從頭生成、蛋白補(bǔ)全、序列設(shè)計(jì)、側(cè)鏈旋轉(zhuǎn)異構(gòu)體重排等任務(wù)中,結(jié)果表明其具有作為端到端的蛋白質(zhì)從頭設(shè)計(jì)工具的潛力。

        Baker組[100]隨后推出基于RoseTTAFold(RF)的擴(kuò)散模型RFdiffusion。將擴(kuò)散模型建模為預(yù)訓(xùn)練后微調(diào)的RoseTTAFold模型(圖16)。在使用RoseTTAFold進(jìn)行經(jīng)典結(jié)構(gòu)預(yù)測(cè)時(shí),模型的結(jié)構(gòu)輸入來(lái)自同源模板結(jié)構(gòu),每個(gè)模板結(jié)構(gòu)都有相關(guān)的每個(gè)殘基的“置信度”值。在RFdiffusion中,結(jié)構(gòu)輸入來(lái)自于部分(去)噪聲的結(jié)構(gòu),置信度特征被重新參數(shù)化以表示當(dāng)前的去噪時(shí)間步,模型在該時(shí)間步的條件上進(jìn)行結(jié)構(gòu)預(yù)測(cè),然后計(jì)算當(dāng)前輸入結(jié)構(gòu)到預(yù)測(cè)的最終結(jié)構(gòu)的噪聲插值,生成去噪的結(jié)構(gòu)并輸入到下一個(gè)時(shí)間步。RFdiffusion有著RF的序列信息通道,類(lèi)似于前文中提到的RFjoint,能夠在擴(kuò)散生成時(shí)逐漸地恢復(fù)被遮蔽的序列,通過(guò)輸入部分遮蔽的序列和完整結(jié)構(gòu)模板來(lái)預(yù)測(cè)未知位置的氨基酸分布,實(shí)現(xiàn)部分序列設(shè)計(jì)。為了生成用于訓(xùn)練或推斷的加噪蛋白質(zhì)結(jié)構(gòu),作者用N-Cα-C骨架對(duì)殘基編碼并進(jìn)行正向擴(kuò)散。對(duì)于平移,用3D高斯噪聲對(duì)殘基Cα坐標(biāo)進(jìn)行局部擾動(dòng);對(duì)于旋轉(zhuǎn),使用等變的SO(3)-Transformer[108]在旋轉(zhuǎn)矩陣上模擬布朗運(yùn)動(dòng)生成噪聲[109],使得模型具有全局的旋轉(zhuǎn)不變性和高維的表征能力。在后續(xù)無(wú)條件約束策略設(shè)計(jì)和限制拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)兩種策略下,RFdiffusion設(shè)計(jì)了包括蛋白質(zhì)單體、蛋白質(zhì)-肽復(fù)合物、對(duì)稱(chēng)寡聚體、酶和金屬結(jié)合蛋白等多種類(lèi)型的蛋白,證明了RFdiffusion在蛋白設(shè)計(jì)任務(wù)中的有效性和通用性。

        圖16 RFdiffusion模型原理示意圖Fig.16 Schematic diagram of the RFdiffusion model

        2022年劉海燕組[110]提出的SCUBA-D,可以從包含不同類(lèi)型或數(shù)量噪聲的原始骨架中生成高質(zhì)量的骨架。整個(gè)模型包含三個(gè)主要部分:一個(gè)低分辨率去噪模塊,用于從初始骨架結(jié)構(gòu)生成先驗(yàn)骨架結(jié)構(gòu);一個(gè)語(yǔ)言模型輔助的結(jié)構(gòu)擴(kuò)散模塊,用于生成高分辨率的輸出結(jié)構(gòu);一個(gè)判別器網(wǎng)絡(luò),用于輔助訓(xùn)練去噪擴(kuò)散模塊。在此框架中,初始結(jié)構(gòu)可以是完全隨機(jī)的也可以帶有若干約束,低分辨率去噪模塊經(jīng)過(guò)訓(xùn)練可以處理不同類(lèi)型的初始結(jié)構(gòu)。對(duì)不同的初始結(jié)構(gòu),該模塊的目標(biāo)是生成一個(gè)經(jīng)過(guò)優(yōu)化的粗糙的骨架結(jié)構(gòu),并保留所有初始結(jié)構(gòu)中包含的拓?fù)湫畔?。而后語(yǔ)言模型輔助的結(jié)構(gòu)擴(kuò)散模塊獲取低分辨率去噪模塊的輸出先驗(yàn)骨架結(jié)構(gòu),使用一系列去噪步驟對(duì)其進(jìn)行細(xì)化,最終得到高分辨率的輸出結(jié)構(gòu),其中使用氨基酸序列語(yǔ)言模型(ESM-1b模型[111])輔助結(jié)構(gòu)擴(kuò)散過(guò)程。為了保證生成結(jié)構(gòu)的高物理可信度,在架構(gòu)中還使用了兩個(gè)GAN風(fēng)格的判別器,在訓(xùn)練中提供額外的損失。而后研究者將結(jié)構(gòu)預(yù)測(cè)用于在生成骨架上設(shè)計(jì)的序列,來(lái)評(píng)估模型生成骨架的質(zhì)量。結(jié)果表明,模型可以始終生成高質(zhì)量的骨架結(jié)構(gòu),具有十分廣闊的應(yīng)用前景。

        目前,擴(kuò)散模型在抗體設(shè)計(jì)中的應(yīng)用已有報(bào)道的工作。2022年Luo等[112]提出了DiffAb模型,該模型基于擴(kuò)散概率模型以及等變神經(jīng)網(wǎng)絡(luò)對(duì)抗原抗體互補(bǔ)決定區(qū)(complementarity-determining regions)進(jìn)行聯(lián)合建模,可以生成針對(duì)特定抗原結(jié)構(gòu)的抗體。研究者們同時(shí)對(duì)蛋白序列、坐標(biāo)以及每個(gè)氨基酸的方向都進(jìn)行了建模,使得模型可以實(shí)現(xiàn)原子級(jí)別分辨率的抗體設(shè)計(jì)且對(duì)旋轉(zhuǎn)和平移等變。模型訓(xùn)練完成后,研究者將模型應(yīng)用于序列結(jié)構(gòu)協(xié)同設(shè)計(jì)、基于主鏈的抗體序列設(shè)計(jì)以及抗體優(yōu)化任務(wù)中,結(jié)果表明模型在3個(gè)任務(wù)上均有出色的表現(xiàn)。

        基于自注意力架構(gòu)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型能夠很好地捕獲序列和結(jié)構(gòu)之間的關(guān)系并高度準(zhǔn)確地預(yù)測(cè)蛋白3D結(jié)構(gòu),但在生成能力上較弱;而基于序列空間反向傳播迭代的蛋白幻想(hallucination)模型的性能高度依賴(lài)于輸入的序列條件和生成標(biāo)準(zhǔn)。擴(kuò)散模型使用的基于結(jié)構(gòu)預(yù)測(cè)模型的3D噪聲迭代方法,能夠通過(guò)外部條件保留特定功能片段進(jìn)行設(shè)計(jì),也能在更廣闊的序列和結(jié)構(gòu)空間中進(jìn)行探索,同時(shí)保證生成蛋白的合理性與多樣性。

        3.3 蛋白質(zhì)序列生成

        在蛋白質(zhì)巨大的序列空間中,想要得到特定的序列以匹配到已知三維結(jié)構(gòu)中執(zhí)行特定的生物功能,無(wú)疑是一個(gè)巨大的挑戰(zhàn)。近年來(lái)發(fā)展的人工智能方法不依賴(lài)于盲目搜索,而是基于推理的過(guò)程,直接從訓(xùn)練樣本中學(xué)習(xí)序列與結(jié)構(gòu)功能的關(guān)系,充分探索蛋白質(zhì)序列空間,得到新穎的蛋白質(zhì)序列。以下將簡(jiǎn)要介紹近年來(lái)發(fā)表的蛋白質(zhì)序列的生成模型。

        蛋白質(zhì)序列生成模型的發(fā)展主要受到自然語(yǔ)言處理領(lǐng)域出色模型的啟發(fā)。Repecka等[113]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)的蛋白質(zhì)序列生成模型——ProteinGAN(圖17)。ProteinGAN模型使用生成對(duì)抗網(wǎng)絡(luò)架構(gòu),訓(xùn)練數(shù)據(jù)為蘋(píng)果脫氫酶家族的16 706個(gè)蛋白序列。模型輸入長(zhǎng)為128的隨機(jī)向量(均值為0,方差為0.5),由生成器生成蛋白質(zhì)序列并將其呈遞給判別器。在與自然蛋白質(zhì)序列比較后,判別器對(duì)得到的序列進(jìn)行打分,判斷其為自然序列或是生成序列。生成器學(xué)習(xí)生成與自然序列近似的氨基酸序列用以欺騙判別器。經(jīng)過(guò)2.5M步訓(xùn)練之后,98%的生成序列包含蘋(píng)果酸脫氫酶的全部主要結(jié)構(gòu)域,同時(shí)序列聚類(lèi)中的不同氨基酸序列之間相似度不超過(guò)10%,這表明模型已極大程度上探索了蘋(píng)果酸脫氫酶家族的序列空間。

        圖17 ProteinGAN基本架構(gòu)Fig.17 Architecture for ProteinGAN

        隨著Transformer模型[60]在自然語(yǔ)言處理領(lǐng)域大放異彩,越來(lái)越多的研究者將Transformer架構(gòu)應(yīng)用到蛋白質(zhì)序列生成領(lǐng)域,由此產(chǎn)生了許多基于Transformer的序列生成模型。2020年Madami等[114]提出了ProGen模型。ProGen是一種條件Transformer語(yǔ)言模型。該模型使用帶有一系列蛋白性質(zhì)標(biāo)簽的氨基酸序列進(jìn)行訓(xùn)練,實(shí)現(xiàn)可控生成。ProGen生成的蛋白質(zhì)在能量上與天然蛋白質(zhì)相近,具有理想的生物功能。由Elnaggar等[115]提出的ProtTrans模型,使用4種不同的語(yǔ)言模型(兩種自回歸語(yǔ)言模型Tranformer-XL、XLNet以及兩種自編碼模型Bert、Albert)在蛋白質(zhì)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,從序列中學(xué)習(xí)提取有用的特征,而后引入下游監(jiān)督任務(wù),以實(shí)現(xiàn)單個(gè)殘基和單個(gè)蛋白性質(zhì)的預(yù)測(cè)。這些模型原則上具有序列生成能力。2021年Gligorijevi?等[116]提出了一種序列去噪自編碼器,該模型與一個(gè)功能預(yù)測(cè)器相結(jié)合,可以從大量未標(biāo)記的蛋白質(zhì)數(shù)據(jù)中學(xué)習(xí)蛋白質(zhì)序列的多樣性,而功能預(yù)測(cè)器可對(duì)序列采樣的方向進(jìn)行指導(dǎo)。在測(cè)試階段,研究者進(jìn)一步探究了模型在設(shè)計(jì)帶有金屬結(jié)合位點(diǎn)的序列以及重新設(shè)計(jì)功能增強(qiáng)的角質(zhì)酶的能力。

        2022年Moffat等[117]提出了DARK架構(gòu),用于在不斷迭代擴(kuò)展的合成蛋白質(zhì)序列上有效地訓(xùn)練生成模型,該模型使用了標(biāo)準(zhǔn)的Transformer解碼器架構(gòu),可生成具有不同有序結(jié)構(gòu)的新序列。隨后,F(xiàn)erruz等人提出了ProtGPT2模型[118],該模型是一個(gè)自回歸Transformer模型,擁有7.38億參數(shù)。模型的訓(xùn)練在Uniref-50數(shù)據(jù)集上進(jìn)行。訓(xùn)練完成后生成的序列顯示出與自然序列相似的預(yù)測(cè)穩(wěn)定性與動(dòng)態(tài)特性,同時(shí)在進(jìn)化上與當(dāng)前的蛋白質(zhì)序列空間相距甚遠(yuǎn)。Hesslow等[119]提出RITA模型是一個(gè)擁有12億參數(shù)的自回歸生成模型。該模型在UniRef-100數(shù)據(jù)集超過(guò)2.8億個(gè)蛋白質(zhì)序列上進(jìn)行訓(xùn)練。研究者們探究了模型大小對(duì)自回歸模型性能的影響,結(jié)果表明隨著模型規(guī)模的增大,模型的表現(xiàn)有了顯著的提升。而后Nijkamp等[120]提出的ProGen2自回歸Transformer模型具有更大的規(guī)模,模型參數(shù)最多可達(dá)64億,模型的訓(xùn)練在從基因組、宏基因組和免疫庫(kù)數(shù)據(jù)庫(kù)中提取的超過(guò)10億種蛋白質(zhì)的不同序列組成的數(shù)據(jù)集上進(jìn)行。為了評(píng)估ProGen2生成序列的能力,研究者選擇在以下三種情境對(duì)模型進(jìn)行評(píng)估,即:預(yù)訓(xùn)練后一般序列的生成,微調(diào)后的可以折疊成特殊結(jié)構(gòu)的序列生成,以及在抗體序列數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練后的抗體序列生成。結(jié)果表明,截至ProGen2模型的提出,ProGen2在生成合理序列方面的表現(xiàn)為當(dāng)前最佳。

        4 總結(jié)與展望

        在過(guò)去的數(shù)年中,人工智能技術(shù)在蛋白質(zhì)設(shè)計(jì)上取得了巨大的成功。先進(jìn)的人工智能模型憑借其強(qiáng)大的特征提取、數(shù)據(jù)統(tǒng)計(jì)和函數(shù)擬合能力,從現(xiàn)有蛋白質(zhì)結(jié)構(gòu)和序列數(shù)據(jù)中學(xué)習(xí)基本的特征和相互作用關(guān)系,擬合出具有泛化能力的函數(shù)模型,以應(yīng)用于各類(lèi)蛋白設(shè)計(jì)任務(wù)中。部分深度學(xué)習(xí)蛋白設(shè)計(jì)模型設(shè)計(jì)的蛋白已經(jīng)被實(shí)驗(yàn)驗(yàn)證具有所需的結(jié)構(gòu)和功能。

        深度學(xué)習(xí)模型的性能高度依賴(lài)于標(biāo)注準(zhǔn)確的多樣性數(shù)據(jù)。蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)需要從昂貴的生物實(shí)驗(yàn)結(jié)果中收錄蛋白質(zhì)功能和性質(zhì)相關(guān)的數(shù)據(jù)。通常,這些不斷積累的數(shù)據(jù)需要加以篩選和整理后才能作為深度學(xué)習(xí)模型的訓(xùn)練集和測(cè)試集。為保證深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠充分捕獲輸入蛋白質(zhì)結(jié)構(gòu)和序列中的一般性質(zhì)和潛在的依賴(lài)關(guān)系,一個(gè)具備合理性和可及性的蛋白質(zhì)特征表示方式頗為重要。從最簡(jiǎn)單直接的獨(dú)熱編碼、二級(jí)結(jié)構(gòu)類(lèi)型和組成原子在三維空間中的位置坐標(biāo),到高維空間中的嵌入圖,再到依據(jù)鄰近氨基酸殘基的環(huán)境表示方式,為同時(shí)兼顧關(guān)鍵部位的貢獻(xiàn)和全局構(gòu)象的完整表征,研究人員提出了多種蛋白質(zhì)結(jié)構(gòu)和序列的特征提取和編碼表示方法。對(duì)特定的蛋白質(zhì)設(shè)計(jì)任務(wù),如何選擇合適的蛋白序列結(jié)構(gòu)表征方式和人工智能模型,是研究者面臨的最主要問(wèn)題。

        目前,深度學(xué)習(xí)模型在蛋白質(zhì)設(shè)計(jì)任務(wù)上的普及和應(yīng)用依然存在著諸多問(wèn)題和挑戰(zhàn)。

        其一,和海量的蛋白序列相比,蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)中收錄數(shù)據(jù)的規(guī)模遠(yuǎn)遠(yuǎn)不足。在數(shù)據(jù)缺乏的情況下,構(gòu)思再精妙的模型也難以展現(xiàn)其高準(zhǔn)確和強(qiáng)泛化能力。另外,在深度學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)中進(jìn)行合理的數(shù)據(jù)增強(qiáng)或運(yùn)用掩蔽策略進(jìn)行訓(xùn)練也會(huì)使模型的性能有所提升。

        其二,目前對(duì)于蛋白設(shè)計(jì)模型的性能評(píng)估大多為天然序列恢復(fù)率和預(yù)測(cè)結(jié)構(gòu)與原結(jié)構(gòu)之間的差異,然而這兩個(gè)指標(biāo)僅能夠衡量設(shè)計(jì)序列或結(jié)構(gòu)與原蛋白的全局相似程度,并不能很好地量化設(shè)計(jì)蛋白的物理化學(xué)性質(zhì)。Dauparas等[73]在ProteinMPNN文章中也指出天然序列恢復(fù)率對(duì)結(jié)構(gòu)分辨率敏感,并且與局部殘基距離誤差相關(guān)性不高(Rpearson約為0.5),并不是一個(gè)能夠很好地評(píng)價(jià)蛋白序列預(yù)測(cè)模型性能的指標(biāo)。單個(gè)關(guān)鍵殘基預(yù)測(cè)的錯(cuò)誤對(duì)整體天然序列恢復(fù)率影響不大,但對(duì)序列折疊能力是毀滅性的。未來(lái)的方向可能是引入更多的評(píng)價(jià)指標(biāo),局部指標(biāo)包括二級(jí)結(jié)構(gòu)恢復(fù)率、溶劑可及表面、設(shè)計(jì)序列中無(wú)序殘基比例等[121]。設(shè)計(jì)結(jié)構(gòu)的全局評(píng)估可以使用結(jié)構(gòu)預(yù)測(cè)模型折疊的結(jié)構(gòu)并計(jì)算與目標(biāo)結(jié)構(gòu)的差異;長(zhǎng)時(shí)間分子動(dòng)力學(xué)模擬能夠衡量序列折疊后結(jié)構(gòu)的穩(wěn)定性、展現(xiàn)結(jié)合蛋白與靶點(diǎn)之間的相互作用構(gòu)象。將深度學(xué)習(xí)方法與傳統(tǒng)的基于能量函數(shù)的蛋白質(zhì)設(shè)計(jì)方法聯(lián)用或前后相接,將深度學(xué)習(xí)模型生成的大量候選序列或結(jié)構(gòu)輸入基于物理化學(xué)的能量函數(shù)模型中進(jìn)行驗(yàn)證和篩選,挑選出最優(yōu)序列進(jìn)行實(shí)驗(yàn)驗(yàn)證。充分發(fā)揮深度學(xué)習(xí)模型的高通量序列生成能力和物理化學(xué)模型對(duì)于蛋白的可表達(dá)性、可溶性以及聚集效應(yīng)等物理化學(xué)性質(zhì)的把握能力。

        其三,蛋白質(zhì)生理功能的實(shí)現(xiàn)大多是一個(gè)動(dòng)態(tài)的過(guò)程,并且酶的活性位點(diǎn)具有一定的柔性。目前蛋白設(shè)計(jì)模型著重于對(duì)單一蛋白質(zhì)功能構(gòu)象結(jié)構(gòu)的模仿或滿(mǎn)足,力求設(shè)計(jì)蛋白的可折疊性、可溶性和穩(wěn)定性,然而在功能位點(diǎn)和結(jié)合界面缺乏足夠的關(guān)注。因此設(shè)計(jì)蛋白質(zhì)的結(jié)合和變構(gòu)現(xiàn)象,依然是當(dāng)前研究中的難點(diǎn)。

        最后,絕大多數(shù)模型難以同時(shí)考慮設(shè)計(jì)蛋白的性質(zhì),如可表達(dá)性、可溶性、穩(wěn)定性、免疫原性等,只是擬合了天然蛋白從結(jié)構(gòu)到序列的映射關(guān)系。從頭設(shè)計(jì)具有強(qiáng)活性但低免疫原性和毒性的蛋白質(zhì)藥物,并佐以大量的生物實(shí)驗(yàn)結(jié)果,是人工智能蛋白質(zhì)設(shè)計(jì)方法展現(xiàn)自己廣闊應(yīng)用前景的最有力方式。

        傳統(tǒng)蛋白質(zhì)設(shè)計(jì)方法中使用的人工推導(dǎo)的能量函數(shù)能夠遍歷勢(shì)能面,指導(dǎo)著蛋白序列結(jié)構(gòu)生成優(yōu)化的方向,并且具備生物物理和生物化學(xué)上的可解釋性。深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的能量函數(shù)比傳統(tǒng)的更精確,但其神經(jīng)網(wǎng)絡(luò)模型內(nèi)部的特征表示和數(shù)據(jù)傳輸可能缺乏一定的可解釋性。希望未來(lái)的探索能夠逐步打開(kāi)深度學(xué)習(xí)模型內(nèi)部的“黑盒子”,在模型輸出結(jié)果的精確性和計(jì)算過(guò)程的可解釋上有所改善。

        近年在深度學(xué)習(xí)的賦能下,蛋白質(zhì)設(shè)計(jì)的成功率和合理性得到了大幅提高。未來(lái)人工智能技術(shù)將更多地應(yīng)用于抗體、酶、多肽藥物等各類(lèi)功能蛋白的設(shè)計(jì)中??梢灶A(yù)見(jiàn)的是,按需設(shè)計(jì)功能蛋白質(zhì)的時(shí)代即將到來(lái)。

        猜你喜歡
        殘基骨架蛋白質(zhì)
        基于各向異性網(wǎng)絡(luò)模型研究δ阿片受體的動(dòng)力學(xué)與關(guān)鍵殘基*
        蛋白質(zhì)自由
        肝博士(2022年3期)2022-06-30 02:48:48
        電子樂(lè)園·上旬刊(2022年5期)2022-04-09 22:18:32
        人工智能與蛋白質(zhì)結(jié)構(gòu)
        海外星云(2021年9期)2021-10-14 07:26:10
        “殘基片段和排列組合法”在書(shū)寫(xiě)限制條件的同分異構(gòu)體中的應(yīng)用
        骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
        蛋白質(zhì)計(jì)算問(wèn)題歸納
        蛋白質(zhì)二級(jí)結(jié)構(gòu)序列與殘基種類(lèi)間關(guān)聯(lián)的分析
        基于支持向量機(jī)的蛋白質(zhì)相互作用界面熱點(diǎn)殘基預(yù)測(cè)
        內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
        亚洲综合色自拍一区| 91精品国产综合久久久蜜| 伊人久久大香线蕉午夜av| 久久和欧洲码一码二码三码| 岛国成人在线| 一本久久综合亚洲鲁鲁五月夫| 白白色发布会在线观看免费| 丁香美女社区| 中文字幕高清在线一区二区三区| 亚洲AV秘 无码一区二区久久| 韩国一区二区三区黄色录像| а天堂8中文最新版在线官网 | 国偷自拍av一区二区三区| 国产一区二区不卡av| 精品亚洲一区二区区别在线观看| 中文字幕乱偷无码av先锋蜜桃| 四虎影视亚洲精品| 女优视频一区二区三区在线观看| 日本黑人亚洲一区二区| 国产福利精品一区二区| 免费成人毛片| 亚洲一区久久久狠婷婷| 日本h片中文字幕在线| 色欲综合一区二区三区| 熟妇五十路六十路息与子| 中文人妻av大区中文不卡| 第一九区另类中文字幕| 欧美肥妇毛多水多bbxx水蜜桃| 99精品国产综合久久久久五月天| 无码av一区在线观看| 大陆少妇一区二区三区| 国产精品成人免费视频一区| 在线观看免费午夜大片| 欧美乱人伦中文字幕在线不卡| 一区二区日本免费观看| 亚洲一区二区三区四区五区黄| 三年在线观看免费大全下载| 精品亚洲国产探花在线播放| 亚洲精品一区二区三区麻豆| 亚洲av成人片无码网站| 1000部拍拍拍18勿入免费视频下载|