摘 要: 固定骨架的蛋白質(zhì)設(shè)計(jì)通過(guò)計(jì)算的方法生成能夠折疊為目標(biāo)蛋白結(jié)構(gòu)的氨基酸序列,該過(guò)程可以被視作蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的逆過(guò)程.蛋白質(zhì)的功能與結(jié)構(gòu)有著緊密的聯(lián)系,因此基于特定結(jié)構(gòu)的蛋白質(zhì)設(shè)計(jì)在酶、疫苗、制藥、蛋白質(zhì)材料等領(lǐng)域都有著潛在的作用.基于蛋白質(zhì)設(shè)計(jì)的方法原則,根據(jù)當(dāng)前該領(lǐng)域的進(jìn)展討論了基于能量函數(shù)優(yōu)化和基于深度學(xué)習(xí)這兩種主要的蛋白質(zhì)設(shè)計(jì)算法類(lèi)型,最后總結(jié)當(dāng)前蛋白質(zhì)設(shè)計(jì)領(lǐng)域的瓶頸問(wèn)題并做出了展望.
關(guān)鍵詞: 蛋白質(zhì)設(shè)計(jì);能量函數(shù);多目標(biāo)優(yōu)化;深度學(xué)習(xí);蛋白質(zhì)序列與結(jié)構(gòu)
中圖分類(lèi)號(hào):TP18;Q816"" 文獻(xiàn)標(biāo)志碼:A"""" 文章編號(hào):1673-4807(2024)06-069-07
收稿日期: 2023-11-10"" 修回日期: 2021-04-29
基金項(xiàng)目: 國(guó)家自然科學(xué)基金項(xiàng)目(62073219)
作者簡(jiǎn)介: 李瑞祥(1990—),男,博士研究生,研究方向?yàn)橛?jì)算蛋白質(zhì)設(shè)計(jì).E-mail:21331004@zju.edu.cn
引文格式: 李瑞祥,沈紅斌.固定骨架的從頭蛋白質(zhì)設(shè)計(jì):多目標(biāo)優(yōu)化與深度學(xué)習(xí)算法研究進(jìn)展[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,38(6):69-75.DOI:10.20061/j.issn.1673-4807.2024.06.011.
Advances in computational de novo protein design with fixedbackbone based on muti-objective optimization and deep learning
LI Ruixiang, SHEN Hongbin
(Institute of Image Processing amp; Pattern Recognition, Shanghai Jiao Tong University, Shanghai 200240, China)
Abstract:Fixed backbone protein design generates amino acid sequences capable of folding into target protein structures by computational methods, which can be regarded as the inverse process of protein structure prediction. The function of proteins is closely linked to their structure; hence, protein design based on specific structures plays a potential pivotal role in fields such as enzymology, vaccines, pharmaceuticals, and protein materials. This paper briefly introduces the principles of protein design methods and then, based on current progress in the field, discusses two main types of protein design algorithms: those based on energy function optimization and those based on deep learning. Finally, we summarize the bottleneck in the field of protein design and discuss the potential directions in this field.
Key words:protein design, energy function, multi-objective optimization, deep learning, protein sequence and structure
蛋白質(zhì)在維持生物體的生理活動(dòng)中扮演著不可或缺的角色,也是用于構(gòu)筑合成生物系統(tǒng)的重要單元.氨基酸序列在生物體中自組織折疊成特定的三維結(jié)構(gòu),從而實(shí)現(xiàn)其生物學(xué)功能.蛋白質(zhì)的這種空間結(jié)構(gòu)由其線性氨基酸序列決定,揭示這一維序列與三維結(jié)構(gòu)之間的內(nèi)在聯(lián)系是結(jié)構(gòu)生物學(xué)領(lǐng)域長(zhǎng)期的挑戰(zhàn).針對(duì)特定的功能進(jìn)行定制設(shè)計(jì)的蛋白質(zhì),開(kāi)辟了科學(xué)研究與工業(yè)應(yīng)用的新領(lǐng)域,在這過(guò)程中,識(shí)別出能夠正確折疊形成目標(biāo)結(jié)構(gòu)的蛋白質(zhì)序列變得至關(guān)重要.固定主鏈的計(jì)算蛋白質(zhì)設(shè)計(jì)是根據(jù)已知的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)相應(yīng)的一維氨基酸序列的過(guò)程,它可以被視作蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的逆過(guò)程(由蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)的三維空間結(jié)構(gòu)).由于常見(jiàn)的氨基酸有20種,因此一條長(zhǎng)度為100的蛋白質(zhì)序列有20100種序列表達(dá)方式.在如此龐大的空間中搜索能折疊成目標(biāo)結(jié)構(gòu)的氨基酸序列非常困難,這為蛋白質(zhì)設(shè)計(jì)算法帶來(lái)了巨大的挑戰(zhàn)[1].
當(dāng)前計(jì)算蛋白質(zhì)設(shè)計(jì)的方法主要分為兩大類(lèi):一是基于能量函數(shù)優(yōu)化搜索的策略,它主要根據(jù)文獻(xiàn)[2]提出的折疊熱力學(xué)假說(shuō),即蛋白質(zhì)在生物體內(nèi)折疊為最低自由能狀態(tài),這一狀態(tài)由氨基酸序列確定;二是基于人工智能的端對(duì)端蛋白質(zhì)設(shè)計(jì),這主要得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展.在第一類(lèi)方法中,設(shè)計(jì)過(guò)程往往被看作是一個(gè)最優(yōu)化問(wèn)題.而在第二類(lèi)方法中,深度學(xué)習(xí)作為一種強(qiáng)大的統(tǒng)計(jì)和近似工具,通過(guò)處理大數(shù)據(jù)來(lái)捕捉復(fù)雜的結(jié)構(gòu)與序列的高階隱含關(guān)聯(lián)關(guān)系[3].
在蛋白質(zhì)設(shè)計(jì)領(lǐng)域,基于單目標(biāo)優(yōu)化的方法存在一些限制,主要是由于單一能量函數(shù)精確性有限,難以描述蛋白質(zhì)的所有可能形態(tài).不同的能量函數(shù)對(duì)不同的蛋白質(zhì)結(jié)構(gòu)的適用性具有差異,這就導(dǎo)致了單目標(biāo)優(yōu)化方法在特定情下可能會(huì)遇到性能瓶頸.因此,基于多目標(biāo)優(yōu)化的蛋白質(zhì)設(shè)計(jì)方法可以有效地利用不同的能量函數(shù)特點(diǎn)以一個(gè)整體且全面的角度評(píng)估采樣的蛋白質(zhì)序列,這種方法有望能提供更高的準(zhǔn)確度和魯棒性.
通常蛋白質(zhì)設(shè)計(jì)包含了固定主鏈構(gòu)象的蛋白質(zhì)設(shè)計(jì)和可變主鏈構(gòu)象的蛋白質(zhì)設(shè)計(jì);其中前者基于固定不變的目標(biāo)蛋白結(jié)構(gòu)預(yù)測(cè)生成相應(yīng)的氨基酸一維序列,后者在符合目標(biāo)蛋白質(zhì)結(jié)構(gòu)與功能的范疇下對(duì)蛋白質(zhì)結(jié)構(gòu)與序列進(jìn)行相互迭代的設(shè)計(jì),因此蛋白質(zhì)結(jié)構(gòu)可以在一定范圍內(nèi)進(jìn)行變化.文中討論的蛋白質(zhì)設(shè)計(jì)問(wèn)題主要是固定主鏈構(gòu)象的蛋白質(zhì)設(shè)計(jì),如圖1.
1 相關(guān)蛋白質(zhì)數(shù)據(jù)庫(kù)與方法介紹
在蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)方面,蛋白質(zhì)數(shù)據(jù)庫(kù)(protein data bank,PDB)是結(jié)構(gòu)生物學(xué)和生物信息學(xué)領(lǐng)域的一個(gè)重要資源,用于存儲(chǔ)生物大分子的實(shí)驗(yàn)確定的三維結(jié)構(gòu),主要集中在蛋白質(zhì)和核酸上[4].PDB中的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)主要是通過(guò) X 射線衍射,NMR核磁共振光譜學(xué)和低溫冷凍電鏡測(cè)定.基于固定主鏈構(gòu)象的蛋白質(zhì)設(shè)計(jì)算法的目標(biāo)蛋白通常使用PDB文件格式表示,同時(shí)蛋白質(zhì)設(shè)計(jì)的效果評(píng)估往往離不開(kāi)結(jié)構(gòu)比對(duì)所獲得的分?jǐn)?shù)(如模板建模得分[5]和均方差偏差),這一過(guò)程也是在PDB文件格式下進(jìn)行的,因此PDB數(shù)據(jù)庫(kù)在蛋白質(zhì)設(shè)計(jì)中有著至關(guān)重要的位置.
蛋白質(zhì)二級(jí)結(jié)構(gòu)構(gòu)象參數(shù)數(shù)據(jù)庫(kù)(dictionary of protein secondary structure,DSSP)[6]是一個(gè)用于描述蛋白質(zhì)二級(jí)結(jié)構(gòu)的數(shù)據(jù)庫(kù)和計(jì)算工具.DSSP定義了蛋白質(zhì)中可能出現(xiàn)的二級(jí)結(jié)構(gòu)元素,包括α-螺旋、β-折疊、β-轉(zhuǎn)角、無(wú)規(guī)則卷曲、π-螺旋等.它為每個(gè)氨基酸殘基分配了一個(gè)特定的二級(jí)結(jié)構(gòu)狀態(tài),以便更好地理解蛋白質(zhì)的結(jié)構(gòu).DSSP工具可以根據(jù)輸入的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù),自動(dòng)計(jì)算和分配二級(jí)結(jié)構(gòu)狀態(tài).
2 基于能量函數(shù)優(yōu)化的蛋白質(zhì)設(shè)計(jì)算法
在蛋白質(zhì)設(shè)計(jì)的研究領(lǐng)域,固定骨架設(shè)計(jì)方法的核心是探索那些能夠折疊成預(yù)定結(jié)構(gòu)的氨基酸序列,被認(rèn)為是一個(gè)對(duì)指定能量函數(shù)進(jìn)行優(yōu)化的過(guò)程,其成效依賴(lài)于能量函數(shù)的精確描述能力以及優(yōu)化算法尋找最小能量解的有效性.
2.1 蛋白質(zhì)設(shè)計(jì)中的能量函數(shù)
能量函數(shù)是評(píng)估蛋白質(zhì)序列與其目標(biāo)三級(jí)結(jié)構(gòu)匹配程度的關(guān)鍵數(shù)學(xué)工具.該函數(shù)綜合考慮了氨基酸序列在空間結(jié)構(gòu)中的多種物理化學(xué)相互作用,通過(guò)計(jì)算不同的能量分量來(lái)估算整個(gè)蛋白質(zhì)構(gòu)象的穩(wěn)定性.這些能量分量包含鍵能、靜電作用、疏水作用、以及基于大量經(jīng)驗(yàn)數(shù)據(jù)得出的統(tǒng)計(jì)勢(shì)能等.每一種能量項(xiàng)都對(duì)構(gòu)象的穩(wěn)定性做出不同貢獻(xiàn),進(jìn)而影響整體能量值.
常見(jiàn)的能量函數(shù)可以分為兩類(lèi):基于物理勢(shì)能的能量函數(shù)和基于統(tǒng)計(jì)信息的能量函數(shù).前者根據(jù)蛋白質(zhì)分子內(nèi)的各種物理作用力場(chǎng)建立,用于評(píng)估蛋白質(zhì)分子的結(jié)構(gòu)穩(wěn)定性.后者往往根據(jù)目標(biāo)蛋白結(jié)構(gòu)特征從蛋白質(zhì)數(shù)據(jù)庫(kù)中統(tǒng)計(jì)得到,反應(yīng)了特定結(jié)構(gòu)下的氨基酸類(lèi)型分布情況.
FoldX[7]能量項(xiàng)是一種基于物理力場(chǎng)的能量函數(shù),由各種作用力場(chǎng)項(xiàng)組成,公式如下:
f1=w1EVDW+w2ESOLVH+w3ESOLVP+EWB+EHBOND+EEL+EKON+w4ESMC+w5ESSC(1)
式中:w1,w2,…,w5分別為不同的權(quán)重;E為不同能量項(xiàng),依次為范德華力項(xiàng),疏水項(xiàng),極性項(xiàng),雙氫鍵項(xiàng),氫鍵項(xiàng),靜電項(xiàng),額外靜電項(xiàng),主鏈熵懲罰項(xiàng),側(cè)鏈熵懲罰項(xiàng).
該公式考慮了很多蛋白質(zhì)內(nèi)部和相互作用力,例如分子間作用力、靜電相互作用力、蛋白質(zhì)內(nèi)部能量等.FoldX能量函數(shù)可以用來(lái)評(píng)估蛋白質(zhì)的穩(wěn)定性和相互作用的趨勢(shì),并在蛋白質(zhì)設(shè)計(jì)中提供有用的信息.
Rosetta[8]是一個(gè)結(jié)合力物理勢(shì)能與統(tǒng)計(jì)信息的能量函數(shù).它是一個(gè)多組分能量函數(shù),包含多個(gè)項(xiàng)來(lái)考慮蛋白質(zhì)內(nèi)部和蛋白質(zhì)-蛋白質(zhì)相互作用的不同貢獻(xiàn).Rosetta能量函數(shù)可以考慮蛋白質(zhì)在不同環(huán)境中的穩(wěn)定性,包括水相和膜相.它基于統(tǒng)計(jì)模擬方法,考慮了大量已知的實(shí)驗(yàn)數(shù)據(jù)以模擬蛋白質(zhì)的結(jié)構(gòu),并引入機(jī)器學(xué)習(xí)技術(shù),以提高其預(yù)測(cè)性能和準(zhǔn)確性[6].
EvoEF2(evolutionary optimized function 2)[9]是一種用于分子蛋白質(zhì)折疊和蛋白質(zhì)-蛋白質(zhì)相互作用模擬的分子力場(chǎng),旨在描述蛋白質(zhì)的結(jié)構(gòu)和相互作用.它采用了演化優(yōu)化技術(shù)來(lái)調(diào)整參數(shù),以提高對(duì)蛋白質(zhì)結(jié)構(gòu)和相互作用的描述精度.如同Rosetta能量函數(shù),它結(jié)合了物理力場(chǎng)和統(tǒng)計(jì)勢(shì)能兩種信息.EvoEF2的公式為:
EEvoEF2=EVDW+EELEC+EHB+EDESOLV+ESS+EAAPP+ERAMA+EROT-EREF(2)
EvoEF2能量函數(shù)可以分解為分子間作用力、靜電作用力、氫鍵作用力、蛋白質(zhì)分子與水分子間作用力、二硫鍵作用力、基于特定殘基鍵角條件下的氨基酸概率分布、二面角構(gòu)象項(xiàng)、基于特定主鏈鍵角下不同側(cè)鏈類(lèi)型的概率分布等.
ABACUS[10]能量函數(shù)是一個(gè)基于統(tǒng)計(jì)信息的能量函數(shù),相比其他傳統(tǒng)能量函數(shù)加入了基于各殘基位置結(jié)構(gòu)屬性和殘基對(duì)之間距離的統(tǒng)計(jì)能量項(xiàng),可以作為以物理力場(chǎng)為主的能量函數(shù)的有效補(bǔ)充.ABACUS的能量函數(shù)如下:
ESEF(r1,r2,...,rL)=∑Li=1Ei(ri)+∑Li=1∑j in contact with iEij(ri,rj)(3)
式中:L為目標(biāo)序列的長(zhǎng)度;i和j為鏈上的殘基位置;ri為位置上的氨基酸殘基類(lèi)型.ABACUS能量函數(shù)不僅考慮了每個(gè)氨基酸殘基的統(tǒng)計(jì)能量項(xiàng),還考慮了不同氨基酸殘基對(duì)的聯(lián)合統(tǒng)計(jì)能量項(xiàng).
ABACUS能量函數(shù)通過(guò)計(jì)算兩個(gè)不同殘基位置下相應(yīng)的氨基酸對(duì)類(lèi)型的耦合程度,挖掘目標(biāo)蛋白不同殘基位置之間的關(guān)系,以及其相應(yīng)的氨基酸類(lèi)型的二元聯(lián)合概率分布,為優(yōu)化過(guò)程提供更多的統(tǒng)計(jì)信息從而提升算法的表現(xiàn).
2.2 蛋白質(zhì)設(shè)計(jì)中的優(yōu)化算法
搜索和采樣方法通常分為兩類(lèi):確定性算法和隨機(jī)性算法.確定性算法遍歷所有的潛在數(shù)據(jù),所以當(dāng)算法完成必然能找到基于能量目標(biāo)函數(shù)的最小值.常用的確定性算法有dead-end elimination(DEE)[11]、分子動(dòng)力學(xué)模擬(molecular dynamic,MD)[12]、馬爾科夫隨機(jī)場(chǎng)(Markov random field,MRF)[13]等.由于蛋白質(zhì)序列是極其龐大的高維空間,因此確定性算法逐漸在蛋白質(zhì)設(shè)計(jì)領(lǐng)域被淘汰.對(duì)于針對(duì)蛋白質(zhì)設(shè)計(jì)優(yōu)化的這種NP難問(wèn)題,隨機(jī)算法是非常合理的選擇.在蛋白質(zhì)設(shè)計(jì)領(lǐng)域,常用的算法主要是遺傳算法(genetic algorithms,GA)[14]、模擬退火算法(simulated annealing)[15]、蒙特卡洛算法(Monte Carlo algorithm)[16].同時(shí)根據(jù)目標(biāo)函數(shù)的數(shù)量,優(yōu)化算法可以分為單目標(biāo)優(yōu)化和多目標(biāo)優(yōu)化.與單目標(biāo)優(yōu)化不同,多目標(biāo)優(yōu)化同時(shí)并行優(yōu)化多個(gè)目標(biāo),通過(guò)多種角度評(píng)估樣本,被廣泛的應(yīng)用在各類(lèi)問(wèn)題.
2.2.1 單目標(biāo)優(yōu)化算法
遺傳算法是一種啟發(fā)式搜索和優(yōu)化算法,靈感來(lái)自生物學(xué)中的進(jìn)化過(guò)程,如自然選擇和遺傳.遺傳算法用于解決復(fù)雜問(wèn)題,特別是那些如蛋白質(zhì)設(shè)計(jì)這種搜索空間巨大且多維的問(wèn)題,它通過(guò)模擬自然進(jìn)化的過(guò)程來(lái)尋找問(wèn)題的最優(yōu)解或接近最優(yōu)解.遺傳算法的性能往往受到參數(shù)設(shè)置、種群大小、交叉率、變異率等因素的影響,因而合適的參數(shù)選擇和調(diào)整對(duì)于成功應(yīng)用遺傳算法至關(guān)重要.
模擬退火算法是一種啟發(fā)式優(yōu)化算法,靈感來(lái)自于材料加工中的物理退火過(guò)程,它的目標(biāo)是在搜索空間中尋找全局最優(yōu)解或接近最優(yōu)解的解決方案,通過(guò)引入一個(gè)溫度參數(shù),溫度初始較高使得搜索范圍更大更容易跳出局部最優(yōu)解,隨著溫度逐漸降低,搜索逐漸收斂至最優(yōu)解.模擬退火算法的優(yōu)點(diǎn)是它可以跳出局部最優(yōu)解,允許全局搜索,且在理論上可以收斂到全局最優(yōu)解.當(dāng)前許多主流蛋白質(zhì)設(shè)計(jì)算法均采用模擬退火作為搜索策略的一部分,例如RosettaDesign、Evodesign、ABACUS等.
蒙特卡洛算法是一類(lèi)數(shù)值計(jì)算方法,通常用于解決復(fù)雜的隨機(jī)性問(wèn)題和優(yōu)化問(wèn)題,其基本思想是通過(guò)生成大量的隨機(jī)樣本來(lái)估計(jì)或模擬概率分布、數(shù)值積分、最優(yōu)解等.在蛋白質(zhì)設(shè)計(jì)中,蒙特卡洛算法也有應(yīng)用,如初始的氨基酸序列在每一輪迭代中都會(huì)隨機(jī)選擇主鏈位置上的殘基進(jìn)行突變,類(lèi)似蒙特卡洛算法中的一個(gè)隨機(jī)樣本,然后可以根據(jù)Metropolis[16]原則決定是否接受突變,理論上當(dāng)?shù)螖?shù)無(wú)窮多時(shí)能找到全局最優(yōu)解.
目前主流方法如RosettaDesign[8]、ABACUS[10]等均結(jié)合了蒙特卡洛和模擬退火兩種方法[17],旨在解決能量最小化問(wèn)題或者全局優(yōu)化問(wèn)題,尤其適用于氨基酸序列這種復(fù)雜多維的空間.該方法能采用并行的方式,多個(gè)復(fù)制的優(yōu)化副本在不同的溫度模擬下同時(shí)進(jìn)行,每個(gè)溫度下的系統(tǒng)獨(dú)立地執(zhí)行Metropolis蒙特卡洛模擬,以進(jìn)行狀態(tài)的隨機(jī)演化.不同溫度的副本之間會(huì)周期性地嘗試交換狀態(tài),這樣有助于更充分地探索系統(tǒng)的能量空間.
2.2.2 多目標(biāo)優(yōu)化算法
多目標(biāo)優(yōu)化策略在多個(gè)研究與應(yīng)用領(lǐng)域獲得了廣泛地運(yùn)用,這一策略核心在于不是單一地追求一個(gè)優(yōu)化目標(biāo),而是尋求在多個(gè)目標(biāo)之間實(shí)現(xiàn)平衡,并行推進(jìn).多目標(biāo)優(yōu)化問(wèn)題的定義如下:
minimize F(x)=(f1(x),f2(x),...,fN(x))T
subject to x∈Ω(4)
式中:x為候選解;F(x)為待解決的多目標(biāo)問(wèn)題;fi(x)為其中一個(gè)目標(biāo)函數(shù);Ω為可行解空間.在目標(biāo)函數(shù)存在相互沖突時(shí),通常無(wú)法找到一個(gè)解能同時(shí)在所有能量函數(shù)上達(dá)到最優(yōu).因此需要提出一種新的評(píng)估方法來(lái)平衡不同的能量函數(shù),這里可以定義一種支配關(guān)系,對(duì)于定義域內(nèi)任意兩個(gè)解x1∈Ω,x2∈Ω,其在多個(gè)目標(biāo)函數(shù)下的函數(shù)值為:
Fx1={f1x1,f2x1,…,fNx1}
Fx2={f1x2,f2x2,…,fNx2}(5)
通常認(rèn)為x1支配x2(記作x1x2),即x1優(yōu)于x2,當(dāng)且僅當(dāng)滿(mǎn)足如下關(guān)系:
fk(x1)≤fk(x2) k∈{1,2,…,N}
fk(x1)lt;fk(x2) k∈{1,2,…,N}(6)
當(dāng)存在一個(gè)解x*∈Ω,在定義域中沒(méi)有任何解可以支配它時(shí),x*就被稱(chēng)為非支配解,也被稱(chēng)為Pareto最優(yōu)解.所有的Pareto非支配解組成的集合被稱(chēng)為Pareto解集,這些解在目標(biāo)函數(shù)空間中的映射則被稱(chēng)為Pareto邊沿[18].因此對(duì)于多目標(biāo)優(yōu)化問(wèn)題通常是盡可能地尋找分布廣泛的非支配解,廣泛的非支配解可以擬合出它的Pareto邊沿曲線,非支配解集既需要收斂性也需要多樣性.
這些非支配解通常使用一個(gè)存檔儲(chǔ)存起來(lái),被存儲(chǔ)的個(gè)體在算法具體的選擇和決策過(guò)程中可能會(huì)以不同的方式被使用.存檔主要儲(chǔ)存了算法各個(gè)迭代中生成的所有全局非支配解,同時(shí)舍棄了局部支配解.當(dāng)算法結(jié)束時(shí),存檔的所有解即Pareto解集.存檔的尺寸可能是固定的或者動(dòng)態(tài)變化的.
多目標(biāo)優(yōu)化算法總體可以分為兩大類(lèi):進(jìn)化型(evolutionary)和群體型(swarm).除了這兩類(lèi),有部分算法將二者結(jié)合起來(lái)屬于混合型.進(jìn)化算法利用自然演化的概念,允許在單次執(zhí)行中生成一組權(quán)衡后的解,并且在找到解決方案時(shí)需要更少的計(jì)算資源.群體算法是在一個(gè)種群基礎(chǔ)上不斷進(jìn)行迭代,算法從種群中一個(gè)隨機(jī)的個(gè)體開(kāi)始,為了發(fā)現(xiàn)最佳值,這些個(gè)體被進(jìn)化和修改迭代許多次.混合算法結(jié)合了兩種方法的優(yōu)勢(shì),增強(qiáng)了所得到的Pareto最優(yōu)解的多樣性和收斂性,可以通過(guò)多種方式實(shí)現(xiàn).
2.3 基于能量函數(shù)優(yōu)化的蛋白質(zhì)設(shè)計(jì)算法
2.3.1 基于單目標(biāo)優(yōu)化的蛋白質(zhì)設(shè)計(jì)算法
RosettaDesign[8]是一種從頭蛋白質(zhì)設(shè)計(jì)算法,它使用Rosetta能量函數(shù)作為優(yōu)化目標(biāo),結(jié)合蒙特卡洛和模擬退火進(jìn)行優(yōu)化初始的氨基酸序列.RosettaDesign將目標(biāo)蛋白上的每個(gè)氨基酸位置劃分為不同的類(lèi),劃分方法根據(jù)殘基位置所對(duì)應(yīng)的局部結(jié)構(gòu)屬性所確定,例如溶劑可及面積,二面角,二級(jí)結(jié)構(gòu)等,從而降低氨基酸序列的搜索難度.RosettaDesign從幾個(gè)隨機(jī)生成的氨基酸序列開(kāi)始并行的優(yōu)化,優(yōu)化迭代完成后從5個(gè)不同的優(yōu)化路徑中挑選出能量最低的氨基酸序列進(jìn)行輸出.
ABACUS[10]提出一個(gè)專(zhuān)為從頭蛋白質(zhì)設(shè)計(jì)而構(gòu)建的基于統(tǒng)計(jì)的能量函數(shù).它采用基于Metropolis準(zhǔn)則的蒙特卡洛模擬退火算法進(jìn)行完整序列的從頭蛋白質(zhì)設(shè)計(jì),并對(duì)所得設(shè)計(jì)進(jìn)行理論和實(shí)驗(yàn)的驗(yàn)證.ABACUS的主要特點(diǎn)在于其提出的完全基于統(tǒng)計(jì)信息的能量函數(shù)SEF,不同于其他主要基于物理力場(chǎng)的能量函數(shù),SEF充分地利用了在PDB數(shù)據(jù)庫(kù)中獲得的針對(duì)目標(biāo)蛋白在每個(gè)殘基位置以及兩兩殘基對(duì)的結(jié)構(gòu)與氨基酸類(lèi)型的概率分布信息,基于這一概率分布信息對(duì)搜索的氨基酸序列進(jìn)行評(píng)估,這種統(tǒng)計(jì)信息主要是希望設(shè)計(jì)出的蛋白質(zhì)序列在局部結(jié)構(gòu)上與目標(biāo)蛋白結(jié)構(gòu)有著較高的擬合度.
2.3.2 基于多目標(biāo)優(yōu)化的蛋白質(zhì)設(shè)計(jì)算法
蛋白質(zhì)設(shè)計(jì)算法的性能在很大程度上依賴(lài)于所使用的能量函數(shù)的準(zhǔn)確性.目前的挑戰(zhàn)在于,單一能量函數(shù)往往無(wú)法全面捕捉蛋白質(zhì)的多樣性和復(fù)雜性.這種局限性導(dǎo)致了在蛋白質(zhì)設(shè)計(jì)過(guò)程中對(duì)某些特性的過(guò)度優(yōu)化,而往往忽略了其他可能同等重要的特性.多目標(biāo)優(yōu)化通過(guò)同時(shí)考慮多個(gè)評(píng)價(jià)標(biāo)準(zhǔn),有助于平衡這些交互作用,并避免過(guò)度專(zhuān)注于單一屬性,從而可能產(chǎn)生更加全面和平衡的解決方案.
文獻(xiàn)[19]提出一種基于多目標(biāo)優(yōu)化算法的蛋白質(zhì)設(shè)計(jì)方法,使用了兩種能量函數(shù),分別是蛋白質(zhì)折疊自由能函數(shù)和蛋白質(zhì)-四面體中間體復(fù)合物與未結(jié)合狀態(tài)之間的自由能勢(shì)壘.它首先用權(quán)重系數(shù)將兩種能量函數(shù)串聯(lián)起來(lái)作為一個(gè)能量函數(shù)進(jìn)行傳統(tǒng)的模擬退火算法優(yōu)化,但在優(yōu)化的過(guò)程中權(quán)重系數(shù)會(huì)逐漸變化以調(diào)整兩種能量函數(shù)所占據(jù)的比例.同時(shí)在整個(gè)迭代過(guò)程中,除了考慮優(yōu)化串聯(lián)后總的能量函數(shù)以外,還會(huì)保存過(guò)程中產(chǎn)生的非支配解,整個(gè)過(guò)程相比單目標(biāo)優(yōu)化并沒(méi)有太多額外的計(jì)算成本.
文中提出了一種基于多目標(biāo)優(yōu)化的蛋白質(zhì)設(shè)計(jì)算法—Hydra[20],采用兩個(gè)能量函數(shù),分別是FoldX和EvoEF.一個(gè)側(cè)重于物理力場(chǎng)保證蛋白質(zhì)結(jié)構(gòu)的穩(wěn)定性和折疊性,另外一個(gè)側(cè)重局部結(jié)構(gòu)的統(tǒng)計(jì)信息,從頻率統(tǒng)計(jì)上期望設(shè)計(jì)的蛋白盡可能的符合自然界蛋白質(zhì)的規(guī)律.它首先將目標(biāo)蛋白結(jié)構(gòu)與裁剪過(guò)后的PDB數(shù)據(jù)庫(kù)中的蛋白質(zhì)結(jié)構(gòu)進(jìn)行逐一比對(duì)得出目標(biāo)蛋白序列的關(guān)于結(jié)構(gòu)信息的打分矩陣.之后在DSSP數(shù)據(jù)庫(kù)中尋找與目標(biāo)蛋白在局部結(jié)構(gòu)上相似的殘基類(lèi)型,獲得相應(yīng)的結(jié)構(gòu)與氨基酸類(lèi)型的統(tǒng)計(jì)信息.利用這兩個(gè)統(tǒng)計(jì)信息將原有的氨基酸序列空間轉(zhuǎn)變?yōu)檫B續(xù)的量化空間,然后使用多目標(biāo)粒子群優(yōu)化算法在變換后的量化空間中對(duì)兩個(gè)能量函數(shù)進(jìn)行并行優(yōu)化.算法結(jié)束后對(duì)儲(chǔ)藏的非支配解按照收斂性和分散度綜合進(jìn)行排序,輸出最終的氨基酸序列.Hydra使用統(tǒng)計(jì)的先驗(yàn)信息將一個(gè)高維離散優(yōu)化問(wèn)題轉(zhuǎn)化為高維連續(xù)優(yōu)化問(wèn)題,一方面可以便捷地使用各種連續(xù)優(yōu)化算法進(jìn)行序列的搜索,另一方面空間的變換將稀疏分布的最優(yōu)解集中在一個(gè)小范圍區(qū)域內(nèi),因此算法更容易獲得優(yōu)質(zhì)的非支配解.Hydra設(shè)計(jì)的序列經(jīng)過(guò)濕實(shí)驗(yàn)驗(yàn)證,多個(gè)屬于不同折疊類(lèi)型的蛋白能夠正確表達(dá),并且擁有與目標(biāo)結(jié)構(gòu)擬合度很高的二級(jí)結(jié)構(gòu)比例和穩(wěn)定的三級(jí)結(jié)構(gòu).
3 基于人工智能方法的蛋白質(zhì)設(shè)計(jì)算法
盡管基于能量函數(shù)優(yōu)化的蛋白質(zhì)設(shè)計(jì)方法取得了巨大的成功,但算法的效果很大程度上受制于能量函數(shù)的精確度,因此依然有許多提升的空間.近些年隨著蛋白質(zhì)數(shù)據(jù)庫(kù)信息的不斷增加,基于數(shù)據(jù)推動(dòng)的人工智能算法越來(lái)越多的被應(yīng)用在蛋白質(zhì)設(shè)計(jì)算法[21].
基于深度卷積網(wǎng)絡(luò)的蛋白質(zhì)設(shè)計(jì)方法受到較廣泛關(guān)注,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)特別適合于處理具有網(wǎng)格結(jié)構(gòu)的數(shù)據(jù),如圖像和聲音.它的主要結(jié)構(gòu)特點(diǎn)是卷積層和池化層,在蛋白質(zhì)設(shè)計(jì)算法中,卷積層可以對(duì)蛋白質(zhì)殘基間距離圖進(jìn)行變換提取特征,池化層則通過(guò)降采樣的方式降低數(shù)據(jù)的空間尺寸,在減少計(jì)算資源耗費(fèi)的同時(shí)有效控制過(guò)擬合.如ProDCoNN[22]將蛋白質(zhì)三維原子結(jié)構(gòu)用邊長(zhǎng)為18 的網(wǎng)格劃分后作為輸入特征,使用每個(gè)殘基位置周?chē)娜?jí)結(jié)構(gòu)環(huán)境作為輸入特征來(lái)預(yù)測(cè)殘基類(lèi)型,卷積層將目標(biāo)蛋白中的局部結(jié)構(gòu)信息如扭轉(zhuǎn)角、共價(jià)鍵信息等轉(zhuǎn)化為特征圖,通過(guò)池化層等運(yùn)算,最后輸出每個(gè)殘基位置的氨基酸類(lèi)型概率分布.
近年來(lái),基于圖神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)設(shè)計(jì)正逐漸受到重視.圖模型很適合用來(lái)表示蛋白質(zhì)設(shè)計(jì)中殘基之間的關(guān)系.在一個(gè)基本的圖中,每個(gè)節(jié)點(diǎn)或頂點(diǎn)對(duì)應(yīng)一個(gè)殘基,兩個(gè)殘基之間存在一條邊的連接當(dāng)且僅當(dāng)兩個(gè)殘基之間的空間距離在一定的閾值內(nèi),這類(lèi)圖等同于蛋白質(zhì)的接觸圖(contactmap).當(dāng)氨基酸之間的聯(lián)系較少時(shí)(由一個(gè)小的距離閾值決定),圖模型用來(lái)表示蛋白質(zhì)結(jié)構(gòu)具有明顯的優(yōu)勢(shì).對(duì)于一個(gè)稀疏的圖(較少的邊),它的計(jì)算效率明顯高于常規(guī)的包含所有兩兩殘基間距離的分布圖.接觸圖通常較為稀疏,因?yàn)槊總€(gè)殘基的接觸數(shù)目被限定在一定范圍,而且圖的頂點(diǎn)和邊通??梢园税被犷?lèi)型和歐式距離以外更多的特征信息.這種帶注釋的圖可以由專(zhuān)門(mén)的圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)結(jié)構(gòu)進(jìn)行處理.
圖模型非常適合捕獲空間近鄰信息,但它們?nèi)狈ο袼厣系腃NN那樣捕獲精細(xì)幾何信息的能力.最直接的方式來(lái)表示一個(gè)蛋白質(zhì)結(jié)構(gòu)可以是作為一個(gè)點(diǎn)云(pointcloud),即其構(gòu)成部分的所有三維坐標(biāo)的列表,這與PDB文件非常相似.這些密集的信息可以被過(guò)濾,僅保留Cα碳原子的坐標(biāo),或可以保留所有(重)原子的表示[23-24].這些點(diǎn)接著可以作為圖中的節(jié)點(diǎn),并因此可以被類(lèi)似GNN的架構(gòu)處理,例如MimNet[25]等.
文獻(xiàn)[26]提出基于幾何向量感知器(geometric vector perceptron,GVP),它可以發(fā)揮多層感知器(multi-layer perceptron,MLP)的作用.該模型將每個(gè)氨基酸骨架的所有原子間的標(biāo)準(zhǔn)化距離作為節(jié)點(diǎn)特征;同時(shí)考慮每個(gè)氨基酸的Cα與其35個(gè)最近鄰氨基酸的Cα之間的距離作為邊特征.經(jīng)過(guò)這些特征的編碼,它們被整合到GNN模型中.模型的輸出是序列中的氨基酸類(lèi)型,適用于基于能量函數(shù)的蛋白質(zhì)設(shè)計(jì).文獻(xiàn)[27]等采用了深度的SE(3)等變圖Transformer模型,直接處理源于蛋白質(zhì)主鏈結(jié)構(gòu)的特征,旨在預(yù)測(cè)每一殘基的氨基酸種類(lèi)與其側(cè)鏈構(gòu)象.其所用的局部感知圖Transformer結(jié)構(gòu)考慮了蛋白質(zhì)主鏈的空間幾何信息,集中注意力于空間上緊鄰的殘基對(duì).這些信息連同蛋白質(zhì)主鏈坐標(biāo)被送入張量融合網(wǎng)絡(luò)(tensor fusion network,TFN)來(lái)輸出標(biāo)量和殘基的空間位置.隨后,TFN-Transformer對(duì)每一輸入的殘基進(jìn)行側(cè)鏈構(gòu)象和氨基酸種類(lèi)的生成.在評(píng)估過(guò)程中,該方法測(cè)試了5種不同的殘基掩蔽策略,并詳細(xì)探討了損失函數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)和模型超參數(shù)對(duì)結(jié)果的影響.實(shí)驗(yàn)結(jié)果顯示,模型中的TFN-Transformer層對(duì)恢復(fù)率的影響尤為顯著.
相較于CNN方法,圖模型無(wú)需獨(dú)立處理每個(gè)殘基周?chē)慕Y(jié)構(gòu)特征,一定程度上減少了數(shù)據(jù)規(guī)模提高了訓(xùn)練效率.GNN能夠正確處理氨基酸序列的長(zhǎng)短程相互作用,更加充分地提取目標(biāo)蛋白結(jié)構(gòu)的特征信息,從而提升算法的表現(xiàn).
4 結(jié)論
蛋白質(zhì)設(shè)計(jì)中基于能量函數(shù)優(yōu)化方法的有效性極大依賴(lài)于能量函數(shù)本身的準(zhǔn)確度.盡管多種能量函數(shù)被開(kāi)發(fā)用于映射蛋白質(zhì)結(jié)構(gòu)與序列間的復(fù)雜關(guān)系,但它們通常僅覆蓋了蛋白質(zhì)特性的一部分,并不能全面準(zhǔn)確地預(yù)測(cè)不同蛋白的結(jié)構(gòu)或功能.許多方法如Rosetta和ABACUS等將物理能量函數(shù)和統(tǒng)計(jì)能量函數(shù)使用權(quán)重系數(shù)串聯(lián)成一個(gè)新的能量函數(shù),這樣在一定程度上可以結(jié)合二者的優(yōu)點(diǎn)[28].但這種方法首先對(duì)參數(shù)的選取非常敏感,其次對(duì)于不同的目標(biāo)蛋白結(jié)構(gòu)系數(shù)并非總是最優(yōu)解,因此它需要根據(jù)不同的環(huán)境進(jìn)行調(diào)整,但這種調(diào)整需要耗費(fèi)大量的時(shí)間進(jìn)行嘗試.對(duì)于這個(gè)問(wèn)題,潛在的方法是收集目前精度較高的各種能量項(xiàng),包括基于物理力場(chǎng)方法的和基于統(tǒng)計(jì)方法的,甚至可以根據(jù)準(zhǔn)確率較高的深度學(xué)習(xí)模型輸出的氨基酸概率分布生成交叉熵能量函數(shù)項(xiàng),然后將這些不同的能量項(xiàng)根據(jù)它們的相關(guān)性進(jìn)行聚類(lèi)(目的是更準(zhǔn)確的選取參數(shù)),并使用參數(shù)將這幾類(lèi)能量項(xiàng)串聯(lián)起來(lái),然后通過(guò)優(yōu)化這些參數(shù)生成一個(gè)更為準(zhǔn)確的能量函數(shù).采用多目標(biāo)優(yōu)化的策略能夠在一定程度上緩解單一能量函數(shù)可能存在的局限性,它可以平衡搜索的方向,同時(shí)一定程度能防止過(guò)早陷入局部最優(yōu)解,可以盡可能多的保留潛在的最優(yōu)解,多個(gè)能量函數(shù)同時(shí)優(yōu)化的方式也可以期望設(shè)計(jì)的序列在多個(gè)指標(biāo)上都有著不錯(cuò)的表現(xiàn),從而增強(qiáng)設(shè)計(jì)的可靠性.因此如前所述的聚類(lèi)后的不同能量項(xiàng),也可以使用多目標(biāo)優(yōu)化的方式并行優(yōu)化它們,由于經(jīng)過(guò)聚類(lèi)后的能量函數(shù)彼此相關(guān)程度較低,降低了函數(shù)間的冗余性,從而進(jìn)一步地可以提升多目標(biāo)優(yōu)化的效果.
基于深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)設(shè)計(jì)算法的性能高度依賴(lài)于數(shù)據(jù)量規(guī)模和注釋準(zhǔn)確度.對(duì)于深度神經(jīng)網(wǎng)絡(luò)模型來(lái)說(shuō),充足的數(shù)據(jù)是模型準(zhǔn)確和泛化能力的基本條件,隨著深度學(xué)習(xí)算法技術(shù)的不斷進(jìn)步,基于深度學(xué)習(xí)的蛋白質(zhì)設(shè)計(jì)預(yù)期將有很大的發(fā)展空間,未來(lái)的探索方向之一是考慮將圖神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái),圖神經(jīng)網(wǎng)絡(luò)抽取蛋白質(zhì)分子的空間特征,卷積神經(jīng)網(wǎng)絡(luò)則利用氨基酸序列之間的局部相關(guān)性.或者考慮蛋白質(zhì)分子的全局特征,通過(guò)信息傳遞方式得到每個(gè)殘基位置周?chē)?jié)點(diǎn)傳輸?shù)男畔?,利用這些信息進(jìn)行節(jié)點(diǎn)的更新,同時(shí)利用多頭注意力機(jī)制,學(xué)習(xí)不同節(jié)點(diǎn)間的重要性.還可以將深度學(xué)習(xí)方法與能量函數(shù)優(yōu)化方法結(jié)合起來(lái),深度學(xué)習(xí)模型具有快速高通量的特點(diǎn),將它生成的大量序列使用能量函數(shù)進(jìn)行評(píng)估.反過(guò)來(lái)也可以在基于能量函數(shù)的優(yōu)化過(guò)程中使用深度學(xué)習(xí)模型的信息引導(dǎo)優(yōu)化的方向或者評(píng)估序列,多目標(biāo)的優(yōu)化方法可以將深度學(xué)習(xí)模型訓(xùn)練的函數(shù)作為能量函數(shù)和其他能量函數(shù)同時(shí)進(jìn)行優(yōu)化,這樣可以提升算法的效果.融合深度學(xué)習(xí)網(wǎng)絡(luò)的多目標(biāo)優(yōu)化方法將來(lái)是蛋白質(zhì)設(shè)計(jì)領(lǐng)域一個(gè)充滿(mǎn)潛力的方向,有望為進(jìn)一步的基于功能和特定結(jié)構(gòu)的蛋白質(zhì)設(shè)計(jì)及其應(yīng)用提供新的思路和實(shí)現(xiàn)途徑.
參考文獻(xiàn)(References)
[1] LIU Y, ZHANG L, WANG W, et al. Rotamer-free protein sequence design based on deep learning and self-consistency[J]. Nature Computational Science, 2022,2(7):451-462.
[2] ANFINSEN C B. Principles that govern the folding of protein chains[J]. Science, 1973,181(4096):223-230.
[3] FERRUZ N, HEINZINGER M, AKDEL M, et al. From sequence to function through structure: Deep learning for protein design[J]. Computational and Structural Biotechnology Journal, 2022,21:238-250.
[4] SUSSMAN J L, LIN D, JIANG J, et al. Protein Data Bank (PDB): Database of three-dimensional structural information of biological macromolecules[J]. Acta Crystallographica Section D: Biological Crystallography, 1998,54(6):1078-1084.
[5] ZHANG Y, SKOLNICK J. Scoring function for automated assessment of protein structure template quality[J]. Proteins: Structure, Function, and Bioinformatics, 2004,57(4):702-710.
[6] LEVITT M, GREER J. Automatic identification of secondary structure in globular proteins[J]. Journal of Molecular Biology, 1977,114(2):181-239.
[7] SCHYMKOWITZ J, BORG J, STRICHER F, et al. The FoldX web server: An online force field[J]. Nucleic Acids Research, 2005,33:382-388.
[8] KUHLMAN B, DANTAS G, IRETON G C, et al. Design of a novel globular protein fold with atomic-level accuracy[J]. Science, 2003,302(5649):1364-1368.
[9] HUANG X, PEARCE R, ZHANG Y. EvoEF2: accurate and fast energy function for computational protein design[J]. Bioinformatics, 2020,36(4):1135-1142.
[10] XIONG P, WANG M, ZHOU X, et al. Protein design with a comprehensive statistical energy function and boosted by experimental selection for foldability[J]. Nature Communications, 2014,5:5330.
[11] DESMET J, MAEYER M D, HAZES B, et al. The dead-end elimination theorem and its use in protein side-chain positioning[J]. Nature, 1992,356(6369):539-542.
[12] KARPLUS M, PETSKO G A. Molecular dynamics simulations in biology[J]. Nature, 1990,347(6294):631-639.
[13] CLIFFORD P. Markov random fields in statistics[J]. Disorder in physical systems: A volume in honour of John M. Hammersley, 1990:19-32.
[14] LAMBORA A, GUPTA K, CHOPRA K. Genetic algorithm—A literature review[C]∥2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon). Faridabad, India: IEEE, 2019:8862255.
[15] BERTSIMAS D, TSITSIKLIS J. Simulated annealing[J]. Statistical Science, 1993,8(1):10-15.
[16] KIKUCHI K, YOSHIDA M, MAEKAWA T, et al. Metropolis Monte Carlo method as a numerical technique to solve the Fokker—Planck equation[J]. Chemical Physics Letters, 1991,185(3/4):335-338.
[17] KANNAN S, ZACHARIAS M. Simulated annealing coupled replica exchange molecular dynamics—An efficient conformational sampling method[J]. Journal of Structural Biology, 2009,166(3):288-294.
[18] VAN VELDHUIZEN D A, LAMONT G B. Evolutionary computation and convergence to a pareto front [C]∥Late Breaking Papers at the Genetic Programming 1998 Conference. USA:Citeseer, 1998.
[19] SUAREZ M, TORTOSA P, CARRERA J, et al. Pareto optimization in computational protein design with multiple objectives[J]. Journal of Computational Chemistry, 2008,29(16):2704-2711.
[20] LI R, ZHANG N, WU B, et al. Multiobjective heuristic algorithm for de novo protein design in a quantified continuous sequence space[J]. Computational and Structural Biotechnology Journal,2021,19:2575-2587.
[21] EISENSTEIN M. AI-enhanced protein design makes proteins that have never existed[J]. Nature Biotechnology, 2023,41:303-305.
[22] ZHANG Y, CHEN Y, WANG C, et al. ProDcoNN-protein design using a convolutional neural network[J]. Biophysical Journal, 2020,118(3):43-44.
[23] FERRUZ N, HCKER B. Controllable protein design with language models[J]. Nature Machine Intelligence, 2022,4(6):521-532.
[24] FERRUZ N, SCHMIDT S, HCKER B. ProtGPT2 is a deep unsupervised language model for protein design[J]. Nature Communications, 2022,13(1):4348.
[25] ELIASOF M, BOESEN T, HABER E, et al. Mimetic neural networks: A unified framework for protein design and folding[J].Frontiers in Bioinformatics,2022,2:715006.
[26] JING B, EISMANN S, SURIANA P, et al. Learning from protein structure with geometric vector perceptrons[C]∥International Conference on Learning Representations. Vienna, Austria:ICLR,2021.
[27] MCPARTLON M, LAI B, XU J. A deep SE (3)-equivariant model for learning inverse protein folding[J]. bioRxiv, 2022, preprint bioRxiv:20220311.483812.
[28] 陳志航, 季夢(mèng)麟, 戚逸飛. 人工智能蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)算法研究進(jìn)展[J].合成生物學(xué),2023,4(3):464-487.
(責(zé)任編輯:曹莉)