亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的蛋白質(zhì)設(shè)計(jì)研究綜述

        2023-12-31 00:00:00李巖夏雨
        科技創(chuàng)新與應(yīng)用 2023年20期

        摘 "要:在生命科學(xué)領(lǐng)域,蛋白質(zhì)工程是創(chuàng)造具有改進(jìn)或新功能蛋白質(zhì)問(wèn)題的關(guān)鍵。該文總結(jié)近幾年深度學(xué)習(xí)輔助蛋白質(zhì)工程研究的發(fā)展,主要介紹相關(guān)的語(yǔ)言模型和生成模型,還從序列和結(jié)構(gòu)的角度介紹相關(guān)的研究及目前存在的問(wèn)題。最后對(duì)深度學(xué)習(xí)輔助蛋白質(zhì)工程研究的未來(lái)發(fā)展進(jìn)行展望。

        關(guān)鍵詞:深度學(xué)習(xí);蛋白質(zhì)工程;語(yǔ)言模型;生成模型;蛋白質(zhì)序列;蛋白質(zhì)結(jié)構(gòu)

        中圖分類(lèi)號(hào):Q816 " " " "文獻(xiàn)標(biāo)志碼:A " " " " "文章編號(hào):2095-2945(2023)20-0021-05

        Abstract: In the field of life science, protein engineering is the key to creating proteins with improved or new functions. This paper summarizes the development of deep learning-assisted protein engineering in recent years, mainly introduces the related language models and generation models, and traces related research and existing problems from the in terms of sequence and structure. Finally, the future development of deep learning-assisted protein engineering research is prospected.

        Keywords: deep learning; protein engineering; language model; generate mode; protein sequence; protein structure

        20世紀(jì)90年代早期,Chen等[1]開(kāi)創(chuàng)了定向進(jìn)化(Directed evolution)的方法,用于設(shè)計(jì)新的和更理想的酶。隨著對(duì)高通量(High-throughput screening)藥物篩選的重視程度不斷提高,用于高通量藥物篩選操作設(shè)備和檢測(cè)儀器都有了長(zhǎng)足發(fā)展[2-3],但由于序列空間巨大,想要從成千上萬(wàn)的蛋白質(zhì)中篩選出功能性突變,仍然需要漫長(zhǎng)的篩選周期,甚至需要耗費(fèi)大量人力,并且人員之間的操作誤差無(wú)法避免,無(wú)法實(shí)現(xiàn)標(biāo)準(zhǔn)化。高通量測(cè)序技術(shù)的不斷進(jìn)步為自然序列多樣性提供了前所未有的數(shù)據(jù)。如何避開(kāi)漫長(zhǎng)的研發(fā)周期且更有效地探索出蛋白質(zhì)序列進(jìn)化的秘密成為許多研究者感興趣的研究方向。

        高性能計(jì)算設(shè)備的進(jìn)步,使得深度學(xué)習(xí)模型在大量數(shù)據(jù)中建模成為可能。近年來(lái),自然語(yǔ)言處理與計(jì)算機(jī)視覺(jué)領(lǐng)域依托海量的數(shù)據(jù)發(fā)展出各種各樣的深度學(xué)習(xí)模型[4-6],這些技術(shù)的發(fā)展極大地推進(jìn)了人工智能的進(jìn)程。同樣,交叉學(xué)科研究人員已經(jīng)開(kāi)始利用深度學(xué)習(xí)方法來(lái)建模大型生物數(shù)據(jù)集,以促進(jìn)生物學(xué)的發(fā)展。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)重要的研究分支,可以使用不同的架構(gòu)來(lái)實(shí)現(xiàn)。深度學(xué)習(xí)的每一層都能夠逐步提取特征并將其傳遞給下一層,通過(guò)對(duì)每一層輸入進(jìn)行加工,以提取數(shù)據(jù)中更高階的特征,其中使用反向傳播算法改變內(nèi)部參數(shù)來(lái)發(fā)現(xiàn)大數(shù)據(jù)集中的復(fù)雜結(jié)構(gòu)。以輸入數(shù)據(jù)是否標(biāo)記可以將深度學(xué)習(xí)分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。深度學(xué)習(xí)可以將復(fù)雜、數(shù)量龐大的非結(jié)構(gòu)化數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)提煉成抽象的、高層次的表示。其優(yōu)點(diǎn)在于可以復(fù)用特征,并且隨著層數(shù)的加深,可以獲取更加抽象的特征。因此深度學(xué)習(xí)具有更高的能力和靈活性。

        1 相關(guān)模型

        蛋白質(zhì)工程旨在原有蛋白質(zhì)的基礎(chǔ)上創(chuàng)造出具有改進(jìn)或新功能的蛋白質(zhì)變體。深度學(xué)習(xí)的模型為人類(lèi)理解和改造蛋白質(zhì)提供了有利的工具。目前數(shù)據(jù)庫(kù)中大量的蛋白質(zhì)序列為訓(xùn)練一個(gè)蛋白質(zhì)語(yǔ)言模型提供了數(shù)據(jù)的支持。實(shí)驗(yàn)表明,語(yǔ)言模型可以應(yīng)用于一系列的蛋白質(zhì)理解和設(shè)計(jì)任務(wù),并且在這方面的研究也取得了很大的成績(jī)。蛋白質(zhì)序列空間中的優(yōu)化是極具挑戰(zhàn)性的,因?yàn)樗阉骺臻g很大、離散且非結(jié)構(gòu)化。蛋白質(zhì)工程的生成性建模試圖對(duì)數(shù)據(jù)的分布進(jìn)行建模,關(guān)鍵是理解和控制該模型學(xué)習(xí)到的生物物理特性,從而生成與模型訓(xùn)練相似屬性的新樣本。

        1.1 "語(yǔ)言模型

        通過(guò)幾十年的發(fā)展,自然語(yǔ)言處理(NLP)技術(shù)已經(jīng)發(fā)展到可以對(duì)大量無(wú)標(biāo)簽文本進(jìn)行自主學(xué)習(xí),能夠很好地捕捉到文本信息,并且在知識(shí)問(wèn)答、機(jī)器翻譯、情感分析、語(yǔ)音識(shí)別等領(lǐng)域得到了充分地應(yīng)用。而將與NLP相關(guān)的模型和技術(shù)遷移到具有大量數(shù)據(jù)的蛋白質(zhì)序列上來(lái)研究其功能也已經(jīng)被證明具有可行性。如圖1所示。近年來(lái),為更好地理解和解釋蛋白質(zhì)序列所表現(xiàn)的功能信息,預(yù)訓(xùn)練語(yǔ)言模型越來(lái)越多地應(yīng)用于蛋白質(zhì)工程。

        大型語(yǔ)言模型能夠?qū)W習(xí)到序列攜帶的各種不同的信息,并且魯棒性和泛化性較強(qiáng),見(jiàn)表1,不同任務(wù)的蛋白質(zhì)語(yǔ)言模型訓(xùn)練時(shí)往往需要大量的數(shù)據(jù)作為支持。ESM-1b是一個(gè)大容量Transformer語(yǔ)言模型[7],從2.5億個(gè)蛋白質(zhì)序列中的860億個(gè)氨基酸學(xué)習(xí)生物內(nèi)在特性,其蛋白質(zhì)的二級(jí)結(jié)構(gòu)以及空間結(jié)構(gòu)可以在表示中識(shí)別,并且空間中的度量結(jié)構(gòu)符合從物理化學(xué)到遠(yuǎn)程同源的尺度上的組織原則。蛋白質(zhì)生成語(yǔ)言模型ProGen[8]利用大約2.8億個(gè)的基于分類(lèi)和關(guān)鍵字標(biāo)簽的蛋白質(zhì)序列進(jìn)行無(wú)監(jiān)督序列生成,提供了進(jìn)化多樣性序列生成。Elnaggar等[9]對(duì)來(lái)自2億個(gè)蛋白質(zhì)序列的800億個(gè)氨基酸訓(xùn)練了2個(gè)自回歸語(yǔ)言模型和2個(gè)自動(dòng)編碼器模型,并且對(duì)21億個(gè)蛋白質(zhì)序列的3 930億個(gè)氨基酸訓(xùn)練了一個(gè)語(yǔ)言模型(ProtTrans),表明無(wú)監(jiān)督的語(yǔ)言模型可以學(xué)習(xí)到蛋白質(zhì)生物物理學(xué)的基本特征,并且驗(yàn)證了語(yǔ)言模型升級(jí)到由更多數(shù)據(jù)支持的更大模型的優(yōu)勢(shì)。UniRep模型[10]通過(guò)對(duì)未標(biāo)記的氨基酸序列進(jìn)行建模,將蛋白質(zhì)的基本特征提取到語(yǔ)義豐富、結(jié)構(gòu)、進(jìn)化和生物物理基礎(chǔ)良好的統(tǒng)計(jì)表示中,能夠很好地預(yù)測(cè)天然和從頭設(shè)計(jì)的蛋白質(zhì)穩(wěn)定性。遷移學(xué)習(xí)利用大量未標(biāo)記的蛋白質(zhì)序列進(jìn)行預(yù)訓(xùn)練,提取到一般蛋白質(zhì)具有的特征和表示,再利用現(xiàn)存的少量標(biāo)記數(shù)據(jù)微調(diào)模型,使模型能夠適應(yīng)特定問(wèn)題的下游任務(wù)。TAPE模型[11]評(píng)估了預(yù)訓(xùn)練語(yǔ)言模型在結(jié)構(gòu)預(yù)測(cè)、遠(yuǎn)程同源性檢測(cè)以及蛋白質(zhì)工程上5個(gè)任務(wù)的嵌入表現(xiàn),發(fā)現(xiàn)并沒(méi)有一個(gè)模型適合所有的任務(wù)。在大而多樣的蛋白質(zhì)序列數(shù)據(jù)庫(kù)上的預(yù)訓(xùn)練語(yǔ)言模型可以預(yù)測(cè)蛋白質(zhì)功能的實(shí)驗(yàn)測(cè)量,而無(wú)需進(jìn)一步地監(jiān)督,可以直接應(yīng)用于一系列的蛋白質(zhì)理解和設(shè)計(jì)任務(wù)。雖然大量的蛋白質(zhì)語(yǔ)言模型證明可以捕獲一般蛋白質(zhì)序列上下文,但蛋白質(zhì)數(shù)量龐大不代表齊全,所以對(duì)于許多特定的、正在設(shè)計(jì)的蛋白質(zhì)仍然有一定的挑戰(zhàn)。

        1.2 "生成模型

        利用深度生成模型從已知的功能蛋白序列中學(xué)到進(jìn)化特性,可以在空間中生成新的蛋白序列,從而獲得尚未開(kāi)發(fā)的功能序列多樣性,并且可以最大限度地減少對(duì)大量非功能蛋白序列變體的測(cè)試需求。

        深度生成模型能夠?qū)W習(xí)樣本數(shù)據(jù)的聯(lián)合概率分布,捕獲數(shù)據(jù)分布的底層信息和處理存在隱變量的樣本,同時(shí)生成具有訓(xùn)練數(shù)據(jù)特性的新樣本。表2列舉了生成模型的一些具體任務(wù)。Anand等[12]提出一種利用深度生成模型進(jìn)行三維結(jié)構(gòu)生成和恢復(fù)的新方法,使用生成對(duì)抗網(wǎng)絡(luò)(GANs)來(lái)生成新的蛋白質(zhì)結(jié)構(gòu),并且使用訓(xùn)練過(guò)的模型還可以用以預(yù)測(cè)損壞蛋白質(zhì)結(jié)構(gòu)的缺失部分。Greener等[13]使用條件變分自編碼器(CVAE)來(lái)生成以所需特性為條件的蛋白質(zhì)序列,將潛在的銅和鈣結(jié)合位點(diǎn)添加到非金屬結(jié)合蛋白中。Shin等[14]開(kāi)發(fā)了一種自回歸生成模型,在不需要序列比對(duì)的情況下,利用天然序列中攜帶的信息了解特定位置氨基酸的限制,通過(guò)自回歸似然來(lái)建模和設(shè)計(jì)抗體的互補(bǔ)性決定區(qū)。Repecka等[15]設(shè)計(jì)了一種基于自注意力的生成性對(duì)抗網(wǎng)絡(luò)變體ProteinGAN,直接從復(fù)雜的多維氨基酸序列空間學(xué)習(xí)蛋白質(zhì)序列的進(jìn)化關(guān)系和自然蛋白質(zhì)序列多樣性,并生成具有天然物理性質(zhì)的高度多樣的新序列變體。Xian等[16]針對(duì)缺乏標(biāo)記的訓(xùn)練數(shù)據(jù),提出了一個(gè)條件生成模型,該模型結(jié)合了VAE和GAN的優(yōu)勢(shì),通過(guò)無(wú)條件的判別器學(xué)習(xí)了未標(biāo)記圖像的邊緣特征分布。還通過(guò)將其反轉(zhuǎn)回到像素空間對(duì)其進(jìn)行可視化,以證明學(xué)到的特征是可以解釋。

        這些利用潛在變量管理的生成過(guò)程可以直接用于將生成偏向于序列空間的特定區(qū)域,或者通過(guò)從目標(biāo)序列的潛在表示附近采樣,再或者通過(guò)促進(jìn)基于優(yōu)化的策略,在潛在空間中搜索具有理想屬性的新序列。

        2 "蛋白質(zhì)建模

        利用深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)從蛋白質(zhì)中有效地學(xué)習(xí)到蛋白質(zhì)-功能的映射關(guān)系,就必須構(gòu)建合理的深度學(xué)習(xí)模型。通常情況下,想要從序列中直接獲得序列-功能的映射關(guān)系時(shí),往往需要整個(gè)家族或利用多序列比對(duì)技術(shù)搜索同源序列。這些序列往往攜帶了關(guān)于蛋白質(zhì)家族性質(zhì)的信息,從這些序列數(shù)據(jù)中進(jìn)行表征學(xué)習(xí)或特征學(xué)習(xí)可以更好地為下游任務(wù)的預(yù)測(cè)或分類(lèi)提供表示。設(shè)計(jì)具有特定功能是蛋白質(zhì)工程最終的目的,而結(jié)構(gòu)作為決定蛋白質(zhì)獨(dú)特功能的重要信息往往是不能被忽略的。但目前由于三維結(jié)構(gòu)信息的解析難度之大,使得利用深度學(xué)習(xí)更多的研究導(dǎo)向了對(duì)蛋白質(zhì)三維折疊結(jié)構(gòu)的預(yù)測(cè),并且大多蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性取決于數(shù)據(jù)庫(kù)中可用的同源蛋白質(zhì)序列的數(shù)量。

        2.1 "以序列為基礎(chǔ)建模

        核酸測(cè)序技術(shù)的進(jìn)步產(chǎn)生了大量的蛋白質(zhì)序列數(shù)據(jù),蛋白質(zhì)數(shù)據(jù)庫(kù)的巨大擴(kuò)展為新的蛋白質(zhì)設(shè)計(jì)方法提供了機(jī)會(huì),并且深度學(xué)習(xí)越來(lái)越多地用于蛋白質(zhì)工程,這些方法尋求從自然序列變異中直接學(xué)習(xí)序列-功能關(guān)系。蛋白質(zhì)的一個(gè)序列即一個(gè)信息載體,將所有蛋白質(zhì)序列看成一個(gè)知識(shí)庫(kù)進(jìn)行全局學(xué)習(xí),就是學(xué)習(xí)這些信息的共同特征,將這些特征映射到適合的空間,通過(guò)這些嵌入可以推斷出一些看不見(jiàn)的序列。

        自然序列變異為功能蛋白質(zhì)中氨基酸序列的結(jié)構(gòu)和生物物理約束提供了豐富的信息來(lái)源。受自然語(yǔ)言處理的啟發(fā),蛋白質(zhì)序列被看作一種文本信息,目前大部分的蛋白質(zhì)語(yǔ)言模型均是以序列為研究對(duì)象。由于目前大量的蛋白質(zhì)仍然未能解析出三維結(jié)構(gòu)信息,只有少部分蛋白質(zhì)可以直接通過(guò)結(jié)構(gòu)信息進(jìn)行設(shè)計(jì)新的蛋白質(zhì)。Biswas等[17]通過(guò)從自然蛋白質(zhì)序列景觀中提取信息,學(xué)習(xí)自然的潛在表示,使用最少24個(gè)功能分析的突變序列來(lái)構(gòu)建精確的虛擬適應(yīng)度景觀。Riesselman等[18]借鑒了自然語(yǔ)言處理和語(yǔ)音合成的最新進(jìn)展,開(kāi)發(fā)了一種利用殘差因果擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的生成深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的生物序列自回歸模型,該模型可以捕獲到功能約束,并且不依賴(lài)于顯式的對(duì)齊結(jié)構(gòu)。Ding等[19]利用家族序列在潛在空間中的分布,學(xué)習(xí)蛋白質(zhì)適應(yīng)度景觀,預(yù)測(cè)了蛋白質(zhì)突變穩(wěn)定性,并量化穩(wěn)定性在蛋白質(zhì)進(jìn)化過(guò)程中的重要性。表明可在潛在空間序列的分布附近找到具有相似適應(yīng)性景觀的點(diǎn),并且通過(guò)VAE模型的解碼器得到新變體序列。Hawkins-Hooker等[20]針對(duì)未對(duì)齊序列和對(duì)齊序列分別開(kāi)發(fā)了獨(dú)立的VAE模型,表明在多序列比對(duì)數(shù)據(jù)上訓(xùn)練的版本更可信地再現(xiàn)了家族成員在進(jìn)化過(guò)程中獲得并維持的結(jié)構(gòu)和功能約束的統(tǒng)計(jì)特征。Russ等[21]描述了一個(gè)過(guò)程來(lái)學(xué)習(xí)純粹從進(jìn)化序列數(shù)據(jù)中指定蛋白質(zhì)的約束條件,設(shè)計(jì)和構(gòu)建合成基因庫(kù),并使用定量互補(bǔ)分析測(cè)試其在體內(nèi)的活性?;谛蛄械慕y(tǒng)計(jì)模型足以指定蛋白質(zhì),并提供對(duì)巨大空間的功能序列的訪問(wèn)。

        很多深度學(xué)習(xí)的模型已被證明可以學(xué)習(xí)到蛋白質(zhì)序列中包含的關(guān)于進(jìn)化、功能、生物化學(xué)特征以及生物約束等特征。雖然有監(jiān)督的方法使得蛋白質(zhì)的研究取得了非常大的進(jìn)步,但為這些序列獲得有意義的標(biāo)簽和注釋需要大量的實(shí)驗(yàn)資源投資,以及需要學(xué)習(xí)大量相關(guān)的專(zhuān)業(yè)知識(shí)。在蛋白質(zhì)序列數(shù)據(jù)上訓(xùn)練的模型已被證明可以學(xué)習(xí)有助于各種下游任務(wù)的有生物學(xué)意義的表示,但其在新蛋白質(zhì)設(shè)計(jì)中直接使用的潛力在很大程度上仍未探索。

        2.2 "以結(jié)構(gòu)為基礎(chǔ)建模

        在自然進(jìn)化和選擇過(guò)程中,蛋白質(zhì)分子需要在結(jié)構(gòu)的“穩(wěn)定性”和“可變性”之間達(dá)成某種平衡,這種競(jìng)爭(zhēng)和平衡在蛋白質(zhì)結(jié)構(gòu)和功能層面上對(duì)應(yīng)著相關(guān)的臨界特性,從而展現(xiàn)出蛋白質(zhì)分子的共有結(jié)構(gòu)特征。同一個(gè)家族的蛋白質(zhì)結(jié)構(gòu)是相似的,同一個(gè)蛋白質(zhì)空間相鄰的氨基酸是互相影響、共同進(jìn)化的。在氨基酸的相互作用下,蛋白質(zhì)會(huì)自發(fā)形成三維結(jié)構(gòu)進(jìn)而發(fā)揮其特有的生物功能。在三維結(jié)構(gòu)中,氨基酸的相互作用維系了蛋白質(zhì)的三維結(jié)構(gòu)。生物醫(yī)學(xué)領(lǐng)域的眾多挑戰(zhàn),包括開(kāi)發(fā)治療疾病的創(chuàng)新療法,依賴(lài)于對(duì)蛋白質(zhì)結(jié)構(gòu)和功能的理解。在結(jié)構(gòu)生物信息學(xué)中,人們致力于預(yù)測(cè)蛋白質(zhì)的功能和結(jié)構(gòu)特性,這些結(jié)構(gòu)特性直接決定了一個(gè)獨(dú)特的功能。將蛋白質(zhì)的三維結(jié)構(gòu)作為輸入,深度學(xué)習(xí)通過(guò)在大數(shù)據(jù)支持下擴(kuò)大感受野,為高階統(tǒng)計(jì)和潛力提供了最簡(jiǎn)單、也是最通用的近似和參數(shù)化方法。常見(jiàn)的基于結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)庫(kù)包括PDB、SCOP、Pfam、CATH等。

        由于結(jié)構(gòu)與功能的要求,蛋白質(zhì)分子在進(jìn)化的過(guò)程中,蛋白質(zhì)鏈上2個(gè)不同位點(diǎn)的氨基酸類(lèi)型變化往往存在著關(guān)聯(lián),這種關(guān)聯(lián)是由于氨基酸互補(bǔ)性突變導(dǎo)致的,通常稱(chēng)為蛋白質(zhì)的共進(jìn)化特性[22]。同一個(gè)家族的蛋白質(zhì)結(jié)構(gòu)是相似的,同一個(gè)蛋白質(zhì)空間相鄰的氨基酸是互相影響、共同進(jìn)化的。關(guān)聯(lián)較強(qiáng)的殘基對(duì)在蛋白質(zhì)的折疊和執(zhí)行生物學(xué)功能起著非常關(guān)鍵的作用,有助于蛋白質(zhì)分子維持整體結(jié)構(gòu)穩(wěn)定性并實(shí)現(xiàn)特定的生物學(xué)功能[23]。因此對(duì)蛋白質(zhì)序共進(jìn)化位點(diǎn)的預(yù)測(cè)研究對(duì)提高蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)精度,揭示蛋白質(zhì)分子的功能和進(jìn)化機(jī)制,從而利用生成模型生成更優(yōu)特性的蛋白質(zhì)突變體至關(guān)重要。2013年De等[24]認(rèn)為共同進(jìn)化是進(jìn)化的重要組成部分,傾向于在蛋白中引入調(diào)節(jié)蛋白之間關(guān)系的協(xié)調(diào)性改變,有助于維持生態(tài)和分子網(wǎng)絡(luò)的結(jié)構(gòu)。以協(xié)同進(jìn)化原則為基礎(chǔ)的計(jì)算方法,可以對(duì)蛋白結(jié)構(gòu)、蛋白功能和蛋白質(zhì)相互作用進(jìn)行分析和預(yù)測(cè)。2015年Braun等結(jié)合進(jìn)化信息和迭代采樣策略進(jìn)行準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。蛋白質(zhì)殘基接觸預(yù)測(cè)能夠?yàn)榈鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)提供非常有價(jià)值的信息。2018年Adhikari等使用兩級(jí)深度卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)蛋白質(zhì)接觸預(yù)測(cè),可以從蛋白質(zhì)的整個(gè)輸入信息中一次性預(yù)測(cè)出蛋白質(zhì)中的所有接觸。CASP(Critical Assessment of Protein Structure Prediction)是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)科學(xué)共同體舉辦的競(jìng)賽,每次競(jìng)賽優(yōu)勝者的水平基本代表了當(dāng)前世界結(jié)構(gòu)預(yù)測(cè)的最高水準(zhǔn)。2019年Li等在 CASP13 中使用深度殘差神經(jīng)網(wǎng)絡(luò)集成多個(gè)原始協(xié)同進(jìn)化特征用于接觸圖預(yù)測(cè),并通過(guò)詳細(xì)的數(shù)據(jù)分析表明端到端訓(xùn)練管道的強(qiáng)度是由于敏感的MSA構(gòu)造和協(xié)同進(jìn)化特征集成的先進(jìn)策略。2020年AlphaFold在CASP14上脫穎而出,其在近2/3的預(yù)測(cè)結(jié)果達(dá)到中低分辨率的實(shí)驗(yàn)精度,幾乎解決了單域蛋白質(zhì)折疊預(yù)測(cè)問(wèn)題。之后,David Baker領(lǐng)導(dǎo)的學(xué)術(shù)團(tuán)隊(duì)開(kāi)發(fā)了RoseTTAFold,其性能幾乎與AlphaFold相當(dāng)。2021年Li等通過(guò)將互補(bǔ)協(xié)同進(jìn)化特征與CASP14中的深度殘差網(wǎng)絡(luò)耦合來(lái)預(yù)測(cè)蛋白質(zhì)殘基間接觸和距離,認(rèn)為可以提供可靠的距離潛力從頭算蛋白質(zhì)折疊。

        大量的文獻(xiàn)表明,表示空間中的度量結(jié)構(gòu)符合從物理化學(xué)到遠(yuǎn)程同源的尺度上的組織原則,并且二級(jí)和三級(jí)蛋白質(zhì)結(jié)構(gòu)可以在表示中識(shí)別。這些表示所捕獲的結(jié)構(gòu)性質(zhì)在折疊中得到了廣泛的應(yīng)用。尤其在單域蛋白質(zhì)折疊,AlphaFold預(yù)測(cè)的正確性超過(guò)了90%,促進(jìn)了新功能蛋白質(zhì)的設(shè)計(jì)。但是對(duì)于多結(jié)構(gòu)域蛋白質(zhì)、四元復(fù)合物和蛋白質(zhì)配體復(fù)合物,這些依舊超出了當(dāng)前系統(tǒng)的范圍。這可能與結(jié)構(gòu)解析的數(shù)量有關(guān)。因此,研究小樣本甚至零樣本預(yù)測(cè)模型仍然是一種可行的方案。

        3 "結(jié)論與展望

        無(wú)論是蛋白質(zhì)語(yǔ)言模型更廣泛的兼容性,還是生成模型對(duì)目標(biāo)數(shù)據(jù)的直接建模,都加快了探索新蛋白質(zhì)的研究進(jìn)度。利用大數(shù)據(jù)和深度學(xué)習(xí)的優(yōu)勢(shì),降低領(lǐng)域知識(shí)的依賴(lài),不局限于非必要的約束,探索與真實(shí)蛋白相似性質(zhì)的、潛在的、新的蛋白序列。大而多樣的蛋白質(zhì)序列數(shù)據(jù)包含了豐富的信息,但利用深度學(xué)習(xí)的方法更準(zhǔn)確地提取到序列中的結(jié)構(gòu)信息是有很大空間。目前,無(wú)論是從序列數(shù)據(jù)還是結(jié)構(gòu)數(shù)據(jù)入手,許多模型的成功都離不開(kāi)大量同源序列的支持,少樣本的數(shù)據(jù)仍然是未來(lái)發(fā)展的重點(diǎn)。

        參考文獻(xiàn):

        [1] CHEN K, ARNOLD F. Tuning the activity of an enzyme for unusual environments: sequential random mutagenesis of subtil-isin E for catalysis in dimethylformamide[J]. PNAS,1993(90):5618-5622.

        [2] BLEICHER K H, B?魻HM H J, MULLER K, et al. Hit and lead generation: beyond high-throughput screening[J].Nature re-views Drug discovery, 2003, 2(5): 369-378.

        [3] MACARRON R, BANKS M N, BOJANIC D, et al. Impact of high-throughput screening in biomedical research[J].Nature reviews Drug discovery, 2011, 10(3):188-195.

        [4] WU Z, JOHNSTON K E, ARNOLD F H, et al. Protein sequence design with deep generative models[J].Current opinion in chemical biology, 2021(65): 18-27.

        [5] HIRANUMA N, PARK H, BAEK M, et al. Improved protein structure refinement guided by deep learning based accuracy estimation[J].Nature communications, 2021,12(1):1340.

        [6] DING W, NAKAI K, GONG H. Protein design via deep learning[J].Briefings in bioinformatics, 2022, 23(3): bbac102.

        [7] RIVES A, GOYAL S, MEIER J, et al. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences[J].bioRxiv, 2019(10): 622803.

        [8] MADANI A, MCCANN B, NAIK N, et al. Progen: Language modeling for protein generation[J].arXiv preprint arXiv,2004(3497): 2020.

        [9] ELNAGGAR A, HEINZINGER M, DALLAGO C, et al. ProtTrans: Towards cracking the language of Life's code through self-supervised deep learning and high performance computing[J].arXiv preprint arXiv,2007(06225).

        [10] ALLEY E C, KHIMULYA G, BISWAS S, et al. Unified rational protein engineering with sequence-based deep representation learning[J].Nature methods, 2019, 16(12): 1315-1322.

        [11] RAO R, BHATTACHARYA N, THOMAS N, et al. Evaluating protein transfer learning with TAPE[J].Advances in neural information processing systems, 2019:32.

        [12] ANAND N, HUANG P. Generative modeling for protein structures[J].Advances in neural information processing systems, 2018:31.

        [13] GREENER J G, MOFFAT L, JONES D T. Design of metalloproteins and novel protein folds using variational autoencoders[J].Scientific reports, 2018, 8(1): 16189.

        [14] SHIN J E, RIESSELMAN A J, KOLLASCH A W, et al. Protein design and variant prediction using autoregressive generative models[J].Nature communications, 2021, 12(1): 2403.

        [15] REPECKA, DONATAS. \"Expanding functional protein sequence spaces using generative adversarial networks.\" [J]. Nature Machine Intelligence, 2021 (4): 324-333.

        [16] XIAN Y, SHARMA S, SCHIELE B, et al. f-vaegan-d2: A feature generating framework for any-shot learning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019: 10275-10284.

        [17] BISWAS S, KHIMULYA G, ALLEY E C, et al. Low-N protein engineering with data-efficient deep learning[J].Nature methods, 2021, 18(4): 389-396.

        [18] RIESSELMAN A, SHIN J E, KOLLASCH A, et al. Accelerating protein design using autoregressive generative models[J].BioRxiv, 2019: 757252.

        [19] DING X, ZOU Z, BROOKS III C L. Deciphering protein evolution and fitness landscapes with latent space models[J].Nature communications, 2019, 10(1): 5644.

        [20] HAWKINS-HOOKER A, DEPARDIEU F, BAUR S, et al. Generating functional protein variants with variational autoencod-ers[J].PLoS computational biology, 2021, 17(2): e1008736.

        [21] RUSS W P, FIGLIUZZI M, STOCKER C, et al. An evolution-based model for designing chorismate mutase enzymes[J].Science, 2020, 369(6502): 440-445.

        [22] 史瑾璇.基于共進(jìn)化分析的蛋白質(zhì)網(wǎng)絡(luò)統(tǒng)計(jì)特征與臨界行為研究[D].揚(yáng)州:揚(yáng)州大學(xué),2020.

        [23] LI Y, ZHANG C, BELL E W, et al. Deducing high-accuracy protein contact-maps from a triplet of coevolutionary matrices through deep residual convolutional networks[J].PLoS computational biology, 2021, 17(3): e1008865.

        [24] DE JUAN D, PAZOS F, VALENCIA A. Emerging methods in protein co-evolution[J].Nature Reviews Genetics, 2013, 14(4): 249-261.

        中文字幕丰满人妻av| 中文字幕色偷偷人妻久久一区 | 免费看国产成年无码av| 中文字幕成人精品久久不卡| 在线观看国产av一区二区| 日韩女同一区二区三区久久 | 亚洲精品成人片在线观看精品字幕| 久久亚洲精品成人无码| 亚洲精品乱码久久久久久久久久久久| 免费无遮挡无码视频在线观看| 久久精品免视看国产盗摄 | 日本欧美大码a在线观看| 成人性生交大片免费| 亚洲va欧美va国产综合| 无码人妻少妇久久中文字幕| 亚洲hd高清在线一区二区| 日本按摩偷拍在线观看| 蜜桃视频网站在线观看一区| 国产无套中出学生姝| 色婷婷综合久久久久中文字幕| 人妻丝袜无码国产一区| 欧美xxxx新一区二区三区| 亚洲大尺度动作在线观看一区| 中文字幕文字幕一区二区| 久久久久人妻精品一区二区三区| 久久久精品国产sm调教网站 | av少妇偷窃癖在线观看| 三级日本午夜在线观看| 成人偷拍自拍视频在线观看| 人妻夜夜爽天天爽三区| 亚洲av成本人无码网站| 蜜臀av人妻一区二区三区| 亚洲av香蕉一区二区三区av| 插我一区二区在线观看| 亚洲国产精品久久久久婷婷老年| 久久精品国内一区二区三区| 国产视频嗯啊啊啊| 丝袜美腿诱惑区在线播放| 风韵丰满熟妇啪啪区99杏| 国产精品嫩草99av在线| 亚洲中久无码永久在线观看软件|