亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        生物分子序列的人工智能設(shè)計(jì)

        2021-03-18 07:52:04王也王昊晨晏明皓胡冠華汪小我
        合成生物學(xué) 2021年1期
        關(guān)鍵詞:人工分子生物

        王也,王昊晨,晏明皓,胡冠華,汪小我

        (清華大學(xué)自動(dòng)化系,合成與系統(tǒng)生物學(xué)研究中心,教育部生物信息學(xué)重點(diǎn)實(shí)驗(yàn)室,北京信息科學(xué)與技術(shù)國(guó)家研究中心,北京 100084)

        隨著合成生物學(xué)與生物信息技術(shù)的迅猛發(fā)展,促成了生命密碼從對(duì)自然的探索到人工合成的質(zhì)變[1],使得人工分子的設(shè)計(jì)與合成生物系統(tǒng)的構(gòu)建成為了可能。近年來(lái)人工合成的生物分子序列,例如藥物小分子、DNA調(diào)控元件、蛋白質(zhì)分子等,在醫(yī)療[2-4]、化工[5-6]、農(nóng)業(yè)[7]等領(lǐng)域有著廣泛的應(yīng)用[8]。早期的生物序列設(shè)計(jì)手段主要聚焦于對(duì)天然序列進(jìn)行隨機(jī)突變[9-10]或者基于功能模塊的組合進(jìn)行篩選[11-12],存在一定的局限性:一方面,潛在的序列隨著序列長(zhǎng)度的增加構(gòu)成了一個(gè)指數(shù)增長(zhǎng)的空間。以DNA 調(diào)控序列為例,僅100 個(gè)堿基長(zhǎng)度的DNA 序列的潛在的堿基組合達(dá)到了4100,即存在約1060種潛在的待測(cè)序列,遠(yuǎn)超出目前任何實(shí)驗(yàn)文庫(kù)(約106~8復(fù)雜度)的篩選能力[13]。蛋白質(zhì)序列由于氨基酸的豐富組成,潛在的序列空間更廣闊,同時(shí)還需考慮折疊構(gòu)象等復(fù)雜約束,通過(guò)局部的修改來(lái)獲得新功能十分困難[14]。另一方面,由于人工突變后的序列與天然序列間存在很高的相似度,易與宿主細(xì)胞產(chǎn)生相互影響,通過(guò)隨機(jī)突變的搜索方式難以保證合成生物系統(tǒng)的絕緣性和遺傳穩(wěn)定性[11]。

        近年來(lái),人工智能技術(shù)的迅猛發(fā)展為生物序列的智能設(shè)計(jì)提供了新的機(jī)遇。由于生物數(shù)據(jù)本身的高維特性以及數(shù)據(jù)中隱含模式的復(fù)雜性,深度學(xué)習(xí)算法在挖掘重要生物學(xué)特征、探求特征之間隱含的復(fù)雜關(guān)系等方面表現(xiàn)出了獨(dú)特的優(yōu)勢(shì)[15]。隨著各類(lèi)生物組學(xué)數(shù)據(jù)的不斷積累,基于深度學(xué)習(xí)的預(yù)測(cè)模型在生命科學(xué)領(lǐng)域已展現(xiàn)出廣闊的應(yīng)用前景[16]。如在處理基因組數(shù)據(jù)場(chǎng)景下DNA 序列motif 的識(shí)別發(fā)現(xiàn)[17],基因元件相互作用的預(yù)測(cè)[18],基因表達(dá)量預(yù)測(cè)[19-20]以及基因調(diào)控網(wǎng)絡(luò)的預(yù)測(cè)等[21]。

        在人工智能研究領(lǐng)域,以變分自編碼器(variational auto-encoder,VAE)[22]、生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[23]等為代表的深度生成式模型的研究近年來(lái)取得了重大突破。深度生成式模型可以從高維數(shù)據(jù)樣本中提取重要的特征與特征組合規(guī)律,并據(jù)此生成海量的全新樣本,在圖像、音頻數(shù)據(jù)的生成中已取得了重大進(jìn)展[24-26]?;谌斯ぶ悄艿脑O(shè)計(jì)模型,已逐漸被應(yīng)用于藥物研發(fā)[27-28]、對(duì)未知化學(xué)反應(yīng)的探索[5]等方向,成功實(shí)現(xiàn)了小分子藥物[29-30]、基因調(diào)控序列[31]新型人工蛋白質(zhì)以及基于CRISPR 編輯技術(shù)的guide RNA設(shè)計(jì)[32-34]等的合成設(shè)計(jì)[35-36]。

        不同于傳統(tǒng)的設(shè)計(jì)手段在天然序列的局部進(jìn)行小范圍探索,智能算法可提取生物數(shù)據(jù)的復(fù)雜特征并與尋優(yōu)算法相結(jié)合,利用生物特征的低維表示,針對(duì)特定生物學(xué)功能進(jìn)行定向優(yōu)化[37]。通過(guò)對(duì)潛在序列空間的探索與尋優(yōu),實(shí)現(xiàn)生物序列的智能化、自動(dòng)化設(shè)計(jì)(圖1)。在降低了搜索實(shí)驗(yàn)負(fù)擔(dān)的同時(shí),提高了生物分子序列設(shè)計(jì)和優(yōu)化的效率[38]。因此,深入研究生物序列設(shè)計(jì)的智能算法,有利于在更廣闊的空間中高效設(shè)計(jì)生物分子,幫助促進(jìn)生物分子的快速進(jìn)化。

        本文主要綜述了智能算法在生物序列設(shè)計(jì)中的應(yīng)用,重點(diǎn)介紹在生物分子設(shè)計(jì)中常用的深度生成式模型,包括生成對(duì)抗網(wǎng)絡(luò)[23]、變分自編碼器[22]、遞歸神經(jīng)網(wǎng)絡(luò)等。在此基礎(chǔ)上,系統(tǒng)總結(jié)了各類(lèi)生物分子的智能尋優(yōu)策略與評(píng)估方法,以及將智能算法應(yīng)用于生物數(shù)據(jù)中的挑戰(zhàn)與發(fā)展方向。

        1 人工智能算法設(shè)計(jì)生物序列

        從模式識(shí)別角度分析生物序列設(shè)計(jì)中的共性的問(wèn)題:前人的研究發(fā)現(xiàn),特定功能的生物分子序列會(huì)形成高維序列空間中的低維流形[39]。例如,2018 年的一篇關(guān)于氨基酸序列的研究證實(shí),來(lái)自不同細(xì)菌的氨基酸序列組成的序列空間中,大腸桿菌的同一氨基酸家族的突變體序列會(huì)形成低維流形[40];針對(duì)藥物小分子的研究也發(fā)現(xiàn),具有視黃醇受體活性的脂肪酸分子,在高維序列空間中可形成低維流形[30];在DNA 序列的設(shè)計(jì)中也有報(bào)道發(fā)現(xiàn)編碼抗菌肽的DNA 序列在化學(xué)性質(zhì)空間中形成低維流形[41]等。因此,生物序列的設(shè)計(jì)問(wèn)題從算法上可歸結(jié)為從潛在的高維序列空間中,尋找由特定功能的生物序列組成的低維流形問(wèn)題。

        圖1 是否利用智能算法指導(dǎo)進(jìn)行生物分子設(shè)計(jì)的比較Fig.1 Biomolecular design with or without machine learning-guided search

        利用智能算法進(jìn)行全新生物分子序列設(shè)計(jì)的基本思路是將離散、高維的生物分子序列空間映射到低維、連續(xù)的特征表示空間,通過(guò)表示空間對(duì)潛在人工分子進(jìn)行尋找和篩選[42-43]。這一方面可以降低直接對(duì)生物分子序列和結(jié)構(gòu)進(jìn)行設(shè)計(jì)的復(fù)雜度,同時(shí)提高人工分子設(shè)計(jì)的有效性比例,降低大規(guī)模文庫(kù)搜索的實(shí)驗(yàn)成本;另一方面,與定量評(píng)估以及尋優(yōu)算法相結(jié)合,可對(duì)具有特定優(yōu)良性能的生物分子進(jìn)行定向優(yōu)化。由于生物分子具有復(fù)雜的序列模式,除了每個(gè)位置獨(dú)立的原子或堿基特征以及兩兩間的相互作用以外,其遠(yuǎn)距離相互作用特征往往難以被準(zhǔn)確捕捉和描述。而利用機(jī)器學(xué)習(xí)算法的特征提取能力,可捕獲生物分子的基本單位如堿基、氨基酸或原子間的遠(yuǎn)距離相互作用[40]。以此為指導(dǎo),可高效探索表示空間中潛在的分子序列,從而設(shè)計(jì)人工分子。除此以外,通過(guò)對(duì)生成的分子建立定量評(píng)價(jià)體系,將智能設(shè)計(jì)的人工分子擴(kuò)充到天然生物分子序列庫(kù)中,可優(yōu)化性能預(yù)測(cè)模型,進(jìn)一步縮短對(duì)新分子探索的周期[39,44]。

        在人工智能領(lǐng)域中,深度生成式模型由于具有強(qiáng)大的模擬數(shù)據(jù)分布的能力,可通過(guò)從低維數(shù)據(jù)表示中采樣和尋優(yōu)設(shè)計(jì)全新的人工樣本[45],因此近年來(lái)在生物序列的智能設(shè)計(jì)中有著廣泛的應(yīng)用。生物分子設(shè)計(jì)中常用的深度生成式框架主要包括生成對(duì)抗網(wǎng)絡(luò),變分自編碼器和遞歸神經(jīng)網(wǎng)絡(luò)等(圖2),我們將探討這些模型各自的特點(diǎn)與在生物序列設(shè)計(jì)中的應(yīng)用。

        1.1 生成對(duì)抗網(wǎng)絡(luò)

        生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)由Goodfellow等[23]在2014年提出,其通過(guò)生成器和判別器的對(duì)抗來(lái)估計(jì)概率分布并生成同訓(xùn)練樣本位于類(lèi)似分布中的新樣本。在生物序列設(shè)計(jì)中,生成對(duì)抗網(wǎng)絡(luò)框架已應(yīng)用于核酸序列[41]、蛋白質(zhì)[46]和小分子藥物[47]等的設(shè)計(jì)。生成對(duì)抗網(wǎng)絡(luò)不能獲得生物序列在高維序列空間的顯式分布,但通過(guò)生成器與判別器的自我博弈,可生成與天然生物分子位于類(lèi)似分布的全新人工分子序列。在DNA 序列設(shè)計(jì)與藥物分子設(shè)計(jì)中,研究人員通過(guò)將生成對(duì)抗網(wǎng)絡(luò)與t-SNE[48]、主成分分析等的降維方法相結(jié)合,對(duì)生物序列的物理化學(xué)特征如長(zhǎng)度、帶電量等進(jìn)行降維,可觀察到算法生成的全新序列與天然生物分子具有相似的化學(xué)特征分布[30,41]。例如,在2019 年的一篇文獻(xiàn)[41]中,作者利用GAN 設(shè)計(jì)編碼蛋白的人工DNA 序列:以服從低維正態(tài)分布的向量作為生成器的輸入,生成器產(chǎn)生的DNA 序列與來(lái)自Uniprot[49]數(shù)據(jù)庫(kù)中超過(guò)3655 條的天然蛋白編碼序列共同作為判別器的輸入,訓(xùn)練GAN 生成編碼蛋白的人工DNA 序列。之后在序列的物理化學(xué)特征表示空間中對(duì)序列做t-SNE 降維,發(fā)現(xiàn)新設(shè)計(jì)的序列與天然序列位于相似的空間分布中。作者結(jié)合抗菌性能預(yù)測(cè)模型與GAN 進(jìn)行了的抗菌劑編碼序列的循環(huán)優(yōu)化設(shè)計(jì),每輪模型生成的排名靠前的人工序列再次作為真實(shí)序列輸入判別器。通過(guò)在獨(dú)立預(yù)測(cè)器上進(jìn)行人工序列的性能評(píng)估,得到最終設(shè)計(jì)的人工序列中40.2%為具有抗菌活性的編碼序列。

        圖2 生物分子序列生成任務(wù)中常用的深度生成模型Fig.2 Deep generative models commonly used in biomolecule sequence generation

        1.2 變分自編碼器

        變分自編碼器(variational auto-encoder,VAE)是利用具有自編碼器結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)構(gòu)造的有向概率圖模型。在生物序列的設(shè)計(jì)中,Gómez-Bombarelli 團(tuán)隊(duì)[43]首次將基于VAE 的生成式模型引入小分子藥物序列的設(shè)計(jì)中。在VAE 的基礎(chǔ)上,藥物設(shè)計(jì)領(lǐng)域已開(kāi)發(fā)出針對(duì)不同的分子序列表示方式(如藥物的SMILES 結(jié)構(gòu)[50]、3D 結(jié)構(gòu)[51]、原子的三維立方網(wǎng)格[51]、分子特征的二值向量[52]等)不同輸入形式的藥物序列設(shè)計(jì)算法,以及針對(duì)多靶標(biāo)設(shè)計(jì)的條件變分自編碼器[53]。例如,2018 年Lim 等[53]使用化合物的油水分配系數(shù)、氫鍵供體性質(zhì)等性質(zhì)作為條件向量輸入,利用分子序列(對(duì)分子的SMILES表示進(jìn)行獨(dú)熱編碼,獲得輸入向量)與條件向量成對(duì)輸入到VAE 中,最終生成了分別達(dá)到5類(lèi)不同理化性能指標(biāo)的人工化合物分子。通過(guò)引入對(duì)抗思想形成對(duì)抗自編碼器(adversarial auto-encoder,AAE)框架,可進(jìn)一步提高在結(jié)構(gòu)上合理藥物序列的比例[54]。

        1.3 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是自然語(yǔ)言處理中經(jīng)典的序列數(shù)據(jù)生成模型[55]。其中長(zhǎng)短期記憶結(jié)構(gòu)(long-short term memory,LSTM)可學(xué)習(xí)并決定過(guò)去的信息保留與否[56]。門(mén)循環(huán)單元(gate recurrent unit,GRU)的網(wǎng)絡(luò)結(jié)構(gòu)則更為簡(jiǎn)化,通??色@得與LSTM類(lèi)似的效果[55]。在生物序列的設(shè)計(jì)問(wèn)題中,研究發(fā)現(xiàn),以化合物分子的SMILES 表示作為輸入,基于RNN 的方法可學(xué)習(xí)到分子序列語(yǔ)法與化學(xué)空間的低維分布[57]。對(duì)于長(zhǎng)度分布差異較大的序列,RNN 具有獨(dú)特的優(yōu)勢(shì)。例如,2019 年Alley 等[58]利用基于LSTM的模型,通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)各層信息的平均化整合,獲得了病毒、細(xì)菌、植物、哺乳動(dòng)物等物種中各類(lèi)蛋白質(zhì)序列的特征表示,從而形成通用的蛋白序列表示空間,并利用該表示空間與綠色熒光蛋白的熒光強(qiáng)度模型相結(jié)合,進(jìn)行綠色熒光蛋白序列的人工設(shè)計(jì),對(duì)于蛋白質(zhì)序列的優(yōu)化具有重要的意義。

        現(xiàn)有的深度生成式模型具有不同的優(yōu)勢(shì)與特點(diǎn),因此在生物序列設(shè)計(jì)中適應(yīng)于不同的應(yīng)用方向。生成對(duì)抗網(wǎng)絡(luò)可以生成比變分自編碼器更加尖銳的數(shù)據(jù)分布[23],生成與原序列位于相似高維分布中的人工序列。但不能獲得顯式的數(shù)據(jù)分布,并且易出現(xiàn)模式崩潰現(xiàn)象,即生成的樣本之間相似度過(guò)高,影響人工生物序列的多樣性[59]。對(duì)抗自編碼器則將生成對(duì)抗網(wǎng)絡(luò)的對(duì)抗思想引入變分自編碼器,盡量使得隱層的分布與先驗(yàn)分布接近。但AAE 和VAE 利用最大似然法擬合分子的整體分布[22],分布擬合任務(wù)的收斂較困難[60]。循環(huán)神經(jīng)網(wǎng)絡(luò)可靈活處理不定長(zhǎng)的生物序列,但通常模型規(guī)模大,所需訓(xùn)練時(shí)間長(zhǎng),且生物分子序列相比于自然語(yǔ)言生成的場(chǎng)景,缺乏成熟的語(yǔ)義嵌入網(wǎng)絡(luò)。在生物序列生成時(shí)容易出現(xiàn)堿基的重復(fù),因此相對(duì)于僅含4類(lèi)堿基的核酸,更適合于化合物分子團(tuán)等單元數(shù)目較多的生物序列的生成。

        如何合理整合與利用不同的智能模型的優(yōu)勢(shì),針對(duì)各類(lèi)生物分子序列的特點(diǎn),提取重要的生物學(xué)特征,形成生物序列的特征表示空間,對(duì)于各類(lèi)生物分子序列的智能設(shè)計(jì)與優(yōu)化具有重要的意義[61]。

        2 利用尋優(yōu)算法進(jìn)行定向優(yōu)化

        為了對(duì)特定性能進(jìn)行優(yōu)化,在通過(guò)智能算法獲得低維的特征表示空間后,可與遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等算法相結(jié)合,在表示空間針對(duì)特定性能對(duì)生物分子進(jìn)行尋優(yōu)。同時(shí),對(duì)于不同類(lèi)型的分子,由于其結(jié)構(gòu)對(duì)功能的影響,也存在不同的分子輸入表示形式(表1)。

        表1 深度生成式模型與優(yōu)化算法結(jié)合的應(yīng)用研究Tab.1 Applications for deep generative models combined with optimization algorithms

        2.1 基于遷移學(xué)習(xí)的定向優(yōu)化

        遷移學(xué)習(xí)是一類(lèi)常用的機(jī)器學(xué)習(xí)方法,其通過(guò)將針對(duì)某一任務(wù)開(kāi)發(fā)的模型、策略作為初始點(diǎn),經(jīng)過(guò)微調(diào)重新使用在另一任務(wù)的模型中。在一些場(chǎng)景下,具有特定功能的分子往往數(shù)據(jù)量較小,無(wú)法直接進(jìn)行預(yù)測(cè)模型的訓(xùn)練與優(yōu)化。遷移學(xué)習(xí)方法將生物數(shù)據(jù)庫(kù)中各類(lèi)生物序列整合,對(duì)模型進(jìn)行預(yù)訓(xùn)練,再針對(duì)特定性能的分子,如特定疾病的靶向藥物或分子抑制劑等對(duì)模型進(jìn)行精調(diào)(fine-tuning),從而對(duì)這些分子進(jìn)行擴(kuò)充設(shè)計(jì)與探索。例如,研究人員利用RNN 對(duì)數(shù)據(jù)庫(kù)中約10 萬(wàn)條無(wú)性能偏好的生物分子進(jìn)行了預(yù)訓(xùn)練,并遷移學(xué)習(xí)到約1 萬(wàn)條具有活性的分子上進(jìn)行精調(diào),最終可以再發(fā)現(xiàn)416 種已證明具有活性的藥物分子[57]。在一些藥物設(shè)計(jì)的案例中,特定的靶標(biāo)化合物數(shù)目非常有限的情況下,遷移學(xué)習(xí)進(jìn)行定向優(yōu)化也取得了較好的效果。例如,研究人員在豐富的藥物數(shù)據(jù)庫(kù)上預(yù)訓(xùn)練生成器,之后遷移學(xué)習(xí)到25 種維甲酸和過(guò)氧化物酶體增殖受體激動(dòng)劑上進(jìn)行精調(diào),最終成功合成了5 種新的有效藥物分子[30]。

        遷移學(xué)習(xí)可以靈活地適配不同的智能設(shè)計(jì)框架,為人工分子的性能優(yōu)化提供了重要的思路。但基于遷移學(xué)習(xí)的優(yōu)化方法獲得的人工分子,將與現(xiàn)存特定性能的分子位于類(lèi)似分布中,最終性能優(yōu)化提升的效果會(huì)受到一定的限制。

        2.2 基于強(qiáng)化學(xué)習(xí)的定向優(yōu)化

        利用生物分子性能的預(yù)測(cè)模型,可在強(qiáng)化學(xué)習(xí)框架下,對(duì)特定性能的生物序列進(jìn)行定向優(yōu)化[66]。例如,有研究利用藥物性能預(yù)測(cè)網(wǎng)絡(luò)對(duì)人工分子性能進(jìn)行打分,在強(qiáng)化學(xué)習(xí)的框架下,對(duì)藥物分子的溶解溫度與其作為JAK2 抑制劑的性能進(jìn)行定向優(yōu)化,成功獲得了一批性能超越天然分子的藥物分子序列[39]。2019 年,研究人員基于GAN 框架,利用靶向和非靶向的藥物作為正負(fù)樣本進(jìn)行強(qiáng)化學(xué)習(xí),在表示空間針對(duì)DDR1的抑制能力進(jìn)行定向優(yōu)化設(shè)計(jì),歷時(shí)僅21 天設(shè)計(jì)出了DDR1抑制劑的新藥候選分子。對(duì)在實(shí)驗(yàn)室合成的6 個(gè)潛在新藥分子進(jìn)行生化初篩后,對(duì)4 個(gè)具有活性的分子進(jìn)行體外細(xì)胞實(shí)驗(yàn),其中2個(gè)化合物展現(xiàn)了顯著的DDR1抑制能力[67]。

        近年來(lái),基于強(qiáng)化學(xué)習(xí)的優(yōu)化算法在小分子藥物設(shè)計(jì)中展現(xiàn)出了巨大的潛力。伴隨著各類(lèi)生物分子的性能預(yù)測(cè)模型準(zhǔn)確性的逐步提高,未來(lái)基于強(qiáng)化學(xué)習(xí)的框架在不同生物序列中的優(yōu)化將成為重要的研究方向。

        2.3 基于蒙特卡洛樹(shù)搜索的定向優(yōu)化

        對(duì)于生物分子序列,可使用基于決策樹(shù)搜索的方法進(jìn)行生成與優(yōu)化。其中,蒙特卡洛樹(shù)搜索(Monte Carlo tree search,MCTS)是一種在缺乏強(qiáng)啟發(fā)的情況下常用的基于樹(shù)的序列搜索方法[68],主要包含4個(gè)步驟:選擇,拓展,模擬和反向傳播更新。利用蒙特卡洛搜索可以從頭開(kāi)始同時(shí)生成與優(yōu)化生物分子:選定當(dāng)前最可能的決策,如碳原子或其他化學(xué)結(jié)構(gòu)組成單位如苯環(huán),隨后采用隨機(jī)搜索進(jìn)行模擬,用以模擬完整序列的延伸結(jié)果。通過(guò)對(duì)多次采樣的結(jié)果進(jìn)行平均,反向傳播回相應(yīng)的節(jié)點(diǎn),可學(xué)習(xí)獲得決策成功的概率。因此,在訓(xùn)練完成后可通過(guò)基于策略的抽樣生成新的序列。

        在生物分子序列設(shè)計(jì)中,有研究通過(guò)MCTS與RNN、VAE 相結(jié)合,利用不同的神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行分子有效性預(yù)測(cè),成功實(shí)現(xiàn)了藥物序列的設(shè)計(jì)。例如通過(guò)利用RNN 網(wǎng)絡(luò)進(jìn)行延伸模擬,實(shí)現(xiàn)了對(duì)藥物分子性能(如正辛醇-水分配系數(shù)等)的優(yōu)化[27]。在化學(xué)反應(yīng)的智能設(shè)計(jì)中,利用蒙特卡洛搜索與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,以高于傳統(tǒng)設(shè)計(jì)方法3 倍的搜索效率,成功設(shè)計(jì)了2 倍數(shù)目的目標(biāo)分子生成反應(yīng)[5]。

        基于樹(shù)搜索方法的序列設(shè)計(jì)可實(shí)現(xiàn)生物序列的生成與尋優(yōu),但其依賴(lài)于性能預(yù)測(cè)模型的統(tǒng)計(jì)得分作為序列生成的指導(dǎo),且往往不考慮表示空間的分布,因此更適用于具有較為準(zhǔn)確的性能預(yù)測(cè)模型[69],但表示空間分布的可解釋性較弱的生物序列設(shè)的設(shè)計(jì)。

        2.4 基于貝葉斯優(yōu)化的定向優(yōu)化

        貝葉斯優(yōu)化方法可針對(duì)任意連續(xù)表示空間進(jìn)行建模。以分子在連續(xù)隱空間的表示作為輸入,通過(guò)多次重復(fù)高斯過(guò)程進(jìn)行探索,計(jì)算采樣函數(shù)的值,最終以將采樣函數(shù)最大化值,作為優(yōu)化分子。例如,研究人員利用稀疏高斯過(guò)程[70]對(duì)VAE 生成的隱空間進(jìn)行了貝葉斯優(yōu)化[63],結(jié)果顯示人工分子與天然分子在相對(duì)位置比對(duì)的相似度大于0.6 的情況下,人工分子的設(shè)計(jì)成功率超過(guò)83%。

        基于貝葉斯優(yōu)化的分子尋優(yōu)方案,不依賴(lài)于具體的預(yù)測(cè)模型指導(dǎo),但需要在分子具有良好的連續(xù)隱空間表示基礎(chǔ)上,進(jìn)行基于高斯過(guò)程的探索和尋優(yōu)。因此通常適用于基于自編碼器的深度生成式模型(如VAE和AAE)。

        2.5 基于性能得分梯度回傳的定向優(yōu)化

        將性能預(yù)測(cè)模型與生物分子表示相結(jié)合,可以實(shí)現(xiàn)對(duì)連續(xù)隱空間基于梯度的定向優(yōu)化。利用生成模型獲得的表示空間,與預(yù)測(cè)模型相連接,計(jì)算分子的性能分值對(duì)于分子表示的梯度,并將梯度回傳到表示空間,可以指導(dǎo)表示空間的尋優(yōu)方向。例如在藥物設(shè)計(jì)中,研究人員將VAE 與性能預(yù)測(cè)器相結(jié)合,利用編碼器將化合物序列映射到低維表示空間,使用預(yù)測(cè)器對(duì)隱空間中化合物的性能進(jìn)行預(yù)測(cè)。最終利用性能得分對(duì)于分子表示的梯度,指導(dǎo)隱空間的尋優(yōu)方向進(jìn)行定向優(yōu)化[43]。在基因元件設(shè)計(jì)中,研究人員測(cè)定了基于酵母中元件基序(Motif)設(shè)計(jì)的數(shù)十萬(wàn)條啟動(dòng)子序列的表達(dá)活性,以此訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。之后利用基于基因表達(dá)活性的梯度回傳的方式指導(dǎo)啟動(dòng)子設(shè)計(jì),產(chǎn)生了大量的具有特定功能與序列多樣性的啟動(dòng)子元件[71]。

        綜上,包括遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等在內(nèi)的離散與連續(xù)尋優(yōu)的方法,在生物分子的序列中均取得了較大的進(jìn)展。在蛋白質(zhì)設(shè)計(jì)領(lǐng)域,基于Rosetta 算法評(píng)分[72]的采樣方式是常用的蛋白質(zhì)序列與骨架的優(yōu)化方法。在實(shí)際的生物分子應(yīng)用中,可將不同的尋優(yōu)方案進(jìn)行整合優(yōu)化。例如,將遷移學(xué)習(xí)的精調(diào)與強(qiáng)化學(xué)習(xí)的框架相結(jié)合,在精調(diào)到特定的性能分布后,利用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化提升生物分子的性能[67]。除此以外,在對(duì)單一性能進(jìn)行優(yōu)化的基礎(chǔ)上,通過(guò)設(shè)計(jì)各類(lèi)條件輸入,例如目標(biāo)狀態(tài)下重要基因的表達(dá)譜[73]、現(xiàn)有特定功能的分子序列[74]、目標(biāo)性能值[75]等,生成式模型可設(shè)計(jì)不同類(lèi)型的生物分子,形成依賴(lài)條件輸入的生物分子定向設(shè)計(jì)[53,76]。

        為了對(duì)生物序列進(jìn)行準(zhǔn)確的預(yù)測(cè)與優(yōu)化,可以綜合各種組學(xué)數(shù)據(jù)的信號(hào)輸入[77],利用進(jìn)化過(guò)程中的序列進(jìn)行數(shù)據(jù)增強(qiáng)[78]。另外,深度生成式模型也可作為對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng)的數(shù)據(jù)生成器[79],通過(guò)從不同角度豐富訓(xùn)練數(shù)據(jù),進(jìn)一步提高預(yù)測(cè)模型的準(zhǔn)確性[80]。從計(jì)算層面,可以發(fā)揮智能算法強(qiáng)大的特征提取能力的優(yōu)勢(shì)[81],在樣本數(shù)量受限的情況下,進(jìn)行無(wú)監(jiān)督或半監(jiān)督的序列特征提?。?2],通過(guò)模型解析可以幫助人們發(fā)現(xiàn)新的重要生物學(xué)特征[83-84],為人工生物系統(tǒng)的構(gòu)建提供重要支撐。

        3 生成序列的計(jì)算評(píng)價(jià)指標(biāo)

        利用深度生成式模型進(jìn)行定向優(yōu)化,需要篩選多樣性較高、與天然分子相似性較低、滿(mǎn)足目標(biāo)需求(如表達(dá)量、靶點(diǎn)或組織特異性)的人工分子。合適的評(píng)估體系的設(shè)計(jì)有利于提高目標(biāo)分子的設(shè)計(jì)成功率和篩選效率[85]。下面列出的是目前在生物序列設(shè)計(jì)領(lǐng)域中一些常用的評(píng)估指標(biāo),可為其他評(píng)估尚未成熟的生物序列設(shè)計(jì)問(wèn)題提供思路(表2)。

        3.1 基于分布的評(píng)估

        從生成的生物分子是否與天然分子位于類(lèi)似分布的角度,可從人工分子的合理性、多樣性、新穎性等方面進(jìn)行評(píng)估。在藥物設(shè)計(jì)領(lǐng)域,對(duì)設(shè)計(jì)的序列進(jìn)行性能預(yù)測(cè)具有相對(duì)標(biāo)準(zhǔn)化的定量評(píng)估指標(biāo),如基于二維分子印跡[86]的Tanimoto 距離[87],可以衡量設(shè)計(jì)的生物序列之間的相似性。RDkit 包可以初步檢測(cè)是否為結(jié)構(gòu)合理的藥物序列[88]。在蛋白設(shè)計(jì)領(lǐng)域,可以利用Rosetta 算法對(duì)設(shè)計(jì)的人工蛋白進(jìn)行評(píng)估、篩選與優(yōu)化[89]。除此以外,可使用在性能預(yù)測(cè)等任務(wù)中表現(xiàn)魯棒的神經(jīng)網(wǎng)絡(luò)對(duì)智能設(shè)計(jì)的生物序列進(jìn)行評(píng)價(jià)。例如類(lèi)似于圖片生成領(lǐng)域中可利用圖片分類(lèi)問(wèn)題常用的特征提取網(wǎng)絡(luò)InceptionNet[90]對(duì)生成結(jié)果進(jìn)行評(píng)價(jià),藥物設(shè)計(jì)領(lǐng)域則利用預(yù)訓(xùn)練的藥物深度神經(jīng)網(wǎng)絡(luò)ChemNet 的隱層對(duì)生成結(jié)果進(jìn)行評(píng)價(jià)。研究人員據(jù)此提出利用Frechet ChemNet Distance(FCD)來(lái)衡量生成式模型設(shè)計(jì)的藥物序列p(·)與天然藥物序列pw(·)之間的距離[91]。為了獲得每個(gè)分子的數(shù)學(xué)表示,以ChemNet的倒數(shù)第2層作為序列的分布。假設(shè)隱層表示滿(mǎn)足多維高斯分布,計(jì)算模型設(shè)計(jì)藥物序列的高斯分布p(·)的均值和方差則為(m,C),天然藥物序列的高斯分布pw(·)均值和方差則為(mw,Cw)。可由此計(jì)算出二者的Frechet Distance(Wasserstein-2 Distance),用于評(píng)估智能設(shè)計(jì)的生物分子的多樣性以及是否與真實(shí)分子之間有類(lèi)似的化學(xué)性質(zhì)。與之對(duì)應(yīng)的,在人工蛋白設(shè)計(jì)的問(wèn)題中,可以利用大量實(shí)驗(yàn)測(cè)試?yán)L制的經(jīng)驗(yàn)性蛋白適應(yīng)度分布(fitness landscape),對(duì)設(shè)計(jì)的人工蛋白質(zhì)與多肽鏈進(jìn)行分布一致程度的評(píng)估[92-93]。

        3.2 基于優(yōu)化目標(biāo)的評(píng)估

        針對(duì)優(yōu)化性能目標(biāo)的評(píng)估,可利用單獨(dú)訓(xùn)練的預(yù)測(cè)模型對(duì)生成的生物序列進(jìn)行評(píng)價(jià)。除此以外,從生物序列再發(fā)現(xiàn)的角度,計(jì)算重設(shè)計(jì)的恢復(fù)比例,即從訓(xùn)練集中分出一部分生物序列作為測(cè)試集,計(jì)算生成的序列與測(cè)試集序列的重合比例。例如,在2018 年的一篇文章中[57],作者使用了1239 個(gè)藥物序列訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)生成藥物分子,其中28%的分子可在測(cè)試集中出現(xiàn),并與測(cè)試集的藥物分子位于相似的低維流形上,驗(yàn)證了藥物分子設(shè)計(jì)的有效性。

        表2 深度生成式模型進(jìn)行生物序列設(shè)計(jì)的常用評(píng)價(jià)指標(biāo)Tab.2 Evaluation criteria for deep generative model designed biomolecular sequences

        3.3 計(jì)算模擬與生物實(shí)驗(yàn)相結(jié)合

        對(duì)于滿(mǎn)足計(jì)算評(píng)估指標(biāo)的生物分子,可通過(guò)分子生化方法進(jìn)行人工合成,利用批量生化實(shí)驗(yàn),如大規(guī)模平行報(bào)告系統(tǒng)[94]、細(xì)胞外給藥技術(shù)等,測(cè)試智能設(shè)計(jì)的分子的有效性。2018 年有研究人員[74]將條件對(duì)抗自編碼器設(shè)計(jì)的300 000 個(gè)候選JAK2 激酶抑制劑進(jìn)行docking 篩選[95]、分子動(dòng)力學(xué)篩選后獲得了100個(gè)潛在序列。之后利用專(zhuān)家知識(shí)篩選后的抑制劑分子,通過(guò)胞外給藥曲線測(cè)定的方法,成功獲得了1 種具有JAK2 激酶抑制劑活性,且同時(shí)不具備其他對(duì)照蛋白(如JAK3 激酶)活性的藥物分子序列。

        目前生化實(shí)驗(yàn)篩選的通量與潛在的序列空間相比仍非常有限。利用智能算法與生化實(shí)驗(yàn)測(cè)試相結(jié)合的方式,搭建智能算法與生化測(cè)試的循環(huán)優(yōu)化設(shè)計(jì)框架,可以提高生物序列的設(shè)計(jì)效率[96]。例如,我們利用GAN 設(shè)計(jì)大腸桿菌啟動(dòng)子序列的設(shè)計(jì),經(jīng)過(guò)第1 輪計(jì)算篩選與生化實(shí)驗(yàn)測(cè)試后,利用測(cè)得的人工啟動(dòng)子的活性結(jié)果,對(duì)啟動(dòng)子活性預(yù)測(cè)模型進(jìn)行迭代優(yōu)化,最終智能設(shè)計(jì)的人工啟動(dòng)子序列設(shè)計(jì)成功率超過(guò)了70%[31]。進(jìn)一步,我們基于深度學(xué)習(xí)模型搭建了啟動(dòng)子設(shè)計(jì)軟件Gpro,提供了啟動(dòng)子智能化、模塊化的設(shè)計(jì)平臺(tái)[97]。

        4 總結(jié)與展望

        為了更加精確、穩(wěn)定地調(diào)控細(xì)胞內(nèi)的生化反應(yīng),滿(mǎn)足對(duì)不同生命活動(dòng)調(diào)控的需求,需要對(duì)生物序列進(jìn)行人工設(shè)計(jì)與優(yōu)化,這是合成生物學(xué)面臨的重要的科學(xué)問(wèn)題[98]。由于生物序列的復(fù)雜性,智能算法在該類(lèi)問(wèn)題中具有獨(dú)特的優(yōu)勢(shì):不同于傳統(tǒng)的設(shè)計(jì)手段在天然序列的局部進(jìn)行小范圍探索,智能算法可以通過(guò)提取生物數(shù)據(jù)的復(fù)雜特征,并在這些生物特征的指導(dǎo)下,實(shí)現(xiàn)自動(dòng)化、批量化、端到端的智能設(shè)計(jì)。因此,伴隨著智能算法的發(fā)展,與生物序列測(cè)試數(shù)據(jù)的積累,在數(shù)據(jù)與模型的共同驅(qū)動(dòng)下,生物分子的設(shè)計(jì)將打開(kāi)全新的篇章。

        針對(duì)不同的生物序列,利用智能算法進(jìn)行自動(dòng)設(shè)計(jì),面臨著不同的挑戰(zhàn)。表3從數(shù)據(jù)量、常用的智能設(shè)計(jì)模型等角度比較了在這些應(yīng)用領(lǐng)域進(jìn)行智能設(shè)計(jì)的挑戰(zhàn)與潛在的發(fā)展方向。在藥物小分子序列設(shè)計(jì)領(lǐng)域,計(jì)算評(píng)估的指標(biāo)相對(duì)比較完善,但分子的有機(jī)合成需考慮的因素仍較為復(fù)雜。盡管有研究利用整合智能算法與先驗(yàn)規(guī)則的框架,對(duì)化合物分子的合成線路進(jìn)行自動(dòng)設(shè)計(jì)[101],對(duì)設(shè)計(jì)出的分子進(jìn)行有機(jī)合成仍然是藥物開(kāi)發(fā)的限速步驟。因此如何綜合各類(lèi)生化指標(biāo),將藥物分子合成線路的設(shè)計(jì)融入到生物序列的智能設(shè)計(jì)中,是未來(lái)重要的研究方向。在特定功能蛋白質(zhì)的設(shè)計(jì)中,由于對(duì)其三維折疊的構(gòu)象等性能的預(yù)測(cè)仍缺乏準(zhǔn)確性,目前探索的范圍仍然有限。如何利用蛋白質(zhì)序列與結(jié)構(gòu)的表示空間,結(jié)合物理化學(xué)約束模型,進(jìn)行蛋白質(zhì)的智能設(shè)計(jì)與優(yōu)化,仍然是尚未解決的重要問(wèn)題,在未來(lái)具有廣闊的應(yīng)用前景。在核酸序列的設(shè)計(jì)中,核酸序列的合成約束相對(duì)小分子化合物與蛋白質(zhì)更少,但各類(lèi)核酸序列的生物學(xué)功能迥異,并且與細(xì)胞內(nèi)復(fù)雜的蛋白質(zhì)調(diào)控網(wǎng)絡(luò)存在相互作用,同時(shí)尚缺乏系統(tǒng)規(guī)范的性能評(píng)估體系。其中,DNA 序列設(shè)計(jì)的研究主要關(guān)注于轉(zhuǎn)錄調(diào)控序列和用于微芯片的DNA 探針、針對(duì)編碼抗菌肽基因的DNA 序列等的設(shè)計(jì)。因此,如何對(duì)基因組的順式調(diào)控元件與反式作用因子等不同層次的信號(hào)進(jìn)行建模整合,成為研究的關(guān)鍵。

        表3 對(duì)藥物分子、蛋白質(zhì)和核酸序列進(jìn)行智能設(shè)計(jì)的優(yōu)勢(shì)與挑戰(zhàn)Tab.3 Advantages and challenges of intelligent design for drug molecules,proteins and nucleic acid sequences

        在生物序列設(shè)計(jì)問(wèn)題中,一方面不同生物序列的智能設(shè)計(jì)面臨著各自的挑戰(zhàn);另一方面,人工生物序列作為合成生命系統(tǒng)的重要信息寫(xiě)入載體,其如何與胞內(nèi)復(fù)雜的多層次調(diào)控之間相互影響,尚待研究。未來(lái)人工生物序列的智能設(shè)計(jì)需充分考慮生物系統(tǒng)具有多層次的調(diào)控高度耦合的復(fù)雜特性,通過(guò)對(duì)不同層次的生物序列進(jìn)行設(shè)計(jì),從系統(tǒng)的角度利用生物序列對(duì)天然生物系統(tǒng)中不同層次的調(diào)控進(jìn)行干預(yù),實(shí)現(xiàn)生物序列與系統(tǒng)底盤(pán)環(huán)境的整體智能適配與優(yōu)化。這將為人工生物序列的設(shè)計(jì)與合成生命系統(tǒng)的構(gòu)建向著高通量、智能化、自動(dòng)化的方向發(fā)展提供重要支撐。

        猜你喜歡
        人工分子生物
        人工3D脊髓能幫助癱瘓者重新行走?
        軍事文摘(2022年8期)2022-11-03 14:22:01
        生物多樣性
        生物多樣性
        上上生物
        人工,天然,合成
        人工“美顏”
        分子的擴(kuò)散
        第12話 完美生物
        航空世界(2020年10期)2020-01-19 14:36:20
        “精日”分子到底是什么?
        新民周刊(2018年8期)2018-03-02 15:45:54
        米和米中的危險(xiǎn)分子
        国产日韩欧美在线| 亚洲精品乱码久久久久久| 天天躁日日躁aaaaxxxx| 日韩欧群交p片内射中文| 高清无码一区二区在线观看吞精| 无码中文字幕专区一二三| 国产精品视频一区二区久久| 青春草免费在线观看视频| 亚洲毛片αv无线播放一区| 欧美中文在线观看| 国产三级三级三级看三级日本| 亚洲国产av一区二区三区天堂| 国产专区一线二线三线码| 亚洲精品无码不卡av| 亚洲av高清在线观看三区| 精品人妻日韩中文字幕| 婷婷色综合视频在线观看| 国产全肉乱妇杂乱视频| 中文字幕精品一二三区| 亚洲综合国产精品一区二区| 久久99精品久久久久久清纯| 亚洲av成人一区二区三区| 日韩欧美亚洲中字幕在线播放| 精品午夜中文字幕熟女| 人人妻人人澡人人爽精品日本| 精品淑女少妇av久久免费| 久久久久欧洲AV成人无码国产| 日本黑人人妻一区二区水多多| 一区二区三区人妻av| 色综合视频一区中文字幕| 国产成人精品自在线无码| 中文字幕久久人妻av| 国产激情久久久久影院小草| 亚洲一区二区三区中文字幂| 级毛片免费看无码| 风间由美中文字幕在线| 女人18毛片a级毛片| 少妇被爽到高潮动态图| 亚洲va成无码人在线观看| 亚洲中文字幕人成乱码在线 | 按摩少妇高潮在线一区|