亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能算法在全新藥物結(jié)構(gòu)設(shè)計(jì)中的應(yīng)用進(jìn)展

        2021-09-07 09:01:28胡建星徐旻陳紅明張佩宇馬健
        藥學(xué)進(jìn)展 2021年7期
        關(guān)鍵詞:分子結(jié)構(gòu)模型

        胡建星,徐旻,陳紅明,張佩宇,馬健**

        (1.深圳晶泰科技有限公司,廣東 深圳 518000;2.生物島實(shí)驗(yàn)室,廣東 廣州 510535)

        機(jī)器學(xué)習(xí)(machine learning,ML)和人工智能(artificial intelligence,AI)的研究最早可以追溯到1943年。在經(jīng)歷了2次寒冬期之后,它們在最近幾年又開始了令人振奮的復(fù)興,在藥物發(fā)現(xiàn)領(lǐng)域甚至是整個(gè)社會中都已成為熱門話題。AI卷土重來有著多重原因:自動化技術(shù)以及計(jì)算機(jī)硬件技術(shù)(例如GPU硬件)的發(fā)展使得海量數(shù)據(jù)的存儲和獲取成為了可能;同時(shí)深度學(xué)習(xí)(deep learning,DL)方法學(xué)方面的新成果也幫助AI研究取得了更多的突破。藥物開發(fā)也從這些技術(shù)發(fā)展中受益,DL在藥物開發(fā)流程中的應(yīng)用越來越多。其中最普遍的應(yīng)用是利用DL進(jìn)行分子性質(zhì)的預(yù)測;除此之外,DL技術(shù)也帶來了一些嶄新的應(yīng)用——其中最引人注目的就是利用所謂生成模型進(jìn)行全新藥物的設(shè)計(jì)(de novodrug design)[1]。

        基于DL的全新藥物設(shè)計(jì)的目標(biāo)是能夠在整個(gè)化學(xué)空間中進(jìn)行采樣,進(jìn)而發(fā)現(xiàn)新的潛在藥物的化學(xué)結(jié)構(gòu)。目前人們對類藥物分子的化學(xué)空間的大小并沒有一個(gè)統(tǒng)一的衡量標(biāo)準(zhǔn),通常認(rèn)為它由1060個(gè)分子組成[2]。但不管這個(gè)化學(xué)空間具體有多大,大家都認(rèn)為它的量級太過龐大,因此無法一一枚舉。過去有多種全新藥物設(shè)計(jì)的方法被提出[3],其常見應(yīng)用場景是在給定的蛋白質(zhì)結(jié)構(gòu)或小分子配體的限制條件下,設(shè)計(jì)出滿足限制條件的分子。一類方法是通過使用“蠻力”來實(shí)現(xiàn)[4–6],即通過一系列規(guī)則來枚舉出一個(gè)虛擬化合物庫,然后對庫中每個(gè)化合物進(jìn)行打分以評估它在多大程度上滿足約束條件;評分高的分子,將被優(yōu)先合成測試。例如,這些虛擬庫可以由商業(yè)上可獲得的砌塊(building block)和成熟的化學(xué)反應(yīng)來進(jìn)行構(gòu)建。另一類方法是利用各種搜索技術(shù)(如遺傳算法)來進(jìn)行搜索[7]。雖然文獻(xiàn)中已經(jīng)報(bào)道了使用這些技術(shù)取得的許多成果,但它們也存在一些缺點(diǎn),如產(chǎn)生的分子存在可合成性較低等問題。以上列舉的方法與本文中將要描述的AI分子生成算法的最根本區(qū)別在于這些常規(guī)方法缺乏關(guān)于類藥物分子大致是什么樣子的先驗(yàn)知識。這個(gè)概念既不存在于組合庫枚舉法中,也不存在于遺傳算法相關(guān)的方法中。

        基于DL的分子生成方法已成為近來最熱門的研究領(lǐng)域之一[8]。在選擇目前主流的生成算法時(shí),用戶需要至少作兩方面的選擇:一方面需要選擇是基于字符串還是圖模型進(jìn)行生成;另一方面則是需要決定使用相對應(yīng)的神經(jīng)網(wǎng)絡(luò)架構(gòu),例如,自編碼神經(jīng)網(wǎng)絡(luò)(variational autoencoder,VAE)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、對抗生成神經(jīng)網(wǎng)絡(luò)(generative adversarial network,GAN)以及基于生長或基于流的分子圖模型等都是常見的生成模型(見圖1)。本文將回顧其中一些重要的基于字符串和基于圖的生成方法,并討論不同的DL體系結(jié)構(gòu)在其中的應(yīng)用及差異。由于這類DL分子生成模型的數(shù)量在過去2 ~ 3年中的迅猛增長,人們已經(jīng)越來越意識到有必要制定標(biāo)準(zhǔn)對它們進(jìn)行比較,例如衡量生成模型所生成分子的多樣性和對化學(xué)空間的覆蓋率等。因此本文也對生成模型的評價(jià)標(biāo)準(zhǔn)等方面的發(fā)展進(jìn)行了總結(jié)。

        圖1 常用的生成模型類型Figure 1 Common types of generative models

        1 基于文本序列的分子生成模型

        基于文本序列的分子生成方法中通常使用SMILES格式來表征分子結(jié)構(gòu)[9]。SMILES語言是一種常用的表征分子結(jié)構(gòu)的方式,它按照特定的語法規(guī)則來對其中的字符、數(shù)字和符號進(jìn)行排列。同一個(gè)分子可以有多種SMILES表示方法,它們的不同取決于遍歷分子拓?fù)鋱D時(shí)所采用的路徑。一般的化學(xué)信息處理軟件都規(guī)定了一種遍歷分子圖的標(biāo)準(zhǔn)順序,可以將任意的SMILES序列轉(zhuǎn)換成“正則化”的SMILES,從而可以更加方便地比較不同的分子結(jié)構(gòu)[10]。根據(jù)常見的自然語言處理流程,任意分子庫中的SMILES序列都可以被匯編成一個(gè)詞匯庫,然后再被轉(zhuǎn)化成一個(gè)one-hot矩陣(見圖2)。在這里,one-hot矩陣中的列對應(yīng)于SMILES序列中的位置,行則表示詞匯庫中所有的符號標(biāo)記;矩陣中的元素是二進(jìn)制值,指示某個(gè)符號標(biāo)記是否在某個(gè)位置上被使用(用“1”來表示)或沒有被使用(用“0”來表示)。以one-hot矩陣作為神經(jīng)網(wǎng)絡(luò)的輸入,可應(yīng)用不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)分子結(jié)構(gòu)的生成。由于SMILES本身是一個(gè)字符串序列,非常適合用RNN這樣的神經(jīng)網(wǎng)絡(luò)來進(jìn)行處理。Segler等[11]和Olivecrona等[12]分別使用帶長短程記憶單元(long short term memory,LSTM)和門控循環(huán)單元(gated recurrent unit,GRU)的RNN網(wǎng)絡(luò)來生成分子結(jié)構(gòu)(見圖1B)。通過利用大量SMILES分子結(jié)構(gòu)作為訓(xùn)練集,他們訓(xùn)練得到的RNN模型能自動生成具有高度類藥性的分子結(jié)構(gòu);其中生成有效SMILES的比例高達(dá)90%以上,同時(shí)得到的分子結(jié)構(gòu)的多樣性基本和訓(xùn)練集相當(dāng)。由于同一個(gè)分子結(jié)構(gòu)能用不同的SMILES序列來表示,Arús-Pous等[13]研究發(fā)現(xiàn)隨機(jī)化SMILES序列是一種不錯(cuò)的數(shù)據(jù)增強(qiáng)技術(shù),訓(xùn)練得到的模型對GDB-13[14]分子庫的化學(xué)空間覆蓋率大大優(yōu)于用標(biāo)準(zhǔn)SMILES序列訓(xùn)練的模型。另一方面,用神經(jīng)網(wǎng)絡(luò)生成隨機(jī)的分子結(jié)構(gòu)并不是我們真正關(guān)心的。我們需要的是能設(shè)計(jì)出對特定靶標(biāo)有活性的分子結(jié)構(gòu),因此我們希望能對神經(jīng)網(wǎng)絡(luò)生成分子的過程進(jìn)行有效的控制。Seglar等[11]采用了遷移學(xué)習(xí)的方法(transfer learning,TL),以期達(dá)到生成對特定靶標(biāo)有活性的分子的目的。Olivecrona等[12]提出的REINVENT算法則是將RNN和強(qiáng)化學(xué)習(xí)算法(reinforcement learning,RL)結(jié)合起來,通過改變RNN的模型參數(shù)來優(yōu)化所生成分子的獎勵(lì)打分,進(jìn)而達(dá)到邊生成邊優(yōu)化分子結(jié)構(gòu)的目的。Liu等[15]在REINVENT算法的基礎(chǔ)上提出了DrugEx算法,希望能進(jìn)一步提高生成分子的結(jié)構(gòu)多樣性。他們在REINVENT中已有的RNN主模型的基礎(chǔ)上又引入了一個(gè)額外的RNN探索模型,最終SMILES序列的生成過程由主模型和探索模型來共同決定,結(jié)果顯示這樣的處理能增大生成分子的多樣性。同樣為了提高生成分子的多樣性,Blaschke等[16]在REINVENT算法中引入了基于記憶的打分機(jī)制:已生成過的分子結(jié)構(gòu)會被存儲起來,而每個(gè)新生成的分子會與這些被存儲的分子結(jié)構(gòu)進(jìn)行比較——如果發(fā)現(xiàn)具有類似的骨架結(jié)構(gòu),則新生成的分子會得到一個(gè)懲罰分,使其總體得分降低。這樣就迫使強(qiáng)化學(xué)習(xí)算法在優(yōu)化分子結(jié)構(gòu)的同時(shí)避開已搜索過的化學(xué)空間,從而提高其生成分子的多樣性。

        圖2 SMILES序列編碼規(guī)則Figure 2 Sequence coding rule of SMILES

        Gómez-Bombarelli等[17]和Blaschke等[18]使用VAE神經(jīng)網(wǎng)絡(luò)架構(gòu)(見圖1A)來進(jìn)行結(jié)構(gòu)生成。VAE包含有編碼器和解碼器兩部分;研究組在訓(xùn)練時(shí)使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為編碼器,將輸入的分子結(jié)構(gòu)映射成隱變量(latent variables),而解碼器則利用RNN來把隱藏變量恢復(fù)成原分子結(jié)構(gòu)所對應(yīng)的SMILES序列。由于VAE算法自帶的隨機(jī)性,在訓(xùn)練結(jié)束后,就可以在隱變量空間進(jìn)行采樣得到不同的隱變量。這些隱變量進(jìn)而會被解碼得到不同的分子結(jié)構(gòu)。最初開發(fā)的VAE模型生成的分子中經(jīng)常會出現(xiàn)大環(huán)化合物,且SMILES的正確率也只有60%左右。Bjerrum等[19]提出了基于Heteroencoder的VAE結(jié)構(gòu),其中使用了RNN作為編碼器而不是CNN。由此,SMILES的正確率可以提高到80%的水平,且出現(xiàn)大環(huán)類化合物的情況也得到了緩解。

        另一類可用來生成分子結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)架構(gòu)是所謂的GAN[20],其包含了2個(gè)相互競爭的神經(jīng)網(wǎng)絡(luò)(見圖1C),即發(fā)生器和鑒別器。發(fā)生器產(chǎn)生隨機(jī)的SMILES序列,而鑒別器則試圖將這些隨機(jī)的SMILES同訓(xùn)練集中真實(shí)分子的SMILES區(qū)分開來。在每一輪的訓(xùn)練中,發(fā)生器都在不斷學(xué)習(xí),使其生成的SMILES序列越來越接近真實(shí)分子,直到鑒別器無法區(qū)分一段SMILES序列來源于發(fā)生器還是訓(xùn)練集。由此,發(fā)生器網(wǎng)絡(luò)就可以用來生成分子了。Aspuru-Guzik團(tuán)隊(duì)提出的ORGAN[21]、ORGANIC[22]算法是利用GAN來生成分子結(jié)構(gòu)的最早例子。InSilico Medicine的研究人員則提出了RANC[23]和ATNC[24]的算法,嘗試結(jié)合GAN、強(qiáng)化學(xué)習(xí)以及微分神經(jīng)計(jì)算方法(differential neural computer,DNC)來進(jìn)行改進(jìn)。Prykhodko等[25]提出了LatentGAN的算法,將VAE和GAN的算法組合在一起來進(jìn)行分子設(shè)計(jì)工作——以VAE產(chǎn)生的隱藏變量為GAN的輸入,而不是像ORGANIC那樣直接用SMILES作為GAN的輸入。結(jié)果顯示其生成的分子具有較好的新穎性。

        在分子設(shè)計(jì)中常常需要在滿足一定約束條件的情況下進(jìn)行分子生成,例如要求生成的分子結(jié)構(gòu)都包含某種特定的子結(jié)構(gòu)或母核結(jié)構(gòu),開發(fā)帶有一定約束條件的生成模型具有很強(qiáng)的應(yīng)用價(jià)值。Arús-Pous等[26]提出了基于RNN的編碼器-解碼器神經(jīng)網(wǎng)絡(luò)Scaffold Decorator,用來在給定的母核結(jié)構(gòu)上生成側(cè)鏈基團(tuán)。他們首先將ChEMBL數(shù)據(jù)集中的分子都按照匹配分子對(match molecular pair)的方式或基于反應(yīng)規(guī)則的RECAP方式[27]對分子中的非環(huán)單鍵進(jìn)行切割,并將分割出的片段分類為母核結(jié)構(gòu)(Scaffold)和其對應(yīng)的修飾片段(decoration)。然后用此數(shù)據(jù)集訓(xùn)練Scaffold Decorator,從而使它能對任意指定的母核結(jié)構(gòu)進(jìn)行修飾。Yang等[28]在此基礎(chǔ)上更進(jìn)一步提出了基于Transformer網(wǎng)絡(luò)的SyntaLinker算法來實(shí)現(xiàn)自動片段連接。他們采用類似的方法,將切割出的ChEMBL片段數(shù)據(jù)集分為終端片段對和中間連接片段(linker)。訓(xùn)練出來的Transformer模型可以根據(jù)輸入的一對終端片段生成連接片段,并將它們自動組裝成完整的分子。

        SMILES語法規(guī)則相對來說非??量?,單個(gè)字符的變動就可能導(dǎo)致其無法對應(yīng)任何有效的分子。為此,Krenn等[29]與Nigam等[30]提出了另一類基于語言序列的分子表示方式SELFIES。這種描述方式中加入了分叉(branch)和成環(huán)(ring)的標(biāo)記符,并在分叉和成環(huán)標(biāo)記符后加入了分叉和成環(huán)尺寸信息,以確保其一定會對應(yīng)到一個(gè)有效的分子。在此基礎(chǔ)上訓(xùn)練的生成模型也因此獲得了更好的采樣效率。

        2 基于分子圖的分子生成模型

        基于文本序列的生成模型在很多生成及設(shè)計(jì)任務(wù)中已經(jīng)有了很好的應(yīng)用和表現(xiàn)能力。然而主流的算法仍舊在使用SMILES這一并不穩(wěn)健的分子表示方式,它所固有的局限性影響了下游分子生成模型的表現(xiàn)。這也就促使了最近的研究轉(zhuǎn)向?qū)Ψ肿痈弑憩F(xiàn)力的分子圖方法。圖生成模型在分子生成領(lǐng)域有著特有的優(yōu)勢。這一類生成模型的構(gòu)建著重于解決以下2個(gè)問題:1)設(shè)計(jì)能夠直接處理圖數(shù)據(jù)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)架構(gòu);2)設(shè)計(jì)分子圖的生成過程。在這一類工作中,分子一般用無向圖來表示(見圖3)。其中,分子中的原子和化學(xué)鍵分別被表示為圖中的節(jié)點(diǎn)和邊。分子結(jié)構(gòu)的表征由鄰接張量以及節(jié)點(diǎn)特征矩陣X(用于表示原子的類型,例如氧、氟等)來完成。分子生成問題因此可以轉(zhuǎn)化為生成代表有效分子的圖,而這類模型生成分子圖的過程通常有2種:1)順序生成分子圖——逐一添加節(jié)點(diǎn)(原子)和邊(鍵)的方式進(jìn)行構(gòu)建;2)一步生成完整的分子圖。

        圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)作為處理此類數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)架構(gòu),由Scarselli等[31]提出,后續(xù)文獻(xiàn)報(bào)道了諸多GNN變體,其中大多數(shù)構(gòu)架在過去幾年中便已應(yīng)用于分子生成任務(wù)[32–34]。一般的GNN架構(gòu)是將基于非線性傳播規(guī)則的若干個(gè)傳播塊進(jìn)行堆疊得到的。計(jì)算公式如下:

        其中Hι以及Hι+1分別為第ι層和第ι+1層的隱藏變量(圖水平的表征),fPROP為圖表征算子(前向傳播函數(shù)),E為圖的連接信息(即信息傳遞的方向)。

        應(yīng)用于分子圖的生成模型經(jīng)歷了不斷的發(fā)展和嘗試,產(chǎn)生了應(yīng)對各種分子生成問題的圖生成模型架構(gòu)(見圖4)。較早的比較有代表性的處理圖的網(wǎng)絡(luò)架構(gòu)為圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network,GCNN),這是一類在圖數(shù)據(jù)結(jié)構(gòu)的處理中常用的網(wǎng)絡(luò)架構(gòu)。GCNN的效果類似于應(yīng)用在歐幾里得結(jié)構(gòu)數(shù)據(jù)(如圖像)上的卷積神經(jīng)網(wǎng)絡(luò),其最早由Duvenaud等[35]應(yīng)用于分子信息的處理。他們發(fā)現(xiàn)GCNN在許多分子預(yù)測任務(wù)中的表現(xiàn)都要強(qiáng)于傳統(tǒng)的Morgan分子指紋(例如ECFP)。從原理上講,GCNN可以視為一類可訓(xùn)練的分子指紋。Schütt等[36]將GCNN應(yīng)用于量子化學(xué)計(jì)算相關(guān)的任務(wù)中。為了在分子圖中整合三維分子信息,他們開發(fā)了深度張量神經(jīng)網(wǎng)絡(luò)(deep tensor neural network)。這一網(wǎng)絡(luò)構(gòu)架將三維分子結(jié)構(gòu)視為帶有權(quán)重的全連接圖,并在此數(shù)據(jù)結(jié)構(gòu)上進(jìn)行圖卷積操作,之后將模型應(yīng)用于多種量化計(jì)算任務(wù)中。Altae-Tran等[37]將GCNN結(jié)合Matching Network之后,將其應(yīng)用于少量樣本的分類任務(wù)之中,結(jié)果表明此類構(gòu)架與基于傳統(tǒng)分子指紋的方法相比,在小樣本分類任務(wù)上的表現(xiàn)較為突出。Wu等[38]對不同類型的機(jī)器學(xué)習(xí)算法在不同的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大規(guī)模比較分析,發(fā)現(xiàn)GCNN在很多任務(wù)上的表現(xiàn)顯著優(yōu)于其他類型的算法(如圖注意力網(wǎng)絡(luò)[39])。上述工作都展示了GCNN在提取分子結(jié)構(gòu)相關(guān)表征任務(wù)上的優(yōu)越表現(xiàn)。因此對于圖生成模型而言,GCNN是一類首選解決方案。

        圖3 西咪替丁分子圖Figure 3 Molecular graph for cimetidine

        在以往的DL研究中,對于如何生成基于圖的數(shù)據(jù)結(jié)構(gòu)涉及較少。隨著DL在分子設(shè)計(jì)領(lǐng)域的應(yīng)用,這一方面的研究在2018年后有所升溫。Johnson[40]提出了門控圖轉(zhuǎn)換網(wǎng)絡(luò)(gated graph transformer neural network)。這一模型能夠根據(jù)給定的信息(例如文本信息)構(gòu)造或修改圖的結(jié)構(gòu)。盡管這一模型在設(shè)計(jì)時(shí)的主要目的是為了解決認(rèn)知和推理問題,但同時(shí)也為分子生成提供了一條可行的路徑。Li等[41]提出通過逐步生成的方式構(gòu)造分子圖表征,同時(shí)使用重要性采樣的方式保證生成順序的不變性(見圖1D)。這一工作使用的模型與Johnson提出的模型類似,但此工作明確將其應(yīng)用于小分子生成任務(wù)中,并且發(fā)現(xiàn)圖生成模型相比基于SMILES的模型在生成結(jié)構(gòu)的合理性方面有著更好的表現(xiàn)。但是這一模型也存在明顯的不足——例如它的計(jì)算成本較大,所以只被用于生成重原子數(shù)小于20的分子。另外,這一工作并未測試模型在具體的藥物設(shè)計(jì)項(xiàng)目上的表現(xiàn)。相比于逐步生成的方法,Simonovsky等[42]采用了一次性生成的方式來進(jìn)行生成器的構(gòu)建。他們采用VAE作為生成模型的構(gòu)架,通過一次性生成分子的原子集合以及化學(xué)鍵集合的方式來生成完整的分子圖。在訓(xùn)練時(shí),對重構(gòu)誤差的計(jì)算需要計(jì)算解碼器的條件概率密度pθ(G|z)。對于原子數(shù)較小的分子圖而言,此條件概率密度計(jì)算起來相對容易。此模型被應(yīng)用于生成ZINC以及QM9數(shù)據(jù)集中的分子。由于計(jì)算復(fù)雜度的原因,這一模型只適用于節(jié)點(diǎn)數(shù)較少的圖的生成。同樣,這一模型并沒有結(jié)合具體的藥物設(shè)計(jì)項(xiàng)目進(jìn)行評價(jià)。對于分子圖的生成過程,Li等[41]創(chuàng)建了基于馬爾可夫決策過程(Markov decision process,MDP)以及RNN的分子生成構(gòu)架,使得生成流程得以簡化,降低了計(jì)算成本,并且使用了更為靈活的重要性采樣。此類序列化生成完整分子圖的過程通常包括:1)添加1個(gè)原子并將其與1個(gè)存在的原子連接;2)將一個(gè)現(xiàn)有原子連接到新原子上;3)終止生成過程。通常不同的工作為了節(jié)約計(jì)算成本而對生成過程進(jìn)行調(diào)整以避免重復(fù)的加邊動作,減少總生成步驟,從而提升分子的生成效率。

        圖4 各類分子生成模型發(fā)展里程碑及其具體名稱與使用的神經(jīng)網(wǎng)絡(luò)架構(gòu)Figure 4 Development milestones of various molecular generative models and their specific names and neural network architectures

        GAN也可以結(jié)合圖結(jié)構(gòu)進(jìn)行分子生成。MolGAN[43]就是一個(gè)典型的帶有獎勵(lì)網(wǎng)絡(luò)的、以GAN為基礎(chǔ)的圖生成模型,它展示了GAN與強(qiáng)化 學(xué) 習(xí)(reinforcement learning,RL)結(jié) 合 用 于QM9小分子的分子生成和優(yōu)化的潛力。在后續(xù)工作中,圖卷積策略網(wǎng)絡(luò)(graph convolutional policy network,GCPN)將分子生成過程視為與RNN相同的MDP過程,同時(shí)將RL用于性質(zhì)優(yōu)化,因此在較大分子的生成任務(wù)上表現(xiàn)出更好的性能。

        與以上介紹的構(gòu)架不同,使用可逆流的模型近年來也開始得到研究者的青睞。其優(yōu)勢在于可以直接計(jì)算分布的積分,極大增加分子生成過程的參數(shù)化程度。在分子生成任務(wù)中,精確的優(yōu)化對于藥物的分子生成至關(guān)重要,因?yàn)榉肿拥男再|(zhì)對單個(gè)原子(節(jié)點(diǎn))的微小替換可能高度敏感?;诹鞯纳赡P偷牧硪粋€(gè)優(yōu)點(diǎn)是,由于它們是設(shè)計(jì)可逆的,因此可以保證完美的重構(gòu),并且沒有耗時(shí)的計(jì)算過程——即只需在潛藏矢量上運(yùn)行模型的相反步驟,即可生成分子圖。此外,GAN模型中缺少編碼器,這使得操控分子生成過程具有很大的挑戰(zhàn)性。例如,使用GAN模型來生成類似于查詢分子的分子(如用于藥物發(fā)現(xiàn)的先導(dǎo)化合物優(yōu)化)并不容易,而基于流的模型則善于處理此類任務(wù)。Madhawa等[44]提出的GraphNVP是第一個(gè)基于可逆流的分子圖形生成模型,其遵循一次生成策略,并引入了2種潛在表示形式——一種用于描述節(jié)點(diǎn)特征分布,另一種用于描述鄰接張量。在圖生成過程中,首先生成鄰接張量,然后使用圖卷積網(wǎng)絡(luò)生成節(jié)點(diǎn)特征張量,從而完成完整的圖生成過程(見圖1E)。

        在分子圖生成領(lǐng)域,強(qiáng)化學(xué)習(xí)的加入使其應(yīng)對更復(fù)雜的生成任務(wù)時(shí)更加高效。例如GraphINVENT[45]中的生成模型由2個(gè)部分組成,這些部分稱為“塊”(block),分別為GNN 塊和全局讀出塊(readout block)。其中GNN塊用于將分子圖表示形式即鄰接張量E和節(jié)點(diǎn)特征矩陣X作為輸入,并輸出變換后的節(jié)點(diǎn)特征向量和圖水平表征。然后,全局讀數(shù)塊預(yù)測圖的全局屬性。這個(gè)全局屬性本身是一個(gè)向量,其中包含了用于擴(kuò)展圖的所有可能動作的概率;通過采樣這一概率分布,模型就可以知道如何擴(kuò)展分子圖了。而在生成過程中引入不同的打分函數(shù),此類分子圖生成模型可以應(yīng)對基于藥效團(tuán)、分子骨架、子結(jié)構(gòu)匹配以及形狀疊合等各種復(fù)雜的分子生成任務(wù),極大拓展了分子生成模型在藥物設(shè)計(jì)中的使用場景。

        3 生成模型的評測方法

        近年來,研究者們已發(fā)表了大量的分子生成模型架構(gòu),但是這些工作中都普遍缺乏一個(gè)一致的和標(biāo)準(zhǔn)化的評測指標(biāo)來定量化比較不同模型的效率以及模型的性能。一個(gè)原因是既沒有標(biāo)準(zhǔn)的數(shù)據(jù)集合也沒有合適的問題集合來進(jìn)行效能比較。另外,一些已提出的度量標(biāo)準(zhǔn)具有不同的含義,有些甚至并不適用于所有的問題集合。目前已有研究者針對這方面的問題做了一些相關(guān)工作,試圖提供一些標(biāo)準(zhǔn)化的評測方法。筆者在此進(jìn)行簡要的總結(jié)。

        Arús-Pous等[46]提出了一種方法,它類似于在圖像預(yù)測模型上進(jìn)行的基準(zhǔn)測試。測試的目標(biāo)是用GDB-13數(shù)據(jù)庫中的一小部分?jǐn)?shù)據(jù)來訓(xùn)練一個(gè)分子生成模型,并對這個(gè)模型進(jìn)行大規(guī)模的采樣,來生成大量的分子結(jié)構(gòu)。Arús-Pous等認(rèn)為能對GDB-13數(shù)據(jù)庫按均一概率進(jìn)行采樣的模型是最理想的生成模型,這個(gè)理想模型構(gòu)成了基于GDB-13的任何生成模型采樣樣本所能覆蓋的化學(xué)空間的上限。例如,從這個(gè)理想的均一模型中取樣20億個(gè)分子,平均可得到整個(gè)數(shù)據(jù)庫分子數(shù)量的87.12%,這個(gè)數(shù)值就是所有生成模型采樣20億分子所能覆蓋空間的上限。Arús-Pous等對基于SMILES序列的RNN生成模型進(jìn)行了相關(guān)評測,他們通過對模型超參數(shù)進(jìn)行任意組合以及使用GDB-13中不同的分子子集進(jìn)行訓(xùn)練,得到不同的生成模型,并對模型采樣20億分子,將采樣樣本對整個(gè)GDB-13空間的覆蓋程度作為一個(gè)分子生成模型學(xué)習(xí)能力的度量。Zhang等[47]對這個(gè)工作進(jìn)行了擴(kuò)展,他們不僅比較對GDB-13中分子數(shù)量的覆蓋,還比較了對GDB-13中所包含的官能基團(tuán)以及分子環(huán)系的覆蓋。一共對7個(gè)不同架構(gòu)的生成模型進(jìn)行了評測,發(fā)現(xiàn)基于序列的RNN模型在對化學(xué)空間的覆蓋方面表現(xiàn)最好。

        GuacaMol[48]是另一種評測方法,它定義了一系列度量和不同的測試問題來評估生成模型。度量標(biāo)準(zhǔn)包括分子結(jié)構(gòu)正確率、分子結(jié)構(gòu)的唯一率、分子多樣性、分子相似度、分子的QED類藥性打分值等。同時(shí)它還定義了一系列多目標(biāo)優(yōu)化問題,將其作為測試標(biāo)準(zhǔn),以評價(jià)模型在實(shí)際問題中的表現(xiàn)。還有一種評測方法是MOSES[49],它包含一個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集以及一系列度量指標(biāo),以描述分子中的片段相似度、分子骨架相似度、分子多樣性等。它自行清洗了ZINC Clean Leads數(shù)據(jù)庫,將其作為測試分子集。除此之外,MOSES還包含了一系列的分子生成模型的構(gòu)建代碼,以方便用戶將自己的生成模型與這些已發(fā)表的生成模型進(jìn)行對比。

        4 結(jié)語

        根據(jù)藥物設(shè)計(jì)需求進(jìn)行全新分子設(shè)計(jì)需要解決的核心問題是如何在已有的化合物設(shè)計(jì)規(guī)則之中探索新的化學(xué)空間。對于基于深度學(xué)習(xí)的生成模型而言,這一類問題可以化歸為對條件概率密度pθ(G|z)的估計(jì)?,F(xiàn)有的此類模型通過遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、基于隱變量優(yōu)化等方法,已被廣泛應(yīng)用于許多重要的分子設(shè)計(jì)項(xiàng)目當(dāng)中。誠然,此類方法依舊存在諸多不足之處,例如訓(xùn)練困難、模式坍塌、難以在多目標(biāo)優(yōu)化學(xué)習(xí)的場景中進(jìn)行驗(yàn)證等。而越來越多的研究也正在嘗試對這些問題進(jìn)行解答。

        本綜述中,筆者總結(jié)了近年來在這一領(lǐng)域的重要進(jìn)展?;赟MILES序列和分子圖的生成模型在不同的分子生成任務(wù)中都顯示出了其潛在的應(yīng)用價(jià)值。相比較而言,基于序列的分子生成模型具有較低的計(jì)算成本,并可受益于自然語言處理相關(guān)算法的完善?;诜肿訄D的生成模型更接近于藥化專家熟知的分子表示形式,但它也面臨著一些新的技術(shù)挑戰(zhàn)。例如,幾乎所有的基于圖的生成模型都是基于二維的圖結(jié)構(gòu),難以考慮蛋白質(zhì)-小分子之間的相互作用。為了實(shí)現(xiàn)這一點(diǎn),我們需要直接生成三維的分子結(jié)構(gòu)。這就需要有更好的圖表征方法、更好的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和更大的三維數(shù)據(jù)集。如何對分子生成模型進(jìn)行定量化評測是一個(gè)重要的研究領(lǐng)域,我們對這方面的進(jìn)展也進(jìn)行了一些總結(jié)。我們建議新開發(fā)的生成模型算法都有必要考慮在目前提出的一些標(biāo)準(zhǔn)測試集上進(jìn)行測試,并給出測試結(jié)果以方便和其他方法進(jìn)行比較。

        深度分子生成模型擁有從大量數(shù)據(jù)中學(xué)習(xí)的能力,以及超越化學(xué)直覺的從頭藥物設(shè)計(jì)的潛力。然而,為了讓其在實(shí)際項(xiàng)目中發(fā)揮充分的作用,我們還有更多的工作要做。首先,從頭生成算法的綜合可及性是此類工作的基本挑戰(zhàn)之一。目前絕大部分報(bào)道的模型都只在虛擬的藥物設(shè)計(jì)任務(wù)中進(jìn)行測試,但其生成的化合物只有在合成之后,其成藥潛力才有可能被客觀測試。另外,輔助分子生成的逆合成分析、活性預(yù)測、成藥性預(yù)測等的AI方法也需要來自實(shí)驗(yàn)數(shù)據(jù)的精確反饋。這些數(shù)據(jù)的快速獲取有賴于自動化實(shí)驗(yàn)技術(shù)等的發(fā)展,而這又是AI技術(shù)可以大展身手的又一戰(zhàn)場。在不久的未來,我們或許就可以看到AI分子生成算法與自動化技術(shù)完全地結(jié)合,實(shí)現(xiàn)較少(甚至沒有)專家干預(yù)的藥物設(shè)計(jì)流程。

        猜你喜歡
        分子結(jié)構(gòu)模型
        把握分子結(jié)構(gòu)理解物質(zhì)的性質(zhì)
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        三步法確定有機(jī)物的分子結(jié)構(gòu)
        壓裂返排液中瓜膠濃度檢測及分子結(jié)構(gòu)解析
        解讀分子結(jié)構(gòu)考點(diǎn)
        外電場中BiH分子結(jié)構(gòu)的研究
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        国产98色在线 | 国产| 精品一区二区三区人妻久久| 国产麻豆国精精品久久毛片| 久久精品国产亚洲av麻豆瑜伽| 免费看美女被靠的网站| 国产精品国产三级农村妇女| 日本一区二区国产高清在线播放| 日韩av免费一区二区| 国产专区一线二线三线码 | 国产激情з∠视频一区二区| 四虎国产精品成人影院| 亚洲精品一区二区成人精品网站| 国产69精品久久久久app下载| 久久人人爽人人爽人人av东京热| 精品无码一区二区三区小说| 99青青草视频在线观看| 五月天中文字幕mv在线| 久久人妻公开中文字幕| 国产在线观看精品一区二区三区| 白白色发布免费手机在线视频观看 | 亚洲精品国产电影| 亚洲熟少妇在线播放999| 精品久久久久中文字幕APP| 精品国产日韩亚洲一区在线| 亚洲妇熟xxxx妇色黄| 婷婷亚洲综合五月天小说| 黄色av三级在线免费观看| 91精品国产福利在线观看麻豆| 国产莉萝无码av在线播放| 99精品热6080yy久久| 丰满少妇av一区二区三区 | 人妻av无码一区二区三区| 午夜AV地址发布| 人妻尤物娇呻雪白丰挺| 少妇被猛烈进入到喷白浆| 伊人色综合视频一区二区三区| 欧美激情精品久久999| 亚洲激情一区二区三区不卡| 国内精品视频在线播放不卡| 久久亚洲AV成人一二三区| 日本亚洲视频免费在线看|