亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)在藥物活性預(yù)測研究中的應(yīng)用*

        2022-08-20 06:12:26劉利梅陳曉晉孫世偉梅樹立王耀君
        關(guān)鍵詞:集上靶標(biāo)分子

        劉利梅 陳曉晉 孫世偉 王 宇 王 輝 梅樹立** 王耀君**

        (1)中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083;2)中國科學(xué)院計算技術(shù)研究所,北京 100190)

        藥物研發(fā)是一項周期長、風(fēng)險高、投資大的產(chǎn)業(yè)。分子類藥物研發(fā)過程一般分為5個階段:藥物新化合物制備、藥物臨床前研究、藥物臨床實驗、藥品申報審批和新藥監(jiān)測。藥物新化合物制備過程主要涉及到藥物化學(xué)的應(yīng)用。藥物化學(xué)是一門結(jié)合了高分子化學(xué)和生命科學(xué)的綜合性學(xué)科,該領(lǐng)域的研究可以分為3類,分別是藥物分子的探求、藥物分子的修飾和藥物分子的結(jié)構(gòu)調(diào)整。其中藥物分子的探求耗時最長,風(fēng)險也最大,需要消耗更多的人力和物力。在藥物分子探求過程中,藥物活性預(yù)測能夠協(xié)助篩選出具有活性的化合物,從而作為藥物的先導(dǎo)物參與后續(xù)藥物研發(fā)進程,提高藥物研發(fā)的成功率和效率。

        藥物活性是指分子藥物的生物活性,是確認化合物能否作為藥物先導(dǎo)物的主要指標(biāo)。藥物活性預(yù)測是指分析候選藥物分子與生物體中靶標(biāo)蛋白的結(jié)合效果,即針對某種疾病的潛在療效。在藥物篩選的過程中通常根據(jù)預(yù)測結(jié)果對候選分子的活性進行打分和排名,選擇療效最優(yōu)的藥物分子作為藥物的先導(dǎo)物。隨著藥物研發(fā)技術(shù)的逐步發(fā)展,尤其是在近期新型冠狀病毒疫情蔓延時期,藥物合成和研發(fā)愈發(fā)受到重視。通過借助生物化學(xué)技術(shù)的快速發(fā)展以及與新型科技的結(jié)合,目前每天都會有成千上萬種新型化合物分子被人工合成,其中包含不少用于治療各類疾病的藥物分子。藥物分子發(fā)現(xiàn)和分子合成是當(dāng)前新藥研發(fā)的重要途徑,及時準(zhǔn)確的藥物活性預(yù)測會大大加快新藥研發(fā)的進程。

        以機器學(xué)習(xí)為代表的人工智能算法可以輔助解決藥物研發(fā)中藥物活性預(yù)測耗時較長、準(zhǔn)確度低、效率低下等問題。在藥物研發(fā)中,機器學(xué)習(xí)算法主要應(yīng)用于藥物分子設(shè)計、藥物分子與靶標(biāo)蛋白的相互作用分析、藥物的吸收分析、藥物代謝分析、藥物毒性分析等方面。機器學(xué)習(xí)能夠通過對某一類問題的數(shù)據(jù)特征進行學(xué)習(xí),進而對某一事物或者問題進行分類或者回歸預(yù)測。

        深度學(xué)習(xí)是機器學(xué)習(xí)研究領(lǐng)域的一個熱門研究分支,是人工神經(jīng)網(wǎng)絡(luò)的進一步拓展。傳統(tǒng)機器學(xué)習(xí)方法的應(yīng)用使藥物活性預(yù)測效率和準(zhǔn)確度有所提升,但仍然難以滿足當(dāng)前精準(zhǔn)醫(yī)療和精準(zhǔn)醫(yī)藥的需求。以深度學(xué)習(xí)為代表的神經(jīng)網(wǎng)絡(luò)模型通過借鑒人腦的多分層結(jié)構(gòu)、神經(jīng)元信息交互的逐層分析處理機制,能夠自適應(yīng)、自學(xué)習(xí)地對信息進行并行處理,在生物醫(yī)藥的較多領(lǐng)域取得了突破性進展。目前,不同的深度學(xué)習(xí)網(wǎng)絡(luò)模型在藥物活性預(yù)測方面取得了較好的成果。深度學(xué)習(xí)領(lǐng)域新方法新模型的層出不窮大大提高了藥物活性預(yù)測能力并推動了藥物研發(fā)領(lǐng)域的不斷發(fā)展。

        本文對近年來藥物活性預(yù)測方面的研究和應(yīng)用進行了綜述和分析,重點分析了深度學(xué)習(xí)在藥物活性預(yù)測方面的研究。文章整體結(jié)構(gòu)按照數(shù)據(jù)、算法、應(yīng)用、總結(jié)的方式進行構(gòu)建,具體的應(yīng)用實例按照數(shù)據(jù)、方法、結(jié)果的順序進行分析。藥物活性預(yù)測的分類及方法流程如圖1所示,方法主要分為兩大類,以實驗為主的方法和以計算為主的方法,以計算為主的方法又分為統(tǒng)計分析、傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)三類。在藥物活性預(yù)測環(huán)節(jié),無論采用什么方法,其總體目標(biāo)都為得到藥物活性最高的先導(dǎo)化合物。圖2為藥物活性預(yù)測的方法和資源輪廓圖,匯總了本文所涉及的數(shù)據(jù)庫以及藥物活性預(yù)測的傳統(tǒng)方法、機器學(xué)習(xí)方法和深度學(xué)習(xí)方法及其對應(yīng)的文獻信息。

        文章接下來的內(nèi)容分為以下幾個部分:第1部分“數(shù)據(jù)庫及數(shù)據(jù)類型”,總結(jié)分析了當(dāng)前應(yīng)用于藥物研發(fā)的重要數(shù)據(jù)庫;第2部分“傳統(tǒng)藥物活性預(yù)測方法”,總結(jié)分析了藥物活性預(yù)測的傳統(tǒng)方法,這里的“傳統(tǒng)”指的是方法中涉及到計算的環(huán)節(jié)未采用機器學(xué)習(xí)類算法;第3部分“傳統(tǒng)機器學(xué)習(xí)應(yīng)用于藥物活性預(yù)測”,從算法原理到實際應(yīng)用分析總結(jié)了傳統(tǒng)機器學(xué)習(xí)算法在藥物活性預(yù)測中的應(yīng)用,這里的“傳統(tǒng)”指的是在方法中未采用當(dāng)前機器學(xué)習(xí)領(lǐng)域中熱門的深度學(xué)習(xí)類算法;第4部分“深度學(xué)習(xí)應(yīng)用于藥物活性預(yù)測”,從算法原理到實際應(yīng)用分析總結(jié)了深度學(xué)習(xí)算法在藥物活性預(yù)測中的應(yīng)用;第5部分“總結(jié)”,對文章前面幾個部分的內(nèi)容做了總結(jié);第6部分“展望”,提出了藥物活性預(yù)測領(lǐng)域的下一步可能的發(fā)展路徑,同時提出供本領(lǐng)域的研究者或即將開展本領(lǐng)域研究的相關(guān)研究者參考的研究方向。

        Fig.1 Flow chart of drug activity prediction圖1 藥物活性預(yù)測流程圖

        Fig.2 Summary of drug activity prediction databases and methods圖2 藥物活性預(yù)測數(shù)據(jù)庫及方法匯總

        1 數(shù)據(jù)庫及數(shù)據(jù)類型

        從計算的角度進行藥物活性預(yù)測,本質(zhì)是對藥物活性預(yù)測問題的計算機建模。而建模的基礎(chǔ)是支撐模型構(gòu)建和運行的基礎(chǔ)數(shù)據(jù)。同時,模型的有效性和準(zhǔn)確性很大程度上取決于數(shù)據(jù)的數(shù)量和質(zhì)量,所以藥物研發(fā)相關(guān)的數(shù)據(jù)集及數(shù)據(jù)庫的獲取是藥物活性預(yù)測建模的基石。本部分內(nèi)容首先介紹了藥物活性預(yù)測相關(guān)的主要數(shù)據(jù)庫資源;接著分析其主要數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)類型;最后重點分析幾種常用的藥物靶標(biāo)特征表示方法。

        1.1 藥物活性預(yù)測相關(guān)數(shù)據(jù)庫資源

        當(dāng)前應(yīng)用于藥物活性預(yù)測的相關(guān)數(shù)據(jù)庫資源主要 有:DrugBank[1]、ZINC[2]、ChEMBL[3]、PubChem[4]、KEGG BRITE[5]、PDBbind[6]、STITCH[7]、BindingDB[8]和PharmMapper數(shù) 據(jù)庫[9]等。

        DrugBank是一個服務(wù)于藥物研發(fā),包含有生物信息學(xué)和化學(xué)信息學(xué)數(shù)據(jù)的數(shù)據(jù)庫,由加拿大Alberta大學(xué)的研究人員創(chuàng)立和維護;該數(shù)據(jù)庫提供超過50 000種藥物及其衍生物的化學(xué)結(jié)構(gòu)、藥理、藥物作用以及靶標(biāo)蛋白等較為全面的數(shù)據(jù)。ZINC[2]是由加州大學(xué)的Irwin和Shoichet在2005年創(chuàng)建的用于虛擬篩選市售化合物的數(shù)據(jù)庫。截至2021年10月,數(shù)據(jù)庫收錄了7.5億條包含有注釋信息的小分子化合物數(shù)據(jù),注釋信息包含分子質(zhì)量、LogP模型值,以及可應(yīng)用于分子對接的結(jié)構(gòu)數(shù)據(jù)。ChEMBL數(shù)據(jù)庫由歐洲生物信息研究所開發(fā),是一個能夠大規(guī)模提供化合物生物活性及靶標(biāo)蛋白數(shù)據(jù)的數(shù)據(jù)庫。截至2021年7月,該數(shù)據(jù)庫收錄了14 554種靶標(biāo)蛋白、2 105 460種化合物、18 635 916種活性化合物相關(guān)信息以及81 544份公開發(fā)表文章,并提供易用的生物活性數(shù)據(jù)的查詢工具。

        PubChem數(shù)據(jù)庫是世界上最大的開源化合物數(shù)據(jù)庫。截至2021年10月,該數(shù)據(jù)庫收錄了110 040 027條不同化合物的分子結(jié)構(gòu)、生物檢測、生物活性數(shù)據(jù)、基因序列、靶標(biāo)蛋白、關(guān)聯(lián)文獻、關(guān)聯(lián)專利等信息,同時還收錄了獨立實驗室上傳的生化實驗數(shù)據(jù)及化合物數(shù)據(jù)等,目前該數(shù)據(jù)庫數(shù)據(jù)依然保持持續(xù)更新。KEGG BRITE數(shù)據(jù)庫包含基因序列、蛋白質(zhì)、化合物反應(yīng)、藥物、器官和細胞等各種不同層次生物對象的數(shù)據(jù),數(shù)據(jù)以BRITE結(jié)構(gòu)層次文件表示。PDBbind數(shù)據(jù)庫創(chuàng)建的目的是完整收錄PDB數(shù)據(jù)庫中通過實驗測定的親合力數(shù)據(jù),數(shù)據(jù)庫提供了生物分子復(fù)合物的親和力及分子結(jié)構(gòu)信息。數(shù)據(jù)庫自2004年創(chuàng)建以來,保持每年更新一次,截至2021年10月,該數(shù)據(jù)庫收錄了23 496個生物分子復(fù)合物的數(shù)據(jù)。STITCH數(shù)據(jù)庫和BindingDB數(shù)據(jù)庫都錄入了各類小分子化合物與不同靶標(biāo)蛋白之間的相互作用關(guān)系數(shù)據(jù)。PharmMapper是由劉曉峰等[9]開發(fā)的用于藥效團匹配與識別潛在靶標(biāo)信息的數(shù)據(jù)庫平臺,該平臺以活性小分子為探針?biāo)褜撛谒幬锇悬c,進而對小分子藥物活性進行預(yù)測。平臺中內(nèi)嵌的統(tǒng)計方法可以自動查找與分子構(gòu)象最為匹配的藥效團并根據(jù)匹配度打分進行排序。

        通常,在藥物研發(fā)的藥物分子設(shè)計中,藥物靶標(biāo)信息需要使用多個數(shù)據(jù)庫的聯(lián)合查詢和匯總。例如,在藥物研發(fā)中,對DrugBank的XML文件進行解析可以獲得相關(guān)藥物信息之外的ChEMBL ID、PubChem Compound ID等,通過這些ID可以將不同的數(shù)據(jù)庫聯(lián)合起來分析靶標(biāo)蛋白、小分子藥物相似度關(guān)系以及進行藥物毒副作用關(guān)聯(lián)。

        1.2 數(shù)據(jù)結(jié)構(gòu)及類型

        藥物研發(fā)相關(guān)數(shù)據(jù)庫支持對藥物分子化學(xué)結(jié)構(gòu)、藥理、藥物作用以及靶標(biāo)蛋白等數(shù)據(jù)的下載。但是,不同的數(shù)據(jù)庫導(dǎo)出信息往往包含有不同類別的信息表示方式及文件存儲格式,存在數(shù)據(jù)多源、結(jié)構(gòu)多元等特點。在具體數(shù)據(jù)分析及建模環(huán)節(jié)需要根據(jù)文件格式編寫相應(yīng)的數(shù)據(jù)讀取及格式轉(zhuǎn)換接口程序。本研究對藥物設(shè)計領(lǐng)域最常用6個數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)和文件格式進行了詳細分析,分別是:DrugBank、ZINC、ChEMBL、PubChem、KEGG BRITE和PDBbind,下面分別進行分析。

        a.DrugBank支持下載數(shù)據(jù)庫匯總的所有藥物信息,不同的信息類別對應(yīng)不同的數(shù)據(jù)結(jié)構(gòu)及文件格式。其中,藥物的完整數(shù)據(jù)對應(yīng)的是XML文件,結(jié)構(gòu)體信息是SDF文件、外部鏈接的數(shù)據(jù)和蛋白質(zhì)標(biāo)識符信息是CSV文件、目標(biāo)蛋白質(zhì)序列信息是FASTA文件。SDF文件中的第一行字符一般為分子名字,第二行是對分子的注釋說明,第三行是空行,從第四行開始記錄結(jié)構(gòu)的原子數(shù)、化學(xué)鍵的個數(shù)等信息,直到出現(xiàn)“MEND”標(biāo)識符,表明原子和化學(xué)鍵信息記錄的結(jié)束,后面數(shù)據(jù)會保存多行關(guān)于分子屬性的信息,以4個美元符號作為SDF文件結(jié)尾標(biāo)識符。

        b.ZINC數(shù)據(jù)庫支持下載SMI、2D、3D和簡化的分子輸入行輸入系統(tǒng)(simplified molecule input line entry system,SMILES)格式的文件。

        c.ChEMBL支持下載采用SMILES化學(xué)結(jié)構(gòu)表示法的分子結(jié)構(gòu)SMI文件和包含Canonical SMILES表示法及InChl表示法的txt文件。

        d.PubChem對于藥物化合物的數(shù)據(jù)及藥物關(guān)聯(lián)信息數(shù)據(jù),有CSV、JSON、XML 3種可選數(shù)據(jù)導(dǎo)出文件格式。對于藥物分子結(jié)構(gòu)信息有SDF、JSON、XML、ASNT、PNG 5種可選數(shù)據(jù)導(dǎo)出文件格式。

        e.KEGG BRITE數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)為keg格式的文本文件。文件分別以A、B、C、D為行開頭的標(biāo)識符來標(biāo)記不同類別的信息;C開頭數(shù)據(jù)行記錄KEGG的藥物pathway的ID,其藥物pathway通常包含代謝、通路、調(diào)控、生化等相關(guān)的分子相互作用信息;D開頭的數(shù)據(jù)記錄相關(guān)聯(lián)的基因組信息;A、B是KEGG數(shù)據(jù)分類標(biāo)準(zhǔn)的分類信息。

        f.PDBbind支持下載用于藥物分子建模的蛋白質(zhì)-配體解離動力學(xué)參數(shù)數(shù)據(jù)集。數(shù)據(jù)集采用PDB格式保存蛋白質(zhì)數(shù)據(jù),以Mol2和SDF格式保存配體數(shù)據(jù)。

        通過對現(xiàn)有藥物研發(fā)相關(guān)數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)文件格式分析,可得出如下結(jié)論:SDF文件常用來保存化學(xué)分子結(jié)構(gòu);FASTA文件常用來存儲蛋白質(zhì)氨基酸序列信息;SMILES和InChl是常用的化學(xué)結(jié)構(gòu)線性表示方式;JSON和XML格式的文件是生物信息領(lǐng)域最受青睞的數(shù)據(jù)組織格式,易于計算機程序分析和數(shù)據(jù)解析。

        1.3 藥物靶標(biāo)特征表示方法

        藥物活性預(yù)測的目標(biāo)是篩選與藥物靶標(biāo)蛋白結(jié)合效果最優(yōu)的先導(dǎo)化合物分子。藥物靶標(biāo)是指生物體內(nèi)具有藥效功能并能被藥物作用的生物大分子,即可藥化大分子,例如,可藥化的蛋白質(zhì)、核酸等。靶標(biāo)蛋白也稱作可藥物化蛋白質(zhì),是指可以調(diào)節(jié)與藥物相互作用并且利用它們之間的相互作用產(chǎn)生治療效果的蛋白質(zhì)。

        在藥物研發(fā)過程中,需要對藥物分子和靶標(biāo)蛋白之間的關(guān)系進行數(shù)量化特征表示,用于進一步建模。常用的分子特征表示有:分子描述符、相似度矩陣和神經(jīng)網(wǎng)絡(luò)指紋[10],下面分別對其特點進行分析。

        分子描述符(molecular descriptors)[11-12]方法分為定量描述符和定性描述符。該方法的原理是將分子結(jié)構(gòu)內(nèi)編碼的化學(xué)信息轉(zhuǎn)換為數(shù)值矩陣。分子描述符包括:分子結(jié)構(gòu)、理化性質(zhì)、分子圖論、分子光譜數(shù)據(jù)、分子場以及分子形狀的描述符信息;定性描述符又稱分子指紋,可以用某種數(shù)據(jù)編碼來表示分子的結(jié)構(gòu)、片段、性質(zhì)或子結(jié)構(gòu),常用的分子指紋包括:MACCS Keys[13]、ECFPs(extendedconnectivity fingerprints)[14]、Public Keys[15]、Daylight Fingerprint[16]等。根據(jù)描述符計算所需的信息維數(shù),分子描述符可分為1D、2D和3D描述符。其中1D描述符表示分子的化學(xué)成分;2D描述符增加了原子之間的連接信息;3D描述符進一步增加了描述藥物分子的3D坐標(biāo)和絕對參考系。

        藥物的分子描述符除了用于藥物活性預(yù)測,還可以結(jié)合不同的機器學(xué)習(xí)分類器對未知結(jié)構(gòu)的蛋白質(zhì)進行熱點殘基預(yù)測[17]。分子描述符方法相關(guān)的軟 件 及 軟 件 包 有:Rcpi[18]、PROFEAT[19]、iFeature[20]、Padel-Descriptor[21]、DRAGON[22]、CDK[23]、CODESSAPro[24]和MOE[25]等。

        相似度矩陣表示法一般采用分子描述符和蛋白質(zhì)序列比對匹配度評分來分別計算分子藥物相似性和靶標(biāo)蛋白相似性,然后以數(shù)值矩陣的形式存放其相似值。該方法目前常用于核回歸[26]、二分局部法[27]和矩陣分解等模型。相似度矩陣表示方法簡單易用,但是丟失了化合物的結(jié)構(gòu)信息,無法處理未知的藥物和蛋白質(zhì)數(shù)據(jù)。

        神經(jīng)網(wǎng)絡(luò)指紋的思想由Merkwirth等[10]提出。神經(jīng)網(wǎng)絡(luò)指紋表示法采用了類似于詞向量模型Word2vec[28]的思想,借助深度神經(jīng)網(wǎng)絡(luò)模型將化合物分子離散的化學(xué)結(jié)構(gòu)映射到連續(xù)的向量空間中,進而使用連續(xù)優(yōu)化方法對模型進行優(yōu)化。神經(jīng)網(wǎng)絡(luò)指紋不需要任何預(yù)定義的分子描述符,其在網(wǎng)絡(luò)模型的訓(xùn)練過程中能夠自動生成特征向量。另外,神經(jīng)網(wǎng)絡(luò)能夠自適應(yīng)地針對不同任務(wù)不同數(shù)據(jù)集學(xué)習(xí)到不同的指紋特征,所以能夠獲得更高的預(yù)測精度。與傳統(tǒng)的表示方法相比,神經(jīng)網(wǎng)絡(luò)可以根據(jù)隱層的節(jié)點數(shù)確定分子特征向量的長度[10]。

        2 傳統(tǒng)藥物活性預(yù)測方法

        藥物活性預(yù)測之所以是藥物研發(fā)的必要環(huán)節(jié),是因為藥物進行疾病治療的過程,通常也是藥物分子與對應(yīng)的靶標(biāo)大分子相結(jié)合的過程。通過改變靶標(biāo)分子的生理活性進而實現(xiàn)對疾病的治療。藥物和靶標(biāo)之間相互作用關(guān)系的準(zhǔn)確識別是推動藥物研發(fā)效率提升的基礎(chǔ)。早期的“一藥一靶一病”理論沒有考慮藥物和靶標(biāo)蛋白之間復(fù)雜的相互作用關(guān)系。當(dāng)前的“多靶標(biāo)-多蛋白”模型和藥物重定位理論由英國Dundee大學(xué)藥理學(xué)家Hopkins[29]于2007年提出,揭示了藥物和靶標(biāo)蛋白質(zhì)復(fù)雜的相互作用,即某種藥物的靶標(biāo)蛋白可能會和其他藥物進行結(jié)合,某一特定藥物也可能會和其他蛋白質(zhì)進行結(jié)合,造成脫靶效應(yīng)[30]。

        目前,藥物靶標(biāo)蛋白相互作用研究主要分為實驗類的方法和基于計算類的方法。實驗類方法主要有核磁共振波譜法(nuclear magnetic resonance,NMR)[31]、微量熱法(microcalorimetry)[32]、表面等離子體共振法(surface plasmon resonance,SPR)[33]和高通量篩選(high throughput screening,HTS)[34]等。這些方法成本高、耗時長、應(yīng)用范圍小,故基于計算的藥物靶標(biāo)預(yù)測方法越來越受到藥物研究人員的青睞和重視。傳統(tǒng)的基于計算的預(yù)測方法主要有:基于配體的預(yù)測方法、基于結(jié)構(gòu)的預(yù)測方法以及分子動力學(xué)預(yù)測方法(表1)。

        2.1 基于配體的預(yù)測方法

        在生物醫(yī)藥領(lǐng)域中,配體是指能夠識別藥物靶標(biāo)并與之結(jié)合的分子。基于配體的預(yù)測方法主要是根據(jù)藥物分子的三維結(jié)構(gòu)進行活性預(yù)測,通常使用由Hansch等[35]提出的定量構(gòu)效關(guān)系(quantitative wtructure-activity relationship,QSAR)來進行活性預(yù)測。該方法認為藥物分子的活性與其結(jié)構(gòu)具有直接相關(guān)性,可以通過建立相應(yīng)的數(shù)學(xué)模型對藥物分子結(jié)構(gòu)和它的某種生物活性之間的對應(yīng)關(guān)系進行表示。QSAR在藥物化學(xué)領(lǐng)域具有較大影響力,但是該方法仍然具有一定的局限性,即如果與靶標(biāo)蛋白一致的配體數(shù)量較少,則很難找出配體之間的相似特性來進一步預(yù)測藥物的活性。

        2.2 基于結(jié)構(gòu)的預(yù)測方法

        基于結(jié)構(gòu)的預(yù)測方法主要通過對靶標(biāo)蛋白三維結(jié)構(gòu)進行分析進行活性預(yù)測。該類方法在分子對接(molecule docking)[36]上應(yīng)用較為廣泛。分子對接采用經(jīng)驗評分函數(shù)來對藥物和靶標(biāo)之間的相互作用進行評估。Wang等[37]提出了蛋白質(zhì)-配體打分方法SCORE,該方法引入了原子結(jié)合評分,采用經(jīng)驗評分函數(shù)對結(jié)合自由能進行表示,進而對已知三維結(jié)構(gòu)的蛋白質(zhì)與相應(yīng)配體的結(jié)合親和力進行計算。其他經(jīng)驗評分方法還有基于力場的DOCK[38]和GOLD[39]、基 于 知 識 的DrugScore[40]和DFIRE[41],以及基于統(tǒng)計方法的X-Score[42]和VALIDATE[43]等。

        2.3 分子動力學(xué)預(yù)測方法

        分子動力學(xué)模擬(molecular dynamics simulations)是利用計算機模擬的方法對原子的物理運動以及多原子體系中分子的變化進行研究。分子動力學(xué)模擬在藥物活性研究中能夠?qū)崿F(xiàn)受體構(gòu)象搜索和小分子最佳結(jié)合位點選擇。此外,可以通過結(jié)合自由能來評估藥物分子和靶標(biāo)蛋白之間的結(jié)合力的強弱。Miao等[44]采用加速分子動力學(xué)結(jié)合Glide誘導(dǎo)擬合對接的方法,成功篩選出國家癌癥研究所中38種化合物中與M2毒蕈堿乙酰膽堿受體(mAChR)結(jié)合親和力≤30μm的12種化合物并成功確定正負變構(gòu)調(diào)節(jié)劑。

        Table 1 Traditional drug activity prediction methods表1 傳統(tǒng)藥物活性預(yù)測方法

        3 傳統(tǒng)機器學(xué)習(xí)應(yīng)用于藥物活性預(yù)測

        機器學(xué)習(xí)(machine learning,ML)是計算機通過與相關(guān)數(shù)學(xué)理論如統(tǒng)計學(xué)、概率論、逼近理論和復(fù)雜算法知識等進行結(jié)合,通過模擬人類的學(xué)習(xí)方式對經(jīng)驗進行學(xué)習(xí),該種方法能夠?qū)ΜF(xiàn)有的事物進行分類、預(yù)測或者決策。受生物實驗方法低精度和高費用的限制,藥物活性預(yù)測效率低下、準(zhǔn)確率低、實際應(yīng)用代價高。采用機器學(xué)習(xí)和深度學(xué)習(xí)算法進行藥物活性預(yù)測能夠在一定程度上縮短藥物篩選的時間、降低研發(fā)成本、減少新藥研制的盲目性,這對于醫(yī)藥行業(yè)的發(fā)展具有重要推動意義。

        針對不同的藥物活性相關(guān)數(shù)據(jù)資源及研究問題,可以采用不同的機器學(xué)習(xí)模式,機器學(xué)習(xí)模式主要分為:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。在有監(jiān)督的學(xué)習(xí)模式中,訓(xùn)練樣本全部為已知標(biāo)注特性的實例數(shù)據(jù),多用于對樣本進行分類和回歸;在無監(jiān)督的學(xué)習(xí)模式中,訓(xùn)練樣本沒有經(jīng)過標(biāo)注,由算法根據(jù)特征進行自動分類和聚類,多用于樣本聚類、異常值檢測和降維;在半監(jiān)督的學(xué)習(xí)模式中,訓(xùn)練樣本中含有部分已知特性的標(biāo)注樣本和部分未知特性的樣本,該模式通過增加未知樣本來提高機器學(xué)習(xí)的自主性,當(dāng)未標(biāo)記數(shù)據(jù)闡明的實例分布與分類問題相關(guān)時,未標(biāo)記數(shù)據(jù)可以幫助提高預(yù)測精度和加快學(xué)習(xí)速度[45],半監(jiān)督學(xué)習(xí)模型多用于樣本分類和聚類。

        在藥物活性預(yù)測相關(guān)研究中,具有代表性的半監(jiān)督學(xué)習(xí)模型有LapRLS[46]和NetLapRLS[47],具有代表性的無監(jiān)督學(xué)習(xí)模型有MG-BERT[48]和Mol2vec[49]。針對已知的藥物-蛋白質(zhì)相互作用的稀缺性和未知藥物和蛋白質(zhì)的相互作用有待預(yù)測的問題,LapRLS和NetLapRLS均采用半監(jiān)督的學(xué)習(xí)方法對未知藥物和蛋白質(zhì)的相互作用進行預(yù)測。這兩種半監(jiān)督的方法在Nuclear Receptor、GPCR、Ion channel、Enzyme 4個開源數(shù)據(jù)集上的實驗結(jié)果顯示,綜合利用有標(biāo)記和無標(biāo)記的數(shù)據(jù),通常比單獨使用有標(biāo)記數(shù)據(jù)能產(chǎn)生更好的結(jié)果。

        MG-BERT使用了無監(jiān)督原子表達學(xué)習(xí)來進行分子的性質(zhì)預(yù)測。模型的作者提出了分子圖BERT結(jié)構(gòu),將圖神經(jīng)網(wǎng)絡(luò)(GNNs)的局部消息傳遞機制集成到BERT模型中,以便從分子圖中進行學(xué)習(xí)。該方法使用了一種有效的自監(jiān)督學(xué)習(xí)策略,即掩蔽原子預(yù)測,對模型進行預(yù)處理,以挖掘分子中的上下文信息。在預(yù)處理后生成上下文敏感的原子表示,并將學(xué)習(xí)到的知識用于各種分子性質(zhì)的預(yù)測。實驗結(jié)果表明,在11個ADMET數(shù)據(jù)集上,經(jīng)過微調(diào)處理的MG-BERT預(yù)訓(xùn)練模型的性能始終優(yōu)于現(xiàn)有的同類模型。Mol2vec采用了一種無監(jiān)督機器學(xué)習(xí)方法,用于學(xué)習(xí)藥物分子結(jié)構(gòu)的向量表示。類似于自然語言處理研究領(lǐng)域中的Word2vec模型,密切相關(guān)的詞向量在向量空間中非常接近。Mol2vec模型能夠?qū)Ψ肿咏Y(jié)構(gòu)進行向量表示,相似的分子結(jié)構(gòu)向量在向量空間中也非常接近。其輸出的結(jié)果向量可作為輸入變量,聯(lián)合有監(jiān)督的機器學(xué)習(xí)方法進一步預(yù)測化合物的性質(zhì)。

        3.1 常見機器學(xué)習(xí)算法原理簡介

        目前,常見的機器學(xué)習(xí)算法有多元線性回歸(multiple linear regression,MLR)、樸素貝葉斯(naive Bayesian,NBM)、K?近 鄰(K-nearest neighbor,KNN)、K-means、隨機森林(random forest,RF)、決策樹(decision tree,DT)、套索回歸(lasso regression,LR)、支持向量機(support vector machine,SVM)、Boosting與Bagging算法、邏輯回歸(logical regression,LR)、嶺回歸(ridge regression)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)和深度學(xué)習(xí)算法(deep learning,DL)等。在藥物活性預(yù)測方面,主要用到機器學(xué)習(xí)的分類功能。目前,比較常用的算法包括SVM、KNN、ANN、RF、深度學(xué)習(xí)等。

        KNN是一類有監(jiān)督的分類模型,其分類器無需訓(xùn)練并且可以解決多分類問題。該算法的原理為:對于給定測試樣本,通過計算樣本間距離尋找訓(xùn)練集中與該樣本最靠近的K個樣本,然后根據(jù)這K個樣本的標(biāo)注類別采用“投票法”對類別進行打分,K個樣本中出現(xiàn)次數(shù)最多的類別即為輸入樣本的預(yù)測類別。KNN算法有3個關(guān)鍵要素:K值的選擇、距離度量和分類決策規(guī)則。

        DT是一類有監(jiān)督的分類模型。通過訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,然后對未知數(shù)據(jù)進行分類。該模型的樹形結(jié)構(gòu)中的每一個節(jié)點都表示一個屬性,輸入的待預(yù)測樣本自上而下遍歷樹形結(jié)構(gòu)并根據(jù)其屬性完成多次判斷,直到給出樣本的最終判定結(jié)果。模型訓(xùn)練過程中主要特征度量方法有3種:信息增益、信息增益率和基尼指數(shù)[50],相應(yīng)的算法分別為ID3、C4.5和CART(classification and regression tree)算法[50]。RF是對多個決策樹的集成,通過投票表決輸出樣本類別。由于RF中每棵樹的特征選擇不同,因此可以解決過擬合問題,增強模型的泛化能力。

        Fig.3 Support vector and interval圖3 支持向量與間隔

        SVM是一種有監(jiān)督的分類模型,其在二分類問題上表現(xiàn)較好,針對一對多和多對多的分類問題效果略差。SVM的原理為:在訓(xùn)練集樣本空間中尋找一個超平面,使得不同類別的樣本分布在超平面的不同側(cè),該超平面可表示為圖3中的多元線性方程。其中,w為超平面的法向量,代表超平面的方向,b為位移,代表原點和超平面之間的距離。常見的SVM擴展算法有:半監(jiān)督支持向量機(semi-supervised support vector machine,S4VM)[51]、代價安全性半監(jiān)督支持向量機(cost security semisupervised support vector machine,CS4VM)[52]等。

        除了上述幾種機器學(xué)習(xí)算法,基于矩陣分解的推薦算法如協(xié)同過濾(collaborative filtering,CF)[53]、隱語義模型(latent factor model,LFM)[54]以及基于網(wǎng)絡(luò)的推薦方法[55]等在藥物靶標(biāo)活性預(yù)測上取得了較好的效果。CF算法是一種較為常用的推薦算法。在商品推薦領(lǐng)域,能夠基于用戶歷史行為數(shù)據(jù)預(yù)測用戶的喜好和偏向;在藥物活性預(yù)測領(lǐng)域,通過基于鄰域和統(tǒng)計學(xué)的非負矩陣分解算法,將“藥物-靶標(biāo)”之間的關(guān)聯(lián)關(guān)系類比為商品推薦系統(tǒng)中的“用戶-商品”場景。

        3.2 機器學(xué)習(xí)算法在藥物活性預(yù)測中的應(yīng)用

        在具體的行業(yè)應(yīng)用中,機器學(xué)習(xí)算法需要借助大量有標(biāo)注的和無標(biāo)注的行業(yè)數(shù)據(jù)對模型參數(shù)進行學(xué)習(xí)和優(yōu)化。在藥物活性預(yù)測研究領(lǐng)域中,“類藥五原則”理論(又稱為Lipinski規(guī)則)[56]經(jīng)常被用作活性化學(xué)藥物的初篩?;瘜W(xué)基因組學(xué)方法(chemogenomic approaches)[57]將藥物化合物的化學(xué)空間和靶標(biāo)蛋白的基因組空間進行整合,借助于強大的生物化學(xué)數(shù)據(jù)庫資源,機器學(xué)習(xí)開始在化學(xué)基因組空間中展開應(yīng)用[58](表2)。

        Table 2 Traditional machine learning models applied to the prediction of drug activity表2 傳統(tǒng)機器學(xué)習(xí)模型應(yīng)用于藥物活性預(yù)測

        3.2.1DT及RF在藥物活性預(yù)測中的應(yīng)用

        DT呈樹形結(jié)構(gòu),在分類問題中,表示基于特征對實例進行分類的過程。國內(nèi)學(xué)者賈聰敏[59]采用RF算法結(jié)合十折交叉驗證構(gòu)建藥物靶點定量預(yù)測模型,所構(gòu)建的RF模型在EC50驗證集和測試集上的MSE均小于0.09,且R2均大于0.96;在KD數(shù)據(jù)集上MSE均小于0.12,R2均大于0.94。實驗同時也設(shè)置了多種算法作為對照組,結(jié)果表明相比較于SVM和ANN,RF構(gòu)建的藥物靶點相互作用關(guān)系定量預(yù)測模型為最優(yōu)模型。RF針對缺失數(shù)據(jù)和異常值不敏感,通過隨機性的引入增強了模型的泛化能力,其在3種模型中表現(xiàn)最佳,ANN因在藥物靶點定量預(yù)測上出現(xiàn)欠擬合問題而表現(xiàn)最差,SVM則介于兩者之間。Lü等[60]采用C4.5 DT算法建立分類模型對肝炎病毒NS5B蛋白酶抑制劑與非抑制劑進行預(yù)測,在丙型肝炎病毒的基因復(fù)制和蛋白質(zhì)成熟的過程中,NS5B蛋白酶是RNA復(fù)制依賴的聚合酶,抑制NS5B聚合酶可以阻止丙型肝炎病毒的RNA復(fù)制,因此成為一種治療丙型肝炎的有效方法。該方法的測試數(shù)據(jù)集包含1 248個結(jié)構(gòu)多樣性的化合物(552個NS5B抑制劑與696個非NS5B抑制劑),實驗結(jié)果表明,C4.5 DT算法在非抑制劑數(shù)據(jù)集上取得最高的預(yù)測精度(87.2%),在抑制劑數(shù)據(jù)集上取得最低的預(yù)測精度(81.4%),在總的數(shù)據(jù)集上,其預(yù)測精度(84.7%)略低于KNN(85.0%)。

        3.2.2SVM在藥物活性預(yù)測中的應(yīng)用

        SVM能夠處理高維數(shù)據(jù)以及對線性和非線性數(shù)據(jù)進行分類。其在化合物分類、排名以及回歸屬性值預(yù)測方面具有良好的效果。在藥物活性預(yù)測領(lǐng)域,通常被作為基礎(chǔ)模型或?qū)φ战M模型應(yīng)用。

        Lü等[60]測試了SVM在肝炎病毒NS5B蛋白酶抑制劑和非抑制劑上的分類預(yù)測模型,為了同時提高模型計算效率和預(yù)測精度,作者首先通過RFE(recursive feature elimination)對分子描述符中的分子特征進行篩選。模型的實現(xiàn)流程如下:a.針對數(shù)據(jù)集中的全部分子描述符建立模型;b.通過評分函數(shù)對分子描述符中的分子特征進行評分;c.刪除排在最后的m個描述符;d.最后對剩下的描述符進行SVM分類訓(xùn)練,采用5折交叉驗證計算模型的精度。

        為避免模型的過擬合同時降低模型的計算量,設(shè)置變量m=5。在NS5B抑制劑和非抑制劑數(shù)據(jù)集上,使用RFE特征預(yù)篩選使得SVM的總預(yù)測精度從69.8%提升到82.0%。與KNN和C4.5 DT模型相比,SVM在抑制劑數(shù)據(jù)集上取得最高的預(yù)測精度91.7%,在非抑制劑數(shù)據(jù)集上取得最低的預(yù)測精度78.2%。由此可見模型的好壞與數(shù)據(jù)集有很大的關(guān)系。

        高雙?。?1]分別對3類藥物活性分子(PLK1 PBD、SMAD3、IL-1B)進行深入探究,分別基于SVM、S4VM和CS4VM構(gòu)建藥物活性預(yù)測模型,3種模型在PubChem里SMAD3數(shù)據(jù)集上的預(yù)測精度,分別為61.47%、75.16%和71.35%,其中S4VM取得了較好的預(yù)測效果。賈聰敏[59]采用SVM構(gòu)建藥物靶點EC50定量預(yù)測模型,其在訓(xùn)練集上的R2=0.931 7,MSE=0.127 0,在測試集上的R2=0.575 9,MSE=0.835 6,優(yōu)于ANN模型,但相對于RF來說效果略差。

        3.2.3推薦模型在藥物活性預(yù)測中的應(yīng)用

        推薦模型主要用于廣告、產(chǎn)品、電影推薦等應(yīng)用場景。常用的推薦模型有矩陣分析和協(xié)同計算。在電子商務(wù)領(lǐng)域,推薦系統(tǒng)可以根據(jù)用戶購買商品的歷史數(shù)據(jù)和同類用戶的購買數(shù)據(jù)進行建模然后進行個性化商品推薦。這一思想被研究人員應(yīng)用于研究啟發(fā)式藥物發(fā)現(xiàn),將藥物和藥物的關(guān)系以及藥物和靶標(biāo)的關(guān)系類比于廣告推薦中的用戶和用戶關(guān)系以及用戶和商品的關(guān)系。

        何亞瓊等[62]借鑒推薦系統(tǒng)對藥物靶標(biāo)預(yù)測問題進行建模,建模過程如下:a.建立表征藥物靶標(biāo)相互作用的m×n二維矩陣R,m代表藥物量,n代表靶標(biāo)數(shù)量。矩陣R中,如果已知藥物i和靶標(biāo)j存在相互作用,則Ri,j=1,未被驗證的關(guān)系對應(yīng)值為0;b.建立表征藥物相似性的m×m的對角矩陣M,Mi,j是根據(jù)化合物i和化合物j的化學(xué)結(jié)構(gòu)相似性計算得到;c.構(gòu)建表征靶標(biāo)蛋白相似性的n×n對角矩陣N。矩陣Ni,j是基于目標(biāo)蛋白的氨基酸序列相似性計算得到;d.Ui和Vj分別代表藥物i的潛在影響因子向量和靶標(biāo)j的潛在影響因子向量,Kn,m是藥物和靶標(biāo)的潛在低維空間維度。

        何亞瓊等[62]提出了深度學(xué)習(xí)協(xié)同過濾算法,設(shè)計多輸入深度自編碼器,使其能夠自動提取藥物潛在特征U和藥物靶標(biāo)潛在特征V。通過在編碼器中加入相似度矩陣M、N和藥物靶標(biāo)相互作用矩陣R,模型能夠同時提取到這3種矩陣中的藥物和靶標(biāo)的潛在特征,進而增強U和V的有效性。另外,作者通過添加藥物、靶標(biāo)雙重正則化來提高模型的精度。改進后的模型流程如圖4所示。

        與采用SVM做二分類的深度自編碼器、基于低秩矩陣分解的協(xié)同過濾算法相比,在Yam基準(zhǔn)數(shù)據(jù)集(Nuclear Receptor、GPCR、Ion channel、Enzyme)上該方法的AUPR值分別為0.764、0.732、0.682和0.637;在酶數(shù)據(jù)集上,AUC值達到了0.978,改進后的模型AUPR和AUC值均高于MFDR(SDAE+SVM)和COSINE。章嘯[63]針對藥物靶標(biāo)關(guān)聯(lián)矩陣過于稀疏的問題,采用混合加權(quán)方法對關(guān)聯(lián)矩陣進行改進,并將DrugBank、ChEMBL、PubChem、Uniprot 4大數(shù)據(jù)庫的數(shù)據(jù)融合為一個新的數(shù)據(jù)集,改進后的算法在該數(shù)據(jù)集上的MAE比直接使用協(xié)同過濾降低約0.1~0.15。

        相對于早期協(xié)同過濾采用的奇異值分解方法,隱語義模型(latent factor model,LFM)是對奇異矩陣分解(singular value decomposition,SVD)的改進,同時LFM引入了損失函數(shù)和懲罰項來提高模型預(yù)測精度。Mongia等[64]提出一種深度隱語義模型,將矩陣分解推薦算法由分解成兩個矩陣改為分解成多個矩陣。在Enzymes、Ion channels、GPCR和Nuclear receptors 4個基準(zhǔn)數(shù)據(jù)集上,該模型的AUPR分別達到了0.728、0.828、0.616和0.125,AUC值分別為0.899、0.941、0.884和0.669,均高于其他矩陣分解方法如SVT、BMC、PMF和GRMF。

        基于網(wǎng)絡(luò)的推薦算法是指將網(wǎng)絡(luò)接口接入不同的算法,使得用戶可以根據(jù)自己的需求自定義訓(xùn)練數(shù)據(jù),進而獲得更加精準(zhǔn)的預(yù)測結(jié)果。Salvatore等[55]應(yīng)用基于雙向網(wǎng)絡(luò)投影的推薦技術(shù)提出了藥物活性預(yù)測應(yīng)用Web程序DT-Hybrid,用戶可以通過系統(tǒng)上傳待預(yù)測的藥物數(shù)據(jù),然后自定義設(shè)置各項參數(shù),該系統(tǒng)通過DT-Hybrid返回一個預(yù)測的候選結(jié)果列表,并對每一個候選結(jié)果進行打分供用戶參考,該系統(tǒng)的底層數(shù)據(jù)來自于DrugBank數(shù)據(jù)庫,并且定期進行更新。

        Fig.4 Deep collaborative filtering flowchart圖4 深度協(xié)同過濾模型流程圖

        3.3 傳統(tǒng)機器學(xué)習(xí)應(yīng)用于藥物活性預(yù)測小結(jié)

        傳統(tǒng)機器學(xué)習(xí)算法相較于傳統(tǒng)基于實驗的方法效率更高、耗時更短。DT、RF、SVM和矩陣分解等常用的機器學(xué)習(xí)模型對樣本規(guī)模不敏感,只需要幾千個訓(xùn)練數(shù)據(jù)樣本即可訓(xùn)練出快速收斂的模型。藥物研發(fā)領(lǐng)域往往由于客觀原因?qū)е聦嶒灁?shù)據(jù)較少,在此情形下傳統(tǒng)機器學(xué)習(xí)模型依然可以實現(xiàn)有效建模。分析現(xiàn)有科研文獻發(fā)現(xiàn)RF、半監(jiān)督SVM和協(xié)同過濾在多數(shù)實驗場景下?lián)碛邢鄬^高的藥物靶標(biāo)預(yù)測精度。但由于模型的適用范圍有限、不同的模型適用不同的數(shù)據(jù)集,所以脫離實驗數(shù)據(jù)和應(yīng)用場景的模型好壞評價不能一概而論。

        傳統(tǒng)的機器學(xué)習(xí)模型在藥物活性預(yù)測上效果較好,但是隨著數(shù)據(jù)量的增加,機器學(xué)習(xí)模型的性能開始下降,也難以學(xué)習(xí)出復(fù)雜的函數(shù)模型。同時,傳統(tǒng)機器學(xué)習(xí)類模型往往無法直接把實驗數(shù)據(jù)屬性變量輸入模型,需要預(yù)先進行特征提取,對于高維的輸入變量需要進行PCA等降維處理,才能進一步作為模型的輸入。這些要求科研工作者需要有較好的數(shù)理統(tǒng)計基礎(chǔ)及對常用數(shù)據(jù)預(yù)處理工具的熟練使用能力。

        4 深度學(xué)習(xí)應(yīng)用于藥物活性預(yù)測

        深度學(xué)習(xí)是機器學(xué)習(xí)中的一種,是當(dāng)前機器學(xué)習(xí)領(lǐng)域最熱門的研究方向。深度學(xué)習(xí)多被用于解決傳統(tǒng)機器學(xué)習(xí)算法不擅長的具有高維輸入變量的問題或復(fù)雜分類問題。對于類似于藥物活性預(yù)測這樣的復(fù)雜問題,深度學(xué)習(xí)通過學(xué)習(xí)數(shù)據(jù)樣本的特點,自動尋找藥物分子的特征而無需手動設(shè)計;也可以通過增加神經(jīng)網(wǎng)絡(luò)中的隱藏層進而提取更深層次的特征,顯著提升模型的預(yù)測能力和分類能力。

        目前深度學(xué)習(xí)在推薦、分類、目標(biāo)檢測、語音識別、圖像分割、藥物活性預(yù)測等方面取得了較大的突破。常見的深度學(xué)習(xí)模型有:多層感知機(multilayer perceptron,MLP)[65]、DNN[66]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[67]、AE、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)[68]、長短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)[69]、深度置信網(wǎng)絡(luò)(deep belief networks,DBN)[70]、GAN[71]等。

        4.1 常用深度學(xué)習(xí)模型簡介

        近年來,深度學(xué)習(xí)類模型層出不窮,但是大部分模型是在經(jīng)典模型上的改進或者多模型間進行融合。本部分內(nèi)容主要對被應(yīng)用于藥物活性領(lǐng)域的深度學(xué)習(xí)算法原理進行簡要介紹,作為后續(xù)方法應(yīng)用部分的理論鋪墊和術(shù)語詮釋。按照深度學(xué)習(xí)領(lǐng)域大的分類依序介紹,包含有ANN、DNN、AE、CNN、RNN、DBN和GAN等主要類型的深度學(xué)習(xí)算法。

        ANN模型于1943年由神經(jīng)生理學(xué)家McCulloch和數(shù)學(xué)家Pitts提出[72]。ANN中比較典型的是BP(back propagation)神經(jīng)網(wǎng)絡(luò)[73]。BP神經(jīng)網(wǎng)絡(luò)主要包含輸入層(input layer)、隱藏層(hidden layer)和輸出層(output layer)3個部分。其中,輸入層接收外部信息并將信息輸入模型,隱藏層對輸入模型的信息進行處理,輸出層負責(zé)信息的進一步優(yōu)化和輸出。BP神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)如圖5所示。

        Fig.5 Neural network topology圖5 神經(jīng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)

        圖中數(shù)據(jù)信息從綠色節(jié)點輸入,最終從藍節(jié)點輸出,橙色節(jié)點為隱藏層節(jié)點,隱藏層的數(shù)量大于等于1且隱藏層之間依靠神經(jīng)元的聯(lián)結(jié)權(quán)重進行連接。BP網(wǎng)絡(luò)的反向傳播采用梯度下降算法對網(wǎng)絡(luò)的整體結(jié)構(gòu)進行修正,使得模型的損失函數(shù)達到最小。當(dāng)神經(jīng)元接收到的信號超出閾值時,神經(jīng)元會被激活,然后通過激活函數(shù)的處理產(chǎn)生神經(jīng)元的輸出。常見的激活函數(shù)有階躍函數(shù)、Tanh函數(shù)、Sigmoid函數(shù)和ReLU函數(shù)。其中階躍函數(shù)由于具有不連續(xù)和不光滑的性質(zhì),故不常使用。

        DNN概念寬泛,廣義上CNN、RNN、GAN等都屬于DNN。但通常提到DNN往往是指基于ANN和MLP進行拓展的擁有多隱藏層的全連接神經(jīng)網(wǎng)絡(luò)。其神經(jīng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)中隱藏層可高達幾十上百層。

        CNN是包含卷積計算的前饋神經(jīng)網(wǎng)絡(luò),模型同時具有表征學(xué)習(xí)和稀疏表示的能力,在計算機視覺應(yīng)用領(lǐng)域表現(xiàn)突出。具有代表性的CNN模型為Lecun等[67]于1998年提出的LeNet-5網(wǎng)絡(luò)模型。該模型包含了現(xiàn)代CNN網(wǎng)絡(luò)所具備的基本模塊:卷積層、非線性激活層、池化層以及全連接層。在CNN模型中,卷積層內(nèi)每個神經(jīng)元都與其前一層中位置接近區(qū)域的多個神經(jīng)元相連,該區(qū)域稱為感受野(receptive field),其大小取決于卷積核的大小。卷積核根據(jù)設(shè)定的步長對輸入的特征圖進行掃描,在感受野范圍內(nèi)對輸入特征矩陣做矩陣元素相乘求和并疊加偏移量。其原理見圖6,在示例中輸入的特征向量大小為5×5,卷積核的大小為3×3,步長為1;卷積核在輸入向量構(gòu)成的矩陣上移動,進行卷積運算實現(xiàn)降采樣。近幾年,新的CNN模型不斷涌現(xiàn),比較常見的CNN模型有:AlexNet[74]、VGGNet[75]、U-Net[76]、RBCNN[77]、YOLO[78]等。

        Fig.6 Diagram of convolution operation圖6 卷積運算示意圖

        AE是一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中的每個隱藏層都有一個編碼器和一個解碼器。編碼器將輸入變量編碼為低維空間的特征變量;解碼器對特征變量重新解碼成高維特征變量。采用距離函數(shù)度量輸入和輸出信號之間的偏差損失。在解碼的過程需要保證距離函數(shù)最小。

        RNN又稱遞歸神經(jīng)網(wǎng)絡(luò)。該模型適用于處理序列數(shù)據(jù),其特點是在序列的演進方向進行遞歸且所有節(jié)點按照鏈?zhǔn)竭B接。故該模型多用于處理語音識別、機器翻譯、價格預(yù)測、氣象預(yù)測等問題。RNN原理如圖7所示,在時刻t,輸入信息為Xt,結(jié)合上一隱藏層的狀態(tài)St-1和該隱藏層的狀態(tài)St,輸出信息Ot,矩陣W為隱藏層之間的權(quán)重,矩陣U為輸入層與隱藏層之間的權(quán)重,矩陣V為隱藏層和輸出層之間的權(quán)重。常見的RNN模型有LSTM[69]、GRU[79]、BRNN[80]等。

        DBN是一個概率生成模型,與傳統(tǒng)的判別模型神經(jīng)網(wǎng)絡(luò)相比,生成模型建立觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布。其用于監(jiān)督學(xué)習(xí)可使樣本分類盡可能的準(zhǔn)確,用于非監(jiān)督學(xué)習(xí)可在保留原始特征同時降低特征維度。DBN模型架構(gòu)由一個可視層和多個RBM層組合而成,層與層之間的神經(jīng)元存在連接但層內(nèi)的單元間不連接。其網(wǎng)絡(luò)模型如圖8所示。

        Fig.7 Diagram of principle of RNN圖7 RNN原理示意圖

        Fig.8 DBN network model圖8 DBN網(wǎng)絡(luò)模型

        GAN是由Goodfellow等[71]提出的能夠根據(jù)輸入數(shù)據(jù)概率分布生成新數(shù)據(jù)的網(wǎng)絡(luò)模型。GAN的隱藏層由兩部分組成,分別是生成器和判別器。生成器用來產(chǎn)生新的樣本,也稱作假數(shù)據(jù),判別器用來區(qū)分真實數(shù)據(jù)和假數(shù)據(jù)。模型經(jīng)過多次迭代后,生成器生成數(shù)據(jù)的質(zhì)量不斷提升,直到判別器無法區(qū)分真實數(shù)據(jù)和假數(shù)據(jù)。

        使用GAN模型能夠產(chǎn)生大量可供訓(xùn)練的數(shù)據(jù)樣本,但是在模型訓(xùn)練過程中易出現(xiàn)梯度消失問題。此外,當(dāng)生成器生成質(zhì)量差的樣本且通過增加訓(xùn)練時間也無法改善質(zhì)量時,GAN會出現(xiàn)模式崩潰[81]。條件生成對抗網(wǎng)絡(luò)(conditional generative adversarial networks,CGAN)[82]可以對GAN模型進行調(diào)節(jié)避免模式崩潰。另一個改進的模型Wasserstein GAN(WGAN)[83]通過引入EM距離,并縮小EM距離對生成器和鑒別器進行優(yōu)化,使得生成數(shù)據(jù)概率分布接近真實數(shù)據(jù)概率分布。Wang等[84]把EM和GAN相結(jié)合提出了進化生成對抗網(wǎng)絡(luò)(evolutionary generative adversarial networks,E-GAN),解決了GAN模型訓(xùn)練不穩(wěn)定及模式崩潰的問題。

        4.2 深度神經(jīng)網(wǎng)絡(luò)在藥物活性預(yù)測中的應(yīng)用

        深度神經(jīng)網(wǎng)絡(luò)類算法一般不需要手動提取數(shù)據(jù)特征。在藥物活性預(yù)測領(lǐng)域,深度網(wǎng)絡(luò)能處理較為復(fù)雜的藥物分子數(shù)據(jù),通過逐層抽象及傳遞,模型可以自動提取較深層次的數(shù)據(jù)特征,進而獲得更高的藥物活性預(yù)測準(zhǔn)確率。本部分內(nèi)容對當(dāng)前深度神經(jīng)網(wǎng)絡(luò)在藥物活性預(yù)測領(lǐng)域中的應(yīng)用研究進行分析總結(jié),主要涉及DNN、CNN、RNN、DBN、GAN等深度學(xué)習(xí)模型的應(yīng)用(表3)。

        4.2.1DNN在藥物活性預(yù)測中的應(yīng)用

        DNN是深層全連接神經(jīng)網(wǎng)絡(luò),在很多應(yīng)用場景下效果良好。Bharath等[85]借助DeepChem開源平臺構(gòu)建了多任務(wù)DNN、單任務(wù)DNN、Progressive DNN、Bypass DNN和RF,共5類模型。實驗使用默沙東公司2012年在Kaggle平臺上舉辦的藥物活性預(yù)測比賽的4個數(shù)據(jù)集Kaggles、Factors、Kinase、UV進行訓(xùn)練和測試。在4個數(shù)據(jù)集上的實驗結(jié)果表明,多任務(wù)DNN模型在訓(xùn)練集上的R2可能會低于RF以及另外4種DNN模型,但在驗證集和測試集上能夠取得比另外4種模型更高的預(yù)測精度。此外其他3種DNN模型的預(yù)測效果均優(yōu)于RF。在Kaggle數(shù)據(jù)集上,多任務(wù)DNN在訓(xùn)練集和測試集上能達到0.793和0.468的精度,而RF能達到0.941和0.428。由此可知在藥物預(yù)測方面DNN模型相較于以RF為代表的機器學(xué)習(xí)有著較好的泛化能力和更高的預(yù)測精度,同時DNN中多任務(wù)DNN的預(yù)測精度和泛化能力又高于其他類型DNN模型。

        同Bharath等的工作類似,Cai等[86]提出了DeephERG框架來構(gòu)建hERG通道阻滯劑評估的預(yù)測模型。內(nèi)置DeephERG的多任務(wù)DNN算法顯示出令人滿意的預(yù)測結(jié)果,在驗證集的AUC值為0.967,優(yōu)于單任務(wù)DNN的0.957,RF的0.950,SVM的0.908,樸素貝葉斯的0.922以及圖卷積神經(jīng) 網(wǎng) 絡(luò) (graph convolutional neural network,GCNN)的0.959。在單任務(wù)DNN應(yīng)用方面,Kato等[87]通過對單任務(wù)全連接神經(jīng)網(wǎng)絡(luò)(fullyconnected deep neural network,F(xiàn)C-DNN)進行調(diào)超參,搭建了新的QSAR/DNN模型,取得了同Kaggle QSAR競賽冠軍組模型相近的R2值。路瑩瑩[88]在DrugBank數(shù)據(jù)集上采用FC-DNN進行藥物靶標(biāo)相互作用預(yù)測。實驗結(jié)果表明,F(xiàn)C-DNN的AUC和準(zhǔn)確率分別為0.96和0.88,對照組模型RF和SVM對應(yīng)的AUC及準(zhǔn)確率分別為0.90、0.84和0.92、0.85。FC-DNN模型在測試集上的準(zhǔn)確率和AUC都優(yōu)于對照組的傳統(tǒng)機器學(xué)習(xí)模型。

        4.2.2CNN在藥物活性預(yù)測中的應(yīng)用

        CNN模型常用于處理基于圖像識別的問題或類圖像識別的問題。在藥物活性預(yù)測研究領(lǐng)域,藥物分子結(jié)構(gòu)可以用二維或三維的圖像來表示,CNN通過對分子圖像識別的方式來識別分子特征及類型。Chemception[89]和AugChemception[90]模型分別使用化合物的分子結(jié)構(gòu)圖像進行化學(xué)性質(zhì)預(yù)測,兩種方法都采用了類似Inception-ResNet-v2網(wǎng)絡(luò)的構(gòu)造。Chemception模型通過對化合物的2D分子圖像進行學(xué)習(xí),能夠?qū)衔锏幕瘜W(xué)性質(zhì)進行預(yù)測,預(yù)測流程如圖9所示。該模型使用機器學(xué)習(xí)基準(zhǔn)數(shù)據(jù)集MoleculeNet中的3個基準(zhǔn)數(shù)據(jù)集Tox21、HIV、FreeSolv進行驗證,采用分子結(jié)構(gòu)繪制軟件RDKit將SMILES格式的結(jié)構(gòu)數(shù)據(jù)繪制成80×80像素的二維分子圖像作為輸入,與輸入傳統(tǒng)分子特征相比,Chemception模型在HIV訓(xùn)練集和測試集上AUC分別為0.796、0.798,RMSE分別為1.17、1.22 kcal/mol,優(yōu)于以分子特征作為輸入的多層感知器深度網(wǎng)絡(luò)模型。

        在藥物靶標(biāo)活性預(yù)測中,胡姍姍[91]在LeNet-5網(wǎng)絡(luò)的基礎(chǔ)上進行改進,將藥物小分子和靶標(biāo)蛋白的近鄰特征映射成為矩陣數(shù)據(jù)。其改進后的模型在來自KEGG BBRITE數(shù)據(jù)庫的數(shù)據(jù)集上AUC值為0.952 7,準(zhǔn)確率為0.881 4,比DBN分別高3.69%和2.26%。Kun等[92]使用CNN模型實現(xiàn)了基于3D小分子的電子密度數(shù)據(jù)進行碳氫化合物的Kohn-Sham動能和KS密度預(yù)測,進一步對傳統(tǒng)動力學(xué)函數(shù)進行局部校正。實驗結(jié)果表明,CNN能夠半定量的預(yù)測鍵合并準(zhǔn)確預(yù)測KS分子動力學(xué)軌跡。另外含3層卷積層的CNN模型F誤差總體低于含有2層或者4層的模型。在烷烴分子動能數(shù)據(jù)集上,模型在訓(xùn)練集和測試集上結(jié)果誤差可分別達到約0.01和0.08。同時模型能夠克服數(shù)據(jù)中的非線性噪聲,作者認為可以通過加強物理約束、提升數(shù)據(jù)精度來提升模型的學(xué)習(xí)能力。

        Fig.9 CNN drug activity prediction flowchart圖9 CNN藥物活性預(yù)測流程圖

        4.2.3AE在藥物活性預(yù)測中的應(yīng)用

        AE將輸入的高維數(shù)據(jù)映射到潛在空間并用較低維度表示,處理后的數(shù)據(jù)被重新解碼成原始高維輸入形式。其降維功能便于處理大量高維數(shù)據(jù),同時提高模型準(zhǔn)確性。

        Rafael等[93]采用變分自編碼器(variational autoencoder,VAE)來生成化合物的結(jié)構(gòu)。編碼器將離散的分子SMILES字符串被映射到潛在空間中,并通過隱向量進行連續(xù)表示。用z來表示分子結(jié)構(gòu)的連續(xù)表示,則模型中的多層感知模塊訓(xùn)練出函數(shù)f(z)來預(yù)測新的分子結(jié)構(gòu),并采用梯度優(yōu)化方式對f(z)進行優(yōu)化進而尋找新的滿足醫(yī)學(xué)特征需求的分子結(jié)構(gòu)。該模塊生成新的化學(xué)結(jié)構(gòu)的方式包括解碼隨機向量、擾亂已知的化學(xué)結(jié)構(gòu)和在分子之間進行插值。解碼器將編碼器輸出的連續(xù)表示逆向轉(zhuǎn)化為離散的SMILES字符串。在不同的數(shù)據(jù)集上神經(jīng)網(wǎng)絡(luò)采用不同的超參數(shù):

        在ZINC數(shù)據(jù)集上的模型超參數(shù)配置如下。a.編碼器:三層一維卷積層(過濾器大小分別為9、9、10,數(shù)量分別為9、9、11);b.全連接神經(jīng)網(wǎng)絡(luò):寬度為196;c.解碼器:三層門控循環(huán)單元(GRU)網(wǎng)絡(luò),隱藏層維度為488。

        在QM9數(shù)據(jù)集上的模型超參數(shù)配置:a.編碼器:三層一維卷積層(每層濾波器大小分別為2、2、1,數(shù)量分別為5、5、4);b.全連接神經(jīng)網(wǎng)絡(luò):寬度為156;c.解碼器:三層門控循環(huán)單元(GRU)網(wǎng)絡(luò),隱藏層維度為500。

        實驗結(jié)果表明,Rafael等[93]構(gòu)造的模型相較于其他常見機器學(xué)習(xí)模型具有更高的藥物相似性定性估計值。隨后,作者將高斯過程、高斯搜索和遺傳算法引入預(yù)測模塊對模型進一步優(yōu)化。結(jié)果發(fā)現(xiàn),相較于高斯搜索和遺傳算法,高斯過程的引入對模型的預(yù)測效果提升具有明顯的作用。

        類似的工作,Thomas等[94]采用VAE模型生成了對2型多巴胺受體具有活性的新型化合物。閆奕霖[95]分別建立了基于SVM、ANN和SAE的化合物抗HIV活性分類預(yù)測模型并進行對比實驗。在不同數(shù)據(jù)集上的結(jié)果均表明SAE能夠?qū)崿F(xiàn)化合物抗HIV活性分類更高的預(yù)測精度。

        4.2.4RNN在藥物活性預(yù)測中的應(yīng)用

        RNN將序列數(shù)據(jù)作為輸入,在序列的演進方向進行遞歸且所有節(jié)點按照鏈?zhǔn)竭B接,故其多用于對序列概率分布進行建模。

        Segler等[96]采用具有3個堆疊LSTM層的RNN模型進行藥物結(jié)構(gòu)設(shè)計,并經(jīng)過遷移學(xué)習(xí)生成對所需生物靶標(biāo)具有良好親和力的新型分子。模型設(shè)計流程如下:a.采用目標(biāo)預(yù)測模型(RF、邏輯回歸、梯度提升樹、DNN)對藥物分子活性進行預(yù)測;b.遷移學(xué)習(xí),對預(yù)訓(xùn)練的RNN模型進行小樣本重新訓(xùn)練;c.采用目標(biāo)預(yù)測模型對上一步驟設(shè)計藥物進行活性預(yù)測,然后將預(yù)測為具有一定活性的藥物合并入步驟a,形成閉環(huán)。

        模型采用隨機富集(enrichment over random,EOR)方法進行評估,EOR表示如下:

        公式中,n=|G N∩T|是測試集T和微調(diào)模型生成的藥物分子集合G N的并集元素的數(shù)量,m=|R M∩T|,RM是在大數(shù)據(jù)集合上訓(xùn)練的通用模型生成的藥物分子集合。在金黃色葡萄球菌藥物數(shù)據(jù)集上,遷移學(xué)習(xí)訓(xùn)練的模型跟從頭訓(xùn)練的模型相比,預(yù)測結(jié)果誤差更小。同時上述循環(huán)模型迭代8次之后EOR值為59.6,高于僅進行單次簡單重訓(xùn)練模型(EOR=6.3)。

        Bjerrum等[97]基于帶有LSTM結(jié)構(gòu)的RNN模型建立序列到序列異源編碼器對SMILES預(yù)測不同的枚舉字符串。實驗表明,異源編碼器派生的向量明顯優(yōu)于自編碼器和使用ECFP4指紋建立模型的派生向量。龍飛達[98]基于PubCHEM數(shù)據(jù)庫采用具有3層門控結(jié)構(gòu)的RNN結(jié)合馬爾可夫決策過程(Markov decision process,MDP)[99]在靶標(biāo)蛋白CRM1抑制劑萊菔素的基礎(chǔ)上進行分子結(jié)構(gòu)改造,將改造后得到的CRM1靶向小分子抑制劑命名為LFS-1107。活性測試實驗表明該分子對CRM1具有更高的藥物活性。路瑩瑩[88]采用LSTM在DrugBank數(shù)據(jù)集上進行藥物靶標(biāo)相互作用預(yù)測實驗,以配體結(jié)構(gòu)信息和蛋白質(zhì)序列信息構(gòu)建藥物靶標(biāo)相互作用向量作為模型輸入,結(jié)果表明LSTM模型的預(yù)測準(zhǔn)確率和AUC分別為0.87和0.95,皆高于傳統(tǒng)機器學(xué)習(xí)算法RF和SVM。

        4.2.5DBN在藥物活性預(yù)測中的應(yīng)用

        在DBN預(yù)測藥物活性的應(yīng)用中,首先將藥物特征輸入其模型前端RBM網(wǎng)絡(luò),然后將RBM網(wǎng)絡(luò)的輸出作為BP神經(jīng)網(wǎng)絡(luò)的輸入,進一步對特征進行深層提取,最后輸出藥物活性的預(yù)測類別。

        高雙?。?1]從PubChem上選取3類藥物活性數(shù)據(jù),PLK1 PBD、SMAD3和IL-1B,并對上述3類蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)進行SVM、ANN、SAE和DBN建模實驗。測試結(jié)果表明,在3種數(shù)據(jù)集上,無監(jiān)督算法SAE和DBN在準(zhǔn)確率、召回率、馬修斯相關(guān)系數(shù)等評價指標(biāo)上均優(yōu)于另外兩種算法。其中,在PLK1 PBD數(shù)據(jù)集上(僅含2D分子描述符),DBN表現(xiàn)最好,在輸入特征數(shù)為50,隱藏層數(shù)為3時模型精度達到最高(90.1%);在IL1-B數(shù)據(jù)集上,訓(xùn)練集為3DI、3DX和ALL分子描述符時,DBN預(yù)測表現(xiàn)優(yōu)于SAE和其他模型,訓(xùn)練集為2D分子描述符的時候,DBN預(yù)測表現(xiàn)略遜色于SAE;在SMAD3數(shù)據(jù)集上,模型輸入特征數(shù)為125,隱藏層為1層,在準(zhǔn)確率、召回率、誤分率等評價指標(biāo)上,SAE均優(yōu)于DBN,其中SAE的準(zhǔn)確率達到93.38%,DBN達到83.81%。由此可見模型預(yù)測效果好壞不僅與模型本身有關(guān),也與數(shù)據(jù)集有關(guān)。

        同樣的,黎佳朗[15]比較了DBN、SAE結(jié)合SVM、基于網(wǎng)絡(luò)的推薦算法和矩陣分解方法對藥物靶標(biāo)相互作用進行預(yù)測,實驗結(jié)果表明DBN相較于其他模型具有更高的準(zhǔn)確率。

        4.2.6GAN在藥物活性預(yù)測中的應(yīng)用

        GAN中的生成器和判別器不斷進行博弈和多次迭代逐步提升生成器生成數(shù)據(jù)的質(zhì)量,直至判別器無法區(qū)分真實數(shù)據(jù)和假數(shù)據(jù),從而可以生成大量可靠的訓(xùn)練樣本。

        Cao等[100]提出了MolGAN模型,一個隱式的無似然的小分子圖生成模型,它避開了基于似然的復(fù)雜計算圖匹配過程和節(jié)點排序啟發(fā)式的需要。該模型的工作流程如下:a.生成器根據(jù)先驗分布生成鄰接張量A和注釋矩陣X;b.對A和X進行采樣稀疏化,然后合并成注釋分子圖;c.基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)的鑒別器和獎勵網(wǎng)絡(luò)對分子圖進行處理,同時不會改變圖中節(jié)點的排列順序。

        實驗結(jié)果表明,強化學(xué)習(xí)的加入使得生成的分子結(jié)構(gòu)有效性由87.7%提升至99.8%,分子的新穎性和溶解度也隨著強化學(xué)習(xí)模塊所占比重的增加而提高。在QM9數(shù)據(jù)集上,MolGAN相較于不同的VAE模型和ORGAN(objective-reinforced GAN)取得了較好的預(yù)測結(jié)果,同時運算速度比ORGAN模型快近5倍。MolGAN主要優(yōu)勢為將GAN和強化學(xué)習(xí)結(jié)合,同時直接針對分子圖進行訓(xùn)練而不是生成的序列化數(shù)據(jù)。但是該模型存在模式崩潰的可能,同時生成的分子多樣性相較于另外兩類模型較差。提出者認為將來可以通過改進獎勵函數(shù)的設(shè)計或者引入其他的預(yù)訓(xùn)練模型來避免此類問題。

        陳浩宇[101]將GAN模型結(jié)合其他生成器目標(biāo)并進行優(yōu)化,同時引入進化算法思想,對生成器的目標(biāo)函數(shù)進行改造,獲得穩(wěn)定且生成化合物質(zhì)量更高的模型MDEGAN。最終獲得的生成器目標(biāo)為:

        其中Q(a,s)表示給定前代生成s進行的生成動作a。進化算法的適應(yīng)度函數(shù)為:

        式中F1、F2、F3分別表示溶解性、可合成性以及類藥性的環(huán)境適應(yīng)度函數(shù),γ≥0,用來平衡3個指標(biāo)。生成器目標(biāo)優(yōu)化通過加強約束提高藥物生成質(zhì)量,而進化算法則增加藥物多樣。實驗結(jié)果表明,同其他傳統(tǒng)的GAN模型相比較,MDEGAN可以生成更具多樣性和藥物特性且質(zhì)量更高的化合物序列。

        4.2.7其他改進深度學(xué)習(xí)模型在藥物活性預(yù)測中的應(yīng)用

        耦合強化學(xué)習(xí)、GNNs、注意力機制等的深度學(xué)習(xí)模型近幾年發(fā)展較快,也被應(yīng)用于藥物活性預(yù)測。

        Zheng等[102]通過LSTM模型提取了基因數(shù)據(jù)和藥物數(shù)據(jù)之間潛在的語義信息;然后構(gòu)造CNN模型,以LSTM的輸出作為CNN模型的輸入,實現(xiàn)基因組數(shù)據(jù)的提取;最后使用全連接網(wǎng)絡(luò)進行預(yù)測,該模型取得了較好的性能。Lee等[103]提出了一種基于CNN和DNN的模型——DeepConv-DTI,在原始蛋白質(zhì)序列上使用CNN以捕獲廣義蛋白質(zhì)類別的局部殘基模式,從而取得更好的預(yù)測結(jié)果。Guimaraes等[104]將GAN與強化學(xué)習(xí)結(jié)合,并引入獎勵機制。該模型在生成編碼為文本序列(SMILES)分子的同時能夠有效地將生成過程偏向期望的指標(biāo)。

        Xiong等[12]為藥物分子表示引入了一種新的GNNs架構(gòu)Attentive FP,該方法使用圖注意力機制從開源的藥物數(shù)據(jù)集中學(xué)習(xí)分子內(nèi)部的相互作用。相較于基于圖模型的分子表示方法,Attention FP模塊在評估鄰接原子的影響時更加有效。結(jié)構(gòu)上,Attention FP模型內(nèi)部包括目標(biāo)原子在某一時刻的狀態(tài)向量和注意內(nèi)容向量,聯(lián)結(jié)節(jié)點的權(quán)重越高,對應(yīng)分子圖上的虛線顏色越深。其對應(yīng)的聯(lián)結(jié)、權(quán)重、語境輸出公式如下所示:

        其中,[h v,h u]是目標(biāo)節(jié)點和鄰居節(jié)點的聯(lián)合狀態(tài)向量,C v為節(jié)點的文本向量,W為網(wǎng)絡(luò)訓(xùn)練得到的權(quán)重。

        在PDBbind和QM9數(shù)據(jù)集上,Attentive FP在溶解度、瘧疾生物活性和光伏效率上取得了比Neural FP、Weave和MPNN更好的預(yù)測效果。趙其昌[105]提出一種端到端的基于圖注意卷積和交叉注意力機制的藥物靶標(biāo)相互作用預(yù)測模型,以及一種端到端的基于CNN和協(xié)同注意力機制的藥物蛋白質(zhì)親和力值回歸模型。以上兩種模型均是通過CNN模塊提取特征矩陣,使用注意力機制強化語義信息在模型中的重要程度。路瑩瑩[88]在DrugBank數(shù)據(jù)集上采用高速路神經(jīng)網(wǎng)絡(luò)(highway network,HN)對藥物靶標(biāo)相互作用進行預(yù)測。通過增加門限機制,將輸入網(wǎng)絡(luò)模型的部分通路數(shù)據(jù)進行非線性轉(zhuǎn)換,該機制能夠有效緩解梯度爆炸和梯度消失問題。模型準(zhǔn)確率和AUC分別達到0.88和0.94。

        4.3 深度學(xué)習(xí)應(yīng)用于藥物活性預(yù)測小結(jié)

        近年來,深度學(xué)習(xí)模型被逐步應(yīng)用于藥物活性預(yù)測中。其中DNN模型應(yīng)用最為廣泛,成熟度高,效果也比較好,擁有廣闊的應(yīng)用前景;CNN由于其具有卷積和池化功能,常用于解決類似于圖像識別及分類的問題,例如基于藥物分子結(jié)構(gòu)的二維圖像進行分子類別判斷;AE具有較好的高維數(shù)據(jù)處理能力,可有效解決繁雜藥物分子和靶標(biāo)蛋白的特征表示;RNN模型具有連接的循環(huán)單元,故適用于處理如自然語言處理、蛋白質(zhì)氨基酸序列推斷等具有時間序列類數(shù)據(jù)的問題,常應(yīng)用于氨基酸序列的預(yù)測和推斷,常用的RNN模型為LSTM和BRNN;DBN采用二進制變量對數(shù)據(jù)概率分布進行估計,進而建立數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布,該類模型在藥物活性預(yù)測中應(yīng)用較少,但是在部分3D分子描述符數(shù)據(jù)集上訓(xùn)練效果優(yōu)于AE;GAN模型能夠生成新的數(shù)據(jù),在訓(xùn)練數(shù)據(jù)樣本較少的情況下可以通過增加樣本數(shù)量來提高模型的預(yù)測精度。

        深度學(xué)習(xí)模型中較為常用且效果較好的模型為DNN、CNN、RNN和AE。很多學(xué)者通過對不同模型進行結(jié)合使用,取得了較好的實驗結(jié)果。目前更多的研究人員傾向于將遷移學(xué)習(xí)、強化學(xué)習(xí)、注意力機制等引入深度學(xué)習(xí)模型,以此來縮短訓(xùn)練時間、提高模型精度,避免無關(guān)因素的干擾。大量的實驗結(jié)果表明,遷移學(xué)習(xí)、注意力機制等技術(shù)的引入很大程度上提高了藥物分子的預(yù)測精準(zhǔn)度以及藥物分子生成的有效性。

        5 總 結(jié)

        隨著生物、醫(yī)學(xué)技術(shù)的不斷發(fā)展,藥物分子活性數(shù)據(jù)以及醫(yī)學(xué)臨床數(shù)據(jù)不斷擴增,藥物研發(fā)的重點逐漸向海量生化大數(shù)據(jù)挖掘的方向發(fā)展。以基于配體的預(yù)測方法為例,近幾年結(jié)合傳統(tǒng)機器學(xué)習(xí)、矩陣分解和深度學(xué)習(xí)等的方法逐漸受到業(yè)界的廣泛關(guān)注并被寄予厚望。隨著生物醫(yī)藥生產(chǎn)及臨產(chǎn)相關(guān)各類數(shù)據(jù)的多樣化和計算機計算能力的逐步增強,生物活性預(yù)測方法逐步引入深度學(xué)習(xí)模型、GNNs模型等最新算法模型,其在藥物研發(fā)領(lǐng)域發(fā)展迅速并大幅縮短了藥物研發(fā)時間,降低了藥物研發(fā)成本。

        藥物活性預(yù)測和藥物設(shè)計由純生化實驗到機器學(xué)習(xí)算法助力再到深度學(xué)習(xí)算法應(yīng)用的過程中,藥物分子活性預(yù)測的效率不斷提升。由上述內(nèi)容可以得知,與有監(jiān)督或者半監(jiān)督的機器學(xué)習(xí)方法(SVM、RF等)相比,無監(jiān)督的深度學(xué)習(xí)(FCDNN、CNN、RNN、SAE等)能夠更加全面的對藥物分子結(jié)構(gòu)進行學(xué)習(xí)并且給出更加準(zhǔn)確的預(yù)測結(jié)果。但深度學(xué)習(xí)模型有時會出現(xiàn)過擬合現(xiàn)象,即在訓(xùn)練集預(yù)測精度很高,在測試集上預(yù)測精度比較低,或者在部分數(shù)據(jù)集上預(yù)測精度較高,在其他數(shù)據(jù)集上預(yù)測精度較低,亦或是出現(xiàn)網(wǎng)絡(luò)梯度爆炸或梯度消失的問題,導(dǎo)致模型無法對數(shù)據(jù)樣本進行有效學(xué)習(xí)和進一步應(yīng)用。數(shù)據(jù)預(yù)處理、算法創(chuàng)新及模型結(jié)構(gòu)的改進優(yōu)化將會成為未來計算機輔助藥物活性預(yù)測的主要任務(wù)。

        6 展 望

        目前,深度學(xué)習(xí)模型在藥物分子活性預(yù)測及相關(guān)方向取得了較好的進展,其中DNN、AE以及RNN模型在該領(lǐng)域應(yīng)用的較為廣泛。有研究者也嘗試利用其他最新的算法模型應(yīng)用于藥物活性預(yù)測。未來有望開展的研究有如下幾個方面:

        a.強化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合應(yīng)用于藥物活性預(yù)測。強化學(xué)習(xí)的原理是對人或動物學(xué)習(xí)過程的模仿,通過設(shè)計有行為、感知、獎勵的循環(huán)流程來強化正確行為,懲罰錯誤行為。強化學(xué)習(xí)與傳統(tǒng)有監(jiān)督機器學(xué)習(xí)模型的擬合方法有很大不同。模型訓(xùn)練過程中每一個新反饋都被立即傳遞,完成一次參數(shù)迭代,故而擁有較快的學(xué)習(xí)速度。強化學(xué)習(xí)相較于傳統(tǒng)模型提供了更快的學(xué)習(xí)機制,并且魯棒性較強。當(dāng)前,在圖像目標(biāo)檢測和自然語言處理領(lǐng)域,結(jié)合強化學(xué)習(xí)的深度學(xué)習(xí)模型取得了優(yōu)異的成果。進一步探索其在藥物活性預(yù)測領(lǐng)域的應(yīng)用,或許有意想不到的收獲。

        b.多模型聯(lián)用集成應(yīng)用于藥物活性預(yù)測。集成學(xué)習(xí)是機器學(xué)習(xí)中一類學(xué)習(xí)算法,其主要通過對多個學(xué)習(xí)器進行訓(xùn)練和組合實現(xiàn)比單個學(xué)習(xí)器更好的預(yù)測結(jié)果。傳統(tǒng)的機器學(xué)習(xí)模型以及各類深度學(xué)習(xí)模型在解決某類問題時有各自的優(yōu)勢,對于一個復(fù)雜的問題來說,單獨使用其中一種模型無法達到理想的預(yù)期結(jié)果。但是集合多個不同類的預(yù)測模型進行集成學(xué)習(xí)往往會取得更好的結(jié)果。在現(xiàn)有的探索基礎(chǔ)上,借助模型集成思路解決藥物活性預(yù)測領(lǐng)域的相關(guān)難題也是一個可選的研究方向。

        c.從生物醫(yī)藥工程的角度提出新的模型或模式。在解決或助力于解決行業(yè)問題時,算法或技術(shù)只是充當(dāng)工具的作用,算法工具是否可以發(fā)揮大的威力很大程度上決定于使用者對具體行業(yè)的專業(yè)認知,以及進一步對問題的準(zhǔn)確建模。所以,藥物活性預(yù)測的發(fā)展依然離不開醫(yī)藥行業(yè)的專業(yè)認知。故應(yīng)該從生物醫(yī)藥工程角度對藥物設(shè)計的各個環(huán)節(jié)不斷地提出新的問題,進一步構(gòu)建有效的模型來解決問題,推動藥物研發(fā)的自動化和智能化。

        d.深度學(xué)習(xí)預(yù)訓(xùn)練大模型應(yīng)用于藥物活性預(yù)測。2017年谷歌Transformer深度網(wǎng)絡(luò)結(jié)構(gòu)的提出,使得深度學(xué)習(xí)模型參數(shù)突破了1億,BERT網(wǎng)絡(luò)模型的提出,使得深度學(xué)習(xí)模型參數(shù)量進一步超過3億規(guī)模。2020年,OpenAI公司的GPT-3模型參數(shù)達到1 750億,隨后谷歌Switch Transformer的問世使得模型參數(shù)一舉突破萬億規(guī)模。截止2021年底,北京智源的悟道、阿里達摩院的M6和快手的CTR等大模型參數(shù)量均突破萬億。大模型的應(yīng)用有助于推動多個領(lǐng)域的難題突破。例如,谷歌DeepMind團隊相繼推出的AlphaFold和AlphaFold2模型被應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測,后者的蛋白質(zhì)結(jié)構(gòu)預(yù)測準(zhǔn)確性接近了真實結(jié)構(gòu)。大模型的應(yīng)用有望進一步在藥物活性預(yù)測領(lǐng)域?qū)崿F(xiàn)重大進展。

        猜你喜歡
        集上靶標(biāo)分子
        “百靈”一號超音速大機動靶標(biāo)
        分子的擴散
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        納米除草劑和靶標(biāo)生物的相互作用
        “精日”分子到底是什么?
        新民周刊(2018年8期)2018-03-02 15:45:54
        米和米中的危險分子
        復(fù)扇形指標(biāo)集上的分布混沌
        復(fù)雜場景中航天器靶標(biāo)的快速識別
        前列腺特異性膜抗原為靶標(biāo)的放射免疫治療進展
        久久国产精品婷婷激情| 成人动漫久久| 国产精品成人av电影不卡| 久久精品国产亚洲不卡| 后入丝袜美腿在线观看| 97人妻精品一区二区三区| 中字幕久久久人妻熟女 | 国产人妖伦理视频在线观看| 久久国产成人精品av| 天堂8中文在线最新版在线 | 色噜噜狠狠一区二区三区果冻 | 强行无套内谢大学生初次| 亚洲综合免费| 青青草免费在线视频导航| 三级国产精品久久久99| 国产人妻久久精品二区三区老狼| 欧美色综合高清视频在线| 亚洲国产av一区二区三| 中国黄色一区二区三区四区| 乱人妻中文字幕| 亚洲免费视频播放| 日本看片一区二区三区| 成人偷拍自拍视频在线观看| av无码精品一区二区三区宅噜噜| 天天综合久久| 开心激情网,开心五月天| 亚洲综合国产成人丁香五月激情| 国产亚洲精品久久久久婷婷瑜伽 | 樱花草在线播放免费中文| 加勒比日本东京热1区| 亚洲国产一区一区毛片a | 一本一道波多野结衣av中文 | 青青草中文字幕在线播放| 啦啦啦www在线观看免费视频| 无码不卡高清毛片免费| 大屁股流白浆一区二区| 亚洲av成人一区二区三区本码| 老师脱了内裤让我进去| 成人无码网www在线观看| 曰日本一级二级三级人人| 芒果乱码国色天香|