劉利梅 陳曉晉 孫世偉 王 宇 王 輝 梅樹(shù)立** 王耀君**
(1)中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083;2)中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京 100190)
藥物研發(fā)是一項(xiàng)周期長(zhǎng)、風(fēng)險(xiǎn)高、投資大的產(chǎn)業(yè)。分子類藥物研發(fā)過(guò)程一般分為5個(gè)階段:藥物新化合物制備、藥物臨床前研究、藥物臨床實(shí)驗(yàn)、藥品申報(bào)審批和新藥監(jiān)測(cè)。藥物新化合物制備過(guò)程主要涉及到藥物化學(xué)的應(yīng)用。藥物化學(xué)是一門結(jié)合了高分子化學(xué)和生命科學(xué)的綜合性學(xué)科,該領(lǐng)域的研究可以分為3類,分別是藥物分子的探求、藥物分子的修飾和藥物分子的結(jié)構(gòu)調(diào)整。其中藥物分子的探求耗時(shí)最長(zhǎng),風(fēng)險(xiǎn)也最大,需要消耗更多的人力和物力。在藥物分子探求過(guò)程中,藥物活性預(yù)測(cè)能夠協(xié)助篩選出具有活性的化合物,從而作為藥物的先導(dǎo)物參與后續(xù)藥物研發(fā)進(jìn)程,提高藥物研發(fā)的成功率和效率。
藥物活性是指分子藥物的生物活性,是確認(rèn)化合物能否作為藥物先導(dǎo)物的主要指標(biāo)。藥物活性預(yù)測(cè)是指分析候選藥物分子與生物體中靶標(biāo)蛋白的結(jié)合效果,即針對(duì)某種疾病的潛在療效。在藥物篩選的過(guò)程中通常根據(jù)預(yù)測(cè)結(jié)果對(duì)候選分子的活性進(jìn)行打分和排名,選擇療效最優(yōu)的藥物分子作為藥物的先導(dǎo)物。隨著藥物研發(fā)技術(shù)的逐步發(fā)展,尤其是在近期新型冠狀病毒疫情蔓延時(shí)期,藥物合成和研發(fā)愈發(fā)受到重視。通過(guò)借助生物化學(xué)技術(shù)的快速發(fā)展以及與新型科技的結(jié)合,目前每天都會(huì)有成千上萬(wàn)種新型化合物分子被人工合成,其中包含不少用于治療各類疾病的藥物分子。藥物分子發(fā)現(xiàn)和分子合成是當(dāng)前新藥研發(fā)的重要途徑,及時(shí)準(zhǔn)確的藥物活性預(yù)測(cè)會(huì)大大加快新藥研發(fā)的進(jìn)程。
以機(jī)器學(xué)習(xí)為代表的人工智能算法可以輔助解決藥物研發(fā)中藥物活性預(yù)測(cè)耗時(shí)較長(zhǎng)、準(zhǔn)確度低、效率低下等問(wèn)題。在藥物研發(fā)中,機(jī)器學(xué)習(xí)算法主要應(yīng)用于藥物分子設(shè)計(jì)、藥物分子與靶標(biāo)蛋白的相互作用分析、藥物的吸收分析、藥物代謝分析、藥物毒性分析等方面。機(jī)器學(xué)習(xí)能夠通過(guò)對(duì)某一類問(wèn)題的數(shù)據(jù)特征進(jìn)行學(xué)習(xí),進(jìn)而對(duì)某一事物或者問(wèn)題進(jìn)行分類或者回歸預(yù)測(cè)。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域的一個(gè)熱門研究分支,是人工神經(jīng)網(wǎng)絡(luò)的進(jìn)一步拓展。傳統(tǒng)機(jī)器學(xué)習(xí)方法的應(yīng)用使藥物活性預(yù)測(cè)效率和準(zhǔn)確度有所提升,但仍然難以滿足當(dāng)前精準(zhǔn)醫(yī)療和精準(zhǔn)醫(yī)藥的需求。以深度學(xué)習(xí)為代表的神經(jīng)網(wǎng)絡(luò)模型通過(guò)借鑒人腦的多分層結(jié)構(gòu)、神經(jīng)元信息交互的逐層分析處理機(jī)制,能夠自適應(yīng)、自學(xué)習(xí)地對(duì)信息進(jìn)行并行處理,在生物醫(yī)藥的較多領(lǐng)域取得了突破性進(jìn)展。目前,不同的深度學(xué)習(xí)網(wǎng)絡(luò)模型在藥物活性預(yù)測(cè)方面取得了較好的成果。深度學(xué)習(xí)領(lǐng)域新方法新模型的層出不窮大大提高了藥物活性預(yù)測(cè)能力并推動(dòng)了藥物研發(fā)領(lǐng)域的不斷發(fā)展。
本文對(duì)近年來(lái)藥物活性預(yù)測(cè)方面的研究和應(yīng)用進(jìn)行了綜述和分析,重點(diǎn)分析了深度學(xué)習(xí)在藥物活性預(yù)測(cè)方面的研究。文章整體結(jié)構(gòu)按照數(shù)據(jù)、算法、應(yīng)用、總結(jié)的方式進(jìn)行構(gòu)建,具體的應(yīng)用實(shí)例按照數(shù)據(jù)、方法、結(jié)果的順序進(jìn)行分析。藥物活性預(yù)測(cè)的分類及方法流程如圖1所示,方法主要分為兩大類,以實(shí)驗(yàn)為主的方法和以計(jì)算為主的方法,以計(jì)算為主的方法又分為統(tǒng)計(jì)分析、傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三類。在藥物活性預(yù)測(cè)環(huán)節(jié),無(wú)論采用什么方法,其總體目標(biāo)都為得到藥物活性最高的先導(dǎo)化合物。圖2為藥物活性預(yù)測(cè)的方法和資源輪廓圖,匯總了本文所涉及的數(shù)據(jù)庫(kù)以及藥物活性預(yù)測(cè)的傳統(tǒng)方法、機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法及其對(duì)應(yīng)的文獻(xiàn)信息。
文章接下來(lái)的內(nèi)容分為以下幾個(gè)部分:第1部分“數(shù)據(jù)庫(kù)及數(shù)據(jù)類型”,總結(jié)分析了當(dāng)前應(yīng)用于藥物研發(fā)的重要數(shù)據(jù)庫(kù);第2部分“傳統(tǒng)藥物活性預(yù)測(cè)方法”,總結(jié)分析了藥物活性預(yù)測(cè)的傳統(tǒng)方法,這里的“傳統(tǒng)”指的是方法中涉及到計(jì)算的環(huán)節(jié)未采用機(jī)器學(xué)習(xí)類算法;第3部分“傳統(tǒng)機(jī)器學(xué)習(xí)應(yīng)用于藥物活性預(yù)測(cè)”,從算法原理到實(shí)際應(yīng)用分析總結(jié)了傳統(tǒng)機(jī)器學(xué)習(xí)算法在藥物活性預(yù)測(cè)中的應(yīng)用,這里的“傳統(tǒng)”指的是在方法中未采用當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域中熱門的深度學(xué)習(xí)類算法;第4部分“深度學(xué)習(xí)應(yīng)用于藥物活性預(yù)測(cè)”,從算法原理到實(shí)際應(yīng)用分析總結(jié)了深度學(xué)習(xí)算法在藥物活性預(yù)測(cè)中的應(yīng)用;第5部分“總結(jié)”,對(duì)文章前面幾個(gè)部分的內(nèi)容做了總結(jié);第6部分“展望”,提出了藥物活性預(yù)測(cè)領(lǐng)域的下一步可能的發(fā)展路徑,同時(shí)提出供本領(lǐng)域的研究者或即將開(kāi)展本領(lǐng)域研究的相關(guān)研究者參考的研究方向。
Fig.1 Flow chart of drug activity prediction圖1 藥物活性預(yù)測(cè)流程圖
Fig.2 Summary of drug activity prediction databases and methods圖2 藥物活性預(yù)測(cè)數(shù)據(jù)庫(kù)及方法匯總
從計(jì)算的角度進(jìn)行藥物活性預(yù)測(cè),本質(zhì)是對(duì)藥物活性預(yù)測(cè)問(wèn)題的計(jì)算機(jī)建模。而建模的基礎(chǔ)是支撐模型構(gòu)建和運(yùn)行的基礎(chǔ)數(shù)據(jù)。同時(shí),模型的有效性和準(zhǔn)確性很大程度上取決于數(shù)據(jù)的數(shù)量和質(zhì)量,所以藥物研發(fā)相關(guān)的數(shù)據(jù)集及數(shù)據(jù)庫(kù)的獲取是藥物活性預(yù)測(cè)建模的基石。本部分內(nèi)容首先介紹了藥物活性預(yù)測(cè)相關(guān)的主要數(shù)據(jù)庫(kù)資源;接著分析其主要數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)類型;最后重點(diǎn)分析幾種常用的藥物靶標(biāo)特征表示方法。
當(dāng)前應(yīng)用于藥物活性預(yù)測(cè)的相關(guān)數(shù)據(jù)庫(kù)資源主要 有:DrugBank[1]、ZINC[2]、ChEMBL[3]、PubChem[4]、KEGG BRITE[5]、PDBbind[6]、STITCH[7]、BindingDB[8]和PharmMapper數(shù) 據(jù)庫(kù)[9]等。
DrugBank是一個(gè)服務(wù)于藥物研發(fā),包含有生物信息學(xué)和化學(xué)信息學(xué)數(shù)據(jù)的數(shù)據(jù)庫(kù),由加拿大Alberta大學(xué)的研究人員創(chuàng)立和維護(hù);該數(shù)據(jù)庫(kù)提供超過(guò)50 000種藥物及其衍生物的化學(xué)結(jié)構(gòu)、藥理、藥物作用以及靶標(biāo)蛋白等較為全面的數(shù)據(jù)。ZINC[2]是由加州大學(xué)的Irwin和Shoichet在2005年創(chuàng)建的用于虛擬篩選市售化合物的數(shù)據(jù)庫(kù)。截至2021年10月,數(shù)據(jù)庫(kù)收錄了7.5億條包含有注釋信息的小分子化合物數(shù)據(jù),注釋信息包含分子質(zhì)量、LogP模型值,以及可應(yīng)用于分子對(duì)接的結(jié)構(gòu)數(shù)據(jù)。ChEMBL數(shù)據(jù)庫(kù)由歐洲生物信息研究所開(kāi)發(fā),是一個(gè)能夠大規(guī)模提供化合物生物活性及靶標(biāo)蛋白數(shù)據(jù)的數(shù)據(jù)庫(kù)。截至2021年7月,該數(shù)據(jù)庫(kù)收錄了14 554種靶標(biāo)蛋白、2 105 460種化合物、18 635 916種活性化合物相關(guān)信息以及81 544份公開(kāi)發(fā)表文章,并提供易用的生物活性數(shù)據(jù)的查詢工具。
PubChem數(shù)據(jù)庫(kù)是世界上最大的開(kāi)源化合物數(shù)據(jù)庫(kù)。截至2021年10月,該數(shù)據(jù)庫(kù)收錄了110 040 027條不同化合物的分子結(jié)構(gòu)、生物檢測(cè)、生物活性數(shù)據(jù)、基因序列、靶標(biāo)蛋白、關(guān)聯(lián)文獻(xiàn)、關(guān)聯(lián)專利等信息,同時(shí)還收錄了獨(dú)立實(shí)驗(yàn)室上傳的生化實(shí)驗(yàn)數(shù)據(jù)及化合物數(shù)據(jù)等,目前該數(shù)據(jù)庫(kù)數(shù)據(jù)依然保持持續(xù)更新。KEGG BRITE數(shù)據(jù)庫(kù)包含基因序列、蛋白質(zhì)、化合物反應(yīng)、藥物、器官和細(xì)胞等各種不同層次生物對(duì)象的數(shù)據(jù),數(shù)據(jù)以BRITE結(jié)構(gòu)層次文件表示。PDBbind數(shù)據(jù)庫(kù)創(chuàng)建的目的是完整收錄PDB數(shù)據(jù)庫(kù)中通過(guò)實(shí)驗(yàn)測(cè)定的親合力數(shù)據(jù),數(shù)據(jù)庫(kù)提供了生物分子復(fù)合物的親和力及分子結(jié)構(gòu)信息。數(shù)據(jù)庫(kù)自2004年創(chuàng)建以來(lái),保持每年更新一次,截至2021年10月,該數(shù)據(jù)庫(kù)收錄了23 496個(gè)生物分子復(fù)合物的數(shù)據(jù)。STITCH數(shù)據(jù)庫(kù)和BindingDB數(shù)據(jù)庫(kù)都錄入了各類小分子化合物與不同靶標(biāo)蛋白之間的相互作用關(guān)系數(shù)據(jù)。PharmMapper是由劉曉峰等[9]開(kāi)發(fā)的用于藥效團(tuán)匹配與識(shí)別潛在靶標(biāo)信息的數(shù)據(jù)庫(kù)平臺(tái),該平臺(tái)以活性小分子為探針?biāo)褜撛谒幬锇悬c(diǎn),進(jìn)而對(duì)小分子藥物活性進(jìn)行預(yù)測(cè)。平臺(tái)中內(nèi)嵌的統(tǒng)計(jì)方法可以自動(dòng)查找與分子構(gòu)象最為匹配的藥效團(tuán)并根據(jù)匹配度打分進(jìn)行排序。
通常,在藥物研發(fā)的藥物分子設(shè)計(jì)中,藥物靶標(biāo)信息需要使用多個(gè)數(shù)據(jù)庫(kù)的聯(lián)合查詢和匯總。例如,在藥物研發(fā)中,對(duì)DrugBank的XML文件進(jìn)行解析可以獲得相關(guān)藥物信息之外的ChEMBL ID、PubChem Compound ID等,通過(guò)這些ID可以將不同的數(shù)據(jù)庫(kù)聯(lián)合起來(lái)分析靶標(biāo)蛋白、小分子藥物相似度關(guān)系以及進(jìn)行藥物毒副作用關(guān)聯(lián)。
藥物研發(fā)相關(guān)數(shù)據(jù)庫(kù)支持對(duì)藥物分子化學(xué)結(jié)構(gòu)、藥理、藥物作用以及靶標(biāo)蛋白等數(shù)據(jù)的下載。但是,不同的數(shù)據(jù)庫(kù)導(dǎo)出信息往往包含有不同類別的信息表示方式及文件存儲(chǔ)格式,存在數(shù)據(jù)多源、結(jié)構(gòu)多元等特點(diǎn)。在具體數(shù)據(jù)分析及建模環(huán)節(jié)需要根據(jù)文件格式編寫(xiě)相應(yīng)的數(shù)據(jù)讀取及格式轉(zhuǎn)換接口程序。本研究對(duì)藥物設(shè)計(jì)領(lǐng)域最常用6個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)和文件格式進(jìn)行了詳細(xì)分析,分別是:DrugBank、ZINC、ChEMBL、PubChem、KEGG BRITE和PDBbind,下面分別進(jìn)行分析。
a.DrugBank支持下載數(shù)據(jù)庫(kù)匯總的所有藥物信息,不同的信息類別對(duì)應(yīng)不同的數(shù)據(jù)結(jié)構(gòu)及文件格式。其中,藥物的完整數(shù)據(jù)對(duì)應(yīng)的是XML文件,結(jié)構(gòu)體信息是SDF文件、外部鏈接的數(shù)據(jù)和蛋白質(zhì)標(biāo)識(shí)符信息是CSV文件、目標(biāo)蛋白質(zhì)序列信息是FASTA文件。SDF文件中的第一行字符一般為分子名字,第二行是對(duì)分子的注釋說(shuō)明,第三行是空行,從第四行開(kāi)始記錄結(jié)構(gòu)的原子數(shù)、化學(xué)鍵的個(gè)數(shù)等信息,直到出現(xiàn)“MEND”標(biāo)識(shí)符,表明原子和化學(xué)鍵信息記錄的結(jié)束,后面數(shù)據(jù)會(huì)保存多行關(guān)于分子屬性的信息,以4個(gè)美元符號(hào)作為SDF文件結(jié)尾標(biāo)識(shí)符。
b.ZINC數(shù)據(jù)庫(kù)支持下載SMI、2D、3D和簡(jiǎn)化的分子輸入行輸入系統(tǒng)(simplified molecule input line entry system,SMILES)格式的文件。
c.ChEMBL支持下載采用SMILES化學(xué)結(jié)構(gòu)表示法的分子結(jié)構(gòu)SMI文件和包含Canonical SMILES表示法及InChl表示法的txt文件。
d.PubChem對(duì)于藥物化合物的數(shù)據(jù)及藥物關(guān)聯(lián)信息數(shù)據(jù),有CSV、JSON、XML 3種可選數(shù)據(jù)導(dǎo)出文件格式。對(duì)于藥物分子結(jié)構(gòu)信息有SDF、JSON、XML、ASNT、PNG 5種可選數(shù)據(jù)導(dǎo)出文件格式。
e.KEGG BRITE數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)為keg格式的文本文件。文件分別以A、B、C、D為行開(kāi)頭的標(biāo)識(shí)符來(lái)標(biāo)記不同類別的信息;C開(kāi)頭數(shù)據(jù)行記錄KEGG的藥物pathway的ID,其藥物pathway通常包含代謝、通路、調(diào)控、生化等相關(guān)的分子相互作用信息;D開(kāi)頭的數(shù)據(jù)記錄相關(guān)聯(lián)的基因組信息;A、B是KEGG數(shù)據(jù)分類標(biāo)準(zhǔn)的分類信息。
f.PDBbind支持下載用于藥物分子建模的蛋白質(zhì)-配體解離動(dòng)力學(xué)參數(shù)數(shù)據(jù)集。數(shù)據(jù)集采用PDB格式保存蛋白質(zhì)數(shù)據(jù),以Mol2和SDF格式保存配體數(shù)據(jù)。
通過(guò)對(duì)現(xiàn)有藥物研發(fā)相關(guān)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)文件格式分析,可得出如下結(jié)論:SDF文件常用來(lái)保存化學(xué)分子結(jié)構(gòu);FASTA文件常用來(lái)存儲(chǔ)蛋白質(zhì)氨基酸序列信息;SMILES和InChl是常用的化學(xué)結(jié)構(gòu)線性表示方式;JSON和XML格式的文件是生物信息領(lǐng)域最受青睞的數(shù)據(jù)組織格式,易于計(jì)算機(jī)程序分析和數(shù)據(jù)解析。
藥物活性預(yù)測(cè)的目標(biāo)是篩選與藥物靶標(biāo)蛋白結(jié)合效果最優(yōu)的先導(dǎo)化合物分子。藥物靶標(biāo)是指生物體內(nèi)具有藥效功能并能被藥物作用的生物大分子,即可藥化大分子,例如,可藥化的蛋白質(zhì)、核酸等。靶標(biāo)蛋白也稱作可藥物化蛋白質(zhì),是指可以調(diào)節(jié)與藥物相互作用并且利用它們之間的相互作用產(chǎn)生治療效果的蛋白質(zhì)。
在藥物研發(fā)過(guò)程中,需要對(duì)藥物分子和靶標(biāo)蛋白之間的關(guān)系進(jìn)行數(shù)量化特征表示,用于進(jìn)一步建模。常用的分子特征表示有:分子描述符、相似度矩陣和神經(jīng)網(wǎng)絡(luò)指紋[10],下面分別對(duì)其特點(diǎn)進(jìn)行分析。
分子描述符(molecular descriptors)[11-12]方法分為定量描述符和定性描述符。該方法的原理是將分子結(jié)構(gòu)內(nèi)編碼的化學(xué)信息轉(zhuǎn)換為數(shù)值矩陣。分子描述符包括:分子結(jié)構(gòu)、理化性質(zhì)、分子圖論、分子光譜數(shù)據(jù)、分子場(chǎng)以及分子形狀的描述符信息;定性描述符又稱分子指紋,可以用某種數(shù)據(jù)編碼來(lái)表示分子的結(jié)構(gòu)、片段、性質(zhì)或子結(jié)構(gòu),常用的分子指紋包括:MACCS Keys[13]、ECFPs(extendedconnectivity fingerprints)[14]、Public Keys[15]、Daylight Fingerprint[16]等。根據(jù)描述符計(jì)算所需的信息維數(shù),分子描述符可分為1D、2D和3D描述符。其中1D描述符表示分子的化學(xué)成分;2D描述符增加了原子之間的連接信息;3D描述符進(jìn)一步增加了描述藥物分子的3D坐標(biāo)和絕對(duì)參考系。
藥物的分子描述符除了用于藥物活性預(yù)測(cè),還可以結(jié)合不同的機(jī)器學(xué)習(xí)分類器對(duì)未知結(jié)構(gòu)的蛋白質(zhì)進(jìn)行熱點(diǎn)殘基預(yù)測(cè)[17]。分子描述符方法相關(guān)的軟 件 及 軟 件 包 有:Rcpi[18]、PROFEAT[19]、iFeature[20]、Padel-Descriptor[21]、DRAGON[22]、CDK[23]、CODESSAPro[24]和MOE[25]等。
相似度矩陣表示法一般采用分子描述符和蛋白質(zhì)序列比對(duì)匹配度評(píng)分來(lái)分別計(jì)算分子藥物相似性和靶標(biāo)蛋白相似性,然后以數(shù)值矩陣的形式存放其相似值。該方法目前常用于核回歸[26]、二分局部法[27]和矩陣分解等模型。相似度矩陣表示方法簡(jiǎn)單易用,但是丟失了化合物的結(jié)構(gòu)信息,無(wú)法處理未知的藥物和蛋白質(zhì)數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)指紋的思想由Merkwirth等[10]提出。神經(jīng)網(wǎng)絡(luò)指紋表示法采用了類似于詞向量模型Word2vec[28]的思想,借助深度神經(jīng)網(wǎng)絡(luò)模型將化合物分子離散的化學(xué)結(jié)構(gòu)映射到連續(xù)的向量空間中,進(jìn)而使用連續(xù)優(yōu)化方法對(duì)模型進(jìn)行優(yōu)化。神經(jīng)網(wǎng)絡(luò)指紋不需要任何預(yù)定義的分子描述符,其在網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程中能夠自動(dòng)生成特征向量。另外,神經(jīng)網(wǎng)絡(luò)能夠自適應(yīng)地針對(duì)不同任務(wù)不同數(shù)據(jù)集學(xué)習(xí)到不同的指紋特征,所以能夠獲得更高的預(yù)測(cè)精度。與傳統(tǒng)的表示方法相比,神經(jīng)網(wǎng)絡(luò)可以根據(jù)隱層的節(jié)點(diǎn)數(shù)確定分子特征向量的長(zhǎng)度[10]。
藥物活性預(yù)測(cè)之所以是藥物研發(fā)的必要環(huán)節(jié),是因?yàn)樗幬镞M(jìn)行疾病治療的過(guò)程,通常也是藥物分子與對(duì)應(yīng)的靶標(biāo)大分子相結(jié)合的過(guò)程。通過(guò)改變靶標(biāo)分子的生理活性進(jìn)而實(shí)現(xiàn)對(duì)疾病的治療。藥物和靶標(biāo)之間相互作用關(guān)系的準(zhǔn)確識(shí)別是推動(dòng)藥物研發(fā)效率提升的基礎(chǔ)。早期的“一藥一靶一病”理論沒(méi)有考慮藥物和靶標(biāo)蛋白之間復(fù)雜的相互作用關(guān)系。當(dāng)前的“多靶標(biāo)-多蛋白”模型和藥物重定位理論由英國(guó)Dundee大學(xué)藥理學(xué)家Hopkins[29]于2007年提出,揭示了藥物和靶標(biāo)蛋白質(zhì)復(fù)雜的相互作用,即某種藥物的靶標(biāo)蛋白可能會(huì)和其他藥物進(jìn)行結(jié)合,某一特定藥物也可能會(huì)和其他蛋白質(zhì)進(jìn)行結(jié)合,造成脫靶效應(yīng)[30]。
目前,藥物靶標(biāo)蛋白相互作用研究主要分為實(shí)驗(yàn)類的方法和基于計(jì)算類的方法。實(shí)驗(yàn)類方法主要有核磁共振波譜法(nuclear magnetic resonance,NMR)[31]、微量熱法(microcalorimetry)[32]、表面等離子體共振法(surface plasmon resonance,SPR)[33]和高通量篩選(high throughput screening,HTS)[34]等。這些方法成本高、耗時(shí)長(zhǎng)、應(yīng)用范圍小,故基于計(jì)算的藥物靶標(biāo)預(yù)測(cè)方法越來(lái)越受到藥物研究人員的青睞和重視。傳統(tǒng)的基于計(jì)算的預(yù)測(cè)方法主要有:基于配體的預(yù)測(cè)方法、基于結(jié)構(gòu)的預(yù)測(cè)方法以及分子動(dòng)力學(xué)預(yù)測(cè)方法(表1)。
在生物醫(yī)藥領(lǐng)域中,配體是指能夠識(shí)別藥物靶標(biāo)并與之結(jié)合的分子?;谂潴w的預(yù)測(cè)方法主要是根據(jù)藥物分子的三維結(jié)構(gòu)進(jìn)行活性預(yù)測(cè),通常使用由Hansch等[35]提出的定量構(gòu)效關(guān)系(quantitative wtructure-activity relationship,QSAR)來(lái)進(jìn)行活性預(yù)測(cè)。該方法認(rèn)為藥物分子的活性與其結(jié)構(gòu)具有直接相關(guān)性,可以通過(guò)建立相應(yīng)的數(shù)學(xué)模型對(duì)藥物分子結(jié)構(gòu)和它的某種生物活性之間的對(duì)應(yīng)關(guān)系進(jìn)行表示。QSAR在藥物化學(xué)領(lǐng)域具有較大影響力,但是該方法仍然具有一定的局限性,即如果與靶標(biāo)蛋白一致的配體數(shù)量較少,則很難找出配體之間的相似特性來(lái)進(jìn)一步預(yù)測(cè)藥物的活性。
基于結(jié)構(gòu)的預(yù)測(cè)方法主要通過(guò)對(duì)靶標(biāo)蛋白三維結(jié)構(gòu)進(jìn)行分析進(jìn)行活性預(yù)測(cè)。該類方法在分子對(duì)接(molecule docking)[36]上應(yīng)用較為廣泛。分子對(duì)接采用經(jīng)驗(yàn)評(píng)分函數(shù)來(lái)對(duì)藥物和靶標(biāo)之間的相互作用進(jìn)行評(píng)估。Wang等[37]提出了蛋白質(zhì)-配體打分方法SCORE,該方法引入了原子結(jié)合評(píng)分,采用經(jīng)驗(yàn)評(píng)分函數(shù)對(duì)結(jié)合自由能進(jìn)行表示,進(jìn)而對(duì)已知三維結(jié)構(gòu)的蛋白質(zhì)與相應(yīng)配體的結(jié)合親和力進(jìn)行計(jì)算。其他經(jīng)驗(yàn)評(píng)分方法還有基于力場(chǎng)的DOCK[38]和GOLD[39]、基 于 知 識(shí) 的DrugScore[40]和DFIRE[41],以及基于統(tǒng)計(jì)方法的X-Score[42]和VALIDATE[43]等。
分子動(dòng)力學(xué)模擬(molecular dynamics simulations)是利用計(jì)算機(jī)模擬的方法對(duì)原子的物理運(yùn)動(dòng)以及多原子體系中分子的變化進(jìn)行研究。分子動(dòng)力學(xué)模擬在藥物活性研究中能夠?qū)崿F(xiàn)受體構(gòu)象搜索和小分子最佳結(jié)合位點(diǎn)選擇。此外,可以通過(guò)結(jié)合自由能來(lái)評(píng)估藥物分子和靶標(biāo)蛋白之間的結(jié)合力的強(qiáng)弱。Miao等[44]采用加速分子動(dòng)力學(xué)結(jié)合Glide誘導(dǎo)擬合對(duì)接的方法,成功篩選出國(guó)家癌癥研究所中38種化合物中與M2毒蕈堿乙酰膽堿受體(mAChR)結(jié)合親和力≤30μm的12種化合物并成功確定正負(fù)變構(gòu)調(diào)節(jié)劑。
Table 1 Traditional drug activity prediction methods表1 傳統(tǒng)藥物活性預(yù)測(cè)方法
機(jī)器學(xué)習(xí)(machine learning,ML)是計(jì)算機(jī)通過(guò)與相關(guān)數(shù)學(xué)理論如統(tǒng)計(jì)學(xué)、概率論、逼近理論和復(fù)雜算法知識(shí)等進(jìn)行結(jié)合,通過(guò)模擬人類的學(xué)習(xí)方式對(duì)經(jīng)驗(yàn)進(jìn)行學(xué)習(xí),該種方法能夠?qū)ΜF(xiàn)有的事物進(jìn)行分類、預(yù)測(cè)或者決策。受生物實(shí)驗(yàn)方法低精度和高費(fèi)用的限制,藥物活性預(yù)測(cè)效率低下、準(zhǔn)確率低、實(shí)際應(yīng)用代價(jià)高。采用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法進(jìn)行藥物活性預(yù)測(cè)能夠在一定程度上縮短藥物篩選的時(shí)間、降低研發(fā)成本、減少新藥研制的盲目性,這對(duì)于醫(yī)藥行業(yè)的發(fā)展具有重要推動(dòng)意義。
針對(duì)不同的藥物活性相關(guān)數(shù)據(jù)資源及研究問(wèn)題,可以采用不同的機(jī)器學(xué)習(xí)模式,機(jī)器學(xué)習(xí)模式主要分為:有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。在有監(jiān)督的學(xué)習(xí)模式中,訓(xùn)練樣本全部為已知標(biāo)注特性的實(shí)例數(shù)據(jù),多用于對(duì)樣本進(jìn)行分類和回歸;在無(wú)監(jiān)督的學(xué)習(xí)模式中,訓(xùn)練樣本沒(méi)有經(jīng)過(guò)標(biāo)注,由算法根據(jù)特征進(jìn)行自動(dòng)分類和聚類,多用于樣本聚類、異常值檢測(cè)和降維;在半監(jiān)督的學(xué)習(xí)模式中,訓(xùn)練樣本中含有部分已知特性的標(biāo)注樣本和部分未知特性的樣本,該模式通過(guò)增加未知樣本來(lái)提高機(jī)器學(xué)習(xí)的自主性,當(dāng)未標(biāo)記數(shù)據(jù)闡明的實(shí)例分布與分類問(wèn)題相關(guān)時(shí),未標(biāo)記數(shù)據(jù)可以幫助提高預(yù)測(cè)精度和加快學(xué)習(xí)速度[45],半監(jiān)督學(xué)習(xí)模型多用于樣本分類和聚類。
在藥物活性預(yù)測(cè)相關(guān)研究中,具有代表性的半監(jiān)督學(xué)習(xí)模型有LapRLS[46]和NetLapRLS[47],具有代表性的無(wú)監(jiān)督學(xué)習(xí)模型有MG-BERT[48]和Mol2vec[49]。針對(duì)已知的藥物-蛋白質(zhì)相互作用的稀缺性和未知藥物和蛋白質(zhì)的相互作用有待預(yù)測(cè)的問(wèn)題,LapRLS和NetLapRLS均采用半監(jiān)督的學(xué)習(xí)方法對(duì)未知藥物和蛋白質(zhì)的相互作用進(jìn)行預(yù)測(cè)。這兩種半監(jiān)督的方法在Nuclear Receptor、GPCR、Ion channel、Enzyme 4個(gè)開(kāi)源數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,綜合利用有標(biāo)記和無(wú)標(biāo)記的數(shù)據(jù),通常比單獨(dú)使用有標(biāo)記數(shù)據(jù)能產(chǎn)生更好的結(jié)果。
MG-BERT使用了無(wú)監(jiān)督原子表達(dá)學(xué)習(xí)來(lái)進(jìn)行分子的性質(zhì)預(yù)測(cè)。模型的作者提出了分子圖BERT結(jié)構(gòu),將圖神經(jīng)網(wǎng)絡(luò)(GNNs)的局部消息傳遞機(jī)制集成到BERT模型中,以便從分子圖中進(jìn)行學(xué)習(xí)。該方法使用了一種有效的自監(jiān)督學(xué)習(xí)策略,即掩蔽原子預(yù)測(cè),對(duì)模型進(jìn)行預(yù)處理,以挖掘分子中的上下文信息。在預(yù)處理后生成上下文敏感的原子表示,并將學(xué)習(xí)到的知識(shí)用于各種分子性質(zhì)的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,在11個(gè)ADMET數(shù)據(jù)集上,經(jīng)過(guò)微調(diào)處理的MG-BERT預(yù)訓(xùn)練模型的性能始終優(yōu)于現(xiàn)有的同類模型。Mol2vec采用了一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法,用于學(xué)習(xí)藥物分子結(jié)構(gòu)的向量表示。類似于自然語(yǔ)言處理研究領(lǐng)域中的Word2vec模型,密切相關(guān)的詞向量在向量空間中非常接近。Mol2vec模型能夠?qū)Ψ肿咏Y(jié)構(gòu)進(jìn)行向量表示,相似的分子結(jié)構(gòu)向量在向量空間中也非常接近。其輸出的結(jié)果向量可作為輸入變量,聯(lián)合有監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)一步預(yù)測(cè)化合物的性質(zhì)。
目前,常見(jiàn)的機(jī)器學(xué)習(xí)算法有多元線性回歸(multiple linear regression,MLR)、樸素貝葉斯(naive Bayesian,NBM)、K?近 鄰(K-nearest neighbor,KNN)、K-means、隨機(jī)森林(random forest,RF)、決策樹(shù)(decision tree,DT)、套索回歸(lasso regression,LR)、支持向量機(jī)(support vector machine,SVM)、Boosting與Bagging算法、邏輯回歸(logical regression,LR)、嶺回歸(ridge regression)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)和深度學(xué)習(xí)算法(deep learning,DL)等。在藥物活性預(yù)測(cè)方面,主要用到機(jī)器學(xué)習(xí)的分類功能。目前,比較常用的算法包括SVM、KNN、ANN、RF、深度學(xué)習(xí)等。
KNN是一類有監(jiān)督的分類模型,其分類器無(wú)需訓(xùn)練并且可以解決多分類問(wèn)題。該算法的原理為:對(duì)于給定測(cè)試樣本,通過(guò)計(jì)算樣本間距離尋找訓(xùn)練集中與該樣本最靠近的K個(gè)樣本,然后根據(jù)這K個(gè)樣本的標(biāo)注類別采用“投票法”對(duì)類別進(jìn)行打分,K個(gè)樣本中出現(xiàn)次數(shù)最多的類別即為輸入樣本的預(yù)測(cè)類別。KNN算法有3個(gè)關(guān)鍵要素:K值的選擇、距離度量和分類決策規(guī)則。
DT是一類有監(jiān)督的分類模型。通過(guò)訓(xùn)練數(shù)據(jù)構(gòu)建決策樹(shù),然后對(duì)未知數(shù)據(jù)進(jìn)行分類。該模型的樹(shù)形結(jié)構(gòu)中的每一個(gè)節(jié)點(diǎn)都表示一個(gè)屬性,輸入的待預(yù)測(cè)樣本自上而下遍歷樹(shù)形結(jié)構(gòu)并根據(jù)其屬性完成多次判斷,直到給出樣本的最終判定結(jié)果。模型訓(xùn)練過(guò)程中主要特征度量方法有3種:信息增益、信息增益率和基尼指數(shù)[50],相應(yīng)的算法分別為ID3、C4.5和CART(classification and regression tree)算法[50]。RF是對(duì)多個(gè)決策樹(shù)的集成,通過(guò)投票表決輸出樣本類別。由于RF中每棵樹(shù)的特征選擇不同,因此可以解決過(guò)擬合問(wèn)題,增強(qiáng)模型的泛化能力。
Fig.3 Support vector and interval圖3 支持向量與間隔
SVM是一種有監(jiān)督的分類模型,其在二分類問(wèn)題上表現(xiàn)較好,針對(duì)一對(duì)多和多對(duì)多的分類問(wèn)題效果略差。SVM的原理為:在訓(xùn)練集樣本空間中尋找一個(gè)超平面,使得不同類別的樣本分布在超平面的不同側(cè),該超平面可表示為圖3中的多元線性方程。其中,w為超平面的法向量,代表超平面的方向,b為位移,代表原點(diǎn)和超平面之間的距離。常見(jiàn)的SVM擴(kuò)展算法有:半監(jiān)督支持向量機(jī)(semi-supervised support vector machine,S4VM)[51]、代價(jià)安全性半監(jiān)督支持向量機(jī)(cost security semisupervised support vector machine,CS4VM)[52]等。
除了上述幾種機(jī)器學(xué)習(xí)算法,基于矩陣分解的推薦算法如協(xié)同過(guò)濾(collaborative filtering,CF)[53]、隱語(yǔ)義模型(latent factor model,LFM)[54]以及基于網(wǎng)絡(luò)的推薦方法[55]等在藥物靶標(biāo)活性預(yù)測(cè)上取得了較好的效果。CF算法是一種較為常用的推薦算法。在商品推薦領(lǐng)域,能夠基于用戶歷史行為數(shù)據(jù)預(yù)測(cè)用戶的喜好和偏向;在藥物活性預(yù)測(cè)領(lǐng)域,通過(guò)基于鄰域和統(tǒng)計(jì)學(xué)的非負(fù)矩陣分解算法,將“藥物-靶標(biāo)”之間的關(guān)聯(lián)關(guān)系類比為商品推薦系統(tǒng)中的“用戶-商品”場(chǎng)景。
在具體的行業(yè)應(yīng)用中,機(jī)器學(xué)習(xí)算法需要借助大量有標(biāo)注的和無(wú)標(biāo)注的行業(yè)數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行學(xué)習(xí)和優(yōu)化。在藥物活性預(yù)測(cè)研究領(lǐng)域中,“類藥五原則”理論(又稱為L(zhǎng)ipinski規(guī)則)[56]經(jīng)常被用作活性化學(xué)藥物的初篩?;瘜W(xué)基因組學(xué)方法(chemogenomic approaches)[57]將藥物化合物的化學(xué)空間和靶標(biāo)蛋白的基因組空間進(jìn)行整合,借助于強(qiáng)大的生物化學(xué)數(shù)據(jù)庫(kù)資源,機(jī)器學(xué)習(xí)開(kāi)始在化學(xué)基因組空間中展開(kāi)應(yīng)用[58](表2)。
Table 2 Traditional machine learning models applied to the prediction of drug activity表2 傳統(tǒng)機(jī)器學(xué)習(xí)模型應(yīng)用于藥物活性預(yù)測(cè)
3.2.1DT及RF在藥物活性預(yù)測(cè)中的應(yīng)用
DT呈樹(shù)形結(jié)構(gòu),在分類問(wèn)題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過(guò)程。國(guó)內(nèi)學(xué)者賈聰敏[59]采用RF算法結(jié)合十折交叉驗(yàn)證構(gòu)建藥物靶點(diǎn)定量預(yù)測(cè)模型,所構(gòu)建的RF模型在EC50驗(yàn)證集和測(cè)試集上的MSE均小于0.09,且R2均大于0.96;在KD數(shù)據(jù)集上MSE均小于0.12,R2均大于0.94。實(shí)驗(yàn)同時(shí)也設(shè)置了多種算法作為對(duì)照組,結(jié)果表明相比較于SVM和ANN,RF構(gòu)建的藥物靶點(diǎn)相互作用關(guān)系定量預(yù)測(cè)模型為最優(yōu)模型。RF針對(duì)缺失數(shù)據(jù)和異常值不敏感,通過(guò)隨機(jī)性的引入增強(qiáng)了模型的泛化能力,其在3種模型中表現(xiàn)最佳,ANN因在藥物靶點(diǎn)定量預(yù)測(cè)上出現(xiàn)欠擬合問(wèn)題而表現(xiàn)最差,SVM則介于兩者之間。Lü等[60]采用C4.5 DT算法建立分類模型對(duì)肝炎病毒NS5B蛋白酶抑制劑與非抑制劑進(jìn)行預(yù)測(cè),在丙型肝炎病毒的基因復(fù)制和蛋白質(zhì)成熟的過(guò)程中,NS5B蛋白酶是RNA復(fù)制依賴的聚合酶,抑制NS5B聚合酶可以阻止丙型肝炎病毒的RNA復(fù)制,因此成為一種治療丙型肝炎的有效方法。該方法的測(cè)試數(shù)據(jù)集包含1 248個(gè)結(jié)構(gòu)多樣性的化合物(552個(gè)NS5B抑制劑與696個(gè)非NS5B抑制劑),實(shí)驗(yàn)結(jié)果表明,C4.5 DT算法在非抑制劑數(shù)據(jù)集上取得最高的預(yù)測(cè)精度(87.2%),在抑制劑數(shù)據(jù)集上取得最低的預(yù)測(cè)精度(81.4%),在總的數(shù)據(jù)集上,其預(yù)測(cè)精度(84.7%)略低于KNN(85.0%)。
3.2.2SVM在藥物活性預(yù)測(cè)中的應(yīng)用
SVM能夠處理高維數(shù)據(jù)以及對(duì)線性和非線性數(shù)據(jù)進(jìn)行分類。其在化合物分類、排名以及回歸屬性值預(yù)測(cè)方面具有良好的效果。在藥物活性預(yù)測(cè)領(lǐng)域,通常被作為基礎(chǔ)模型或?qū)φ战M模型應(yīng)用。
Lü等[60]測(cè)試了SVM在肝炎病毒NS5B蛋白酶抑制劑和非抑制劑上的分類預(yù)測(cè)模型,為了同時(shí)提高模型計(jì)算效率和預(yù)測(cè)精度,作者首先通過(guò)RFE(recursive feature elimination)對(duì)分子描述符中的分子特征進(jìn)行篩選。模型的實(shí)現(xiàn)流程如下:a.針對(duì)數(shù)據(jù)集中的全部分子描述符建立模型;b.通過(guò)評(píng)分函數(shù)對(duì)分子描述符中的分子特征進(jìn)行評(píng)分;c.刪除排在最后的m個(gè)描述符;d.最后對(duì)剩下的描述符進(jìn)行SVM分類訓(xùn)練,采用5折交叉驗(yàn)證計(jì)算模型的精度。
為避免模型的過(guò)擬合同時(shí)降低模型的計(jì)算量,設(shè)置變量m=5。在NS5B抑制劑和非抑制劑數(shù)據(jù)集上,使用RFE特征預(yù)篩選使得SVM的總預(yù)測(cè)精度從69.8%提升到82.0%。與KNN和C4.5 DT模型相比,SVM在抑制劑數(shù)據(jù)集上取得最高的預(yù)測(cè)精度91.7%,在非抑制劑數(shù)據(jù)集上取得最低的預(yù)測(cè)精度78.2%。由此可見(jiàn)模型的好壞與數(shù)據(jù)集有很大的關(guān)系。
高雙?。?1]分別對(duì)3類藥物活性分子(PLK1 PBD、SMAD3、IL-1B)進(jìn)行深入探究,分別基于SVM、S4VM和CS4VM構(gòu)建藥物活性預(yù)測(cè)模型,3種模型在PubChem里SMAD3數(shù)據(jù)集上的預(yù)測(cè)精度,分別為61.47%、75.16%和71.35%,其中S4VM取得了較好的預(yù)測(cè)效果。賈聰敏[59]采用SVM構(gòu)建藥物靶點(diǎn)EC50定量預(yù)測(cè)模型,其在訓(xùn)練集上的R2=0.931 7,MSE=0.127 0,在測(cè)試集上的R2=0.575 9,MSE=0.835 6,優(yōu)于ANN模型,但相對(duì)于RF來(lái)說(shuō)效果略差。
3.2.3推薦模型在藥物活性預(yù)測(cè)中的應(yīng)用
推薦模型主要用于廣告、產(chǎn)品、電影推薦等應(yīng)用場(chǎng)景。常用的推薦模型有矩陣分析和協(xié)同計(jì)算。在電子商務(wù)領(lǐng)域,推薦系統(tǒng)可以根據(jù)用戶購(gòu)買商品的歷史數(shù)據(jù)和同類用戶的購(gòu)買數(shù)據(jù)進(jìn)行建模然后進(jìn)行個(gè)性化商品推薦。這一思想被研究人員應(yīng)用于研究啟發(fā)式藥物發(fā)現(xiàn),將藥物和藥物的關(guān)系以及藥物和靶標(biāo)的關(guān)系類比于廣告推薦中的用戶和用戶關(guān)系以及用戶和商品的關(guān)系。
何亞瓊等[62]借鑒推薦系統(tǒng)對(duì)藥物靶標(biāo)預(yù)測(cè)問(wèn)題進(jìn)行建模,建模過(guò)程如下:a.建立表征藥物靶標(biāo)相互作用的m×n二維矩陣R,m代表藥物量,n代表靶標(biāo)數(shù)量。矩陣R中,如果已知藥物i和靶標(biāo)j存在相互作用,則Ri,j=1,未被驗(yàn)證的關(guān)系對(duì)應(yīng)值為0;b.建立表征藥物相似性的m×m的對(duì)角矩陣M,Mi,j是根據(jù)化合物i和化合物j的化學(xué)結(jié)構(gòu)相似性計(jì)算得到;c.構(gòu)建表征靶標(biāo)蛋白相似性的n×n對(duì)角矩陣N。矩陣Ni,j是基于目標(biāo)蛋白的氨基酸序列相似性計(jì)算得到;d.Ui和Vj分別代表藥物i的潛在影響因子向量和靶標(biāo)j的潛在影響因子向量,Kn,m是藥物和靶標(biāo)的潛在低維空間維度。
何亞瓊等[62]提出了深度學(xué)習(xí)協(xié)同過(guò)濾算法,設(shè)計(jì)多輸入深度自編碼器,使其能夠自動(dòng)提取藥物潛在特征U和藥物靶標(biāo)潛在特征V。通過(guò)在編碼器中加入相似度矩陣M、N和藥物靶標(biāo)相互作用矩陣R,模型能夠同時(shí)提取到這3種矩陣中的藥物和靶標(biāo)的潛在特征,進(jìn)而增強(qiáng)U和V的有效性。另外,作者通過(guò)添加藥物、靶標(biāo)雙重正則化來(lái)提高模型的精度。改進(jìn)后的模型流程如圖4所示。
與采用SVM做二分類的深度自編碼器、基于低秩矩陣分解的協(xié)同過(guò)濾算法相比,在Yam基準(zhǔn)數(shù)據(jù)集(Nuclear Receptor、GPCR、Ion channel、Enzyme)上該方法的AUPR值分別為0.764、0.732、0.682和0.637;在酶數(shù)據(jù)集上,AUC值達(dá)到了0.978,改進(jìn)后的模型AUPR和AUC值均高于MFDR(SDAE+SVM)和COSINE。章嘯[63]針對(duì)藥物靶標(biāo)關(guān)聯(lián)矩陣過(guò)于稀疏的問(wèn)題,采用混合加權(quán)方法對(duì)關(guān)聯(lián)矩陣進(jìn)行改進(jìn),并將DrugBank、ChEMBL、PubChem、Uniprot 4大數(shù)據(jù)庫(kù)的數(shù)據(jù)融合為一個(gè)新的數(shù)據(jù)集,改進(jìn)后的算法在該數(shù)據(jù)集上的MAE比直接使用協(xié)同過(guò)濾降低約0.1~0.15。
相對(duì)于早期協(xié)同過(guò)濾采用的奇異值分解方法,隱語(yǔ)義模型(latent factor model,LFM)是對(duì)奇異矩陣分解(singular value decomposition,SVD)的改進(jìn),同時(shí)LFM引入了損失函數(shù)和懲罰項(xiàng)來(lái)提高模型預(yù)測(cè)精度。Mongia等[64]提出一種深度隱語(yǔ)義模型,將矩陣分解推薦算法由分解成兩個(gè)矩陣改為分解成多個(gè)矩陣。在Enzymes、Ion channels、GPCR和Nuclear receptors 4個(gè)基準(zhǔn)數(shù)據(jù)集上,該模型的AUPR分別達(dá)到了0.728、0.828、0.616和0.125,AUC值分別為0.899、0.941、0.884和0.669,均高于其他矩陣分解方法如SVT、BMC、PMF和GRMF。
基于網(wǎng)絡(luò)的推薦算法是指將網(wǎng)絡(luò)接口接入不同的算法,使得用戶可以根據(jù)自己的需求自定義訓(xùn)練數(shù)據(jù),進(jìn)而獲得更加精準(zhǔn)的預(yù)測(cè)結(jié)果。Salvatore等[55]應(yīng)用基于雙向網(wǎng)絡(luò)投影的推薦技術(shù)提出了藥物活性預(yù)測(cè)應(yīng)用Web程序DT-Hybrid,用戶可以通過(guò)系統(tǒng)上傳待預(yù)測(cè)的藥物數(shù)據(jù),然后自定義設(shè)置各項(xiàng)參數(shù),該系統(tǒng)通過(guò)DT-Hybrid返回一個(gè)預(yù)測(cè)的候選結(jié)果列表,并對(duì)每一個(gè)候選結(jié)果進(jìn)行打分供用戶參考,該系統(tǒng)的底層數(shù)據(jù)來(lái)自于DrugBank數(shù)據(jù)庫(kù),并且定期進(jìn)行更新。
Fig.4 Deep collaborative filtering flowchart圖4 深度協(xié)同過(guò)濾模型流程圖
傳統(tǒng)機(jī)器學(xué)習(xí)算法相較于傳統(tǒng)基于實(shí)驗(yàn)的方法效率更高、耗時(shí)更短。DT、RF、SVM和矩陣分解等常用的機(jī)器學(xué)習(xí)模型對(duì)樣本規(guī)模不敏感,只需要幾千個(gè)訓(xùn)練數(shù)據(jù)樣本即可訓(xùn)練出快速收斂的模型。藥物研發(fā)領(lǐng)域往往由于客觀原因?qū)е聦?shí)驗(yàn)數(shù)據(jù)較少,在此情形下傳統(tǒng)機(jī)器學(xué)習(xí)模型依然可以實(shí)現(xiàn)有效建模。分析現(xiàn)有科研文獻(xiàn)發(fā)現(xiàn)RF、半監(jiān)督SVM和協(xié)同過(guò)濾在多數(shù)實(shí)驗(yàn)場(chǎng)景下?lián)碛邢鄬?duì)較高的藥物靶標(biāo)預(yù)測(cè)精度。但由于模型的適用范圍有限、不同的模型適用不同的數(shù)據(jù)集,所以脫離實(shí)驗(yàn)數(shù)據(jù)和應(yīng)用場(chǎng)景的模型好壞評(píng)價(jià)不能一概而論。
傳統(tǒng)的機(jī)器學(xué)習(xí)模型在藥物活性預(yù)測(cè)上效果較好,但是隨著數(shù)據(jù)量的增加,機(jī)器學(xué)習(xí)模型的性能開(kāi)始下降,也難以學(xué)習(xí)出復(fù)雜的函數(shù)模型。同時(shí),傳統(tǒng)機(jī)器學(xué)習(xí)類模型往往無(wú)法直接把實(shí)驗(yàn)數(shù)據(jù)屬性變量輸入模型,需要預(yù)先進(jìn)行特征提取,對(duì)于高維的輸入變量需要進(jìn)行PCA等降維處理,才能進(jìn)一步作為模型的輸入。這些要求科研工作者需要有較好的數(shù)理統(tǒng)計(jì)基礎(chǔ)及對(duì)常用數(shù)據(jù)預(yù)處理工具的熟練使用能力。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種,是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究方向。深度學(xué)習(xí)多被用于解決傳統(tǒng)機(jī)器學(xué)習(xí)算法不擅長(zhǎng)的具有高維輸入變量的問(wèn)題或復(fù)雜分類問(wèn)題。對(duì)于類似于藥物活性預(yù)測(cè)這樣的復(fù)雜問(wèn)題,深度學(xué)習(xí)通過(guò)學(xué)習(xí)數(shù)據(jù)樣本的特點(diǎn),自動(dòng)尋找藥物分子的特征而無(wú)需手動(dòng)設(shè)計(jì);也可以通過(guò)增加神經(jīng)網(wǎng)絡(luò)中的隱藏層進(jìn)而提取更深層次的特征,顯著提升模型的預(yù)測(cè)能力和分類能力。
目前深度學(xué)習(xí)在推薦、分類、目標(biāo)檢測(cè)、語(yǔ)音識(shí)別、圖像分割、藥物活性預(yù)測(cè)等方面取得了較大的突破。常見(jiàn)的深度學(xué)習(xí)模型有:多層感知機(jī)(multilayer perceptron,MLP)[65]、DNN[66]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[67]、AE、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)[68]、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)[69]、深度置信網(wǎng)絡(luò)(deep belief networks,DBN)[70]、GAN[71]等。
近年來(lái),深度學(xué)習(xí)類模型層出不窮,但是大部分模型是在經(jīng)典模型上的改進(jìn)或者多模型間進(jìn)行融合。本部分內(nèi)容主要對(duì)被應(yīng)用于藥物活性領(lǐng)域的深度學(xué)習(xí)算法原理進(jìn)行簡(jiǎn)要介紹,作為后續(xù)方法應(yīng)用部分的理論鋪墊和術(shù)語(yǔ)詮釋。按照深度學(xué)習(xí)領(lǐng)域大的分類依序介紹,包含有ANN、DNN、AE、CNN、RNN、DBN和GAN等主要類型的深度學(xué)習(xí)算法。
ANN模型于1943年由神經(jīng)生理學(xué)家McCulloch和數(shù)學(xué)家Pitts提出[72]。ANN中比較典型的是BP(back propagation)神經(jīng)網(wǎng)絡(luò)[73]。BP神經(jīng)網(wǎng)絡(luò)主要包含輸入層(input layer)、隱藏層(hidden layer)和輸出層(output layer)3個(gè)部分。其中,輸入層接收外部信息并將信息輸入模型,隱藏層對(duì)輸入模型的信息進(jìn)行處理,輸出層負(fù)責(zé)信息的進(jìn)一步優(yōu)化和輸出。BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖5所示。
Fig.5 Neural network topology圖5 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
圖中數(shù)據(jù)信息從綠色節(jié)點(diǎn)輸入,最終從藍(lán)節(jié)點(diǎn)輸出,橙色節(jié)點(diǎn)為隱藏層節(jié)點(diǎn),隱藏層的數(shù)量大于等于1且隱藏層之間依靠神經(jīng)元的聯(lián)結(jié)權(quán)重進(jìn)行連接。BP網(wǎng)絡(luò)的反向傳播采用梯度下降算法對(duì)網(wǎng)絡(luò)的整體結(jié)構(gòu)進(jìn)行修正,使得模型的損失函數(shù)達(dá)到最小。當(dāng)神經(jīng)元接收到的信號(hào)超出閾值時(shí),神經(jīng)元會(huì)被激活,然后通過(guò)激活函數(shù)的處理產(chǎn)生神經(jīng)元的輸出。常見(jiàn)的激活函數(shù)有階躍函數(shù)、Tanh函數(shù)、Sigmoid函數(shù)和ReLU函數(shù)。其中階躍函數(shù)由于具有不連續(xù)和不光滑的性質(zhì),故不常使用。
DNN概念寬泛,廣義上CNN、RNN、GAN等都屬于DNN。但通常提到DNN往往是指基于ANN和MLP進(jìn)行拓展的擁有多隱藏層的全連接神經(jīng)網(wǎng)絡(luò)。其神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中隱藏層可高達(dá)幾十上百層。
CNN是包含卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),模型同時(shí)具有表征學(xué)習(xí)和稀疏表示的能力,在計(jì)算機(jī)視覺(jué)應(yīng)用領(lǐng)域表現(xiàn)突出。具有代表性的CNN模型為L(zhǎng)ecun等[67]于1998年提出的LeNet-5網(wǎng)絡(luò)模型。該模型包含了現(xiàn)代CNN網(wǎng)絡(luò)所具備的基本模塊:卷積層、非線性激活層、池化層以及全連接層。在CNN模型中,卷積層內(nèi)每個(gè)神經(jīng)元都與其前一層中位置接近區(qū)域的多個(gè)神經(jīng)元相連,該區(qū)域稱為感受野(receptive field),其大小取決于卷積核的大小。卷積核根據(jù)設(shè)定的步長(zhǎng)對(duì)輸入的特征圖進(jìn)行掃描,在感受野范圍內(nèi)對(duì)輸入特征矩陣做矩陣元素相乘求和并疊加偏移量。其原理見(jiàn)圖6,在示例中輸入的特征向量大小為5×5,卷積核的大小為3×3,步長(zhǎng)為1;卷積核在輸入向量構(gòu)成的矩陣上移動(dòng),進(jìn)行卷積運(yùn)算實(shí)現(xiàn)降采樣。近幾年,新的CNN模型不斷涌現(xiàn),比較常見(jiàn)的CNN模型有:AlexNet[74]、VGGNet[75]、U-Net[76]、RBCNN[77]、YOLO[78]等。
Fig.6 Diagram of convolution operation圖6 卷積運(yùn)算示意圖
AE是一種無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中的每個(gè)隱藏層都有一個(gè)編碼器和一個(gè)解碼器。編碼器將輸入變量編碼為低維空間的特征變量;解碼器對(duì)特征變量重新解碼成高維特征變量。采用距離函數(shù)度量輸入和輸出信號(hào)之間的偏差損失。在解碼的過(guò)程需要保證距離函數(shù)最小。
RNN又稱遞歸神經(jīng)網(wǎng)絡(luò)。該模型適用于處理序列數(shù)據(jù),其特點(diǎn)是在序列的演進(jìn)方向進(jìn)行遞歸且所有節(jié)點(diǎn)按照鏈?zhǔn)竭B接。故該模型多用于處理語(yǔ)音識(shí)別、機(jī)器翻譯、價(jià)格預(yù)測(cè)、氣象預(yù)測(cè)等問(wèn)題。RNN原理如圖7所示,在時(shí)刻t,輸入信息為Xt,結(jié)合上一隱藏層的狀態(tài)St-1和該隱藏層的狀態(tài)St,輸出信息Ot,矩陣W為隱藏層之間的權(quán)重,矩陣U為輸入層與隱藏層之間的權(quán)重,矩陣V為隱藏層和輸出層之間的權(quán)重。常見(jiàn)的RNN模型有LSTM[69]、GRU[79]、BRNN[80]等。
DBN是一個(gè)概率生成模型,與傳統(tǒng)的判別模型神經(jīng)網(wǎng)絡(luò)相比,生成模型建立觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布。其用于監(jiān)督學(xué)習(xí)可使樣本分類盡可能的準(zhǔn)確,用于非監(jiān)督學(xué)習(xí)可在保留原始特征同時(shí)降低特征維度。DBN模型架構(gòu)由一個(gè)可視層和多個(gè)RBM層組合而成,層與層之間的神經(jīng)元存在連接但層內(nèi)的單元間不連接。其網(wǎng)絡(luò)模型如圖8所示。
Fig.7 Diagram of principle of RNN圖7 RNN原理示意圖
Fig.8 DBN network model圖8 DBN網(wǎng)絡(luò)模型
GAN是由Goodfellow等[71]提出的能夠根據(jù)輸入數(shù)據(jù)概率分布生成新數(shù)據(jù)的網(wǎng)絡(luò)模型。GAN的隱藏層由兩部分組成,分別是生成器和判別器。生成器用來(lái)產(chǎn)生新的樣本,也稱作假數(shù)據(jù),判別器用來(lái)區(qū)分真實(shí)數(shù)據(jù)和假數(shù)據(jù)。模型經(jīng)過(guò)多次迭代后,生成器生成數(shù)據(jù)的質(zhì)量不斷提升,直到判別器無(wú)法區(qū)分真實(shí)數(shù)據(jù)和假數(shù)據(jù)。
使用GAN模型能夠產(chǎn)生大量可供訓(xùn)練的數(shù)據(jù)樣本,但是在模型訓(xùn)練過(guò)程中易出現(xiàn)梯度消失問(wèn)題。此外,當(dāng)生成器生成質(zhì)量差的樣本且通過(guò)增加訓(xùn)練時(shí)間也無(wú)法改善質(zhì)量時(shí),GAN會(huì)出現(xiàn)模式崩潰[81]。條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial networks,CGAN)[82]可以對(duì)GAN模型進(jìn)行調(diào)節(jié)避免模式崩潰。另一個(gè)改進(jìn)的模型Wasserstein GAN(WGAN)[83]通過(guò)引入EM距離,并縮小EM距離對(duì)生成器和鑒別器進(jìn)行優(yōu)化,使得生成數(shù)據(jù)概率分布接近真實(shí)數(shù)據(jù)概率分布。Wang等[84]把EM和GAN相結(jié)合提出了進(jìn)化生成對(duì)抗網(wǎng)絡(luò)(evolutionary generative adversarial networks,E-GAN),解決了GAN模型訓(xùn)練不穩(wěn)定及模式崩潰的問(wèn)題。
深度神經(jīng)網(wǎng)絡(luò)類算法一般不需要手動(dòng)提取數(shù)據(jù)特征。在藥物活性預(yù)測(cè)領(lǐng)域,深度網(wǎng)絡(luò)能處理較為復(fù)雜的藥物分子數(shù)據(jù),通過(guò)逐層抽象及傳遞,模型可以自動(dòng)提取較深層次的數(shù)據(jù)特征,進(jìn)而獲得更高的藥物活性預(yù)測(cè)準(zhǔn)確率。本部分內(nèi)容對(duì)當(dāng)前深度神經(jīng)網(wǎng)絡(luò)在藥物活性預(yù)測(cè)領(lǐng)域中的應(yīng)用研究進(jìn)行分析總結(jié),主要涉及DNN、CNN、RNN、DBN、GAN等深度學(xué)習(xí)模型的應(yīng)用(表3)。
4.2.1DNN在藥物活性預(yù)測(cè)中的應(yīng)用
DNN是深層全連接神經(jīng)網(wǎng)絡(luò),在很多應(yīng)用場(chǎng)景下效果良好。Bharath等[85]借助DeepChem開(kāi)源平臺(tái)構(gòu)建了多任務(wù)DNN、單任務(wù)DNN、Progressive DNN、Bypass DNN和RF,共5類模型。實(shí)驗(yàn)使用默沙東公司2012年在Kaggle平臺(tái)上舉辦的藥物活性預(yù)測(cè)比賽的4個(gè)數(shù)據(jù)集Kaggles、Factors、Kinase、UV進(jìn)行訓(xùn)練和測(cè)試。在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,多任務(wù)DNN模型在訓(xùn)練集上的R2可能會(huì)低于RF以及另外4種DNN模型,但在驗(yàn)證集和測(cè)試集上能夠取得比另外4種模型更高的預(yù)測(cè)精度。此外其他3種DNN模型的預(yù)測(cè)效果均優(yōu)于RF。在Kaggle數(shù)據(jù)集上,多任務(wù)DNN在訓(xùn)練集和測(cè)試集上能達(dá)到0.793和0.468的精度,而RF能達(dá)到0.941和0.428。由此可知在藥物預(yù)測(cè)方面DNN模型相較于以RF為代表的機(jī)器學(xué)習(xí)有著較好的泛化能力和更高的預(yù)測(cè)精度,同時(shí)DNN中多任務(wù)DNN的預(yù)測(cè)精度和泛化能力又高于其他類型DNN模型。
同Bharath等的工作類似,Cai等[86]提出了DeephERG框架來(lái)構(gòu)建hERG通道阻滯劑評(píng)估的預(yù)測(cè)模型。內(nèi)置DeephERG的多任務(wù)DNN算法顯示出令人滿意的預(yù)測(cè)結(jié)果,在驗(yàn)證集的AUC值為0.967,優(yōu)于單任務(wù)DNN的0.957,RF的0.950,SVM的0.908,樸素貝葉斯的0.922以及圖卷積神經(jīng) 網(wǎng) 絡(luò) (graph convolutional neural network,GCNN)的0.959。在單任務(wù)DNN應(yīng)用方面,Kato等[87]通過(guò)對(duì)單任務(wù)全連接神經(jīng)網(wǎng)絡(luò)(fullyconnected deep neural network,F(xiàn)C-DNN)進(jìn)行調(diào)超參,搭建了新的QSAR/DNN模型,取得了同Kaggle QSAR競(jìng)賽冠軍組模型相近的R2值。路瑩瑩[88]在DrugBank數(shù)據(jù)集上采用FC-DNN進(jìn)行藥物靶標(biāo)相互作用預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,F(xiàn)C-DNN的AUC和準(zhǔn)確率分別為0.96和0.88,對(duì)照組模型RF和SVM對(duì)應(yīng)的AUC及準(zhǔn)確率分別為0.90、0.84和0.92、0.85。FC-DNN模型在測(cè)試集上的準(zhǔn)確率和AUC都優(yōu)于對(duì)照組的傳統(tǒng)機(jī)器學(xué)習(xí)模型。
4.2.2CNN在藥物活性預(yù)測(cè)中的應(yīng)用
CNN模型常用于處理基于圖像識(shí)別的問(wèn)題或類圖像識(shí)別的問(wèn)題。在藥物活性預(yù)測(cè)研究領(lǐng)域,藥物分子結(jié)構(gòu)可以用二維或三維的圖像來(lái)表示,CNN通過(guò)對(duì)分子圖像識(shí)別的方式來(lái)識(shí)別分子特征及類型。Chemception[89]和AugChemception[90]模型分別使用化合物的分子結(jié)構(gòu)圖像進(jìn)行化學(xué)性質(zhì)預(yù)測(cè),兩種方法都采用了類似Inception-ResNet-v2網(wǎng)絡(luò)的構(gòu)造。Chemception模型通過(guò)對(duì)化合物的2D分子圖像進(jìn)行學(xué)習(xí),能夠?qū)衔锏幕瘜W(xué)性質(zhì)進(jìn)行預(yù)測(cè),預(yù)測(cè)流程如圖9所示。該模型使用機(jī)器學(xué)習(xí)基準(zhǔn)數(shù)據(jù)集MoleculeNet中的3個(gè)基準(zhǔn)數(shù)據(jù)集Tox21、HIV、FreeSolv進(jìn)行驗(yàn)證,采用分子結(jié)構(gòu)繪制軟件RDKit將SMILES格式的結(jié)構(gòu)數(shù)據(jù)繪制成80×80像素的二維分子圖像作為輸入,與輸入傳統(tǒng)分子特征相比,Chemception模型在HIV訓(xùn)練集和測(cè)試集上AUC分別為0.796、0.798,RMSE分別為1.17、1.22 kcal/mol,優(yōu)于以分子特征作為輸入的多層感知器深度網(wǎng)絡(luò)模型。
在藥物靶標(biāo)活性預(yù)測(cè)中,胡姍姍[91]在LeNet-5網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),將藥物小分子和靶標(biāo)蛋白的近鄰特征映射成為矩陣數(shù)據(jù)。其改進(jìn)后的模型在來(lái)自KEGG BBRITE數(shù)據(jù)庫(kù)的數(shù)據(jù)集上AUC值為0.952 7,準(zhǔn)確率為0.881 4,比DBN分別高3.69%和2.26%。Kun等[92]使用CNN模型實(shí)現(xiàn)了基于3D小分子的電子密度數(shù)據(jù)進(jìn)行碳?xì)浠衔锏腒ohn-Sham動(dòng)能和KS密度預(yù)測(cè),進(jìn)一步對(duì)傳統(tǒng)動(dòng)力學(xué)函數(shù)進(jìn)行局部校正。實(shí)驗(yàn)結(jié)果表明,CNN能夠半定量的預(yù)測(cè)鍵合并準(zhǔn)確預(yù)測(cè)KS分子動(dòng)力學(xué)軌跡。另外含3層卷積層的CNN模型F誤差總體低于含有2層或者4層的模型。在烷烴分子動(dòng)能數(shù)據(jù)集上,模型在訓(xùn)練集和測(cè)試集上結(jié)果誤差可分別達(dá)到約0.01和0.08。同時(shí)模型能夠克服數(shù)據(jù)中的非線性噪聲,作者認(rèn)為可以通過(guò)加強(qiáng)物理約束、提升數(shù)據(jù)精度來(lái)提升模型的學(xué)習(xí)能力。
Fig.9 CNN drug activity prediction flowchart圖9 CNN藥物活性預(yù)測(cè)流程圖
4.2.3AE在藥物活性預(yù)測(cè)中的應(yīng)用
AE將輸入的高維數(shù)據(jù)映射到潛在空間并用較低維度表示,處理后的數(shù)據(jù)被重新解碼成原始高維輸入形式。其降維功能便于處理大量高維數(shù)據(jù),同時(shí)提高模型準(zhǔn)確性。
Rafael等[93]采用變分自編碼器(variational autoencoder,VAE)來(lái)生成化合物的結(jié)構(gòu)。編碼器將離散的分子SMILES字符串被映射到潛在空間中,并通過(guò)隱向量進(jìn)行連續(xù)表示。用z來(lái)表示分子結(jié)構(gòu)的連續(xù)表示,則模型中的多層感知模塊訓(xùn)練出函數(shù)f(z)來(lái)預(yù)測(cè)新的分子結(jié)構(gòu),并采用梯度優(yōu)化方式對(duì)f(z)進(jìn)行優(yōu)化進(jìn)而尋找新的滿足醫(yī)學(xué)特征需求的分子結(jié)構(gòu)。該模塊生成新的化學(xué)結(jié)構(gòu)的方式包括解碼隨機(jī)向量、擾亂已知的化學(xué)結(jié)構(gòu)和在分子之間進(jìn)行插值。解碼器將編碼器輸出的連續(xù)表示逆向轉(zhuǎn)化為離散的SMILES字符串。在不同的數(shù)據(jù)集上神經(jīng)網(wǎng)絡(luò)采用不同的超參數(shù):
在ZINC數(shù)據(jù)集上的模型超參數(shù)配置如下。a.編碼器:三層一維卷積層(過(guò)濾器大小分別為9、9、10,數(shù)量分別為9、9、11);b.全連接神經(jīng)網(wǎng)絡(luò):寬度為196;c.解碼器:三層門控循環(huán)單元(GRU)網(wǎng)絡(luò),隱藏層維度為488。
在QM9數(shù)據(jù)集上的模型超參數(shù)配置:a.編碼器:三層一維卷積層(每層濾波器大小分別為2、2、1,數(shù)量分別為5、5、4);b.全連接神經(jīng)網(wǎng)絡(luò):寬度為156;c.解碼器:三層門控循環(huán)單元(GRU)網(wǎng)絡(luò),隱藏層維度為500。
實(shí)驗(yàn)結(jié)果表明,Rafael等[93]構(gòu)造的模型相較于其他常見(jiàn)機(jī)器學(xué)習(xí)模型具有更高的藥物相似性定性估計(jì)值。隨后,作者將高斯過(guò)程、高斯搜索和遺傳算法引入預(yù)測(cè)模塊對(duì)模型進(jìn)一步優(yōu)化。結(jié)果發(fā)現(xiàn),相較于高斯搜索和遺傳算法,高斯過(guò)程的引入對(duì)模型的預(yù)測(cè)效果提升具有明顯的作用。
類似的工作,Thomas等[94]采用VAE模型生成了對(duì)2型多巴胺受體具有活性的新型化合物。閆奕霖[95]分別建立了基于SVM、ANN和SAE的化合物抗HIV活性分類預(yù)測(cè)模型并進(jìn)行對(duì)比實(shí)驗(yàn)。在不同數(shù)據(jù)集上的結(jié)果均表明SAE能夠?qū)崿F(xiàn)化合物抗HIV活性分類更高的預(yù)測(cè)精度。
4.2.4RNN在藥物活性預(yù)測(cè)中的應(yīng)用
RNN將序列數(shù)據(jù)作為輸入,在序列的演進(jìn)方向進(jìn)行遞歸且所有節(jié)點(diǎn)按照鏈?zhǔn)竭B接,故其多用于對(duì)序列概率分布進(jìn)行建模。
Segler等[96]采用具有3個(gè)堆疊LSTM層的RNN模型進(jìn)行藥物結(jié)構(gòu)設(shè)計(jì),并經(jīng)過(guò)遷移學(xué)習(xí)生成對(duì)所需生物靶標(biāo)具有良好親和力的新型分子。模型設(shè)計(jì)流程如下:a.采用目標(biāo)預(yù)測(cè)模型(RF、邏輯回歸、梯度提升樹(shù)、DNN)對(duì)藥物分子活性進(jìn)行預(yù)測(cè);b.遷移學(xué)習(xí),對(duì)預(yù)訓(xùn)練的RNN模型進(jìn)行小樣本重新訓(xùn)練;c.采用目標(biāo)預(yù)測(cè)模型對(duì)上一步驟設(shè)計(jì)藥物進(jìn)行活性預(yù)測(cè),然后將預(yù)測(cè)為具有一定活性的藥物合并入步驟a,形成閉環(huán)。
模型采用隨機(jī)富集(enrichment over random,EOR)方法進(jìn)行評(píng)估,EOR表示如下:
公式中,n=|G N∩T|是測(cè)試集T和微調(diào)模型生成的藥物分子集合G N的并集元素的數(shù)量,m=|R M∩T|,RM是在大數(shù)據(jù)集合上訓(xùn)練的通用模型生成的藥物分子集合。在金黃色葡萄球菌藥物數(shù)據(jù)集上,遷移學(xué)習(xí)訓(xùn)練的模型跟從頭訓(xùn)練的模型相比,預(yù)測(cè)結(jié)果誤差更小。同時(shí)上述循環(huán)模型迭代8次之后EOR值為59.6,高于僅進(jìn)行單次簡(jiǎn)單重訓(xùn)練模型(EOR=6.3)。
Bjerrum等[97]基于帶有LSTM結(jié)構(gòu)的RNN模型建立序列到序列異源編碼器對(duì)SMILES預(yù)測(cè)不同的枚舉字符串。實(shí)驗(yàn)表明,異源編碼器派生的向量明顯優(yōu)于自編碼器和使用ECFP4指紋建立模型的派生向量。龍飛達(dá)[98]基于PubCHEM數(shù)據(jù)庫(kù)采用具有3層門控結(jié)構(gòu)的RNN結(jié)合馬爾可夫決策過(guò)程(Markov decision process,MDP)[99]在靶標(biāo)蛋白CRM1抑制劑萊菔素的基礎(chǔ)上進(jìn)行分子結(jié)構(gòu)改造,將改造后得到的CRM1靶向小分子抑制劑命名為L(zhǎng)FS-1107?;钚詼y(cè)試實(shí)驗(yàn)表明該分子對(duì)CRM1具有更高的藥物活性。路瑩瑩[88]采用LSTM在DrugBank數(shù)據(jù)集上進(jìn)行藥物靶標(biāo)相互作用預(yù)測(cè)實(shí)驗(yàn),以配體結(jié)構(gòu)信息和蛋白質(zhì)序列信息構(gòu)建藥物靶標(biāo)相互作用向量作為模型輸入,結(jié)果表明LSTM模型的預(yù)測(cè)準(zhǔn)確率和AUC分別為0.87和0.95,皆高于傳統(tǒng)機(jī)器學(xué)習(xí)算法RF和SVM。
4.2.5DBN在藥物活性預(yù)測(cè)中的應(yīng)用
在DBN預(yù)測(cè)藥物活性的應(yīng)用中,首先將藥物特征輸入其模型前端RBM網(wǎng)絡(luò),然后將RBM網(wǎng)絡(luò)的輸出作為BP神經(jīng)網(wǎng)絡(luò)的輸入,進(jìn)一步對(duì)特征進(jìn)行深層提取,最后輸出藥物活性的預(yù)測(cè)類別。
高雙?。?1]從PubChem上選取3類藥物活性數(shù)據(jù),PLK1 PBD、SMAD3和IL-1B,并對(duì)上述3類蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)進(jìn)行SVM、ANN、SAE和DBN建模實(shí)驗(yàn)。測(cè)試結(jié)果表明,在3種數(shù)據(jù)集上,無(wú)監(jiān)督算法SAE和DBN在準(zhǔn)確率、召回率、馬修斯相關(guān)系數(shù)等評(píng)價(jià)指標(biāo)上均優(yōu)于另外兩種算法。其中,在PLK1 PBD數(shù)據(jù)集上(僅含2D分子描述符),DBN表現(xiàn)最好,在輸入特征數(shù)為50,隱藏層數(shù)為3時(shí)模型精度達(dá)到最高(90.1%);在IL1-B數(shù)據(jù)集上,訓(xùn)練集為3DI、3DX和ALL分子描述符時(shí),DBN預(yù)測(cè)表現(xiàn)優(yōu)于SAE和其他模型,訓(xùn)練集為2D分子描述符的時(shí)候,DBN預(yù)測(cè)表現(xiàn)略遜色于SAE;在SMAD3數(shù)據(jù)集上,模型輸入特征數(shù)為125,隱藏層為1層,在準(zhǔn)確率、召回率、誤分率等評(píng)價(jià)指標(biāo)上,SAE均優(yōu)于DBN,其中SAE的準(zhǔn)確率達(dá)到93.38%,DBN達(dá)到83.81%。由此可見(jiàn)模型預(yù)測(cè)效果好壞不僅與模型本身有關(guān),也與數(shù)據(jù)集有關(guān)。
同樣的,黎佳朗[15]比較了DBN、SAE結(jié)合SVM、基于網(wǎng)絡(luò)的推薦算法和矩陣分解方法對(duì)藥物靶標(biāo)相互作用進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明DBN相較于其他模型具有更高的準(zhǔn)確率。
4.2.6GAN在藥物活性預(yù)測(cè)中的應(yīng)用
GAN中的生成器和判別器不斷進(jìn)行博弈和多次迭代逐步提升生成器生成數(shù)據(jù)的質(zhì)量,直至判別器無(wú)法區(qū)分真實(shí)數(shù)據(jù)和假數(shù)據(jù),從而可以生成大量可靠的訓(xùn)練樣本。
Cao等[100]提出了MolGAN模型,一個(gè)隱式的無(wú)似然的小分子圖生成模型,它避開(kāi)了基于似然的復(fù)雜計(jì)算圖匹配過(guò)程和節(jié)點(diǎn)排序啟發(fā)式的需要。該模型的工作流程如下:a.生成器根據(jù)先驗(yàn)分布生成鄰接張量A和注釋矩陣X;b.對(duì)A和X進(jìn)行采樣稀疏化,然后合并成注釋分子圖;c.基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)的鑒別器和獎(jiǎng)勵(lì)網(wǎng)絡(luò)對(duì)分子圖進(jìn)行處理,同時(shí)不會(huì)改變圖中節(jié)點(diǎn)的排列順序。
實(shí)驗(yàn)結(jié)果表明,強(qiáng)化學(xué)習(xí)的加入使得生成的分子結(jié)構(gòu)有效性由87.7%提升至99.8%,分子的新穎性和溶解度也隨著強(qiáng)化學(xué)習(xí)模塊所占比重的增加而提高。在QM9數(shù)據(jù)集上,MolGAN相較于不同的VAE模型和ORGAN(objective-reinforced GAN)取得了較好的預(yù)測(cè)結(jié)果,同時(shí)運(yùn)算速度比ORGAN模型快近5倍。MolGAN主要優(yōu)勢(shì)為將GAN和強(qiáng)化學(xué)習(xí)結(jié)合,同時(shí)直接針對(duì)分子圖進(jìn)行訓(xùn)練而不是生成的序列化數(shù)據(jù)。但是該模型存在模式崩潰的可能,同時(shí)生成的分子多樣性相較于另外兩類模型較差。提出者認(rèn)為將來(lái)可以通過(guò)改進(jìn)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)或者引入其他的預(yù)訓(xùn)練模型來(lái)避免此類問(wèn)題。
陳浩宇[101]將GAN模型結(jié)合其他生成器目標(biāo)并進(jìn)行優(yōu)化,同時(shí)引入進(jìn)化算法思想,對(duì)生成器的目標(biāo)函數(shù)進(jìn)行改造,獲得穩(wěn)定且生成化合物質(zhì)量更高的模型MDEGAN。最終獲得的生成器目標(biāo)為:
其中Q(a,s)表示給定前代生成s進(jìn)行的生成動(dòng)作a。進(jìn)化算法的適應(yīng)度函數(shù)為:
式中F1、F2、F3分別表示溶解性、可合成性以及類藥性的環(huán)境適應(yīng)度函數(shù),γ≥0,用來(lái)平衡3個(gè)指標(biāo)。生成器目標(biāo)優(yōu)化通過(guò)加強(qiáng)約束提高藥物生成質(zhì)量,而進(jìn)化算法則增加藥物多樣。實(shí)驗(yàn)結(jié)果表明,同其他傳統(tǒng)的GAN模型相比較,MDEGAN可以生成更具多樣性和藥物特性且質(zhì)量更高的化合物序列。
4.2.7其他改進(jìn)深度學(xué)習(xí)模型在藥物活性預(yù)測(cè)中的應(yīng)用
耦合強(qiáng)化學(xué)習(xí)、GNNs、注意力機(jī)制等的深度學(xué)習(xí)模型近幾年發(fā)展較快,也被應(yīng)用于藥物活性預(yù)測(cè)。
Zheng等[102]通過(guò)LSTM模型提取了基因數(shù)據(jù)和藥物數(shù)據(jù)之間潛在的語(yǔ)義信息;然后構(gòu)造CNN模型,以LSTM的輸出作為CNN模型的輸入,實(shí)現(xiàn)基因組數(shù)據(jù)的提取;最后使用全連接網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),該模型取得了較好的性能。Lee等[103]提出了一種基于CNN和DNN的模型——DeepConv-DTI,在原始蛋白質(zhì)序列上使用CNN以捕獲廣義蛋白質(zhì)類別的局部殘基模式,從而取得更好的預(yù)測(cè)結(jié)果。Guimaraes等[104]將GAN與強(qiáng)化學(xué)習(xí)結(jié)合,并引入獎(jiǎng)勵(lì)機(jī)制。該模型在生成編碼為文本序列(SMILES)分子的同時(shí)能夠有效地將生成過(guò)程偏向期望的指標(biāo)。
Xiong等[12]為藥物分子表示引入了一種新的GNNs架構(gòu)Attentive FP,該方法使用圖注意力機(jī)制從開(kāi)源的藥物數(shù)據(jù)集中學(xué)習(xí)分子內(nèi)部的相互作用。相較于基于圖模型的分子表示方法,Attention FP模塊在評(píng)估鄰接原子的影響時(shí)更加有效。結(jié)構(gòu)上,Attention FP模型內(nèi)部包括目標(biāo)原子在某一時(shí)刻的狀態(tài)向量和注意內(nèi)容向量,聯(lián)結(jié)節(jié)點(diǎn)的權(quán)重越高,對(duì)應(yīng)分子圖上的虛線顏色越深。其對(duì)應(yīng)的聯(lián)結(jié)、權(quán)重、語(yǔ)境輸出公式如下所示:
其中,[h v,h u]是目標(biāo)節(jié)點(diǎn)和鄰居節(jié)點(diǎn)的聯(lián)合狀態(tài)向量,C v為節(jié)點(diǎn)的文本向量,W為網(wǎng)絡(luò)訓(xùn)練得到的權(quán)重。
在PDBbind和QM9數(shù)據(jù)集上,Attentive FP在溶解度、瘧疾生物活性和光伏效率上取得了比Neural FP、Weave和MPNN更好的預(yù)測(cè)效果。趙其昌[105]提出一種端到端的基于圖注意卷積和交叉注意力機(jī)制的藥物靶標(biāo)相互作用預(yù)測(cè)模型,以及一種端到端的基于CNN和協(xié)同注意力機(jī)制的藥物蛋白質(zhì)親和力值回歸模型。以上兩種模型均是通過(guò)CNN模塊提取特征矩陣,使用注意力機(jī)制強(qiáng)化語(yǔ)義信息在模型中的重要程度。路瑩瑩[88]在DrugBank數(shù)據(jù)集上采用高速路神經(jīng)網(wǎng)絡(luò)(highway network,HN)對(duì)藥物靶標(biāo)相互作用進(jìn)行預(yù)測(cè)。通過(guò)增加門限機(jī)制,將輸入網(wǎng)絡(luò)模型的部分通路數(shù)據(jù)進(jìn)行非線性轉(zhuǎn)換,該機(jī)制能夠有效緩解梯度爆炸和梯度消失問(wèn)題。模型準(zhǔn)確率和AUC分別達(dá)到0.88和0.94。
近年來(lái),深度學(xué)習(xí)模型被逐步應(yīng)用于藥物活性預(yù)測(cè)中。其中DNN模型應(yīng)用最為廣泛,成熟度高,效果也比較好,擁有廣闊的應(yīng)用前景;CNN由于其具有卷積和池化功能,常用于解決類似于圖像識(shí)別及分類的問(wèn)題,例如基于藥物分子結(jié)構(gòu)的二維圖像進(jìn)行分子類別判斷;AE具有較好的高維數(shù)據(jù)處理能力,可有效解決繁雜藥物分子和靶標(biāo)蛋白的特征表示;RNN模型具有連接的循環(huán)單元,故適用于處理如自然語(yǔ)言處理、蛋白質(zhì)氨基酸序列推斷等具有時(shí)間序列類數(shù)據(jù)的問(wèn)題,常應(yīng)用于氨基酸序列的預(yù)測(cè)和推斷,常用的RNN模型為L(zhǎng)STM和BRNN;DBN采用二進(jìn)制變量對(duì)數(shù)據(jù)概率分布進(jìn)行估計(jì),進(jìn)而建立數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布,該類模型在藥物活性預(yù)測(cè)中應(yīng)用較少,但是在部分3D分子描述符數(shù)據(jù)集上訓(xùn)練效果優(yōu)于AE;GAN模型能夠生成新的數(shù)據(jù),在訓(xùn)練數(shù)據(jù)樣本較少的情況下可以通過(guò)增加樣本數(shù)量來(lái)提高模型的預(yù)測(cè)精度。
深度學(xué)習(xí)模型中較為常用且效果較好的模型為DNN、CNN、RNN和AE。很多學(xué)者通過(guò)對(duì)不同模型進(jìn)行結(jié)合使用,取得了較好的實(shí)驗(yàn)結(jié)果。目前更多的研究人員傾向于將遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、注意力機(jī)制等引入深度學(xué)習(xí)模型,以此來(lái)縮短訓(xùn)練時(shí)間、提高模型精度,避免無(wú)關(guān)因素的干擾。大量的實(shí)驗(yàn)結(jié)果表明,遷移學(xué)習(xí)、注意力機(jī)制等技術(shù)的引入很大程度上提高了藥物分子的預(yù)測(cè)精準(zhǔn)度以及藥物分子生成的有效性。
隨著生物、醫(yī)學(xué)技術(shù)的不斷發(fā)展,藥物分子活性數(shù)據(jù)以及醫(yī)學(xué)臨床數(shù)據(jù)不斷擴(kuò)增,藥物研發(fā)的重點(diǎn)逐漸向海量生化大數(shù)據(jù)挖掘的方向發(fā)展。以基于配體的預(yù)測(cè)方法為例,近幾年結(jié)合傳統(tǒng)機(jī)器學(xué)習(xí)、矩陣分解和深度學(xué)習(xí)等的方法逐漸受到業(yè)界的廣泛關(guān)注并被寄予厚望。隨著生物醫(yī)藥生產(chǎn)及臨產(chǎn)相關(guān)各類數(shù)據(jù)的多樣化和計(jì)算機(jī)計(jì)算能力的逐步增強(qiáng),生物活性預(yù)測(cè)方法逐步引入深度學(xué)習(xí)模型、GNNs模型等最新算法模型,其在藥物研發(fā)領(lǐng)域發(fā)展迅速并大幅縮短了藥物研發(fā)時(shí)間,降低了藥物研發(fā)成本。
藥物活性預(yù)測(cè)和藥物設(shè)計(jì)由純生化實(shí)驗(yàn)到機(jī)器學(xué)習(xí)算法助力再到深度學(xué)習(xí)算法應(yīng)用的過(guò)程中,藥物分子活性預(yù)測(cè)的效率不斷提升。由上述內(nèi)容可以得知,與有監(jiān)督或者半監(jiān)督的機(jī)器學(xué)習(xí)方法(SVM、RF等)相比,無(wú)監(jiān)督的深度學(xué)習(xí)(FCDNN、CNN、RNN、SAE等)能夠更加全面的對(duì)藥物分子結(jié)構(gòu)進(jìn)行學(xué)習(xí)并且給出更加準(zhǔn)確的預(yù)測(cè)結(jié)果。但深度學(xué)習(xí)模型有時(shí)會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,即在訓(xùn)練集預(yù)測(cè)精度很高,在測(cè)試集上預(yù)測(cè)精度比較低,或者在部分?jǐn)?shù)據(jù)集上預(yù)測(cè)精度較高,在其他數(shù)據(jù)集上預(yù)測(cè)精度較低,亦或是出現(xiàn)網(wǎng)絡(luò)梯度爆炸或梯度消失的問(wèn)題,導(dǎo)致模型無(wú)法對(duì)數(shù)據(jù)樣本進(jìn)行有效學(xué)習(xí)和進(jìn)一步應(yīng)用。數(shù)據(jù)預(yù)處理、算法創(chuàng)新及模型結(jié)構(gòu)的改進(jìn)優(yōu)化將會(huì)成為未來(lái)計(jì)算機(jī)輔助藥物活性預(yù)測(cè)的主要任務(wù)。
目前,深度學(xué)習(xí)模型在藥物分子活性預(yù)測(cè)及相關(guān)方向取得了較好的進(jìn)展,其中DNN、AE以及RNN模型在該領(lǐng)域應(yīng)用的較為廣泛。有研究者也嘗試?yán)闷渌钚碌乃惴P蛻?yīng)用于藥物活性預(yù)測(cè)。未來(lái)有望開(kāi)展的研究有如下幾個(gè)方面:
a.強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合應(yīng)用于藥物活性預(yù)測(cè)。強(qiáng)化學(xué)習(xí)的原理是對(duì)人或動(dòng)物學(xué)習(xí)過(guò)程的模仿,通過(guò)設(shè)計(jì)有行為、感知、獎(jiǎng)勵(lì)的循環(huán)流程來(lái)強(qiáng)化正確行為,懲罰錯(cuò)誤行為。強(qiáng)化學(xué)習(xí)與傳統(tǒng)有監(jiān)督機(jī)器學(xué)習(xí)模型的擬合方法有很大不同。模型訓(xùn)練過(guò)程中每一個(gè)新反饋都被立即傳遞,完成一次參數(shù)迭代,故而擁有較快的學(xué)習(xí)速度。強(qiáng)化學(xué)習(xí)相較于傳統(tǒng)模型提供了更快的學(xué)習(xí)機(jī)制,并且魯棒性較強(qiáng)。當(dāng)前,在圖像目標(biāo)檢測(cè)和自然語(yǔ)言處理領(lǐng)域,結(jié)合強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)模型取得了優(yōu)異的成果。進(jìn)一步探索其在藥物活性預(yù)測(cè)領(lǐng)域的應(yīng)用,或許有意想不到的收獲。
b.多模型聯(lián)用集成應(yīng)用于藥物活性預(yù)測(cè)。集成學(xué)習(xí)是機(jī)器學(xué)習(xí)中一類學(xué)習(xí)算法,其主要通過(guò)對(duì)多個(gè)學(xué)習(xí)器進(jìn)行訓(xùn)練和組合實(shí)現(xiàn)比單個(gè)學(xué)習(xí)器更好的預(yù)測(cè)結(jié)果。傳統(tǒng)的機(jī)器學(xué)習(xí)模型以及各類深度學(xué)習(xí)模型在解決某類問(wèn)題時(shí)有各自的優(yōu)勢(shì),對(duì)于一個(gè)復(fù)雜的問(wèn)題來(lái)說(shuō),單獨(dú)使用其中一種模型無(wú)法達(dá)到理想的預(yù)期結(jié)果。但是集合多個(gè)不同類的預(yù)測(cè)模型進(jìn)行集成學(xué)習(xí)往往會(huì)取得更好的結(jié)果。在現(xiàn)有的探索基礎(chǔ)上,借助模型集成思路解決藥物活性預(yù)測(cè)領(lǐng)域的相關(guān)難題也是一個(gè)可選的研究方向。
c.從生物醫(yī)藥工程的角度提出新的模型或模式。在解決或助力于解決行業(yè)問(wèn)題時(shí),算法或技術(shù)只是充當(dāng)工具的作用,算法工具是否可以發(fā)揮大的威力很大程度上決定于使用者對(duì)具體行業(yè)的專業(yè)認(rèn)知,以及進(jìn)一步對(duì)問(wèn)題的準(zhǔn)確建模。所以,藥物活性預(yù)測(cè)的發(fā)展依然離不開(kāi)醫(yī)藥行業(yè)的專業(yè)認(rèn)知。故應(yīng)該從生物醫(yī)藥工程角度對(duì)藥物設(shè)計(jì)的各個(gè)環(huán)節(jié)不斷地提出新的問(wèn)題,進(jìn)一步構(gòu)建有效的模型來(lái)解決問(wèn)題,推動(dòng)藥物研發(fā)的自動(dòng)化和智能化。
d.深度學(xué)習(xí)預(yù)訓(xùn)練大模型應(yīng)用于藥物活性預(yù)測(cè)。2017年谷歌Transformer深度網(wǎng)絡(luò)結(jié)構(gòu)的提出,使得深度學(xué)習(xí)模型參數(shù)突破了1億,BERT網(wǎng)絡(luò)模型的提出,使得深度學(xué)習(xí)模型參數(shù)量進(jìn)一步超過(guò)3億規(guī)模。2020年,OpenAI公司的GPT-3模型參數(shù)達(dá)到1 750億,隨后谷歌Switch Transformer的問(wèn)世使得模型參數(shù)一舉突破萬(wàn)億規(guī)模。截止2021年底,北京智源的悟道、阿里達(dá)摩院的M6和快手的CTR等大模型參數(shù)量均突破萬(wàn)億。大模型的應(yīng)用有助于推動(dòng)多個(gè)領(lǐng)域的難題突破。例如,谷歌DeepMind團(tuán)隊(duì)相繼推出的AlphaFold和AlphaFold2模型被應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),后者的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性接近了真實(shí)結(jié)構(gòu)。大模型的應(yīng)用有望進(jìn)一步在藥物活性預(yù)測(cè)領(lǐng)域?qū)崿F(xiàn)重大進(jìn)展。