人工智能算法用于藥物研發(fā)的研究進展

2023-12-27 08:33:54楊雙萌于江侯文彬趙倩李祎亮

現(xiàn)代藥物與臨床 2023年12期

楊雙萌，于江，侯文彬，趙倩，李祎亮*

1.天津中醫(yī)藥大學，天津 301617

2.中國醫(yī)學科學院北京協(xié)和醫(yī)學院放射醫(yī)學研究所，天津 300192

3.天津市南開區(qū)王頂?shù)提t(yī)院，天津 300190

人工智能是計算機科學的一個分支，指計算機從已有的數(shù)據(jù)集中進行學習的能力，能夠促進大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理和分析[1-4]。人工智能算法包含機器學習算法和深度學習算法[5-8]。機器學習是指在沒有顯式編程的情況下逼近給定訓練數(shù)據(jù)的輸入與輸出之間的映射函數(shù)，從而能夠?qū)π聰?shù)據(jù)進行預測，而深度學習是一種訓練神經(jīng)網(wǎng)絡的具體方法，就像大腦中神經(jīng)元對特定的視覺輸入做出反應一樣。機器學習是使用傳統(tǒng)統(tǒng)計算法學習映射函數(shù)，深度學習是使用神經(jīng)網(wǎng)絡結(jié)構(gòu)學習映射[9]。藥物研發(fā)的過程漫長而復雜，并且會受到多種因素影響[10]，通常包括藥物靶標發(fā)現(xiàn)、先導化合物的發(fā)現(xiàn)與優(yōu)化、候選藥物的確定、成藥性優(yōu)化等方面[11]。目前無論是機器學習還是深度學習，都能夠通過豐富的大數(shù)據(jù)系統(tǒng)進行學習，已經(jīng)在藥物研發(fā)中得到廣泛應用[10,12-14]。人工智能算法通過豐富的大數(shù)據(jù)系統(tǒng)學習可以實現(xiàn)模型的建立和高通量虛擬計算，應用于藥物研發(fā)中能夠在一定程度上縮短研發(fā)周期、降低投入成本，進而提高研發(fā)成功率。本文對機器學習算法、深度學習算法應用于藥物研發(fā)中的研究進展進行闡述，以期為人工智能技術(shù)與藥物研發(fā)相結(jié)合的進一步發(fā)展提供參考。

1 機器學習在藥物研發(fā)中的應用

機器學習算法通過數(shù)學建模來找到特定活動或化合物的分類及其特征之間的關(guān)聯(lián)。目前已經(jīng)得到可用的機器學習方法有樸素貝葉斯、支持向量機、遞歸分區(qū)、k 最鄰近、決策樹、隨機森林等[15-18]。

1.1 機器學習應用于藥物靶標發(fā)現(xiàn)

藥物靶標是指體內(nèi)具有藥效功能并能被藥物作用的生物大分子，即藥物發(fā)揮療效的靶點，如某些蛋白質(zhì)和核酸等生物大分子。一個好的藥物靶點需要與疾病表型相關(guān)，并且適合用于治療調(diào)節(jié)[19]。確定靶標分子是現(xiàn)代藥物開發(fā)的基礎。識別藥物與靶標的相互作用將極大地縮小藥物搜索范圍，因此是藥物發(fā)現(xiàn)的關(guān)鍵第一步[20-21]。據(jù)報道，目前已有30 多個藥物靶標發(fā)現(xiàn)平臺，能夠為研究人員提供豐富的數(shù)據(jù)庫、圖形界面，便于預測藥物在靶點的治療效果和潛在的不良反應[22]。

1.1.1 基于靶標（蛋白質(zhì)可藥性）鑒定蛋白質(zhì)靶標活性是藥物發(fā)現(xiàn)的步驟之一，確定蛋白質(zhì)結(jié)合藥物以調(diào)節(jié)其功能的能力稱為可藥性。由于可藥性衡量需要大量時間和資源，因而導致大量藥物發(fā)現(xiàn)的失敗[22]。因此人工智能技術(shù)對于基于靶點的藥物靶標發(fā)現(xiàn)具有重要意義。

Kana 等[23]提出基于“eFindSite”的藥效預測算法，通過使用有監(jiān)督的機器學習對蛋白質(zhì)的可藥性進行預測，從而實現(xiàn)了人類蛋白質(zhì)組藥物分析的口袋可藥性預測。Cavasotto 等[24]通過實驗結(jié)構(gòu)數(shù)據(jù)或同源模型對SARS-CoV-2 蛋白質(zhì)組進行了全面電子藥物敏感性評估，包括其所有非結(jié)構(gòu)蛋白、結(jié)構(gòu)蛋白和輔助蛋白都進行了深入的功能、結(jié)構(gòu)和可藥性評估，確定了整個蛋白質(zhì)組中潛在的可藥物變構(gòu)和蛋白質(zhì)–蛋白質(zhì)相互作用（PPI）位點，為藥物發(fā)現(xiàn)提供豐富的靶點。Lee 等[25]開發(fā)的“PharmMaker”軟件工具，從可藥性模擬、藥效團建模、化合物庫虛擬篩選等進行了探索，通過使用Prody 中的DruGUI 模塊從可藥性模擬中識別熱點、藥物作用部位高親和力殘基的篩選、基于發(fā)生頻率的殘基–探針相互作用排序成功構(gòu)建藥效團模型，且此軟件可從網(wǎng)頁中獲取應用于實驗。

1.1.2 基于配體（小分子化合物）現(xiàn)代計算機數(shù)據(jù)庫中能夠免費獲得的分子數(shù)量龐大，因此計算機輔助配體發(fā)現(xiàn)成為早期配體發(fā)現(xiàn)的替代方案，也被稱為虛擬篩選。基于配體的虛擬篩選側(cè)重于沒有靶標結(jié)構(gòu)情況下的配體結(jié)構(gòu)及其理化性質(zhì)，廣義上可成為基于配體的相似性搜索或?qū)傩灶A測的技術(shù)[26]。目前已有能夠?qū)Ψ肿犹卣鬟M行評估的機器學習框架和算法，可根據(jù)特定評估指標或累積得分判斷分子匹配度，對活性化合物開發(fā)起到參考作用。

Chaube 等[27]開發(fā)了用于預測鑭系元素與不同分子配體結(jié)合親和力的機器學習框架，通過6 種機器學習算法對已有結(jié)合親和力數(shù)據(jù)集進行訓練，并進行交叉驗證，隨后進行全面的特征工程和特征重要性分析，以確定相關(guān)性最佳的分子、金屬和溶劑特征，同時給出特征空間的維度評估性能指標。Da’adoosh 等[28]提出應用機器學習算法構(gòu)建基于配體的多翼排序模型，包含4 個物理化學性質(zhì)反位積和的過濾器組成的模型，能夠預測具有高度多樣化結(jié)構(gòu)的新型生物活性物質(zhì)，并結(jié)合對接和幾何過濾對高活性分子進行篩選。分子通過過濾器產(chǎn)生的分數(shù)最終累積為MBI 分數(shù)，從而發(fā)現(xiàn)具有新支架的新配體，且具有更優(yōu)的、能夠避免產(chǎn)生與已知結(jié)構(gòu)相似化合物的能力。Sun 等[29]使用抑制劑模型和分子對接的方法進行數(shù)據(jù)庫篩選，從而獲得潛在的抑制劑親和力數(shù)據(jù)。此研究證明了歸納邏輯編程方法在基于配體的化合物虛擬篩選中的應用，該方法基于實驗證實的化合物分子結(jié)構(gòu)和所需靶標的知識背景進行機器學習，并且歸納邏輯編程方法，可以由研究中的特定類型化合物推廣應用于其他需要大量信息表示和自動推導的化學物質(zhì)虛擬篩選。

1.1.3 基于靶體（藥物–靶標相互作用）體外實驗預測藥物–靶標相互作用（DTI）費用高、耗時長，而機器學習算法將化學結(jié)構(gòu)和靶點蛋白特征及其序列相結(jié)合進行預測，通過化合物與靶標之間結(jié)合親和力的計算進行預測，能夠大量減少實驗室實驗的數(shù)量，大大提高發(fā)現(xiàn)先導化合物的概率[20,30-33]。

Ye 等[34]提出“AdvB-DTI”模型，模型中藥物和靶標表達譜的特征通過矩陣分解與對抗性貝葉斯個性化排序相關(guān)聯(lián)，根據(jù)已知的藥物–靶標關(guān)系，生成一組三元偏序關(guān)系，使用對抗性貝葉斯個性化排序，利用這些偏序關(guān)系訓練藥物和靶點的潛在因子矩陣，并根據(jù)得分排名對DTI 進行預測。由于此模型將流程與擾動因子和雙重相抵正則相結(jié)合，使模型更穩(wěn)定，訓練結(jié)構(gòu)也更加準確。Wang 等[35]提出“DLGRMC”模型，是一種有效的對偶拉普拉斯圖正則化矩陣補全計算模型。此模型將藥物與靶標相互作用的預測轉(zhuǎn)化為矩陣補全問題，在矩陣補全過程中進行藥物與靶標相互作用得分預測，并且模型中充分利用率藥物化學結(jié)構(gòu)相似性和靶標基因組序列相似性，即此模型對化學結(jié)構(gòu)相似的藥物和基因組序列相似的靶標相互作用具有預測作用。Yuan等[36]提出“DrugE-Rank”模型，將機器學習基于特征的方法和基于相似性的方法優(yōu)勢結(jié)合，提高了預測性能。此模型將藥物靶標相互作用的預測建模為多標簽分類任務，然后基于特征的機器學習方法將多標簽分類，轉(zhuǎn)化成標簽排名，通過基于相似性的機器學習方法輸出藥物和靶標的特征作為學習排名的輸入，得到藥物靶標相互作用結(jié)果預測。

1.2 機器學習應用于先導化合物的發(fā)現(xiàn)與優(yōu)化

先導化合物是通過各種途徑和手段得到的具有某種生物活性和化學結(jié)構(gòu)的化合物，用于進一步結(jié)構(gòu)改造和修飾，是現(xiàn)代新藥研究的出發(fā)點。在新藥研究過程中，通過化合物活性篩選獲得具有生物活性的先導化合物是創(chuàng)新藥物研究的基礎。先導化合物的生成和優(yōu)化可以通過聯(lián)合計算和實驗研究實現(xiàn)，使用從頭設計和虛擬篩選兩種方法[37]。目前已有計算機技術(shù)能夠根據(jù)靶標蛋白結(jié)構(gòu)直接構(gòu)建與目標口袋結(jié)合的化合物，并且已有大量化合物數(shù)據(jù)庫可供使用，通過虛擬篩選確定有價值的化合物，對其進行修飾，以獲得具有生物活性的化合物。

1.2.1 藥物從頭設計藥物從頭設計是一種基于結(jié)構(gòu)的藥物設計方法，目標是提出具有預期藥理活性和性質(zhì)的新分子結(jié)構(gòu)。常規(guī)藥物分子從頭設計包括基于結(jié)構(gòu)和基于配體的設計方法，而隨著計算機輔助藥物設計的發(fā)展，人工智能算法、藥物從頭設計逐漸受到廣泛關(guān)注[38-39]。

Wei 等[40]提出CoV_FB3D 方法，為識別與靶標蛋白最匹配的共價化合物提供了一種機器學習方法。該方法基于靶標蛋白結(jié)合口袋中具有最大藥效團特征的藥物片段位置，對有效的共價命中進行基于結(jié)構(gòu)的計算機組裝，可采用綜合評分策略評估每種化合物的可合成性。Friedrich 等[41]提出一種能夠合成天然產(chǎn)物模擬物的靶標識別和從頭設計策略，在快速的設計–制造–測試–分析周期中將自動化的、基于規(guī)則的分子構(gòu)建與機器學習和實驗驗證相結(jié)合，并用于目標分子預測。Morris 等[42]提出一種新的機器學習算法模型，以自動生成具有化學多樣性、合成可及性和生物活性的化合物為目標，主要包括化合物優(yōu)先排序和化學空間探索兩部分，且通過實驗證明該模型在化合物擴展中具有實用性。

1.2.2 藥物重定位傳統(tǒng)藥物發(fā)現(xiàn)中通常使用一種“單靶點–單藥物–特定疾病”的觀念，但這種觀念存在一定局限性，只能開發(fā)一種藥物對某種疾病的單一靶點進行調(diào)節(jié)，而具有次級靶點的藥物可能會導致不良反應的發(fā)生，也可能是新的疾病治療的機會[43]。因此，藥物重定位對于藥物研發(fā)是十分必要的。機器學習算法可將不同的靶點信息、小分子化合物特征以及疾病相關(guān)基因序列等信息相結(jié)合，通過模擬計算打分進行藥物重定位。

Emon 等[44]基于真實基因表達特征和GWAS 數(shù)據(jù)提出“PS4DR”模型，能夠?qū)⒍嗄Ｊ綌?shù)據(jù)與不同數(shù)據(jù)庫的路徑信息集成，預測不同疾病中藥物重新定位的自動化工作流程。此模型通過GWAS 數(shù)據(jù)篩選疾病和藥物基因表達特征，隨后通過篩選的數(shù)據(jù)集進行路徑分析，并對疾病和藥物特征進行計算，最后通過計算疾病與藥物路徑特征的關(guān)聯(lián)分數(shù)來執(zhí)行反相關(guān)分析，以確定不同疾病的藥物優(yōu)先順序。Rodriguez 等[45]提出一種機器學習框架“DRIAD”，用于評估阿爾茲海默病和能夠通過基因列表描述的任何生物過程之間的潛在關(guān)系。與傳統(tǒng)方法相比，此框架不需要在整個基因空間的基礎上構(gòu)建模型，在模型訓練和預測期評估之前通過過濾轉(zhuǎn)錄組空間中與藥物相關(guān)的基因獲得有限的特征集，直接、無差別地量化藥物作用和阿爾茲海默病進展之間的關(guān)系。Zhao 等[46]提出一種機器學習工作流程，通過基于藥物表達譜預測特定疾病的適應癥，進行藥物發(fā)現(xiàn)和重定位。此模型只考慮藥物適應癥和藥物誘導的轉(zhuǎn)錄變化，因此適用于任何可獲得表達譜的化合物或藥物。此外，模型中對藥物轉(zhuǎn)錄組的使用避免了明確靶點和了解作用機制，甚至可將模型擴展到化學成分混合的藥物中，如中藥。但此模型不包括的已知藥物靶點、藥物化學性質(zhì)等有待改進。

1.3 機器學習應用于候選藥物的確定

候選藥物是指先導化合物經(jīng)過結(jié)構(gòu)修飾后得到的化合物，此類化合物的活性、安全性、藥動學性質(zhì)、選擇性等并不確定，是需要臨床研究以確定其性質(zhì)和修飾方案的化合物。在藥物再利用過程中，藥物和候選藥物都可與藥物開發(fā)平臺合作，生成藥物或候選藥物的可行靶標譜以便對化合物進行篩選，將藥物和候選藥物應用于新的靶點[47-49]。

大數(shù)據(jù)時代，候選藥物的數(shù)量集越來越大，將機器學習算法應用于候選藥物的確定，能夠有效提高藥物研發(fā)效率，且部分已報道算法模型還可應用于不同類別疾病模型的候選藥物確定，甚至可用于活性物質(zhì)篩選相關(guān)的其他領域。

Theodoris 等[50]開發(fā)了識別廣泛糾正人類多能干細胞疾病候選藥物的一種機器學習方法。該方法進行了人類疾病相關(guān)的誘導多能干細胞的藥物篩選，且在人原代細胞和小鼠模型中進行了驗證，最終確定了靶向人類心臟病的潛在候選治療分子。Oliveira 等[51]使用分子建模技術(shù)從藥物數(shù)據(jù)庫中獲得對抗SARS-CoV-2 的候選藥物。在此研究中，通過將分離的S-蛋白溶解在水中進行分子動力學模擬，觀察到蛋白受體結(jié)合域構(gòu)象轉(zhuǎn)變，且轉(zhuǎn)變后的受體結(jié)合域更容易接觸到溶劑和可能的藥物。研究從平和的分子動力學結(jié)構(gòu)出發(fā)，通過對接計算對美國食品藥品管理局（FDA）批準的藥物庫進行虛擬篩選。Margulis 等[52]提出機器學習方法模型“BitterIntense”，此模型依據(jù)化合物的化學結(jié)構(gòu)計算出描述符，將化合物分為“非常苦”和“不很苦”兩類，對藥物適口性進行預測，且在測試集中具有80%以上的準確率。隨后對“非常苦”化合物在數(shù)據(jù)集中進行評估，以說明其性質(zhì)與可能的毒性和療效的關(guān)系，以便為候選藥物的確定提供參考。

1.4 機器學習應用于成藥性優(yōu)化

成藥性是先導化合物的優(yōu)化和候選藥物的目標，指具有藥理作用、能夠進入Ⅰ期臨床并且具有適宜藥動學性質(zhì)和安全性的藥物性質(zhì)，成藥性評估和優(yōu)化是藥物開發(fā)的重要過程[53-55]。目前，成藥性主要是對藥物有效性、藥動學特性和安全性進行評價。大數(shù)據(jù)和人工智能技術(shù)對藥物安全性評價和改進提供了機會，已有研究表明，人工智能技術(shù)在藥物安全評價中發(fā)揮重要作用，能夠通過評估藥物各種特征來預測藥物毒性[56]。機器學習算法用于藥物成藥性優(yōu)化可從藥物有效性、藥動學特性和藥物安全性評價等方面進行預測，減少了藥物設計和優(yōu)化過程中常見的人為錯誤和偏差，減少了測試所需的候選化合物的數(shù)量，將候選化合物的測試時間大大縮短，且使疾病生物學的重現(xiàn)比體外分析更有效[57]。

Chen 等[58]提出使用計算機輔助技術(shù)結(jié)合藥物在大鼠體內(nèi)的藥動學、絕對生物利用度和組織分布來預測藥物的成藥性，是一種活性化合物的快速篩選和初步評價的方法。首先利用分子對接技術(shù)檢測藥物與靶點的結(jié)合部位，然后利用ACD/Percepta 軟件根據(jù)定量構(gòu)效關(guān)系預測藥效性，最后通過高效液相色譜法測定藥物在大鼠體內(nèi)的藥動學和組織分布。Zhang 等[59]利用樸素貝葉斯、支持向量機、遞歸劃分、k 鄰近、C4.5 決策樹、隨機森林和Adboost 7 種機器學習方法建立了用于發(fā)育毒性預測的二進制分類模型。通過實驗驗證，顯示樸素貝葉斯分類器的預測性能和穩(wěn)定性最好，可用于藥物開發(fā)中對藥物化學發(fā)育毒性的預測。Zhou 等[60]提出一種基于多標簽增強型隨機森林的“MEDICASCY”機器學習模型。此模型在給定小分子結(jié)構(gòu)的情況下，即可對藥物分子的不良反應、適應癥、療效和作用方式進行預測，與許多已有方法模型的預測效果相當，甚至更好，且通過實驗驗證，此模型可用于篩選小分子庫中不良反應較小，且適應癥概率更高的藥物，為化合物成藥性優(yōu)化提供參考。

可使用機器學習模型信息見表1。

表1 可使用機器學習模型Table 1 Available machine learning models

2 深度學習在藥物研發(fā)中的應用

深度學習是傳統(tǒng)機器學習的延伸發(fā)展，也稱為人工神經(jīng)網(wǎng)絡，是由連接的人工神經(jīng)元組成的網(wǎng)絡系統(tǒng)，從而模仿人類的中樞神經(jīng)系統(tǒng)，其算法包括卷積神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡、深度神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡和自動編碼器網(wǎng)絡等[61-62]。

2.1 深度學習應用于藥物靶標發(fā)現(xiàn)

2.1.1 基于靶標（蛋白質(zhì)可藥性）靶標蛋白質(zhì)具有相對分子質(zhì)量大、分子結(jié)構(gòu)復雜、種類極其多樣和功能極為重要等特點，機器學習能夠解釋蛋白質(zhì)序列及其同源性如何控制殘基間的接觸和結(jié)構(gòu)組織[63]。而深度學習在生物信息學基礎上對大量生物數(shù)據(jù)分類、分析，從而完成蛋白質(zhì)靶標預測[64]。將深度學習與藥物靶標發(fā)現(xiàn)相結(jié)合，可有效提高靶點發(fā)現(xiàn)效率、準確性和有效性。

Littmann 等[65]提出一種用于預測蛋白質(zhì)殘基是否與金屬離子、核酸或小分子結(jié)合的深度學習模型“bindEmbed21”，由 bindEmbed21DL 和bindEmbed21HBI 兩個組件組成。該模型從預訓練的蛋白質(zhì)語言模型輸入蛋白質(zhì)表示，進而進行蛋白質(zhì)殘基與小分子結(jié)合預測，從而對所有可用的蛋白質(zhì)序列進行快速預測。Kandel 等[66]提出了一個深度學習模型“PUResNet”和一種基于結(jié)構(gòu)相似性的新型數(shù)據(jù)清理過程，用于預測蛋白質(zhì)–配體結(jié)合位點。該模型主干為ResNet 架構(gòu)，包含編碼器和解碼器兩個模塊，兩個模塊間存在用于解決梯度消失問題的跳躍連接。經(jīng)實驗驗證，在使用距離、體積和比例指標評估兩個獨立測試集Coach420 和BU48時，取得了比現(xiàn)有方法kalasanty 更好更合理的性能。Kozlovskii 等[67]提出了一種深度學習方法模型“BiteNet（結(jié)合位點神經(jīng)網(wǎng)絡）”，適用于蛋白質(zhì)結(jié)合位點的大規(guī)模時空識別。該模型通過計算機視覺方法進行物體檢測，將蛋白質(zhì)的三維結(jié)構(gòu)表示為具有對應于原子密度通道的3D 圖像，通過對構(gòu)象集合的大規(guī)模分析來探索蛋白質(zhì)特性，從而檢測到相關(guān)結(jié)合位點，并用于基于結(jié)構(gòu)的藥物設計。

2.1.2 基于配體深度學習算法能夠從現(xiàn)有化合物中提取更完善的特征，并根據(jù)提取的特征設計新的化合物[68]，也對小分子配體的特征進行學習，建立數(shù)據(jù)集并開發(fā)數(shù)據(jù)預測模型，從而以配體為基礎對藥物-靶點相互作用進行智能預測。

Qiang 等[69]提出了應用遷移學習方法的深度學習算法“多層感知器（MLP）”，用于天然產(chǎn)物靶標預測。該模型在去除天然產(chǎn)物信息的ChEMBL 數(shù)據(jù)集上訓練深度學習模型，借助數(shù)據(jù)集的知識學習結(jié)構(gòu)和靶標之間的關(guān)系，隨后使用具有更高效率的天然產(chǎn)物數(shù)據(jù)集對其進行微調(diào)，從而預測不同化合物的靶標，并調(diào)整其參數(shù)，以輔助基于天然產(chǎn)物結(jié)構(gòu)的先導化合物發(fā)現(xiàn)。Gonczarek 等[70]提出1 種預測蛋白質(zhì)–分子對的結(jié)合能力深度學習框架，可用于基于結(jié)構(gòu)的虛擬篩選，通過對分子應用可學習的原子卷積和softmax 操作生成蛋白質(zhì)和小分子指紋。將指紋進行進一步非線性變換，計算其內(nèi)積，并用于預測蛋白質(zhì)和小分子的結(jié)合潛力。同時，研究者提出建立在PDBBind、DUD-E 和MUV 數(shù)據(jù)上的新的基準數(shù)據(jù)集，為該深度學習模型識別目標蛋白配體提供參考。Khurana 等[71]提出一種用于蛋白質(zhì)溶解度預測的深度學習模型“DeepSol”。該模型通過卷積神經(jīng)網(wǎng)絡識別蛋白質(zhì)序列中的k-mer 結(jié)構(gòu)和蛋白質(zhì)溶解度之間的關(guān)系，通過從原始輸入序列中提取判別特征優(yōu)化模型，提高溶解度預測，從而對藥物研究和生產(chǎn)提供一定的參考。

2.1.3 基于靶體（藥物–靶點相互作用）傳統(tǒng)機器學習方法往往將藥物和靶標編碼器表述為兩個獨立的模塊，而不考慮它們之間的關(guān)系[72]，而深度學習算法模型可通過使用已知的藥物–靶標相互作用信息對潛在的藥物-靶標相互作用進行預測，無需額外的化學機構(gòu)、蛋白質(zhì)結(jié)構(gòu)或序列等即可有效提高預測效率和精確度，大大加快了識別藥物與靶蛋白相互作用的過程[73-74]。

Masoudi-Sobhanzadeh 等[75]提出“Trader”模型，使用此模型設計并訓練了一個多層人工神經(jīng)網(wǎng)絡來對藥物–靶標相互作用進行預測。經(jīng)過準確度、敏感度、特異度和精密度等檢測，其結(jié)果比以往算法更優(yōu)。Liu 等[76]提出一種基于多信息加權(quán)融合的藥物靶點相互作用預測方法，此方法將交互關(guān)系未知的樣本視為未標記樣本，篩選出可能具有交互作用但未經(jīng)實驗驗證的樣本，并根據(jù)篩選結(jié)果修改原始數(shù)據(jù)集。經(jīng)過試驗驗證，發(fā)現(xiàn)該加權(quán)融合方法更加合理，提高了篩選結(jié)果的有效性和可靠性。但該方法存在一定局限性，在樣本數(shù)較多的數(shù)據(jù)集中表現(xiàn)良好，但樣本數(shù)較少的數(shù)據(jù)集中泛化能力不足。Chen 等[77]開發(fā)了一種藥物–靶標相互作用預測系統(tǒng)，該系統(tǒng)使用了具有注意力機制和注意力雙向長短期記憶（BiLSTM）圖神經(jīng)網(wǎng)絡的端到端表示學習進行預測，且通過一種來自轉(zhuǎn)換器預訓練方法的雙向編碼器從蛋白質(zhì)序列中提取子結(jié)構(gòu)特征，病因注入一種局部廣度優(yōu)先搜索模型，從分子圖中學習子圖信息。此方法在Human Dataset、DUD-E Dataset和MUV target proteins 3 個數(shù)據(jù)集上均具有較好的預測性能，可用于篩選特定蛋白質(zhì)的潛在藥物。

2.2 深度學習應用于先導化合物的發(fā)現(xiàn)與優(yōu)化

2.2.1 藥物從頭設計隨著高通量篩選和虛擬篩選技術(shù)的使用，基于配體的深度學習藥物設計模型已經(jīng)取得了一定的成功，但存在數(shù)據(jù)不足的問題，利用深度學習算法和分子建模方法對藥物進行從頭設計提供了一個有效的解決途徑[78-79]。在目標靶點已知的情況下，深度學習模型可以根據(jù)不同的使用需求建模，此類模型大多通過長短期記憶網(wǎng)絡進行循環(huán)訓練和微調(diào)，以完全數(shù)據(jù)驅(qū)動的方式進行訓練，并逐漸獲得與靶點結(jié)合效率更高的藥物分子，同時不需要大量的靶點配體數(shù)據(jù)支撐[80-81]。

Grisoni 等[82]提出深度學習自動化分子設計模型“設計–制造–測試–分析框架”，該模型基于長短期記憶細胞的循環(huán)神經(jīng)網(wǎng)絡用于生成對選定大分子靶標具有生物活性和可在微流體合成平臺上合成的化合物，實驗表明該模型捕獲所需分子特性的能力以及支持自動化的潛力較好。Arshia 等[83]提出一種藥物從頭設計的深度學習方法，通過對長短期記憶網(wǎng)絡進行訓練和微調(diào)，生成隨著訓練逐漸增加結(jié)合能的配體。此外，該模型能夠通過對接模擬的聚類分析確定排名靠前的代表性結(jié)構(gòu)，并進行分子動力學模擬，然后進行分子力學泊松–玻爾茲曼表面積分析，驗證得到的化合物分子的相互作用和結(jié)合親和力。Popova 等[84]提出用于藥物分子的從頭設計模型“ReLeaSE（Reinforcement Learning for Structural Evolution）”。該模型在深度學習和強化學習方法的基礎上集成了生成式和預測式兩個深度神經(jīng)網(wǎng)絡，二者分別進行監(jiān)督學習算法訓練，隨后都與強化學習方法聯(lián)合訓練，以便產(chǎn)生的化學分子結(jié)構(gòu)具有所需的物理、化學或生物學特性。此模型具有不需要手動輸入分子特征集的優(yōu)點。除此之外，深度學習還能夠應用于雙靶點配體的從頭生成。Lu 等[85]建立了深度學習計算框架“雙靶點配體生成網(wǎng)絡”，該模型通過對抗訓練和強化學習，將基于序列的簡化分子輸入線輸入系統(tǒng)生成器作為探索化學空間的隨機策略，使用兩個判別器鼓勵生成屬于兩個生物活性化合物分別交叉點的分子。實驗表明，該模型可以在多個基于結(jié)構(gòu)的指標中生成與兩個生物活性數(shù)據(jù)集高度相似的新化合物，且與各種最先進的多目標分子生成模型具有相當?shù)男阅堋?/p>

2.2.2 藥物重定位采用現(xiàn)有的藥物重新定位方法進行捕捉高度非線性的、不同種類的網(wǎng)絡結(jié)構(gòu)具有一定的難度，而基于深度學習的大規(guī)模、異質(zhì)生物網(wǎng)絡算法為藥物重定位提供了新的機遇[86]。

已報道的深度學習模型具有將藥物與疾病相關(guān)聯(lián)并對小分子化合物進行虛擬篩選的功能，從而將已有藥物應用于新的靶點，適用于化學合成藥物的同時也可應用于天然產(chǎn)物再利用。Liu 等[87]提出一個高通量的藥物再利用計算模型，遵循了隨機臨床試驗設計方案，且通過計算篩選重定位藥物，由于實際數(shù)據(jù)具有時間序列和混雜變量的特征，應用深度學習和因果推理方法即長短期記憶和治療加權(quán)逆概率來控制實際數(shù)據(jù)中的混雜因素，并系統(tǒng)估計藥物對不同疾病的影響。與臨床前方法相比，此模型具有轉(zhuǎn)化問題更少、更穩(wěn)定的優(yōu)勢。Yi 等[88]開發(fā)了一種深度門控循環(huán)單元模型“DDIPreD”，使用綜合相似性度量和高斯交互輪廓核和門控循環(huán)神經(jīng)網(wǎng)絡預測潛在的藥物–疾病關(guān)聯(lián)關(guān)系，發(fā)現(xiàn)現(xiàn)有的藥物新適應癥，從而促進藥物研發(fā)進程。且實驗結(jié)果證明，該模型在兩個基準數(shù)據(jù)集數(shù)據(jù)集上取得顯著性能，能夠有效預測藥物新適應癥或疾病新療法，加速藥物重新定位和相關(guān)藥物研究發(fā)現(xiàn)。Xu等[89]提出一種基于深度學習的虛擬篩選系統(tǒng)，該模型在相關(guān)數(shù)據(jù)集中獲取一個天然產(chǎn)物分子，使用神經(jīng)網(wǎng)絡模型預測該分子的溶劑分解和氧化產(chǎn)物，隨后將預測產(chǎn)物與同一生物來源的其他天然產(chǎn)物分子進行匹配，匹配成功后即可將天然產(chǎn)物和預測產(chǎn)物標記為潛在藥物分子，從而對天然產(chǎn)物、人工合成分子的藥物進行預測發(fā)現(xiàn)。

2.3 深度學習應用于候選藥物的確定

深度學習模型能夠獨立學習復雜的特征信息，減少甚至避免人工輸入過程，標準化、可靠的大型數(shù)據(jù)集能夠進行較準確地預測。利用深度神經(jīng)網(wǎng)對數(shù)據(jù)庫中的分子進行學習，將原始分子轉(zhuǎn)換為分子指紋圖譜等信息，可大大提高人工智能算法的分子預測性能。因此，將有效的深度學習模型用于候選藥物確定，可以在很大程度上提高藥物發(fā)現(xiàn)的效率。

Puentes 等[90]提出一種用于預測分子與可能蛋白質(zhì)靶點受體結(jié)合的深度學習框架“PharmaNet”，利用循環(huán)神經(jīng)網(wǎng)絡在大型數(shù)據(jù)庫中進行主動分子預測，進行候選藥物篩選。該算法主要包括SMILES 將分子裝換為原始分子圖像、卷積編碼器處理數(shù)據(jù)和循環(huán)神經(jīng)網(wǎng)絡分析的指紋分子圖像3 個階段。該模型的預測性能提升到65.5%，超過目前已有大部分模型。Woo 等[91]提出“DeepCOP”深度學習模型，該模型結(jié)合分子指紋描述符和基因描述符對預測LINCS 數(shù)據(jù)庫中收集的差異基因調(diào)控端點的深度神經(jīng)網(wǎng)絡進行訓練。此模型應用于內(nèi)部訓練集時預測效果較好，但應用于外部數(shù)據(jù)集時效果不理想，可依據(jù)更豐富的外部數(shù)據(jù)和更標準化和可控的實驗條件改進，從而用于篩選不斷增長的大量可用化學物質(zhì)庫，尋找具有所需基因調(diào)節(jié)特性并可以操縱細胞通路的候選藥物。Arshadi 等[92]提出深度學習模型“DeepMalaria”，能夠使用SMILES 預測化合物抗惡性瘧原蟲抑制特性。該模型在公開數(shù)據(jù)集上進行訓練，使用大量不相關(guān)數(shù)據(jù)的遷移學習對進行補充訓練，使用自動特征提取學習分子內(nèi)模式，并推廣到新的、未知的數(shù)據(jù)集中，在獨立的大環(huán)測試數(shù)據(jù)集上進行測試，從而確定新的候選藥物。

2.4 深度學習應用于成藥性優(yōu)化

深度學習算法可以將疾病因子、患者情況、藥動學參數(shù)和候選藥物特征等數(shù)據(jù)轉(zhuǎn)化成圖譜，并對候選藥物進行識別，將疾病和藥物分子匹配、優(yōu)化，進行療效和不良反應預測，從而使化合物的成藥性提高[16,93-95]。

Zhu 等[96]提出基于深度學習的療效預測系統(tǒng)“DLEPS”，可以通過輸入患病狀態(tài)下基因表達譜對候選藥物進行識別，只需要基因特征即可預測高度多樣化和復雜疾病的候選分子，適用于數(shù)以萬計的功能基因組學研究，可對所有候選疾病治療化合物進行療效預測，還可以深入了解致病機制和易受攻擊的靶蛋白和途徑。Anastopoulos 等[97]提出一種將患者特定的人口統(tǒng)計學、臨床和遺傳特征與藥物結(jié)構(gòu)相結(jié)合的模型，為可擴展的圖卷積方法，能夠整合典型患者正在服用藥物的分子效應，從而預測藥物的不良反應。且該模型在預測UK Biobank 數(shù)據(jù)集任務中明顯優(yōu)于標準機器學習方法，有很大可能用于現(xiàn)實中不同人群中藥物的個體化毒性，對其成藥性提供一定的參考。Ye 等[98]建立了一個可用于藥動學參數(shù)預測的算法，該算法包含4 個關(guān)鍵人體藥動學參數(shù)數(shù)據(jù)，并引入大型生物活性數(shù)據(jù)集，使用集成遷移學習和多任務學習方法訓練深度神經(jīng)網(wǎng)絡。與其他機器學習方法相比，該算法可以自動從原始數(shù)據(jù)中提取關(guān)鍵特征或分子描述符，將原始數(shù)據(jù)轉(zhuǎn)換為更高級別的特征，且具有更高的準確性和泛化能力。可使用深度學習模型信息見表2。

表2 可使用深度學習模型Table 2 Available deep learning models

3 結(jié)語與展望

隨著大數(shù)據(jù)的廣泛應用和計算機技術(shù)不斷發(fā)展，藥物研發(fā)領域也不斷走向人工智能。根據(jù)已有文獻報道，人工智能技術(shù)在藥物研發(fā)的各個環(huán)節(jié)均有應用，雖然大多數(shù)機器學習和深度學習算法的應用并不盡善盡美，但也都在某方面甚至幾個方面具有突出優(yōu)勢，且隨著算法的不斷優(yōu)化，人工智能模型預測結(jié)果也更加準確，甚至能夠預測出訓練集之外的衍生數(shù)據(jù)。將人工智能技術(shù)與藥物研發(fā)相結(jié)合是一個不斷發(fā)展的過程，從藥物發(fā)現(xiàn)到藥效評價的每一個環(huán)節(jié)都可以開發(fā)相應的技術(shù)模型，人工智能技術(shù)將可能成為未來藥物研發(fā)的一個重要途徑，能夠廣泛應用于化學藥物、天然產(chǎn)物以及中藥的開發(fā)，同時藥物研發(fā)方法也邁上新的臺階。

利益沖突所有作者均聲明不存在利益沖突

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放