梁禮,鄧成龍,張艷敏,滑藝,劉海春,陸濤,陳亞?wèn)|
(中國(guó)藥科大學(xué)理學(xué)院,江蘇 南京 211198)
隨著疾病多樣性和藥物耐藥問(wèn)題頻出,藥物需求日益增加,但新藥研發(fā)存在研發(fā)周期長(zhǎng)、成本高和成功率低等風(fēng)險(xiǎn)。一般而言,一個(gè)創(chuàng)新藥從研發(fā)到最后上市,需要花費(fèi)數(shù)十億美元和10 ~ 15 年的時(shí)間[1]。盡管投入高,耗時(shí)長(zhǎng),小分子藥物最終上市的成功率僅為13%,失敗風(fēng)險(xiǎn)較高[2]。計(jì)算機(jī)輔助藥物設(shè)計(jì)能極大地縮短藥物研發(fā)時(shí)間,提高藥物研發(fā)成功率。傳統(tǒng)的藥物篩選方法有分子對(duì)接、藥效團(tuán)匹配和相似性搜索等。近年來(lái)隨著計(jì)算機(jī)計(jì)算能力的高速發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),人工智能助力藥物研發(fā)迎來(lái)了極大的發(fā)展機(jī)遇。
近年來(lái)計(jì)算機(jī)輔助藥物設(shè)計(jì)在藥物發(fā)現(xiàn)領(lǐng)域也不乏一些成功的案例。中國(guó)藥科大學(xué)陸濤教授課題組[3]的Flt3(Fms-like tyrosine kinase)小分子抑制劑正在進(jìn)行I 期臨床試驗(yàn),該抑制劑從先導(dǎo)化合物的發(fā)現(xiàn)到后續(xù)的優(yōu)化評(píng)價(jià)均是在計(jì)算機(jī)輔助藥物設(shè)計(jì)的指導(dǎo)下完成。英屬哥倫比亞大學(xué)Li 等[4]利用計(jì)算機(jī)輔助藥物設(shè)計(jì)方法,從苗頭化合物發(fā)現(xiàn)到候選化合物性質(zhì)評(píng)價(jià),完成雄激素受體抑制劑的臨床前研究,并已將成果轉(zhuǎn)讓。加州大學(xué)Manglik 等[5]利用基于結(jié)構(gòu)的藥物設(shè)計(jì)方法發(fā)現(xiàn)了一類新型的具有止痛作用的阿片受體激動(dòng)劑。來(lái)自Insilico Medicine 和藥明康德等機(jī)構(gòu)的研究人員[6]開發(fā)了一種人工智能算法(GENTRL 模型),在21 天內(nèi)就設(shè)計(jì)出了DDR1(discoidin domain receptor 1)激酶抑制劑的潛在分子結(jié)構(gòu),并在46 天內(nèi)完成初步生物學(xué)驗(yàn)證。GENTRL 模型只用了46 天的時(shí)間,就完成了傳統(tǒng)方法用數(shù)月到數(shù)年的時(shí)間所完成的工作,大大節(jié)省了藥物的研發(fā)時(shí)間和高昂的研發(fā)費(fèi)用。
人工智能與藥物研發(fā)相結(jié)合應(yīng)用的主要場(chǎng)景包括藥物靶點(diǎn)預(yù)測(cè)、高通量篩選、藥物設(shè)計(jì)和藥物的吸收、分配、代謝、排泄和毒性(absorption,distribution, metabolism,excretion and toxicity,ADMET)等性質(zhì)預(yù)測(cè)。人工智能涵蓋了機(jī)器學(xué)習(xí)和深度學(xué)習(xí),而深度學(xué)習(xí)又屬于機(jī)器學(xué)習(xí)的子領(lǐng)域。機(jī)器學(xué)習(xí)算法在藥物研發(fā)領(lǐng)域被廣泛用于分類和回歸預(yù)測(cè)等方面。與機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)適合處理大數(shù)據(jù),模型也相對(duì)復(fù)雜。隨著大數(shù)據(jù)時(shí)代的到來(lái)和計(jì)算機(jī)性能的不斷增強(qiáng),近年來(lái)越來(lái)越多的人工智能算法模型被提出、如圖1 所示,最早應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域的有決策樹,隨機(jī)森林和支持向量機(jī)等機(jī)器學(xué)習(xí)模型,隨著計(jì)算機(jī)性能的不斷提高和大數(shù)據(jù)時(shí)代的到來(lái),深度神經(jīng)網(wǎng)絡(luò)、卷積深度網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法逐漸發(fā)展,其在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用也越來(lái)越廣泛。本文將主要介紹機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用。
在過(guò)去的10 年間,人工智能在很多領(lǐng)域都有廣泛的應(yīng)用。繼機(jī)器學(xué)習(xí)后,深度學(xué)習(xí)模型被提出并應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域。常見的機(jī)器學(xué)習(xí)算法包括決策樹(decision tree)、隨機(jī)森林(random forest)、支持向量機(jī)(support vector machine,SVM),k-最近鄰算法(k-nearest neighbor model)和樸素貝葉斯(Na?ve Bayes)算法。深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的主要區(qū)別是數(shù)據(jù)量的大小及模型的復(fù)雜度,深度學(xué)習(xí)模型更復(fù)雜,需要的數(shù)據(jù)量也更大。深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的子領(lǐng)域,近年來(lái)隨著計(jì)算性能的高速發(fā)展及圖形處理單元(graphics processing unit,GPU)的應(yīng)用,深度學(xué)習(xí)模型的應(yīng)用越來(lái)越廣泛,主要有深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和自編碼器。
決策樹是一種將決策流程以樹狀結(jié)構(gòu)清晰表示的機(jī)器學(xué)習(xí)方法,本質(zhì)上是通過(guò)一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過(guò)程。如圖2a 所示,在決策樹模型中,每個(gè)決策樹的非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出,而每個(gè)葉子節(jié)點(diǎn)存放一個(gè)類別。選擇屬性和剪枝是構(gòu)建決策樹的2 個(gè)基本步驟。首先,選擇根節(jié)點(diǎn)屬性對(duì)輸入分子進(jìn)行測(cè)試,依據(jù)是否符合根節(jié)點(diǎn)屬性將分子劃分到下一個(gè)決策節(jié)點(diǎn),再根據(jù)決策節(jié)點(diǎn)的屬性向下劃分子節(jié)點(diǎn),重復(fù)該過(guò)程直到最終劃分到葉子節(jié)點(diǎn)。其次,決策樹分支過(guò)多容易導(dǎo)致模型過(guò)擬合,需要使用修剪算法對(duì)生成的樹進(jìn)行剪枝,降低樹結(jié)構(gòu)的復(fù)雜性。
隨機(jī)森林是通過(guò)構(gòu)建多個(gè)決策樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器,其最終輸出的類別是由每個(gè)決策樹輸出的類別的眾數(shù)而決定,如圖2b 所示是一個(gè)隨機(jī)森林模型。每棵樹根據(jù)如下算法來(lái)建造[7]:用N來(lái)表示訓(xùn)練樣本的個(gè)數(shù),從N個(gè)訓(xùn)練樣本中以有放回抽樣的方式,取樣N次,用來(lái)訓(xùn)練一個(gè)決策樹;隨機(jī)從每個(gè)樣本的M個(gè)屬性中選取m個(gè)屬性,然后從m個(gè)屬性中通過(guò)信息增益選擇一個(gè)屬性作為該節(jié)點(diǎn)的分裂屬性,直到該節(jié)點(diǎn)不能分裂為止;重復(fù)以上步驟構(gòu)建大量的決策樹,從而形成隨機(jī)森林。隨機(jī)森林在訓(xùn)練過(guò)程中會(huì)對(duì)數(shù)據(jù)進(jìn)行有放回的隨機(jī)抽樣,因此與決策樹相比隨機(jī)森林不太可能過(guò)擬合數(shù)據(jù),而且對(duì)數(shù)據(jù)分類的準(zhǔn)確度也較高。
SVM 由Vidyasagar 等[8]在1998 年提出,它能夠處理小數(shù)據(jù)集中的高維變量,可以用于分類和回歸問(wèn)題,但更多用在分類問(wèn)題上。如圖3 所示,對(duì)于線性可分?jǐn)?shù)據(jù)集,SVM 模型通過(guò)映射空間中的點(diǎn)來(lái)分離不同的類別,這樣能使不同類別的點(diǎn)之間的邊界最大化。對(duì)于線性不可分?jǐn)?shù)據(jù)集,SVM 使用核映射將非線性數(shù)據(jù)集放入高維特征空間用于線性分類。SVM 在數(shù)據(jù)分類領(lǐng)域應(yīng)用廣泛,在某些方面其分類效果要強(qiáng)于其他 機(jī)器學(xué)習(xí)方法。
k-最近鄰算法是一種用于分類和回歸的無(wú)監(jiān)督學(xué)習(xí)算法,由Cover 和Hart 在1968 年提出[9]。如圖4 所示,k-最近鄰算法基于某種距離度量找出訓(xùn)練集中與測(cè)試樣本最靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè),其核心思想是如果一個(gè)樣本在k個(gè)最鄰近的大多數(shù)樣本屬于某一個(gè)類別,則該樣本也屬于這一個(gè)類別。k-最近鄰算法是所有機(jī)器學(xué)習(xí)算法中最簡(jiǎn)單而且容易操作的一種算法,常用于化合物分類。在k-最近鄰模型中,每一個(gè)化合物代表一個(gè)樣本,分子描述符代表化學(xué)特征空間,如果一個(gè)化合物在化學(xué)特征空間中的k個(gè)最相鄰的大多數(shù)化合物屬于活性化合物,則該化合物理論上有較大的可能性也為活性化合物。
樸素貝葉斯分類器是應(yīng)用最為廣泛的分類算法之一,如圖5 所示是貝葉斯公式,對(duì)于事件A 和B,P(B|A)就是指在事件A 發(fā)生的條件下,事件B 發(fā)生的概率,又稱條件概率,P(B)和P(A)是沒(méi)有前提條件時(shí)事件B 和事件A 發(fā)生的概率,又稱先驗(yàn)概率。樸素貝葉斯算法最早由Duda 和Hart 在1973 年提出[10],根據(jù)貝葉斯原理來(lái)處理分類和回歸問(wèn)題[11]。貝葉斯分類器只需要少量的訓(xùn)練數(shù)據(jù)即可估計(jì)出一些必要的參數(shù),能夠在許多復(fù)雜的條件中取得較好的效果。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN),如圖6a 所示,由輸入層(藍(lán)色)、一個(gè)隱藏層(紅色)和輸出層(綠色)3 部分組成,每層都包含若干個(gè)神經(jīng)元,ANN 最早來(lái)源于1943 年McCulloch 等[12]的計(jì)算模型,19 世紀(jì)60 到80 年代現(xiàn)代人工神經(jīng)網(wǎng)絡(luò)開始發(fā)展并應(yīng)用于不同領(lǐng)域,但ANN 對(duì)訓(xùn)練數(shù)據(jù)容易出現(xiàn)過(guò)擬合問(wèn)題,其很快被其他機(jī)器學(xué)習(xí)算法如支持向量機(jī)代替。隨著計(jì)算機(jī)性能的發(fā)展,新的深度學(xué)習(xí)算法開始涌現(xiàn),其中包括深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)。如圖6b 所示,DNN 本質(zhì)上是具有多個(gè)隱藏層的ANN,它是最早應(yīng)用于藥物發(fā)現(xiàn)的深度學(xué)習(xí)算法之一。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),它在圖像識(shí)別領(lǐng)域的表現(xiàn)優(yōu)異。如圖7 所示,CNN 的核心一般由卷積層(綠色方塊)、池化層(藍(lán)色方塊)和全連接層(藍(lán)色圓圈)3 個(gè)部分組成,最后一列為輸出層,其中卷積層是最重要的一個(gè)部分,該層的參數(shù)由一系列過(guò)濾器又稱卷積核組成,使用不同的卷積核對(duì)輸入數(shù)據(jù)進(jìn)行卷積可以提取不同的特征,隨著原始特征的不斷提取壓縮,最終能提取到高層次的特征。卷積層的優(yōu)點(diǎn)在于其通過(guò)權(quán)值共享策略極大地縮小了參數(shù)的規(guī)模并逐漸建立空間和結(jié)構(gòu)的不變性[13]。池化層也稱為下采樣層,它用來(lái)壓縮特征空間,池化層可以降低噪聲的影響和參數(shù)的規(guī)模,提高模型的魯棒性。每個(gè)卷積層連接池化層構(gòu)成卷積模塊,一個(gè)CNN 通常有多個(gè)卷積模塊,用以提取特征。最后模型中會(huì)有一個(gè)或多個(gè)的全連接層,接受卷積模塊提取的特征并輸出結(jié)果。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),如圖8 所示,同樣由輸入層(藍(lán)色)、隱藏層(紅色)和輸出層(綠色)3 部分組成,RNN 是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),比如時(shí)間序列數(shù)據(jù),基因和蛋白序列數(shù)據(jù)或分子線性輸入字符串(SMILES)等[14],與普通的前饋神經(jīng)網(wǎng)絡(luò)不同,RNN 在其隱藏層的各節(jié)點(diǎn)之間建立了連接,使一個(gè)節(jié)點(diǎn)的輸入不僅包括輸入層的輸出,還包括上一時(shí)刻隱藏層節(jié)點(diǎn)的輸出,這是RNN 可用于處理序列數(shù)據(jù)的重要原因,同時(shí)RNN 也是唯一一個(gè)具有記憶能力的神經(jīng)網(wǎng)絡(luò)[15],但卻受到短期記憶的影響,因此產(chǎn)生了一些RNN 的改進(jìn)算法如長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)和GRU(gated recurrent unit)算法,RNN 在自然語(yǔ)言處理方面得到了廣泛的應(yīng)用,同時(shí)基于LSTM 和GRU 算法的RNN 在從頭藥物設(shè)計(jì)中也占據(jù)很重要的地位。
自編碼器(autoencoder,AE),是一種用于非監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),如圖9 所示,它具有輸入層(藍(lán)色)、隱藏層(紅色)和輸出層(綠色)3 層結(jié)構(gòu),包含編碼部分和解碼部分,編碼部分是一個(gè)將輸入層接受到的數(shù)據(jù)轉(zhuǎn)化為有限數(shù)量的隱藏層的神經(jīng)網(wǎng)絡(luò),然后通過(guò)解碼部分與輸出層連接,自編碼器的目的在于重構(gòu)輸入數(shù)據(jù),典型的就是用于數(shù)據(jù)降維[16]。自編碼器的概念已經(jīng)廣泛應(yīng)用于生成學(xué)習(xí)模型,并且經(jīng)過(guò)改進(jìn),產(chǎn)生了變分自編碼器和條件變分自編碼器等,它們?cè)谒幬锓肿由煞矫婢哂袕V泛的應(yīng)用。
在當(dāng)今大數(shù)據(jù)時(shí)代背景下,人工智能已經(jīng)滲透到各個(gè)領(lǐng)域。在藥物發(fā)現(xiàn)領(lǐng)域,人工智能在藥物靶點(diǎn)識(shí)別、化合物虛擬篩選和藥物性質(zhì)預(yù)測(cè)等方面得到越來(lái)越廣泛的應(yīng)用,如圖10 所示。
靶點(diǎn)是新藥研發(fā)的基礎(chǔ),因此藥物靶點(diǎn)的識(shí)別在藥物發(fā)現(xiàn)過(guò)程中尤為重要。近年來(lái)也有越來(lái)越多的靶點(diǎn)被發(fā)現(xiàn),然而相對(duì)于未知的靶點(diǎn),已發(fā)現(xiàn)的靶點(diǎn)只是冰山一角。若能在早期通過(guò)計(jì)算機(jī)預(yù)測(cè)藥物靶點(diǎn),縮短靶點(diǎn)發(fā)現(xiàn)周期,對(duì)藥物研發(fā)具有重要意義。
決策樹可用于預(yù)測(cè)藥物靶點(diǎn),Costa 等[17]基于決策樹分類器來(lái)預(yù)測(cè)與疾病相關(guān)的基因,最后他們發(fā)現(xiàn)了多種轉(zhuǎn)錄因子在代謝通路和細(xì)胞外定位中的調(diào)控作用?;诘鞍装悬c(diǎn)的化學(xué)結(jié)構(gòu)和幾何特征,Nayal 等[18]選取了99 個(gè)蛋白的99 個(gè)藥物結(jié)合位點(diǎn)和1 187 個(gè)非藥物結(jié)合位點(diǎn),然后構(gòu)建了一個(gè)隨機(jī)森林分類器來(lái)預(yù)測(cè)成藥靶點(diǎn)。Kumari 等[19]結(jié)合自助法(bootstrap)采樣提升了隨機(jī)森林算法,并成功從非藥物靶點(diǎn)中區(qū)分出了藥物靶點(diǎn)。針對(duì)乳腺癌、胰腺癌和卵巢癌等疾病,Jeon等[20]利用一系列基因數(shù)據(jù)集構(gòu)建了一個(gè)SVM 分類器,可將蛋白分為藥物靶點(diǎn)和非藥物靶點(diǎn)2 個(gè)類別。
藥物在人體內(nèi)可以同時(shí)作用多個(gè)靶點(diǎn),但如果作用于非靶向受體就會(huì)引起副作用。人工智能可以對(duì)候選化合物進(jìn)行篩選,更快篩選出作用于特定靶點(diǎn)且具有較高活性的化合物,為后期臨床試驗(yàn)做準(zhǔn)備。
決策樹模型可用于拓?fù)洚悩?gòu)酶Ⅰ抑制劑的分類和預(yù)測(cè)[21]。Neugebauer 等[22]利用低維定量構(gòu)效關(guān)系描述符建立決策樹來(lái)預(yù)測(cè)與蛋白相互作用的抑制劑,并通過(guò)建模技術(shù)進(jìn)一步修剪決策樹得到真陽(yáng)率更高的蛋白相互作用抑制劑。王潔雪等[23]采用決策樹與隨機(jī)森林2 種機(jī)器學(xué)習(xí)方法分別對(duì)脾酪氨酸激酶(spleen tyrosine kinase,Syk)抑制劑與非抑制劑建立模型,經(jīng)過(guò)對(duì)比,隨機(jī)森林具有更好的預(yù)測(cè)精度,采用隨機(jī)森林模型對(duì)Syk 抑制劑進(jìn)行虛擬篩選,從ZINC 分子數(shù)據(jù)庫(kù)篩選得到潛在的Syk 抑制劑分子。Warmuth 等[24]利用SVM方法生成最大間隔超平面來(lái)從一系列化合物中分離出活性化合物,結(jié)果表明SVM 的分類效果強(qiáng)于其他模型。Poorinmohammad 等[25]建立SVM 分類模型對(duì)抗人類免疫缺陷病毒(human immunodeficiency virus,HIV)肽進(jìn)行分類,預(yù)測(cè)準(zhǔn)確率達(dá)到了96.76%。SVM 也可以和其他方法結(jié)合用于化合物庫(kù)的虛擬篩選,有研究顯示組合SVM 和分子對(duì)接方法篩選化合物庫(kù)可大大提高活性化合物的命中率和富集因子[26]。貝葉斯模型能夠快速有效地識(shí)別大型化合物數(shù)據(jù)庫(kù),從化合物庫(kù)中篩選出活性化合物[27]。貝葉斯分類模型已成功用于許多抑制劑的虛擬篩選,如雷帕霉素蛋白酶抑制劑的虛擬篩選等[28]。k-最近鄰算法也可與其他特征選擇算法相結(jié)合。Weidlich 等[29]應(yīng)用k-最近鄰算法,同時(shí)結(jié)合模擬退火方法與隨機(jī)森林算法,從679 個(gè)藥物分子中篩選抗病毒藥物,他們的結(jié)果表明改進(jìn)的k-最近鄰算法模型優(yōu)于隨機(jī)森林算法模型。
藥代動(dòng)力學(xué)性質(zhì)不理想是藥物在臨床研究階段研發(fā)失敗的主要原因。因此在藥物研發(fā)早期階段對(duì)化合物成藥性和安全性進(jìn)行評(píng)估,對(duì)于提高藥物研發(fā)成功率、降低研發(fā)成本具有十分重要的意義。
Newby 等[30]構(gòu)建決策樹模型用來(lái)預(yù)測(cè)化合物滲透性和溶解性在藥物口服吸收過(guò)程中的作用,結(jié)果表明低滲透性高溶解性的化合物的腸道吸收率低,然而低溶解性高滲透性的化合物的腸道吸收率高。王昊等[31]利用樸素貝葉斯模型來(lái)進(jìn)行藥物不良反應(yīng)的預(yù)測(cè),結(jié)果發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)導(dǎo)致呼吸困難發(fā)生頻率在1%以上的藥物的預(yù)測(cè)準(zhǔn)確率可以達(dá)到86.76%。毒性是新藥開發(fā)的一項(xiàng)重要指標(biāo),在早期就排除一些毒性大的化合物對(duì)于新藥研發(fā)來(lái)說(shuō)非常有利。在2014 年的Tox21 數(shù)據(jù)挑戰(zhàn)賽中,Mayr 等[32]用多任務(wù)DNN建立了DeepTox 毒性評(píng)估模型從而贏得勝利,該模型在15 項(xiàng)挑戰(zhàn)中獲得9 項(xiàng)勝利,并且沒(méi)有任何一項(xiàng)低于前5 名。在他們的模型中使用了Dropout 方法和ReLu激活函數(shù),并且通過(guò)GPU 并行計(jì)算進(jìn)行模型訓(xùn)練。CNN 在性質(zhì)預(yù)測(cè)方面也有所應(yīng)用,例如Wallach 等[33]使用蛋白配體復(fù)合物結(jié)合位點(diǎn)的三維格點(diǎn)作為輸入,設(shè)計(jì)了第一個(gè)基于結(jié)構(gòu)的深度CNN,稱為AtomNet,該網(wǎng)絡(luò)被用于預(yù)測(cè)小分子的生物活性。AtomNet 可以在沒(méi)有活性化合物對(duì)照的情況下預(yù)測(cè)新的活性分子,在DUDE 基準(zhǔn)庫(kù)測(cè)試中,其受試者工作特征(receiver operating characteristics,ROC)曲線下面積(area under the curves,AUC)達(dá)到了0.9,遠(yuǎn)超先前的對(duì)接方法。ROC 曲線對(duì)于評(píng)價(jià)二分類模型非常有用,而且ROC 曲線可以通過(guò)其曲線下面積AUC 來(lái)解讀,理想的分類模型AUC 為1,隨機(jī)分類AUC 為0.5[34],因此AUC 越接近1 代表模型能力越強(qiáng)。同樣地,Goh 等[35]設(shè)計(jì)了一種通用的深度CNN,稱為Chemception,該網(wǎng)絡(luò)被用于預(yù)測(cè)分子的各種性質(zhì)如毒性、活性和溶解性等,重要的是該網(wǎng)絡(luò)接受的輸入數(shù)據(jù)僅為分子的二維圖像而不需要其他任何化學(xué)信息。他們將該網(wǎng)絡(luò)與多層感知機(jī)深度神經(jīng)網(wǎng)絡(luò)(multilayer perceptron DNN,MLPDNN)相比,發(fā)現(xiàn)Chemception 在活性與溶解度的預(yù)測(cè)方面表現(xiàn)更優(yōu)異。
有效地構(gòu)建擁有一定規(guī)模且高質(zhì)量的小分子庫(kù)是藥物研發(fā)人員一直關(guān)注的問(wèn)題,組合化合物庫(kù)和枚舉化合物庫(kù)等技術(shù)能夠迅速地構(gòu)建大規(guī)模的分子庫(kù),這類化合物庫(kù)的重要不足在于分子結(jié)構(gòu)缺乏一定的新穎性,為了擴(kuò)充化學(xué)空間且產(chǎn)生高成藥性的分子,研究者們利用深度學(xué)習(xí)技術(shù)設(shè)計(jì)了不同的分子生成模型。
Segler 等[36]利用RNN 設(shè)計(jì)了分子生成模型,他們首先用大量的有效的SMILES 字符串訓(xùn)練了RNN 模型,在他們的模型中使用了3 個(gè)疊加的LSTM 層,最終他們生成了847 995 個(gè)新分子,并且這些分子具有一定的多樣性,通過(guò)計(jì)算生成分子的各種性質(zhì)包括分子量、氫鍵供體和受體數(shù)、脂水分配系數(shù)、可旋轉(zhuǎn)鍵及極性表面積并進(jìn)行數(shù)據(jù)降維,發(fā)現(xiàn)生成分子的性質(zhì)與訓(xùn)練集分子表現(xiàn)出良好的相關(guān)性,同時(shí)證明這些分子適合于虛擬篩選。為了產(chǎn)生對(duì)特定靶點(diǎn)具有潛在活性的分子,Segler 等[36]使用對(duì)不同靶點(diǎn)有活性的小分子分別作為測(cè)試集對(duì)模型進(jìn)行了微調(diào),占測(cè)試集14%的抗金黃色葡萄球菌分子和占測(cè)試集28%的抗惡性瘧原蟲分子出現(xiàn)在微調(diào)后模型生成的分子中。同樣地,Yuan 等[37]介紹了一種新的分子生成方法MIMICS(machine-based identification of molecules inside characterized space),在該方法中,以給定化學(xué)子集的SMILES 字符串作為輸入,他們首先使用RNN 學(xué)習(xí)這些字符串中字符的概率分布,然后刪除無(wú)效的結(jié)構(gòu),最終在MIMICS 中生成了性質(zhì)相似但骨架不同的新分子,重要的是在隨后的細(xì)胞實(shí)驗(yàn)中發(fā)現(xiàn)新生成的分子中有能夠作為血管內(nèi)皮生長(zhǎng)因子抑制劑,證明該方法能夠生成結(jié)構(gòu)新穎并且具有類藥性的分子。這2 個(gè)案例都說(shuō)明基于RNN 生成的分子與模板分子性質(zhì)相似但骨架新穎,為從頭藥物設(shè)計(jì)提供了強(qiáng)大的支持。
Gomez-Bombarelli 等[38]提出了一種使用變分自編碼器生成分子結(jié)構(gòu)的新方法。與自編碼器不同的是,變分自編碼器將輸入數(shù)據(jù)編碼到隱含空間是不連續(xù)的,該方法的編碼器將輸入分子的離散表示轉(zhuǎn)換成隱含空間的連續(xù)向量,隨后解碼器可將這些連續(xù)向量還原成分子離散表示。重要之處在于隱含空間中的分子表示為連續(xù)的,因此可以通過(guò)隨機(jī)解碼、擾亂或插入等方法產(chǎn)生新的分子,并且通過(guò)一些優(yōu)化算法可以產(chǎn)生期望性質(zhì)的分子。Lim 等[39]使用條件變分自編碼器設(shè)計(jì)了一種分子生成方法,與變分自編碼器不同之處在于,其可以在編碼和解碼過(guò)程中施加條件。該方法被證實(shí)可以在10%誤差范圍內(nèi)生成特定屬性(如特定的分子量、脂水分配系數(shù)、氫鍵受體和供體、拓?fù)錁O性表面積等)的類藥分子,并可以在保持其他性質(zhì)的情況下控制某一種性質(zhì)。Skalic 等[40]提出了借助變分自編碼器使用分子三維表現(xiàn)和藥理特性來(lái)產(chǎn)生新型分子的方法,該方法同時(shí)結(jié)合了RNN 和CNN 方法,最終該方法被證實(shí)可以產(chǎn)生具有類藥性的分子。
了解蛋白質(zhì)的結(jié)構(gòu)與性質(zhì)在藥物研發(fā)初級(jí)階段極為重要,在計(jì)算機(jī)輔助藥物設(shè)計(jì)中,基于受體結(jié)構(gòu)的藥物設(shè)計(jì)也具有很重要的地位,其中模擬蛋白受體相互作用的分子對(duì)接技術(shù)應(yīng)用廣泛,不同的對(duì)接打分函數(shù)也會(huì)一定程度影響結(jié)果。DNN 在蛋白結(jié)構(gòu)預(yù)測(cè)方面也有應(yīng)用,例如Qi 等[41]使用多任務(wù)DNN 構(gòu)建了一個(gè)用于預(yù)測(cè)蛋白質(zhì)各種局部性質(zhì)的預(yù)測(cè)器,該預(yù)測(cè)器可以應(yīng)用于多種目的,例如糖基化位點(diǎn)、扭轉(zhuǎn)角等的預(yù)測(cè)。由于CNN 在圖像識(shí)別領(lǐng)域比較成功,因此開始有人研究利用CNN 來(lái)評(píng)價(jià)蛋白配體相互作用,例如Ragoza等[42]將蛋白配體復(fù)合物表示為三維格點(diǎn)作為輸入,使用多層CNN 構(gòu)建了一個(gè)打分函數(shù),該打分函數(shù)在結(jié)合模式預(yù)測(cè)和虛擬篩選中的打分表現(xiàn)比AutoDock Vina 的打分函數(shù)更好,但是多層CNN 構(gòu)建的打分函數(shù)也存在與一般打分函數(shù)相似的問(wèn)題,因此CNN 在該方面的應(yīng)用還有一定的改進(jìn)空間。
新藥研發(fā)具有成本高、研發(fā)周期長(zhǎng)、成功率低的3 大高風(fēng)險(xiǎn)性質(zhì)。近年來(lái)隨著計(jì)算性能的持續(xù)提高和先進(jìn)算法的開發(fā),人工智能快速發(fā)展,已應(yīng)用于藥物研發(fā)的各個(gè)領(lǐng)域。計(jì)算機(jī)輔助藥物設(shè)計(jì)在藥物研發(fā)領(lǐng)域早有應(yīng)用,傳統(tǒng)的計(jì)算機(jī)輔助藥物設(shè)計(jì)更偏向于以靶點(diǎn)和結(jié)構(gòu)信息為核心的計(jì)算機(jī)輔助藥物設(shè)計(jì),如基于結(jié)構(gòu)的虛擬篩選和定量構(gòu)效關(guān)系模型構(gòu)建等,而人工智能是以數(shù)據(jù)為核心的藥物研發(fā)模式,因此其在靶點(diǎn)未知和機(jī)制未明的復(fù)雜疾病藥物研發(fā)中占有優(yōu)勢(shì)。新藥研發(fā)成本約為26 億美元,耗時(shí)約10 年,成功率僅有6.2%[43],而人工智能應(yīng)用于藥物研發(fā)可大大節(jié)省研發(fā)成本和時(shí)間。報(bào)告顯示人工智能在化合物合成和篩選方面比傳統(tǒng)手段可節(jié)約40%的時(shí)間,每年可為醫(yī)藥企業(yè)節(jié)約260 億美元的化合物篩選成本。
雖然機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已被用于藥物研發(fā)的各個(gè)領(lǐng)域,但是人工智能在新藥研發(fā)中的應(yīng)用才剛剛起步,也面臨著諸多挑戰(zhàn)。在藥物研發(fā)領(lǐng)域,數(shù)據(jù)是人工智能的關(guān)鍵。因此作為一種數(shù)據(jù)挖掘技術(shù),人工智能模型依賴于大數(shù)據(jù)的積累,并不能無(wú)中生有。用來(lái)學(xué)習(xí)的數(shù)據(jù)很大程度上會(huì)影響模型的性能,因此模型是否有效往往取決于數(shù)據(jù)的質(zhì)量。若是數(shù)據(jù)質(zhì)量不高,即使使用可靠的算法,也不會(huì)獲得良好的結(jié)果,反而會(huì)浪費(fèi)大量的資源和時(shí)間。目前大多數(shù)預(yù)測(cè)模型來(lái)源于參差不齊的數(shù)據(jù),因此如何獲得高質(zhì)量的數(shù)據(jù)是人工智能面臨的一個(gè)主要問(wèn)題。此外,如何學(xué)習(xí)訓(xùn)練數(shù)據(jù)得到泛化能力強(qiáng)的模型也是人工智能的難點(diǎn)及熱點(diǎn)。
計(jì)算機(jī)輔助藥物設(shè)計(jì)在藥物研發(fā)領(lǐng)域的應(yīng)用已經(jīng)歷數(shù)十年,隨著醫(yī)藥數(shù)據(jù)的不斷積累和計(jì)算機(jī)性能的不斷增強(qiáng),人工智能在藥物設(shè)計(jì)上的應(yīng)用也越來(lái)越廣泛,特別是深度學(xué)習(xí)技術(shù),為計(jì)算機(jī)輔助藥物設(shè)計(jì)注入了新的活力,極大地推進(jìn)藥物研發(fā)的進(jìn)程。未來(lái)隨著數(shù)據(jù)進(jìn)一步積累和新的算法出現(xiàn),人工智能輔助藥物設(shè)計(jì)有望在藥物發(fā)現(xiàn)領(lǐng)域得到更廣泛的應(yīng)用,更多地覆蓋藥物設(shè)計(jì)與發(fā)現(xiàn)各個(gè)階段,更大程度地降低藥物研發(fā)的成本和周期,更好地助力我國(guó)創(chuàng)新藥物的研發(fā)。