丁伯祥,胡 健,2,王繼芳
(1.南京海融醫(yī)藥科技股份有限公司,江蘇 南京 211100;2.江蘇食品藥品職業(yè)技術(shù)學(xué)院 制藥工程學(xué)院,江蘇 淮安 223003)
藥物發(fā)現(xiàn)是一個(gè)漫長(zhǎng)而復(fù)雜的過(guò)程,大致可分為四個(gè)主要階段:(i)目標(biāo)選擇和驗(yàn)證; (ii)化合物篩選和優(yōu)化; (iii)臨床前研究; (iv)臨床試驗(yàn)。首先,需要確定與特定疾病相關(guān)的研究對(duì)象。這需要從細(xì)胞和遺傳角度對(duì)研究目標(biāo)進(jìn)行有效評(píng)估,主要涉及基因組和蛋白質(zhì)組學(xué)分析以及生物信息學(xué)預(yù)測(cè)。下一步是藥物靶點(diǎn)的鑒定,通過(guò)組合化學(xué),高通量篩選和虛擬篩選等方法從分子文庫(kù)中鑒定化合物。靶點(diǎn)結(jié)構(gòu)與藥物活性的相關(guān)性研究以及計(jì)算機(jī)模擬結(jié)合細(xì)胞實(shí)驗(yàn)經(jīng)常被用于新合成候選藥物的藥效研究中。隨后,使用動(dòng)物模型進(jìn)行藥物體內(nèi)研究,例如藥代動(dòng)力學(xué)研究和毒性試驗(yàn)。最后,已經(jīng)成功通過(guò)所有臨床前試驗(yàn)的候選藥物在臨床試驗(yàn)中按照一定臨床使用原則給予受試者。該步驟一般按順序分為三個(gè)階段。第一階段,一定數(shù)量受試者參與的藥物安全性測(cè)試;第二階段,一定數(shù)量特定疾病的患者進(jìn)行的藥物療效測(cè)試;第三階段,大量患者的療效研究。如果候選藥物的安全性和有效性在臨床階段得到確認(rèn),則該化合物由FDA等機(jī)構(gòu)審核批準(zhǔn)并由研發(fā)企業(yè)進(jìn)行商業(yè)化。根據(jù)目前已有數(shù)據(jù)估計(jì),通過(guò)傳統(tǒng)模式發(fā)現(xiàn)新藥的平均成本為26億美元,完整的工作流程可能需要12年以上。
如何降低成本并加快新藥研發(fā)速度是所有制藥公司普遍關(guān)注的核心問(wèn)題。 基于AI的方法越來(lái)越多地用于藥物研發(fā)的各個(gè)階段,減少了研發(fā)時(shí)間和成本。 這些包括在藥物研發(fā)相關(guān)的細(xì)胞生物學(xué)研究中使用AI[1],使用量子力學(xué)方法計(jì)算化合物的性質(zhì)[2],計(jì)算機(jī)輔助藥物設(shè)計(jì)[3],預(yù)測(cè)目標(biāo)蛋白質(zhì)的三維結(jié)構(gòu),以及一些其他的開(kāi)發(fā)分析[4-7]。一般而言,這些繁瑣的執(zhí)行過(guò)程可以在AI的幫助下實(shí)現(xiàn)優(yōu)化和自動(dòng)化,從而大大加快藥物研發(fā)的過(guò)程。
通過(guò)圖像分析對(duì)細(xì)胞類型進(jìn)行鑒別和使用AI方法進(jìn)行細(xì)胞研究
AI技術(shù)已經(jīng)成功應(yīng)用于識(shí)別包含不同對(duì)象或特征的圖像[8]。通過(guò)傳統(tǒng)的視覺(jué)檢查識(shí)別圖像是一項(xiàng)非常繁瑣的任務(wù),并且這種方法對(duì)于大數(shù)據(jù)的分析效率較低,因此,這是應(yīng)用基于AI技術(shù)的理想領(lǐng)域。對(duì)于細(xì)胞目標(biāo)分類或診斷,需要訓(xùn)練AI模型以便根據(jù)不同細(xì)胞的特征快速、自動(dòng)地識(shí)別細(xì)胞類型。例如,為了對(duì)乳腺癌細(xì)胞進(jìn)行分類,通過(guò)改變圖像對(duì)比度將細(xì)胞圖像從背景中分割出來(lái)[1],接著提取不同類型的紋理特征,使用主成分分析(PCA)來(lái)減小提取的特征的指標(biāo),然后用基于AI的方法以對(duì)不同的細(xì)胞類型進(jìn)行分類。在AI方法進(jìn)行訓(xùn)練的過(guò)程中,最小二乘法-支持向量機(jī)(LS-SVM)方法,統(tǒng)計(jì)學(xué)習(xí)理論,回歸和分類技術(shù)[9]是常用的理論和算法,以確保顯示最高的分類準(zhǔn)確率(95.34%)[1]。
對(duì)于細(xì)胞分選,基于AI的圖像分析決策需要在較短的時(shí)間內(nèi)完成,以使機(jī)器人有時(shí)間準(zhǔn)確地分離樣品中的不同細(xì)胞類型。 大多數(shù)現(xiàn)代圖像激活細(xì)胞分選(IACS)設(shè)備測(cè)量細(xì)胞的光學(xué),電學(xué)和機(jī)械特性,以實(shí)現(xiàn)高度靈活和可擴(kuò)展的細(xì)胞分選自動(dòng)化[1]。 這些儀器允許使用基于AI的卷積深度神經(jīng)網(wǎng)絡(luò)算法(DDN),可以在幾十毫秒內(nèi)進(jìn)行高速數(shù)字圖像處理和決策。 該方法在人血小板的分選中進(jìn)行了測(cè)試,顯示出優(yōu)異的特異性和靈敏度。
藥物設(shè)計(jì)中的一個(gè)重要考慮因素是選擇具有一系列所需特性的候選藥物,特別是有關(guān)生物利用度,生物活性和毒性的特性。藥物分子的熔點(diǎn)和分配系數(shù)(logP)等物理性質(zhì)極大地影響其生物利用度,因此在設(shè)計(jì)新藥時(shí)也必須考慮這些因素[10]。熔點(diǎn)反映了藥物在水性介質(zhì)中溶解的容易程度,而logP(水和油之間相對(duì)溶解度的量度)常被用作細(xì)胞藥物吸收的估計(jì)值,考慮到這些性質(zhì),AI藥物設(shè)計(jì)算法中使用的分子表征包括分子指紋,簡(jiǎn)化分子線性輸入規(guī)范(SMILES)串,受體與配體潛在的結(jié)合能量測(cè)算,分子碎片或不同類型的化學(xué)鍵,3D中的原子坐標(biāo),分子周?chē)碾娮用芏龋蚱浣M合[11]。這些輸入用于DNN訓(xùn)練階段[12],并且可以由生成階段和預(yù)測(cè)階段的不同DNN處理,該程序能夠促進(jìn)AI的強(qiáng)化學(xué)習(xí)(RL)[3]。在一項(xiàng)典型的研究中,DNN的生成階段需要SMILES輸入,并且經(jīng)過(guò)訓(xùn)練可以生成化學(xué)上可行的SMILES字符串,而預(yù)測(cè)階段則針對(duì)分子的特性進(jìn)行訓(xùn)練[3]。雖然這兩個(gè)階段最初是用監(jiān)督學(xué)習(xí)算法分別訓(xùn)練的,但是當(dāng)兩個(gè)階段通過(guò)獎(jiǎng)勵(lì)或懲罰特定屬性共同訓(xùn)練時(shí),偏差可以應(yīng)用于結(jié)果[3]。
生物活性的預(yù)測(cè)
匹配分子對(duì)(MMP)分析研究藥物候選物的單一局部變化及其對(duì)分子的分子性質(zhì)和生物活性的影響,已被廣泛用于定量構(gòu)效關(guān)系(QSAR)研究[13]。在典型的研究中,通過(guò)用于從頭設(shè)計(jì)任務(wù)的重合成規(guī)則產(chǎn)生MMP。候選分子用靜態(tài)核心和兩個(gè)片段(描述轉(zhuǎn)化)進(jìn)行化學(xué)定義[14]。然后對(duì)核心和這些片段進(jìn)行編碼。最后,三種機(jī)器學(xué)習(xí)(ML)方法,即隨機(jī)森林(RF)[15],梯度增強(qiáng)機(jī)器(GBM)[16]和DNNs[17],以前在沒(méi)有MMP的情況下應(yīng)用,用于推斷到新的變換靜態(tài)核心,片段和修改。例如,有模型就五種不同激酶和含溴結(jié)構(gòu)域蛋白的IC50數(shù)據(jù)進(jìn)行了訓(xùn)練,DNN在預(yù)測(cè)化合物活性方面具有比RF和GBM更好的整體性能[18]。隨著包含大量結(jié)構(gòu) - 活性關(guān)系(SAR)分析的公共數(shù)據(jù)庫(kù)(如ChEMBL和Pubchem)的急劇增加,帶有ML的MMP已被用于預(yù)測(cè)許多生物活性特性,如吸收,分布,代謝和排泄(ADME),以及藥物的體內(nèi)作用方式[19-21]。
最近開(kāi)發(fā)了其他方法來(lái)預(yù)測(cè)候選藥物的生物活性。 Tristan等通過(guò)將離散的化學(xué)物質(zhì)編碼成連續(xù)的潛在載體空間(LVS),用圖形卷積網(wǎng)絡(luò)提取藥物靶位點(diǎn)的特征,LVS允許在分子空間中進(jìn)行基于梯度的優(yōu)化,從而可以基于結(jié)合親和力和其他性質(zhì)的可區(qū)分模型進(jìn)行預(yù)測(cè)[22]。
化合物的毒理學(xué)特征是藥物開(kāi)發(fā)中的重要參數(shù)。毒性的評(píng)估及相關(guān)結(jié)構(gòu)優(yōu)化可能是臨床前藥物發(fā)現(xiàn)過(guò)程中最昂貴,最耗時(shí)的階段[23],準(zhǔn)確預(yù)測(cè)化合物的毒性對(duì)藥物開(kāi)發(fā)具有重要價(jià)值。 DeepTox算法是一種機(jī)器學(xué)習(xí)(ML)算法,在Tox21數(shù)據(jù)挑戰(zhàn)賽中通過(guò)計(jì)算方法成功預(yù)測(cè)了12種環(huán)境化學(xué)品和藥物中12種不同的毒性作用。專門(mén)設(shè)計(jì)的分析。 DeepTox算法首先將化合物的化學(xué)描述標(biāo)準(zhǔn)化,從中計(jì)算大量化學(xué)描述符并將其用作ML方法的輸入。描述符被分為靜態(tài)或動(dòng)態(tài),靜態(tài)描述符包括原子計(jì)數(shù),表面積以及化合物中預(yù)定義子結(jié)構(gòu)的存在與否,除此之外還計(jì)算了存在和不存在的2500個(gè)預(yù)定義毒性基團(tuán)特征,以及從標(biāo)準(zhǔn)分子指紋描述符中提取的其他化學(xué)特征。動(dòng)態(tài)描述符以預(yù)先指定的方式進(jìn)行計(jì)算,盡管可能存在無(wú)數(shù)個(gè)不同的動(dòng)態(tài)特征,但該算法可將數(shù)據(jù)集保持在可管理的范圍內(nèi)。DeepTox算法在預(yù)測(cè)化合物的毒理學(xué)方面表現(xiàn)出良好的準(zhǔn)確性[24-26]。
靶蛋白的3D結(jié)構(gòu)對(duì)于基于結(jié)構(gòu)的藥物發(fā)現(xiàn)至關(guān)重要,因?yàn)樾滤幬锓肿油ǔ8鶕?jù)靶蛋白的配體結(jié)合位點(diǎn)的3D化學(xué)環(huán)境設(shè)計(jì)。傳統(tǒng)上將同源建模和從頭蛋白質(zhì)設(shè)計(jì)應(yīng)用于此目的[27]。隨著基于AI的工具的發(fā)展,預(yù)測(cè)目標(biāo)蛋白質(zhì)的3D結(jié)構(gòu)變得更加準(zhǔn)確和復(fù)雜。在最近的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)評(píng)估中,AI工具AlphaFold用于預(yù)測(cè)藥物靶蛋白的3D結(jié)構(gòu),并且表現(xiàn)非常好。僅使用蛋白質(zhì)一級(jí)序列,AlphaFold準(zhǔn)確預(yù)測(cè)了43個(gè)結(jié)構(gòu)中的25個(gè)。這些結(jié)果明顯優(yōu)于排名第二的算法,它僅僅正確地預(yù)測(cè)了43個(gè)結(jié)構(gòu)中的3個(gè)。 AlphaFold依賴于高效訓(xùn)練的DNN來(lái)從主序列中預(yù)測(cè)蛋白質(zhì)的性質(zhì)。它預(yù)測(cè)了氨基酸對(duì)之間的距離和相鄰肽鍵之間的φ-ψ角。然后將這兩個(gè)概率組合成分?jǐn)?shù),該分?jǐn)?shù)用于評(píng)估預(yù)測(cè)的3D蛋白質(zhì)結(jié)構(gòu)模型的準(zhǔn)確性。使用這些評(píng)分函數(shù),AlphaFold探索蛋白質(zhì)結(jié)構(gòu)的微觀結(jié)構(gòu),以找到與預(yù)測(cè)相匹配的結(jié)構(gòu)[28]。
QM或QM /分子力學(xué)(MM)聯(lián)合使用的方法可用于預(yù)測(cè)藥物發(fā)現(xiàn)中的蛋白質(zhì)-配體(藥物)相互作用[29]。這些方法在原子水平上考慮模擬系統(tǒng)的量子效應(yīng),因此提供比傳統(tǒng)MM方法更好的準(zhǔn)確度。由于MM方法僅應(yīng)用基于原子坐標(biāo)的簡(jiǎn)單能量函數(shù),因此基于QM的方法的時(shí)間成本遠(yuǎn)大于MM方法[30]。因此,AI方法在QM計(jì)算中的應(yīng)用需要在QM的準(zhǔn)確性和MM模型的有利時(shí)間成本之間進(jìn)行權(quán)衡。已有AI模型從原子坐標(biāo)進(jìn)行數(shù)據(jù)訓(xùn)練再現(xiàn)QM能量,并且可以達(dá)到與MM方法類似的計(jì)算速度。 AI主要應(yīng)用于原子模擬和帶電性質(zhì)的預(yù)測(cè),而DL被用于預(yù)測(cè)小分子的勢(shì)能,從而通過(guò)快速M(fèi)L方法取代對(duì)計(jì)算要求嚴(yán)格精密的量子化學(xué)計(jì)算[31]。對(duì)于大型數(shù)據(jù)集,已經(jīng)計(jì)算了量子化學(xué)衍生的DFT(密度泛函理論)勢(shì)能并用于訓(xùn)練DNN。例如,在對(duì)200萬(wàn)顆隕石晶體的研究中,ML模型的準(zhǔn)確度隨著樣本量的增加而提高。在藥物設(shè)計(jì)及篩選領(lǐng)域,對(duì)于在10000個(gè)結(jié)構(gòu)上訓(xùn)練的DFT可以形成能量達(dá)到0.1eV /原子的精度,將該模型用于篩選各種性質(zhì)的先導(dǎo)化合物的類似物,效率明顯提高[32]。
目前,由于新藥研發(fā)成本的不斷增加和傳統(tǒng)新藥發(fā)現(xiàn)效率的降低,許多研發(fā)型制藥公司在藥物開(kāi)發(fā)過(guò)程中面臨挑戰(zhàn)。許多令人印象深刻的AI方法和工具不斷涌現(xiàn)并應(yīng)用到企業(yè)一線研發(fā)領(lǐng)域,可以使新藥研發(fā)過(guò)程更具成本效益和時(shí)間效率。傳統(tǒng)的高通量篩選庫(kù)通常含有約1百萬(wàn)種化合物,其中每種化合物通常價(jià)格為50-100美元。 因此,初始篩選過(guò)程可能花費(fèi)數(shù)百萬(wàn)美元加上幾個(gè)月的工作。 隨后的先導(dǎo)化合物優(yōu)化可能需要數(shù)年才能確定臨床前候選藥物。 相比之下,如果在藥物篩選中使用AI / ML方法,在AI的幫助下,虛擬化合物幾天內(nèi)可以篩選數(shù)十億個(gè)分子的文庫(kù)。 通過(guò)使用基于AI的計(jì)算預(yù)測(cè)識(shí)別臨床前候選人可能只需要幾個(gè)月到一年的時(shí)間[33]。
鑒于基于AI的計(jì)算方法可能對(duì)藥物開(kāi)發(fā)產(chǎn)生巨大影響,世界上科技發(fā)展的熱點(diǎn)地區(qū)使用AI促進(jìn)新藥開(kāi)發(fā)的初創(chuàng)企業(yè)數(shù)量正在快速增長(zhǎng)。 此外,自2017年以來(lái),許多制藥公司已大量投資在基于人工智能的研發(fā)計(jì)劃上,或者加大與人工智能初創(chuàng)企業(yè)和學(xué)術(shù)機(jī)構(gòu)的合作[34]。 人工智能和ML公司Recursion 公司與Takeda公司合作,近期宣布了在篩選針對(duì)罕見(jiàn)疾病的新型臨床前化合物方面的突破性成果。 在與Recursion公司合作的一年半時(shí)間里,Takeda公司確定了60多種獨(dú)特的潛在候選藥物,這些藥物已經(jīng)在進(jìn)行臨床前和臨床實(shí)驗(yàn)的評(píng)估。 使用AI技術(shù)的藥物研發(fā)時(shí)間表比大約十年的傳統(tǒng)臨床前藥物發(fā)現(xiàn)的路徑要快得多。
人工智能工具也被用于藥物發(fā)現(xiàn)周期的多個(gè)方面,從藥物篩選試驗(yàn),預(yù)測(cè)潛在藥物的物理性質(zhì),生物活性和毒性,到蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。 傳統(tǒng)的實(shí)驗(yàn)結(jié)構(gòu)生物學(xué)方法最終獲得目標(biāo)蛋白的結(jié)構(gòu)數(shù)據(jù)通常需要數(shù)年時(shí)間。 相比之下,基于人工智能的結(jié)構(gòu)預(yù)測(cè)只需要幾個(gè)小時(shí)到幾天,這使得該過(guò)程大大節(jié)省了時(shí)間成本。 默克已成功使用DL算法在幾天時(shí)間內(nèi)成功預(yù)測(cè)藥物相關(guān)的天然蛋白質(zhì)折疊[35]。 此外,AI還被用于細(xì)胞圖像處理[1],物理生物活性和毒性預(yù)測(cè)[36-38],QM性質(zhì)預(yù)測(cè)[39]等藥物研究的關(guān)鍵方面,以進(jìn)一步提高藥物發(fā)現(xiàn)的效率。
然而,藥物發(fā)現(xiàn)過(guò)程中的某些方面尚未進(jìn)行深入研究。 例如,準(zhǔn)確預(yù)測(cè)藥物分子與靶蛋白之間的結(jié)合親和力仍然具有挑戰(zhàn)性[40]。 目前,由于受制于計(jì)算機(jī)運(yùn)算能力及算法設(shè)計(jì)等若干原因,包括AI在內(nèi)的計(jì)算方法在該領(lǐng)域[41-43]表現(xiàn)不佳。
首先,因?yàn)锳I是一種數(shù)據(jù)挖掘方法,可用數(shù)據(jù)的數(shù)量和質(zhì)量直接影響AI模型的性能[30,34,38,44]。 DNN的成功訓(xùn)練依賴于大量可供訓(xùn)練的數(shù)據(jù)。從一項(xiàng)任務(wù)中學(xué)習(xí)并將其應(yīng)用于另一項(xiàng)任務(wù)的方法可能是解決這一問(wèn)題的潛在途徑。其次,可用數(shù)據(jù)的質(zhì)量有時(shí)不足以進(jìn)行有效的AI學(xué)習(xí)。 公共數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)數(shù)據(jù)通常來(lái)自不同的實(shí)驗(yàn)對(duì)象,且獲取方法及條件也各不相同[45]。 通過(guò)不同方法測(cè)量的化合物可以產(chǎn)生完全不同的數(shù)據(jù),這些數(shù)據(jù)彼此不可比較。 此外,公共數(shù)據(jù)庫(kù)可能包含多個(gè)相互矛盾的數(shù)據(jù)集。 因此,在執(zhí)行特定AI方案之前,過(guò)濾原始輸入以獲得高質(zhì)量數(shù)據(jù)是必不可少的步驟。當(dāng)然,AI本身也可以通過(guò)自動(dòng)化數(shù)據(jù)輸入來(lái)解決問(wèn)題[46]。
第三,當(dāng)將3D原子空間轉(zhuǎn)移到用于AI計(jì)算的2D解釋時(shí),重要的3D目標(biāo)結(jié)構(gòu)信息,例如靶蛋白的配體結(jié)合位點(diǎn)的化學(xué)環(huán)境,藥物分子的構(gòu)象和蛋白質(zhì)的柔性,都會(huì)丟失。 作為替代方案,分子動(dòng)力學(xué)(MD)模擬可以在生理?xiàng)l件下對(duì)蛋白質(zhì)和藥物分子的不同構(gòu)象和狀態(tài)進(jìn)行采樣。 最近的一項(xiàng)研究成功地將AI和MD模擬結(jié)合起來(lái)研究G蛋白偶聯(lián)受體(GPCR)配體特異性,證明了這種方法的潛力[47]。 此外,將信息從MD轉(zhuǎn)移到AI可能會(huì)克服結(jié)合親和力預(yù)測(cè)的局限性以及在不久的將來(lái)預(yù)測(cè)其他分子特性。
最后,重要的是要強(qiáng)調(diào)DL方法仍然是中間環(huán)節(jié)無(wú)法實(shí)現(xiàn)全程控制的“暗箱”[33]。 在訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)僅被賦予具有某種標(biāo)簽的特定數(shù)值的輸入。 這些特征沒(méi)有明確規(guī)定,甚至神經(jīng)網(wǎng)絡(luò)的開(kāi)發(fā)者也可能不知道在中間階段正在檢驗(yàn)什么,或者為什么模型得出了特定的結(jié)論[38]。 總之,為了加快藥物發(fā)現(xiàn)周期,已經(jīng)做了大量的工作來(lái)整合AI工具,但是在AI可以實(shí)現(xiàn)藥物發(fā)現(xiàn)的全部潛力之前,還需要進(jìn)一步成功實(shí)施這些工具。