彭超,胡永祥,陳龍飛,葉紫璇,田埂*
(1. 湖南工業(yè)大學(xué)計算機(jī)學(xué)院,湖南 株洲 412007; 2. 元碼基因科技(北京)股份有限公司,北京 100102)
藥物重定位(又稱為藥物重新使用或藥物重新配置)是將現(xiàn)有藥物應(yīng)用于新的疾病的過程[1]。與傳統(tǒng)的藥物研發(fā)方法相比,藥物重定位可以顯著降低成本。藥物重新定位的一個顯著優(yōu)勢是,由于重新定位的藥物已經(jīng)通過了大量的安全測試,因此它的安全性是已知的,從而降低了藥物研發(fā)失敗的風(fēng)險。此外,重新定位的藥物可以節(jié)省將藥物推向市場所需的早期成本和時間,從而加快了從基礎(chǔ)研究工作到臨床治療的過渡。德國會計律師事務(wù)所(Deloitte & Touche )于2016 年發(fā)布的一份研究報告顯示醫(yī)藥研發(fā)巨頭公司的投資回報率從2010 年的10.1%下降到了2016 年的3.7%。同時,研發(fā)一種新藥的平均成本從不足12 億美元增加到15.4 億美元,研發(fā)時間需要14 年[2]。Nosengo 等[3]得出如下結(jié)論:目前新的藥物進(jìn)入市場需要13 ~ 15 年,耗費資金在20 ~ 30 億美元之間,并且成本還在不斷上升。一些調(diào)查結(jié)果顯示,重新定位藥物成本平均只有3 億美元,進(jìn)入市場大約需要6.5 年。
藥物重定位主要包括基于機(jī)器學(xué)習(xí)的方法、大數(shù)據(jù)挖掘定位的方法和基于活體定位的方法?;跈C(jī)器學(xué)習(xí)和大數(shù)據(jù)挖掘的藥物重定位方法依賴于治療后細(xì)胞株的基因表達(dá)反應(yīng),或者依賴于藥物與疾病之間的多層次信息關(guān)系,并且利用公共數(shù)據(jù)庫和生物信息學(xué)工具系統(tǒng)地識別藥物與蛋白靶點之間的相互作用網(wǎng)絡(luò)。由于幾十年來蛋白質(zhì)與藥效之間結(jié)構(gòu)信息的積累,該方法已逐漸取得成功,與基于活體方法相比,基于機(jī)器學(xué)習(xí)和大數(shù)據(jù)挖掘的藥物再定位技術(shù)具有速度快、成本低等優(yōu)點?;跈C(jī)器學(xué)習(xí)和大數(shù)據(jù)挖掘的藥物再定位技術(shù)已成為一項潛在的強(qiáng)大技術(shù)。
本文介紹了近年來計算藥物重定位的研究進(jìn)展。重點介紹基于特征的方法、基于矩陣分解的方法和基于網(wǎng)絡(luò)的方法。
基于計算方法的藥物重定位的方法利用公共數(shù)據(jù)庫和生物信息學(xué)工具系統(tǒng)地確定藥物和目標(biāo)蛋白之間的相互作用網(wǎng)絡(luò)。 但是高分辨率的靶點結(jié)構(gòu)信息、 疾病表型信息或藥物基因表達(dá)譜會增加特征數(shù)據(jù)集的維度。例如:美國癌細(xì)胞系百科全書項目(cancer cell line encyclopedia,CCLE)研究了5 萬多個特征表示上千萬個基因的mRNA 表達(dá)和突變狀態(tài)。用于訓(xùn)練的樣本數(shù)量明顯少于可用特征的數(shù)量,所有這些特征的直接應(yīng)用都會導(dǎo)致模型過擬合,而實際上,只有一小部分特征集對藥物敏感性預(yù)測有作用。因此,研究人員提出了基于特征的方法。基于特征的方法主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)算法的方法和基于深度學(xué)習(xí)的方法。
機(jī)器學(xué)習(xí)算法與藥物-標(biāo)靶相互作用網(wǎng)絡(luò)信息結(jié)合,為藥物研發(fā)提供了新思路。2006 年,Guengerich[4]利用機(jī)器學(xué)習(xí)算法揭示了P450 酶在藥物代謝和毒性中所產(chǎn)生的作用。Napolitano 等[5]將非線性支持向量機(jī)(support vector machines,SVM)應(yīng)用于藥物的療效分類上。Gottlieb 等[6]利用邏輯回歸算法對藥物進(jìn)行重定位。Yabuuchi 等[7]將藥物的化學(xué)描述信息與靶蛋白序列組合為混合特征矩陣,并利用SVM 預(yù)測新的蛋白靶標(biāo)。G?nen[8]利用機(jī)器學(xué)習(xí)中的貝葉斯算法對藥物與靶蛋白進(jìn)行預(yù)測,尋找新的藥物與靶蛋白關(guān)聯(lián)關(guān)系?;跈C(jī)器學(xué)習(xí)的藥物重定位模型如圖1 所示。首先將藥物與副作用信息、藥物化學(xué)結(jié)構(gòu)信息和疾病與基因的相關(guān)信息進(jìn)行整合,然后通過特征提取和特征選擇得到訓(xùn)練數(shù)據(jù)。選擇相關(guān)機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,最后利用訓(xùn)練好的算法模型得到藥物重定位結(jié)果。
特征提取方法將原始特征投影到一個新的維數(shù)較低的特征空間中,新得到的特征通常是原始特征的組合,目的是發(fā)現(xiàn)更多有意義的信息。特征提取技術(shù)常見的有主成分分析法(principal component analysis,PCA)、奇異值分解法(singular value decomposition,SVD)。
特征選擇方法的目的是根據(jù)一些設(shè)計標(biāo)準(zhǔn)從完整的輸入特征集中選擇一小部分特征,作為模型的輸入。在預(yù)測藥物敏感性的過程中,通常將先驗生物學(xué)知識納入特征部分。例如:基于路徑的彈性網(wǎng)絡(luò)正則化,它將路徑整合到以數(shù)據(jù)驅(qū)動的特征選擇中?;谏飳W(xué)通路的特征選擇,將信號和調(diào)控通路與基因表達(dá)數(shù)據(jù)相結(jié)合,選擇具有最低冗余的重要特征或利用信號通路的激活狀態(tài)作為特征。常見的特征選擇方法有過濾式、包裹式和嵌入式法。常用的特征選擇方法以及它們的特點如表1 所示。
表 1 特征選擇方法Table 1 Feature selection methods
利用傳統(tǒng)機(jī)器學(xué)習(xí)算法對特定藥物進(jìn)行重定位可以提高藥物定位結(jié)果預(yù)測的準(zhǔn)確性,降低研發(fā)成本,縮短研發(fā)時間。但是,隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的機(jī)器學(xué)習(xí)方法逐漸變得難以適應(yīng)復(fù)雜的樣本,由于存在對復(fù)雜函數(shù)的表示能力有限、學(xué)習(xí)能力不強(qiáng)等不足,它們往往只能提取初級特征。同時,因為以人工方式選取特征的步驟繁復(fù)冗雜,傳統(tǒng)的機(jī)器學(xué)習(xí)方法有時并不能有效地挖掘數(shù)據(jù)中蘊(yùn)含的豐富信息。
深度學(xué)習(xí)算法是機(jī)器學(xué)習(xí)算法的新方向,其本質(zhì)是深層次的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)通過模擬人腦建立計算模型,具有強(qiáng)大的自動提取特征的能力以及有效的特征表征能力,能夠獲取不同層次的信息?;谝陨蟽?yōu)點,深度學(xué)習(xí)在藥物重定位方面也得到了應(yīng)用。Korotcov等[18]將深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)與其他多種機(jī)器學(xué)習(xí)方法在藥物研發(fā)的多個方面進(jìn)行系統(tǒng)比較,結(jié)果表明,深度學(xué)習(xí)的表現(xiàn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。Rodríguez-Pérez 等[19]構(gòu)建小分子-靶標(biāo)的活性譜, 并利用深度學(xué)習(xí)模型進(jìn)行測試。Lusci 等[20]將遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)與化合物的表征方式結(jié)合,并得到了很高的準(zhǔn)確度。Segler 等[21]基于深度學(xué)習(xí)結(jié)合蒙特卡洛算法的方法簡單高效,得到了專業(yè)人員的肯定。Hughes 等[22]利用深度學(xué)習(xí)模型研發(fā)了第一個能夠?qū)衔镞M(jìn)行快速篩選的模型。Turk 等[23]提取ChEMBL 數(shù)據(jù)庫中匹配分子作為深度學(xué)習(xí)模型的數(shù)據(jù)集。
深度學(xué)習(xí)模型往往需要大量標(biāo)記樣本進(jìn)行訓(xùn)練,對標(biāo)記樣本的需求很高。在生物醫(yī)學(xué)和藥物研發(fā)的應(yīng)用場景下,標(biāo)記樣本的獲取依賴于領(lǐng)域?qū)<抑R和實驗驗證,成本較高。同時,基于深度學(xué)習(xí)得到的模型的端到端的計算模式使得研究者不能理解深度學(xué)習(xí)模型提取的特征所表征的含義,從而難以在藥物研發(fā)過程中做出合理可靠的決策。
計算藥物重新定位的基礎(chǔ)之一是準(zhǔn)確預(yù)測藥物-靶點相互作用(drug-target interaction,DTI)。DTI 可以用藥物和靶標(biāo)的二進(jìn)制標(biāo)記矩陣Y 表示,如果藥物Di和靶標(biāo)Sj相互作用,則矩陣Y 中的元素Ri, j為1,否則Ri, j為0。預(yù)測DTI 的問題也就轉(zhuǎn)化為從Y 的已知元素中估計未知元素的標(biāo)簽的問題。藥物-靶標(biāo)關(guān)聯(lián)矩陣Y如下圖2 所示。
近年來研究人員提出了各種預(yù)測DTI的計算方法。其中,基于貝葉斯的矩陣分解方法被廣泛應(yīng)用于藥DTI矩陣,如表2 所示。
矩陣分解能夠?qū)⑤^高維度的數(shù)據(jù)映射為2 個低維度矩陣的乘積,從而能夠很好地解決數(shù)據(jù)的稀疏性問題,并且矩陣分解的具體實現(xiàn)和求解很簡潔,便于理解?;诰仃嚪纸饨⒌哪P偷念A(yù)測準(zhǔn)確度較高,具有很強(qiáng)的擴(kuò)展性,其基本思想能夠運(yùn)用在各種場景中。但是,矩陣分解模型也有一定的局限性。例如:1)模型的可解釋性差,其隱藏空間中的維度并沒有和藥物學(xué)中的概念對應(yīng);2)模型的訓(xùn)練速度慢,且不能通過離線訓(xùn)練來彌補(bǔ)這個缺點;3)只是單純的運(yùn)用數(shù)學(xué)原理解決問題,并沒有將生物、藥物中的信息加入模型。
表 2 基于貝葉斯的矩陣分解方法Table 2 Bayesian matrix factorization method
在過去的十幾年中,基于網(wǎng)絡(luò)的方法已成為預(yù)測藥物敏感性的最常用方法之一。由于藥物開發(fā)成本的增加和新批準(zhǔn)藥物的數(shù)量的減少,找出已上市藥物的一些新價值變得十分有必要。其中一些方法有助于更恰當(dāng)?shù)卦O(shè)計獨特的藥物靶點組合和聯(lián)合藥物治療,穩(wěn)健的通道將改善特定患者的治療。一些學(xué)者建議研究藥物應(yīng)用,疾病治療與基因的關(guān)系。一些文獻(xiàn)從生物系統(tǒng)和網(wǎng)絡(luò)結(jié)構(gòu)框架的角度分析了疾病的診斷、治療和藥物發(fā)現(xiàn)之間的關(guān)系。各種高通量數(shù)據(jù)的積累使生物分子和細(xì)胞網(wǎng)絡(luò)的重建成為可能?;诰W(wǎng)絡(luò)的方法,通過化學(xué)相似性進(jìn)行相關(guān)分析,可以為新藥副作用的發(fā)現(xiàn)以及已上市藥物重定位提供線索。基于網(wǎng)絡(luò)的藥物重定位方法可分為2類:1)基于藥物-疾病相似性的方法;2)基于網(wǎng)絡(luò)相似性推理的方法。
近年來研究人員提出許多基于藥物-疾病相似性的藥物重定位方法,例如:Guney 等[29]引入了一種藥物-疾病相似性度量,該度量可量化藥物靶標(biāo)與疾病之間的相互作用。該方法引入化學(xué)相似性進(jìn)行關(guān)聯(lián),并且考慮了必要的生物信息,具有很強(qiáng)的系統(tǒng)性和綜合性。實驗結(jié)果表明基于網(wǎng)絡(luò)的鄰近度可以幫助我們量化藥物的治療效果并預(yù)測新的藥物-疾病關(guān)聯(lián)。Kotlyar 等[30]對藥物如何破壞網(wǎng)絡(luò),以及基于網(wǎng)絡(luò)的藥物表征會直接影響參與結(jié)合的對象進(jìn)行了總結(jié)。他們首次使用網(wǎng)絡(luò)表征受藥物差異調(diào)節(jié)的基因。李鵬[31]在疾病網(wǎng)絡(luò)的基礎(chǔ)上基于質(zhì)量作用定律,建立了基于網(wǎng)絡(luò)擾動動力學(xué)模型的分析工具PerturbationAnalyzer。該方法通過整合定量蛋白質(zhì)組學(xué)和蛋白相互作用網(wǎng)絡(luò)數(shù)據(jù),從蛋白質(zhì)相互作用的濃度依賴關(guān)系出發(fā),將蛋白濃度變化對網(wǎng)絡(luò)擾動程度作為靶標(biāo)辨識的重要依據(jù)。Chen 等[32]構(gòu)建了一個通用的異構(gòu)網(wǎng)絡(luò),該網(wǎng)絡(luò)包含通過蛋白質(zhì)-蛋白質(zhì)序列相似性,藥物-藥物化學(xué)相似性和已知的藥DTI 而鏈接的藥物和蛋白質(zhì),挖掘潛在的藥物-疾病關(guān)聯(lián)。
很多研究人員把關(guān)注點放在網(wǎng)絡(luò)相似性推理:Cheng 等[33]提出了一種基于網(wǎng)絡(luò)的推理(network-based inference,NBI)方法,該方法僅使用藥物-靶標(biāo)二分網(wǎng)絡(luò)拓?fù)湎嗨菩詠硗茢嘁阎幬锏男掳袠?biāo)。Chen 等[34]基于Zhou 等[35]開發(fā)的推薦技術(shù)的推理方法,提出基于網(wǎng)絡(luò)拓?fù)涠攘縼眍A(yù)測直接的藥物-疾病關(guān)聯(lián)。他們通過挖掘有關(guān)藥物-疾病兩方網(wǎng)絡(luò)特性的數(shù)據(jù),將問題表述為推薦給特定藥物的疾病。Wang 等[36]提出了一個基于異構(gòu)網(wǎng)絡(luò)模型的計算框架,這種計算框架可以捕獲疾病、藥物和靶標(biāo)之間的相互關(guān)系,以預(yù)測新的藥物使用情況。一些學(xué)者通過一些特殊案例,例如帕金森病,試圖通過定位網(wǎng)絡(luò)模塊來重新定位藥物。Yue 等[37]開發(fā)了針對失調(diào)的藥物靶標(biāo)網(wǎng)絡(luò)通路或途徑而非單個靶點的療法,并建立了一個將全基因組關(guān)聯(lián)分析數(shù)據(jù)與帕金森病患者3 個腦區(qū)域的基因共表達(dá)模塊整合在一起的框架。
基于網(wǎng)絡(luò)相似性推理的方法便于理解,簡單可靠,性能優(yōu)于基于藥物-疾病的方法和基于靶點相似性的方法。同時,研究人員可以根據(jù)具體研究的需要對網(wǎng)絡(luò)輸出的結(jié)果排序,但是基于網(wǎng)絡(luò)推理的方法只適用在藥物靶點關(guān)系已知的情況下,因此不能預(yù)測新藥物的靶點,從而帶來了很大的局限性。
本文介紹了基于機(jī)器學(xué)習(xí)和大數(shù)據(jù)挖掘的藥物重定位的研究進(jìn)展。重點介紹基于特征的方法、基于矩陣完成的方法和基于網(wǎng)絡(luò)的方法。在基于特征的方法中,無論是機(jī)器學(xué)習(xí)還是深度學(xué)習(xí)對數(shù)據(jù)的要求都比較高,需要專業(yè)人員設(shè)計標(biāo)簽,從而增加了藥物研發(fā)的時間。基于矩陣完成的方法不用人為設(shè)定標(biāo)簽,研發(fā)時間相對其他方法也有所減少,但是矩陣完成只是單純的引入數(shù)學(xué)計算,并沒有將藥物信息引入計算,可能導(dǎo)致計算結(jié)果和實際結(jié)果有一定偏差?;诰W(wǎng)絡(luò)推理的方法雖然簡單可靠,便于理解,但是不能預(yù)測新藥物的靶點,局限性很大。
隨著大數(shù)據(jù)挖掘技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)和大數(shù)據(jù)挖掘算法的藥物重定位將為疾病的治療提供更多更有效的方法,已經(jīng)成為生物醫(yī)學(xué)研究關(guān)注的焦點。有理由相信,理性推理和計算模型將在未來的藥物重定位過程中發(fā)揮重要作用。另外,隨著深度學(xué)習(xí)中無監(jiān)督學(xué)習(xí)技術(shù)的發(fā)展,標(biāo)簽在深度學(xué)習(xí)處理海量數(shù)據(jù)方面的影響也越來越小,深度學(xué)習(xí),特別是無監(jiān)督學(xué)習(xí)與藥物重定位結(jié)合將是未來研究的重點。