何亞瓊,朱曉軍
(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 太原 030024)
藥物的設(shè)計(jì)和開(kāi)發(fā)是一個(gè)風(fēng)險(xiǎn)高、周期長(zhǎng)、投資巨大的過(guò)程[1]。僅依靠化學(xué)實(shí)驗(yàn)來(lái)發(fā)現(xiàn)新的藥物效率低且成本高。因此,通過(guò)計(jì)算機(jī)對(duì)藥物的潛在靶標(biāo)進(jìn)行虛擬篩選成為計(jì)算機(jī)輔助制藥的熱點(diǎn)[2]。目前藥物-靶標(biāo)關(guān)系預(yù)測(cè)存在的難點(diǎn)是已知的藥物-靶標(biāo)對(duì)有限。對(duì)于DTI預(yù)測(cè)第一類(lèi)方法是二元分類(lèi)問(wèn)題,第二類(lèi)方法是轉(zhuǎn)化為推薦任務(wù)。對(duì)于第一類(lèi)方法,文獻(xiàn)[3]提出兩種集成學(xué)習(xí)的方法,分別從藥物和靶標(biāo)的方向進(jìn)行預(yù)測(cè),再合并結(jié)果。文獻(xiàn)[4]提出基于旋轉(zhuǎn)森林(RF)的藥物靶標(biāo)預(yù)測(cè)模型。文獻(xiàn)[5]將深度學(xué)習(xí)引入藥物-靶標(biāo)研究領(lǐng)域,用堆疊自動(dòng)編碼器提取深度表征,然后用SVM進(jìn)行二分類(lèi)。第二類(lèi)方法,文獻(xiàn)[6]提出用于DTI預(yù)測(cè)的貝葉斯排序矩陣分解,主要思想是同時(shí)將藥物和目標(biāo)投射到共享潛在空間。文獻(xiàn)[7]采用低秩加權(quán)矩陣分解實(shí)現(xiàn)了藥物-靶標(biāo)的關(guān)系預(yù)測(cè)。文章提出鄰域正則化邏輯矩陣分解(NRLMF)用于DTI預(yù)測(cè)[8]。
分析先前研究成果,基于矩陣分解的推薦方法可以充分利用已知的DTI關(guān)系。但是存在矩陣稀疏的問(wèn)題,并且隨著數(shù)據(jù)集的擴(kuò)充,矩陣分解并不是一個(gè)高效的方法。因此,本文提出一種深度協(xié)同過(guò)濾算法實(shí)現(xiàn)DTI預(yù)測(cè)。該算法沿用基于矩陣分解的協(xié)同過(guò)濾算法,在矩陣分解中添加藥物靶標(biāo)雙重正則化約束。并且,設(shè)計(jì)融入了多輸入深度自編碼器,能夠有效提取DTI矩陣和輔助信息的潛在特征,從而優(yōu)化傳統(tǒng)矩陣分解的效果。
(1)藥物-靶標(biāo)相互作用矩陣R,是一個(gè)m×n的二維矩陣,m代表藥物數(shù)量,n代表靶標(biāo)數(shù)量。矩陣R中,如果已知藥物i和靶標(biāo)j存在相互作用,則Rij=1,未被驗(yàn)證的關(guān)系為0。
(2)藥物相似性矩陣M,是一個(gè)m×m的對(duì)角矩陣。mij表示根據(jù)化合物i和化合物j的化學(xué)結(jié)構(gòu)計(jì)算的藥物相似性。
(3)靶標(biāo)蛋白相似性矩陣N,是一個(gè)n×n的對(duì)角矩陣。靶標(biāo)相似性nij是基于目標(biāo)蛋白的氨基酸序列計(jì)算的。
(4)Ui和Vj分別代表藥物i的潛在影響因子向量和靶標(biāo)j的潛在影響因子向量,K?n,m是藥物和靶標(biāo)的潛在低維空間維度。
本文將藥物-靶標(biāo)的關(guān)系預(yù)測(cè)問(wèn)題轉(zhuǎn)化為藥物-靶標(biāo)關(guān)系矩陣的未知項(xiàng)評(píng)分填充問(wèn)題[9]。提出一種添加正則化約束的非負(fù)矩陣分解算法作為DTI的預(yù)測(cè)的主要思路。非負(fù)矩陣分解(non-negative matrix factorization,NMF)是一種有效且廣泛應(yīng)用于協(xié)同過(guò)濾的方法[10],NMF算法對(duì)于任何一個(gè)非負(fù)的矩陣R可以尋找到兩個(gè)非負(fù)矩陣U和V,使其滿足U、V的矩陣乘積的每個(gè)元素與原始R矩陣每個(gè)元素的誤差盡可能的小[11]。對(duì)于藥物-靶標(biāo)的相互作用矩陣負(fù)值是沒(méi)有意義的,因此添加非負(fù)約束條件會(huì)使分解結(jié)果更加準(zhǔn)確。數(shù)學(xué)表示為
(1)
分析藥物和藥物之間、靶標(biāo)和靶標(biāo)之間的關(guān)聯(lián)關(guān)系,本文對(duì)非負(fù)矩陣分解算法做了優(yōu)化??紤]到相似結(jié)構(gòu)的藥物偏好相同的靶標(biāo)蛋白。同理,相關(guān)的蛋白質(zhì)(具有相似的氨基酸序列)偏好于相同的藥物。本文在非負(fù)矩陣分解中加入了雙重正則化約束。通過(guò)藥物和靶標(biāo)的雙重正則化約束矩陣分解中藥物潛在影響因子和靶標(biāo)潛在影響因子的學(xué)習(xí),當(dāng)預(yù)測(cè)新的藥物或者靶標(biāo)時(shí),得到的潛在特征傾向于其近鄰藥物或靶標(biāo)的特征。因此,可緩解新藥物、靶標(biāo)的冷啟動(dòng)問(wèn)題。M=(mij)是成對(duì)的藥物相似性得分矩陣。N=(nij)是成對(duì)的靶標(biāo)相似性得分矩陣。故可以通過(guò)最小化藥物和靶標(biāo)蛋白的同源性來(lái)解釋相似的化合物傾向于結(jié)合相似的蛋白質(zhì)。
添加藥物關(guān)系約束
(2)
添加靶標(biāo)蛋白關(guān)系約束
(3)
本文將藥物正則化和靶標(biāo)正則化同時(shí)加入到矩陣分解中,添加藥物靶標(biāo)雙重正則化約束的目標(biāo)函數(shù)為式(4)
(4)
由于已知的藥物-靶標(biāo)相互作用矩陣稀疏,在用矩陣分解的方法尋找藥物潛在影響因子U、藥物潛在影響因子V時(shí),會(huì)造成分解效果下降[12]。因此,本文添加了多輸入深度自編碼器來(lái)學(xué)習(xí)藥物潛在特征和靶標(biāo)蛋白的潛在特征。自編碼器(auto-encoder)是一種能夠通過(guò)自監(jiān)督學(xué)習(xí),學(xué)習(xí)輸入數(shù)據(jù)的高效表征的神經(jīng)網(wǎng)絡(luò)。深度自編碼器是由多層自編碼器堆疊而成,其拓?fù)浣Y(jié)構(gòu)完整,具有強(qiáng)大的非線性擬合特征能力[13]。因此能夠更好表示網(wǎng)絡(luò)輸入數(shù)據(jù)。
如圖1所示,本文設(shè)計(jì)的多輸入深度自編碼器算法在傳統(tǒng)的深度自編碼器的上增加了一個(gè)輸入層和輸出層。
圖1 多輸入深度自編碼器
(1)該模型有兩個(gè)輸入層輸入數(shù)據(jù)分別為R,M。兩個(gè)輸出層分別為重構(gòu)后的R,M。
(2)以藥物和靶標(biāo)的評(píng)分矩陣R為主要輸入,藥物-藥物的相似性矩陣M作為輔助信息輸入自編碼器。這樣一個(gè)雙輸入的自編碼器的中間層可以看作是評(píng)分矩陣和藥物相似度信息的橋梁,中間層是矩陣分解需要的藥物潛在影響因子U。
(3)將藥物靶標(biāo)的評(píng)分矩陣R按行分割為m個(gè)n維向量集合{S1,S2,S3,…,Sm},Si代表藥物i對(duì)所有靶標(biāo)的相互作用。R是一個(gè)稀疏的0,1矩陣。深度自編碼器的另一個(gè)輸入是藥物的相似性矩陣M,將藥物相似性矩陣分割為m個(gè)m維的向量集{d1,d2,d3,…,dm},Mj代表藥物j和所有其它藥物的相似度。將R和M輸入模型,加入限制將矩陣壓縮為一個(gè)低秩矩陣,再通過(guò)解碼器重構(gòu)R,M。對(duì)于輸出層可以計(jì)算
(5)
(6)
其中,{W,b}為可調(diào)參數(shù),W表示m×k的權(quán)重矩陣,k為預(yù)設(shè)的潛在空間維度。b是偏置向量。多輸入深度自編碼器模型在提取原始相互作用矩陣R里的潛在特征的同時(shí)又充分利用了藥物、靶標(biāo)的輔助信息,可以得到有效的藥物、靶標(biāo)表征。
本文結(jié)合約束非負(fù)矩陣分解和多輸入深度自編碼器提出一種深度協(xié)同過(guò)濾算法來(lái)預(yù)測(cè)藥物-靶標(biāo)相互作用。本模型以基于約束非負(fù)矩陣分解的協(xié)同過(guò)濾算法為藥物-靶標(biāo)預(yù)測(cè)的主要方法,為了更加準(zhǔn)確尋找U和V,提出以?xún)蓚€(gè)多輸入深度自編碼分別來(lái)提取藥物潛在特征U和靶標(biāo)潛在特征V。模型如圖2所示,框架由3部分組成:基于多輸入深度自編碼器的藥物潛在特征提取模型、基于矩陣分解的協(xié)同過(guò)濾推薦模型、基于多輸入深度自編碼的靶標(biāo)潛在特征提取模型。在第1、第3部分,對(duì)普通的單輸入單輸出自編碼器做了改進(jìn),在輸入中加入相似度信息M、N為輔助輸入,藥物-靶標(biāo)的相互作用矩陣R為主要輸入。改進(jìn)的自編碼器模型可以同時(shí)提取到藥物-靶標(biāo)關(guān)系R和相似度矩陣M、N中的藥物、靶標(biāo)潛在特征,使提取的潛在特征U和V更加有效。在第2部分,用協(xié)同過(guò)濾填充矩陣R中的未知項(xiàng),將藥物、靶標(biāo)雙重正則化約束加入矩陣分解算法中,通過(guò)上一步自編碼器獲得的藥物潛在影響因子和靶標(biāo)潛在影響因子作為初始的分解矩陣U和V,再根據(jù)模型的損失函數(shù)調(diào)整網(wǎng)絡(luò)更新U和V。
圖2 整體模型
模型訓(xùn)練流程如圖3所示,該模型利用兩個(gè)多輸入深度自編碼器模型構(gòu)建了一個(gè)內(nèi)部拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò),它由兩個(gè)獨(dú)立的網(wǎng)絡(luò)模塊組成,在訓(xùn)練網(wǎng)絡(luò)時(shí)是兩個(gè)并行的分支。兩個(gè)自編碼器經(jīng)過(guò)壓縮后的中間層是兩個(gè)低維矩陣U和V,通過(guò)約束非負(fù)矩陣分解繼續(xù)優(yōu)化這兩個(gè)矩陣直到循環(huán)結(jié)束。
圖3 流程
測(cè)試本模型的數(shù)據(jù)集為Yam基準(zhǔn)數(shù)據(jù)集[3],此數(shù)據(jù)集由Yamannish等設(shè)計(jì),目前是藥物-靶標(biāo)預(yù)測(cè)的一個(gè)基準(zhǔn)數(shù)據(jù)集。下載地址http://web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/。如表1所示,數(shù)據(jù)集按照靶標(biāo)的不同類(lèi)型分為4種數(shù)據(jù)集:核受體、G蛋白偶聯(lián)受體、離子通道、酶。每個(gè)數(shù)據(jù)集包括已經(jīng)驗(yàn)證的藥物-靶標(biāo)的相互作用信息和藥物、標(biāo)靶輔助信息。其中,藥物-靶標(biāo)的相互作用信息主要來(lái)自公共數(shù)據(jù)庫(kù)KEGG BRITE,SuperTarget和DrugBank[14]。
表1 數(shù)據(jù)集內(nèi)容
(1)本文的多輸入深度自編碼器模型由4層自編碼器堆疊而成,對(duì)于提取藥物潛在特征的自編碼器,第L/2層是想要得到的藥物潛在影響因子U。前L/2層用于將輸入的藥物-靶標(biāo)交互矩陣和藥物相似性矩陣的降維,后L/2層將中間層進(jìn)行升維還原。模型的網(wǎng)絡(luò)訓(xùn)練是采用非監(jiān)督的貪婪算法。模型整體的網(wǎng)絡(luò)進(jìn)行逐層訓(xùn)練。詳細(xì)過(guò)程見(jiàn)表2。
表2 參數(shù)調(diào)整
提取藥物潛在特征的自編碼器的損失函數(shù)
(7)
提取靶標(biāo)潛在特征的自編碼器的損失函數(shù)
(8)
(2)本文的深度協(xié)同過(guò)濾模型中優(yōu)化模型中4個(gè)可變參數(shù),分別為藥物潛在影響因子U、靶標(biāo)潛在影響因子V、權(quán)重矩陣集W和偏置矩陣集b。設(shè)置整體模型的損失函數(shù)為式(9)
(9)
雖然目標(biāo)函數(shù)在所有變量中并不是共同的凸函數(shù),但是固定其它參數(shù)時(shí),剩余的任何一個(gè)參數(shù)都是凸函數(shù),對(duì)于潛在變量Ui和Vj首先通過(guò)深度自編碼器提取潛在特征得到Ui和Vj的初始值。然后采用隨機(jī)梯度下降(SGD)算法去優(yōu)化潛在變量使損失函數(shù)的值最小。在這里對(duì)公式求二階偏導(dǎo)
(10)
(11)
在迭代中,參數(shù)Ui和Vj按負(fù)梯度方向來(lái)更新,每一次更新的增量為α,也就是梯度下降的學(xué)習(xí)率,更新規(guī)則如下
(12)
當(dāng)固定了矩陣U和V,可以通過(guò)反向傳播算法來(lái)學(xué)習(xí)每層的權(quán)重W和偏置b,通過(guò)交替更新潛在變量Ui和Vj,參數(shù)權(quán)重W和偏置b,可以得到一個(gè)U和V最優(yōu)解。
模型的優(yōu)劣使用AUC和AUPR進(jìn)行模型評(píng)估,AUC是接受者操作特性曲線(receiver operating characteristic curve,ROC)下的面積,曲線的橫坐標(biāo)是假陽(yáng)性率(FPR),縱坐標(biāo)代表真陽(yáng)性率(TPR)。AUPR是精確率召回率曲線(precision recall curve,PR)下的面積,曲線橫坐標(biāo)是召回率(Recall),縱坐標(biāo)是精確率(Precision)。PR曲線可以得到在不同閾值下的召回率值和精確率值,AUPR值在0到1之間,越大表明預(yù)測(cè)效果越好[15]
P(準(zhǔn)確率,Precision)=TP/(TP+FP)
R(召回率,Recall)=TP/(TP+FN)
TPR(真陽(yáng)性率)= TP/(TP+FN)
FPR(假陽(yáng)性率)= FP/(FP+TN)
為了評(píng)估模型的優(yōu)劣性能,在實(shí)驗(yàn)部分設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn):①本文的深度協(xié)同過(guò)濾模型對(duì)比文獻(xiàn)[5]中的MFDR模型,這兩個(gè)模型的相同點(diǎn)是都采用了深度自編碼器提取深度表征,不同點(diǎn)是本文方法用協(xié)同過(guò)濾算法解決DTI問(wèn)題,而MFDR采用SVM做二分類(lèi)。另一個(gè)對(duì)比的方法是COSINE[7],該方法采用基于低秩矩陣分解的協(xié)同過(guò)濾算法預(yù)測(cè)DTI。②對(duì)比了5種經(jīng)典的近幾年取得不錯(cuò)成果的方法,分別為KBMF2K、CMF、BML-NII、WNN-GIP和NetLapRLS。
3.2.1 對(duì)比實(shí)驗(yàn)一
深度協(xié)同過(guò)濾與MFDR(SDAE+SVM)和COSINE方法對(duì)比。
AUPR值如圖4所示。因?yàn)闃颖局幸阎腄TI數(shù)量遠(yuǎn)小于未知的數(shù)量,正負(fù)樣本不平均分布造成召回率偏低。因此,AUPR值不高,本文的算法AUPR值在4種數(shù)據(jù)集上的AUPR值為0.637、0.682、0.732、0.764均高于另外兩種方法,在核受體數(shù)據(jù)集中3種方法差距較小,在酶數(shù)據(jù)集上本文方法明顯高于其它兩個(gè)方法。表明本文方法能較好的平衡數(shù)據(jù)的準(zhǔn)確率和召回率。
如圖5所示,COSINE方法在核受體數(shù)據(jù)集上效果不錯(cuò),在酶數(shù)據(jù)集上表現(xiàn)下降,反應(yīng)了僅僅使用矩陣分解的局限性。從AUC曲線可以看出本文的方法在4個(gè)數(shù)據(jù)集上的曲線下面積大于SDAE+SVM和COSINE兩個(gè)方法,并且曲線的凸出接近左上(0,1)坐標(biāo),表明本文的方法可以取得高真陽(yáng)性率和低假陽(yáng)性率。在酶數(shù)據(jù)集上,本文方法AUC達(dá)到0.978,相較其它數(shù)據(jù)集,取得了最好的效果。
圖4 AUPR值對(duì)比
圖5 AUC結(jié)果對(duì)比
3.2.2 對(duì)比實(shí)驗(yàn)二
為了評(píng)估本文的深度協(xié)同過(guò)濾算法與藥物-靶標(biāo)預(yù)測(cè)的經(jīng)典算法相比的性能,本文設(shè)計(jì)了5個(gè)經(jīng)典方法,見(jiàn)表3,表4,前3個(gè)為基于二分類(lèi)的方法、后3個(gè)為基于矩陣分解的方法。
可以看出矩陣分解方法在DTI預(yù)測(cè)上具有較好的性能。如表3所示深度協(xié)同過(guò)濾算法在離子通道數(shù)據(jù)集上,AUC值比協(xié)同矩陣分解CMF高了0.173,表明了加入多輸入深度自編碼器在DTI預(yù)測(cè)上的顯著效果。如表4所示經(jīng)典算法的AUPR值難以突破0.5,而深度協(xié)同過(guò)濾模型在酶數(shù)據(jù)集上達(dá)到了0.764,更好平衡了數(shù)據(jù)準(zhǔn)確率和召回率。
表3 與5個(gè)經(jīng)典方法的AUC值對(duì)比
表4 與5個(gè)經(jīng)典方法的AUPR值對(duì)比
本文提出了一種DTI預(yù)測(cè)方法,深度協(xié)同過(guò)濾算法。根據(jù)藥物、靶標(biāo)的關(guān)系在非負(fù)矩陣分解中加入藥物、靶標(biāo)雙重正則化約束。并且設(shè)計(jì)了一個(gè)多輸入深度自編碼器來(lái)同時(shí)提取DTI矩陣和輔助信息的特征。將得到的藥物、靶標(biāo)的潛在特征作為約束非負(fù)矩陣的初始值進(jìn)行未知項(xiàng)的預(yù)測(cè)填充。通過(guò)實(shí)驗(yàn)比較,驗(yàn)證本文算法優(yōu)于它DTI預(yù)測(cè)方法。接下來(lái)的工作,將嘗試?yán)^續(xù)改進(jìn)深度協(xié)同過(guò)濾算法并應(yīng)用到藥物重定位中,挖掘特定藥物的潛在適應(yīng)癥。