亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度協(xié)同過(guò)濾算法實(shí)現(xiàn)藥物-靶標(biāo)關(guān)系預(yù)測(cè)

2020-09-04 10:45:42何亞瓊朱曉軍

計(jì)算機(jī)工程與設(shè)計(jì) 2020年8期

何亞瓊，朱曉軍

(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院，山西太原 030024)

0 引言

藥物的設(shè)計(jì)和開(kāi)發(fā)是一個(gè)風(fēng)險(xiǎn)高、周期長(zhǎng)、投資巨大的過(guò)程[1]。僅依靠化學(xué)實(shí)驗(yàn)來(lái)發(fā)現(xiàn)新的藥物效率低且成本高。因此，通過(guò)計(jì)算機(jī)對(duì)藥物的潛在靶標(biāo)進(jìn)行虛擬篩選成為計(jì)算機(jī)輔助制藥的熱點(diǎn)[2]。目前藥物-靶標(biāo)關(guān)系預(yù)測(cè)存在的難點(diǎn)是已知的藥物-靶標(biāo)對(duì)有限。對(duì)于DTI預(yù)測(cè)第一類(lèi)方法是二元分類(lèi)問(wèn)題，第二類(lèi)方法是轉(zhuǎn)化為推薦任務(wù)。對(duì)于第一類(lèi)方法，文獻(xiàn)[3]提出兩種集成學(xué)習(xí)的方法，分別從藥物和靶標(biāo)的方向進(jìn)行預(yù)測(cè)，再合并結(jié)果。文獻(xiàn)[4]提出基于旋轉(zhuǎn)森林(RF)的藥物靶標(biāo)預(yù)測(cè)模型。文獻(xiàn)[5]將深度學(xué)習(xí)引入藥物-靶標(biāo)研究領(lǐng)域，用堆疊自動(dòng)編碼器提取深度表征，然后用SVM進(jìn)行二分類(lèi)。第二類(lèi)方法，文獻(xiàn)[6]提出用于DTI預(yù)測(cè)的貝葉斯排序矩陣分解,主要思想是同時(shí)將藥物和目標(biāo)投射到共享潛在空間。文獻(xiàn)[7]采用低秩加權(quán)矩陣分解實(shí)現(xiàn)了藥物-靶標(biāo)的關(guān)系預(yù)測(cè)。文章提出鄰域正則化邏輯矩陣分解(NRLMF)用于DTI預(yù)測(cè)[8]。

分析先前研究成果，基于矩陣分解的推薦方法可以充分利用已知的DTI關(guān)系。但是存在矩陣稀疏的問(wèn)題，并且隨著數(shù)據(jù)集的擴(kuò)充，矩陣分解并不是一個(gè)高效的方法。因此，本文提出一種深度協(xié)同過(guò)濾算法實(shí)現(xiàn)DTI預(yù)測(cè)。該算法沿用基于矩陣分解的協(xié)同過(guò)濾算法，在矩陣分解中添加藥物靶標(biāo)雙重正則化約束。并且，設(shè)計(jì)融入了多輸入深度自編碼器，能夠有效提取DTI矩陣和輔助信息的潛在特征，從而優(yōu)化傳統(tǒng)矩陣分解的效果。

1 深度協(xié)同過(guò)濾算法

1.1 問(wèn)題設(shè)置

(1)藥物-靶標(biāo)相互作用矩陣R，是一個(gè)m×n的二維矩陣，m代表藥物數(shù)量，n代表靶標(biāo)數(shù)量。矩陣R中，如果已知藥物i和靶標(biāo)j存在相互作用，則Rij=1，未被驗(yàn)證的關(guān)系為0。

(2)藥物相似性矩陣M，是一個(gè)m×m的對(duì)角矩陣。mij表示根據(jù)化合物i和化合物j的化學(xué)結(jié)構(gòu)計(jì)算的藥物相似性。

(3)靶標(biāo)蛋白相似性矩陣N，是一個(gè)n×n的對(duì)角矩陣。靶標(biāo)相似性nij是基于目標(biāo)蛋白的氨基酸序列計(jì)算的。

(4)Ui和Vj分別代表藥物i的潛在影響因子向量和靶標(biāo)j的潛在影響因子向量，K?n,m是藥物和靶標(biāo)的潛在低維空間維度。

1.2 約束非負(fù)矩陣分解

本文將藥物-靶標(biāo)的關(guān)系預(yù)測(cè)問(wèn)題轉(zhuǎn)化為藥物-靶標(biāo)關(guān)系矩陣的未知項(xiàng)評(píng)分填充問(wèn)題[9]。提出一種添加正則化約束的非負(fù)矩陣分解算法作為DTI的預(yù)測(cè)的主要思路。非負(fù)矩陣分解(non-negative matrix factorization，NMF)是一種有效且廣泛應(yīng)用于協(xié)同過(guò)濾的方法[10]，NMF算法對(duì)于任何一個(gè)非負(fù)的矩陣R可以尋找到兩個(gè)非負(fù)矩陣U和V，使其滿足U、V的矩陣乘積的每個(gè)元素與原始R矩陣每個(gè)元素的誤差盡可能的小[11]。對(duì)于藥物-靶標(biāo)的相互作用矩陣負(fù)值是沒(méi)有意義的，因此添加非負(fù)約束條件會(huì)使分解結(jié)果更加準(zhǔn)確。數(shù)學(xué)表示為

(1)

分析藥物和藥物之間、靶標(biāo)和靶標(biāo)之間的關(guān)聯(lián)關(guān)系，本文對(duì)非負(fù)矩陣分解算法做了優(yōu)化?？紤]到相似結(jié)構(gòu)的藥物偏好相同的靶標(biāo)蛋白。同理，相關(guān)的蛋白質(zhì)(具有相似的氨基酸序列)偏好于相同的藥物。本文在非負(fù)矩陣分解中加入了雙重正則化約束。通過(guò)藥物和靶標(biāo)的雙重正則化約束矩陣分解中藥物潛在影響因子和靶標(biāo)潛在影響因子的學(xué)習(xí)，當(dāng)預(yù)測(cè)新的藥物或者靶標(biāo)時(shí)，得到的潛在特征傾向于其近鄰藥物或靶標(biāo)的特征。因此，可緩解新藥物、靶標(biāo)的冷啟動(dòng)問(wèn)題。M=(mij)是成對(duì)的藥物相似性得分矩陣。N=(nij)是成對(duì)的靶標(biāo)相似性得分矩陣。故可以通過(guò)最小化藥物和靶標(biāo)蛋白的同源性來(lái)解釋相似的化合物傾向于結(jié)合相似的蛋白質(zhì)。

添加藥物關(guān)系約束

(2)

添加靶標(biāo)蛋白關(guān)系約束

(3)

本文將藥物正則化和靶標(biāo)正則化同時(shí)加入到矩陣分解中，添加藥物靶標(biāo)雙重正則化約束的目標(biāo)函數(shù)為式(4)

(4)

1.3 多輸入深度自編碼器

由于已知的藥物-靶標(biāo)相互作用矩陣稀疏，在用矩陣分解的方法尋找藥物潛在影響因子U、藥物潛在影響因子V時(shí)，會(huì)造成分解效果下降[12]。因此，本文添加了多輸入深度自編碼器來(lái)學(xué)習(xí)藥物潛在特征和靶標(biāo)蛋白的潛在特征。自編碼器(auto-encoder)是一種能夠通過(guò)自監(jiān)督學(xué)習(xí)，學(xué)習(xí)輸入數(shù)據(jù)的高效表征的神經(jīng)網(wǎng)絡(luò)。深度自編碼器是由多層自編碼器堆疊而成，其拓?fù)浣Y(jié)構(gòu)完整，具有強(qiáng)大的非線性擬合特征能力[13]。因此能夠更好表示網(wǎng)絡(luò)輸入數(shù)據(jù)。

如圖1所示，本文設(shè)計(jì)的多輸入深度自編碼器算法在傳統(tǒng)的深度自編碼器的上增加了一個(gè)輸入層和輸出層。

圖1 多輸入深度自編碼器

(1)該模型有兩個(gè)輸入層輸入數(shù)據(jù)分別為R，M。兩個(gè)輸出層分別為重構(gòu)后的R，M。

(2)以藥物和靶標(biāo)的評(píng)分矩陣R為主要輸入，藥物-藥物的相似性矩陣M作為輔助信息輸入自編碼器。這樣一個(gè)雙輸入的自編碼器的中間層可以看作是評(píng)分矩陣和藥物相似度信息的橋梁，中間層是矩陣分解需要的藥物潛在影響因子U。

(3)將藥物靶標(biāo)的評(píng)分矩陣R按行分割為m個(gè)n維向量集合{S1,S2,S3,…,Sm}，Si代表藥物i對(duì)所有靶標(biāo)的相互作用。R是一個(gè)稀疏的0，1矩陣。深度自編碼器的另一個(gè)輸入是藥物的相似性矩陣M，將藥物相似性矩陣分割為m個(gè)m維的向量集{d1,d2,d3,…,dm}，Mj代表藥物j和所有其它藥物的相似度。將R和M輸入模型，加入限制將矩陣壓縮為一個(gè)低秩矩陣，再通過(guò)解碼器重構(gòu)R，M。對(duì)于輸出層可以計(jì)算

(5)

(6)

其中，{W,b}為可調(diào)參數(shù)，W表示m×k的權(quán)重矩陣，k為預(yù)設(shè)的潛在空間維度。b是偏置向量。多輸入深度自編碼器模型在提取原始相互作用矩陣R里的潛在特征的同時(shí)又充分利用了藥物、靶標(biāo)的輔助信息，可以得到有效的藥物、靶標(biāo)表征。

1.4 模型描述

本文結(jié)合約束非負(fù)矩陣分解和多輸入深度自編碼器提出一種深度協(xié)同過(guò)濾算法來(lái)預(yù)測(cè)藥物-靶標(biāo)相互作用。本模型以基于約束非負(fù)矩陣分解的協(xié)同過(guò)濾算法為藥物-靶標(biāo)預(yù)測(cè)的主要方法，為了更加準(zhǔn)確尋找U和V，提出以?xún)蓚€(gè)多輸入深度自編碼分別來(lái)提取藥物潛在特征U和靶標(biāo)潛在特征V。模型如圖2所示，框架由3部分組成：基于多輸入深度自編碼器的藥物潛在特征提取模型、基于矩陣分解的協(xié)同過(guò)濾推薦模型、基于多輸入深度自編碼的靶標(biāo)潛在特征提取模型。在第1、第3部分，對(duì)普通的單輸入單輸出自編碼器做了改進(jìn)，在輸入中加入相似度信息M、N為輔助輸入，藥物-靶標(biāo)的相互作用矩陣R為主要輸入。改進(jìn)的自編碼器模型可以同時(shí)提取到藥物-靶標(biāo)關(guān)系R和相似度矩陣M、N中的藥物、靶標(biāo)潛在特征，使提取的潛在特征U和V更加有效。在第2部分，用協(xié)同過(guò)濾填充矩陣R中的未知項(xiàng)，將藥物、靶標(biāo)雙重正則化約束加入矩陣分解算法中，通過(guò)上一步自編碼器獲得的藥物潛在影響因子和靶標(biāo)潛在影響因子作為初始的分解矩陣U和V，再根據(jù)模型的損失函數(shù)調(diào)整網(wǎng)絡(luò)更新U和V。

圖2 整體模型

2 模型訓(xùn)練

2.1 算法流程

模型訓(xùn)練流程如圖3所示，該模型利用兩個(gè)多輸入深度自編碼器模型構(gòu)建了一個(gè)內(nèi)部拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)，它由兩個(gè)獨(dú)立的網(wǎng)絡(luò)模塊組成，在訓(xùn)練網(wǎng)絡(luò)時(shí)是兩個(gè)并行的分支。兩個(gè)自編碼器經(jīng)過(guò)壓縮后的中間層是兩個(gè)低維矩陣U和V，通過(guò)約束非負(fù)矩陣分解繼續(xù)優(yōu)化這兩個(gè)矩陣直到循環(huán)結(jié)束。

圖3 流程

2.2 數(shù)據(jù)集

測(cè)試本模型的數(shù)據(jù)集為Yam基準(zhǔn)數(shù)據(jù)集[3]，此數(shù)據(jù)集由Yamannish等設(shè)計(jì)，目前是藥物-靶標(biāo)預(yù)測(cè)的一個(gè)基準(zhǔn)數(shù)據(jù)集。下載地址http：//web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/。如表1所示，數(shù)據(jù)集按照靶標(biāo)的不同類(lèi)型分為4種數(shù)據(jù)集：核受體、G蛋白偶聯(lián)受體、離子通道、酶。每個(gè)數(shù)據(jù)集包括已經(jīng)驗(yàn)證的藥物-靶標(biāo)的相互作用信息和藥物、標(biāo)靶輔助信息。其中，藥物-靶標(biāo)的相互作用信息主要來(lái)自公共數(shù)據(jù)庫(kù)KEGG BRITE，SuperTarget和DrugBank[14]。

表1 數(shù)據(jù)集內(nèi)容

2.3 參數(shù)優(yōu)化

(1)本文的多輸入深度自編碼器模型由4層自編碼器堆疊而成，對(duì)于提取藥物潛在特征的自編碼器，第L/2層是想要得到的藥物潛在影響因子U。前L/2層用于將輸入的藥物-靶標(biāo)交互矩陣和藥物相似性矩陣的降維，后L/2層將中間層進(jìn)行升維還原。模型的網(wǎng)絡(luò)訓(xùn)練是采用非監(jiān)督的貪婪算法。模型整體的網(wǎng)絡(luò)進(jìn)行逐層訓(xùn)練。詳細(xì)過(guò)程見(jiàn)表2。

表2 參數(shù)調(diào)整

提取藥物潛在特征的自編碼器的損失函數(shù)

(7)

提取靶標(biāo)潛在特征的自編碼器的損失函數(shù)

(8)

(2)本文的深度協(xié)同過(guò)濾模型中優(yōu)化模型中4個(gè)可變參數(shù)，分別為藥物潛在影響因子U、靶標(biāo)潛在影響因子V、權(quán)重矩陣集W和偏置矩陣集b。設(shè)置整體模型的損失函數(shù)為式(9)

(9)

雖然目標(biāo)函數(shù)在所有變量中并不是共同的凸函數(shù)，但是固定其它參數(shù)時(shí)，剩余的任何一個(gè)參數(shù)都是凸函數(shù)，對(duì)于潛在變量Ui和Vj首先通過(guò)深度自編碼器提取潛在特征得到Ui和Vj的初始值。然后采用隨機(jī)梯度下降(SGD)算法去優(yōu)化潛在變量使損失函數(shù)的值最小。在這里對(duì)公式求二階偏導(dǎo)

(10)

(11)

在迭代中，參數(shù)Ui和Vj按負(fù)梯度方向來(lái)更新，每一次更新的增量為α，也就是梯度下降的學(xué)習(xí)率，更新規(guī)則如下

(12)

當(dāng)固定了矩陣U和V，可以通過(guò)反向傳播算法來(lái)學(xué)習(xí)每層的權(quán)重W和偏置b，通過(guò)交替更新潛在變量Ui和Vj，參數(shù)權(quán)重W和偏置b，可以得到一個(gè)U和V最優(yōu)解。

3 實(shí) 驗(yàn)

3.1 評(píng)估標(biāo)準(zhǔn)

模型的優(yōu)劣使用AUC和AUPR進(jìn)行模型評(píng)估，AUC是接受者操作特性曲線(receiver operating characteristic curve，ROC)下的面積，曲線的橫坐標(biāo)是假陽(yáng)性率(FPR)，縱坐標(biāo)代表真陽(yáng)性率(TPR)。AUPR是精確率召回率曲線(precision recall curve，PR)下的面積，曲線橫坐標(biāo)是召回率(Recall)，縱坐標(biāo)是精確率(Precision)。PR曲線可以得到在不同閾值下的召回率值和精確率值，AUPR值在0到1之間，越大表明預(yù)測(cè)效果越好[15]

P(準(zhǔn)確率,Precision)=TP/(TP+FP)
R(召回率,Recall)=TP/(TP+FN)
TPR(真陽(yáng)性率)= TP/(TP+FN)
FPR(假陽(yáng)性率)= FP/(FP+TN)

3.2 對(duì)比實(shí)驗(yàn)

為了評(píng)估模型的優(yōu)劣性能，在實(shí)驗(yàn)部分設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn)：①本文的深度協(xié)同過(guò)濾模型對(duì)比文獻(xiàn)[5]中的MFDR模型，這兩個(gè)模型的相同點(diǎn)是都采用了深度自編碼器提取深度表征，不同點(diǎn)是本文方法用協(xié)同過(guò)濾算法解決DTI問(wèn)題，而MFDR采用SVM做二分類(lèi)。另一個(gè)對(duì)比的方法是COSINE[7]，該方法采用基于低秩矩陣分解的協(xié)同過(guò)濾算法預(yù)測(cè)DTI。②對(duì)比了5種經(jīng)典的近幾年取得不錯(cuò)成果的方法，分別為KBMF2K、CMF、BML-NII、WNN-GIP和NetLapRLS。

3.2.1 對(duì)比實(shí)驗(yàn)一

深度協(xié)同過(guò)濾與MFDR(SDAE+SVM)和COSINE方法對(duì)比。

AUPR值如圖4所示。因?yàn)闃颖局幸阎腄TI數(shù)量遠(yuǎn)小于未知的數(shù)量，正負(fù)樣本不平均分布造成召回率偏低。因此，AUPR值不高，本文的算法AUPR值在4種數(shù)據(jù)集上的AUPR值為0.637、0.682、0.732、0.764均高于另外兩種方法，在核受體數(shù)據(jù)集中3種方法差距較小，在酶數(shù)據(jù)集上本文方法明顯高于其它兩個(gè)方法。表明本文方法能較好的平衡數(shù)據(jù)的準(zhǔn)確率和召回率。

如圖5所示，COSINE方法在核受體數(shù)據(jù)集上效果不錯(cuò)，在酶數(shù)據(jù)集上表現(xiàn)下降，反應(yīng)了僅僅使用矩陣分解的局限性。從AUC曲線可以看出本文的方法在4個(gè)數(shù)據(jù)集上的曲線下面積大于SDAE+SVM和COSINE兩個(gè)方法，并且曲線的凸出接近左上(0,1)坐標(biāo)，表明本文的方法可以取得高真陽(yáng)性率和低假陽(yáng)性率。在酶數(shù)據(jù)集上，本文方法AUC達(dá)到0.978，相較其它數(shù)據(jù)集，取得了最好的效果。

圖4 AUPR值對(duì)比

圖5 AUC結(jié)果對(duì)比

3.2.2 對(duì)比實(shí)驗(yàn)二

為了評(píng)估本文的深度協(xié)同過(guò)濾算法與藥物-靶標(biāo)預(yù)測(cè)的經(jīng)典算法相比的性能，本文設(shè)計(jì)了5個(gè)經(jīng)典方法，見(jiàn)表3，表4，前3個(gè)為基于二分類(lèi)的方法、后3個(gè)為基于矩陣分解的方法。

可以看出矩陣分解方法在DTI預(yù)測(cè)上具有較好的性能。如表3所示深度協(xié)同過(guò)濾算法在離子通道數(shù)據(jù)集上，AUC值比協(xié)同矩陣分解CMF高了0.173，表明了加入多輸入深度自編碼器在DTI預(yù)測(cè)上的顯著效果。如表4所示經(jīng)典算法的AUPR值難以突破0.5，而深度協(xié)同過(guò)濾模型在酶數(shù)據(jù)集上達(dá)到了0.764，更好平衡了數(shù)據(jù)準(zhǔn)確率和召回率。

表3 與5個(gè)經(jīng)典方法的AUC值對(duì)比

表4 與5個(gè)經(jīng)典方法的AUPR值對(duì)比

4 結(jié)束語(yǔ)

本文提出了一種DTI預(yù)測(cè)方法，深度協(xié)同過(guò)濾算法。根據(jù)藥物、靶標(biāo)的關(guān)系在非負(fù)矩陣分解中加入藥物、靶標(biāo)雙重正則化約束。并且設(shè)計(jì)了一個(gè)多輸入深度自編碼器來(lái)同時(shí)提取DTI矩陣和輔助信息的特征。將得到的藥物、靶標(biāo)的潛在特征作為約束非負(fù)矩陣的初始值進(jìn)行未知項(xiàng)的預(yù)測(cè)填充。通過(guò)實(shí)驗(yàn)比較，驗(yàn)證本文算法優(yōu)于它DTI預(yù)測(cè)方法。接下來(lái)的工作，將嘗試?yán)^續(xù)改進(jìn)深度協(xié)同過(guò)濾算法并應(yīng)用到藥物重定位中，挖掘特定藥物的潛在適應(yīng)癥。