李淑怡,黎珊,王鑫,陳明,姬文興
(湖南師范大學(xué)信息科學(xué)與工程學(xué)院,長(zhǎng)沙410081)
當(dāng)兩種或兩種以上的藥物同時(shí)服用時(shí),組合處方中的兩種或兩種以上藥物在藥理行為方面會(huì)相互影響,這種影響被稱為藥物相互作用(Drug-Drug Interaction,DDI)。DDI 可能降低療效,誘發(fā)意想不到的藥物不良反應(yīng)或其他不良反應(yīng)。不明原因的DDI 在臨床上經(jīng)常發(fā)生,藥物庫中批準(zhǔn)的小分子藥物平均每100 對(duì)藥物中存在15 個(gè)DDI[1]。DDI 引起的不良反應(yīng)在藥物間的傳播不可忽略,它們會(huì)讓接受多種藥物治療的患者處于不安全的境地[2]。因此,在臨床用藥前,DDI 鑒定已成為一項(xiàng)迫切需要的任務(wù)。
然而,用于DDI 識(shí)別的傳統(tǒng)實(shí)驗(yàn)方法(如檢測(cè)轉(zhuǎn)運(yùn)體相關(guān)相互作用[3])成本高、持續(xù)時(shí)間長(zhǎng)[4]。到目前為止,在藥物開發(fā)過程中(通常是臨床試驗(yàn)階段)只能識(shí)別出少數(shù)DDI,其中一些是在藥物批準(zhǔn)后報(bào)告的,更多是在上市后監(jiān)測(cè)中發(fā)現(xiàn)的。計(jì)算方法為大規(guī)模地發(fā)現(xiàn)潛在的DDI 提供了一個(gè)很有前途的途徑,并在最近得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注[5-6]。目前的計(jì)算方法大致可分為基于文本挖掘的方法和基于機(jī)器學(xué)習(xí)的方法。前者從不同的文本源(如科學(xué)文獻(xiàn)、FDA 的不良事件報(bào)告系統(tǒng)和電子病歷)中檢測(cè)的DDI。然而,這些方法在很大程度上依賴于藥物上市后的證據(jù),因此在進(jìn)行多藥處方之前,它們無法警告潛在的DDI。相比之下,基于機(jī)器學(xué)習(xí)的方法(例如,基于簡(jiǎn)單相似性的方法、基于網(wǎng)絡(luò)推薦的方法、基于分類的方法能夠通過利用上市前或上市后的藥物屬性(例如化學(xué)結(jié)構(gòu)、靶點(diǎn)),來提供此類警報(bào)、層次分類碼和副作用預(yù)測(cè)。
大多數(shù)現(xiàn)有的計(jì)算方法都是針對(duì)傳統(tǒng)的二元預(yù)測(cè)而設(shè)計(jì)的,也就是確定一對(duì)藥物是否存在DDI 的可能性,但兩種相互作用的藥物可能會(huì)改變它們?cè)隗w內(nèi)的藥理行為或作用(例如,增加或降低血清濃度)[6]。例如,奎寧的血清濃度(DrugBank 編號(hào):DB00468)在服用促進(jìn)劑(DB00673)時(shí)升高,而在服用米托坦(DrugBank編號(hào):DB00648)時(shí)降低。這兩例DDIs 包含藥物藥理作用的變化,分別稱為增強(qiáng)型DDI 和抑制型DDI。了解DDI 是增強(qiáng)的還是減弱的,這一點(diǎn)有益處,尤其是在進(jìn)行最佳的病人護(hù)理、確定藥物劑量或發(fā)現(xiàn)對(duì)治療的耐藥性時(shí)[7]。
最近,一些文獻(xiàn)針對(duì)這種帶符號(hào)的DDI 預(yù)測(cè)問題展開了研究,將該問題表述為符號(hào)網(wǎng)絡(luò)上的鏈路預(yù)測(cè)問題。符號(hào)網(wǎng)絡(luò)是一類特殊的圖,它引入了負(fù)邊表達(dá)消極關(guān)系。在這里,負(fù)邊對(duì)應(yīng)于抑制型DDI。文獻(xiàn)[8]設(shè)計(jì)了三矩陣分解的模型,預(yù)測(cè)新藥的DDI 符號(hào)。文獻(xiàn)[9]設(shè)計(jì)了基于非負(fù)矩陣分解預(yù)測(cè)模型,并觀察到增強(qiáng)和抑制型DDI 的數(shù)量及其總和與差異與藥物群落相關(guān)。文獻(xiàn)[6]引入了符號(hào)網(wǎng)絡(luò)的平衡理論,提出了平衡化的矩陣分解模型。他們發(fā)現(xiàn),增強(qiáng)型DDI 和抑制型DDI 的出現(xiàn)并不是隨機(jī)的,因而分析方法應(yīng)當(dāng)考慮相應(yīng)的DDI 網(wǎng)絡(luò)中藥物之間的結(jié)構(gòu)關(guān)系。這種結(jié)構(gòu)性質(zhì)也是理解高階藥物相互作用治療復(fù)雜疾病的最重要步驟之一[6]。
受深度學(xué)習(xí)的巨大成功和迅猛發(fā)展的影響,定義于圖上的神經(jīng)網(wǎng)絡(luò)——圖神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱GNN)在多個(gè)網(wǎng)絡(luò)挖掘任務(wù)中也取得了破土性能[10]。GNN 是深度學(xué)習(xí)在圖數(shù)據(jù)上的擴(kuò)展,是對(duì)一大類面向圖數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)的統(tǒng)稱。符號(hào)圖卷積網(wǎng)絡(luò)[11]是定義于符號(hào)網(wǎng)絡(luò)上的卷積神經(jīng)網(wǎng)絡(luò),已經(jīng)在鏈路預(yù)測(cè)和結(jié)點(diǎn)嵌入問題上獲得了較好的測(cè)試性能。本文嘗試了符號(hào)圖卷積在DDI 符號(hào)網(wǎng)絡(luò)上的應(yīng)用,將DDI 預(yù)測(cè)問題轉(zhuǎn)換為一個(gè)嵌入問題,然后利用對(duì)數(shù)幾率回歸獲得DDI 類型。結(jié)果表明,符號(hào)圖卷積網(wǎng)絡(luò)在該問題上表現(xiàn)良好,具有可行性。
本節(jié)首先介紹我們所關(guān)注的DDI 預(yù)測(cè)問題,然后介紹了圖卷積網(wǎng)絡(luò)。
已知藥物集合D={di},i=1,2,…,m,以及它們之間的已知DDI 網(wǎng)絡(luò),如圖1 所示,空心結(jié)點(diǎn)是藥物,實(shí)線是他們之間的相互作用。本文關(guān)心的問題是:如何利用已知的DDI,預(yù)測(cè)出一些新的DDI。用m 階對(duì)稱方陣A=(aij)表達(dá)DDIs。傳統(tǒng)DDI 中,aij取0 或1,0 表示di與dj藥物之間無相互作用,1 表示兩種藥物有作用。本文考慮的是更為復(fù)雜的預(yù)測(cè)問題,aij可以取值0、1或者-1、1、-1 分別表示增強(qiáng)型、抑制型DDI。這種DDI網(wǎng)絡(luò)即為符號(hào)圖,本文考慮的問題正是鏈路及其符號(hào)的預(yù)測(cè)問題。
圖1 DDI預(yù)測(cè)問題
圖神經(jīng)網(wǎng)絡(luò)是定義在圖上的神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)在圖數(shù)據(jù)上的擴(kuò)展。這些神經(jīng)網(wǎng)絡(luò)包括圖卷積網(wǎng)絡(luò)、門控圖神經(jīng)網(wǎng)絡(luò)、基于注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)等,它們被統(tǒng)稱為圖神經(jīng)網(wǎng)絡(luò)(GNN)。為了適應(yīng)圖數(shù)據(jù),GNN 對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)進(jìn)行了修正。Zhou 等指出[10],GNN 在以下幾個(gè)方面比傳統(tǒng)神經(jīng)更具有吸引力:①GNN 在每個(gè)節(jié)點(diǎn)分別進(jìn)行傳播,忽略了節(jié)點(diǎn)的次序性,且GNN 的輸出不會(huì)因節(jié)點(diǎn)輸入次序而發(fā)生改變;②圖的邊表達(dá)了節(jié)點(diǎn)間的依賴信息,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)僅將其視為節(jié)點(diǎn)特征,GNN 則利用圖結(jié)構(gòu)來引導(dǎo)信息傳播。
圖卷積網(wǎng)絡(luò)(GCN)[12]是最為典型的一種圖神經(jīng)網(wǎng)絡(luò),它改造了傳統(tǒng)的卷積算子,以適應(yīng)圖結(jié)構(gòu)的不規(guī)則性。圖2 描述了圖卷積網(wǎng)絡(luò)所使用的卷積算子,X 是輸入的圖,Z 是一次卷積后的圖,右圖以X1為例展示了結(jié)點(diǎn)1 的信息匯聚過程。利用鄰接矩陣A 與X 相乘,規(guī)定了每個(gè)結(jié)點(diǎn)僅從鄰居結(jié)點(diǎn)收集信息??紤]到自身的信息累積,將A 矩陣改寫為?=A+IN。采用度矩陣對(duì)其進(jìn)行規(guī)范化,其中與權(quán)重矩陣θ相乘,得到卷積后的結(jié)果
圖2 圖卷積
符號(hào)網(wǎng)絡(luò)的負(fù)邊具有異于正邊的語義信息,與正邊形成了復(fù)雜關(guān)系。平衡理論是符號(hào)圖的基礎(chǔ)理論,用于描述網(wǎng)絡(luò)中的結(jié)構(gòu)平衡性。符號(hào)圖卷積網(wǎng)絡(luò)(Signed Graph Convolutional Network,SGCN)利用平衡理論來改造圖卷積操作,實(shí)現(xiàn)了跨層傳播信息。本節(jié)我們利用SGCN 來預(yù)測(cè)DDI 的鏈接及其類型。首先介紹符號(hào)圖卷積,然后將其應(yīng)用于DDI 預(yù)測(cè)。
平衡理論通常用三角形描述網(wǎng)絡(luò)中的結(jié)構(gòu)平衡性。將符號(hào)網(wǎng)絡(luò)中的周期分類為平衡或不平衡,其中平衡周期由偶數(shù)個(gè)負(fù)邊組成,而具有奇數(shù)個(gè)負(fù)邊的周期被認(rèn)為是不平衡的。在圖中1,我們可以看到三角形(A)和(B)是平衡的,而(C)和(D)是不平衡的。[SGCN]將這種平衡性描述推廣至任意一條路徑,從而構(gòu)造每個(gè)結(jié)點(diǎn)的朋友結(jié)點(diǎn)集和敵人結(jié)點(diǎn)集。將從i 出發(fā)經(jīng)由長(zhǎng)度為l的平衡、不平衡路徑所達(dá)到的點(diǎn)集分別記為Bi(l)和Ui(l)。在圖4 中我們舉例說明了該構(gòu)造過程,計(jì)算公式遞歸定義見表1。
圖3 平衡理論
圖4 基于平衡理論的路徑
表1 平衡(不平衡)路徑上的結(jié)點(diǎn)集定義與特征計(jì)算公式
這里,Ni+、Ni-為結(jié)點(diǎn)i 的正、負(fù)鄰居集合,如果aij=1,則j∈Ni+,同理,如果aij=-1,j∈Ni-。每個(gè)結(jié)點(diǎn)從其周邊結(jié)點(diǎn)匯聚信息,經(jīng)歷激活函數(shù)后傳遞給周邊鄰居。SGCN 依據(jù)平衡路徑和不平衡路徑,為各層的定義了兩個(gè)卷積算子(見表1)。這里l表示層號(hào),W 是GNN 的網(wǎng)絡(luò)權(quán)重矩陣,h(0)是結(jié)點(diǎn)輸入信息(原始表征),σ()是一個(gè)圖卷積后的非線性激活函數(shù)。
已知m 種藥物di,i=1,...,m,我們從已知數(shù)據(jù)中提取初始特征以及DDI 網(wǎng)絡(luò),利用上面的符號(hào)圖卷積定義GNN 架構(gòu)。該網(wǎng)絡(luò)始終為每個(gè)di保持兩個(gè)輸出:我們將最后一層的輸出組合定義為結(jié)點(diǎn)嵌入結(jié)果。具體的算法見下圖,這里,我們使用SGCN 原有的目標(biāo)損失函數(shù)來引導(dǎo)網(wǎng)絡(luò)的訓(xùn)練,在此不再贅述。為了得到符號(hào)預(yù)測(cè)結(jié)果,我們將結(jié)點(diǎn)對(duì)的嵌入結(jié)果連接起來,輸入邏輯回歸分類器,學(xué)習(xí)一個(gè)分類模型。
Algorithm:結(jié)點(diǎn)嵌入的SGCN前向過程
Input:結(jié)點(diǎn)的初始特征{xi,i=1,…,m};DDI網(wǎng)絡(luò);SGCN網(wǎng)絡(luò)參數(shù);
Output:結(jié)點(diǎn)的低維嵌入{zi,i=1,…,m}
我們利用文獻(xiàn)[8]所提供的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集從DrugBank[13-14]中獲得了2329 種經(jīng)批準(zhǔn)的小分子藥物,我們移除了一些沒有DDI 條目或者沒有標(biāo)簽外副作用記錄的藥物,最后得了603 種藥物,共有24114 條DDIs,其中增強(qiáng)型DDIs(EnI)18710 種,遞減型DDIs(DeI)5404 種。文獻(xiàn)[8]利用它們的副作用條目,編碼成9149 維的特征向量。下表提供了該DDI 網(wǎng)絡(luò)的基本特性,這里的度是指與結(jié)點(diǎn)連接的邊數(shù),E-DDI 與NDDI 分別指正邊與負(fù)邊。
表2 DDI 符號(hào)網(wǎng)絡(luò)屬性統(tǒng)計(jì)表
我們使用AUC 核和F1 評(píng)價(jià)指標(biāo)來衡量計(jì)算結(jié)果,它們的值越大,結(jié)果越好。隨機(jī)選擇20%的數(shù)據(jù)作為測(cè)試,剩余的80%的作為訓(xùn)練,實(shí)驗(yàn)進(jìn)行20 次。我們利用5 折交叉驗(yàn)證完成每一次實(shí)驗(yàn),然后統(tǒng)計(jì)平均結(jié)果。使用了5 層SGCN,所有參數(shù)設(shè)定為[12]文所測(cè)試好的最佳參數(shù):每個(gè)隱層和輸出層的平衡路徑、不平衡路徑的嵌入維度為32。將結(jié)果與標(biāo)簽推導(dǎo)算法[4]進(jìn)行了比較,結(jié)果如表2 所示。上述結(jié)果表明,SGCN 作為一種DDI 預(yù)測(cè)的計(jì)算途徑,具有可行性。
表3 指標(biāo)統(tǒng)計(jì)
利用計(jì)算方法進(jìn)行DDI 預(yù)測(cè),是發(fā)現(xiàn)有潛在反應(yīng)的一個(gè)很有前途的途徑,對(duì)于臨床醫(yī)學(xué)具有重要意義。本文將這類DDI 預(yù)測(cè)問題視為符號(hào)網(wǎng)絡(luò)上的鏈路預(yù)測(cè)問題,利用SGCN 實(shí)現(xiàn)結(jié)點(diǎn)嵌入,然后通過對(duì)數(shù)幾率回歸獲得DDI 類型。結(jié)果表明,符號(hào)圖卷積網(wǎng)絡(luò)在該問題上表現(xiàn)良好,具有可行性。