廖懿鳴 歐陽純萍 劉永彬 胡富裕
基于異質(zhì)信息網(wǎng)絡(luò)元路徑的藥物?靶標(biāo)相互作用預(yù)測模型
廖懿鳴 歐陽純萍?劉永彬 胡富裕
南華大學(xué)計算機學(xué)院, 衡陽 421001; ?通信作者, E-mail: ouyangcp@126.com
提出一種融合元路徑信息的圖神經(jīng)網(wǎng)絡(luò)模型, 用于預(yù)測藥物?靶標(biāo)相互作用(GMDTI)。首先根據(jù) 8 個數(shù)據(jù)集中的藥物、靶標(biāo)、疾病和副作用數(shù)據(jù)以及它們之間的 8 種作用關(guān)系, 構(gòu)建藥物?靶標(biāo)異質(zhì)信息網(wǎng)絡(luò)(HIN); 然后定義兩條元路徑來捕獲藥物?靶標(biāo) HIN 中的不同子結(jié)構(gòu)信息和不同節(jié)點間隱藏的語義信息, 并應(yīng)用圖神經(jīng)網(wǎng)絡(luò)的方法聚合節(jié)點的一階鄰居信息和元路徑中節(jié)點間的語義信息; 最后利用端到端的學(xué)習(xí)方法完成 DTIs 預(yù)測。該方法同時考慮藥物?靶標(biāo) HIN 的結(jié)構(gòu)特性和元路徑語義信息, 有助于學(xué)習(xí)到更多潛在的藥物?靶標(biāo)作用關(guān)系。實驗結(jié)果表明, GMDTI 的預(yù)測準(zhǔn)確率高于所有基線模型, AUC 達(dá)到 98.6%, AUPR 達(dá)到94.5%。同時通過調(diào)整數(shù)據(jù)的稀疏度和降噪實驗, 證明 GMDTI 具備優(yōu)于所有基線模型的魯棒性。
藥物?靶標(biāo)相互作用預(yù)測; 圖神經(jīng)網(wǎng)絡(luò); 異質(zhì)信息網(wǎng)絡(luò); 元路徑; 特征表示
藥物?靶標(biāo)相互作用(drug-target interactions, DTIs)預(yù)測是藥物研發(fā)的關(guān)鍵步驟。DTIs 預(yù)測指通過藥物和靶標(biāo)的結(jié)構(gòu)特征以及已知的藥物與靶標(biāo)之間的關(guān)系、藥物與藥物之間的關(guān)系等信息, 挖掘目前尚未發(fā)現(xiàn)的潛在的藥物-靶標(biāo)相互作用關(guān)系。通過識別尚未發(fā)現(xiàn)的 DTIs, 可以探索已知藥物的新用途。在新藥物的研發(fā)過程中準(zhǔn)確地預(yù)測 DTIs, 可以幫助研究人員快速地篩選出有效的候選藥物, 降低研發(fā)成本, 減少研制的盲目性, 因此預(yù)測 DTIs 是新藥物研發(fā)工作中極為重要的基礎(chǔ)任務(wù)[1-2]。
傳統(tǒng)的 DTIs 預(yù)測方法主要有兩種: 基于配體的方法[3]和分子對接模擬法[4]?;谂潴w的方法利用相似的分子通常會與相似的靶標(biāo)相結(jié)合的思想, 通過比較新的配體與已知的靶標(biāo)配體來預(yù)測 DTIs。目前, 大多數(shù)基于配體的方法都是針對一個靶標(biāo)建立的, 使其只能針對一個靶標(biāo)的分子活性做預(yù)測, 推廣使用受到限制。分子對接模擬法利用靶標(biāo)的三維結(jié)構(gòu)進(jìn)行模擬[4-6], 當(dāng)靶標(biāo)的三維結(jié)構(gòu)不可用時, 這類方法失效。此外,對接模擬通常需要很長的時間, 效率較低。
近年來, 隨著人工智能技術(shù)在生物醫(yī)療領(lǐng)域的深度應(yīng)用, 越來越多的研究人員致力于使用機器學(xué)習(xí)的計算方法來預(yù)測 DTIs, 可以很好地克服傳統(tǒng)DTIs 預(yù)測方法只能針對單個靶標(biāo)做預(yù)測以及預(yù)測精確度不高、效率低的問題。
基于機器學(xué)習(xí)的 DTIs 預(yù)測方法可分為基于矩陣相似度計算的和基于異質(zhì)信息網(wǎng)絡(luò)(heterogene-ous information network, HIN)的兩大類。
基于矩陣相似度計算的方法是通過不同的矩陣相似性度量方法來計算藥物與靶標(biāo)之間的相似性, 從而進(jìn)行 DTIs 預(yù)測, 主要包含二分圖局部方法和矩陣分解方法。Bleakley 等[7]提出二分圖局部模型, 首次利用有監(jiān)督機器學(xué)習(xí)方法進(jìn)行 DTIs 預(yù)測, 將藥物-靶標(biāo)相互作用預(yù)測問題轉(zhuǎn)換成二分類問題, 將藥物的化學(xué)結(jié)構(gòu)和靶標(biāo)的序列結(jié)構(gòu)作為輸入特征, 分別訓(xùn)練藥物和靶標(biāo)的局部模型, 因此 SVM分類器可以針對藥物和靶標(biāo)生成兩個獨立的預(yù)測結(jié)果, 基于這兩個獨立預(yù)測結(jié)果的平均值, 計算藥物-靶標(biāo)的最終預(yù)測結(jié)果?;诰仃嚪纸獾南嗨贫榷攘糠椒▌t將 DTIs 預(yù)測任務(wù)視為尋找缺失相互作用矩陣的補全問題, 例如 Zheng 等[8]提出 MSCMF 模型, 通過加權(quán)平均方案來整合多個數(shù)據(jù)源的信息, 從而獲得對應(yīng)的藥物和靶標(biāo)相似度矩陣, 然后使用這些相似度矩陣來正則化給定的 DTIs 網(wǎng)絡(luò)的矩陣分解操作。
基于矩陣相似度計算的預(yù)測方法沒有考慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu), 也沒有區(qū)分網(wǎng)絡(luò)中藥物與靶標(biāo)之間關(guān)系的異質(zhì)性, 所以會損失網(wǎng)絡(luò)中節(jié)點之間的交互語義信息, 導(dǎo)致無法進(jìn)行更準(zhǔn)確的 DTIs 預(yù)測。因此, 基于 HIN 的方法被用于 DTIs 預(yù)測。為了集成異構(gòu)數(shù)據(jù)源中的各種信息, Luo 等[9]提出 DTINet 預(yù)測方法, 從所構(gòu)建的藥物-靶標(biāo) HIN 中自動學(xué)習(xí)藥物和靶標(biāo)的低維特征向量(該特征向量可以準(zhǔn)確地解釋網(wǎng)絡(luò)中節(jié)點的拓?fù)浣Y(jié)構(gòu)的特性), 然后運用歸納矩陣, 在學(xué)到的特征基礎(chǔ)上完成 DTIs 預(yù)測。
由于 DTINet 將特征學(xué)習(xí)與任務(wù)分離, 所以學(xué)習(xí)到的特征表示不一定是 DTIs 預(yù)測任務(wù)中的最優(yōu)表示。為了解決特征學(xué)習(xí)與任務(wù)分離的問題, Wan等[10]創(chuàng)建一個新的框架 NeoDTI, 使用圖神經(jīng)網(wǎng)絡(luò)鄰居信息聚合[11]的方法, 通過聚合節(jié)點的一階鄰居信息來提取藥物和靶標(biāo)的復(fù)雜隱藏特征, 并從中學(xué)習(xí)節(jié)點含有網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的特征表示, 取得出色的預(yù)測結(jié)果。此外, 為了聚合 HIN 中節(jié)點的高階信息, Liu 等[12]等提出 GADTI 模型, 通過將 GCN[13]與隨機游走相結(jié)合, 使信息聚合的范圍從一階擴展到多階, 相當(dāng)于增加了卷積的感受野, 實現(xiàn)更遠(yuǎn)距離的信息傳遞。
基于 HIN 的 DTIs 預(yù)測方法優(yōu)勢在于可以整合不同類型節(jié)點之間的交互信息和節(jié)點間隱藏的語義信息, 但帶來一個新的問題: 如何有效地表示異質(zhì)信息網(wǎng)絡(luò)節(jié)點間隱含的語義信息?
元路徑[14]可以指定對象的連接序列, 獲取網(wǎng)絡(luò)的子結(jié)構(gòu), 并捕獲源節(jié)點與目標(biāo)節(jié)點間的語義, 廣泛地運用于基于 HIN 的數(shù)據(jù)挖掘問題中[15]。在藥物-靶標(biāo)HIN 中, 同樣可以利用元路徑來抽取網(wǎng)絡(luò)的子結(jié)構(gòu), 并捕獲源節(jié)點和目標(biāo)節(jié)點間的語義信息。如圖 1 所示, 在 DrugBank 3.0 版數(shù)據(jù)庫[16]中, 氟伏沙明與西酞普蘭沒有任何聯(lián)系, 但二者可以通過添加藥物-靶標(biāo)-藥物這條元路徑發(fā)生關(guān)聯(lián)。在最新的 Drug Bank 5.1.7 版數(shù)據(jù)庫中, 的確更新了氟伏沙明與西酞普蘭之間的聯(lián)系, 表示聯(lián)合使用氟伏沙明和西酞普蘭可以提高血清濃度, 說明可以通過元路徑捕獲有利于提高預(yù)測效果的語義信息。
為了解決既有方法沒有利用 HIN 的子結(jié)構(gòu)信息以及節(jié)點間隱藏的語義信息這一問題, 本文提出一種融合元路徑信息的圖神經(jīng)網(wǎng)絡(luò)模型, 用于預(yù)測藥物-靶標(biāo)相互作用的方法(graph neural network with meta-path information for drug-target interaction pre-diction model, GMDTI)。在 NeoDTI 模型的基礎(chǔ)上, 加入兩條不同的元路徑來捕獲藥物-靶標(biāo) HIN 中不同類型的網(wǎng)絡(luò)子結(jié)構(gòu)和源節(jié)點與目標(biāo)節(jié)點間的語義信息, 同時考慮藥物、靶標(biāo)、疾病與副作用節(jié)點的一階鄰居信息, 然后運用圖神經(jīng)網(wǎng)絡(luò)提取 HIN中每個節(jié)點的特征, 最后根據(jù)所提取節(jié)點的特征進(jìn)行DTIs 預(yù)測。
圖1 異質(zhì)信息網(wǎng)絡(luò)中元路徑示例
定義 1 藥物-靶標(biāo) HIN。給定一個圖= (,),代表節(jié)點集,代表邊集。節(jié)點集合中每個節(jié)點屬于對象集合中的一種對象類型, 其中{藥物, 靶標(biāo), 疾病, 副作用}; 邊集合中的每條邊屬于關(guān)系類型集合中的一種關(guān)系類型, 其中{藥物-藥物-相互作用, 藥物-藥物-結(jié)構(gòu)相似度, 藥物-靶標(biāo)-相互作用, 藥物-疾病-相互聯(lián)系, 藥物-副作用-相互聯(lián)系, 靶標(biāo)-靶標(biāo)-相互作用, 靶標(biāo)-靶標(biāo)-結(jié)構(gòu)相似性, 靶標(biāo)-疾病-相互聯(lián)系}。
定義 3 基于元路徑的鄰居。給定一個節(jié)點和一條元路徑, 節(jié)點基于元路徑的鄰居集合為N。
如圖 2 所示, 本文提出的 GMDTI 模型具有以下特點: 1)使用 8 個獨立的與藥物和靶標(biāo)相關(guān)的數(shù)據(jù)集來構(gòu)建藥物-靶標(biāo) HIN, 該網(wǎng)絡(luò)由 4 種類型的節(jié)點和 8 種類型的邊構(gòu)成, 不同類型的節(jié)點由不同類型的邊連接, 相同類型的節(jié)點可以由多種類型的邊連接; 2)針對藥物-靶標(biāo) HIN 中的所有節(jié)點, 使用低維向量進(jìn)行隨機初始化表示, 然后通過其一階鄰居信息來更新每個節(jié)點的特征表示; 3)基于已構(gòu)建的藥物-靶標(biāo) HIN, 設(shè)計兩條包含不同語義信息的元路徑, 根據(jù)元路徑找到藥物和靶標(biāo)節(jié)點基于元路徑的鄰居; 4)通過聚合藥物和靶標(biāo)節(jié)點基于元路徑的鄰居信息, 更新藥物和靶標(biāo)節(jié)點的特征表示; 5)通過以上步驟學(xué)到的節(jié)點特征表示重構(gòu)初始的藥物-靶標(biāo) HIN, 旨在最小化初始網(wǎng)絡(luò)與重構(gòu)網(wǎng)絡(luò)之間的差異, 并且利用重構(gòu)的藥物-靶標(biāo)網(wǎng)絡(luò)進(jìn)行 DTIs 的預(yù)測。
通過聚合節(jié)點的一階鄰居信息, 可以讓模型學(xué)習(xí)到 HIN 的整體結(jié)構(gòu)信息。GMDTI 使用圖神經(jīng)網(wǎng)絡(luò), 整合來自每個節(jié)點的鄰居信息。給定一個藥物-靶標(biāo) HIN, 隨機初始化節(jié)點向量表示函數(shù)0:R將每個節(jié)點(∈)映射到維的向量表示0(), 邊權(quán)重映射函數(shù)將每條邊(∈)映射到其邊權(quán)重()上, 每個節(jié)點的鄰居信息聚合運算公式為
我們選擇藥物-靶標(biāo)-藥物和靶標(biāo)-藥物-靶標(biāo)兩條元路徑, 藥物-靶標(biāo)-藥物路徑指不同藥物對同一靶標(biāo)的關(guān)聯(lián), 靶標(biāo)-藥物-靶標(biāo)路徑指不同靶標(biāo)對同一藥物的關(guān)聯(lián)。通過這兩條元路徑, 可以獲取路徑中包含的語義信息, 并且讓模型學(xué)習(xí)到藥物-靶標(biāo)HIN 不同的子結(jié)構(gòu)信息, 進(jìn)行更精確的 DTIs 預(yù)測。
通過元路徑找到的連接邊為∈, 通過邊權(quán)重映射函數(shù):, 將這些邊映射到其邊權(quán)重()上, 節(jié)點基于元路徑的鄰居信息聚合操作運算公式為
圖2 GMDTI模型框架
(a)藥物 1 節(jié)點一階鄰居信息聚合操作; (b)藥物 1 節(jié)點基于藥物?靶標(biāo)?藥物元路徑的鄰居信息聚合操作。不同顏色的箭頭表示不同類型邊的聚合操作
其中,=(,,)表示節(jié)點和通過元路徑相連, 且該連接邊類型為;N表示節(jié)點基于元路徑的鄰居節(jié)點集合;(u)表示從節(jié)點類型為()出發(fā)的元路徑集合;∈R是權(quán)重矩陣;b∈R是偏置項。圖 3 展示藥物節(jié)點的一階鄰居信息聚合和基于藥物-靶標(biāo)-藥物元路徑的鄰居信息聚合操作流程。
為了充分利用藥物-靶標(biāo) HIN 中的整體結(jié)構(gòu)信息、局部結(jié)構(gòu)信息以及節(jié)點間的語義信息, 對于藥物和靶標(biāo)節(jié)點(∈{藥物靶標(biāo)}), 用 3 種向量進(jìn)行聚合表示, 即節(jié)點的初始向量表示0()、一階鄰居信息的向量表示1()和基于元路徑鄰居信息的向量表示2()。對于非藥物和靶標(biāo)節(jié)點′ (′∈{疾病副作用}), 僅由節(jié)點的初始向量表示0(′)和一階鄰居信息的向量表示1(′)構(gòu)成。將節(jié)點的幾種向量表示相加, 再經(jīng)過單層神經(jīng)網(wǎng)絡(luò)和2正則化來更新所有節(jié)點的向量表示。節(jié)點和′的最終向量表示運算公式如下:
其中,0∈R是權(quán)重矩陣,0是偏置項。
給定節(jié)點的最終嵌入表示(), 訓(xùn)練神經(jīng)網(wǎng)絡(luò), 以便最小化重構(gòu)矩陣與初始矩陣之間的損失。損失函數(shù)定義為
其中,∈R和∈R是關(guān)于類型為邊的特定投影矩陣, 這兩個投影矩陣的內(nèi)積應(yīng)盡可能地還原原始邊權(quán)重()。如果邊類型是對稱的, 例如{藥物-藥物-相互作用, 靶標(biāo)-靶標(biāo)-相互作用, 靶標(biāo)-靶標(biāo)-序列相似性}, 則設(shè)=來增強這種對稱性。
考慮到所有操作都是可微的和次可微的, 可以通過執(zhí)行梯度下降, 以端到端的方式訓(xùn)練參數(shù)。訓(xùn)練后, 重構(gòu)的藥物-靶標(biāo)矩陣可用于預(yù)測每個 DTI的得分。重構(gòu)的藥物-靶標(biāo)相互作用矩陣可以定義為以下形式:
其中,drug和target分別是藥物和靶標(biāo)的特征矩陣。
我們采用文獻(xiàn)[10]中的數(shù)據(jù)集。該數(shù)據(jù)集包含8 個獨立的關(guān)系矩陣: 藥物-藥物相互作用矩陣、藥物-靶標(biāo)相互作用矩陣、藥物-疾病關(guān)聯(lián)矩陣、藥物-藥物結(jié)構(gòu)相似度矩陣、藥物-副作用關(guān)聯(lián)矩陣、靶標(biāo)-靶標(biāo)相互作用矩陣、靶標(biāo)-靶標(biāo)序列相似度矩陣以及靶標(biāo)-疾病關(guān)聯(lián)矩陣。除藥物結(jié)構(gòu)相似性和靶標(biāo)序列相似性矩陣的邊是非負(fù)實值權(quán)重外, 其他所有矩陣均具為二進(jìn)制邊權(quán)重(有已知的相互作用或聯(lián)系邊權(quán)重為 1, 否則為 0)。另外, 我們通過藥物-靶標(biāo)-藥物和靶標(biāo)-藥物-靶標(biāo)這兩條元路徑, 提取藥物-藥物元路徑矩陣和靶標(biāo)-靶標(biāo)元路徑矩陣。實驗數(shù)據(jù)集中包含 708 種藥物、1512 種靶標(biāo)、1923條藥物-靶標(biāo)相互作用邊(DTI)、13558 條由藥物-靶標(biāo)-藥物元路徑建立的連接邊以及 4268 條由靶標(biāo)-藥物-靶標(biāo)元路徑建立的連接邊。
本文以 AUC (area under the receiver operating characteristic curve)和 AUPR (area under the precision- recall curve)為評價指標(biāo), 對實驗結(jié)果進(jìn)行度量。AUC 適用于各類正負(fù)樣本相對平衡的數(shù)據(jù)。在正負(fù)樣本高度不平衡的情況下, AUPR 比 AUC 更敏感,更加適用于評價模型在不平衡樣本情況下的鏈接預(yù)測能力。
可以把 DTIs 預(yù)測任務(wù)視為一個二分類問題, 將其中已知的藥物-靶標(biāo)相互作用對作為正樣例, 未知的藥物-靶標(biāo)相互作用對作為負(fù)樣例。為了模擬現(xiàn)實中 DTIs 數(shù)據(jù)稀疏的情況, 首先采樣所有的正樣例, 然后對負(fù)樣例對進(jìn)行隨機采樣, 負(fù)樣列對的數(shù)量為正樣例對的 10 倍。接下來, 采用 10 折交叉驗證來驗證模型的性能。在每一折中, 隨機選取數(shù)據(jù)集中 90%的正負(fù)樣例對作為訓(xùn)練集來訓(xùn)練模型參數(shù), 剩余 10%的數(shù)據(jù)作為測試集來測試模型的性能。實驗中與以下 6 種基線方法進(jìn)行對比: 1)BLM-NII[17], 基于鄰居相互作用譜的局部二分圖模型; 2)HNM[18], 多層異質(zhì)信息網(wǎng)絡(luò)模型, 能捕獲疾病、藥物和靶標(biāo)之間的相互關(guān)系和內(nèi)部聯(lián)系; 3)MSCMF, 多相似度矩陣分解模型, 用矩陣分解方法將藥物和靶標(biāo)矩陣規(guī)范化, 能夠集成多種相似矩陣; 4)DTI-Net, 一種網(wǎng)絡(luò)集成方法, 能集成異構(gòu)數(shù)據(jù)源中的各種信息, 學(xué)習(xí)節(jié)點包含 HIN 拓?fù)浣Y(jié)構(gòu)的低維特征向量; 5)NeoDTI, 采用圖神經(jīng)網(wǎng)絡(luò)的方法, 能夠集成多種信息源數(shù)據(jù), 并自動學(xué)習(xí)節(jié)點保留網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的向量表示; 6)GADTI, 采用圖神經(jīng)網(wǎng)絡(luò)和重啟隨機游走方法, 聚合節(jié)點的多階鄰居信息, 實現(xiàn)更遠(yuǎn)距離的信息傳遞。
表 1 給出本文方法和基線方法在數(shù)據(jù)集上的性能表現(xiàn), 其中每個實驗結(jié)果均為 10 折交叉驗證所得。可以看出, 在沒有加入元路徑的情況下, GMDTI能夠基本上準(zhǔn)確地預(yù)測 DTIs, 其 AUC 幾乎優(yōu)于所有基線方法, AUPR 與表現(xiàn)最好的基線方法NeoDTI僅相差 0.8%?;诋愘|(zhì)結(jié)構(gòu)網(wǎng)絡(luò)的 GADTI 是通過重啟隨機游走的方法獲取節(jié)點的高階鄰居信息, 所以很容易捕獲與當(dāng)前節(jié)點相關(guān)性弱的高階節(jié)點信息, 進(jìn)而削弱相關(guān)性強的一階鄰居信息的影響, 導(dǎo)致效果沒有 NeoDTI 方法好。其他基線方法, 由于沒有利用藥物-靶標(biāo) HIN 的拓?fù)浣Y(jié)構(gòu)信息和隱藏的語義信息, 僅利用少量與藥物和靶標(biāo)相關(guān)的數(shù)據(jù), 或僅利用簡單的矩陣分解方法, 不能處理矩陣內(nèi)冗余的信息, 所以預(yù)測效果均不佳。
從表 1 還可以看出, 在 GMDTI 中加入藥物-靶標(biāo)-藥物元路徑或靶標(biāo)-藥物-靶標(biāo)元路徑, AUC 和AUPR 均優(yōu)于所有基線方法, 并且與沒有加入元路徑的 GMDTI 相比, AUC 分別提高 0.9%和 1.6%, AUPR 分別提高 3.7%和 3.2%, 說明加入特定的元路徑有助于模型學(xué)習(xí)到 HIN 特定的子結(jié)構(gòu), 從而提高DTIs 預(yù)測能力。在 GMDTI 中同時加入兩條元路徑后, 與只加入一條元路徑相比, AUPR 至少提升4.2%。這是因為同時加入兩條元路徑時, 模型能學(xué)習(xí)到更多樣的子結(jié)構(gòu), 捕獲更豐富的語義信息, 從而更準(zhǔn)確地預(yù)測DTIs。
表1 不同方法性能比較
說明: +D-P-D表示只加入藥物-靶標(biāo)-藥物元路徑, +P-D-P表示只加入靶標(biāo)-藥物-靶標(biāo)元路徑。
由于 DTIs 的實際數(shù)據(jù)較為稀疏, 所以通過逐步增加負(fù)樣本比例的方式模擬實際情況, 以便觀察GMDTI 的性能表現(xiàn)。由于 NeoDTI 和 GADTI 與本文所提方法思路上較為相似, 并且基礎(chǔ)實驗結(jié)果比其他基線方法表現(xiàn)好, 因此后續(xù)實驗中僅與 Neo-DTI 和 GADTI 兩種方法進(jìn)行比較。
如表 2 所示, 隨著負(fù)樣本比例逐步增加, NeoDTI, GADTI 和 GMDTI 的 AUC 均沒有大的波動, 但三者的 AUPR 都明顯下降, 說明負(fù)樣本的數(shù)量會對模型的預(yù)測性能產(chǎn)生影響, 準(zhǔn)確地選擇對 DTIs 預(yù)測任務(wù)有利的負(fù)樣本數(shù)量非常重要。相比于 NeoDTI 和GMDTI, GMDTI 的 AUPR 仍具有較大的優(yōu)勢。這是因為, 融入 HIN 的子結(jié)構(gòu)信息和語義信息有利于模型在不平衡數(shù)據(jù)條件下探尋更全面的網(wǎng)絡(luò)信息, 避免因網(wǎng)絡(luò)節(jié)點的鄰居過少而學(xué)不到更好的節(jié)點特征表示。這也證明 GMDTI 在稀疏 DTIs 網(wǎng)絡(luò)中具有較好的表現(xiàn)能力。
另外, 實驗結(jié)果顯示 GADTI 的 AUC 和 AUPR優(yōu)于 NeoDTI, 說明在不平衡數(shù)據(jù)集中, GADTI 通過融合節(jié)點的高階鄰居信息, 有助于提高 DTIs 預(yù)測能力。但是, 由于 GADTI 是通過重啟隨機游走的方法獲得節(jié)點的高階鄰居信息, 容易捕獲到與節(jié)點相關(guān)度較弱的“噪聲”節(jié)點信息, 所以使得預(yù)測效果遠(yuǎn)不如GMDTI。
表2 逐步增加負(fù)樣本比例的模型性能比較(%)
表3 模型魯棒性實驗(%)
說明: 基礎(chǔ)實驗的結(jié)果來源于表1。
數(shù)據(jù)集中可能包含“冗余的”DTI (即同一種靶標(biāo)與一種以上類似的藥物連接)。這種情況下, 藥物靶標(biāo)網(wǎng)絡(luò)中冗余的 DTI 邊可能造成 DTIs 預(yù)測性能的假性提升。為了證明本文所提模型的魯棒性, 我們進(jìn)行 4 種類型的 10 倍交叉驗證實驗。實驗 1: 移除具有相似藥物結(jié)構(gòu)(兩種藥物化學(xué)結(jié)構(gòu)的相似度>60%)或具有相似靶標(biāo)結(jié)構(gòu)(兩種靶標(biāo)序列的相似度>40%)的 DTI; 實驗 2: 移除具有相似藥物相互作用(Jaccard 相似度>60%)的 DTI; 實驗 3: 移除具有相似副作用(Jaccard 相似度>60%)的 DTI; 實驗 4: 移除與類似疾病相關(guān)的藥物或靶標(biāo)(即 Jaccard 相似度>60%)的 DTI。
實驗結(jié)果如表 3 所示, 可以看出在去除“冗余DTI”數(shù)據(jù)后, 所有預(yù)測方法的性能均有所下降, 但GMDTI 的 AUC 和 AUPR 優(yōu)于 NeoDTI 和 GADTI, 并且 AUPR 遠(yuǎn)高于 NeoDTI 和 GADTI。與去除“冗余 DTI”數(shù)據(jù)前的實驗結(jié)果相比, GMDTI 模型的性能沒有明顯下降, 說明本文提出的模型在去除“冗余 DTI”數(shù)據(jù)的情況下仍然具有較好的預(yù)測性能, 魯棒性較強。
為了充分利用 HIN 的子結(jié)構(gòu)信息和節(jié)點間的語義信息, 本文設(shè)計藥物-靶標(biāo)-藥物以及靶標(biāo)-藥物-靶標(biāo)兩條不同的元路徑, 并提出一種新的模型GMDTI 來聚合 HIN 中節(jié)點的一階鄰居信息和元路徑的語義信息。利用圖神經(jīng)網(wǎng)絡(luò), 更好地學(xué)習(xí)藥物和靶標(biāo)復(fù)雜的隱藏特征, 并通過端到端的方式, 同時優(yōu)化特征提取過程和 DTIs 預(yù)測任務(wù)。實驗結(jié)果表明, 與幾個基線模型相比, GMDTI 具有更好的DTIs預(yù)測性能。
在加入所有負(fù)樣本的實驗中, GMDTI 的 AUC比基線模型至少提高 5.0%, AUPR 至少提高 12.0%, 證明利用元路徑來捕獲藥物-靶標(biāo) HIN 中隱含的語義信息和子結(jié)構(gòu)信息, 可以在稀疏網(wǎng)絡(luò)中更好地預(yù)測 DTIs。
去除“冗余 DTI”數(shù)據(jù)后, GMDTI 模型的性能沒有明顯下降, 且結(jié)果遠(yuǎn)好于基線方法, 證明 GMDTI模型具有較強的魯棒性。
本文方法目前僅使用二階長度的元路徑, 沒有考慮更遠(yuǎn)距離的元路徑。未來工作中將考慮利用不同類型、不同長度的元路徑, 進(jìn)一步提高模型的DTIs 預(yù)測性能。此外, 藥物和靶標(biāo)具有豐富的文本信息, 探索這些文本信息對 DTIs 預(yù)測的作用也是未來的研究工作之一。
[1]Chen R, Liu X, Jin S, et al.Machine learning for drug-target interaction prediction.Molecules, 2018, 23(9): 2208
[2]Huang Y, Zhu L, Tan H, et al.Predicting drug-target on heterogeneous network with co-rank.Cham: Springer International Publishing, 2020
[3]Keiser M J, Roth B L, Armbruster B N, et al.Relating protein pharmacology by ligand chemistry.Nature Biotechnology, 2007, 25(2): 197-206
[4]Pujadas G, Vaque M, Ardevol A, et al.Protein-ligand docking: a review of recent advances and future perspectives.Current Pharmaceutical Analysis, 2008, 4(1): 1-19
[5]Li H, Gao Z, Kang L, et al.TarFisDock: a web server for identifying drug targets with docking approach.Nucleic Acids Research, 2006, 34(suppl 2): W219-W224
[6]Cheng A C, Coleman R G, Smyth K T, et al.Structure-based maximal affinity model predicts small-molecule druggability.Nature Biotechnology, 2007, 25(1): 71-75
[7]Bleakley K, Yamanishi Y.Supervised prediction of drug-target interactions using bipartite local models.Oxford: Oxford University Press, 2009
[8]Zheng X, Ding H, Mamitsuka H, et al.Collaborative matrix factorization with multiple similarities for predicting drug-target interactions // Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.San Fran-cisco, 2013: 1025-1033
[9]Luo Y, Zhao X, Zhou J, et al.A network integration approach for drug-target interaction prediction and computational drug repositioning from heterogeneous information.Nature Communications, 2017, 8(1): 1-13
[10]Wan F, Hong L, Xiao A, et al.NeoDTI: neural integration of neighbor information from a hetero-geneous network for discovering new drug-target interactions.Bioinformatics, 2019, 35(1): 104-111
[11]Zhou J, Cui G, Hu S, et al.Graph neural networks: a review of methods and applications.AI Open, 2020, 1: 57-81
[12]Liu Z, Chen Q, Lan W, et al.GADTI: graph auto-encoder approach for DTI prediction from hetero-geneous network.Frontiers in Genetics, 2021, 12: 650821
[13]Kip F T N, Welling M.Semi-supervised classifica-tion with graph convolutional networks [EB/OL].(2016?09?09) [2021?03?19].https://arxiv.org/abs/16 09.02907
[14]Sun Y, Han J, Yan X, et al.PathSim: meta path-based Top-K similarity search in heterogeneous information networks.Proceedings of the Vldb Endowment, 2011, 4(11): 992-1003
[15]Wang X, Bo D, Shi C, et al.A survey on hetero-geneous graph embedding: methods, techniques, app-lications and sources [EB/OL].(2020?11?30) [2021? 03?17].https://arxiv.org/abs/2011.14867
[16]Knox C, Law V, Jewison T, et al.DrugBank 3.0: a comprehensive resource for ‘omics’ research on drugs.Nucleic Acids Research, 2010, 39(suppl 1): D1035-D1041
[17]Mei J P, Kwoh C K, Yang P, et al.Drug-target interac-tion prediction by learning from local information and neighbors.Bioinformatics, 2013, 29(2): 238-245
[18]Wang W, Yang S, Zhang X, et al.Drug repositioning by integrating target information through a hetero-geneous network model.Bioinformatics, 2014, 30 (20): 2923-2930
Drug-Target Interactions Prediction Based on Meta-path of Heterogeneous Information Network
LIAO Yiming, OUYANG Chunping?, LIU Yongbin, HU Fuyu
Computer College, University of South China, Hengyang 421001; ?Corresponding author, E-mail: ouyangcp@126.com
The paper proposes a graph neural network model based on meta-path to predict drug target interactions(GMDTI).Firstly, based on drugs, targets, diseases and side effects in eight datasets, and the eight different types of action relationships between them, the authors construct a drug-target heterogeneous information network (HIN).Then, two different meta-paths are defined to capture the different sub-topology information of HIN and the latent semantic information between different nodes.Especially, the graph neural network method is applied to represent the node by aggregating the information of the first-order neighbor nodes and the nodes of the meta-path.Finally, DTIs prediction is completed effectively by end-to-end learning method.This method takes the first-order topology and the semantic information of meta-path of the drug-target HIN into account, which is helpful to learn more potential drug target relationships.The experiment results show that the proposed method achieves 98.6% in AUC and 94.5% in AUPR, which are higher than all baseline models.At the same time, GMDTI has better robustness than all baseline models by sparsity experiments of datas and reduction experiments of noise.
drug-target interaction prediction; graph neural network; heterogeneous information network; meta-path; feature representation
10.13209/j.0479-8023.2021.105
2021?05?08;
2021?08?09
國家自然科學(xué)基金(61402220)、湖南省自然科學(xué)基金(2020JJ4525)、湖南省教育廳重點科研項目(19A439)和南華大學(xué)研究生科研創(chuàng)新項目(213YXC007)資助