摘要:藥物靶標親和力預測在藥物研發(fā)中扮演著重要的角色。針對現(xiàn)有預測方法大多忽略藥物分子的二維結(jié)構(gòu)信息、缺乏深層表征融合學習的問題,提出了基于圖卷積和雙線性注意力網(wǎng)絡的藥物靶標親和力預測模型(GBN_DTA)。該模型首先基于多層圖卷積神經(jīng)網(wǎng)絡編碼藥物分子圖,同時結(jié)合1D-CNN 和雙向長短期記憶網(wǎng)絡(BiLSTM)編碼靶標序列;然后使用雙線性注意力網(wǎng)絡融合編碼后的藥物和靶標特征,最終獲得親和力預測分數(shù)。實驗結(jié)果表明,該模型在DAVIS 和KIBA 數(shù)據(jù)集上的性能均優(yōu)于其他6 種主流方法,有效提升了預測準確率。
關(guān)鍵詞:藥物靶標親和力預測;藥物研發(fā);圖卷積神經(jīng)網(wǎng)絡;雙線性注意力網(wǎng)絡;深層表征融合
中圖分類號:TP183; R91 文獻標志碼:A
藥物靶標作用關(guān)系預測是藥物研發(fā)過程中至關(guān)重要的一步。在藥物研發(fā)的早期階段,通過預測藥物與靶標的相互作用,可以快速篩選出具有潛在治療效果的候選藥物,從而加速整個研發(fā)進程。作為藥物-靶標作用關(guān)系中最為關(guān)鍵的因素之一,藥物與靶標的親和力大小的預測,可以幫助研究者更好地了解藥物與靶標之間的相互作用機制,有助于優(yōu)化藥物設(shè)計和提高藥物的療效。因此,藥物-靶標親和力預測(Drug-Target Affinity,DTA)已成為當今藥物研發(fā)領(lǐng)域中備受關(guān)注的熱點問題之一。
對于已知三維結(jié)構(gòu)的靶標,可以利用分子對接模擬來預測藥物和靶標間的結(jié)合構(gòu)象和強度。常見的分子對接軟件包括DOCK[1]、AutoDock[2] 等。然而,分子對接需要篩選包含數(shù)億小分子的大型數(shù)據(jù)庫來進行構(gòu)象搜索,整個計算過程非常耗時。隨著蛋白質(zhì)組學的發(fā)展,可以通過高通量測序技術(shù)快速獲取靶標序列,但靶標三維結(jié)構(gòu)的獲取仍然存在挑戰(zhàn)。與分子對接模擬相比,大量的基于靶標序列的DTA 預測方法不需要三維結(jié)構(gòu),因而獲得了快速的發(fā)展。
基于靶標序列的DTA 預測方法大多采用基于機器學習的方法。KronRLS 方法[3] 和SimBoost 方法[4]利用傳統(tǒng)機器學習方法取得了較好的親和力預測效果。這兩種方法都是使用Smith-Waterman 算法[5] 計算藥物SMILES 相似度矩陣作為藥物特征表示、Pubchem 結(jié)構(gòu)聚類服務器(Pubchem Sim)計算靶標序列相似度矩陣作為靶標特征表示。KronRLS 模型將藥物和靶標特征矩陣的Kronecker 積作為DTA 的預測結(jié)果,SimBoost 模型則將藥物-靶標特征對輸入到梯度增強回歸樹模型中進行DTA 預測。然而,基于傳統(tǒng)機器學習的算法通常需要高質(zhì)量的輸入特征,并且很難學習到復雜的非線性關(guān)系[6]。
相比傳統(tǒng)機器學習算法,深度學習模型可以自動地學習藥物和靶標的特征表示,并利用神經(jīng)網(wǎng)絡的非線性擬合能力來預測藥物靶標親和力,在預測準確率和魯棒性方面具有更好的表現(xiàn)。DeepDTA 模型[7] 利用兩個具有遞增濾波器的1D-CNN 模塊學習藥物SMILES 和靶標序列的表征,通過藥物和靶標的特征拼接以及多層全連接操作得到藥物-靶標對的結(jié)合親和力。WideDTA 模型[8] 是DeepDTA 的擴展,它使用了4 種基于文本的信息源來預測結(jié)合親和力,包括蛋白質(zhì)序列、藥物SMILES、PDM(Protein Domainsand Motifs) 以及LMCS( Ligand Maximum CommonSubstructures)。對于藥物SMILES 序列的特征編碼,一些模型通過引入注意力機制進一步提升了藥物的表征能力。MT_DTI 模型[9] 利用多層雙向Transformer[10]編碼藥物SMILES。MATT_DTI 模型[11] 使用基于關(guān)系感知的自注意力網(wǎng)絡模塊[12] 和多層1D-CNN 模塊組合編碼藥物SMILES。然而,這些DTA 預測模型都傾向于編碼藥物和靶標的序列特征,忽略了藥物的空間結(jié)構(gòu)信息,并且采用簡單的拼接操作來融合藥物和靶標編碼后的特征,忽略了藥物-靶標之間的局部相互作用。