張凱睿 黃鋼
摘 ?要:新藥研發(fā)存在研發(fā)周期長、成本高和成功率低等問題。為了解決這一系列問題,提高早期藥物研發(fā)效率,提出一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的虛擬篩選方法,并利用模型對EGFR(Epidermal Growth Factor Receptor, 表皮生長因子受體)靶點進行虛擬篩選。首先獲取EGFR靶點的相關(guān)數(shù)據(jù),對其進行數(shù)據(jù)處理后用于模型訓(xùn)練;隨后應(yīng)用模型篩選大量化合物,篩選出小分子后,將其與藥物分子進行化合物相似性搜索,驗證其是否與已知的EGFR藥物存在相似性;同時,將圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Networks, GCN)模型與其他傳統(tǒng)機器學(xué)習(xí)模型進行比較,證明本研究模型在各項指標中均優(yōu)于其他模型。實驗結(jié)果表明,本研究提出的方法具有較好的預(yù)測性和準確性,為發(fā)現(xiàn)潛在藥物提供了助力。
關(guān)鍵詞:圖卷積神經(jīng)網(wǎng)絡(luò);虛擬篩選;EGFR;化合物相似性搜索;機器學(xué)習(xí)
中圖分類號:TP391 ? ? 文獻標識碼:A
Virtual Screening of Small Molecules based on Graph Convolutional Neural Network
ZHANG Kairui1,2, HUANG Gang1,2
(1. School of Health Science and Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;
2. Shanghai Key Laboratory of Molecular Imaging, Shanghai University of Medicine and Health Sciences, Shanghai 201318, China)
zhangkarry0328@163.com; huanggang@sumhs.cn
Abstract: New drug research and development has the problems of long research and development cycle, high cost and low success rate. In order to solve these problems and improve the efficiency of early drug research and development, this paper proposes a virtual screening method based on graph convolution neural network, and uses the model to perform virtual screening of the EGFR (Epidermal Growth Factor Receptor) targets. Firstly, the relevant data of EGFR targets are obtained and used for model training after data processing. After that, the model is used to screen a large number of compounds, and after small molecules are screened out, they are searched for compound similarity with drug molecules to verify whether they are similar to known EGFR drugs. At the same time, the graph convolution neural network model is also compared with other traditional machine learning models, and the proposed model is superior to other models in all indicators. Experimental results show that the proposed method has good predictability and accuracy, which facilitates the discovery of potential drugs.
Keywords: graph convolutional neural network; virtual screening; EGFR; compound similarity search; machine
learning
1 ? 引言(Introduction)
隨著疾病多樣性以及藥物耐藥性等問題的出現(xiàn),對新藥的需求日益增加,但是新藥研發(fā)存在研發(fā)周期長、研發(fā)成本高以及成功率低等問題。藥物開發(fā)是一個昂貴且耗時的過程,通常來講,一個新的藥物從開始研發(fā)到最終上市,需要花費數(shù)十億美元和10—15 年的時間[1]。在人力、物力投入高和耗時長的同時,小分子藥物最終上市的成功率卻只有6.2%,研發(fā)失敗的風(fēng)險比較高[2]。計算機輔助藥物設(shè)計能夠大幅度地縮短新藥研發(fā)的時間,提高新藥研發(fā)的成功率。傳統(tǒng)的藥物篩選方法有分子對接、藥效團匹配[3]和相似性搜索[4]等。隨著近年來計算機算力的提升和大數(shù)據(jù)時代的到來,以機器學(xué)習(xí)和深度學(xué)習(xí)為代表的算法進一步促進了藥物研發(fā)的進程。
虛擬篩選是一種藥物篩選方法,其使用計算機算法和模型來發(fā)現(xiàn)新的生物活性小分子藥物。與高通量篩選(HTS)相比,虛擬篩選具有高效、低成本的特點。虛擬篩選的方法通常分為兩類:基于結(jié)構(gòu)的虛擬篩選和基于配體的虛擬篩選。
在基于結(jié)構(gòu)的虛擬篩選中,算法通過模擬靶點蛋白質(zhì)與小分子之間的物理相互作用,計算它們之間的親和度[5-6]。根據(jù)與結(jié)合能相關(guān)的親和度打分函數(shù),對蛋白質(zhì)和小分子化合物的結(jié)合能力進行評價,最終從大量化合物分子中篩選出結(jié)合方式合理、預(yù)測分數(shù)較高的化合物,用于后續(xù)的生物活性測試。
在基于配體的虛擬篩選中,通常不需要靶點的信息和結(jié)構(gòu),而是收集一系列作用于這個靶點的已知小分子化合物,從這些已知小分子開始,去發(fā)掘這部分小分子的內(nèi)在結(jié)構(gòu)規(guī)律。根據(jù)化合物相似性或者藥效團模型在化合物數(shù)據(jù)庫中搜索能與之匹配的化學(xué)分子結(jié)構(gòu),最后對所篩選出來的化合物進行實驗篩選研究。
近年來,隨著計算機計算能力的發(fā)展,深度學(xué)習(xí)[7]被廣泛應(yīng)用于計算機視覺、自然語言處理、語音識別等領(lǐng)域。由于各類組學(xué)以及生物學(xué)數(shù)據(jù)的積累,深度學(xué)習(xí)模型已在藥物研發(fā)的各個領(lǐng)域嶄露頭角[8],并且在一部分領(lǐng)域展現(xiàn)出優(yōu)于傳統(tǒng)的機器學(xué)習(xí)模型的優(yōu)勢。
本文從DUD-E中收集了EGFR靶點的活性化合物和誘餌化合物數(shù)據(jù),并對這些化合物數(shù)據(jù)進行數(shù)據(jù)處理,將其分割成訓(xùn)練集和測試集。利用收集好的化合物數(shù)據(jù)訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò)[9-10]模型,隨后篩選了ZINC數(shù)據(jù)庫中的大量數(shù)據(jù),將篩選出的10 個小分子與DrugBank數(shù)據(jù)庫中收集到的藥物數(shù)據(jù)做相似性搜索,發(fā)現(xiàn)其中4 個小分子與已知EGFR藥物分子存在較高相似性。同時利用相同數(shù)據(jù),訓(xùn)練6 個傳統(tǒng)機器學(xué)習(xí)模型,結(jié)果表明GCN模型要優(yōu)于機器學(xué)習(xí)模型。實驗結(jié)果證明了GCN模型在藥物篩選方面具有比較好的預(yù)測性和準確性。
2 ? 材料與方法(Materials and methods)
基于圖卷積神經(jīng)網(wǎng)絡(luò)的藥物篩選模型構(gòu)建流程及方法主要包括從化合物數(shù)據(jù)庫收集相關(guān)數(shù)據(jù),對藥物數(shù)據(jù)進行數(shù)據(jù)處理和篩選,訓(xùn)練圖卷積模型,隨后進行藥物篩選及對篩選結(jié)果的相似性進行搜索,如圖1所示。
2.1 ? 數(shù)據(jù)來源
本研究使用的數(shù)據(jù)來源于多個公共化合物數(shù)據(jù)庫,包括DUD-E[11]、ZINC[12]、DrugBank[13]。DUD-E(A Database of Useful Decoys: Enhanced)是由美國加州大學(xué)舊金山分校藥物化學(xué)系的Shoichet實驗室提供的數(shù)據(jù)庫(http://dude.docking.org),在Target中可以選擇想要選擇的靶點,下載actives_final.ism和decoys_final.ism文件,獲取對應(yīng)靶點的活性化合物和誘餌化合物數(shù)據(jù),用于訓(xùn)練模型。ZINC數(shù)據(jù)庫是目前最大的有機小分子化合物庫之一,不少類藥分子的前期虛擬篩選都是基于這個數(shù)據(jù)庫的,數(shù)據(jù)庫中包含9.8億多個小分子,根據(jù)后續(xù)的研究條件和需要設(shè)定過濾標準,將小分子數(shù)量鎖定在10萬個后下載數(shù)據(jù)文件,用于后續(xù)的虛擬篩選。DrugBank數(shù)據(jù)庫是一個綜合的、可自由訪問的在線數(shù)據(jù)庫,包含有關(guān)藥物和藥物目標的信息,在利用模型篩選完ZINC數(shù)據(jù)庫中下載的小分子后,將篩選出的分子與DrugBank中的藥物分子做相似性搜索,從而驗證模型的準確性。
2.2 ? 數(shù)據(jù)預(yù)處理
為了更好地應(yīng)用來源于DUD-E數(shù)據(jù)庫中的數(shù)據(jù)集從而構(gòu)建一個有效的模型,需要確?;钚曰衔锱c誘餌化合物的分子性質(zhì)相似。從DUD-E數(shù)據(jù)庫中收集到的化合物數(shù)據(jù)都有各個化合物對應(yīng)的SMILES(Simplified Molecular-Input Line-Entry System)號。SMILES是一種用文本字符串定義分子的常用方法,SMILES字符串以既簡潔又直觀的方式描述了分子的原子和鍵。在本研究中,可以利用化學(xué)信息學(xué)軟件包RDkit,結(jié)合化合物的SMILES號,計算出化合物的分子量、LogP以及形式電荷,通過化合物的這些屬性可以比較活性集和誘餌集的分布。根據(jù)活性集和誘餌集的分布,對其進行平衡,為后續(xù)的模型訓(xùn)練做好準備。
2.3 ? 圖卷積網(wǎng)絡(luò)模型
本文使用圖卷積神經(jīng)網(wǎng)絡(luò)模型來預(yù)測分子抑制EGFR的能力。圖卷積神經(jīng)網(wǎng)絡(luò)是一類采用卷積操作的圖神經(jīng)網(wǎng)絡(luò),屬于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network)[14]的一種。
對于圖,為節(jié)點的集合,為邊的集合。對于每個點,均有其特征,可以用表示。一個中有3 個比較重要的矩陣:鄰接矩陣、度矩陣和特征矩陣。鄰接矩陣用來表示節(jié)點間的連接關(guān)系。度矩陣是一個對角矩陣,每個節(jié)點的度指的是其連接的節(jié)點數(shù),其中對角線元素。特征矩陣用于表示節(jié)點的特征,,其中是特征的維度。
深度學(xué)習(xí)中最重要的是學(xué)習(xí)特征:隨著網(wǎng)絡(luò)層數(shù)的增加,特征愈發(fā)抽象,然后用于最終的任務(wù)。對于圖任務(wù),深度模型從最開始的特征出發(fā)學(xué)習(xí)到更抽象的特征。任何一個圖卷積層都可以寫成如下非線性函數(shù):
(1)
為第一層的輸入,其中,為圖的節(jié)點個數(shù),為每個節(jié)點特征向量的維度,為鄰接矩陣。這里指的是網(wǎng)絡(luò)層數(shù),就是網(wǎng)絡(luò)第層的特征。不同模型的差異點在于函數(shù)的實現(xiàn)不同。
在圖學(xué)習(xí)中,每個節(jié)點的新特征就是對該節(jié)點的鄰域節(jié)點特征進行變換然后求和。其公式為:
(2)
其中,是學(xué)習(xí)權(quán)重,維度是,是激活函數(shù),這是神經(jīng)網(wǎng)絡(luò)的基本單元。不難看出,乘以鄰接矩陣就相當(dāng)于對每個節(jié)點都加上了其相應(yīng)鄰域節(jié)點的特征。這里存在兩個問題,一是計算節(jié)點的新特征時并沒有考慮自身的特征;二是矩陣沒有正則化,這可能導(dǎo)致網(wǎng)絡(luò)訓(xùn)練過程中發(fā)生梯度爆炸或者是梯度消失的問題。對于第一個問題,解決方法是對每一個節(jié)點加上自環(huán),即為。對于第二個問題,則是對矩陣進行正則化,使其每一行的和都為1,例如。
圖卷積神經(jīng)網(wǎng)絡(luò)的最終形式為:
(3)
其中,第層網(wǎng)絡(luò)的輸入為(初始輸入為);;為待訓(xùn)練的參數(shù);為相應(yīng)的激活函數(shù)。
2.4 ? 評估標準
本研究使用馬修斯相關(guān)系數(shù)(Matthews Correlation Coefficient, MCC)、準確率(Accuracy)、召回率(Recall)和F1分數(shù)(F1-Score)作為評價指標。MCC、Accuracy、Recall及F1-Score的公式如下:
其中,為真正例,表示正類正確預(yù)測為正類數(shù);為真負例,表示負類正確預(yù)測為負類數(shù);為假正例,表示負類錯誤預(yù)測為正類數(shù);為假負例,表示正類錯誤預(yù)測為負類數(shù)。
2.5 ? Morgan指紋
化合物相似性搜索在化學(xué)信息學(xué)和新藥研發(fā)中有著悠久的歷史,許多算法都使用相似性搜索來驗證正在研究的新化合物。
本研究通過計算化合物的Morgan[15]指紋(Morgan Fingerprints, 摩根分子指紋)來進行化合物相似性搜索。Morgan指紋是一種圓形指紋,也屬于拓撲型指紋,是通過對標準的Morgan算法進行改造后得到的。Morgan指紋具有如下優(yōu)點:計算速度快,沒有經(jīng)過預(yù)定義,可以包含手性信息,指紋中的每個元素代表一種特定子結(jié)構(gòu),可以方便地進行分析和解釋,可以根據(jù)不同的需要進行相應(yīng)的修改。Morgan指紋設(shè)計的最初目的是用于搜索與活性相關(guān)的分子特征,也可以用于相似性搜索、聚類、虛擬篩選等方向。
3 ?實驗結(jié)果及分析(Experimental results and analysis)
3.1 ? 虛擬篩選結(jié)果
將DUD-E中獲取的EGFR的活性化合物和誘餌化合物數(shù)據(jù)進行數(shù)據(jù)處理、整合之后得到542 個活性小分子和35,050 個非活性小分子,將整合好的數(shù)據(jù)分割為訓(xùn)練集和驗證集,然后用于GCN模型的訓(xùn)練。
訓(xùn)練好模型后,用模型篩選ZINC數(shù)據(jù)庫中收集的化合物,將得分最高的10 個小分子取出。篩選出的小分子信息如表1所示,化學(xué)結(jié)構(gòu)如圖2所示。
3.2 ? 相似性搜索
本研究通過計算分子的Morgan指紋將篩選結(jié)果中的小分子與DrugBank數(shù)據(jù)庫中下載的藥物小分子數(shù)據(jù)進行化合物相似性搜索,驗證篩選結(jié)果是否與EGFR藥物分子存在相似性。首先讀入DrugBank數(shù)據(jù)庫中的數(shù)據(jù)和需要查詢相似性的小分子的SMILES號,然后計算查詢分子與數(shù)據(jù)庫分子的分子指紋,計算相似度并排序,輸出相似度最高的前20 個藥物分子,隨后在DrugBank數(shù)據(jù)庫中根據(jù)相似度最高的20 個藥物分子的DRUGBANK_ID查詢其相關(guān)信息,看其是否為EGFR藥物分子。
對篩選結(jié)果中的10 個小分子依次進行上述操作,結(jié)果顯示4 個小分子與已知的EGFR藥物分子存在相似性。相似性搜索的結(jié)果如表2所示。
3.3 ? 模型比較
將數(shù)據(jù)處理后得到的EGFR活性化合物和誘餌化合物數(shù)據(jù)應(yīng)用于六種機器學(xué)習(xí)模型進行訓(xùn)練,然后與GCN模型進行比較。七種模型的MCC、Accuracy、Recall、F1-Score結(jié)果如表3所示。結(jié)果顯示,在四項指標中GCN模型均取得了最優(yōu)結(jié)果。本數(shù)據(jù)集存在類別不均衡的情況,在這種情況下,MCC、F1-Score指標更具有說服力,在這兩項指標中,GCN模型遠遠優(yōu)于其他幾種模型。
3.4 ? 模型驗證
為了防止模型僅對EGFR靶點產(chǎn)生較好的篩選效果,需針對其他靶點重復(fù)實驗流程,從而進一步驗證模型性能。
這里選擇使用DRD3(Dopamine D3 Receptor, 多巴胺受體D3抗體)靶點進行模型驗證。對DRD3靶點進行虛擬篩選和相似性搜索后得到的結(jié)果如表4所示,結(jié)果顯示篩選出的10 個小分子中有8 個小分子與已知的DRD3藥物分子存在相似性,證明模型對其他靶點也能產(chǎn)生較好的篩選效果。
4 ? 結(jié)論(Conclusion)
本研究從DUD-E、ZINC、DrugBank數(shù)據(jù)庫收集得到所需相關(guān)數(shù)據(jù),基于圖卷積神經(jīng)網(wǎng)絡(luò)方法進行虛擬篩選工作,并后續(xù)進行化合物相似性搜索,對模型性能進行驗證,結(jié)果顯示模型具有較好的預(yù)測性和準確性。同時,將本文模型與傳統(tǒng)機器學(xué)習(xí)模型進行比較,通過十折交叉驗證,使用MCC、Accuracy、Recall及F1-Score指標評估了模型,結(jié)果表明GCN模型優(yōu)于其他傳統(tǒng)機器學(xué)習(xí)模型,證明圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)合大數(shù)據(jù)在藥物篩選方面的優(yōu)越性?;趫D卷積神經(jīng)網(wǎng)絡(luò)的虛擬篩選方法提升了早期藥物研發(fā)工作的效率,為后續(xù)的生物實驗及最終發(fā)現(xiàn)潛在藥物提供了助力。
同時,在研究中也注意到圖卷積神經(jīng)網(wǎng)絡(luò)在虛擬篩選中還存在的一些問題。當(dāng)從DUD-E數(shù)據(jù)庫中下載ACE靶點的活性化合物和誘餌化合物數(shù)據(jù)并用于模型訓(xùn)練時,會發(fā)現(xiàn)模型出現(xiàn)過擬合現(xiàn)象,這可能是因為ACE靶點的相關(guān)數(shù)據(jù)量遠小于EGFR靶點的相關(guān)數(shù)據(jù)量,數(shù)據(jù)量過少導(dǎo)致了過擬合現(xiàn)象的產(chǎn)生。因此應(yīng)當(dāng)注意到,深度學(xué)習(xí)模型需要一定量的樣本用來訓(xùn)練才能有效避免模型過擬合。為了解決這一問題,在后續(xù)的研究中需要考慮對模型進行改進,以應(yīng)對小樣本學(xué)習(xí)任務(wù)。
參考文獻(References)
[1] DIMASI J A, GRABOWSKI H G, HANSEN R W. Innovation in the pharmaceutical industry: New estimates of R&D costs[J]. Journal of Health Economics, 2016, 47:20-33.
[2] WONG C H, SIAH K W, LO A W. Estimation of clinical trial success rates and related parameters[J]. Biostatistics, 2019, 20(2):273-286.
[3] WOLBER G, LANGER T. LigandScout: 3-D pharmacophores derived from protein-bound ligands and their use as virtual screening filters[J]. Journal of Chemical Information and Modeling, 2005, 45(1):160-169.
[4] WILLETT P, BARNARD J M, DOWNS G M. Chemical similarity searching[J]. Journal of Chemical Information and Computer Sciences, 1998, 38(6):983-996.
[5] KITCHEN D B, DECORNEZ H, FURR J R, et al. Docking and scoring in virtual screening for drug discovery: Methods and applications[J]. Nature Reviews Drug Discovery, 2004, 3(11):935-949.
[6] MENG X Y, ZHANG H X, MEZEI M, et al. Molecular docking: A powerful approach for structure-based drug discovery[J]. Current Computer-Aided Drug Design, 2011, 7(2):146-157.
[7] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553):436-444.
[8] CHEN H, ENGKVIST O, WANG Y, et al. The rise of deep learning in drug discovery[J]. Drug Discovery Today, 2018, 23(6):1241-1250.
[9] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[Z/OL]. (2017-02-22) [2022-06-08]. https://arxiv.org/abs/1609.02907.
[10] 徐冰冰,岑科廷,黃俊杰,等.圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J].計算機學(xué)報,2020,43(05):755-780.
[11] MYSINGER M M, CARCHIA M, IRWIN J J, et al. Directory of useful decoys, enhanced (DUD-E): Better ligands and decoys for better benchmarking[J]. Journal of Medicinal Chemistry, 2012, 55(14):6582-6594.
[12] STERLING T, IRWIN J J. ZINC 15-ligand discovery for everyone[J]. Journal of Chemical Information and Modeling, 2015, 55(11):2324-2337.
[13] WISHART D S, FEUNANG Y D, GUO A C, et al.
DrugBank 5.0: A major update to the DrugBank database for 2018[J]. Nucleic Acids Research, 2018, 46(D1):D1074-D1082.
[14] SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2008, 20(1):61-80.
[15] MORGAN H L. The generation of a unique machine description for chemical structures—a technique developed at chemical abstracts service[J]. Journal of Chemical Documentation, 1965, 5(2):107-113.
作者簡介:
張凱睿(1996-),男,碩士生.研究領(lǐng)域:生物醫(yī)學(xué)工程.
黃 ?鋼(1961-),男,博士,教授.研究領(lǐng)域:核醫(yī)學(xué)分子影像.本文通信作者.