文/叢春雨
近年來(lái),隨著越來(lái)越多的天然產(chǎn)物成功地通過(guò)認(rèn)證而上市,中藥 (traditional Chinese medicines,TCMs) 作為天然產(chǎn)物的重要組成部分,在現(xiàn)代藥物研發(fā)中受到了越來(lái)越多的關(guān)注和重視。但中藥藥效物質(zhì)基礎(chǔ)不明確、作用機(jī)制不清楚,很難從整體到組織器官、細(xì)胞和分子水平進(jìn)行全面系統(tǒng)地研究。因此,中藥研究急需新的研究方法的出現(xiàn)。網(wǎng)絡(luò)藥理學(xué)的興起對(duì)中醫(yī)藥是一個(gè)很好的契機(jī),其所強(qiáng)調(diào)的整體性與系統(tǒng)性和中醫(yī)藥理論不謀而合。因此,在分子水平上,中藥方劑用于治療疾病的機(jī)制與網(wǎng)絡(luò)藥理學(xué)(network pharmacology)或多向藥理學(xué)是相通的。由于中藥品種繁多,成分復(fù)雜,若通過(guò)生物學(xué)實(shí)驗(yàn)手段確定各個(gè)化學(xué)成分的作用靶點(diǎn),不僅耗時(shí)長(zhǎng),而且任務(wù)重,難以實(shí)現(xiàn)。相比之下,建立藥物—靶標(biāo)預(yù)測(cè)模型是一種快速高效的方法,能夠減少成本,快速預(yù)測(cè)成分靶標(biāo),為中藥網(wǎng)絡(luò)藥理學(xué)的應(yīng)用奠定基礎(chǔ)。
從DrugBank數(shù)據(jù)庫(kù)下載2388個(gè)美國(guó)FDA已經(jīng)批準(zhǔn)的小分子化學(xué)藥的分子結(jié)構(gòu)及其相應(yīng)靶蛋白受體,根據(jù)對(duì)應(yīng)關(guān)系,獲得9275條藥物—靶點(diǎn)配對(duì),作為本研究的陽(yáng)性樣本集。將陽(yáng)性樣本集中的藥物-靶點(diǎn)配對(duì)拆開(kāi),重新組合配對(duì),剔除陽(yáng)性樣本,從中隨機(jī)挑選出 2倍(18550條)于陽(yáng)性樣本集的配對(duì)結(jié)果,即為陰性樣本集。從數(shù)據(jù)集中隨機(jī)選取陽(yáng)性樣本1275條,陰性樣本2550條,組成獨(dú)立測(cè)試集,剩余的陽(yáng)性樣本和陰性樣本組成訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)24000條,測(cè)試數(shù)據(jù)3825條。
本模型應(yīng)用PowerMV(www.niss.org/PowerMV)計(jì)算藥物分子,得到6122個(gè)描述符,用k-spaced氨基酸對(duì)構(gòu)成(CKSAAP)編碼每一個(gè)靶蛋白。在本模型中,我們采用k=0,1,2,3,4對(duì)應(yīng)的CKSAAP編碼,那么5-spaced特征向量的維數(shù)就是2205?;谝陨蟽煞N編碼方法組合的配對(duì)數(shù)據(jù)合計(jì)8327維。模型采用主成分分析法(principle component analysis,PCA)對(duì)上述數(shù)據(jù)進(jìn)行降維處理,按保留原始信息97% 的信息量進(jìn)行降維,獲得數(shù)據(jù)矩陣分別為24000*995,3825*995。
在我們的方法中,使用支持向量機(jī)算法建立預(yù)測(cè)模型,預(yù)測(cè)模型中最優(yōu)參數(shù)(c,g)分別是(362.039,0.00552427)。模型在訓(xùn)練數(shù)據(jù)集上的平均準(zhǔn)確率可達(dá)79.74%,在獨(dú)立測(cè)試集上準(zhǔn)確率達(dá)82.41%。
表1:與附子化學(xué)成分作用頻次較高同時(shí)決策值也較高的55個(gè)潛在作用靶點(diǎn)
Q9GZZ6 Neuronal acetylcholine receptor subunit alpha-10 10 P49888 Estrogen sulfotransferase 10 P01579 Interferon gamma 10 P07237 Protein disulfide-isomerase 9 Q14643 Inositol 1,4,5-trisphosphate receptor type 1 9 P49411 Elongation factor Tu,mitochondrial 9 Q53707 MecA PBP2'' 9 Q05655 Protein kinase C delta type 9 Q14571 Inositol 1,4,5-trisphosphate receptor type 2 9 O00264 Membrane-associated progesterone receptor component 1 9 P12259 Coagulation factor V 9 O60909 Beta-1,4-galactosyltransferase 2 9 Q9BXA5 Succinate receptor 1 8 O00341 Excitatory amino acid transporter 5 8 O75879 Glutamyl-tRNA 8 Q9UBX3 Mitochondrial dicarboxylate carrier 8 P37059 Estradiol 17-beta-dehydrogenase 2 7 Q27218 Acetylcholine receptor subunit beta-type lev-1 7 P23743 Diacylglycerol kinase alpha 7 Q16760 Diacylglycerol kinase delta 7 Q8TC12 Retinol dehydrogenase 11 7 Q9HBH5 Retinol dehydrogenase 14 7 Q9NYR8 Retinol dehydrogenase 8 7 Q6NUM9 All-trans-retinol 13,14-reductase 7 O75911 Short-chain dehydrogenase/reductase 3 7 Q5JTZ9 Alanine--tRNA ligase,mitochondrial 7 Q6IB77 Glycine N-acyltransferase 7 P02461 Collagen alpha-1 7 Q99418 Cytohesin-2 6 P29475 Nitric oxide synthase,brain 6 Q81F54 Glyoxalase family protein 6 P08149 Penicillin-binding protein 2 6 Q9NR33 DNA polymerase epsilon subunit 4 6 Q86VB7 Scavenger receptor cysteine-rich type 1 protein M130 6 O43766 Lipoyl synthase,mitochondrial 6 Q9Y2J8 Protein-arginine deiminase type-2 6 Q9UQD0 Sodium channel protein type 8 subunit alpha 6 P08123 Collagen alpha-2 6 P98164 Low-density lipoprotein receptor-related protein 2 6 P20333 Tumor necrosis factor receptor superfamily member 1B 6 P50406 5-hydroxytryptamine receptor 6 6 P02775 Platelet basic protein 6 Q06830 Peroxiredoxin-1 5 Q12882 Dihydropyrimidine dehydrogenase [NADP 5 Q9NY56 Odorant-binding protein 2a 5 Q01118 Sodium channel protein type 7 subunit alpha 5 Q9UGM1 Neuronal acetylcholine receptor subunit alpha-9 5
從TCMSP數(shù)據(jù)庫(kù)和附子相關(guān)文獻(xiàn)中收集和整理已報(bào)道的附子所含化學(xué)成分,共計(jì)64個(gè)。模型基于python語(yǔ)言和rdkit包,通過(guò)計(jì)算分子的Morgan指紋,進(jìn)行附子成分和drugbank數(shù)據(jù)庫(kù)中美國(guó)FDA已經(jīng)批準(zhǔn)的小分子化學(xué)藥的相似性比對(duì),從而在64個(gè)成分中挑選出了24個(gè)與訓(xùn)練集中小分子藥物化學(xué)空間(chemical space)相近的化合物,將其與drugbank中已知靶點(diǎn)進(jìn)行組合,構(gòu)建預(yù)測(cè)集。
預(yù)測(cè)集按訓(xùn)練集相應(yīng)的方法計(jì)算分子描述符、歸一化和降維等處理,然后帶入模型進(jìn)行靶點(diǎn)預(yù)測(cè)。本研究選取了與附子化學(xué)成分作用頻次較高同時(shí)決策值(dec_value,decision value是該樣本屬于該類(lèi)的隸屬度,分值越大,代表屬于該類(lèi)的置信度越大)也較高的前205個(gè)潛在作用靶點(diǎn),總頻次1522次,但由于篇幅原因,表1只列出了其中部分潛在靶點(diǎn)。
預(yù)測(cè)出的潛在靶點(diǎn)需要通過(guò)實(shí)驗(yàn)進(jìn)一步驗(yàn)證,這是本文研究的意義所在。本項(xiàng)目組建立的預(yù)測(cè)模型有較高的準(zhǔn)確率,該方法可望用于虛擬篩選中藥有效成分及其作用靶點(diǎn),為從分子水平上研究中藥的作用機(jī)制提供一定的方法學(xué)參考。