何 琴,黃保軍,李 靜
(許昌學(xué)院a.化學(xué)化工學(xué)院,b.表面微納米材料研究所,河南 許昌 461000)
人工神經(jīng)網(wǎng)絡(luò)用于苯砜基羧酸酯定量結(jié)構(gòu)-活效關(guān)系研究
何 琴a,黃保軍b,李 靜a
(許昌學(xué)院a.化學(xué)化工學(xué)院,b.表面微納米材料研究所,河南 許昌 461000)
采用誤差反傳前向人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)建立了56種苯砜基羧酸酯類化合物的結(jié)構(gòu)與其對(duì)發(fā)光菌的急性毒性之間的定量關(guān)系模型(ANN模型).以56種苯砜基羧酸酯類化合物的量子化學(xué)參數(shù)作為輸入,急性毒性作為輸出,所構(gòu)建網(wǎng)絡(luò)模型的交叉檢驗(yàn)相關(guān)系數(shù)為0.986 3、標(biāo)準(zhǔn)偏差為0.075 3、殘差絕對(duì)值≤0.20,應(yīng)用于外部預(yù)測(cè)集,預(yù)測(cè)集相關(guān)系數(shù)為0.988 0;而多元線性回歸(multiple linear regression,MLR)法模型的相關(guān)系數(shù)為0.947 2、標(biāo)準(zhǔn)偏差為0.141 3、殘差絕對(duì)值≤0.34.結(jié)果表明:ANN模型獲得了比 MLR模型更好的擬合效果.
苯砜基羧酸酯;定量結(jié)構(gòu)-活性關(guān)系;人工神經(jīng)網(wǎng)絡(luò);急性毒性
苯砜基羧酸酯類化合物在殺蟲劑、除草劑和驅(qū)蟲劑的合成方面應(yīng)用廣泛,隨著環(huán)境問題的日益嚴(yán)重,其對(duì)環(huán)境的影響頗受關(guān)注.定量結(jié)構(gòu)與活性相關(guān)(QSAR)研究為此提供了一個(gè)節(jié)省時(shí)間和資金的方法,在評(píng)估有機(jī)化合物對(duì)環(huán)境的影響方面起著重要作用.該文采用人工神經(jīng)網(wǎng)絡(luò)方法對(duì)苯砜基羧酸酯類化合物的結(jié)構(gòu)與其急性毒性進(jìn)行建模,以56種苯砜基羧酸酯類化合物的量子化學(xué)參數(shù)作為輸入,以發(fā)光菌的急性毒性作為輸出,構(gòu)建1個(gè)網(wǎng)絡(luò)模型.
該文所有數(shù)據(jù)均引自文獻(xiàn)[1].圖1是本文所用的化合物的結(jié)構(gòu).如圖1所示,1~10及R1、R2、R3、X1、X2如文獻(xiàn)[1]中所示.56種苯砜基羧酸酯的輸入?yún)?shù)分別是P(極化率)、μ(偶極矩)、EHOMO(最高占有軌道能量)、qH(氫原子最大正電荷)、q1(1位碳原子電荷)、q10(10位氧原子電荷).這些參數(shù)采用Gaussian 03軟件包,在B3YP/6-31G(d)理論水平下計(jì)算得到.
圖1 苯砜基羧酸酯類化合物結(jié)構(gòu)圖Fig.1 Structure of phenylsulfonyl carboxylate compound
QSAR研究中,多元線性回歸是經(jīng)典的建模方法[1-3],它能夠給出具體的回歸方程,但這種方法要求模型變量與參數(shù)相互正交、化合物或樣本數(shù)大于描述變量、被考察的化合物是同一類化合物等條件,否則會(huì)降低相關(guān)性[4-5].而人工神經(jīng)網(wǎng)絡(luò)方法因其獨(dú)特的結(jié)構(gòu)與功能,能夠模擬任何非線性問題[6~8].
BP網(wǎng)絡(luò)是應(yīng)用較為廣泛的人工神經(jīng)網(wǎng)絡(luò)之一,它是基于現(xiàn)代數(shù)學(xué)和計(jì)算機(jī)來模擬人腦神經(jīng)系統(tǒng)的一個(gè)動(dòng)態(tài)系統(tǒng),能夠?qū)B續(xù)的或間斷的數(shù)值輸入作出反饋,完成線性的或非線性的學(xué)習(xí)及預(yù)測(cè)工作,其結(jié)構(gòu)如圖2所示,圖中圓圈表示神經(jīng)元.
圖2 BP網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 BP neural network’s structure
BP網(wǎng)絡(luò)由若干層神經(jīng)元組成,神經(jīng)元之間通過權(quán)重連接,但同層的神經(jīng)元之間沒有聯(lián)系.網(wǎng)絡(luò)進(jìn)行訓(xùn)練和預(yù)測(cè)時(shí),信號(hào)前向傳遞、誤差反向傳遞,網(wǎng)絡(luò)的訓(xùn)練何時(shí)停止由目標(biāo)函數(shù)來決定.含有N個(gè)樣本的訓(xùn)練集在訓(xùn)練時(shí)的目標(biāo)函數(shù)為:
式中:dj(n)為節(jié)點(diǎn)j在第n次迭代中的期望輸出;yj(n)為實(shí)際輸出.
當(dāng)輸出達(dá)到目標(biāo)函數(shù)要求時(shí),網(wǎng)絡(luò)停止訓(xùn)練,并構(gòu)建好各網(wǎng)絡(luò)參數(shù).當(dāng)輸出未達(dá)到函數(shù)要求時(shí),計(jì)算誤差,并將誤差信號(hào)沿各層反向傳播,同時(shí)修正權(quán)值,開始新一輪學(xué)習(xí),直到誤差達(dá)到要求.
模型驗(yàn)證在QSAR建模中非常重要,其結(jié)果直接決定模型外部預(yù)測(cè)能力和真實(shí)有效性.交互檢驗(yàn)(cross validation)是目前較為廣泛使用的一種模型檢驗(yàn)方法,然而有研究結(jié)果顯示,交互檢驗(yàn)相關(guān)系數(shù)的的大小與模型預(yù)測(cè)能力并沒有明顯的相關(guān)關(guān)系,對(duì)模型預(yù)測(cè)能力的評(píng)價(jià)只能通過外部樣本集即預(yù)測(cè)集來進(jìn)行[9].模型的外部預(yù)測(cè)能力可以用外部預(yù)測(cè)樣本復(fù)相關(guān)系數(shù)和外部預(yù)測(cè)集交互檢驗(yàn)來衡量.
為了保障模型的可靠性和具有較好的預(yù)測(cè)能力,該文每5個(gè)樣本選擇1個(gè)(共11個(gè))作為外部預(yù)測(cè)集,其它45個(gè)作為訓(xùn)練集.以ANN進(jìn)行建模,模型有效性通過R(相關(guān)系數(shù) )、Rcv(LOO法交互檢驗(yàn)相關(guān)系數(shù) )、Se(標(biāo)準(zhǔn)偏差 )等加以判別.
選擇P、μ、EHOMO、qH、q1、q10作為輸入?yún)?shù),將發(fā)光菌急性毒性作為輸出,構(gòu)建56種苯砜基羧酸酯類化合物的3層神經(jīng)網(wǎng)絡(luò)QSAR模型.神經(jīng)網(wǎng)絡(luò)參數(shù):網(wǎng)絡(luò)結(jié)構(gòu)為6×4×1(輸入節(jié)點(diǎn)數(shù)為6、隱含層階段數(shù)為4、輸出層節(jié)點(diǎn)數(shù)為1),輸入層、隱含層和輸出層的的傳遞函數(shù)分別為“tangent sigmoid函數(shù)”、“tangent sigmoid函數(shù)”和“l(fā)ogarithmic sigmoid函數(shù)”,訓(xùn)練的目標(biāo)函數(shù)為1×10-10,網(wǎng)絡(luò)學(xué)習(xí)速率為0.2,總迭代次數(shù)為10 000次.
人工神經(jīng)網(wǎng)絡(luò)的QSAR模型樣本模擬結(jié)果及實(shí)驗(yàn)值的殘差分析見表1與圖3.從表1與圖3和圖4可以看出,與多元線性回歸法相比,神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值與實(shí)驗(yàn)值之間的殘差更小,殘差各點(diǎn)在縱軸零對(duì)應(yīng)的直線上下基本均勻分布,各殘差值的絕對(duì)值均小于0.20.由此說明,用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)苯砜基羧酸酯對(duì)發(fā)光菌的急性毒性更為準(zhǔn)確,擬合能力比多元線性回歸法更好.
表1 BP網(wǎng)絡(luò)和多元線性回歸的預(yù)測(cè)結(jié)果Tab.1 Results of BP neural network and MLR
圖3 ANN預(yù)測(cè)殘差值散點(diǎn)圖Fig.3 Plots of residual values of ANN
圖4 MLR預(yù)測(cè)殘差值散點(diǎn)圖Fig.4 Plots of residual values of MLR
為了檢驗(yàn)所建QSAR模型的穩(wěn)定性,分別采用了留一交互檢驗(yàn)法檢驗(yàn)其穩(wěn)定性、外部樣本集檢驗(yàn)其外部預(yù)測(cè)能力.計(jì)算后所得ANN模型和MLR模型的相關(guān)系數(shù)(R)、標(biāo)準(zhǔn)偏差(Se)、留一交互檢驗(yàn)相關(guān)系數(shù)(Rcv)分別見表2、圖5和圖6,結(jié)果表明神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性更好.
為了進(jìn)一步驗(yàn)證模型的外部預(yù)測(cè)能力,當(dāng)預(yù)測(cè)集樣本數(shù)為11、訓(xùn)練集樣本數(shù)為45時(shí),所得結(jié)果見表1(表中帶*為外部預(yù)測(cè)集),訓(xùn)練集相關(guān)系數(shù)R=0.999 9,預(yù)測(cè)集相關(guān)系數(shù)R=0.988 0,模型預(yù)測(cè)能力較強(qiáng)、穩(wěn)定性良好.
多元線性回歸模型分析結(jié)果可以明確地解析分子的活性部位,并且給出相關(guān)結(jié)構(gòu)參數(shù)與活性之間的關(guān)系,為藥物的開發(fā)及改進(jìn)提供理論依據(jù).人工神經(jīng)網(wǎng)絡(luò)則可以顯著提高模型預(yù)測(cè)能力.另外,分子描述符的計(jì)算是QSAR研究的基礎(chǔ),精確定義并且合理使用分子描述符在QSAR研究中非常重要.目前,各種軟件提供的分子描述符已經(jīng)超過4 000種,如何從中選擇與研究對(duì)象最密切相關(guān)的描述非常重要[10].該文選用的量子化學(xué)參數(shù)具有明確的物理化學(xué)意義,有利于探討毒物與受體的作用方式,而且隨著計(jì)算機(jī)運(yùn)算能力的不斷提高,量子化學(xué)描述符的獲得變得越來越容易[11~12].可以預(yù)見,2種方法相結(jié)合在QSAR研究中取長(zhǎng)補(bǔ)短,必然會(huì)在實(shí)驗(yàn)設(shè)計(jì)、環(huán)境保護(hù)、藥物設(shè)計(jì)等方面發(fā)揮重要作用.
表2 QSAR模型的效果分析Tab.2 Analysis of performance for QSAR model
圖5 ANN留一交叉檢驗(yàn)計(jì)算值與實(shí)驗(yàn)值相關(guān)分析Fig.5 Plots of observed and calculated pEC50(ANN analysis of the LOO)
圖6 MLR計(jì)算值與實(shí)驗(yàn)值相關(guān)分析Fig.6 Plots of observed and calculated pEC50(MLR analysis)
[1] 李吉來,杭燁超,耿彩云,等.苯砜基羧酸酯類急性毒性的QSAR研究[J].高等學(xué)校化學(xué)學(xué)報(bào),2007,28(1):117-120.
[2] 胡俊杰,閭春林,周紅,等.鹵代脂肪烴魚類急性毒性QSAR模型研究[J].環(huán)境化學(xué),2010,29(1):48-52.
[3] MORLEY J O,OLIVER A J,CHARLTON M H.Structureactivity relationships in 3-isothiazolones [J].Org Biomol Chem,2005,3(20):3713-3719.
[4] CAMARGO A B,MARCHEVSKY E,LUCO J M.QSAR study for the soybean 15-Lipoxygenase inhibitory activity of organosulfur compounds derived from the essential oil of garlic[J].J Agric Food Chem,2007,55(8):3096-3103.
[5] 陳景文,李雪花,于海瀛,等.面向毒害有機(jī)物生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的(Q)SAR技術(shù):進(jìn)展與展望[J].中國科學(xué)(B輯):化學(xué),2008,38(6):461-474.
[6] 杜雨靜,范英芳.人工神經(jīng)網(wǎng)絡(luò)用于三苯基丙烯腈衍生物的定量結(jié)構(gòu)-活性關(guān)系模型[J].化工進(jìn)展,2010,29(1):25-28.
[7] 肖方竹,鄧健,彭國文,等.QSAR結(jié)合人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)取代氯苯酚生物毒性[J].化學(xué)研究與應(yīng)用,2009,21(6):888-810.
[8] FRANCISCO J P P,XERARDO G M,HUMBERTO G D.Multi-target spectral moment QSAR versus ANN for antiparasitic drugs against different parasite species[J].Bioorg Med Chem,2010,18(6):2225-2231.
[9] LIU H X,PAPA E,GRAMATICA P.QSAR prediction of estrogen activity for a large set of diverse chemicals under the guidance of OECD principles[J].Chem Res Toxicol,2006,19(11):1540-1548.
[10] 任偉,孔德信.定量構(gòu)效關(guān)系研究中分子描述符的相關(guān)性[J].計(jì)算機(jī)與應(yīng)用化學(xué),2009,26(11):1455-1458.
[11] 杭燁超,李吉來,李卓,等.理論線性溶解能參數(shù)在苯砜基羧酸酯類化合物急性毒性QSAR研究中的應(yīng)用[J].分子科學(xué)學(xué)報(bào),2006,22(5):338-343.
[12] 張家虎,王秀軍.統(tǒng)計(jì)方法在提高密度泛函理論準(zhǔn)確性的研究進(jìn)展[J].分子科學(xué)學(xué)報(bào),2009,25(4):223-230.
Study on QSAR of phenylsulfonyl carboxylate compounds by using artificial neural network
HEQina,HUANGBao-junb,LIJinga
(a.College of Chemistry and Chemical Engineering,b.Institute of Surface Micro and Nano Materials,Xuchang University,Xuchang 461000,Henan Province,China)
The systematic study of quantitative structure-activity relationship(QSAR)on 56phenylsulfonyl carboxylate compounds between the structures and the acute toxicities to luminescent bacteria was performed by using the artificial neural network(ANN)based on the back propagation algorithm.For the ANN method,using the quantum chemical parameters about structure as the inputs and the acute toxicities as the outputs,the leave one out cross-validation regression coefficient was 0.986 3,the standard error was 0.075 3,the correlation coefficient of the test set was 0.988 0and the absolute values of residual were less than 0.20.In order to make contrast,the QSAR model was set up by using multiple linear regressions(MLR)method.For the model built by MLR,the correlation coefficient was 0.947 2,the standard error was 0.141 3and the absolute values of residual were less than 0.34.The results showed that the performance of ANN method is better than that of MLR method.
phenylsulfonyl carboxylate compound;QSAR;ANN;acute toxicity
O641.12+1
A
1671-1114(2012)03-0091-05
2011-10-12
河南省教育廳自然科學(xué)研究計(jì)劃項(xiàng)目(2009B150023)
何 琴(1979—),女,講師,碩士,主要從事化學(xué)計(jì)量學(xué)方面的研究.
(責(zé)任編校 紀(jì)翠榮)