摘要:對于19個1,1-二苯基乙烯衍生物,分別采用人工神經(jīng)網(wǎng)絡(luò)(網(wǎng)絡(luò)結(jié)構(gòu)為3-7-1)和線性回歸分析方法,建立了其抗雌激素活性/C與擴展的引力指數(shù)Go、17號氫原子的凈電荷Q和24號氧原子與17號氫原子間庫侖力KL之間的QSAR模型,ANN模型的相關(guān)系數(shù)R=0.9999。標(biāo)準(zhǔn)偏差SD=3,058 88E-4;MLB.模型的相關(guān)系數(shù)K=0.966 0,標(biāo)準(zhǔn)偏差SD=0.10t 0。結(jié)果表明人工神經(jīng)網(wǎng)絡(luò)是一種比較精密的擬合方法,具有良好的預(yù)測效果。
關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò);定量結(jié)構(gòu)活性關(guān)系;1,1-二苯基乙烯衍生物
中圖分類號:0641 文獻標(biāo)識碼:A 文章編號:1000-8136(2009)26-0093-03
乳腺癌是女性常見惡性腫瘤之一,抗雌激素類藥是其內(nèi)分泌療法的常用藥物,因而開發(fā)新型高效的抗雌激素藥物已成為一大熱點。Gilbertm等通過實驗發(fā)現(xiàn)1,1-二苯基乙烯衍生物在MVLN細胞中有一定的抗雌激素活性,具有開發(fā)為抗雌激素藥物的潛能。文獻在此基礎(chǔ)上主要采用量化計算方法和拓撲指數(shù)法對其進行研究,得出1,1-二苯基乙烯衍生物在OOC下與小牛子宮雌激素受體間親合力大小與擴展的引力指數(shù)(Go)、17號氫原子的凈電荷(O)和24號氧原子與17號氫原子間庫侖力(KL)較好的相關(guān)性。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是一種信息處理技術(shù),具有很強的非線性處理、自適應(yīng)學(xué)習(xí)、自組織調(diào)整及容錯抗噪聲能力,通過學(xué)習(xí)確定輸入與輸出間的復(fù)雜的內(nèi)部聯(lián)系,實現(xiàn)對樣本的識別與分類,對活性的估計與預(yù)測。本文應(yīng)用人工神經(jīng)網(wǎng)絡(luò)方法,對1,1-二苯基乙烯衍生物采用3個主要的影響參數(shù)G0、O和KL進行了定量構(gòu)效關(guān)系(quantitativestructure-activity relationships,QSAR)研究,并與多元線性回歸法(multiple linear regression,MLR)即經(jīng)典的Hanseh分析方法進行比較,結(jié)果表明人工神經(jīng)網(wǎng)絡(luò)具有更好的性能,有利于輔助完成新藥活性預(yù)測及分子設(shè)計。
1 原理與算法
誤差反向傳播(backpropagafion,BP)模型是應(yīng)用最廣的一種神經(jīng)網(wǎng)絡(luò)。它由輸入層、隱含層和輸出層組成,各層次的神經(jīng)元之間形成全互連接,各層次內(nèi)的神經(jīng)元之間沒有連接見圖1。每層由若干個神經(jīng)元(又叫節(jié)點)組成,每個神經(jīng)元包含一定信息量,相鄰兩層神經(jīng)元之間通過連接權(quán)重相互聯(lián)接,然后通過輸入輸出轉(zhuǎn)換函數(shù)輸出信息見圖2。
BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的學(xué)習(xí)過程由正向傳播和反向傳播兩個過程組成。在正向傳播過程中,輸入信息由輸入層經(jīng)隱含層傳向輸出層,如果在輸出層不能得到期望的輸出,則轉(zhuǎn)入反向傳播,將誤差信息沿原來的連接通路返回,修改各層節(jié)點間的連接權(quán)值,如此往復(fù)調(diào)整網(wǎng)絡(luò)參數(shù),使之誤差函數(shù)達到極小為止。當(dāng)訓(xùn)練結(jié)束時,將學(xué)習(xí)得到的規(guī)則表達在網(wǎng)絡(luò)的權(quán)值中,利用這組權(quán)值,根據(jù)樣本的輸入特性參數(shù),迅速輸出預(yù)測結(jié)果。
2 數(shù)據(jù)與軟件
本文采用文獻叫報道的19個1,1一二苯基乙烯衍生物的3種結(jié)構(gòu)參數(shù)(Go、Q和KL)和活性數(shù)據(jù)見表1,其分子結(jié)構(gòu)見圖3所示。抗雌激素活性以/C(C為經(jīng)0.1nM雌二醇誘導(dǎo)過的熒光素酶失去50%的活性所需濃度)表示。首先從16個化合物樣本中隨機選取30個化合物作為訓(xùn)練樣本集,用人工神經(jīng)網(wǎng)絡(luò)建立QSAR模型,然后用3個化合物作為預(yù)測樣本集以檢驗?zāi)P偷念A(yù)測能力。采用自編的人工神經(jīng)網(wǎng)絡(luò)程序,在PD3.40GHz,2.00G內(nèi)存的PC機上進行運算。
3 網(wǎng)絡(luò)參數(shù)與模擬結(jié)果
對于1,1-二苯基乙烯衍生物親合力的實驗數(shù)據(jù)進行學(xué)習(xí)時采用ANN(3-7-1)網(wǎng)絡(luò)結(jié)構(gòu),通過跟蹤學(xué)習(xí)過程發(fā)現(xiàn)當(dāng)學(xué)習(xí)速率等于0.7、動量因子等于0.8時,ANN具有良好的學(xué)習(xí)效果和收斂速度。19個樣本的學(xué)習(xí)結(jié)果見表2,其中所列前15個化合物作為訓(xùn)練樣本集,用BP人工神經(jīng)網(wǎng)絡(luò)建立QSAR模型,最后4個化合物為預(yù)測樣本集,計算得出訓(xùn)練樣本和預(yù)測樣本的相關(guān)系數(shù)R分別為09999和0.9996,標(biāo)準(zhǔn)偏差SD分別為0.0027和0.011 5,說明該模型具有較好的預(yù)測能力。經(jīng)BP人工神經(jīng)網(wǎng)絡(luò)算法得出的模擬值與實驗值之間的殘差比較小,19個化合物的殘差值均小于0.10,其絕對值的平均值為0.004 2。由于ANN具有非線性處理及容錯抗噪聲能力和優(yōu)勢,其計算值與實驗值更為接近。
4 ANN與MLR比較
采用多元線性逐步回歸(MLt)分析法,對19種1,1-二苯基乙烯衍生物在4℃時與小牛子宮雌激素受體的親合力進行了QSAR研究,獲得了回歸方程:
10g1/C=1.586-2.122Go+37.198Q-4.383KL
R=0.966,R’=0.932,RMS=0.1010,N=19
(1)式中G。為擴展的引力指數(shù);Q為17號氫原子的凈電荷;KL為24號氧原子與17號氫原子間庫侖力;R為相關(guān)系數(shù),N為樣本數(shù)。
從回歸方程(1)中可以看出,影響1,1-二苯基乙烯衍生物抗雌激素活性的3個因素是Go、O和KL,按統(tǒng)計學(xué)公式,可以得到這3個參量的標(biāo)準(zhǔn)系數(shù)分別為0.659、0.393和-0.263,即Go對其抗雌激素活性的影響最大,其次是Q,而KL的影響最小。Go與1,1-二苯基乙烯衍生物的抗雌激素活性高度相關(guān),而Go不僅反映了分子中原子的電子分布,而且主要表征了分子的體積效應(yīng),即分子的體積越大,衍生物的抗雌激素活性越小,表明在進行抗雌激素藥物設(shè)計時應(yīng)盡量避免大取代基的引入;O越正,衍生物抗雌激素活性越大,表明Y取代基為吸電子基團對衍生物的抗雌激素活性有利;而KL的絕對值越大,即24號氧原子和17號氫原子間相互吸引力越大,衍生物抗雌激素活性越大。
利用回歸分析方法對19個化合物建立的模型得出相關(guān)系數(shù)R=0.966 0,標(biāo)準(zhǔn)偏差SD=0.101 0;對這19個化合物用ANN法計算的相關(guān)系數(shù)R=0.999 9,標(biāo)準(zhǔn)偏差SD=3.058 88E-4,結(jié)果明顯優(yōu)于回歸法。圖4表示對19個1,1-二苯基乙烯衍生物模擬的計算值與實驗值的相關(guān)情況,可以看出,圖中大部分?jǐn)?shù)據(jù)位于過原點45。線的附近,并無明顯異常點,表明影響1,1-二苯基乙烯衍生物在MVLN細胞中的抗雌激素活性大小的因素不僅復(fù)雜而且可能是非線性關(guān)系。
5 結(jié)論
上述QSAR模型的建立與分析結(jié)果均表明人工神經(jīng)網(wǎng)絡(luò)具有良好的擬合精度和較強的預(yù)測能力,特別適合處理復(fù)雜的非線性問題。由此可見,ANN作為一種有效的化學(xué)計量學(xué)工具。在QSAR研究中,特別是生物活性與描述參數(shù)變量之間隱含某些復(fù)雜的內(nèi)在聯(lián)系時將發(fā)揮重要作用。新穎的人工神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)的多元回歸有許多優(yōu)越之處,將成為定量構(gòu)效關(guān)系及藥物設(shè)計研究的有效方法。