摘要
[目的] 構(gòu)建可靠的QSAR模型用于評(píng)價(jià)醇類化合物的毒性。[方法] 利用MLR、SLR和SVR 3種方法研究60種醇類化合物辛醇/水分配系數(shù)lgKow和水溶解度lgSw這兩個(gè)指標(biāo)與mX的相關(guān)性。[結(jié)果] 模型評(píng)估結(jié)果顯示出MLR和SLR的建模能力與文獻(xiàn)方法一樣優(yōu)異,SVR在具有合適核函數(shù)時(shí)其建模能力也能表現(xiàn)出優(yōu)異的泛化推廣能力。[結(jié)論] 該研究可為QSAR模型的構(gòu)建提供參考。
關(guān)鍵詞 醇;有機(jī)污染物;支持向量機(jī);定量構(gòu)效關(guān)系
中圖分類號(hào) S181.3 "文獻(xiàn)標(biāo)識(shí)碼 A "文章編號(hào) 0517-6611(2014)32-11470-03
The Evaluation of lgKow and lgSw of Alcohol Using Different Modeling Methods
LI Ran1,2, JIANG Peng1,2, HE Ying1,2, ZHOU Wei1,2,3* et al
(1.Hunan Provincial Key Laboratory for Biology and Control of Plant Diseases and Insect Pests, College of Plant Protection, Hunan Agricultural University, Changsha, Hunan 410128; 2. Hunan Provincial Engineering amp; Technology Research Center for Biopesticide and Formulation Processing, Hunan Agricultural University, Changsha, Hunan 410128; 3. Chenzhou Company of Hunan Tobacco Company, Chenzhou, Hunan 423000)
Abstract "[Objective] The research aimed to establish reliable QSAR model for the toxicity evaluation of alcohol.
[Method] The correlation between mX and two measures (octanol/water partition coefficient lgKow and solubility lgSw) of 60 alcohol compounds was studied using MLR, SLR and SVR. [Result] The results showed that, similar to the literature method, MLR and SLR had the excellent modeling capabilities, and SVR with an appropriate kernel function could also exhibit excellent generalization capability.[Conclusion] This study could provide references for the construction of QSAR model.
Key words "Alcohol; Organic pollutant; SVR; QSAR
隨著經(jīng)濟(jì)的飛速發(fā)展,與化學(xué)品相關(guān)的環(huán)境問(wèn)題日益突出[1]。因此,有關(guān)有機(jī)污染物的毒性風(fēng)險(xiǎn)評(píng)估顯得非常重要。醇類化合物是一類重要的環(huán)境毒性污染物,在湖泊和河流中都已檢測(cè)到,這類化合物在環(huán)境中的影響也是不可忽視的。由于這類化合物品種較多,完全進(jìn)行試驗(yàn)研究相當(dāng)困難。定量構(gòu)效關(guān)系(Quantitative Structure Activity Relationship,QSAR)相關(guān)性研究在化學(xué)研究領(lǐng)域得到了非常有效的應(yīng)用,近年來(lái),又被大量地應(yīng)用于環(huán)境科學(xué)中[2],在環(huán)境污染物毒性等研究方面有重要的實(shí)用價(jià)值。 " "QSAR建模是一種用于研究醇類化合物分子結(jié)構(gòu)與毒性關(guān)系的有效方法,它有助于解釋結(jié)構(gòu)特征如何決定毒性[3]。有機(jī)污染物的水溶解度(lgSw)是評(píng)價(jià)有機(jī)物遷移轉(zhuǎn)化和毒性的主要參數(shù),它和正辛醇/水分配系數(shù)(lgKow)一樣與土壤/沉積物吸附系數(shù)(Kow)、生物富集因子及致癌性、藥物的結(jié)構(gòu)變化有密切關(guān)系[4]。因此,它們是評(píng)價(jià)有機(jī)污染物環(huán)境行為的重要基本參數(shù),傳統(tǒng)的“搖瓶法”測(cè)定lgKow不僅費(fèi)時(shí)、繁瑣,而且存在很多局限性。因此,采用QSAR研究模型來(lái)對(duì)lgKow及l(fā)gSw進(jìn)行預(yù)測(cè)越來(lái)越受到學(xué)者的注意。
目前,分子連接性指數(shù)(mX)法已被廣泛地應(yīng)用于有機(jī)物理化參數(shù)、環(huán)境參數(shù)以及生物毒性的預(yù)測(cè)中[5],通常有機(jī)物的理化性質(zhì)取決于分子中疏水部分和親水部分的共同貢獻(xiàn)。對(duì)于疏水性物質(zhì),色散作用可能成為控制分子性質(zhì)的主要因素[5];對(duì)親水性物質(zhì),它們和溶劑之間的色散作用和非色散作用共同決定了化合物的理化行為。所以,對(duì)于疏水性物質(zhì),簡(jiǎn)單連接性指數(shù)與理化性質(zhì)就存在較好的相關(guān)關(guān)系。如果化合物既有疏水性又有親水性時(shí),相關(guān)性則不十分理想,簡(jiǎn)單連接性指數(shù)就不能有效地反映相關(guān)關(guān)系。同時(shí),化學(xué)毒性和相關(guān)特征之間的關(guān)系通常又是非線性的,構(gòu)建線性模型從而顯得不合邏輯。因此,非線性特征篩選和非線性建模的模型一定會(huì)為化合物毒性的評(píng)估提供更有用的信息。為構(gòu)建可靠的QSAR模型,筆者采用非線性支持向量回歸方法(Support Vector Regression,SVR)[6]。SVR是一類基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的機(jī)器學(xué)習(xí)方法,它能克服小樣本問(wèn)題、過(guò)擬合、維數(shù)災(zāi)和局部極小的難題,廣泛應(yīng)用于非線性建模的QASR研究中[7]。該研究利用兩種線性技術(shù)和一種非線性SVR技術(shù)對(duì)源自文獻(xiàn)的60個(gè)化合物的水溶解度lgSw和辛醇/水分配系數(shù)lgKow進(jìn)行QSAR研究。
1 "材料與方法
1.1 數(shù)據(jù)集
根據(jù)文獻(xiàn)報(bào)道的60個(gè)試驗(yàn)測(cè)定的醇類化合物辛醇/水分配系數(shù)lgKow和水溶解度lgSw,研究mX與lgSw和lgKow的相關(guān)性(表1)。為了獲得統(tǒng)計(jì)學(xué)魯棒的QSAR模型,筆者將數(shù)據(jù)集分成訓(xùn)練集(前55個(gè)化合物)和測(cè)試集(后5個(gè)化合物),比較文獻(xiàn)的最小二乘法(Generalized Least Squares,GLS)與多元線性回歸(Multiple Linear Regression,MLR)、逐步線性回歸(Stepwise Multiple Linear Regression,SLR)和SVR的建模結(jié)果。訓(xùn)練集用來(lái)構(gòu)建QSAR模型,測(cè)試集用來(lái)驗(yàn)證其獨(dú)立預(yù)測(cè)能力。
表1 "60個(gè)醇類有機(jī)污染物lgKow、lgSw和mX值[5]
醇lgKowlgSwmX
0X1X
醇lgKowlgSwmX
0X1X
1丁醇0.840-0.0267.4798.5764庚醇2.3101.39011.62515.600
2丁醇0.610-0.3907.3829.4692甲基2己醇1.8401.07011.47916.715
2甲基1丁醇0.610-0.0967.3829.0765甲基2己醇2.1901.38011.52815.968
1戊醇1.3400.5908.89310.5763甲基3己醇1.8700.98011.47916.957
3甲基1丁醇1.1400.5108.79711.0762甲基3己醇2.1901.32011.52816.201
2甲基1丁醇1.1400.4608.79711.2082,2二甲基1戊醇2.3901.52011.47916.233
2戊醇1.1400.2808.79711.4692,4二甲基1戊醇2.1901.60011.52815.707
3戊醇1.1400.2108.79711.6004,4二甲基1戊醇2.3901.55011.47915.991
3甲基2丁醇1.1400.2108.70012.0692,3二甲基2戊醇2.2700.91011.38217.532
2甲基2丁醇0.8900.2308.65012.7152,4二甲基2戊醇1.6700.93011.38217.214
2,2二甲基1丙醇1.3600.3008.65011.9913乙基3戊醇1.8700.83011.47917.200
1己醇1.8401.21010.30712.5762,2二甲基3戊醇2.2701.16011.38217.201
2己醇1.6100.87010.21113.4692,3二甲基3戊醇1.6700.84011.38217.643
3己醇1.6100.80010.21113.6002,4二甲基3戊醇2.3101.22011.43216.801
3甲基3戊醇1.3900.39010.06414.9571辛醇2.8402.35013.13616.576
2甲基2戊醇1.3900.51010.06414.7152辛醇2.8402.07013.03917.469
2甲基3戊醇1.6700.70010.11414.2012乙基1己醇2.8402.17013.03917.339
3甲基2戊醇1.6700.71010.11414.2011壬醇3.5703.00014.55018.576
2,2二甲基1丁醇1.5701.04010.06414.2332壬醇3.3602.74014.45319.469
3,3二甲基1丁醇1.5700.50010.06413.9913壬醇3.3602.66014.45319.600
2,3二甲基2丁醇1.1700.3709.96815.4004壬醇3.3602.59014.45319.600
3,3二甲基2丁醇1.1900.6409.96815.0695壬醇3.3602.49014.45319.600
2甲基1戊醇1.7801.05010.21113.2082,6-二甲基4庚醇3.1302.51014.26120.599
4甲基1戊醇1.7800.99010.21113.0761癸醇4.0103.70015.96420.576
4甲基2戊醇1.6700.81010.11413.9682十一醇4.4202.94017.28223.469
2乙基1丁醇1.7801.21010.21113.3391十二醇5.0604.80018.79224.576
環(huán)己醇1.4300.4209.30715.1621十四醇6.1104.52021.62128.576
1庚醇2.3401.81011.72114.5761十五醇6.6405.84023.03530.576
2-庚醇2.3101.55011.62515.4691十六醇7.1707.00024.44932.576
3庚醇2.3101.39011.62515.6001十八醇8.2208.40027.27836.576
1.2 描述符
該研究所用描述符來(lái)自文獻(xiàn)(表1),其描述符由能反映結(jié)構(gòu)信息的原子的點(diǎn)價(jià)計(jì)算來(lái)得到[5]。
1.3 模型發(fā)展
基于文獻(xiàn)描述符,對(duì)兩個(gè)因變量(lgKow和 lgSw)和兩個(gè)自變量(0X和1X)分別使用SLR、MLR和SVR進(jìn)行建模[6,8]。
1.4 模型評(píng)估
基于均方誤差(MSE)值,核函數(shù)參數(shù)的優(yōu)化采用留一法交叉驗(yàn)證[9-10]。模型的外部預(yù)測(cè)能力通過(guò)公式(1)和(2)的MSE和預(yù)測(cè)相關(guān)系數(shù)(R2pred)值進(jìn)行評(píng)估:
MSE=∑(yi-yi)2n
(1)
R2pred=1-∑(yi-yi)2∑(yi-ytraining)2
(2)
式中,yi為測(cè)試集的試驗(yàn)值;
y為測(cè)試集的預(yù)測(cè)值;
n為測(cè)試集的數(shù)目;
ytraining為訓(xùn)練集的活性均值。
留一法是指依次從訓(xùn)練集中取出一個(gè)樣本作為測(cè)試樣本,而將剩余樣本組成訓(xùn)練集的一種較為客觀和嚴(yán)格的預(yù)測(cè)性能檢驗(yàn)方法。一般認(rèn)為,一個(gè)好的QSAR模型應(yīng)該在獨(dú)立測(cè)試時(shí)具有更低的MSE值和更高的R2pred (至少gt;0.6)值[9-10]。
2 "結(jié)果與分析
2.1 利用MLR和SLR方法構(gòu)建醇類有機(jī)污染物線性QSAR模型及其評(píng)估
文獻(xiàn)利用最小二乘法建立起簡(jiǎn)單性連接指數(shù)mX與lgSw和lgKow兩組因變量QSAR模型,分別產(chǎn)生兩組獨(dú)立預(yù)測(cè)方程(表2)?;谖墨I(xiàn)數(shù)據(jù),該研究利用MLR和SLR兩種方法進(jìn)行其他線性模型構(gòu)建。結(jié)果表明:MLR和SLR兩種方法構(gòu)建的線性模型評(píng)估值完全一致,SLR方法汰選掉任何自變量;MLR和SLR這兩個(gè)線性模型預(yù)測(cè)方程和評(píng)估值與文獻(xiàn)的GLS模型也完全一致,其R2pred值均非常高。對(duì)于研究中既定的數(shù)據(jù),這3種線性建模方法的泛化推廣能力顯示出很大優(yōu)勢(shì)。
2.2 利用SVR方法構(gòu)建醇類有機(jī)污染物非線性QSAR模型及其評(píng)估
基于文獻(xiàn)數(shù)據(jù),該研究進(jìn)一步利用SVR進(jìn)行非線性模型構(gòu)建,所用核函數(shù)包括線性核函數(shù)(t=0)、多項(xiàng)式核函數(shù)(t=1, d=2;t=1, d=3)、徑向基核函數(shù)(t=2)和雙曲正切核函數(shù)(t=3)[11]。SVR建模結(jié)果表明(表3):不同的核函數(shù)產(chǎn)生的結(jié)果差異非常大,因此核函數(shù)尋優(yōu)非常必要;對(duì)于正辛醇/水分配系數(shù)lgKow,SVR建模中的t=0、t=2和t=3結(jié)果都非常優(yōu)秀,有效模型比率為60%;對(duì)于水溶解度lgSw,SVR建模中僅有t=0的模型結(jié)果非常優(yōu)秀,有效模型比率僅為20%。SVR非線性建模結(jié)果支持線性核函數(shù)(t=0)為研究中既定數(shù)據(jù)的最優(yōu)核函數(shù)。綜合上述線性模型結(jié)果的優(yōu)良表現(xiàn),該研究認(rèn)為文獻(xiàn)計(jì)算出的簡(jiǎn)單性連接指數(shù)mX與lgSw和lgKow之間存在明顯的線性關(guān)系,線性模型和具有合適核函數(shù)的非線性SVR模型均能很好地預(yù)測(cè)出其中的關(guān)聯(lián)信息。SVR能較好地解決小樣本、非線性、維數(shù)災(zāi)和局極小等實(shí)際問(wèn)題,其在一些與lgSw和lgKow間存在非線性關(guān)系的描述符的建模上是否更具優(yōu)勢(shì)還有待進(jìn)一步研究。
表2 3種線性方法預(yù)測(cè)結(jié)果比較
參數(shù)lgKow
GLS[5]MLRSLR
lgSw
GLS[5]MLRSLR
預(yù)測(cè)方程lgKow=0.5120X - 0.0951X - 2.220lgSw=0.6420X-0.1771X - 3.230
MSE0.0010.0010.0010.3570.3570.357
R2pred1.0001.0001.0000.9860.9860.986
表3 "SVR方法預(yù)測(cè)結(jié)果比較
參數(shù)lgKow
t=0t=1, d=2t=1, d=3t=2t=3
lgSw
t=0t=1, d=2t=1, d=3t=2t=3
MSE0.022173.114968.1021.4440.2240.416182.054913.24422.20350.152
R2pred0.999-6.643-41.7440.9360.9900.984-5.910-33.6620.157-0.904
3 結(jié)論
該研究運(yùn)用MLR、SLR、SVR 3種方法研究文獻(xiàn)所給出的60種醇類化合物辛醇/水分配系數(shù)lgKow和水溶解度lgSw這兩個(gè)指標(biāo)與mX的相關(guān)性。一系列模型評(píng)估結(jié)果表明,MLR、SLR和SVR(具有合適的核函數(shù))的建模能力與文獻(xiàn)方法的建模能力一樣優(yōu)異。
參考文獻(xiàn)
[1]
WANG H,YAN Z,LI H,et al.Progress of environmental management and risk assessment of industrial chemicals in China[J].Environ Pollut,2012,165(1):174-181.
[2] 譚顯勝,袁哲明,周鐵軍,等.Multi-KNN-SVR組合預(yù)測(cè)在含氟化合物QSAR研究中的應(yīng)用[J].高等學(xué)校化學(xué)學(xué)報(bào),2008,29(1):95-99.
[3] LI X L,WANG Z Y,LIU H L,et al.Quantitative structure-activity relationship for prediction of the toxicity of phenols on Photobacterium phosphoreum[J].Bull Environ Contam Toxicol,2012,89:27-31.
[4] 王連生.有機(jī)污染物化學(xué)[M].北京:科學(xué)出版社,1990:3-65.
[5] 堵錫華,蔡可迎.醇、醚類有機(jī)污染物的QSAR研究[J].福州大學(xué)學(xué)報(bào),2004,32(2):224-227.
[6] VAPNIK V N.The Nature of Statistical Learning Theory[M].New York:SpringerVerlag,1995.
[7] XIANG C S,ZHOU W,YUAN Z M,et al.A new parameters joint optimization method of chaotic time series prediction[J].Int J Phys Sci,2011,6:2565-2571.
[8] ZHOU "W,DAI "Z,CHEN Y,et al.Highdimensional descriptor selection and computational QSAR modeling for antitumor activity of ARC111 analogues based on support vector regression (SVR)[J].Int J Mol Sci,2012,13(1):1161-1172.
[9] 代志軍,周瑋,袁哲明.基于支持向量機(jī)的高維特征非線性快速篩選與肽QSAR建模[J].物理化學(xué)學(xué)報(bào),2011,27(7):1654-1660.
[10] ZHOU W,DAI Z J,CHEN Y,et al.Computational QSAR models with high-dimensional descriptor selection improve antitumor activity design of ARC-111 analogues[J].Med Chem Sci,2013,22(1):278-286.
[11] 李巍巍,代志軍,譚顯勝,等.基于支持向量回歸的酚類化合物QSAR建模[J].現(xiàn)代生物醫(yī)學(xué)進(jìn)展,2011(24):4857-4860.