史琦玉,賈青竹,王 強(qiáng)
(1. 天津科技大學(xué)海洋與環(huán)境學(xué)院,天津 300457;2. 天津科技大學(xué)化工與材料學(xué)院,天津 300457)
苯衍生物包括苯胺、苯酚、硫酚、苯甲酸和抗生素(磺胺類與磺胺類增強(qiáng)劑)等,在化工、醫(yī)藥和農(nóng)業(yè)等領(lǐng)域廣泛應(yīng)用,由此導(dǎo)致這些化合物在環(huán)境中顯著檢出;同時(shí),此類化合物對水體環(huán)境產(chǎn)生生態(tài)毒性,對人體健康存在潛在的風(fēng)險(xiǎn),因此,有必要對此類化合物的生態(tài)風(fēng)險(xiǎn)進(jìn)行評估[1].
有機(jī)物對費(fèi)氏弧菌(V. fischeri)的生態(tài)毒性數(shù)據(jù)是對其進(jìn)行生態(tài)風(fēng)險(xiǎn)評價(jià)的主要依據(jù)[2].實(shí)驗(yàn)測定生物毒性不僅耗時(shí)費(fèi)力,而且與動(dòng)物倫理 3R原則(replacement,reduction,refinement)相違背.因此,亟需尋求快速高效獲取生態(tài)毒性數(shù)據(jù)的方法.根據(jù)歐洲化學(xué)品注冊、評估、授權(quán)和限制條例 REACH的規(guī)定,為避免和減少化學(xué)品對生態(tài)環(huán)境可能造成的潛在危害,鼓勵(lì)使用數(shù)學(xué)模型預(yù)測工具如定量構(gòu)效關(guān)系(QSAR)獲取生態(tài)毒性數(shù)據(jù).QSAR方法已成為預(yù)測化學(xué)品生態(tài)毒理危害不可或缺的工具[3-4].
許多研究者報(bào)道了苯衍生物對V. fischeri的水生毒性評估方法[5-9].Wang等[5]采用逐步回歸分析法建立了 QSAR模型,預(yù)測苯酚衍生物和苯胺衍生物(共15種)對V. fischeri的毒性pEC50(EC50取負(fù)對數(shù)),該模型統(tǒng)計(jì)分析結(jié)果 R2為 0.89.Melo等[6]運(yùn)用連續(xù)偏最小二乘法(PLS),預(yù)測了苯砜基羧酸酯衍生物(41種)對 V. fischeri的毒性,該 QSAR模型的相關(guān)系數(shù)R2為 0.884.Shi等[7]測定了苯硫酚衍生物(31種)對V. fischeri的毒性,分別使用比較分子場分析(CoMFA)描述符和比較分子相似性指數(shù)分析(CoMSIA)描述符,采用逐步多元線性回歸分析法建立模型并成功地預(yù)測了苯硫酚衍生物的毒性,R2(0.848~0.928)和 Q2(0.516~0.652)表明這兩個(gè)模型均表現(xiàn)出良好的穩(wěn)定性和預(yù)測能力.Liu等[8]基于CoMFA和CoMSIA描述符,采用偏最小二乘法分別建立兩個(gè) QSAR模型,預(yù)測了苯砜基羧酸酯衍生物(56種)對 V. fischeri毒性;其中,使用 CoMFA描述符的模型(R2=0.958)優(yōu)于 CoMSIA 描述符的模型(R2=0.933).綜上,這些模型都取得了令人滿意的預(yù)測結(jié)果,但是,大部分研究工作是針對單一類型的苯衍生物,同時(shí)針對多種類苯衍生物對 V. fischeri的生態(tài)毒性的研究工作還很少.
近年來,本課題組提出了范數(shù)指數(shù)的概念,據(jù)此建立了一系列 QSAR模型,并成功應(yīng)用于離子液體對鼠細(xì)胞、細(xì)菌的生態(tài)毒性[9-10]、有機(jī)物的物化性質(zhì)以及對藻類、魚類的生態(tài)毒性[11-16]等領(lǐng)域.
本研究目的是建立一個(gè) QSAR模型預(yù)測多種苯衍生物對V. fischeri的生態(tài)毒性.
本工作中,苯衍生物生態(tài)毒性實(shí)驗(yàn)值(EC50,單位用 mol/L 表示)收集于 Wang等[17]、Shi等[7]、Aruoja等[18]和 Zhao等[19]的研究工作.參與建模的110種苯衍生物包括苯酚衍生物和苯胺衍生物(共58種)、苯硫酚衍生物(30種)、苯甲酸衍生物(10種)和抗生素(12種).這些化合物對V. fischeri的生態(tài)毒性實(shí)驗(yàn)值pEC50等的信息列于表1中.
表1 苯衍生物對V. fischeri的毒性值Tab. 1 Toxicity of benzene derivatives to V. fischeri
續(xù)表
續(xù)表
本工作利用 HyperChem7.0軟件(http://www.hyper.com)進(jìn)行結(jié)構(gòu)優(yōu)化.優(yōu)化方法采用量子化學(xué)從頭計(jì)算方法,在 STO-3G基組下優(yōu)化計(jì)算,得到化合物穩(wěn)定的結(jié)構(gòu).根據(jù)原子性質(zhì)和空間分布,建立了原子分布矩陣(M),并對 M 進(jìn)一步數(shù)據(jù)挖掘.M 范數(shù)計(jì)算即為范數(shù)指數(shù).范數(shù)定義表達(dá)為式(1)—式(3).
式中:mij表示矩陣中第 i行 j列的元素;n表示化合物的總數(shù);λi表示矩陣的特征值;MH是矩陣 M 的轉(zhuǎn)置共軛矩陣.
采用矩陣(D,式(4))和相鄰矩陣(A,式(5))來描述原子的位置分布.原子性質(zhì)包含范德華半徑(vr)、原子電荷(ac)、電子層數(shù)(es)、原子質(zhì)量(aw)和分子質(zhì)量(mw),原子性質(zhì)矩陣(P)表達(dá)為式(6)—式(10).本文建立的8個(gè)原子分布矩陣列在表2中.
表2 8個(gè)原子分布矩陣Tab. 2 8 atomic distribution matrices
式(4)中:dij是原子 i和 j之間的歐氏空間距離.HyperChem7.0軟件中原子的歐氏空間距離以 ?為單位,無量綱.
P1—P5為列向量.原子的范德華半徑以 ? 為單位,無量綱.
根據(jù) OECD指導(dǎo)原則,良好的 QSAR模型應(yīng)具有適當(dāng)?shù)臄M合度、穩(wěn)健性和預(yù)測能力.QSAR模型驗(yàn)證最常用的方法包括內(nèi)部驗(yàn)證和外部驗(yàn)證[20].其中,統(tǒng)計(jì)參數(shù)為相關(guān)性系數(shù)的平方(R2)、Fisher值(F)和均方根誤差(RMSE)等.
在內(nèi)部驗(yàn)證過程中,留一法交叉驗(yàn)證(LOO CV)和五折交叉驗(yàn)證(5-fold CV)的數(shù)據(jù)擬合質(zhì)量統(tǒng)計(jì)參數(shù)分別是和均方根誤差(RMSELOO和RMSE5-fold).為了進(jìn)行外部驗(yàn)證,整個(gè)數(shù)據(jù)集以 4∶1的比例分為訓(xùn)練集(88個(gè)有機(jī)物)和測試集(22個(gè)有機(jī)物).對于訓(xùn)練集(tr)和測試集(te),分別使用外部驗(yàn)證的統(tǒng)計(jì)參數(shù)和均方根誤差(RMSEtr,RMSEte)驗(yàn)證模型的預(yù)測能力.另外,本工作通過 Y隨機(jī)測試檢查了模型的偶然相關(guān)性.
本文提出了一個(gè)預(yù)測多種類苯衍生物對 V.fischeri生態(tài)毒性(pEC50)的模型,如式(11)所示,其中模型參數(shù)見表3.
此模型:n=110,R2=0.895,F(xiàn)=108,RMSE=0.241,Q2=0.874,RMSELOO=0.264.
表3 模型中8個(gè)范數(shù)描述符及其對應(yīng)系數(shù)值Tab. 3 8 norm descriptors in the model and their corresponding coefficient values
苯衍生物對V. fischeri生態(tài)毒性的模型計(jì)算值列在表1中,實(shí)驗(yàn)值和模型計(jì)算pEC50值的散點(diǎn)圖如圖1所示.由圖 1可知:實(shí)驗(yàn)與計(jì)算 pEC50值吻合較好.模型統(tǒng)計(jì)結(jié)果R2、F、RMSE分別為0.895、108和0.241,說明了該模型能夠準(zhǔn)確預(yù)測苯衍生物對 V.fischeri的生態(tài)毒性.
圖1 實(shí)驗(yàn)值與計(jì)算值pEC50散點(diǎn)圖Fig. 1 Scatter diagram of experimental and calculated pEC50 values
本工作利用留一法和五折交叉驗(yàn)證法對模型進(jìn)行內(nèi)部驗(yàn)證.圖 2為模型(式(11))與留一法(LOO CV)、五折交叉驗(yàn)證(5-fold CV)計(jì)算結(jié)果的誤差分布圖.圖 2結(jié)果顯示,本工作模型與留一法、五折交叉驗(yàn)證的誤差分布具有高度一致性,三者總體誤差分布均在[-0.15~0.15]之間,并符合正態(tài)分布.統(tǒng)計(jì)結(jié)果顯示,都等于 0.874,進(jìn)一步表明本工作所建立模型具有很好的穩(wěn)健性.
訓(xùn)練集和測試集實(shí)驗(yàn)值與計(jì)算值 pEC50的散點(diǎn)圖如3所示.從圖3中可以看出,訓(xùn)練集和測試集的實(shí)驗(yàn)值和預(yù)測值都與對角線相近,外部驗(yàn)證的分別為 0.873 和 0.938,RMSEtr、RMSEte分別為0.247和 0.242,說明基于范數(shù)描述符建立的 QSAR模型穩(wěn)定性好,具有良好的預(yù)測能力.此外,其他驗(yàn)證參數(shù)[20]:CCC為0.965,均說明該模型具有良好的預(yù)測能力.
圖2 模型、留一法交叉驗(yàn)證和五折交叉驗(yàn)證的誤差分布Fig. 2 Error distribution of the new model,LOO CV and 5-fold CV
圖3 訓(xùn)練集和測試集實(shí)驗(yàn)值和計(jì)算值pEC50散點(diǎn)圖Fig. 3 Scatter diagram of experimental and calculated pEC50 values of the training set and testing set
Y隨機(jī)化檢驗(yàn)對 QSAR模型的驗(yàn)證具有重要意義[21].本工作將有機(jī)物的毒性實(shí)驗(yàn)值 pEC50隨機(jī)打亂順序 1000次,對模型進(jìn)行 1000次 Y隨機(jī)化檢驗(yàn),結(jié)果如圖4所示.
圖4 1000次Y隨機(jī)檢驗(yàn)結(jié)果Fig. 4 Results of 1000 times of Y-randomization test
為了獲得可靠的預(yù)測效果,有必要驗(yàn)證 QSAR模型的應(yīng)用領(lǐng)域.本工作利用三維Williams plot描述pEC50模型的應(yīng)用域.在該圖中,杠桿(hi)度量化合物離模型適用性范圍的遠(yuǎn)近,臨界值(h*)由 3×(p+1)/n計(jì)算,其中 p為模型變量數(shù),n為建模過程中訓(xùn)練集的數(shù)量.對于h大于h*的化合物,認(rèn)為其屬于結(jié)構(gòu)異常的范疇;對于交叉驗(yàn)證的標(biāo)準(zhǔn)殘差大于3個(gè)標(biāo)準(zhǔn)偏差單位的化合物,則認(rèn)為是響應(yīng)異常的范疇.
本工作模型應(yīng)用域的驗(yàn)證結(jié)果如圖5所示,幾乎所有化學(xué)物質(zhì)位于可接受區(qū)域內(nèi),僅存在一個(gè)結(jié)構(gòu)異常和一個(gè)響應(yīng)異常值.由此可見,本工作建立的模型具有廣泛的應(yīng)用域,可以為苯衍生物對 V. fischeri生態(tài)毒性的預(yù)測提供可靠數(shù)據(jù).
圖5 模型的應(yīng)用域Fig. 5 Applicability domain of the new model
將本工作模型與其他文獻(xiàn)模型進(jìn)行比較,比較結(jié)果見表 4.首先文獻(xiàn)研究基本上都是針對小樣本量的某一類化合物進(jìn)行 QSAR研究,均取得較好的模型預(yù)測精度[6,7,17,22].Guimar?es 等[22]和 Shi等[7]的研究工作得到了較高的 R2(0.848~0.928),但是這些模型交叉驗(yàn)證的 Q2均較低,由此說明,這些模型的精度較高但是穩(wěn)定性不高.本工作針對多種類苯衍生物對 V. fischeri的生態(tài)毒性進(jìn)行建模研究,不僅樣本量大,而且模型的穩(wěn)定性高(Q2=0.874);本工作基于范數(shù)描述符建立的 QSAR模型穩(wěn)定性良好,預(yù)測能力較強(qiáng),表明該模型可以較為成功地預(yù)測苯衍生物對V.fischeri的生態(tài)毒性.
表4 本工作與文獻(xiàn)研究的比較Tab. 4 Comparison of this research with references
本工作提出了范數(shù)描述符,據(jù)此建立 QSAR模型,對 5類苯衍生物(苯胺、苯酚、硫酚、苯甲酸和抗生素)的費(fèi)氏弧菌生態(tài)毒性進(jìn)行預(yù)測.主要研究結(jié)論如下:(1)本工作模型對費(fèi)氏弧菌生態(tài)毒性具有很好的預(yù)測精度;(2)統(tǒng)計(jì)結(jié)果和模型驗(yàn)證結(jié)果表明了本工作模型的穩(wěn)定性和廣泛適用性;(3)基于原子分布矩陣構(gòu)建的范數(shù)描述符能夠準(zhǔn)確描述有機(jī)物的分子結(jié)構(gòu),據(jù)此建立的模型對于有機(jī)物的生態(tài)風(fēng)險(xiǎn)評價(jià)具有重要意義.