張文灝,陳景文,徐童,王雅
工業(yè)生態(tài)與環(huán)境工程教育部重點(diǎn)實(shí)驗(yàn)室,大連理工大學(xué)環(huán)境學(xué)院,大連 116024
外源性化合物可通過(guò)魚(yú)的攝食、呼吸和直接接觸等途徑進(jìn)入到體內(nèi),經(jīng)過(guò)吸收和代謝競(jìng)爭(zhēng),在體內(nèi)蓄積[1-2]。蓄積的化學(xué)品可對(duì)魚(yú)體產(chǎn)生毒害效應(yīng)[3-5],因此有必要評(píng)價(jià)外源化合物的生物蓄積效應(yīng)[6-8]。經(jīng)濟(jì)合作與發(fā)展組織(OECD)在2012年發(fā)布的“魚(yú)體內(nèi)生物蓄積:水和食物暴露”導(dǎo)則[9]指出,除生物富集因子(BCF)、生物放大因子(BAF)外,化合物在魚(yú)體內(nèi)的半減期(t1/2, d)和消除速率常數(shù)(KM, 1/d)也可用于評(píng)價(jià)化學(xué)品的生物蓄積效應(yīng)。為方便統(tǒng)計(jì)和比較,通常取logt1/2進(jìn)行記錄和計(jì)算[10-12]。目前具有l(wèi)ogt1/2實(shí)測(cè)值的化學(xué)品僅有幾百種,實(shí)驗(yàn)測(cè)定t1/2的速度慢、成本高,難以滿足化學(xué)品生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)的需求,需要發(fā)展替代實(shí)驗(yàn)的模型預(yù)測(cè)方法。
定量構(gòu)效關(guān)系(QSAR)模型可用于預(yù)測(cè)化合物的logt1/2值[13]。Arnot等[14]基于632種化合物在魚(yú)體的實(shí)測(cè)logt1/2值,采用正辛醇/水分配系數(shù)(logKow)、分子量(Mw) 2種描述符,以及57個(gè)分子碎片構(gòu)建了QSAR模型。在此基礎(chǔ)上,Brown等[15]構(gòu)建了包含34個(gè)分子碎片及l(fā)ogKow和Mw2種描述符的QSAR模型。Papa等[6]運(yùn)用同一數(shù)據(jù)庫(kù),建立了包含9個(gè)2D分子描述符的QSAR模型。然而,這些模型的訓(xùn)練集和驗(yàn)證集中,均不包含近年來(lái)引起廣泛關(guān)注的藥物和個(gè)人護(hù)理用化學(xué)品(PPCPs)類物質(zhì)。
近年來(lái),PPCPs類污染物在各處水體和水生生物中被檢出[16-18],具有潛在的生態(tài)風(fēng)險(xiǎn)[19-20]。如果QSAR模型能夠預(yù)測(cè)包含抗抑郁藥、降壓藥、麻醉劑、抗過(guò)敏藥、抗病毒藥和抗生素在內(nèi)的PPCPs在魚(yú)體內(nèi)的t1/2,則模型有助于評(píng)價(jià)PPCPs類化合物的危害性和風(fēng)險(xiǎn)。本研究在以往數(shù)據(jù)庫(kù)的基礎(chǔ)上,整理搜集了包括PPCPs在內(nèi)的653個(gè)化合物在魚(yú)體內(nèi)的logt1/2實(shí)測(cè)值,采用多元線性回歸(MLR)[21-23]和支持向量機(jī)(SVM)[24-27]2種方法分別建立logt1/2的預(yù)測(cè)模型,并對(duì)模型進(jìn)行驗(yàn)證、應(yīng)用域表征和機(jī)理解釋。
本研究從文獻(xiàn)[28-46]和數(shù)據(jù)庫(kù)(EPI Suite Package)中,共搜集653個(gè)化合物在魚(yú)體內(nèi)的logt1/2數(shù)據(jù),涉及魚(yú)種類包含鯉魚(yú)、虹鱒、斑馬魚(yú)、羅非魚(yú)、鮭魚(yú)、鱸魚(yú)、太陽(yáng)魚(yú)和青鳉魚(yú)等十幾種魚(yú)類,它們體長(zhǎng)、體重、身體構(gòu)造、生長(zhǎng)習(xí)性均不相同,實(shí)驗(yàn)溫度、pH等實(shí)驗(yàn)條件也不盡相同。KM和t1/2關(guān)系如式(1)所示:
t1/2= ln2/KM
(1)
為了弱化魚(yú)種和實(shí)驗(yàn)條件對(duì)模型的影響,本研究采用Arnot等[14]的方法,通過(guò)式(1)得到新收集數(shù)據(jù)的消除速率常數(shù)(KM,X,單位為d-1)值,再采用式(2)對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,即:
KM, N=KM, X(WN/WX)-0.25exp[0.01(TN-TX)]
(2)
這里(WN/WX)為規(guī)范化體重(0.01 kg)與實(shí)際體重之比;(TN-TX)為規(guī)范化溫度(15 ℃)與實(shí)際溫度的差。據(jù)式(2)得到規(guī)范化處理的消除速率常數(shù)(KM, N),最后根據(jù)式(1)重新得到t1/2進(jìn)行建模。經(jīng)過(guò)規(guī)范化處理后,得到含有653種化合物的新數(shù)據(jù)集,包括多環(huán)芳烴、多氯聯(lián)苯、多溴聯(lián)苯醚、有機(jī)磷農(nóng)藥和藥物等典型化合物以及其他烷烴、環(huán)烷烴、烯烴、醇、醚、酸、酯、酮、鹵代化合物、芳香族化合物、含硫、氮、磷化合物。以2∶1的比例將數(shù)據(jù)集隨機(jī)拆分成訓(xùn)練集(n= 436)和驗(yàn)證集(n= 217)。
將得到的化合物3D結(jié)構(gòu)使用Gaussian 09軟件包[47]中的B3LYP/6-311+G(d, p)方法進(jìn)行結(jié)構(gòu)優(yōu)化,其中I原子采用Lanl2DZ贗勢(shì)基組[48]?;趦?yōu)化后的分子結(jié)構(gòu)使用DRAGON (6.0)軟件[49]計(jì)算分子結(jié)構(gòu)描述符,去掉常數(shù)項(xiàng)、近常數(shù)項(xiàng)以及數(shù)據(jù)不完整的描述符,得到2291個(gè)描述符。
采用杠桿值(h)和標(biāo)準(zhǔn)殘差(δ)做Williams圖進(jìn)行模型應(yīng)用域表征。h和δ計(jì)算公式如下:
(3)
h*=3(k+1)/n
(4)
(5)
MLR法建立的logt1/2的QSAR模型為:
logt1/2= 0.96 + 0.064MLOGP2 -0.09Mor04u+ 0.037RDF045p-0.045CATS2D_07_ll-2.82(R1e+) + 0.206Mor16m-0.139NaaaC-1.64SpMaxA_B(s)-0.11ATS7s+ 1.36B06[N-P] -0.728nP04
模型評(píng)價(jià)參數(shù)表明,2個(gè)模型均具有良好的預(yù)測(cè)能力和穩(wěn)健性。對(duì)于MLR模型的外部驗(yàn)證也表明模型具有良好的外部預(yù)測(cè)能力。各描述符的VIF值均小于10,表明模型不存在多重共線性。描述符含義及VIF值見(jiàn)表1。MLR和SVM預(yù)測(cè)模型實(shí)驗(yàn)值和預(yù)測(cè)值擬合圖如圖1所示。
表1 logt1/2的QSAR模型中描述符意義、VIF值及t值Table 1 Explanation of descriptors, VIF and t values in the QSAR model of logt1/2
注:VIF值表示方差膨脹因子,t值表示t檢驗(yàn)值。
Note:VIFstands for variance inflation factor;tvalue stands fort-test value.
圖1 多元線性回歸(MLR)和支持向量機(jī)(SVM)模型中l(wèi)ogt1/2實(shí)測(cè)值和預(yù)測(cè)值擬合關(guān)系Fig. 1 Plots of the experimental versus predicted logt1/2 values by multiple linear regression (MLR) and support vector machine (SVM) models
2種建模方法表征應(yīng)用域的Willimas圖如圖2所示,MLR模型中,鄰苯二甲酸二異壬酯和多菌靈2種化合物為離群點(diǎn),來(lái)自驗(yàn)證集。SVM模型中有6個(gè)離群點(diǎn),包括訓(xùn)練集化合物三聚氰胺、異丙隆、六氯丁二烯、五氯苯甲醚、2-乙基己基乙烯醚和驗(yàn)證集化合物多菌靈。
2種建模方法中離群點(diǎn)化合物共7個(gè),其中2個(gè)醚類化合物,數(shù)據(jù)集中醚類化合物共有134個(gè),說(shuō)明本研究模型可以預(yù)測(cè)大部分含-C-O-C-結(jié)構(gòu)的化合物。除此之外,數(shù)據(jù)集中包含了10種鄰苯二甲酸酯類化合物,只有一種未被準(zhǔn)確預(yù)測(cè),說(shuō)明對(duì)大多數(shù)鄰苯二甲酸酯類化合物具有較好的預(yù)測(cè)效果。多菌靈可以與無(wú)機(jī)酸反應(yīng)生成鹽,本研究中多菌靈實(shí)驗(yàn)數(shù)據(jù)來(lái)自鱸魚(yú),其為有胃魚(yú),可以分泌鹽酸與多菌靈反應(yīng)生成鹽。同樣,三聚氰胺在生物體內(nèi)容易水解生成三聚氰酸等化合物,因此,參與體內(nèi)循環(huán)的化合物并非本體化合物,進(jìn)而導(dǎo)致其預(yù)測(cè)結(jié)果不準(zhǔn)確。
表1給出了模型中涉及的11個(gè)描述符意義、VIF值及t值。從表1中數(shù)據(jù)可以看出,MLOGP2的t值明顯大于其他描述符,說(shuō)明MLOGP2是該模型中十分重要的描述符,這與前人的研究結(jié)果一致[14]。MLOGP2和CATS2D_07_ll2種描述符與化合物的疏水性(親脂性)相關(guān),前者與logt1/2正相關(guān),后者為負(fù)相關(guān)。Mor04u和Mor16m為3D-MoRSE描述符[49],前者直接表征分子結(jié)構(gòu),與logt1/2負(fù)相關(guān),后者基于質(zhì)量表征分子結(jié)構(gòu),與logt1/2正相關(guān)。SpMaxA_B(s)是與分子原子連接有關(guān)的拓?fù)涿枋龇clogt1/2負(fù)相關(guān)。NaaaC表示::C:結(jié)構(gòu)的數(shù)量[6],指的是苯環(huán)對(duì)接處C原子個(gè)數(shù),與logt1/2負(fù)相關(guān)。R1e+與分子尺寸和電負(fù)性相關(guān),而ATS7s也與分子的尺寸有關(guān)。有研究表明,分子的體積大小對(duì)其在生物體內(nèi)的吸收分布具有顯著影響[50]。RDF045p與logt1/2正相關(guān),經(jīng)過(guò)統(tǒng)計(jì)分析,硅氧烷、環(huán)烷烴以及含有2個(gè)及以上苯環(huán)的長(zhǎng)鏈化合物的RDF045p值較大。B06[N-P]表示在拓?fù)渚嚯x6時(shí),是否存在N-P結(jié)構(gòu),存在值為1,不存在為0,與logt1/2正相關(guān)。nP04表示分子中磷酸鹽或者硫代磷酸鹽基團(tuán)的個(gè)數(shù),與logt1/2正相關(guān)。
圖2 MLR和SVM模型的Williams圖Fig. 2 Williams plots of the MLR and SVM models
在所有描述符中,共有75個(gè)化合物NaaaC值不為零,均來(lái)自蒽、菲、萘、芴和噻吩等多環(huán)芳烴類化合物及其類似物,多氯聯(lián)苯類化合物以及多溴聯(lián)苯醚。這些化合物往往有2個(gè)以上的苯環(huán)相連,該描述符的加入,更準(zhǔn)確地表達(dá)了這一結(jié)構(gòu)特征對(duì)t1/2的影響。
比較前人研究[6,14-15]和本研究2個(gè)模型的統(tǒng)計(jì)學(xué)參數(shù),結(jié)果匯總于表2,顯然非線性模型預(yù)測(cè)效果優(yōu)于線性模型。
與前人研究模型相比,本研究模型數(shù)據(jù)集增加了藥物類化合物,使模型預(yù)測(cè)范圍更廣泛。其次,在Arnot等[14]和Brown等[15]的研究中,存在14個(gè)預(yù)測(cè)效果不好的化合物,在Papa等[6]的研究中部分化合物的預(yù)測(cè)結(jié)果得到優(yōu)化。這些化合物包含在本研究模型的訓(xùn)練集和驗(yàn)證集中,表3給出了14種化合物的logt1/2實(shí)驗(yàn)值以及在此前各個(gè)模型中的預(yù)測(cè)最優(yōu)值,可以看出,除了2,3,4,5-四氯硝基苯和六氯苯,其余化合物的預(yù)測(cè)準(zhǔn)確度都有不同程度的提升,且SVM模型明顯優(yōu)于其他幾種線性模型。另外,本研究的數(shù)據(jù)集中共包含28個(gè)氟化物,此前的研究[6,14-15]對(duì)這些化合物很難準(zhǔn)確預(yù)測(cè),而在本研究中,MLR法建立的模型中14種氟化物|δ|<1,預(yù)測(cè)較為準(zhǔn)確,SVM法中21種氟化物也得到較準(zhǔn)確的預(yù)測(cè)。
表2 不同預(yù)測(cè)模型對(duì)比Table 2 Comparison of different models
注:M代表描述符個(gè)數(shù),N代表模型包含數(shù)據(jù)個(gè)數(shù);R2表示校正后決定系數(shù),RMSE表示均方根誤差;GA表示遺傳算法。
Note:Mrepresents the number of descriptors;Nrepresents the number of data in the model;R2represents the adjusted determination coefficient;RMSErepresents the root mean squared error; GA represents genetic algorithm.
表3 各模型對(duì)14種化合物的logt1/2預(yù)測(cè)值Table 3 Prediction of logt1/2 for 14 chemicals from different models
綜上所述,本研究運(yùn)用MLR和SVM這2種方法,基于Dragon分子描述符,構(gòu)建了魚(yú)體logt1/2值的QSAR預(yù)測(cè)模型,SVM模型具有更良好的預(yù)測(cè)能力和穩(wěn)健性。結(jié)果表明,以下幾種類型化合物不容易被生物體代謝,魚(yú)體內(nèi)生物半減期較長(zhǎng):分子體積大、親脂性高的化合物,硅氧烷、環(huán)烷烴、含有2個(gè)及以上不直接相連苯環(huán)的復(fù)雜長(zhǎng)鏈化合物以及含氮、磷的化合物。所構(gòu)建的模型可以預(yù)測(cè)多環(huán)芳烴、多氯聯(lián)苯、多溴聯(lián)苯、多溴聯(lián)苯醚、農(nóng)藥、藥物以及其他烷烴、環(huán)烷烴、烯烴、醇、醚、酸、酯、酮、鹵代化合物、芳香族化合物、含硫、氮、磷化合物等的魚(yú)體內(nèi)生物半減期。