朱騰義,陳 穎,程浩淼,孫 鳳,叢海兵
基于QSAR模型預(yù)測有機污染物在XAD與空氣中的分配系數(shù)
朱騰義,陳 穎,程浩淼,孫 鳳,叢海兵*
(揚州大學環(huán)境科學與工程學院,江蘇 揚州 225127)
基于定量構(gòu)效關(guān)系(QSAR),運用線性(逐步多元回歸MLR)和非線性(支持向量機SVM)兩種計算方法開發(fā)了兩種可靠且高效預(yù)測聚苯乙烯二乙烯基苯樹脂(XAD)和空氣之間分配系數(shù)(XAD-A)的模型.構(gòu)建模型的數(shù)據(jù)包含醇類(Alcohols),苯類(Benzenes),多氯聯(lián)苯(PCBs)和多環(huán)芳香烴(PAHs)等,共計70種有機污染物.兩個模型的決定系數(shù)2adj和外部驗證系數(shù)2ext均在0.930以上,同時所有物質(zhì)均在定義的應(yīng)用域內(nèi),結(jié)果表明兩種QSAR模型有較高的擬合度、穩(wěn)健性和較為優(yōu)秀的預(yù)測能力,且非線性(SVM)模型比線性(MLR)模型的擬合效果更好.
有機污染物;聚苯乙烯二乙烯基苯樹脂;分配系數(shù);定量構(gòu)效關(guān)系
大氣中有機污染物在食物鏈和遠距離運輸中存在生物蓄積問題,這會威脅人類和野生動物的健康[1-2].因此,精準測量有機污染物的濃度對于確定污染物的來源,準確地評估環(huán)境暴露程度具有相當重要的意義.被動采樣技術(shù)(PST)是一種通過被動吸附采集大氣中污染物的技術(shù),由于此技術(shù)具有連續(xù)采樣、成本低、不受周圍環(huán)境因素(時間、突發(fā)污染事件等)影響等特點,被廣泛用于測量有機污染物濃度的基礎(chǔ)工作中.同時,被動采樣技術(shù)作為一種原位累積采樣方法,為之后實現(xiàn)對氣體中痕量污染物的采集,從而更好地評估污染物的生物累積效應(yīng)[3-4],提供了良好的條件.
近年來,聚苯乙烯二乙烯基苯樹脂(XAD)膜以其化學惰性、寬孔徑分布和大比表面積的優(yōu)勢被廣泛運用為被動空氣采樣裝置(PAS)的吸附劑[5-6].空氣介質(zhì)中的有機污染物濃度可以通過XAD和空氣之間的分配系數(shù)(XAD-A)預(yù)測出來[7-8],分配系數(shù)是指污染物濃度在采樣器和空氣之間達到動態(tài)分配平衡的系數(shù).在大多數(shù)野外觀測研究中,由于不同的環(huán)境外部因素影響(例如:濕度、溫度、風速和蒸汽壓),在不同位置測得的XAD-A值會有很大差異[9-10].在實驗室測量分配系數(shù)通常耗時、費力且昂貴[11-13],同時由于新型化學物質(zhì)地不斷增長,這些物質(zhì)中有很大一部分無法通過實驗進行及時測量[14].準確測量XAD-A的值并非易事,建立一種潛在的、可靠的、有效的預(yù)測XAD-A值的方法具有重要意義.
定量構(gòu)效關(guān)系(QSAR)是指化合物分子結(jié)構(gòu)與其自身的理化性質(zhì)、在環(huán)境中遷移轉(zhuǎn)化行為和生態(tài)毒理學效應(yīng)之間的內(nèi)在聯(lián)系,以模型的形式表現(xiàn).通過分析、測量或計算化合物的特征參數(shù),即分子結(jié)構(gòu)描述符,建立起其分子結(jié)構(gòu)特征參數(shù)與其反應(yīng)活性之間的相關(guān)性數(shù)學模型,是一種在最低計算成本下構(gòu)建化學分子結(jié)構(gòu)與其物理化學性質(zhì)、環(huán)境行為參數(shù)和毒理學效應(yīng)之間關(guān)系的方法.目前,已有許多利用QSAR模型對空氣中有機污染物的環(huán)境行為和毒理性質(zhì)等進行研究的報道,例如CHAO等[15]運用QSAR模型對烷烴和芳烴在PDMS膜和空氣中的分配系數(shù)進行了預(yù)測.綜上,利用QSAR模型預(yù)測有機污染物的XAD與空氣中分配系數(shù)的研究方法,節(jié)省了大量實驗時間、人力和財力,可以為環(huán)境介質(zhì)中污染物的濃度提供參考,從而更方便地獲取數(shù)據(jù).
但是,現(xiàn)有的模型存在擬合度較低、泛化能力較差、物質(zhì)結(jié)構(gòu)單一、數(shù)據(jù)總量較少等問題.此外,在QSAR領(lǐng)域中,逐步多元回歸(MLR)是一種常規(guī)的線性回歸方式,但是MLR算法在某些條件下存在無法從數(shù)據(jù)中提取有用結(jié)構(gòu)信息的問題,這導(dǎo)致其運用范圍受到一定限制.另一方面,影響化合物分配過程的因素很復(fù)雜,并非所有因素都與對數(shù)XAD-A呈線性相關(guān),所以有必要引入非線性計算方法建模.而支持向量機(SVM)又是一種一個十分經(jīng)典的非線性算法,它具有準確率高、無需依賴整個數(shù)據(jù)、泛化能力比較強,以及可以為避免過擬合提供很好的理論保證等優(yōu)點.因此,本文以XAD為被動采樣器的吸附劑,收集了醇類(Alcohols),苯類(Benzenes),多氯聯(lián)苯(PCBs),多環(huán)芳香烴(PAHs)等12種不同類型的有機化合物,共計70個物質(zhì)的XAD-A實驗值,基于QSAR,選用了MLR以及SVM這兩種具有代表性的算法對實驗數(shù)據(jù)進行擬合,建立了預(yù)測分配系數(shù)的模型,并達到了比較令人滿意的效果.
通過查閱文獻[9,16],搜集了70個不同物質(zhì)的XAD-A實驗值,其中包括5種醇類,2種醛和酮,4種脂肪族和環(huán)烴,9種苯類,6種醚類,6種鹵代脂肪烴,3種單核芳烴,4種氮和硫化合物,11種PCBs,1種酚類化合物,8種PAHs和11種其他類型化合物.數(shù)據(jù)集中化合物的種類數(shù)量較為廣泛,所有數(shù)據(jù)均落在平均值()的標準偏差()的三倍之內(nèi),不包括嚴重誤差的異常值(圖1).因此,根據(jù)三個Sigma規(guī)則無需刪除數(shù)據(jù)[17],logXAD-A的數(shù)值在1.02到8.79之間,平均值為3.83.
此外,為了對建立的模型進行內(nèi)部驗證和外部預(yù)測,將數(shù)據(jù)集按照一定比例分為訓練集和測試集.采用Y排序法,將logXAD-A值按升序排列,5個數(shù)據(jù)分為一組.每組的第五個數(shù)據(jù)放入測試集,其余數(shù)據(jù)組成訓練集[18].建立模型后,用訓練集(占全部數(shù)據(jù)80%,即56個)建立模型并進行內(nèi)部驗證,測試集(占全部數(shù)據(jù)20%的,即14個)用來評價模型的外部預(yù)測能力.
圖1 實驗log KXAD-A數(shù)據(jù)集值的分布
在計算分子結(jié)構(gòu)描述符前,數(shù)據(jù)集中所有化合物都需要經(jīng)過ChemBio 3D Ultra 12.0軟件生成最初的分子結(jié)構(gòu);然后,利用軟件中Minimize Energy模塊將這些物質(zhì)進行最小能量化;接著,通過MOPAC 2016中Mopac Interface PM7[19]算法將之前最小能量化之后的分子結(jié)構(gòu)進行優(yōu)化計算;最后用PaDEL- Descriptor[20]軟件計算出各個化合物的分子結(jié)構(gòu)描述符.
利用SPSS20.0軟件對PaDEL-Descriptor軟件中計算出來的216個分子描述符進行逐步多元回歸線性(MLR)分析,在滿足顯著性水平<0.001和多重共線性VIF<10的條件下,選擇描述符數(shù)量最少,且2adj和2ext的最佳組合來建立性能最好的MLR預(yù)測模型.同時,利用逐步多元回歸得出的描述符通過支持向量機(SVM)的計算方法進行非線性回歸(通過R軟件)分析,用函數(shù)在限定核函數(shù)為高斯內(nèi)積函數(shù)(kernel="radial")的條件下進行g(shù)amma()和cost()最優(yōu)參數(shù)搜索,得到最優(yōu)SVM模型.
本研究通過兩種參數(shù)對最優(yōu)QSAR模型的擬合程度進行表征,分別為經(jīng)自由度調(diào)整后的決定系數(shù)(2adj)和均方根誤差(RMSE),利用去一法交叉驗證系數(shù)(2LOO)以及自舉法交叉驗證系數(shù)(2BOOT)對模型的穩(wěn)健性表征[21],模型的預(yù)測能力由驗證集決定系數(shù)(2ext)和外部驗證系數(shù)(2ext)表征.其中,部分參數(shù)的計算公式如下:
模型的應(yīng)用域由Williams圖進行表征,標準殘差()和杠桿值()確定了適用化合物的范圍,所運用到的計算公式如下:
逐步多元線性(MLR)法建立的logXAD-A的QSAR模型為:
MLR模型的最優(yōu)表達式為:
logXAD-A= 0.101HDz()+ 1.528WiA_D/Dt-0.098
tra=56,2adj=0.931,2LOO=0.926,2BOOT=0.930,
RMSEtra=0.598,<0.001;ext=14,2ext=0.938,
2ext=0.935, RMSEext=0.618.
支持向量機(SVM)法得到的非線性模型中:= 10,10.249 (圖2).相應(yīng)的統(tǒng)計學參數(shù):tra=56,2adj=0.977,2LOO=0.949,2BOOT= 0.971, RMSEtra= 0.349;ext=14,2ext=0.938,2ext=0.968, RMSEext= 0.435.
圖2 支持向量機模型的最優(yōu)cost和gamma等值線
圖3 log KXAD-A實測值和預(yù)測值的擬合關(guān)系(MLR)
模型評價參數(shù)表明,兩個模型均具有良好的預(yù)測能力和穩(wěn)健性.通過外部驗證表明模型具有良好的預(yù)測能力.2和2差值小于0.3,表明相關(guān)關(guān)系顯著,沒有過擬合的現(xiàn)象.對于MLR模型,VIF均小于10,說明模型的不存在多重共線性.描述符詳細的含義及、VIF值等見表1.MLR和SVM預(yù)測模型實驗值和預(yù)測值擬合效果如表2和圖3、圖4所示.
圖4 log KXAD-A實測值和預(yù)測值的擬合關(guān)系(SVM)
在OECD關(guān)于QSAR模型構(gòu)建和驗證的準則中[22],明確了需要對建立的模型進行應(yīng)用域表征,因為對于已證實具有穩(wěn)健性和有效性的模型,也不能夠?qū)λ械挠袡C污染物做出準確的預(yù)測,所以需要給出模型所能應(yīng)用的范圍.應(yīng)用域區(qū)間是指標準殘差||£3,且杠桿值小于警戒值*的有機物的集合域.
兩種建模方法表征應(yīng)用域的Williams圖如圖5,圖6所示,兩種方法中所有有機物均在集合域(||£3且*<0.161)內(nèi),說明模型中沒有離群點.因此這兩種建模的方法能夠預(yù)測應(yīng)用域內(nèi)其他類型的有機污染物的logXAD-A值.
圖5 QSAR模型的Williams圖(MLR)
圖6 QSAR模型的Williams圖(SVM)
表1 QSAR模型涉及的t檢驗(t)、統(tǒng)計顯著性(P)、方差膨脹因子(VIF)值和平均效應(yīng)(MF)值
表2 有機污染物的log KXAD-A值
在MLR模型中,描述符H_Dz()對模型的貢獻性最大,其MF值為0.735.H_Dz()是極化率加權(quán)Barysz矩陣的類Harary指數(shù),與極化率相關(guān).同時,極化率值與化合物的疏水性和活性有關(guān).與空氣相比,大分子往往處于較低的極性階段,且對于具有大極化率的化學物質(zhì),與XAD的相互作用更強.因此,隨著H_Dz()值的增加,化合物的logXAD-A值將會跟著增加.
模型中被篩選出來的另一個描述符WiA_D/Dt,其值為0.265,可以看出此描述符對模型的貢獻性較小.它表示距離或者繞行矩陣的平均類維納指數(shù),屬于基于二維矩陣的描述符.WiA_D/Dt也是分子環(huán)度的一個指標,在同樣大小的圖中,WiA_D/Dt隨環(huán)度的增加而有規(guī)律地變化[23].因此,環(huán)度小(WiA_D/Dt的值小)的物質(zhì)更容易被膜吸附.同時,該描述符的系數(shù)為正,可以看出WiA_D/Dt對有機污染物在XAD與空氣中的分配系數(shù)成正相關(guān)的關(guān)系.
在預(yù)測XAD與空氣中的分配系數(shù)方面,目前的研究比較少.Poole等[24]以及Hayward等[16]利用多參數(shù)線性自由能關(guān)系(pp-LFER)模型間接地分別構(gòu)建了4種描述符(,,,)以及三種描述符(,,)與XAD-A的等式,雖然2與本文相當,但是在物質(zhì)數(shù)量方面,本研究較多且涵蓋的物質(zhì)更為廣泛.在利用QSAR預(yù)測吸附膜與空氣中分配系數(shù)的研究方面,現(xiàn)有的模型在性能和適用性方面存在一些問題, CHAO等[15]對26種烷烴進行PDMS和空氣間分配系數(shù)的預(yù)測,其2adj為0.632,未能達到OECD準則[22]中0.7的要求;Parnis等[25]對PUF和空氣間的分配系數(shù)進行預(yù)測,雖然其2adj達到0.807,但此預(yù)測只針對12種PAHs,模型存在物質(zhì)結(jié)構(gòu)單一、數(shù)據(jù)總量較少等問題.本文針對12種不同類型的有機污染物,基于定量構(gòu)效關(guān)系,在常規(guī)使用的線性模型基礎(chǔ)上,探索使用了非線性模型,其中非線性模型(2adj=0.977,2LOO=0.949,2BOOT= 0.971)在擬合度和穩(wěn)健性方面都優(yōu)于線性模型(2adj=0.931,2LOO=0.926,2BOOT= 0.930).
3.1 采用定量結(jié)構(gòu)活性關(guān)系,構(gòu)建了70種有機污染物在XAD與空氣中分配系數(shù)的QSAR預(yù)測模型,建立了兩種穩(wěn)健性良好,擬合度高且預(yù)測能力強的模型.
3.2 H_Dz()與WiA_D/Dt這兩種描述符與logXAD-A之間存在著很強的聯(lián)系,具有大極化率、小分子環(huán)度的化學物質(zhì)更容易被XAD膜吸附.
3.3 兩種模型的2和2均超過標準值,且所有化合物都在給出的應(yīng)用域范圍內(nèi),即標準殘差||£3,有機物的平均值小于警戒值=0.161,但用SVM方法所建立的模型(2adj=0.977)比用MLR方法建立的模型(2adj=0.931)更加優(yōu)異.
[1] 劉明洋,李會茹,宋愛民,等.環(huán)境和人體中氯代/溴代多環(huán)芳烴的研究進展——污染來源、分析方法和污染特征 [J]. 中國環(huán)境科學, 2021,41(4):1842-1855.
Liu M Y, Li H R, Song A M, et al. A review of chlorinated/brominated polycylic aromatic hydrocarbons in the environment and human: Surces, analysis methods and polution characteristics [J]. China Environmental Science, 2021,41(4):1842-1855.
[2] Hung H, Macleod M, Guardans R, et al. Toward the next generation of air quality monitoring: Persistent organic pollutants [J]. Atmospheric environment, 2013,80(dec.):591-598.
[3] Weert J D, Smedes F, Beeltje H, et al. Time integrative sampling properties of Speedisk and silicone rubber passive samplers determined by chemical analysis and in vitro bioassay testing [J]. Chemosphere, 2020,259:127498.
[4] Taylor V F, Buckman K L, Burgess R M. Preliminary investigation of polymer-based in situ passive samplers for mercury and methylmercury [J]. Chemosphere, 2019,234(Nov.):806-814.
[5] Hearn J, Smelt P L, Wilkinson M C. Porosity in macroreticular resins [J]. Journal of Colloid & Interface Science, 1989,133(1):284-287.
[6] Okeme J O, Saini A, Yang C, et al. Calibration of polydimethylsiloxane and XAD-Pocket passive air samplers (PAS) for measuring gas-and particle-phase SVOCs [J]. Atmospheric Environment, 2016,143:202-208.
[7] Bartkow M, Booij K, Kennedy K, et al. Passive air sampling theory for semivolatile organic compounds [J]. Chemosphere, 2005,60(2): 170-176.
[8] Wania F, Shen L, Lei Y D, et al. Development and calibration of a resin-based passive sampling system for monitoring persistent organic pollutants in the atmosphere [J]. Environ.sci.technol, 2003,37(7): 1352-1359.
[9] Armitage J M, Hayward S J, Wania F. Modeling the uptake of neutral organic chemicals on XAD passive air samplers under variable temperatures, external wind speeds and ambient air concentrations (PAS-SIM) [J]. Environmental Science & Technology, 2013,47(23): 13546-13554.
[10] Kamprad I, Goss K U. Systematic investigation of the sorption properties of polyurethane foams for organic vapors [J]. Analytical Chemistry, 2007,79(11):6891.
[11] Chen D, Wang Q, Li Y, et al. A general linear free energy relationship for predicting partition coefficients of neutral organic compounds [J]. Chemosphere, 2020,247:125869.
[12] Endo S, Hale S E, Goss K U, et al. Equilibrium partition coefficients of diverse polar and nonpolar organic compounds to polyoxymethylene (POM) passive sampling devices [J]. Environmental Science & Technology, 2011,45(23):10124-10132.
[13] None. Response to comment on "assessment of PDMS-water partition coefficients: Implications for passive environmental sampling of hydrophobic Organic Compounds"[J]. Environ.sci. Technol., 2010,44 (22):8789-8789.
[14] Arp H, Endo S, Goss K U. Assessment of PDMS-water partition coefficients: implications for passive environmental sampling of hydrophobic organic compounds. [J]. Environmental Science & Technology, 2010,44(22):8787.
[15] Chao K P, Wang V S, Liu C W, et al. QSAR studies on partition coefficients of organic compounds for polydimethylsiloxane of solid-phase microextraction devices [J]. International Journal of Environmental Science and Technology, 2018,15:2141-2150.
[16] Hayward S J, Lei Y D, Wania F. Sorption of a diverse set of organic chemical vapors onto XAD-2resin: Measurement, prediction and implications for air sampling [J]. Atmospheric Environment, 2011, 45(2):296-302.
[17] Abudour A M, Mohammad S A, Robinson R L,et al. Generalized binary interaction parameters for the Peng–Robinson equation of state [J]. Fluid Phase Equilibria, 2014,383:156-173.
[18] Fatemi M H, Dorostkar F. QSAR prediction of D2receptor antagonistic activity of 6-methoxy benzamides [J]. European Journal of Medicinal Chemistry, 2010,45(11):4856-4862.
[19] Changho J, Keum H. Prediction of radical scavenging activities of anthocyanins applying adaptive neuro-fuzzy inference system (ANFIS) with quantum chemical descriptors [J]. International Journal of Molecular Sciences, 2014,15(8):14715.
[20] Yap C W. PaDEL-descriptor: an open source software to calculate molecular descriptors and fingerprints [J]. Journal of Computational Chemistry, 2011,32(7):1466-1474.
[21] Qin H, Chen J, Wang Y, Wang B, et al. Development and assessment of quantitative structure-activity relationship models for bioconcentration factors of organic pollutants [J]. Chinese Science Bulletin, 2009, 54(4):628-634.
[22] 陳 憲.基于OECD準則對QSAR/QSPR模型幾個重要問題的研究[D]. 長沙:中南大學, 2013.
Chen X. Studies on a few key problems of QSAR/QSPR modeling based on the OECD principles [D]. Changsha: Central South University, 2013.
[23] Yu X, Wang Y, Yang H, et al. Prediction of the binding affinity of aptamers against the influenza virus [J]. SAR and QSAR in Environmental Research, 2019,30(1):51.
[24] Poole S K, Poole C F. Sorption properties of styrene–divinylbenzene macroreticular porous polymers [J]. Analytical Communications, 1996,33(10):353-356.
[25] Parnis J M, Eng A, D Mackay, et al. Characterizing PUF disk passive air samplers for alkyl-substituted PAHs: Measured and modelled PUF-AIR partition coefficients with COSMO-RS [J]. Chemosphere, 2016,145(FEB.):360-364.
Prediction of organic pollutions partition coefficients between XAD and air based on QSAR models.
ZHU Teng-yi,CHEN Ying, CHENG Hao-miao, SUN Feng, CONG Hai-bing*
(College of Environmental Science and Engineering, Yangzhou University, Yangzhou 225127, China)., 2022,42(5):2269~2274
Based on quantitative structure-activity relationship (QSAR), two reliable and efficient models for predicting partition coefficients between polystyrene-divinylbenzene resin (XAD) and air (XAD-A) were developed by using linear (stepwise multiple regression, MLR) and nonlinear (support vector machine, SVM) methods. The data included alcohols, benzenes, polychlorinated biphenyls (PCBs), polycyclic aromatic hydrocarbons (PAHs), and a total of 70 organic pollutants. The determination coefficient (2adj) and external validation coefficient (2ext) of the two models are all above 0.930, and substances are all in the defined application domain. The QSAR models both have good robustness and excellent prediction ability. Moreover, the fitting effect of nonlinear (SVM) model is better than linear (MLR) model.
organic pollutants;polystyrene-divinylbenzene resin (XAD);partition coefficients;quantitative structure-activity relationship (QSAR)
X171.5
A 文章標號:1000-6923(2022)05-2269-06
朱騰義(1984-),男,山東東營人,副教授,博士,主要從事環(huán)境污染化學方面研究.發(fā)表論文20余篇.
2021-10-07
國家自然科學基金資助項目(42077331);江蘇省研究生科研與實踐創(chuàng)新計劃項目(SJCX21_1587)
* 責任作者, 教授, hbcong@yzu.edu.cn