于海英,李美萍,郝俊生
1. 山西大學(xué)化學(xué)化工學(xué)院,太原 030006 2. 山西大學(xué)生命科學(xué)學(xué)院,太原 030006
多氯代二苯并呋喃(polychlorinated dibenzofurans, PCDFs)屬二惡英(PCDD/Fs)類化合物,是一種典型的持久性有機(jī)污染物(POPs),也是首批列入《斯德哥爾摩公約》的12種POPs之一,具有較強(qiáng)的穩(wěn)定性,在自然條件下很難發(fā)生生物和化學(xué)降解,光降解是其在環(huán)境中轉(zhuǎn)化的主要途徑[1-5]。植物表面光解過(guò)程對(duì)于有機(jī)污染物從大氣到食物鏈的遷移有重要的影響。PCDD/Fs在植物表面上的光解主要發(fā)生在植物葉面角質(zhì)層中,其中,光解半衰期(t1/2)對(duì)于考察此類污染物的環(huán)境行為并進(jìn)行環(huán)境風(fēng)險(xiǎn)評(píng)價(jià)有重要的意義。由于氯原子的取代數(shù)目和取代位置的不同,PCDFs共有135種分子結(jié)構(gòu)。實(shí)驗(yàn)測(cè)定PCDD/Fs的光解半衰期需要特殊設(shè)備,消耗大量的時(shí)間和財(cái)力,因此,發(fā)展PCDD/Fs光解行為的定量結(jié)構(gòu)-性質(zhì)關(guān)系模型十分必要。研究表明,定量結(jié)構(gòu)-性質(zhì)關(guān)系(quantitative structure-property relationship, QSPR)[6-9]在預(yù)測(cè)化合物生物性質(zhì)方面已成為化學(xué)、環(huán)境等學(xué)科的一個(gè)重要方法。Chen等[10-11]采用量子化學(xué)參數(shù)分別對(duì)PCDD/Fs在水和乙腈中的光量子產(chǎn)率以及櫻桃樹葉表面的光降解速率進(jìn)行了QSPR研究;王蕾等[12]采用電性拓?fù)渲笖?shù)對(duì)PCDFs在云杉針葉和飛灰表面的光解半衰期進(jìn)行了QSPR模擬分析;Niu等[3-4,13]和牛軍峰等[14]先后采用量子化學(xué)參數(shù)應(yīng)用遺傳算法對(duì)PCDD/Fs在云杉針葉和飛灰表面的光降解行為進(jìn)行了QSPR研究,趙繼穎等[15]采用分子空間坐標(biāo)參數(shù)對(duì)PCDFs在云杉針葉和飛灰表面的光降解行為進(jìn)行了QSPR研究,這些分析結(jié)果都從不同方面揭示了影響PCDFs光解速率的因素,但存在有些參數(shù)較抽象或者所建模型用的參數(shù)較多,本文在課題組前期研究的基礎(chǔ)上[16],以具有明確物理-化學(xué)意義的分子電性距離矢量(MEDV)描述子[17]為自變量,應(yīng)用多層感知器神經(jīng)網(wǎng)絡(luò)(MLP-ANN)和支持向量機(jī)(SVM)建模方法對(duì)PCDFs在云杉針葉和飛灰表面的光解半衰期(t1/2)進(jìn)行定量構(gòu)效關(guān)系分析,建立了具有較強(qiáng)預(yù)測(cè)能力和穩(wěn)定性的QSPR模型,有助于對(duì)PCDD/Fs光解機(jī)理的研究。
2,3,7,8-PCDF的結(jié)構(gòu)如圖1所示,當(dāng)氯在不同的取代位置時(shí),就得到不同的PCDFs。云杉針葉表面和飛灰表面的48個(gè)PCDF的光解半衰期值取自文獻(xiàn)[16],在此用光解半衰期的對(duì)數(shù)值(lgt1/2)進(jìn)行QSPR建模分析。
圖1 2,3,7,8-PCDF結(jié)構(gòu)圖Fig. 1 The generic structure of 2,3,7,8-PCDF
48個(gè)PCDF的10個(gè)MEDV描述子按文獻(xiàn)[17]計(jì)算,其原理已有詳細(xì)介紹,在此不再贅述。由于PCDFs分子中不含有第四類型的原子,所以M14、M24、M34和M44均為零向量,剩余向量依次為M11、M12、M13、M22、M23和M33,48個(gè)PCDF的MEDV描述子及其光解半衰期(lgt1/2)詳見(jiàn)文獻(xiàn)[1]。
為深入研究PCDFs的6個(gè)MEDV與光解半衰期的QSPR隱含關(guān)系,使用MLP-ANN和SVM建立模型。
基于MEDV計(jì)算方法和高維非線性模型人工神經(jīng)網(wǎng)絡(luò)(ANN)和SVM,提出一種基于MEDV的QSPR預(yù)測(cè)模型用于描述分析PCDFs的6個(gè)MEDV與光解半衰期的QSPR的高維非線性關(guān)系,具體步驟如下。
輸出:yi(i=43,…,47)的估計(jì)結(jié)果f(xi)。
第二步:依據(jù)平均絕對(duì)誤差(MAE)最小的原則分別最優(yōu)化模型y1=f1(x)和y2=f2(x)中的參數(shù)。
第三步:將測(cè)試集輸入向量xi(i=43,…,47)輸入以上訓(xùn)練好的模型y1=f1(x)和y2=f2(x),得到QSPR的預(yù)測(cè)結(jié)果f(xi)(i=43,…,47)。
ANN及SVM模型的具體構(gòu)建過(guò)程為:
(1) MLP-ANN
ANN是一種通過(guò)模擬生物神經(jīng)信號(hào)處理系統(tǒng)發(fā)展起來(lái)的機(jī)器學(xué)習(xí)方法,廣泛用于模式識(shí)別、函數(shù)擬合、過(guò)程控制和圖形映射等領(lǐng)域。多層感知器(MLP)是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),映射一組輸入向量到另一組輸出向量。MLP可以被看做是一個(gè)有向圖,由多個(gè)節(jié)點(diǎn)層組成,每一層全連接到下一層。除了輸入節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都是一個(gè)帶有非線性激活函數(shù)的神經(jīng)元(或稱處理單元)。MLP已被證明是一種通用的函數(shù)近似方法,可以被用來(lái)擬合復(fù)雜的函數(shù),或解決分類問(wèn)題[18-21]。該建模過(guò)程的技術(shù)框架如圖2所示,主要用Weka完成。
(2) SVM
SVM是一種以VC維(Vapnik-Chervonenkis dimension)理論、SRM(structural risk minimization)準(zhǔn)則為基礎(chǔ)建立的機(jī)器學(xué)習(xí)方法。主要用途是按監(jiān)督學(xué)習(xí)對(duì)樣本進(jìn)行分類,適用于非線性、小樣本和高維度等問(wèn)題,可以有效避免“過(guò)度協(xié)調(diào)”。同時(shí),與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,該方法具有較強(qiáng)的魯棒性,特別適合分類、時(shí)間序列預(yù)測(cè)等[22-23]。
在支持向量回歸(support vector regression, SVR)中,學(xué)習(xí)機(jī)(learning machine)將處于低維空間的數(shù)據(jù)投射到高維特征空間,然后,在高維特征空間里,超平面(包含松弛變量)可以在訓(xùn)練數(shù)據(jù)和輸出數(shù)據(jù)之間形成非線性關(guān)系,稱為SVR函數(shù),也可以表示為凸優(yōu)化問(wèn)題:
(1)
(2)
式中:b表示超平面截距。
本文分別用線性Linear、多項(xiàng)式poly、徑向基RBF、sigmoid核函數(shù)進(jìn)行SVM建模,發(fā)現(xiàn)poly核函數(shù)建模結(jié)果較優(yōu)。
圖2 Weka建模Fig. 2 Weka modeling
為尋找影響PCDFs對(duì)光解半衰期與各參數(shù)之間的QSPR關(guān)系,將全部樣本分為2個(gè)組,云杉針葉表面37個(gè)樣本作訓(xùn)練集(training set),飛灰表面42個(gè)樣本作訓(xùn)練集,兩者均選取5個(gè)相同的樣本作為測(cè)試集(test set),且測(cè)試集選取方法相同,即在全部樣本的每種取代物中隨機(jī)選取一個(gè)樣本作為測(cè)試集,選取方法同文獻(xiàn)[1]。訓(xùn)練集樣本用于建立QSPR模型,測(cè)試集樣本用于檢驗(yàn)QSPR模型的預(yù)測(cè)能力。它們的建模結(jié)果如下。
MLP-ANN模型對(duì)訓(xùn)練集樣本擬合結(jié)果及對(duì)測(cè)試集樣本預(yù)測(cè)值的相關(guān)統(tǒng)計(jì)參數(shù)如表1和圖3所示。
圖3 多層感知器神經(jīng)網(wǎng)絡(luò)(MLP-ANN)模型中PCDFs在云杉針葉(a)和飛灰(b)表面光解半衰期預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性Fig. 3 Correlation between predicted value and experimental value of PCDFs photolysis half-life on the surface of spruce needles (a) and fly ash (b) by multi-layer perceptron-artificial neural network (MLP-ANN)
由圖3和表1可知,用MLP-ANN方法分別對(duì)PCDFs訓(xùn)練集和測(cè)試集進(jìn)行擬合,得到光解半衰期的MAE分別為0.0290、0.0994(云杉針葉)和0.0387、0.0464(飛灰表面),其均方根誤差(RMSE)分別為0.0381、0.1199(云杉針葉)和0.0464、0.0518(飛灰表面),由此說(shuō)明,MLP-ANN模型優(yōu)于文獻(xiàn)[15-16]的線性模型,這可能是由于MLP-ANN模型所選描述子基本與PCDFs光解半衰期呈非線性關(guān)系,MLP-ANN法使其擬合精度進(jìn)一步提高。
SVM模型對(duì)訓(xùn)練集樣本擬合結(jié)果及對(duì)測(cè)試集樣本預(yù)測(cè)值的相關(guān)統(tǒng)計(jì)參數(shù)如表1和圖4所示。
圖4 支持向量機(jī)(SVM)模型中PCDFs在云杉針葉(a)和飛灰(b)表面光解半衰期預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性Fig. 4 Correlation between predicted value and experimental value of PCDFs photolysis half-life on the surface of spruce needles and fly ash by support vector machine (SVM)
表1 本工作與文獻(xiàn)的比較Table 1 Comparison between this work andsome literature
由圖4和表1可知,用SVM方法分別對(duì)PCDFs訓(xùn)練集和測(cè)試集進(jìn)行擬合,得到光解半衰期的MAE分別為0.0329、0.0794(云杉針葉)和0.0400、0.0531(飛灰表面),RMSE分別為0.0444、0.0954(云杉針葉)和0.0395、0.0507(飛灰表面),SVM模型優(yōu)于文獻(xiàn)[15-16]的線性模型,原因可能是SVM模型所選描述子MEDV基本與PCDFs光解半衰期呈非線性關(guān)系,且SVM建模方法更適合其相關(guān)性。
采用MAE、RMSE和決定系數(shù)(R2),以留一法交互檢驗(yàn)相關(guān)系數(shù)(RLOO)以及外部樣本相關(guān)系數(shù)(Qext)對(duì)各模型的預(yù)測(cè)精度進(jìn)行了評(píng)價(jià),其相應(yīng)的計(jì)算公式如式(3)、(4)、(5)和(6)所示。
(3)
(4)
(5)
(6)
MAE和RMSE值越低,表示模型的預(yù)測(cè)誤差越小,預(yù)測(cè)結(jié)果越優(yōu)。R2的值表示所解釋的ESS在TSS中的比例,該值介于0和1之間。R2的值越大,則擬合效果越好,R2同時(shí)也可作為回歸方程擬合優(yōu)度的度量指標(biāo)。以交互檢驗(yàn)的R2為標(biāo)準(zhǔn)判斷所建模型的穩(wěn)定性和內(nèi)部預(yù)測(cè)能力,Qext評(píng)價(jià)模型對(duì)外部樣本的預(yù)測(cè)能力,RLOO和Qext越接近,表明所建模型的預(yù)測(cè)結(jié)果好,亦即說(shuō)明該模型并非是偶然相關(guān)得到的,進(jìn)一步說(shuō)明所建模型的泛化能力較好。
本研究與文獻(xiàn)比較,評(píng)價(jià)指標(biāo)更為全面。與文獻(xiàn)[16]相比可以看出,同樣使用MEDV描述子,本文采用非線性方法建立的模型更加穩(wěn)定,外部預(yù)測(cè)能力也優(yōu)于文獻(xiàn)。與文獻(xiàn)[15]相比,所用描述子數(shù)量少,建模結(jié)果和文獻(xiàn)相當(dāng)。文獻(xiàn)[12]和[14]中,雖建模相關(guān)系數(shù)優(yōu)于本工作,但未將模型進(jìn)行外部檢驗(yàn)。為便于理解,表1列出了本文與文獻(xiàn)模型的比較。
綜上所述,對(duì)PCDFs類化合物采用非線性方法建立其光解半衰期的QSPR模型,所建模型穩(wěn)健且預(yù)測(cè)能力強(qiáng)。與線性方法相比,本文采用的非線性方法擬合精度更好,適合處理復(fù)雜的非線性問(wèn)題。但若要提供PCDFs類化合物對(duì)光解半衰期的影響因素及其機(jī)理,筆者認(rèn)為線性模型是較好的選擇。同時(shí),MEDV不僅能反映分子的大小、形狀等整體,蘊(yùn)含有化合物豐富的結(jié)構(gòu)信息,能很好地區(qū)分化合物的結(jié)構(gòu),同時(shí)其計(jì)算簡(jiǎn)單,取值完全來(lái)自分子本身的結(jié)構(gòu),不需要加入任何經(jīng)驗(yàn)性的性質(zhì)參數(shù)或校正參數(shù),較為客觀。同時(shí),大量文獻(xiàn)也表明,MEDV能用于多種化合物結(jié)構(gòu)參數(shù)的表征。運(yùn)用QSPR方法為環(huán)境中POPs光降解行為的研究提供了一種便捷的評(píng)價(jià)方法。后期可以考慮將本文的非線性方法應(yīng)用于其他類型化合物的環(huán)境中分配行為與其結(jié)構(gòu)之間的關(guān)系分析。
◆