廖立敏
內(nèi)江師范學(xué)院化學(xué)化工學(xué)院,內(nèi)江 641100
苯酚類化合物是重要的精細(xì)化學(xué)品或中間體,在農(nóng)藥、醫(yī)藥、炸藥和染料等方面有廣泛應(yīng)用。苯酚類化合物大多具有毒性,個別還具有較強(qiáng)的致癌作用。隨著現(xiàn)代工農(nóng)業(yè)的發(fā)展,越來越多的苯酚類化合物隨著廢水排放到環(huán)境中,給動植物造成嚴(yán)重的危害。因此,全面評估苯酚類化合物的毒性,對于規(guī)范其生產(chǎn)、管理、使用和排放具有重要的意義。定量構(gòu)效關(guān)系(QSAR)利用計算機(jī)模擬預(yù)測有機(jī)污染物性質(zhì)參數(shù),簡便、省時、節(jié)約實(shí)驗(yàn)資源且降低費(fèi)用,在全面獲取有機(jī)污染物各種參數(shù)方面顯示出了明顯的優(yōu)勢[1-4]。QSAR研究中,化合物結(jié)構(gòu)參數(shù)化是關(guān)鍵步驟之一,目前應(yīng)用廣泛的主要有二維結(jié)構(gòu)表征法[5-6]和三維結(jié)構(gòu)表征法[7-8]。二維結(jié)構(gòu)表征法的優(yōu)勢是計算簡單、快速,但無法分辨順反異構(gòu)、光學(xué)異構(gòu)等現(xiàn)象;三維結(jié)構(gòu)表征法的優(yōu)勢是基于化合物三維立體結(jié)構(gòu)計算,對各種異構(gòu)體能很好地區(qū)分,但計算量大、復(fù)雜難懂。本文基于化合物分子二維結(jié)構(gòu)構(gòu)建一種簡易的結(jié)構(gòu)描述符對化合物結(jié)構(gòu)參數(shù)化表達(dá),通過多元線性回歸(MLR)和偏最小二乘回歸(PLS)進(jìn)行建模,分析影響化合物毒性的結(jié)構(gòu)因素,為苯酚類化合物結(jié)構(gòu)-性質(zhì)研究提供參考。
以25個取代苯酚類化合物為研究樣本,化合物毒性以其誘發(fā)浮萍萎黃的活性值的負(fù)對數(shù)(pC)表示,其實(shí)驗(yàn)值取自文獻(xiàn)[9],結(jié)果如表1所示。pC值越大表示化合物對浮萍的毒性越強(qiáng),反之越弱。
表1 化合物及其毒性活性值的負(fù)對數(shù)(pC)Table 1 Compounds and their negative logarithm of toxic activity (pC)
化合物結(jié)構(gòu)參數(shù)化是建立化合物結(jié)構(gòu)與毒性關(guān)系模型的關(guān)鍵一環(huán),認(rèn)為化合物中的非氫原子及非氫原子之間的關(guān)系對化合物的生物毒性有影響,而氫原子僅僅影響與其直接相連的非氫原子的取值。非氫原子的取值除與其直接相連的氫原子有關(guān)外,還與非氫原子自身的電子結(jié)構(gòu)相關(guān),首先在參考文獻(xiàn)[10-11]的基礎(chǔ)上,利用式(1)對化合物中的非氫原子進(jìn)行賦值。
Zi=[(ni-hi)/(mi-ni-1)]1/2
(1)
式中:i為原子在分子中的編碼,ni為非氫原子i的價電子數(shù),mi為原子核外電子總數(shù),hi為與其直接連接的氫原子數(shù)。
不同類型的非氫原子對化合物的毒性值影響不盡相同,而相同類型的非氫原子對化合物的毒性值影響具有加和性,因而需要將化合物中的非氫原子進(jìn)行分類。參閱文獻(xiàn)[12-14]方法將化合物中的非氫原子分為4類,與k(≤4)個非氫原子直接相連的非氫原子為第k類非氫原子,如與2個非氫原子直接相連的仲碳原子為第2類非氫原子,以此類推。不同類型的非氫原子自身對化合物生物毒性的影響按式(2)進(jìn)行累加。
(2)
式中:k表示非氫原子i的原子類型,Zi按式(1)計算。根據(jù)非氫原子的分類,對于一個有機(jī)化合物分子中最多含有4類非氫原子,因此最終可得到4個非氫原子自身對化合物生物毒性的影響項(xiàng),用x1、x2、x3和x4表示。
不同類型的非氫原子的關(guān)系對化合物的生物毒性的影響可能不同,相同類型的非氫原子之間的關(guān)系對化合物毒性的影響具有加和性。非氫原子之間的關(guān)系并非某種具體的相互作用,這種關(guān)系隨著非氫原子之間的距離的增加而減弱,隨著非氫原子的某種性質(zhì)的增加而加強(qiáng),式(3)可以滿足這一要求。
(3)
式中:Z按式(1)計算;dij為非氫原子i、j之間的相對距離(即鍵長之和與碳碳單鍵鍵長的比值,如果i、j之間有多條路徑,則以最短的為準(zhǔn));n和l為原子所屬類型,α=0.5。4類非氫原子之間可以有10種不同的組合,即m11、m12、…、m44,簡寫為x5、x6、…、x14,m13表示第1類非氫原子與第3類非氫原子之間的關(guān)系,以此類推。這樣一來,對于一個化合物經(jīng)參數(shù)化表達(dá)后最多可得14個變量(結(jié)構(gòu)描述符),暫將其稱為化合物非氫原子及其關(guān)系(non-hydrogen atoms and their relationship, NATR)。
運(yùn)用多元線性回歸(MLR)及偏最小二乘回歸(PLS)進(jìn)行建模,“留一法”對模型進(jìn)行交互檢驗(yàn)。
將化合物進(jìn)行結(jié)構(gòu)參數(shù)化表征后得到14個變量,但由于研究樣本中不具有第4類非氫原子,因而與第4類非氫原子相關(guān)的x4、x8、x11、x13、x14這5個變量全為“0”,其余9個非全“0”變量用于建模分析。
變量數(shù)達(dá)到9個,而樣本數(shù)僅有25個,在建模之前有必要對變量進(jìn)行篩選。剔除與化合物生物毒性相關(guān)性不大的變量,尋找最佳變量組合進(jìn)行建模。運(yùn)用逐步回歸對變量進(jìn)行篩選,依據(jù)變量的顯著性大小依次將變量引入模型。逐步回歸中建模相關(guān)系數(shù)(r)及標(biāo)準(zhǔn)偏差(SD)的變化情況如圖1和圖2所示。
由圖1可知,建模的r隨著變量的引入逐漸變大,起初增大的趨勢非常明顯,當(dāng)變量數(shù)達(dá)到3個時,建模的r接近最大值,此后r略有增大,但增大趨勢不明顯。同樣,由圖2可知,SD隨著變量的引入逐漸變小,起初變小的趨勢非常明顯,當(dāng)變量數(shù)達(dá)到3個時,SD接近最小值,此后SD略減小,但減小趨勢不明顯。綜上,應(yīng)該選擇3個變量進(jìn)行建模,此時符合樣本數(shù)(N)/變量數(shù)(n)≥5的經(jīng)驗(yàn)規(guī)則,三變量模型如式(4)計算。
圖1 相關(guān)系數(shù)(r)在逐步回歸中的變化情況Fig. 1 Changes of correlation coefficient (r) in stepwise regression
圖2 標(biāo)準(zhǔn)偏差(SD)在逐步回歸中的變化情況Fig. 2 Changes of standard deviation (SD) in stepwise regression
pC=6.385-3.853×x1+2.401×x3-0.293×x7
(4)
建模:N=25,r=0.984,SD=0.216,F(xiàn)=219.822;交互檢驗(yàn):N=25,rCV=0.979,SDCV=0.248,F(xiàn)CV=165.810。
建模的r高達(dá)0.984,說明模型具有良好的擬合能力;“留一法”交互檢驗(yàn)相關(guān)系數(shù)(rCV)高達(dá)0.979,并且比建模的r略小,說明模型具有良好的預(yù)測能力與穩(wěn)定性。判斷模型質(zhì)量好壞的另一個指標(biāo)是SD,優(yōu)良的模型通常要求SD與數(shù)值范圍之比處于10%范圍內(nèi)。本文所建模型的SD為0.216,而化合物毒性值最大值-最小值=6.20-1.80=4.40,0.216/4.40=4.91%,遠(yuǎn)<10%,說明模型對化合物的生物毒性值預(yù)測誤差在可接受的范圍內(nèi)。
為進(jìn)一步分析影響化合物生物毒性的結(jié)構(gòu)因素,采用偏最小二乘回歸(PLS)建模和分析。將化合物結(jié)構(gòu)描述符作為自變量X,化合物誘發(fā)浮萍萎黃的活性參數(shù)pC作為因變量Y建立PLS模型(M2)。PLS模型(M2)的主成分?jǐn)?shù)(A)為6,r為0.988,SD為0.174,rCV為0.980。從r、rCV及SD值來看,模型(M2)也具有良好的擬合效果、預(yù)測能力和穩(wěn)定性,并且建模效果還優(yōu)于模型(M1),可以用于預(yù)測取代苯酚類化合物的毒性值和分析影響化合物毒性的結(jié)構(gòu)因素。
25個樣本在PLS前2個主成分得分空間散點(diǎn)分布如圖3所示,由圖3可知,所有的樣本得分點(diǎn)都落在95%置信度的橢圓置信圈內(nèi),說明本文構(gòu)建的化合物結(jié)構(gòu)描述符能恰當(dāng)表達(dá)該類化合物的結(jié)構(gòu)特征,并且在PLS模型中得到反映。
圖3 樣本在前2個主成分得分分布Fig. 3 Distribution of the top 2 principal component scores of the sample
變量重要性投影(VIP)可以反映各個變量與化合物的生物毒性相關(guān)性大小,通常認(rèn)為VIP值>1的變量與所研究的性質(zhì)相關(guān)性大,而其他變量與所研究的性質(zhì)相關(guān)性可能較小。VIP如圖4所示,由圖4可知,x5、x3和x2的VIP值>1,說明這3個變量與化合物的毒性值相關(guān)性較大。進(jìn)一步分析發(fā)現(xiàn),VIP值最大的x5為第1類非氫原子之間的關(guān)系對化合物毒性值的影響,第1類非氫原子對應(yīng)的是化合物取代基末端原子;x3為第3類非氫原子自身對化合物毒性值的影響,第3類非氫原子對應(yīng)的大部分是苯環(huán)上被取代后的碳原子,x5和x3這2個變量都與化合物的取代基數(shù)量有關(guān)。綜上,化合物取代基越多,該化合物的生物毒性值可能就越大,這與表1中的數(shù)據(jù)特征基本相符。化合物產(chǎn)生毒性通常需要透過生物脂質(zhì)膜,而化合物的體積與疏水性與其透過脂質(zhì)膜的能力密切相關(guān),當(dāng)化合物分子都比較小時,化合物的疏水性起主導(dǎo)作用。本文研究樣本中的取代基都為疏水性基團(tuán),取代基越多,該化合物的疏水性就越強(qiáng),越易透過脂質(zhì)膜而產(chǎn)生毒性。
圖4 變量重要性投影圖Fig. 4 Projection of variable importance
2個模型對化合物的毒性值進(jìn)行了預(yù)測,預(yù)測值分別為表1的Cal.1和Cal.2,Err.1和Err.2分別為其誤差。模型預(yù)測值與實(shí)驗(yàn)值相關(guān)圖如圖5所示。
由圖5可知,所有的樣本點(diǎn)都落在正方形的45°對角線上及附近,說明模型預(yù)測值與實(shí)驗(yàn)值高度相關(guān),兩者之間相差性小。2個模型對化合物毒性值預(yù)測誤差的絕對值分布如圖6所示。由圖6可知,絕大部分樣本的預(yù)測誤差的絕對值都小于模型的2倍標(biāo)準(zhǔn)偏差(2SD)。模型(M1)中,有2個樣本的預(yù)測誤差的絕對值超出了2SD的范圍,而模型(M2)中所有樣本的預(yù)測誤差的絕對值均處于2SD范圍內(nèi),說明模型(M2)對化合物毒性值的預(yù)測比模型(M1)更為準(zhǔn)確,這與上述分析結(jié)果一致。
圖5 模型預(yù)測值與實(shí)驗(yàn)值的相關(guān)圖Fig. 5 Correlation diagram between model predicted values and experimental values
圖6 模型對樣本毒性的預(yù)測誤差注:SD表示標(biāo)準(zhǔn)偏差。Fig. 6 Model prediction error of samples’ toxicityNote: SD stands for standard deviation.
文獻(xiàn)[15]采用DFT-B3LYP計算描述符,運(yùn)用多元線性回歸(MLR)進(jìn)行了建模研究,將文獻(xiàn)結(jié)果與本文結(jié)果進(jìn)行了對比(表2)。
由表2可知,本文所建模型的r及rCV明顯大于文獻(xiàn)結(jié)果,而SD明顯小于文獻(xiàn)結(jié)果,說明本文所建模型優(yōu)于文獻(xiàn)結(jié)果。另外,文獻(xiàn)采用的分子結(jié)構(gòu)表征方法DFT-B3LYP需經(jīng)過分子結(jié)構(gòu)優(yōu)化,結(jié)算量大、復(fù)雜,而本文構(gòu)建的結(jié)構(gòu)描述符是基于分子二維結(jié)構(gòu)計算得到,無需結(jié)構(gòu)優(yōu)化,計算量小,簡單易懂。
表2 模型比較Table 2 Model comparison
以化合物中的非氫原子及非氫原子之間的關(guān)系構(gòu)建結(jié)構(gòu)描述符,對部分取代苯酚類化合物結(jié)構(gòu)進(jìn)行了參數(shù)化表征。通過MLR和PLS方法建立了化合物結(jié)構(gòu)與毒性關(guān)系模型,模型具有良好的擬合能力與預(yù)測能力。分析了影響化合物毒性的結(jié)構(gòu)參數(shù),并將結(jié)果與文獻(xiàn)進(jìn)行了對比,化合物苯環(huán)上的取代基越多,該化合物可能就有較大的毒性值,本文取得的結(jié)果明顯優(yōu)于文獻(xiàn)結(jié)果。本文所構(gòu)建的化合物結(jié)構(gòu)描述符簡單、易懂、計算方便,對于環(huán)境中的有機(jī)污染物的結(jié)構(gòu)與生物毒性關(guān)系研究具有一定的參考價值。但結(jié)構(gòu)描述符還存在不能區(qū)分順反異構(gòu)、光學(xué)異構(gòu)等現(xiàn)象,這些在后續(xù)研究中都應(yīng)予以考慮。
◆