李建鳳,廖立敏,2*
(1. 內(nèi)江師范學(xué)院化學(xué)化工學(xué)院,中國 內(nèi)江 641100;2. 四川省高等學(xué)?!肮悘U棄物資源化”重點實驗室,中國 內(nèi)江 641100)
不飽和烴類化合物包括烯烴、炔烴等,不飽和烴的雙鍵和三鍵都不太牢固,容易發(fā)生親電加成反應(yīng)。有機化合物在水中的溶解度(-lgSw)是研究其在溶液中所表現(xiàn)的化學(xué)行為的重要參數(shù),溶解度(-lgSw)與有機化合物在動植物體、人體的吸收、分布以及各種環(huán)境介質(zhì)中的遷移和歸趨有關(guān),因而廣泛運用于化學(xué)、生物、藥學(xué)及環(huán)境科學(xué)[1,2]等領(lǐng)域。有機化合物的溶解度(-lgSw)與其分子結(jié)構(gòu)有關(guān),建立化合物結(jié)構(gòu)—溶解度(-lgSw)關(guān)系模型,利用計算機對化合物溶解度(-lgSw)進(jìn)行預(yù)測是獲得數(shù)量巨大的有機化合物溶解度(-lgSw)參數(shù)的有效途徑。建立化合物—性質(zhì)關(guān)系模型的首要步驟是將有機化合物結(jié)構(gòu)進(jìn)行參數(shù)化表征,在這方面目前應(yīng)用廣泛的有二維(2D)結(jié)構(gòu)描述符[3-6]和三維(3D)結(jié)構(gòu)描述符[7-10]。二維(2D)結(jié)構(gòu)描述符具有計算簡便的特點,但不能區(qū)分諸如順反異構(gòu)體、光學(xué)異構(gòu)體等。三維(3D)結(jié)構(gòu)描述符的優(yōu)勢是基于化合物三維立體結(jié)構(gòu)計算,可以區(qū)分各種異構(gòu)體,但其計算復(fù)雜、難懂,計算工作量大,還存在諸如構(gòu)像重疊、網(wǎng)格劃分和探針選取等不確定因素。本文在基于化合物二維結(jié)構(gòu)的基礎(chǔ)上,對化合物中的非氫原子進(jìn)行參數(shù)化染色,構(gòu)建非氫原子之間的關(guān)系得到化合物結(jié)構(gòu)描述符。對部分不飽和烴類化合物結(jié)構(gòu)進(jìn)行表征后構(gòu)建化合物結(jié)構(gòu)與溶解度(-lgSw)之間的關(guān)系模型,模型經(jīng)檢驗具有良好的預(yù)測能力與穩(wěn)定性,為有機化合物的結(jié)構(gòu)—性質(zhì)關(guān)系研究提供參考。
部分不飽和烴類化合物及在水中溶解度(-lgSw)的實驗值取自文獻(xiàn)[11],按照-lgSw的大小順序列于表1。
1.2.1 分子結(jié)構(gòu)參數(shù)化表征 化合物結(jié)構(gòu)決定化合物的外在性質(zhì),結(jié)構(gòu)參數(shù)化表征是建立化合物結(jié)構(gòu)與性質(zhì)之間關(guān)系模型的關(guān)鍵步驟之一。認(rèn)為化合物中的氫原子對與其直接相連的非氫原子產(chǎn)生影響,而非氫原子以及非氫原子之間的關(guān)系對化合物表現(xiàn)出的外在性質(zhì)產(chǎn)生影響。參閱文獻(xiàn)[12-15]方法,將化合物中的非氫原子按照其連接的其它非氫原子數(shù)進(jìn)行分類,與k個其它非氫原子直接相連的非氫原子規(guī)定為第k類非氫原子,如與2個非氫原子相連的仲碳原子為第2類非氫原子,以此類推。在有機化合物中k的最大取值為4,因而最多有4類非氫原子。根據(jù)非氫原子的電子結(jié)構(gòu)、連接的氫原子數(shù)及電負(fù)性,在參閱文獻(xiàn)[16]的基礎(chǔ)上,將非氫原子按式(1)進(jìn)行參數(shù)化染色。
Zi=[0.5×mi(xi+1)×(4-hi)/(xc+1)]1/2。
(1)
式中i為原子在分子中的編碼,mi為原子核外電子層數(shù),xi為非氫原子i的電負(fù)性值(Pauling 標(biāo)度),xC為碳原子的電負(fù)性值,hi為與非氫原子i直接連接的氫原子數(shù)。非氫原子i的mi越大,其半徑越大,相應(yīng)的原子體積越大,相應(yīng)的Zi值也就越大。
不同類型的非氫原子對化合物的性質(zhì)可能產(chǎn)生不同的影響,同類型的非氫原子對化合物性質(zhì)的影響具有加和性,按式(2)將各種不同類型的非氫原子對化合物性質(zhì)的影響進(jìn)行分類累加。
(2)
式中,k表示非氫原子i的原子類型,Zi按式(1)計算?;衔镏凶疃喟?種類型的非氫原子,因而可得到4個變量,分別用x1,x2,x3和x4表示。
不同類型非氫原子之間的關(guān)系對化合物性質(zhì)的影響可能也不同,同種類型非氫原子的關(guān)系對化合物性質(zhì)的影響具有加和性。4類非氫原子可以組合出m11,m12,m13,…,m44共10種關(guān)系項(用x5,x6,x7,…,x14表示),m13表示第1類非氫原子和第3類非氫原子之間的關(guān)系,以此類推?;衔镏蟹菤湓又g的關(guān)系隨著非氫原子自身性質(zhì)的增大而加強,隨著非氫原子之間的距離的增大而減弱,滿足要求的函數(shù)關(guān)系式都可以構(gòu)建非氫原子之間的關(guān)系,本文按式(3)進(jìn)行計算。
(3)
Z按式(1)計算;dij為非氫原子i與j之間的相對距離(即鍵長之和與碳碳單鍵鍵長的比值,如果i與j之間有多條路徑,則以最短的為準(zhǔn),化學(xué)鍵長取自文獻(xiàn)[17]);n和l為原子所屬類型,α=0.5。這樣,對于一個化合物經(jīng)參數(shù)化表達(dá)后最多可得14個變量(結(jié)構(gòu)描述符)。
1.2.2 建模與評價 多元線性回歸(MLR)和偏最小二乘回歸(PLS)是常用的建模方法,本文采用多元線性回歸(MLR)和偏最小二乘回歸(PLS)建立模型。采用相關(guān)系數(shù)(R)、交叉檢驗相關(guān)系數(shù)(RCV)、標(biāo)準(zhǔn)偏差(SD)對模型質(zhì)量進(jìn)行評價。優(yōu)良的模型必須符合以下要求:1)建模相關(guān)系數(shù)(R)≥0.800 0,“留一法”交叉檢驗相關(guān)系數(shù)(RCV)≥0.700 0[18];2)標(biāo)準(zhǔn)偏差(SD)與數(shù)值范圍之比≤10%;3)80%以上的樣本預(yù)測誤差的絕對值≤2倍標(biāo)準(zhǔn)偏差(2SD)。
表1 不飽和烴類化合物及其溶解度(-lg Sw)
本研究選取的不飽和烴類化合物經(jīng)分子結(jié)構(gòu)表征后得到14個變量,由于35個樣本中均不含有第4類非氫原子,因而得到的與第4類非氫原子相關(guān)的x4,x8,x11,x13及x14全為“0”,其余9個非全“0”變量用于建模分析,列于表2。
表2 化合物的結(jié)構(gòu)參數(shù)化表征結(jié)果
首先采用多元線性回歸(MLR)尋找化合物結(jié)構(gòu)與溶解度(-lgSw)的關(guān)系模型,由于樣本數(shù)僅為35個,而結(jié)構(gòu)描述符(變量)數(shù)達(dá)到了9個,不符合樣本數(shù)(N)/變量數(shù)(n)≥5的經(jīng)驗規(guī)則。采用逐步回歸分析以篩選出最優(yōu)變量組合進(jìn)行建模,按照變量顯著性大小順序?qū)⒆兞恐鸩揭肽P?,建模相關(guān)系數(shù)(R)、標(biāo)準(zhǔn)偏差(SD)隨著變量的引入而發(fā)生變化,變化情況繪圖于圖1、圖2。
從圖1可以發(fā)現(xiàn),起初隨著變量的引入,相關(guān)系數(shù)(R)迅速增大;到了逐步回歸第4步,相關(guān)系數(shù)(R)接近最大值,之后相關(guān)系數(shù)(R)略有增大,增大趨勢放緩。同樣在圖2中可以發(fā)現(xiàn),起初隨著變量的引入,標(biāo)準(zhǔn)偏差(SD)迅速減??;到了逐步回歸第4步,標(biāo)準(zhǔn)偏差(SD)接近最小值,之后標(biāo)準(zhǔn)偏差(SD)略有減小,減小趨勢放緩。此時入選變量數(shù)為4個,符合樣本數(shù)(N)/變量數(shù)(n)≥5的經(jīng)驗規(guī)則。綜合各方面因素,認(rèn)為4變量模型(M1)為最優(yōu)預(yù)測模型,4變量模型如式(4)。
-lgSw=0.557 2+0.506 4x1+1.037 4x2-0.759 0x6-0.541 6x9
(4)
建模:N=35,R=0.959 6,SD=0.385 6,F(xiàn)=87.267 6;交叉檢驗:N=35,RCV=0.947 0,SDCV=0.440 3,F(xiàn)CV=65.180 4。
圖2 SD在逐步回歸中的變化情況
上述模型擬合程度高,相關(guān)系數(shù)(R)達(dá)到了0.959 6,遠(yuǎn)大于0.800 0的臨界值;交叉檢驗相關(guān)系數(shù)(RCV)達(dá)0.947 0,也遠(yuǎn)大于0.700 0的臨界值;標(biāo)準(zhǔn)偏差(SD)為0.385 6,數(shù)值范圍為7.33-0.82=6.51,0.385 6/6.51=5.92%,也處于10%的范圍內(nèi)。以上說明該模型預(yù)測能力強,穩(wěn)定性好,可以用于不飽和烴類化合物溶解度(-lgSw)的預(yù)測。
為進(jìn)一步分析各變量對化合物溶解度(-lgSw)的影響,采用偏最小二乘回歸(PLS)進(jìn)行建模分析。將化合物結(jié)構(gòu)描述符作為自變量X,化合物溶解度(-lgSw)作為因變量Y建模PLS模型(M2),模型的主成分?jǐn)?shù)為3個,建模相關(guān)系數(shù)(R)為0.931 0,大于0.800 0的臨界值;交叉檢驗的相關(guān)系數(shù)(RCV)為0.919 2,大于0.700 0的臨界值;標(biāo)準(zhǔn)偏差(SD)為0.440 1,0.440 1/6.51=6.76%,也處于10%的范圍內(nèi)。以上同樣表明模型M2預(yù)測能力強,穩(wěn)定性好,可以用于不飽和烴類化合物溶解度(-lgSw)的預(yù)測。35個樣本在前 2 個主成分得分散點分布,見圖3。圖3顯示絕大部分樣本點都落在95%的橢圓置信圈范圍內(nèi),僅有2個樣本點(不足6%)落在此范圍外,說明模型對于大多數(shù)樣本擬合較好,化合物結(jié)構(gòu)描述符可以恰當(dāng)表現(xiàn)各化合物的結(jié)構(gòu)特征,并在PLS模型中得到正確的表現(xiàn)。
變量重要性可以反映出各個變量與因變量Y的相關(guān)性大小,變量重要性投影(VIP)見圖4。通常認(rèn)為VIP值大于1的變量與Y值關(guān)系較為密切。圖中顯示x2和x9的VIP值大于1,說明這兩個變量與化合物的溶解度(-lgSw)相關(guān)性較大。x2為第2類非氫原子自身對化合物性質(zhì)的影響,x9為第2類非氫原子之間的關(guān)系對化合物性質(zhì)的影響,即第2類非氫原子對化合物溶解度(-lgSw)有重要影響,而第二類原子的多少與化合物的鏈長有關(guān),也就是在相同情況下,化合物的鏈越長,化合物極性越小,可能具有較大的溶解度(-lgSw)值,分析表1中的數(shù)據(jù)發(fā)現(xiàn)溶解度(-lgSw)值的確具有這一特征。
兩模型對化合物的溶解度(-lgSw)進(jìn)行了預(yù)測,預(yù)測值分別列于表1的Cal.1和Cal.2值,Err.1和Err.2值為相應(yīng)的誤差。預(yù)測值與實驗值相關(guān)性見圖5。從圖5看出大部分的樣本點都落在正方形的45°對角線附近,說明兩模型對化合物溶解度(-lgSw)預(yù)測值與實驗值相關(guān)性好,兩者間的誤差不大。另外,從圖5可看出Cal.1的樣本點與Cal.2的樣本點相比更加靠近對角線,說明模型(M1)對化合物的溶解度(-lgSw)預(yù)測值更為準(zhǔn)確,模型(M1)的質(zhì)量略優(yōu)于模型(M2)的質(zhì)量,與上述模型參數(shù)分析結(jié)果一致。
兩模型對化合物溶解度(-lgSw)值的預(yù)測誤差分布見圖6,可發(fā)現(xiàn)大部分樣本點都處于正負(fù)兩倍標(biāo)準(zhǔn)偏差(±2SD)以內(nèi),說明兩模型對化合物溶解度(-lgSw)預(yù)測較為準(zhǔn)確,產(chǎn)生的誤差較小,誤差都處于可以接受的范圍內(nèi)。超出正負(fù)兩倍標(biāo)準(zhǔn)偏差(±2SD)范圍的是4號和17號化合物,進(jìn)一步分析發(fā)現(xiàn)這兩個化合物與其它化合物相比并沒有什么特殊性,大誤差可能是由于化合物結(jié)構(gòu)描述符不夠完善,某些結(jié)構(gòu)信息沒有得到充分表達(dá)所致。當(dāng)然也可能是由于實驗結(jié)果本身存在較大的誤差,從而影響計算結(jié)果。模型M1僅有1個樣本(不足3%)的誤差超出正負(fù)兩本標(biāo)準(zhǔn)偏差(±2SD),而模型M2也只有2個樣本(不足6%)的誤差超出此范圍,說明總體上兩模型預(yù)測的誤差都處于可以接受的范圍內(nèi),模型M2預(yù)測的結(jié)果略劣于模型M1,也再次說明模型M1質(zhì)量略優(yōu)于模型M2質(zhì)量。
圖3 樣本在前 2 個主成分得分分布
圖4 變量重要性投影圖
圖5 模型預(yù)測值與實驗值的相關(guān)圖
圖6 模型對樣本預(yù)測誤差
對不同非氫原子參數(shù)化,構(gòu)建非氫原子之間的關(guān)系得到化合物結(jié)構(gòu)描述符,對部分不飽和烴類化合物結(jié)構(gòu)進(jìn)行了參數(shù)化表征,通過多元線性回歸(MLR)和偏最小二乘回歸(PLS)兩種方法建立了化合物結(jié)構(gòu)與溶解度(-lgSw)之間的關(guān)系模型。多元線性回歸(MLR)簡單、易懂,并且擬合效果更好。偏最小二乘回歸(PLS)避免了變量之間的多重共線性,更便于解釋各變量對溶解度(-lgSw)影響。兩模型結(jié)果表明化合物結(jié)構(gòu)描述符能恰當(dāng)表現(xiàn)不飽和烴類化合物結(jié)構(gòu)特征,在此基礎(chǔ)上建立的溶解度(-lgSw)預(yù)測模型具有良好的預(yù)測能力與穩(wěn)定性?;衔锝Y(jié)構(gòu)描述符來自化合結(jié)構(gòu)的計算,不需引入其它參數(shù),具有計算簡單、方便、快速的特點,但本文構(gòu)建的結(jié)構(gòu)描述符還存在不能區(qū)分順反異構(gòu)、光學(xué)異構(gòu)等不足,這些在后續(xù)研究中都應(yīng)予以考慮。各類有機化合物中的非氫原子均可按照原理中所述方法分類,化合物結(jié)構(gòu)均可使用本文構(gòu)建的結(jié)構(gòu)描述符進(jìn)行參數(shù)化表征,因而本文對于各類有機化合物的結(jié)構(gòu)—性質(zhì)關(guān)系研究具有一定的參考價值。