饒火瑜,祝志強,樂長高,徐珍珍
(東華理工大學 應用化學系,江西 南昌 330013)
化合物的臨界溫度、臨界壓力和臨界體積等臨界參數(shù)是描述化合物特征的重要參數(shù),可用于液體密度、氣體熱容、真實氣體狀態(tài)方程的參數(shù)計算,也可用于化工過程的模擬和設(shè)計[1-8]。然而通過實驗方法測定臨界參數(shù)往往耗時長、費用高,而且技術(shù)上面臨一些難以克服的困難,因為有些物質(zhì)在它達到臨界溫度以前就已經(jīng)分解。因此,從現(xiàn)有文獻出發(fā)利用現(xiàn)有的實驗數(shù)據(jù)建立一個模型用于預測化合物的臨界溫度,對于化工生產(chǎn)有著重要意義。
近年來,定量結(jié)構(gòu)性質(zhì)關(guān)系(QSPR)研究在化學、環(huán)境、生命等研究中取得了廣泛的應用[9-14]。QSPR研究是以分子微觀結(jié)構(gòu)和分子中各原子的連接方式為基礎(chǔ),用數(shù)字來定量表達分子[15],進而與物質(zhì)的理化性質(zhì)相關(guān)聯(lián),建立有意義的關(guān)系式。隨著計算機的飛速發(fā)展和軟件技術(shù)的更新,使得用數(shù)字表征分子的微觀結(jié)構(gòu)更加方便快捷。
本工作以量子化學計算得到的分子幾何參數(shù)為基礎(chǔ),利用Alvadesc軟件計算分子的分子描述符,進而將分子描述符和41種脂肪醇的臨界溫度關(guān)聯(lián),運用逐步多元線性回歸建立了一個五參數(shù)線性QSPR模型。
從文獻[16]中選取54個具有臨界溫度實驗值的一元脂肪醇分子,隨機選擇41個作為訓練集,余下的13個歸入外部測試集。以訓練集建模,所得到的QSPR模型用于計算外部測試集的脂肪醇臨界溫度。
采用量子化學軟件包Gaussian-16對一元脂肪醇分子進行密度泛函理論計算,所用基組為6-311g(d,p),考慮羥基和烷基的不同取代位置對分子能量的影響,并加以頻率分析,獲得每個脂肪醇分子最穩(wěn)定的構(gòu)象;以優(yōu)化所得最穩(wěn)定構(gòu)象的幾何參數(shù)為基礎(chǔ),用Alvadesc軟件計算分子描述符[17],將所得到的分子描述符與脂肪醇分子的臨界溫度相關(guān)聯(lián)。
以訓練集脂肪醇分子的臨界溫度為因變量,Alvadesc軟件計算所得的分子描述符為自變量,去除全為零、或數(shù)值幾乎相等的分子描述符,運用逐步多元線性回歸方法構(gòu)建QSPR模型,采用均方根誤差、平均絕對相對誤差、決定系數(shù)、Fisher檢驗值、t-檢驗值和方差膨脹因子(VIF)等方法檢驗模型擬合的適用性。VIF的定義式為:
式中,是以第i個變量為因變量、其他變量為自變量建立的多元線性關(guān)系式的決定系數(shù);1-為容忍度。VIF值越大,說明多重共線性越強,一般認為VIF大于10時,多重共線性不能接受,所得多元線性關(guān)系式用于預測是不可靠的。
采用留一法交叉驗證和留多法交叉驗證對模型的穩(wěn)健性進行檢驗,計算了和[18]。用所得的模型對測試集脂肪醇的臨界溫度進行預測,并采用均方根誤差等參數(shù)對模型的預測能力進行評估。此外,還采用外部驗證系數(shù),,對模型的預測能力進行評估[18-20]。
經(jīng)逐步多元線性回歸分析,由Alvadesc軟件計算 得 到 piPC01,ATS6e,GATS2e,GATS3i,E2m等五個分子描述符對脂肪醇的臨界溫度有顯著貢獻,將這五個分子描述符加上常見的實驗測定的三個理化參數(shù)(密度、分子量、沸點)組成八個參數(shù),一起與脂肪醇的臨界溫度進行逐步多元線性回歸,程序選擇了五個分子描述符為描述脂肪醇分子結(jié)構(gòu)的自變量,從而得到最終的回歸模型,見式(2):
模型的樣本數(shù)n=41,自變量數(shù)k=5,樣本容量和樣本與解釋變量的比例是合適的,足以描述因變量。相關(guān)系數(shù)為0.999 8,決定系數(shù)為0.999 6,調(diào)整決定系數(shù)為0.999 5,顯著性檢驗值為0,F(xiàn)isher檢驗值為15 707,遠遠大于Fisher檢驗臨界值,說明QSPR模型擬合性能強。
分子描述符piPC01基于分子路徑計算,計算公式為ln(1+x),式中x為分子中所含C—C和C—O單鍵的數(shù)目,計算公式簡單,因公式含有對數(shù),隨著碳原子數(shù)的增加,piPC01的計算值增大,但增大量越來越小,這與脂肪醇臨界溫度隨脂肪醇碳原子數(shù)的增加而增加的規(guī)律較相似。單獨以piPC01為自變量與脂肪醇的臨界溫度相關(guān)聯(lián),決定系數(shù)達0.897 9,說明piPC01對脂肪醇分子的臨界溫度產(chǎn)生顯著影響。
分子描述符ATS6e,GATS2e,GATS3i都是二維自相關(guān)指數(shù),以電負性或電離勢加權(quán),對脂肪醇分子的區(qū)分度較好;E2m是按質(zhì)量加權(quán)的2階組成定向WHIM指數(shù),由分子的三維結(jié)構(gòu)產(chǎn)生,對脂肪醇分子的不同異構(gòu)體區(qū)分較好。
這五個分子描述符加在一起時,將決定系數(shù)由0.897 9提高到0.999 6,非常接近1,只余下0.000 4未能加以解釋。
表1列出了多元線性回歸模型的檢驗值,包括各自變量的系數(shù)、t-值、p-值和VIF。當│t│>tα/2(nk-1)時,說明自變量對因變量有顯著性影響,顯著性水平α取0.05,查t-檢驗顯著性水平分布表或在WPS表格中輸入“=Tinv(0.025,35)”,可得t0.025(35)=2.34。從表1可看出,五個自變量對臨界溫度都有顯著性影響;每一個自變量的VIF值都大于1小于10,說明各自變量之間不存在明顯的多重共線性,所得QSPR模型對訓練集的樣本擬合優(yōu)良。
表1 脂肪醇臨界溫度的多元線性回歸模型檢驗值Table 1 Test value of multiple linear regression model of critical temperature(Tc) for aliphatic alcohols
行之有效的評價模型預測能力的方法是進行內(nèi)外部驗證。表2和表3分別列出了訓練集和外部測試集中脂肪醇分子的分子描述符、臨界溫度及臨界溫度實驗值,表2和表3最右列的預測臨界溫度數(shù)據(jù)大部分由文獻[21]計算得到,所缺少的數(shù)據(jù)采用文獻[22]的方法計算得到。
由表2可看出,訓練集脂肪醇的臨界溫度預測值與實驗值非常接近,殘差位于區(qū)間[-3.94,4.36],均方根誤差為1.77 K,平均絕對相對誤差僅為0.23%。
按表2所列脂肪醇順序,依次留下7個樣本不參與回歸,以訓練集余下的34個樣本建模,對未參與建模的7個樣本的臨界溫度進行預測,所有樣本都經(jīng)過一遍留多法交叉驗證,所得為0.999 2,均方根誤差為2.38 K;同理按上述方法,做40次留一法交叉驗證,所得為0.999 2,均方根誤差為2.36 K。留多法交叉驗證和留一法交叉驗證的系數(shù)和模型的決定系數(shù)非常接近,兩者的均方根誤差與模型的均方根誤差也接近,說明模型具有內(nèi)部穩(wěn)健性和可靠性。
表2 訓練集脂肪醇的臨界溫度和分子描述符Table 2 Tc and molecular descriptors of aliphatic alcohols in the training set
由表3可看出,測試集脂肪醇的臨界溫度預測值與實驗值非常接近,殘差位于區(qū)間[-8.01,6.97],平均絕對相對誤差為0.47%,小于1%,測試集中脂肪醇臨界溫度的均方根誤差為3.74 K;進一步計算了模型的,,,分別達到0.996 5,0.996 2,0.998 0,說明模型對外預測能力良好。
表3 外部測試集脂肪醇的臨界溫度和分子描述符Table 3 Tc and molecular descriptors of aliphatic alcohols in the test set
以全部數(shù)據(jù)集的脂肪醇臨界溫度的預測值對實驗值、預測殘差對臨界溫度實驗值做圖,分別得到圖1和圖2。從圖1可看出,所有的數(shù)據(jù)點緊靠y=x這條直線,說明預測值與實驗值十分接近;從圖2可看出,訓練集和測試集的預測殘差分布均勻,殘差間不存在自相關(guān),絕大多數(shù)的點位于殘差區(qū)間[-6,6],只有兩個點位于區(qū)間外,并且預測殘差僅為6.97和-8.01。圖1和圖2進一步說明預測模型穩(wěn)健可靠。
圖1 總數(shù)據(jù)集的臨界溫度實驗值與預測值的關(guān)系Fig.1 Plot of Tc-cal.vs.Tc-obs.of whole dataset.
將模型的預測結(jié)果與基團貢獻法的預測結(jié)果進行比較,基團貢獻法預測效果最好的是張克武法[21-22],其他方法如 Joback 法[23]和定位基團貢獻法[24]預測效果較差。本工作僅與張克武法進行比較,結(jié)果見表4。從表4可看出,張克武法預測結(jié)果的平均絕對誤差高、最大絕對誤差大,本模型用于預測脂肪醇的臨界溫度,各方面都優(yōu)于張克武法的預測結(jié)果。
表4 模型預測結(jié)果與張克武法[22]計算結(jié)果的比較Table 4 Comparison of the prediction results of the model with Zhang Kewu method[22]
張克武法需要用到物質(zhì)的沸點,隨著脂肪醇中碳原子數(shù)量的增加,脂肪醇的沸點測定會更加困難,張克武法雖然較為簡便,但由于不同文獻提供的脂肪醇的沸點相差較大,導致計算的臨界溫度相差較大。表5列出了三種脂肪醇的沸點、本模型預測的臨界溫度及張克武法預測的臨界溫度(來自文獻[22]),其中,沸點BP1數(shù)據(jù)取自文獻[16]、沸點BP2數(shù)據(jù)取自文獻[25]。從表5可看出,沸點來源不同,計算的臨界溫度差異較大;張克武法的預測結(jié)果取決于沸點數(shù)據(jù)的精確度,含碳原子數(shù)多的脂肪醇的沸點測定精確度較差,而本模型不依賴于脂肪醇的沸點,只需通過對分子進行理論計算得到分子描述符,即可得到脂肪醇臨界溫度的預測值,本模型預測的三種脂肪醇的臨界溫度與實驗臨界溫度的差值均低于2.00 K,優(yōu)于張克武法的預測結(jié)果。
表5 三種脂肪醇的沸點及預測的臨界溫度Table 5 Boiling point(BP) and Tc-cal.of three aliphatic alcohols
1)運用Gaussian-16和Alvadesc軟件計算得到了對脂肪醇臨界溫度有顯著貢獻的五個分子描述 符 piPC01,ATS6e,GATS2e,GATS3i,E2m,運用逐步多元線性回歸建立了五參數(shù)線性QSPR模型,相關(guān)系數(shù)為0.999 8,均方根誤差僅為1.77 K,這些分子描述符較好地描述了脂肪醇分子的結(jié)構(gòu)、大小和連接信息。
2)經(jīng)過決定系數(shù)、均方根誤差、平均絕對相對誤差、Fisher檢驗、t-檢驗、VIF檢驗、留一法交叉驗證、留多法交叉驗證以及外部測試集驗證,表明所建立的QSPR模型擬合能力優(yōu),內(nèi)部穩(wěn)健可靠,外部預測能力強,可用于預測脂肪醇的臨界溫度。