楊 惠,陳利平 ,謝傳欣,石 寧,陳網(wǎng)樺
(1.化學(xué)品安全控制國家重點實驗室,青島 266071;2.南京理工大學(xué)化工學(xué)院安全工程系,南京 210094)
烴類沸點的定量構(gòu)效關(guān)系研究
楊 惠1,2,陳利平2*,謝傳欣1,石 寧1,陳網(wǎng)樺2
(1.化學(xué)品安全控制國家重點實驗室,青島 266071;2.南京理工大學(xué)化工學(xué)院安全工程系,南京 210094)
應(yīng)用CODESSA軟件計算296種烴類物質(zhì)的分子結(jié)構(gòu)描述符,分別用啟發(fā)式回歸(HM)和最佳多元線性回歸(B-MLR)篩選計算出的所有分子描述符,并建立沸點的線性回歸模型。用B-MLR方法篩選出的4個描述符作為支持向量機(jī)(SVM)的輸入建立了非線性模型。預(yù)測結(jié)果表明:所建立的模型穩(wěn)健,泛化能力強(qiáng),預(yù)測誤差小。非線性模型(R2=0.9905,RMSE=10.2295)的性能優(yōu)于線性回歸模型(HM:R2=0.9819,RMSE=14.0606;B-MLR:R2=0.9842,RMSE=13.1058),預(yù)測效果令人滿意。
烴類物質(zhì);沸點;支持向量機(jī)(SVM);定量構(gòu)效關(guān)系(QSPR)
可燃性液體的閃點和燃點表明其發(fā)生爆炸或火災(zāi)可能性的大小,是很重要的安全參數(shù)。同樣地,可燃性液體的沸點與其運輸、儲存和使用的安全也有著很大的關(guān)系。當(dāng)外部環(huán)境的溫度升高或內(nèi)部反應(yīng)熱的作用使可燃液體的溫度升高時,低沸點的可燃液體將大量汽化,當(dāng)蒸汽壓超過容器的承壓極限時,容器將發(fā)生物理爆炸,大量可燃液體泄漏并與空氣發(fā)生混合,從而形成大面積的易燃易爆云團(tuán),當(dāng)存在適當(dāng)?shù)狞c火源時,就有可能導(dǎo)致嚴(yán)重的蒸氣云爆炸。一般說來,沸點越低,在一定溫度下承裝可燃液體的容器內(nèi)部壓力越高,越易導(dǎo)致容器物理爆炸,同時液體拋撒后也越易氣化形成易燃易爆云團(tuán)。
定量構(gòu)效關(guān)系(Quantitative structure-property relationship,QSPR)研究是目前國內(nèi)外研究的一個熱點,已成為近年來化學(xué)、環(huán)境科學(xué)、生命科學(xué)等學(xué)科研究中的一個前沿領(lǐng)域[1],其應(yīng)用越來越受到重視。目前,國內(nèi)外許多研究學(xué)者已做了大量研究,發(fā)展了許多根據(jù)分子結(jié)構(gòu)預(yù)測化合物性能的方法和模型。其中,關(guān)于沸點的QSPR研究主要是利用拓?fù)渲笖?shù)、量子化學(xué)參數(shù)等與沸點進(jìn)行關(guān)聯(lián)[2-7],以建立線性的QSPR模型。這些方法相對來說比較復(fù)雜,而且不能揭示沸點與其結(jié)構(gòu)間所存在的非線性關(guān)系,預(yù)測的精度也有待進(jìn)一步提高。
本文根據(jù)QSPR研究的基本原理,嘗試引入支持向量機(jī)(SVM)方法對易燃烴類物質(zhì)沸點的QSPR關(guān)系進(jìn)行研究,建立沸點與其分子結(jié)構(gòu)之間的非線性模型,并與啟發(fā)式回歸(HM)和最佳多元線性回歸(B-MLR)所建立的線性模型進(jìn)行對比。
SVM是由Vapnik等人[8,9]基于統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上提出的一種新型機(jī)器學(xué)習(xí)方法,它能較好地解決小樣本、非線性、高維數(shù)和局部極小等實際問題,具有精度高、速度快、自適應(yīng)能力強(qiáng)、不受高維維數(shù)限制等優(yōu)點。近年來,SVM在構(gòu)效關(guān)系中有了一些較為成功的應(yīng)用[10-12]。
概括地說,SVM就是通過某種事先選擇的非線性映射,將輸入向量映射到一個高維特征空間,并在這個空間中構(gòu)造最優(yōu)分類超平面的實現(xiàn)方法[13]。通過在高維空間中構(gòu)建最優(yōu)超平面,可以將問題轉(zhuǎn)化為二次規(guī)劃。SVM建立在結(jié)構(gòu)風(fēng)險最小化基礎(chǔ)上,因此對于小樣本觀測數(shù)據(jù),建立的模型不但訓(xùn)練誤差小,而且具有良好的泛化推廣性能。
樣本集共包含296種烴類物質(zhì),為消除不同數(shù)據(jù)庫中因數(shù)據(jù)差異可能給預(yù)測結(jié)果造成的影響,統(tǒng)一采用美國阿克倫大學(xué)化學(xué)品數(shù)據(jù)庫“The Chemical Database”[14]中烴類物質(zhì)的沸點作為樣本數(shù)據(jù)集。其中,隨機(jī)選擇了236種物質(zhì)作為訓(xùn)練集,剩下的60種作為測試集。訓(xùn)練集主要用于建立模型,測試集則用于評估模型的預(yù)測能力。
首先借助化學(xué)分子模擬軟件 Hyperchem 8.0畫出296種烴類物質(zhì)的二維分子結(jié)構(gòu),用半經(jīng)驗方法PM3進(jìn)行分子結(jié)構(gòu)的初步優(yōu)化。在此基礎(chǔ)上獲得分子坐標(biāo)以及原子電荷矩陣,導(dǎo)入到CODESSA軟件[15,16]中計算出組成描述符、拓?fù)涿枋龇?、幾何描述符、靜電描述符、量化描述符以及熱力學(xué)描述符等六類374種分子結(jié)構(gòu)描述符。
接下來對分子結(jié)構(gòu)描述符進(jìn)行篩選。在QSPR研究中,分子結(jié)構(gòu)描述符的篩選至關(guān)重要,它直接影響預(yù)測結(jié)果的準(zhǔn)確性。本文采用CODESSA軟件中的HM和B-MLR方法來篩選描述符,同時對烴類物質(zhì)沸點與所選出的分子描述符進(jìn)行了線性擬合。SVM的研究則直接采用B-MLR方法所篩選出的分子描述符作為自變量來對物質(zhì)的沸點進(jìn)行訓(xùn)練,以建立非線性模型。
模型驗證是QSPR研究中非常重要的一個部分,通過結(jié)果的好壞可以判斷模型的外部預(yù)測能力和真實有效性。
模型的檢驗主要分為內(nèi)部檢驗和外部驗證。相關(guān)系數(shù)R和復(fù)相關(guān)系數(shù)R2通常被用于檢驗?zāi)P偷臄M合能力,即用于模型建模能力的驗證。R2越大,說明回歸模型的相關(guān)性越好,能夠解釋的樣本所占的比例越大,但并不一定保證模型具有更好的預(yù)測精度。交互檢驗的Q2是目前使用較為廣泛的一種內(nèi)部檢驗方法,其中的“留一法”(Q2loo)是最常用的交叉驗證方法。好的交叉驗證結(jié)果 Q2可以說明QSPR模型的穩(wěn)健性和良好的內(nèi)部預(yù)測性能,但是交叉驗證的結(jié)果好并不保證模型的真實預(yù)測能力也好。Tropsha等的最新研究結(jié)果[17,18]表明,對模型預(yù)測能力的評價必須通過對那些未參與訓(xùn)練的物質(zhì)進(jìn)行預(yù)測,即采用測試集來進(jìn)行檢驗,因為測試集樣本不參與建模,因而對模型的真實預(yù)測能力更能做出客觀的評價。
針對訓(xùn)練集樣本,運用 HM方法對計算出的所有描述符進(jìn)行廣泛搜索,以復(fù)相關(guān)系數(shù)、交互驗證系數(shù)以及F檢驗值作為選擇模型的標(biāo)準(zhǔn),最終確定了本研究中與烴類沸點最為密切相關(guān)的4個分子描述符,所得的沸點(BP)回歸模型如下:
表1 HM模型中的分子描述符及其統(tǒng)計學(xué)參數(shù)Table 1 Statistic parameters of molecular descriptors in HM model
圖1 HM對測試集所得沸點預(yù)測值與實驗值的比較Fig.1 Comparison between the predicted and experimental BP by HM for test set
隨后,對測試集中60個樣本的沸點進(jìn)行預(yù)測,以驗證模型的外部預(yù)測能力。模型的主要性能參數(shù)見表3,所得的沸點預(yù)測值與實驗值的比較見圖1。
用B-MLR方法篩選出的4個分子描述符所建立的沸點(BP)回歸模型如下:
模型中各分子描述符的定義及其統(tǒng)計學(xué)參數(shù)見表2,主要性能參數(shù)見表3,所得的沸點預(yù)測值與實驗值的比較見圖2。
表2 B-MLR模型中的分子描述符及其統(tǒng)計學(xué)參數(shù)Table 2 Statistic parameters of molecular descriptors in B-MLR model
為了進(jìn)一步對烴類物質(zhì)沸點與其分子結(jié)構(gòu)間可能存在的非線性關(guān)系進(jìn)行研究,直接以B-MLR方法所篩選的4個分子描述符作為自變量,運用SVM方法進(jìn)行建模。用SVM做預(yù)測時,相關(guān)參數(shù)(主要是懲罰參數(shù) C和核函數(shù)參數(shù)γ)的選擇是個難點,參數(shù)選擇不好,將會嚴(yán)重影響預(yù)測的精度和準(zhǔn)確率。
表3 各模型的主要性能參數(shù)Table 3 Performance comparison between these models
從圖1、圖 2、圖 3可以看出,不論是 HM、BMLR還是SVM方法,對測試集中60個樣本的預(yù)測值均與實驗值有較好的一致性,預(yù)測精度令人滿意。比較模型中訓(xùn)練集和測試集的預(yù)測結(jié)果發(fā)現(xiàn),各子集的復(fù)相關(guān)系數(shù)均比較高,預(yù)測誤差較低,而且比較接近,這說明所建立的模型不但具備較強(qiáng)的預(yù)測能力,而且具有較強(qiáng)的泛化推廣性能。
由表3的數(shù)據(jù)可以看出,SVM方法不論在建模還是預(yù)測效果上都比 HM和B-MLR方法更好,性能更優(yōu)越。另外,SVM的模型中,測試集比訓(xùn)練集的復(fù)相關(guān)系數(shù)更高,說明模型具有更高的預(yù)測性能。其測試集的平均絕對誤差百分率 MAPE為4.4638%,與線性模型(11.6415%和 7.8281%)相比減小了許多,說明SVM模型的預(yù)測誤差有所減小,預(yù)測更準(zhǔn)確。因為SVM是一種基于結(jié)構(gòu)風(fēng)險最小化原則的機(jī)器學(xué)習(xí)方法,對于小樣本的研究體系具有較強(qiáng)的非線性擬合能力和較好的泛化推廣性能,這說明烴類物質(zhì)的沸點與其分子結(jié)構(gòu)間可能存在較強(qiáng)的非線性關(guān)系。
因此,將SVM用于烴類物質(zhì)沸點的QSPR研究是成功的,所建立的模型具有一定的穩(wěn)健能力和較強(qiáng)的預(yù)測性能。
分別采用 HM、B-MLR和SVM方法對296種烴類物質(zhì)的沸點進(jìn)行QSPR研究,建立了沸點的預(yù)測模型,其中以SVM方法所建立的模型性能最好,揭示了烴類物質(zhì)沸點與其分子結(jié)構(gòu)間可能存在的強(qiáng)烈的非線性關(guān)系,也說明了將 SVM方法應(yīng)用于QSPR研究的優(yōu)越性,它有效地解決了小樣本、非線性、過擬合、維數(shù)災(zāi)難和局部極小等問題,具有較強(qiáng)的泛化推廣性能。
[1]Jyrki Taskinen,Jouko Yliruusi.Prediction of physicochemical properties based on neural network modeling[J].Adv Drug Delivery Rev,2003,55:1163-1183.
[2]馮長君,沐來龍.邊支化度指數(shù)與環(huán)烷烴沸點的相關(guān)性[J].化學(xué)工業(yè)與工程,2005,22(5):338-341.
[3]孫海霞,周蓮.鏈烴的沸點與分子拓?fù)渲笖?shù) SZ[J].海南大學(xué)學(xué)報(自然科學(xué)版),2008,26(4):312-315.
[4]唐自強(qiáng),馮長君.Randic邊支化度指數(shù)與環(huán)烷烴沸點的相關(guān)性[J].遼寧工程技術(shù)大學(xué)學(xué)報(自然科學(xué)版),2008,27(5):795-797.
[5]劉鳳萍,梁逸曾,曹晨忠.拓?fù)?量子指數(shù)醛酮氣相色譜保留指數(shù)及沸點的定量構(gòu)效關(guān)系[J].分析化學(xué),2007,35(2):227-232.
[6]齊玉華,許祿,王淑云.量化參數(shù)在黃酮類化合物構(gòu)效關(guān)系研究中的應(yīng)用[J].計算機(jī)與應(yīng)用化學(xué),2000,17(1):29-31.
[7]禹新良,王學(xué)業(yè),高進(jìn)偉,等.用量子化學(xué)參數(shù)研究烯烴聚合物定量構(gòu)效關(guān)系[J].化學(xué)學(xué)報,2006,64(7):629-636.
[8]Vapnik V.Statistical Learning Theory[M].New York:Wiley,1998.
[9]Cortes C,Vapnik V.Support–Vector network[J].Machine Learning,1995,20:273-297.
[10]潘勇,蔣軍成,曹洪印,等.基于支持向量機(jī)方法的烴類物質(zhì)自燃點預(yù)測[J].石油學(xué)報,2009,25(2):222-227.
[11]Wang Jie,Du Hongying,Liu Huanxiang,et al.Prediction of surface tension for common compounds based on novel methods using heuristic method and support vector machine[J].Talanta,2007,73(1):147-156.
[12]馬喜波,閻愛俠.支持向量機(jī)算法用于烷基苯的熱容和標(biāo)準(zhǔn)焓值的預(yù)測[J].北京化工大學(xué)學(xué)報(自然科學(xué)版),2008,35(2):33-37.
[13]Vapnik.The Nature of Statistical Learning Theory[M].Springer-Verlag,New York,NY,1995.
[14]Department of chemistry of university of akron.The Chemical Database[OB/OL].[2010-01-16].http://ull.chemistry.uakron.edu/erd/.
[15]Katritzky A R,Perumal S,Petrukhin R.CODESSABase theoretical QSPR model for hydantoin HPLC-RT[J],J.Chem.Inf.Comput.Sci.,2001,41:569-574.
[16]Katritzky A R,Lobanov V S,Karelson M.CODESSA Version 2.0 Reference Manual[R].Florida:University of Florida,1997.
[17]Tropsha A,Gramatica P,Gombar V K.The importance of beingeamest Validation is the absolute essential for successful application and interpretation of QSPR models[J].QSAR Comb Sci,2003,22(1):69-77.
[18]Gramatica P,Pilutti P,Papa E.Validated QSAR prediction of OH tropospheric degradation of VOCs Splitting into training-test sets and consensus modeling[J].J Chem Inf Comput Sci,2004,44(5):1794-1802.
Quantitative structure-property relationships for boiling points of hydrocarbon compounds based on SVM
YANG Hui1,2,CHEN Li-ping2,XIE Chuan-xin1,SHI Ning1,CHEN Wang-hua2
(1,State Key Laboratory of Chemical Safety and Control,Qingdao 266071,China;2,Department of Safety Engineering,School of Chemical Engineering,Nanjing University of Science&Technology,Nanjing,210094,China)
296 molecular descriptors of hydrocarbon compounds were calculated by the CODESSA program,and these descriptors were pre-selected by heuristic method(HM)and best multi-linear regression method(B-MLR).Four-descriptor linear models were developed by the two methods to describe the relationship between the molecular structures and the boiling points.Using the four descriptors which were selected by B-MLR,the non-linear regression model was established based on the support vector machine(SVM).The predicted results indicated that the models had robustness,strong generative ability and small prediction error.The performance of the non-linear model(R2=0.9905,RMSE=10.2295)was better than that of the linear model(HM:R2=0.9819,RMSE=14.0606;B-MLR:R2=0.9842,RMSE=13.1058).
Hydrocarbon compounds;Boiling point;Support vector machine(SVM);Quantitative structure-property relationship(QSPR)
O622.1
A
1004-5309(2011)-0062-06
2010-11-12;修改日期:2010-12-16
化學(xué)品安全控制國家重點實驗室開放研究基金。
楊惠(1986-),女,湖北人,碩士研究生,安全技術(shù)及工程專業(yè),研究方向為化學(xué)品危險性定量構(gòu)效關(guān)系研究。
陳利平,講師,E-mail:clp2005@hotmail.com.