徐鏡善 王凱 袁哲明
摘要 首先基于支持向量回歸(SVR)依均方根誤差最小原則確定最優(yōu)核函數(shù),再以最優(yōu)核函數(shù)為基礎,進行SVR非線性自變量篩選,最后以所選自變量進行建模預測。將該方法應用于酚類化合物的QSAR研究,最優(yōu)核函數(shù)確定為徑向基核,最終保留自變量為疏水性參數(shù)(lgP)與拓撲指數(shù)(Am3)。結果表明:基于SVR進行變量篩選能有效地剔除無關自變量,進一步改進SVR對小樣本數(shù)據(jù)的建模預測能力。該方法在農(nóng)業(yè)環(huán)境毒性污染物的QSAR研究領域有較廣泛的應用前景。
關鍵詞 支持向量回歸;自變量篩選;定量構效關系;酚類化合物
中圖分類號 S11+1 文獻標識碼
A 文章編號 0517-6611(2014)13-03799-03
Abstract Firstly,the optimal kernel function was determined in accordance with the minimum root mean square error based on support vector regression (SVR),and then on the basis of the optimal kernel function,the independent variables were screened nonlinearly using SVR.Finally,modeling was conducted on the training set and prediction was performed on the test set using the selected independent variables.The method was applied to QSAR study of phenolic compounds,the optimal kernel function was determined as RBF kernel,the retained independent variables as hydrophobic parameter (lgP) and topological index Am3.The results show that irrelevant variables can be effectively eliminate using SVR to screen variables and prediction ability was further improved for SVR modeling on small sample data,this method has a potential application prospect in the QSAR research field of environmental toxic pollutants of agriculture.
Key words Support vector regression; Independent variable screening; Quantitative structureactivity relationships; Phenol compounds
據(jù)統(tǒng)計,當今人類50%的財富來自于化學品。隨著工業(yè)的高速發(fā)展,10萬多種化學制品被投入環(huán)境中。由于人們無限制地生產(chǎn)和濫用化學制品,一些有毒化學品必會被大量投放到環(huán)境中。酚類化合物是有機化學工業(yè)的基本原料,被廣泛用于工業(yè)制造如酚醛樹脂、合成纖維、炸藥、農(nóng)藥、石料及染料等[1]。與之相關的各類工業(yè)廢水、廢氣被大量地排放到生活環(huán)境中,給農(nóng)業(yè)生產(chǎn)、人類生活帶來極大的傷害。所以,正確評價酚類化合物等有機化合物的毒性效應是十分必要的。
化合物的分子結構可決定其性質。怎樣由化合物的分子結構預知其性質,并且確立其結構和性質之間定量化關系是一個關鍵問題。定量構效關系[2](Quantitative structure activity relationship,QSAR)是解決這一難題的途徑,可用來預測化合物的生物活性。酚類化合物種類繁多且分布廣泛,開展實地試驗費力、費時,而QSAR方法可以有效地估算這些化合物在環(huán)境中的毒性。
應用特征篩選方法選擇包含豐富信息的描述符是定量構效關系研究的重要步驟。常用方法有回歸分析、主成分分析(Principal component analysis,PCA)、逐步判別分析、偏最小二乘法分析(PLS)、遺傳算法(Genetic algorithm,GA)和人工神經(jīng)網(wǎng)絡(Artificial neural network,ANN)等[3]。以統(tǒng)計學習理論為基礎的支持向量機(Support vector machine,SVM)基于結構風險最小,較好地解決了局極小、非線性、過學習等問題,具有優(yōu)異泛化推廣能力[4-6]。QSAR方法首先利用理論計算計算得到化合物分子的結構參數(shù)或理化性質,再利用這些參數(shù)或性質對化合物進行分析,比傳統(tǒng)實驗測定省時、省力,甚至能對一些無法實驗測定的化合物進行分析[7-9]。結合SVM,筆者對酚類化合物進行了QSAR分析,以揭示對環(huán)境的影響。
1 材料與方法
1.1 數(shù)據(jù)來源
3 結論
采用SVR不同核函數(shù)對酚類化合物進行QSAR建模,再以最優(yōu)核函數(shù)基于SVR進行非線性變量篩選。對于該酚類化合物,首先SVR的最優(yōu)核函數(shù)確定為徑向基核,徑向基核函數(shù)也被其他研究者認可,并且得到廣泛使用;其次,保留的自變量為lgP與Am3,而V和V2均未保留,表明分子的拓撲結構與疏水性影響酚類化合物的麻醉毒性;最后,以保留自變量進行建模預測,其預測精度(Q2pred=0.934)優(yōu)于不經(jīng)變量篩選的SVR預測精度(Q2pred=0.898),亦優(yōu)于PLS與MLR的預測精度(Q2pred分別為0.894與0.895),其中PLS與MLR的建模效果相當。將不同的建模方法用于該酚類化合物的QSAR分析,結果表明SVR基于結構風險最小化原則,使得其對獨立測試樣本表現(xiàn)出較好的預測效果,泛化能力優(yōu)異;基于SVR的非線性變量篩選方法可有效地去除了冗余、不相關自變量,提升SVR的建模預測能力。該方法在環(huán)境毒性污染物(如酚類化合物)等的QSAR研究領域有較廣泛應用前景。然而,SVR也存在許多問題有待解決,例如最優(yōu)核函數(shù)的選取及核函數(shù)參數(shù)的優(yōu)化均需要理論、應用上的改進。
參考文獻
[1] 金相燦.有機化合物污染化學[M].北京:清華大學出版社,1990:49-73.
[2] 王連生,韓朔瞪,支正良.有機物定量結構-活性相關[M].北京:中國環(huán)境科學出版社,1993.
[3] 許祿,邵學廣.化學計量學方法[M].北京:科學出版社,1995.
[4] VAPNIK V.The nature of statistical learning theory[M].NY:Springer,2000.
[5] 鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法:支持向量機[M].北京:科學出版社,2004.
[6] 馬曉光,胡非.利用支撐向量機預報大氣污染物濃度[J].自然科學進展,2004,14(3):349-353.
[7] 鐘國華,胡美英.QSAR 及其在農(nóng)藥設計中的應用和進展[J].農(nóng)藥學學報,2001,3(2):1-11.
[8] 印家健,李夢龍,文志寧,等.支持向量回歸用于氨基酸描述符在肽 QSAR 建模中的性能評價[J].四川大學學報:自然科學版,2006(2):30.
[9] XIAO M,ZHENG G,YU T,et al.Quantitative structure and activity relationship studies on the toxicity of polychlorinated naphthalenes using support vector machines[J].Journal of Analytical Science,2007,23(2):143.
[10] 李劍,陳德釗,吳曉華,等.優(yōu)化的徑向基-循環(huán)子空間網(wǎng)絡為藥物定量構效關系建模[J].分析化學,2005,33(6):28-32.
[11] 郭明,許祿.酚類化合物的QSAR研究[J].環(huán)境科學學報,1998,18(12):122-127.
[12] TROPSHA A,GRAMATICA P,GOMBAR V K.The importance of being earnest:validation is the absolute essential for successful application and interpretation of QSPR models[J].QSAR & Combinatorial Science,2003,22(1):69-77.