霍衛(wèi)峰 高 娜 顏 巖 李激揚 于吉紅 徐如人
(吉林大學無機合成與制備化學國家重點實驗室,長春130012)
基于特征選擇的決策樹方法在磷酸鋁AlPO4-5定向合成中的應用
霍衛(wèi)峰 高 娜 顏 巖 李激揚*于吉紅 徐如人
(吉林大學無機合成與制備化學國家重點實驗室,長春130012)
分子篩類開放骨架材料的合成與結構關系研究對實現(xiàn)這類材料的定向合成起著至關重要的作用.本文在建立開放骨架磷酸鋁合成反應數(shù)據(jù)庫的基礎上,提出了利用基于特征選擇的決策樹(C5.0)方法,考察了不同反應條件(即各反應特征參數(shù))對磷酸鋁分子篩AlPO4-5生成的影響.基于決策樹模型,利用8個反應特征參數(shù),可以有效預測磷酸鋁分子篩AlPO4-5的生成,準確率達到88.18%,接收者操作特性(ROC)曲線下面積(AUC)達到90%.研究結果表明,在眾多的反應特征參數(shù)中,有機模板劑的幾何尺寸參數(shù),特別是模板劑的次長距離,是影響AlPO4-5分子篩合成的重要因素.
磷酸鋁;定向合成;數(shù)據(jù)挖掘;決策樹;特征選擇
以分子篩為代表的無機微孔材料在催化、吸附、離子交換、分離、主客體化學等領域有著極為廣泛的應用.1-5磷酸鋁系列分子篩是二十世紀八十年代開發(fā)的一類具有中性骨架的微孔材料,迄今已知的磷酸鋁分子篩結構已有60余種.AlPO4-5分子篩(結構代碼AFI)6為其中的典型代表,其無機骨架是由AlO4和PO4四面體通過共享氧原子嚴格交替形成,該類分子篩的主孔道由十二元環(huán)組成,孔徑為0.73 nm,與芳香化合物分子大小相當,在吸附和催化領域中具有重要應用.
無機微孔材料的定向合成是目前國際材料領域與分子工程學研究的重要前沿方向.然而,由于無機微孔晶體化合物的合成化學十分復雜,其晶化動力學受多種條件控制,如反應原料、凝膠組成、反應的pH值、有機模板劑、溶劑、晶化溫度和晶化時間等.至今,人們對其生成機理還沒有明確的認識,這就使這些材料的定向合成極具挑戰(zhàn)性.目前,國際上對于無機微孔晶體材料的設計與定向合成的研究還處于探索階段.深入研究水熱合成反應條件與產(chǎn)物結構之間的關系和規(guī)律對定向合成具有特定結構的微孔化合物至關重要.
近年來,數(shù)據(jù)挖掘領域的研究相當活躍,無論在理論上,還是在實用技術上都取得了喜人的成果.數(shù)據(jù)挖掘是從數(shù)據(jù)集中抽取和精化新的模式或知識,7,8挖掘數(shù)據(jù)中的隱藏信息.數(shù)據(jù)挖掘目前的熱點技術有查詢工具、統(tǒng)計技術、可視化、聚類、決策樹、關聯(lián)規(guī)則、神經(jīng)元網(wǎng)絡和遺傳算法等.數(shù)據(jù)挖掘在化學領域中的應用主要集中在檢索和處理原始數(shù)據(jù),9-11分子的描述符參數(shù)化,12-14統(tǒng)計方法分析,15-17專家系統(tǒng),18-20數(shù)據(jù)挖掘各種方法的應用21-24等方面.開放骨架結構磷酸鋁具有豐富的結構化學,便于收集數(shù)據(jù)和系統(tǒng)分析.為了運用數(shù)據(jù)挖掘方法深入研究磷酸鋁化合物反應過程中各種反應條件、有機模板劑和溶劑對最終產(chǎn)物結構的影響,我們研究小組在國際上率先建立了磷酸鋁合成反應數(shù)據(jù)庫(http://zeobank.jlu.edu.cn/),該數(shù)據(jù)庫包含大量的開放骨架磷酸鋁的合成反應數(shù)據(jù).在磷酸鋁合成數(shù)據(jù)庫建立的基礎上,利用初始的反應條件,用支持向量機方法預測了具有6和12元環(huán)孔道磷酸鋁分子篩的生成,預測準確率達到82%.24本文主要介紹決策樹結合特征選擇方法在AlPO4-5磷酸鋁分子篩定向合成中的應用.
在數(shù)據(jù)挖掘中,特征選擇是一個重要的步驟.特征選擇的主要目的是要從候選的輸入特征集合中找到一個合適的子集,使分類模型獲得較高的分類準確性.F-Score方法25是一種簡單的特征選擇方法,它通過計算每個特征的F-Score來判斷該特征對最終結果的重要性.然后使用由F-Score方法選擇的輸入特征子集,利用決策樹方法建立決策樹模型,并可以從中得到一些可供參考的規(guī)則.我們通過計算模型的分類準確率和其接收者操作特性(ROC)26曲線下面積(AUC)26值來評估模型的性能.
2.1 F-Score
F-Score是一種衡量特征集在兩類(正樣本和負樣本)之間辨別力的方法,該方法適用于數(shù)值型數(shù)據(jù).可以通過此方法實現(xiàn)最有效特征的選擇,其具體內(nèi)容如下:
2.2 決策樹
決策樹是用二叉樹形圖來表示處理邏輯的一種工具,它提供了一種展示IF-THEN規(guī)則的方法.構造決策樹采用分而治之的方法,根據(jù)訓練集從根節(jié)點開始逐個節(jié)點構造整棵樹.主要過程包括:令根節(jié)點處的訓練數(shù)據(jù)集為T(也稱根節(jié)點覆蓋了訓練集T),根據(jù)T來決定是否向下產(chǎn)生分枝以及分枝數(shù)量,然后把T劃分到各個分枝連接的子節(jié)點上,這樣重復進行,直到整棵樹不再產(chǎn)生任何分枝為止,就完成了整棵決策樹的構造.27決策樹擅長處理非數(shù)值型數(shù)據(jù),常見的決策樹算法有CART,28SPRINT,29RainForest,30ID3,31C4.5,27C5.032等.C5.0比C4.5在內(nèi)存使用及精度方面有所提高.C5.0在精度方面主要的改進緣于采用助推(boosting)方法.在構造決策樹時,用到信息論中熵的概念來選擇要檢驗的特征:
式中,Info(T?)稱為集合T?的平均信息量或信息熵,xi表示T?中標記為ci類別的樣例個數(shù),頻率xi/|T?|是對隨機樣例類別為ci的概率的估計.決策樹結構如圖1所示.
2.3 性能評估方法
評估分類模型性能的指標有:分類準確率、AUC、敏感度和特異度.描述規(guī)則的指標有:置信度和支持度.
其中,TP和TN是被正確分類的正樣本和負樣本的個數(shù),FP和FN是被錯誤分類的正樣本和負樣本的個數(shù).敏感度越高,正樣本被正確識別的機率越高.特異度越高,負樣本被正確識別的比例越高.ROC曲線26是一種基于TP和FP的方法,提供了一種兼顧敏感度和特異度的權衡,比單獨的分類準確率更好一些.AUC面積越大,表明該模型在敏感度和特異度上的均衡越佳.關于規(guī)則,我們用置信度和支持度這兩種方法來描述一條規(guī)則.假定有一條規(guī)則R在數(shù)據(jù)庫D中.含有規(guī)則R條件的樣本有N條,同時含有規(guī)則R條件和結論的樣本有n條.則置信度= n/N,支持度=n/|D|,|D|為數(shù)據(jù)庫D中的樣本個數(shù).
2.4 數(shù) 據(jù)
2.4.1 數(shù)據(jù)編碼與特征選取
圖1 決策樹結構示意圖Fig.1 Diagram of structure of decision tree
在磷酸鋁合成反應數(shù)據(jù)庫中,每條合成數(shù)據(jù)詳細記錄著合成某種磷酸鋁化合物的具體反應條件(反應特征),如反應原料、凝膠的組成、配比、溶劑和模板劑的種類、反應前后的pH值、晶化溫度、晶化時間及產(chǎn)物結構信息(產(chǎn)物特征)等.數(shù)據(jù)編碼主要是對合成反應數(shù)據(jù)中非數(shù)字的反應特征和產(chǎn)物特征,如溶劑和模板劑的種類和性質(zhì)、產(chǎn)物結構等進行參數(shù)化處理.為了詳細研究磷酸鋁化合物反應過程中各種反應條件、有機模板劑和溶劑對最終產(chǎn)物結構的影響,我們選取了26個反應特征參數(shù)(見表1)進行測試.
表1 26個輸入反應特征參數(shù)的描述Table 1 Description of 26 input synthetic features
圖2 數(shù)據(jù)挖掘過程示意圖Fig.2 Diagram of the data mining procedure
2.4.2 數(shù)據(jù)選取
從磷酸鋁合成反應數(shù)據(jù)庫中選擇數(shù)據(jù)1389條用于測試反應產(chǎn)物是否為AlPO4-5,其中反應生成物為AlPO4-5的數(shù)據(jù)282條(正樣本,占總樣本20.3%),反應生成物不是AlPO4-5的數(shù)據(jù)1107條(負樣本,占總樣本79.7%).
我們采用軟件See5試用版32來進行本文中的實驗.但是試用版See5一次只能處理不超過400條記錄;另一方面,在所有樣本中正負兩類樣本的分布非常不平衡.基于這些原因,我們采用向下隨機采樣方法設計了訓練集和測試集的產(chǎn)生方法(圖2).向上和向下隨機采樣方法是數(shù)據(jù)挖掘處理樣本不平衡問題時常用的方法,對于決策樹算法而言,向下隨機采樣方法比向上隨機采樣方法更容易得到好的結果.33另外,采用十重交叉驗證方法及See5默認的參數(shù)設置.
每次建模如圖2所示,分別得到訓練集和測試集.因為每次提取的訓練集不同,會導致不同的樹模型的生成.因此對每個特征子集進行10次建模,計算測試分類準確率.然后為每個特征子集選取分類準確率最高的模型作為其代表.利用ROC方法,從26個模型中選擇AUC最大的作為最終模型,并提取規(guī)則進行分析.
由于選取的反應特征較多,我們首先利用F-Score方法對各反應特征的重要性進行了排序,26個反應特征按F-Score高低順序依次排列如下: F11、F16、F18、F15、F9、F12、F4、F17、F22、F24、F26、F20、F8、F23、F13、F3、F25、F5、F7、F2、F6、F21、F14、F19、F10、F1(圖3).從圖3可以看出,參數(shù)F11、F16和F18這三個特征參數(shù)的得分明顯高于其他特征參數(shù),而F19、F10和F1的得分接近于零.這一結果表明,特征F11(T1_Distance2,即模板劑空間尺寸的次長距離)、F16(T1_CN,即模板劑分子中碳與氮原子個數(shù)比)和F18(T1_Charge_Density2,即氮原子個數(shù)/范德華體積)是決定最終產(chǎn)物類別的重要因素,其中F11是最關鍵的因素.我們采用SVM方法建立預測產(chǎn)物結構的過程中也得到了相同的結論.24對產(chǎn)物有較大影響的三個因素中,F11是有機模板劑分子的幾何參數(shù),F16與F18是電性質(zhì)參數(shù).而F19 (T1_Sanderson,即模板劑分子的Sanderson電負性)、F10(T1_Distance1,即模板劑分子空間尺寸的最長距離)和F1(Sol1_S,即反應使用溶劑摩爾量)對最終是否生成AlPO4-5的影響相對較小.綜合來看,模板劑對最終是否生成AlPO4-5的作用要大于溶劑.
圖3 26個特征的F-Score列表Fig.3 List of F-Scores of 26 features
表2 基于F-Score選定的26個特征子集Table 2 The 26 feature subsets based on F-Score
根據(jù)F-Score排序表,按高低順序逐個將特征加入到建模的輸入特征集合中(表2),建立26個工作模型.
圖4 26個代表模型的ROC曲線Fig.4 ROC curves of 26 models
針對每個特征子集,都建立10個模型,選擇測試準確率最高的作為該特征子集的代表模型.最終為這26個特征子集確立了26個代表模型.通過ROC方法從這26個模型中選取AUC最大的模型,作為最終的分類模型.各模型的ROC曲線如圖4所示.其中,第19個模型的AUC(90%)最大,即該模型為26個模型中兼顧特異度和敏感度最好的模型(圖5).
圖5 #19決策樹模型Fig.5 The#19 decision tree model
表3 根據(jù)模型#19所得到的2條規(guī)則Table 3 Two rules for the formation ofAlPO4-5 extracted from the model#19
圖6 AlPO4-5分子篩結構圖Fig.6 Structure of zeoliteAlPO4-5
該模型的準確率、敏感度、特異度分別為: 88.18%、92.96%、86.96%.
由該決策樹模型可以看出,模板劑空間尺寸的次長距離F11(T1_Distance2)是決定反應產(chǎn)物是否生成AlPO4-5的關鍵因素.其次,模板劑的電荷密度(T1_Charge_Density2和T1_Charge_Density1),模板劑分子的碳氮比(T1_CN)和模板劑可自由旋轉(zhuǎn)的單鍵數(shù)(T1_Flexibility)對AlPO4-5的生成也具有重要作用.這也進一步說明,有機模板劑是影響AlPO4-5生成的重要因素,只有具有合適的空間尺寸和電荷的有機模板劑才能導致磷酸鋁AlPO4-5的生成.
眾所周知,有機模板劑的幾何特征對于磷酸鋁骨架的形狀及其孔道大小有著極其重要的作用.AlPO4-5骨架結構中有6元環(huán)和12元環(huán)兩種孔道結構(圖6),在12元環(huán)的孔道中,有機模板劑分子的最長距離往往是沿著孔道的走向,而次長距離就成為決定孔徑尺寸大小的重要因素.計算得到的結果與經(jīng)驗知識相一致.
從該樹模型提取得生成AlPO4-5的一些較好的規(guī)則如表3所示.按規(guī)則在全部數(shù)據(jù)集中的置信度高低排列.
在全部數(shù)據(jù)集中,滿足第一條規(guī)則的記錄共44條,全部不生成AlPO4-5,置信度為1.0.這44條記錄共使用19種模板劑,均不是合成AlPO4-5常用的模板劑.滿足第二條規(guī)則的記錄共177條,其中有130條生成AlPO4-5,置信度為0.7345.這177條記錄共使用10種模板劑.其中,常用來合成AlPO4-5的有機模板劑有三乙胺(triethylamine),三乙醇胺(triethanolamine)和三乙基氫氧化銨(triethylammonium hydroxide)等.這些結果也與實際經(jīng)驗大致吻合.
采用了決策樹C5.0算法及F-Score特征選擇方法建立模型來預測影響磷酸鋁分子篩AlPO4-5生成的重要合成因素,并設計了訓練集和測試集的產(chǎn)生方法來解決樣本分布不均衡的問題,最終得到了較高預測準確度(88.18%)的模型,且該模型的AUC達到了90%.研究結果表明,有機模板劑是影響AlPO4-5分子篩生成的重要因素,在眾多的模板劑參數(shù)中,有機模板劑的幾何次長距離是影響分類最重要的因素.該研究也表明數(shù)據(jù)挖掘技術能夠分析和建立合成條件與產(chǎn)物結構間的關系,將為磷酸鋁無機微孔晶體的定向設計合成提供重要的基礎.
(1) Smit,B.;Maesen,T.L.M.Nature 2008,451,671.
(2) Chen,X.;Yang,H.;Gu,Z.Y.;Shao,Z.Z.J.Appl.Polym.Sci. 2001,79,1144.
(3) Rakoczy,R.A.;Traa,Y.Microporous Mesoporous Mat.2003, 60,69.
(4) Chang,C.F.;Chang,C.Y.;Chen K.H.;Tsai,W.T.;Shie,J.L.; Chen,Y.H.J.Colloid Interface Sci.2004,277(1),29.
(5) Shi,X.E.;Zhai,S.R.;Dai,L.Y.;Shan,Y.K.;He,M.Y.;Wei, W.;Wu,D.;Sun,Y.H.Acta Phys.-Chim.Sin.2004,20(3), 265.[師希娥,翟尚儒,戴立益,單永奎,何鳴元,魏 偉,吳 東,孫予罕.物理化學學報,2004,20(3),265.]
(6)Wilson,S.T.;Lok,B.M.;Messina,C.A.;Cannan,T.R.; Flanigen,E.M.J.Am.Chem.Soc.1982,104,1146.
(7) Witten,I.H.;Frank,E.Data Mining:Practical Machine Learning Tools and Techniques with Java Implementations; Morgan Kaufmann:San Francisco,2000;p xix.
(8)Han,J.W.;Kamber,M.Data Mining:Concepts and Techniques;Morgan Kaufmann:San Francisco,2001;p 7.
(9) Fletcher,D.A.;McMeeking,R.F.;Parkin,D.J.Chem.Inf. Comput.Sci.1996,36(4),746.
(10) Perola,E.;Xu,K.;Kollmeyer,T.M.;Kaufmann,S.H.; Prendergast,F.G.;.Pang,Y.P.J.Med.Chem.2000,43(3),401.
(11) Goto,S.;Nishioka,T.;Kanehisa,M.Bioinformatics 1998,14, 591.
(12) Sandberg,M.;Eriksson,L.;Jonsson,J.;Sj?str?m M.;Wold,S. J.Med.Chem.1998,41(14),2481.
(13) Karelson,M.;Lobanov,V.S.;Katritzky,A.R.Chem.Rev.1996, 96(3),1027.
(14)Karelson,M.Molecular Descriptors in QSAR/QSPR;John Wiley&Sons Ltd.:New York,2000.
(15) Bennett,C.A.;Franklin,N.L.Statistical Analysis in Chemistry and the Chemical Industry;John Wiley&Sons Ltd.:New York,1954.
(16)Allen,F.H.Acta Cryst.B 2002,58,380.
(17)Kraeft,W.D.;Kremp,D.;Ebeling,W.;Ropke,G.Quantum Statistics of Charged Particle Systems;Akademie-Verlag: Berlin,1986.
(18) Edwards,G.;Compton,P.;Malor,R.;Srinivasan,A.;Lazarus, L.Pathology 1993,25(1),27.
(19)Rich,S.H.;Venkatasubramanian,V.Comput.Chem.Eng.1987, 11(2),111.
(20) Barratt,M.D.;Basketter,D.A.;Chamberlain,M.;Admans,G. D.;Langowski,J.J.Toxicol.in Vitro 1994,8(5),1053.
(21) King,R.D.;Srinivasan,A.;Dehaspe,L.J.Comput.-Aided Mol. Des.2001,15(2),173.
(22) Zhang,J.H.;Wang,X.J.Acta Phys.-Chim.Sin.2010,26(1), 188. [張家虎,王秀軍.物理化學學報,2010,26(1),188.]
(23) Corma,A.;Diaz-Cabanas,M.J.;Jorda,J.L.;Martinez,C.; Moliner,M.Nature 2006,443,842.
(24) Li,J.Y.;Qi,M.;Kong J.;Wang,J.Z.;Yan,Y.;Huo,W.F.;Yu,J. H.;Xu,R.R.;Xu,Y.Microporous Mesoporous Mat.2010, 129,251.
(25) Chen,Y.W.;Lin,C.J.Combining SVMs with various feature selection strategies,2005.http://www.csie.ntu.edu.tw/~cjlin/ papers/features.pdf(accessed Oct 20,2009).
(26) Hanley,J.A.;McNeil,B.J.Radiology 1982,143,29.
(27) Quinlan,J.R.C4.5:Programs for Machine Learning;Morgan Kaufmann:San Francisco,1993.
(28) Breiman,L.;Friedman,J.H.;Olshen,R.A.;Stone,C.J. Classification and Regression Trees;Wadsworth:Belmont, 1984.
(29)Shafer,J.C.;Agrawal,R.;Mehta,M.SPRINT:AScalable Parallel Classifier for Data mining.In Very Large Data Bases, Proceedings of 22nd International Conference on Very Large Data Bases,Bombay,India,September,1996;Vijayaraman,T. M.,Buchmann,A.P.,Mohan,C.,Sarda,N.L.,Eds.;Morgan Kaufmann:San Francisco,1996;pp 544-555.
(30) Gehrke,J.;Ramakrishnan,R.;Ganti,V.Data Min.Knowl.Disc. 2000,4(2/3),127.
(31) Quinlan,J.R.Mach.Learn.1986,1,81.
(32) Quinlan,J.R.Data Mining Tools See5 and C5.0.http://www. rulequest.com/see5-info.html(accessed Nov 30,2007).
(33) Hoste,V.Optimization Issues in Machine Learning of Coreference Resolution.Ph.D.Dissertation,University of Antwerp,Belgium,2005.
April 26,2011;Revised:June 9,2011;Published on Web:June 24,2011.
Decision Trees Combined with Feature Selection for the Rational Synthesis of Aluminophosphate AlPO4-5
HUO Wei-Feng GAO Na YAN Yan LI Ji-Yang*YU Ji-Hong XU Ru-Ren
(State Key Laboratory of Inorganic Synthesis and Preparative Chemistry,Jilin University,Changchun 130012,P.R.China)
The relationship between the synthetic features and the types of final product is critical for the rational synthesis of zeolite-type open-framework materials.In this paper,an AlPO4-5 prediction system based on C5.0 combined with a feature selection is proposed on the basis of the establishment of a database of AlPO syntheses.26 synthetic parameters associated with gel composition,an organic amine template and a solvent were used as input to predict the formation of AlPO4-5.The effects of different synthetic parameters on the formation of AlPO4-5 were also studied.The performance of the method was evaluated using classification accuracy and a receiver operating characteristic(ROC)curve.The results show that the highest area under the ROC curve(90%)and the classification accuracy(88.18%)was obtained for the decision tree model that contains eight input features and some useful rules with high confidence degrees were extracted from the model.Among the various synthetic parameters the geometric size of the organic template,particularly the second longest distance of the template plays an important role in the formation of AlPO4-5.
Aluminophosphate;Rational synthesis;Data mining;Decision tree;Feature selection
?Corresponding author.Email:lijiyang@jlu.edu.cn;Tel:+86-431-85168614.
The project was supported by the National Natural Science Foundation of China(20871051).
國家自然科學基金(20871051)資助項目
O641;O639