亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘方法的開放骨架磷酸鋁定向合成參數(shù)分析

        2016-09-18 07:59:40郭羽婷史瑞新王建中東北師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院長春07吉林大學(xué)化學(xué)學(xué)院長春00吉林大學(xué)口腔醫(yī)學(xué)院長春00
        關(guān)鍵詞:特征選擇子集骨架

        郭羽婷 高 娜 史瑞新 齊 妙 王建中*,(東北師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,長春 07)(吉林大學(xué)化學(xué)學(xué)院,長春 00)(吉林大學(xué)口腔醫(yī)學(xué)院,長春00)

        基于數(shù)據(jù)挖掘方法的開放骨架磷酸鋁定向合成參數(shù)分析

        郭羽婷1高娜2史瑞新3齊妙1王建中*,1
        (1東北師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,長春130117)
        (2吉林大學(xué)化學(xué)學(xué)院,長春130012)
        (3吉林大學(xué)口腔醫(yī)學(xué)院,長春130021)

        開放骨架磷酸鋁化合物是多孔晶體材料的一個重要家族。然而,這類材料的合成受到反應(yīng)原料、凝膠組成、溶劑、模板劑、結(jié)晶溫度和結(jié)晶時(shí)間等多個因素的影響。本文以吉林大學(xué)“無機(jī)制備與合成化學(xué)國家重點(diǎn)實(shí)驗(yàn)室”建立的開放骨架磷酸鋁合成反應(yīng)數(shù)據(jù)庫為研究對象,采用最大權(quán)重最小冗余特征選擇算法(Maximum weight and minimum redundancy,MWMR),在充分考慮合成參數(shù)自身的重要程度和合成參數(shù)之間的相關(guān)關(guān)系的前提下,分析了溶劑、模板劑等合成參數(shù)對于合成含有(8,6)元環(huán)結(jié)構(gòu)開放骨架磷酸鋁的影響。通過大量實(shí)驗(yàn)驗(yàn)證了該方法在開放骨架磷酸鋁合成參數(shù)分析中的有效性,分析了合成參數(shù)對產(chǎn)物生成的影響。實(shí)驗(yàn)結(jié)果表明模板劑的幾何參數(shù)、模板劑中C原子和N原子的個數(shù)比,溶劑的偶極距等參數(shù)可能對于該類結(jié)構(gòu)的合成具有較為重要的影響。

        開放骨架磷酸鋁;合成參數(shù);數(shù)據(jù)挖掘;特征選擇

        開放骨架磷酸鋁材料以其豐富的孔道結(jié)構(gòu)、多樣的元素組成在催化、吸附和分離等領(lǐng)域有著潛在的應(yīng)用價(jià)值。然而,這類材料的合成受到多個合成參數(shù)的影響,其結(jié)晶機(jī)理難以理解和難以建模,給定向合成帶來巨大的挑戰(zhàn)[1]。為了深入理解開放骨架磷酸鋁材料的形成機(jī)理,吉林大學(xué)“無機(jī)制備與合成化學(xué)國家重點(diǎn)實(shí)驗(yàn)室”在國際上率先建立了開放骨架磷酸鋁(AlPOs)合成反應(yīng)數(shù)據(jù)庫[2-3]。

        數(shù)據(jù)挖掘技術(shù)可以從大量數(shù)據(jù)中提取或“挖掘”知識,是一種基于機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等的決策支持過程[4-5]。通過數(shù)據(jù)挖掘方法進(jìn)行數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的信息,對各個領(lǐng)域的研究均做出了較大的貢獻(xiàn)。特征選擇是一種重要的數(shù)據(jù)挖掘技術(shù)。特征選擇是指根據(jù)某種評估標(biāo)準(zhǔn),選擇出數(shù)量較少、評估效果較好的特征子集[6]。

        通過特征選擇技術(shù)可以深入分析數(shù)據(jù)本質(zhì),挖掘隱藏在大量數(shù)據(jù)中的潛在信息。相關(guān)領(lǐng)域研究者以吉林大學(xué)建立的磷酸鋁合成反應(yīng)數(shù)據(jù)庫為研究對象,利用特征選擇方法開展了合成參數(shù)分析相關(guān)的一系列研究。文獻(xiàn)[7]通過一種窮盡搜索的策略分析了11個合成參數(shù)對于含有(12,6)元環(huán)結(jié)構(gòu)AlPOs生成的影響。文獻(xiàn)[8]采用基于決策樹的特征選擇方法分析了26個合成參數(shù)對于合成AlPO4-5的影響。文獻(xiàn)[9]將含有(12,6)元環(huán)結(jié)構(gòu)的AlPOs作為研究對象,提出了一種基于融合學(xué)習(xí)與特征選擇的分類方法,分析合成參數(shù)對于該類結(jié)構(gòu)合成的影響。文獻(xiàn)[10]提出了一種基于隨機(jī)子空間、Fisher得分和順序前向搜索的特征選擇模型,分析了合成參數(shù)與產(chǎn)物結(jié)構(gòu)之間的關(guān)系。文獻(xiàn)[11]根據(jù)經(jīng)驗(yàn)知識對含有(8,6)元環(huán)結(jié)構(gòu)AlPOs的合成參數(shù)進(jìn)行了分析,并利用支持向量機(jī)對其結(jié)論作了驗(yàn)證。

        已有工作充分證明了特征選擇技術(shù)在磷酸鋁合成參數(shù)分析中應(yīng)用的有效性和可行性。但存在以下局限:已有工作在特征選擇過程中沒有考慮特征之間的相互依賴關(guān)系,即相關(guān)關(guān)系。文獻(xiàn)[23]已驗(yàn)證了考慮特征之間相關(guān)關(guān)系在特征選擇中的重要性。特征之間的相關(guān)關(guān)系一般用相關(guān)系數(shù)度量。兩個特征之間的相關(guān)系數(shù)絕對值越大,它們之間的相互依賴關(guān)系就越強(qiáng)。在AlPOs合成反應(yīng)數(shù)據(jù)庫中,合成參數(shù)之間存在著比較嚴(yán)重的相關(guān)關(guān)系。如表1的合成參數(shù)中,F(xiàn)14與F20、F17與F18的相關(guān)系數(shù)分別為0.91、0.95,而F8與F10的相關(guān)系數(shù)盡高達(dá)0.99。如果在特征選擇過程中沒有考慮特征之間的相關(guān)關(guān)系,最終結(jié)果將很有可能包含冗余信息,影響最終結(jié)論。

        為了進(jìn)一步完善有關(guān)AlPOs合成參數(shù)的分析工作,本文在充分的考慮了特征本身重要程度與特征之間相關(guān)關(guān)系的前提下,采用最大權(quán)重最小冗余算法(Maximum Weight and Minimum Redundancy,MWMR)[12],深入挖掘各種參數(shù)對于AlPOs定向合成的影響,為定向合成實(shí)驗(yàn)設(shè)計(jì)提供指導(dǎo)性建議。

        表1 合成參數(shù)描述Table 1 Description of the synthetic parameters*

        1 方法與實(shí)驗(yàn)

        1.1相關(guān)方法簡介

        1.1.1最大權(quán)重最小冗余特征選擇算法

        假設(shè)輸入數(shù)據(jù)包含n個樣本,D個特征。W=[w1,w2,…wD]T∈RD×1表示每個特征重要程度或權(quán)重,其中,wi>0,wi越大,相應(yīng)的特征越重要。特征的權(quán)重可以使用任意經(jīng)典的權(quán)重度量方法獲得。R∈RD×D表示特征的相關(guān)矩陣。MWMR算法的目的是從原始特征集的D個特征中選出d個特征形成一個新的特征子集V,使V中d個特征的特征權(quán)重最大而特征之間的相關(guān)性最小。其目標(biāo)函數(shù)定義為:

        其中,y=[y1,y2,…,yD]T是指示向量,yi=1(或0)表示第i個特征被選擇到(或沒有被選擇到)V中。在公式(1)中,第一項(xiàng)表示選擇到的d個特征的平均權(quán)重,第二項(xiàng)表示選擇到的d個特征的平均相關(guān)系數(shù),而約束項(xiàng)則用來約束選擇到的特征子集V中的特征為d個。因此,通過最大化公式(1)中的目標(biāo)函數(shù)就可以保證V中所選的d個特征最為重要且冗余程度最小。

        為了求解容易,放松MWMR約束條件,將公式(1)轉(zhuǎn)變成公式(2):

        公式(2)將對y取值的約束放松到[0,1]。y中元素值的大小代表其所對應(yīng)的特征被選入V的概率。公式(2)中的目標(biāo)公式是最大化一個二次函數(shù),與標(biāo)準(zhǔn)二次規(guī)劃問題相似。在這里MWMR引入類似于文獻(xiàn)[13]的成對更新方法來求解公式(2)的最大化問題。成對更新策略是一個迭代更新的過程。在成對更新求解策略中,每次迭代更新只更新y中兩個元素(yi和yj,i≠j)的值。求解公式(2)的成對更新策略定義為:

        其中,α為yi和yj更新的變化。更新后,計(jì)算更新yi和yj前后公式(2)的差值變化:

        通過使用公式(3)和公式(5)迭代更新y中成對元素值,就可以求得使公式(2)中目標(biāo)函數(shù)最大值的y[13]。實(shí)驗(yàn)驗(yàn)證[12]該求解方法的效率與精度均優(yōu)于標(biāo)準(zhǔn)二次規(guī)劃。

        1.1.2Fisher得分

        Fisher得分[14]是一種依據(jù)Fisher準(zhǔn)則給特征判別能力打分的特征選擇方法。Fisher準(zhǔn)則在最大化類間離散程度的同時(shí)最小化類內(nèi)離散程度。第i個特征Fi的Fisher得分定義為:

        其中,T為樣本的類別總數(shù),nj代表第j( j=1,…,T)類樣本的樣本個數(shù),mij、σij和mi表示在第i個特征下第j類樣本的均值、方差和樣本的整體均值。公式(6)的分母和分子部分分別表示數(shù)據(jù)在第i個特征下各類的類內(nèi)離散程度和類間離散程度。

        1.1.3Gini得分

        Gini得分[15]是一種基于Gini指數(shù)(Gini Index)的特征選擇方法。假設(shè)樣本集U屬于T個不同的類別,則U的Gini指數(shù)定義為:

        其中pi是U中樣本屬于第i類的概率。Gini指數(shù)也表示集合中樣本所屬類別的“不純度”。當(dāng)集合中所有樣本都屬于同一個類時(shí),集合的“不純度”為0。對于第i個特征,遍歷特征Fi的所有取值,按其不同取值將數(shù)據(jù)集U劃分為T個子集,集合U劃分后所有子集的最小Gini指數(shù)和即是該特征的Gini得分。

        1.1.4Relief-F得分

        Relief-F得分[16]方法的主要思想是:一個重要的特征,可以使同類的樣本距離近,而使不同類的樣本距離遠(yuǎn)。根據(jù)該思想,每次隨機(jī)地從原始樣本集中選擇一個樣本記為S。Relief-F得分是根據(jù)選中的樣本S與和它在同一個類別的最近的樣本H(稱為nearest hit)的距離,和與S不屬于同一類別的其它各個類中與S最近的樣本(稱為M(T))之間的距離來更新的。因此第i個特征Fi的權(quán)重更新公式如下:

        其中,f(Fi,S,H)是計(jì)算樣本S與和S同類的最近樣本H在特征Fi下的距離,f(Fi,S,M(T))是計(jì)算樣本S 和S不同類的那些最近鄰樣本M(T)在特征Fi下的距離,l為隨機(jī)選擇樣本的次數(shù)。

        1.1.5單邊秩和檢驗(yàn)

        秩和檢驗(yàn)由Wilcoxon于1945年提出[17],是一種常用的假設(shè)檢驗(yàn)方法。雙邊秩和檢驗(yàn)可以檢驗(yàn)A、B兩組樣本是否具有明顯差異,而單邊秩和檢驗(yàn)則可以檢驗(yàn)A組樣本是否明顯大于或明顯小于B組樣本。將觀察值由小到大按次序排列后所編的次序號稱為秩,用秩次號代替原始數(shù)據(jù)后,所得的某些秩次之和稱為秩和,而秩和檢驗(yàn)則是用統(tǒng)計(jì)量“秩和”進(jìn)行的假設(shè)檢驗(yàn)。單邊秩和檢驗(yàn)的過程如下:(1)建立檢驗(yàn)假設(shè),確定檢驗(yàn)水準(zhǔn)α。原假設(shè)H0為:兩組樣本沒有明顯差異;備擇假設(shè)H1為:A樣本明顯大于(或小于)B組樣本。(2)把A組樣本和B組樣本混合起來,并按數(shù)值從小到大順序編號,每個數(shù)據(jù)的編號即為它的秩。(3)分別計(jì)算兩組樣本的秩和。n1為樣本量較小的樣本容量,n2是另一組樣本的樣本容量。Z1為樣本量較小的一組的秩和,Z2為另外一組的秩和。(4)確定統(tǒng)計(jì)量Z:若n1≠n2,則Z=Z1;若n1=n2,則Z=Z1或Z=Z2。(5)根據(jù)檢驗(yàn)統(tǒng)計(jì)量Z,確定p值。如果p值小于或等于臨界值α,則原假設(shè)被拒絕。

        1.2實(shí)驗(yàn)數(shù)據(jù)

        含有8元環(huán)結(jié)構(gòu)的磷酸鋁分子篩是比較典型的小孔分子篩,孔徑尺寸大概處于0.38~0.4 nm之間,可被用于催化和氣體分離[18-19]。開放骨架磷酸鋁合成反應(yīng)數(shù)據(jù)庫大約包含1 700條合成反應(yīng)數(shù)據(jù)。去除數(shù)據(jù)庫中含有缺失項(xiàng)較多的數(shù)據(jù)后,本文使用剩余的1 279條磷酸鋁合成反應(yīng)數(shù)據(jù)作為實(shí)驗(yàn)樣本。其中,365條數(shù)據(jù)包含(8,6)元環(huán)結(jié)構(gòu),即該類開放骨架磷酸鋁結(jié)構(gòu)既包含8元環(huán)結(jié)構(gòu)又包含6元環(huán)結(jié)構(gòu),如圖1所示。本文選取21個合成參數(shù)(或特征)進(jìn)行分析,如表1。

        圖1 含有(8,6)元環(huán)結(jié)構(gòu)的AlPOs舉例: (a)骨架結(jié)構(gòu)為AEN的AlPOs; (b)骨架結(jié)構(gòu)為AWO的AlPOsFig.1 Examples of (8,6)-ring-containing AlPOs: (a) AEN-zeotype AlPOs; (b) AWO-zeotype AlPOs

        文獻(xiàn)[7]認(rèn)為,凝膠組成是開放骨架磷酸鋁合成至關(guān)重要的參數(shù),因此文獻(xiàn)[7]將凝膠組成參數(shù)作為分類器的默認(rèn)輸入,即在考量某參數(shù)對于數(shù)據(jù)的分類效果時(shí),凝膠組成參數(shù)默認(rèn)與待考量參數(shù)一起對數(shù)據(jù)進(jìn)行分類。本文沿用文獻(xiàn)[7]的參數(shù)取舍方法,將表1中4個凝膠組成參數(shù)作為分類模型的默認(rèn)輸入,而只具體分析其它17個合成參數(shù)。

        1.3實(shí)驗(yàn)過程

        實(shí)驗(yàn)的樣本容量為1 279,樣本維數(shù)為17維。在本文中,樣本維數(shù)指描述每個合成樣本的合成參數(shù)個數(shù),即表1中F5~F12每個參數(shù)為一個維度。使用不同特征選擇方法從原始特征集中選擇1到17維特征,即可以得到包含1到17維特征的17個特征子集。使用每個特征子集對數(shù)據(jù)進(jìn)行分類,獲得最好分類效果的特征子集則是最優(yōu)特征子集。由于最優(yōu)特征子集達(dá)到了對含有(8,6)元環(huán)結(jié)構(gòu)AlPOs樣本和其它樣本分類的最好效果,因此其包含的特征對于該類合成的影響是較大的。

        實(shí)驗(yàn)使用十折交叉驗(yàn)證(10-fold Cross Validation)的方式,即將數(shù)據(jù)集分成10份(每份的樣本容量大約為128),輪流將其中9份(樣本容量大約為1 152)做訓(xùn)練,剩余的1份(樣本容量大約為128)做驗(yàn)證,而最終根據(jù)10次結(jié)果的均值作為對算法分類精度的估計(jì)。在分類過程中,含有(8,6)元環(huán)AlPOs的樣本容量為365,其它樣本的樣本容量為914,兩類樣本的樣本容量較為懸殊。因此,本文采用對類不平衡問題較不敏感的最近鄰分類器(Nearest Neighbor,NN)[20]和支持向量機(jī)(Support Vector Machine,SVM)[21]作為分類模型。實(shí)驗(yàn)中,SVM的核函數(shù)采用徑向基函數(shù),因此需要優(yōu)化的主要參數(shù)為懲罰系數(shù)C和徑向基函數(shù)參數(shù)γ。參數(shù)C和γ采用網(wǎng)格搜索法進(jìn)行優(yōu)化,即設(shè)定C∈[C1,C2],步長為lc,γ∈[g1,g2],步長為lg。然后使SVM遍歷每對{C′,γ′}的取值,用訓(xùn)練樣本訓(xùn)練SVM分類器,并用訓(xùn)練好的分類器對測試集分類,獲得最好分類效果的參數(shù)被確定為最優(yōu)參數(shù)。分類效果評價(jià)指標(biāo)采用分類正確率(Acc-Rate)和F-measure[22]。在MWMR算法中,特征的重要程度分別采用Fisher得分、ReliefF得分和Gini得分度量,特征之間相關(guān)程度采用相關(guān)系數(shù)度量。MWMR-Fisher、MWMR-ReliefF、MWMR-Gini分別表示以Fisher得分、ReliefF得分、Gini得分度量特征權(quán)重,以相關(guān)系數(shù)度量特征之間相關(guān)程度的MWMR。

        2 結(jié)果與討論

        2.1實(shí)驗(yàn)結(jié)果

        我們將MWMR-Fisher、MWMR-ReliefF、MWMR -Gini與經(jīng)典的Fisher得分、ReliefF得分、Gini得分對于含有(8,6)元環(huán)結(jié)構(gòu)AlPOs特征選擇的效果進(jìn)行比較,并且比較以不同權(quán)重度量方法度量特征權(quán)重的MWMR的實(shí)驗(yàn)結(jié)果。

        具體實(shí)驗(yàn)結(jié)果如下:(1)通過比較MWMR與三種經(jīng)典特征選擇方法可以發(fā)現(xiàn),由于考慮了特征之間的相關(guān)性,MWMR取得了較其相應(yīng)經(jīng)典方法更好的分類效果;(2)通過比較以不同權(quán)重度量方法度量特征權(quán)重的MWMR可以發(fā)現(xiàn),MWMR-Fisher選擇9維特征、采用最近鄰分類器達(dá)到了對數(shù)據(jù)進(jìn)行分類的最高Acc-Rate 90.89%和F-measure 0.84。(3)從以上實(shí)驗(yàn)結(jié)果可以看出,MWMR-Fisher在選擇9維特征時(shí)獲得的特征子集可能對該類結(jié)構(gòu)的合成具有較大的影響。根據(jù)實(shí)驗(yàn)結(jié)果我們得出對于含有(8,6)元環(huán)結(jié)構(gòu)AlPOs合成較為重要的特征子集是:{F6,F(xiàn)9,F(xiàn)11,F(xiàn)12,F(xiàn)14,F(xiàn)15,F(xiàn)16,F(xiàn)17,F(xiàn)19}。

        由于MWMR在特征選擇過程中,同時(shí)考慮了特征本身的重要程度和特征之間的相關(guān)程度,因此其取得了較好的實(shí)驗(yàn)效果。為了衡量每種方法所選出的最優(yōu)特征子集所包含特征的相關(guān)程度,我們計(jì)算了各方法所選最優(yōu)特征子集中每對特征之間相關(guān)系數(shù)的算數(shù)平均數(shù),即平均相關(guān)系數(shù)(如表2所示)。從表2可以看出,MWMR選擇的最優(yōu)特征子集的平均相關(guān)系數(shù)均要低于其相應(yīng)的經(jīng)典特征選擇方法(如MWMR-Fisher和Fisher)。

        表2 平均相關(guān)系數(shù)Table 2 Mean of correlations among the optimal features

        2.2與文獻(xiàn)已有工作的比較

        文獻(xiàn)[11]中,無機(jī)化學(xué)分子工程學(xué)研究者根據(jù)經(jīng)驗(yàn)知識對含有(8,6)元環(huán)結(jié)構(gòu)AlPOs的合成參數(shù)做了一系列分析和驗(yàn)證。我們比較了本文得出的最優(yōu)特征子集與文獻(xiàn)[11]結(jié)論中的最優(yōu)特征子集對數(shù)據(jù)的分類能力。當(dāng)采用最近鄰分類器作為分類模型時(shí),文獻(xiàn)[11]和MWMR-Fisher所選特征得到的Acc-Rate、F-measure分別是85.65%、0.74和90.89%、0.84;當(dāng)采用支持向量機(jī)作為分類模型時(shí),文獻(xiàn)[11] 和MWMR-Fisher所選特征得到的Acc-Rate、F-measure分別是84.13%、0.68和90.30%、0.82。從實(shí)驗(yàn)結(jié)果可以看出,MWMR-Fisher選擇的最優(yōu)特征子集可以獲得較文獻(xiàn)[11]更好分類效果。

        為了驗(yàn)證MWMR-Fisher選擇的最優(yōu)特征子集對于數(shù)據(jù)進(jìn)行分類的優(yōu)勢,下面采用單邊秩和檢驗(yàn)驗(yàn)證MWMR-Fisher選出的最優(yōu)特征子集在兩種分類模型下獲得的Acc-Rate和F-measure是否明顯高于文獻(xiàn)[11]。在這個假設(shè)檢驗(yàn)中,原始假設(shè)H0為:采用MWMR-Fisher與文獻(xiàn)[11]選擇的最優(yōu)特征子集對數(shù)據(jù)進(jìn)行分類獲得的Acc-Rate或F-measure沒有明顯差異,備擇假設(shè)H1為:采用MWMR-Fisher選擇的最優(yōu)特征子集對數(shù)據(jù)進(jìn)行分類所獲得的Acc-Rate或F-measure明顯高于文獻(xiàn)[11]。實(shí)驗(yàn)中,顯著性水平α設(shè)為0.05,表3列出了單邊秩和檢驗(yàn)結(jié)果。

        表3 秩和檢驗(yàn)的p值Table 3 p-value of the rank sum test

        從表3可以看出,在采用最近鄰分類器和支持向量機(jī)作為分類模型時(shí),p都小于0.05。因此本文的結(jié)論明顯優(yōu)于文獻(xiàn)[11]。文獻(xiàn)[11]僅僅從經(jīng)驗(yàn)知識角度研究了含有(8,6)元環(huán)結(jié)構(gòu)AlPOs的合成參數(shù),并沒有從數(shù)據(jù)本身及方法模型上做分析。因此,文獻(xiàn)[11]選出的特征子集中特征數(shù)量較少,并不能完全涵蓋對合成起重要作用的特征。

        2.3結(jié)果分析

        MWMR-Fisher選擇9維特征、采用最近鄰分類器時(shí),可以獲得對于含(8,6)元環(huán)結(jié)構(gòu)AlPOs預(yù)測的最佳效果。因此,根據(jù)實(shí)驗(yàn)結(jié)果可以推斷:溶劑的熔點(diǎn)、溶劑的偶極距、有機(jī)模板的最長距離、有機(jī)模板的次長距離、模板劑分子空間體積、模板劑分子極性、模板劑中C原子和N原子的個數(shù)比、模板劑中N原子與C加N原子個數(shù)比以及模板劑分子Sanderson電負(fù)性可能對該類結(jié)構(gòu)的合成產(chǎn)生較為重要的作用。

        MWMR算法在選擇一維特征時(shí),僅僅考慮特征的重要程度,因此在第一維選擇的特征是最重要的。當(dāng)選擇二維特征時(shí),MWMR同時(shí)考慮待選特征集中特征的重要性和待選特征與已選特征之間的相關(guān)關(guān)系,因此在第二維新進(jìn)入最優(yōu)特征子集的特征是第二重要的特征。以此類推,在遍歷的選擇1~d維特征時(shí)(d為最優(yōu)子集包含的特征個數(shù)),我們認(rèn)為特征進(jìn)入最優(yōu)特征子集的順序代表其相應(yīng)的重要程度。那么,由MWMR-Fisher獲得的最優(yōu)特征子集將形成一個按由重要性從大到小降序排序的序列:F11,F(xiàn)16,F(xiàn)9,F(xiàn)19,F(xiàn)15,F(xiàn)6,F(xiàn)12,F(xiàn)17,F(xiàn)14。從這個序列可以看出,有機(jī)模板劑的最長距離(F11)是最為重要的一個合成參數(shù)。使用該參數(shù)在最近鄰分類器下對數(shù)據(jù)進(jìn)行分類,Acc-Rate可達(dá)88.01%。模板劑中C原子和N原子的個數(shù)比(F16)這個參數(shù)在序列中排位第二,顯示其重要程度僅次于有機(jī)模板劑的最長距離。而在觀察MWMR-Fisher遍歷選擇1到17維特征的實(shí)驗(yàn)結(jié)果時(shí)發(fā)現(xiàn),當(dāng)在第二維F16加入最優(yōu)特征子集后,Acc-Rate曲線呈現(xiàn)出了非常明顯的上升(從88.01%到89.87%)。模板劑中C原子和N原子的個數(shù)比(F16)這個參數(shù)描述的是模板劑分子的親水性和疏水性,因此,可以推斷模板劑分子的親水性和疏水性對于該類結(jié)構(gòu)的合成可能有較大的影響。排在重要性序列第三位的是溶劑的偶極距(F9),由此可以看出溶劑的極性參數(shù)也是較為重要的。而在化合實(shí)驗(yàn)中,溶劑極性的變化確實(shí)能導(dǎo)致最終產(chǎn)物的改變。其次,對該類結(jié)構(gòu)形成影響較大的特征依次為模板劑分子Sanderson電負(fù)性(主要是分布在N原子上的電荷)(F19)、模板劑分子極性(F15)和溶劑的沸點(diǎn)(F6)等。從這個序列我們也可以看出,重要特征中共包含了3個模板劑的幾何參數(shù)(有機(jī)模板的最長距離(F11),有機(jī)模板的次長距離(F12)和模板劑分子空間體積(F14)),因此,我們推斷有機(jī)模板劑的幾何屬性對于該類結(jié)構(gòu)的合成可能有著至關(guān)重要的作用。

        3 總 結(jié)

        本文將MWMR算法應(yīng)用到開放骨架磷酸鋁合成參數(shù)的分析問題當(dāng)中。實(shí)驗(yàn)中,首先比較了采用不同特征權(quán)重度量方法的MWMR與相應(yīng)過濾式特征選擇方法對于開放骨架磷酸鋁特征選擇的效果,然后將本文的工作與有關(guān)開放骨架磷酸鋁參數(shù)分析的已有文獻(xiàn)工作做了對比。通過實(shí)驗(yàn)和對比,充分地驗(yàn)證了該算法在開放骨架磷酸鋁合成反應(yīng)數(shù)據(jù)庫合成參數(shù)分析中的有效性,并挖掘了合成參數(shù)對于定向合成含有(8,6)元環(huán)結(jié)構(gòu)開放骨架磷酸鋁的影響,為其定向合成提供指導(dǎo)。

        [1] XU Ru-Ren(徐如人), PANG Wen-Qin(龐文琴), YU Ji-Hong(于吉紅), et al. Chemistry-zeolite and Porous Materials(分子篩與多孔材料化學(xué)). Beijing: Science Press, 2004:1-23

        [2] YAN Yan(顏巖), LI Ji-Yang(李激揚(yáng)), QI Miao(齊妙), et al. Sci. China, Ser. B Chem.(中國科學(xué)B輯:化學(xué)), 2009,39 (11):1308-1313

        [3] http://zeobank.jlu.edu.cn/

        [4] Han J, Kamber M. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufman, 2001.

        [5] Witten H, Frank E. Data Mining: Practical Machine Learning Tools and Techniques. San Francisco: Morgan Kaufman, 2005.

        [6] Cord M, Cunningham P. Machine Learning Techniques for Multimedia. Berlin Heidelberg: Springer, 2008:91-112

        [7] Li J Y, Qi M, Kong J, et al. Microporous Mesoporous Mater., 2010,129:251-255

        [8] HUO Wei-Feng(霍衛(wèi)峰), GAO Na(高娜), YAN Yan(顏巖), et al. Acta Phys. Chim. Sin.(物理化學(xué)學(xué)報(bào)), 2011,27(9): 2111-2117

        [9] Yao M H, Qi M, Li J S, et al. Microporous Mesoporous Mater., 2014,186:201-206

        [10]Qi M, Li J S, Wang J Z, et al. Ind. Eng. Chem. Res., 2012, 51(51):16734-16740

        [11]Gao N, Yan Y, Li J S, et al. Microporous Mesoporous Mater., 2014,195:174-179

        [12]Wang J Z, Wu L S, Kong J, et al. Pattern Recognit., 2013, 46:1616-1627

        [13]Liu H R, Yang X W, Latecki L J, et al. Int. J. Comput. Vision, 2012,98(1):65-82

        [14]Fisher R A. Ann. Eugenics, 1936,7(2):179-188

        [15]Gini C. Variabilita e mutabilita. Bologna: Tipografia di Paolo Cuppini, 1912.

        [16]Kononenko I. Proceedings of the 7th European Conference in Machine Learning. Berlin: Springer, 1994:171-182

        [17]Wilcoxon F. Biometrics Bulletin, 1945,1(6):80-83

        [18]Lewis D W, Sankar G, Wyles J K, et al. Angew. Chem. Int. Ed. Engl., 1997,36(23):2675-2677

        [19]Padin J, Rege S U, Yang R T. Chem. Eng. Sci., 2000,55 (20):4525-4535

        [20]Cover T M, Hart P E. IEEE Trans. Inf. Theory, 1967,13(1): 21-27

        [21]Vapnik V. The Nature of Statistical Learning Theory. New York: Springer, 1995.

        [22]Rijsbergen C. Information Retrieval. London: Butterworths, 1979.

        [23]Hall M. 17th International Conference on Machine Learning, San Francisco, CA: Morgan Kaufmann, 2000:359-366

        Rational Synthetic Parameter Analysis of Open-framework AlPOs Based on Data Mining Method

        GUO Yu-Ting1GAO Na2SHI Rui-Xin3QI Miao1WANG Jian-Zhong*,1
        (1School of Computer Science and Information Technology, Northeast Normal University, Changchun 130117, China)
        (2College of Chemistry, Jilin University, Changchun 130012, China)
        (3School and Hospital of Stomatology, Jilin University, Changchun 130012, China)

        Open-framework aluminophosphates (AlPOs) is an important family of the porous crystal materials. However, the synthesis of the Open-framework aluminophosphates is affected by many parameters, such as reaction material, gel composition, solvent, template agent, crystallization temperature and crystallization time etc. Based on the ALPOs synthesis database, which established by the State Key Laboratory of Inorganic Synthesis and Preparative Chemistry of Jilin University, the work in this paper concentrates on analyzing the relationship between the synthetic parameters and the final product. In order to take both the importance and correlation of the features into consideration in the synthetic parameter analysis, we apply Maximum Weight and Minimum Redundancy (MWMR) to analyze the impact of solvent parameters and template parameters for the rational synthesis of (8,6)-ring-containing AlPOs. The effectiveness of the method is demonstrated by extensive experiments. Furthermore, we also make some deep analyses about the relationship between the synthetic parameters and final products.The experimental results show that the geometric parameters of the of organic template, the nC/nNand the dipole moment of the solvent etc. may impact most for the final product of this kind of open-framework aluminophosphates.

        open-framework aluminophosphates; synthetic parameter; data mining; feature selection

        O611.2

        A

        1001-4861(2016)03-0457-07

        10.11862/CJIC.2016.075

        2015-11-11。收修改稿日期:2015-12-23。

        國家自然科學(xué)基金(No.61403078)資助項(xiàng)目。

        *通信聯(lián)系人。E-mail:wangjz019@nenu.edu.cn

        猜你喜歡
        特征選擇子集骨架
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        淺談管狀骨架噴涂方法
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
        關(guān)于奇數(shù)階二元子集的分離序列
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
        中國煤層氣(2014年3期)2014-08-07 03:07:45
        基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
        白丝美女被狂躁免费视频网站| 高清偷自拍亚洲精品三区| 国产网站一区二区三区| 热久久美女精品天天吊色| 国产精品 高清 尿 小便 嘘嘘| 99久久亚洲国产高清观看| 69搡老女人老妇女老熟妇 | 玖玖资源站亚洲最大的网站| 国产太嫩了在线观看| 欧美人妻精品一区二区三区| 456亚洲人成在线播放网站| 国产黄色一级大片一区二区| 久久精品国产字幕高潮| 精品999日本久久久影院| 亚洲欧美日韩精品高清| 日本一区二区啪啪视频| 日本黄色高清视频久久| 免费的日本一区二区三区视频| 国产又爽又粗又猛的视频| 国产97色在线 | 免| 精品国产成人一区二区不卡在线| 青青草小视频在线观看| 99国产精品久久久蜜芽| 久久成年片色大黄全免费网站| 国产成人精品中文字幕| 青春草免费在线观看视频| 国产乱妇乱子在线播视频播放网站| 国产乱色国产精品免费视频| 97中文乱码字幕在线| 国产情侣真实露脸在线| 亚洲暴爽av天天爽日日碰| 国产内射视频在线播放| 亚洲精品一区二区三区52p| 一本本月无码-| 国产黑色丝袜一区在线| 五月激情在线观看视频| 少妇夜夜春夜夜爽试看视频| 丰满爆乳无码一区二区三区| 一本久久精品久久综合桃色| 成人av在线久色播放| 亚洲av日韩专区在线观看|