亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        用于微陣列數(shù)據(jù)分類的子空間融合演化超網(wǎng)絡(luò)

        2016-12-08 06:06:17陳喬松
        電子學(xué)報(bào) 2016年10期
        關(guān)鍵詞:類別分類器樣本

        王 進(jìn),劉 彬,張 軍,陳喬松,鄧 欣

        (重慶郵電大學(xué)計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)

        ?

        用于微陣列數(shù)據(jù)分類的子空間融合演化超網(wǎng)絡(luò)

        王 進(jìn),劉 彬,張 軍,陳喬松,鄧 欣

        (重慶郵電大學(xué)計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)

        針對(duì)傳統(tǒng)模式識(shí)別方法在學(xué)習(xí)具有小樣本特性的DNA微陣列數(shù)據(jù)時(shí)存在的過(guò)擬合問(wèn)題,本文提出了一種子空間融合演化超網(wǎng)絡(luò)模型.該模型通過(guò)子空間劃分、超邊全覆蓋和子空間融合三種方法降低模型對(duì)初始化的依賴,減少了對(duì)數(shù)據(jù)空間的擬合誤差,提高了演化超網(wǎng)絡(luò)的泛化能力.對(duì)四個(gè)DNA微陣列數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,子空間融合演化超網(wǎng)絡(luò)的識(shí)別率和在小樣本訓(xùn)練集下的泛化能力均優(yōu)于參與對(duì)比的其他傳統(tǒng)模式識(shí)別方法.

        模式識(shí)別;微陣列數(shù)據(jù)分類;演化超網(wǎng)絡(luò);子空間;過(guò)擬合

        1 引言

        DNA微陣列技術(shù)的出現(xiàn)為從分子水平研究疾病的發(fā)病機(jī)理和臨床診斷提供了強(qiáng)有力的手段,特別是在臨床診斷白血病[1]、結(jié)腸癌[2]等惡性腫瘤上具有較高的應(yīng)用價(jià)值.與傳統(tǒng)基于形態(tài)學(xué)信息的癌癥診斷方法相比,基于DNA微陣列技術(shù)獲得的基因表達(dá)譜的癌癥診斷方法具有更高的準(zhǔn)確率和可信度[1].

        傳統(tǒng)的模式識(shí)別方法在學(xué)習(xí)具有小樣本特性的DNA微陣列數(shù)據(jù)時(shí)存在過(guò)擬合問(wèn)題[3],這導(dǎo)致模型分類的泛化能力下降.同時(shí)DNA微陣列數(shù)據(jù)包含著不同基因之間龐大而復(fù)雜的并行交互作用,這些基因間的交互作用對(duì)我們研究癌癥的復(fù)雜發(fā)展機(jī)制有著重要意義.傳統(tǒng)模式識(shí)別方法[4~7]雖然取得了較好的分類效果,卻難以深度挖掘基因之間的相互作用.

        超網(wǎng)絡(luò)(Hypernetwork,HN)是受生物分子網(wǎng)絡(luò)啟發(fā)而建立的一種基于超圖(Hypergraph)的認(rèn)知學(xué)習(xí)模型[8,9].通過(guò)演化學(xué)習(xí),超網(wǎng)絡(luò)可以有效獲取與分類相關(guān)的關(guān)鍵特征,擬合輸入模式空間中數(shù)據(jù)的分布概率,從而表達(dá)復(fù)雜數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和相互之間的關(guān)系.因能有效挖掘與癌癥分類相關(guān)的基因以及基因間的相互作用,演化超網(wǎng)絡(luò)模型已成功用于DNA微陣列數(shù)據(jù)分類[10,11],然而該模型的分類效果與泛化能力受超邊庫(kù)初始化質(zhì)量的影響較大.

        針對(duì)上述問(wèn)題,本文將子空間概念引入到演化超網(wǎng)絡(luò)模型中,提出了一種子空間融合演化超網(wǎng)絡(luò)(Evolutionary Hypernetworks with Subspace Fusion,SF-HN).通過(guò)子空間超邊覆蓋,弱化模型對(duì)超邊初始化過(guò)程的依賴,提升其在小樣本訓(xùn)練集下的泛化能力.為驗(yàn)證子空間融合演化超網(wǎng)絡(luò)的性能,本文根據(jù)部分替代整體思想提出了一種分類器泛化能力評(píng)價(jià)方法.通過(guò)對(duì)四個(gè)DNA微陣列數(shù)據(jù)集進(jìn)行試驗(yàn),證明了該模型具有更優(yōu)的準(zhǔn)確性和泛化能力.

        2 演化超網(wǎng)絡(luò)

        超網(wǎng)絡(luò)是一種由大量超邊組成的概率圖模型,通過(guò)超邊表達(dá)模式空間中數(shù)據(jù)的分布概率[8].超邊所連接的頂點(diǎn)數(shù)稱為超邊的階數(shù)(Order),所有超邊階數(shù)都為k的超網(wǎng)絡(luò)稱為k階超網(wǎng)絡(luò)[12].超網(wǎng)絡(luò)演化學(xué)習(xí)通過(guò)調(diào)整超邊庫(kù),提高模型與數(shù)據(jù)在模式空間概率分布的擬合度.超邊替代法[11]和梯度下降法[12]是常用的演化學(xué)習(xí)方法.在分類模式下,超網(wǎng)絡(luò)通過(guò)輸入樣本X與輸出類別Y的聯(lián)合概率P(X,Y)以及X的分布概率P(X),得到最終的決策輸出:

        (1)

        細(xì)粒度演化超網(wǎng)絡(luò)(Fine-Grain Evolutionary Hypernetwork,FG-HN)[11]將最優(yōu)類別信息離散化(Optimal Class-Dependent Discretization,OCDD)算法與超網(wǎng)絡(luò)結(jié)合,采用多位二進(jìn)制來(lái)表述特征屬性,降低了數(shù)據(jù)離散化過(guò)程中的信息損失.然而FG-HN仍無(wú)法解決在學(xué)習(xí)具有小樣本特性的DNA微陣列數(shù)據(jù)時(shí)存在的過(guò)擬合問(wèn)題.

        3 子空間融合演化超網(wǎng)絡(luò)

        傳統(tǒng)演化超網(wǎng)絡(luò)只對(duì)輸入模式中的訓(xùn)練樣本集進(jìn)行學(xué)習(xí),處理小樣本數(shù)據(jù)時(shí),其泛化性將受到影響.為了提高模型的泛化能力,本文在FG-HN[11]的基礎(chǔ)上提出了一種子空間融合演化超網(wǎng)絡(luò).

        令S=A1×A2×…×AD表示D維數(shù)據(jù)空間,Aj(j=1,…,D)表示S中的一個(gè)屬性域,k維空間Pi=Ai1×Ai2×…Aik(ik≤D)為S的一個(gè)子空間.S=P1∪P2∪…∪Pi∪…為空間S的一個(gè)子空間劃分.在分類過(guò)程中,X=A1×A2×…×AD表示特征屬性空間,Y表示類別標(biāo)簽空間.對(duì)于空間X的數(shù)據(jù)進(jìn)行離散化處理,特征Aj的離散區(qū)間數(shù)為mj,則子空間Pi包含的總數(shù)據(jù)點(diǎn)為m=mi1×mi2×…×mik,m也稱為Pi的秩,空間中的數(shù)據(jù)點(diǎn)也稱為單元格.超邊所包含的特征空間可表示為Ei=Ai1×Ai2×…×Aik.將超邊看作輸入模式空間的子空間,超邊庫(kù)表示特征屬性空間X的一個(gè)劃分X=E1∪E2∪…∪E|L|,其中|L|表示超邊總數(shù).

        偏斜度SOD(T,P)[13]是衡量子空間劃分效果的評(píng)價(jià)指標(biāo),其定義如下:

        (2)

        其中,N為訓(xùn)練集T的樣本數(shù),P為子空間,pi為訓(xùn)練集T投影在子空間P的第i個(gè)單元格上的樣本數(shù),m是子空間的秩,μ=N/m表示平均分布在單元格上的數(shù)據(jù)點(diǎn)數(shù).SOD(T,P)的取值范圍為[0,1],其值越小,數(shù)據(jù)點(diǎn)的分布越均勻;反之,則分布越集中.

        在SF-HN中,首先進(jìn)行子空間劃分,選擇樣本分布均勻的子空間集合;其次,生成超邊并把超邊決策范圍覆蓋到整個(gè)子空間;接著融合子超邊簇,生成初始化模型;最終通過(guò)梯度下降方法對(duì)模型進(jìn)行演化學(xué)習(xí),提高模型對(duì)輸入數(shù)據(jù)的擬合精度.子空間融合演化超網(wǎng)絡(luò)流程如圖1所示,其中超網(wǎng)絡(luò)中的每種連線代表一條超邊(例如實(shí)線表示一條包含頂點(diǎn)A4,A1和A6的3階超邊).3.1 子空間劃分算法

        超網(wǎng)絡(luò)是對(duì)輸入模式空間數(shù)據(jù)分布概率的擬合,當(dāng)數(shù)據(jù)散列分布時(shí),其覆蓋的數(shù)據(jù)空間廣,擬合時(shí)的誤差小.因此在子空間劃分算法中,采用訓(xùn)練集在子空間上的偏斜度對(duì)子空間的優(yōu)劣進(jìn)行評(píng)價(jià),并選取樣本分布信息較多的子空間集合.

        算法1 子空間劃分算法

        輸入:訓(xùn)練集T,超邊階數(shù)k;子空間數(shù)sn,冗余倍數(shù)d,閾值tsod.

        輸出:劃分的子空間集合E.

        步驟1num←sn,E←Φ,計(jì)算tsod.

        步驟2 初始化num*d條階數(shù)為k的超邊.

        步驟3 將T向每條超邊對(duì)應(yīng)的子空間EEi投影,并計(jì)算SOD(T,EEi).

        步驟4 將所有子空間按SOD值升序排序.

        步驟5 若選擇前num個(gè)子空間的SOD值均小于tsod,則將前num個(gè)子空間加入E;否則將滿足SOD(T,EEi)

        步驟6 若tsum>0,num←tsum,轉(zhuǎn)入步驟2;否則轉(zhuǎn)入步驟7.

        步驟7 返回E.

        3.2 子空間超邊生成算法

        子空間超邊生成算法通過(guò)產(chǎn)生由訓(xùn)練樣本映射得到的與訓(xùn)練集完全擬合的映射超邊和通過(guò)映射超邊信息確定類別的預(yù)測(cè)超邊,加入樣本關(guān)聯(lián)信息,擴(kuò)展超邊的決策范圍,對(duì)子空間進(jìn)行超邊全覆蓋.

        子空間超邊生成算法的流程為:將子空間Ei中對(duì)應(yīng)的單元格轉(zhuǎn)化為超邊加入到子超邊簇LSi中,此時(shí)超邊不包含類別信息;將訓(xùn)練集T在子超邊簇LSi上投影,并確定至少有一個(gè)樣本映射到對(duì)應(yīng)單元格的超邊類別;最后對(duì)剩余未知類別信息的超邊進(jìn)行類別預(yù)測(cè).由于輸入模式空間數(shù)據(jù)為連續(xù)分布,因此對(duì)模式空間中的數(shù)據(jù)點(diǎn),其類別可由其相鄰數(shù)據(jù)點(diǎn)的類別確定.故對(duì)每條未知類別超邊,統(tǒng)計(jì)其相鄰超邊的類別,并將包含超邊最多的類別賦給待預(yù)測(cè)類別超邊;若不同類別包含的超邊數(shù)相等,則此超邊處在類別分界線上,不對(duì)其類別賦值.當(dāng)無(wú)新確定類別的超邊時(shí),算法終止.

        算法2 子空間超邊生成算法

        輸入:訓(xùn)練集T,子空間Ei.

        輸出:子超邊簇LSi.

        步驟1LSi←Φ.

        步驟2 子空間Ei中每個(gè)單元格fj轉(zhuǎn)化為超邊lj并加入到子超邊簇LSi,其中超邊的類別標(biāo)簽為空.

        步驟3 將訓(xùn)練集T在子超邊簇LSi上投影.

        步驟4 遍歷每條超邊lj對(duì)應(yīng)的單元格fj,若至少有一個(gè)樣本映射到fj,則將該超邊類別賦為映射到相應(yīng)單元格中數(shù)量最多的樣本類別.

        步驟5 統(tǒng)計(jì)未知類別超邊的數(shù)量ln,lt←ln.

        步驟6 統(tǒng)計(jì)每條未知類別超邊的相鄰超邊類別,若不同類別超邊數(shù)量不等,則將包含超邊數(shù)量最多的類別賦給該超邊.

        步驟7 統(tǒng)計(jì)未知類別的超邊數(shù)量ln,若lt≠ln,轉(zhuǎn)入步驟5;否則轉(zhuǎn)入步驟8.

        步驟8 返回LSi.

        3.3 子空間融合算法

        覆蓋子空間的子超邊簇既包含由訓(xùn)練集映射而成的超邊,也包含由映射超邊對(duì)未知類別超邊進(jìn)行預(yù)測(cè)擴(kuò)展而成的超邊.子超邊簇中由訓(xùn)練集映射而成的超邊是對(duì)訓(xùn)練集樣本分布的零誤差擬合,而經(jīng)預(yù)測(cè)擴(kuò)展而成的超邊則存在擬合誤差,并且不同子空間中預(yù)測(cè)超邊的擬合誤差不同.子空間融合算法通過(guò)融合不同子空間上的子超邊簇,降低預(yù)測(cè)超邊的擬合誤差,進(jìn)而提高模型對(duì)訓(xùn)練集的擬合精度.由于偏斜度低的子空間生成的超邊簇具有更優(yōu)的擬合效果,在融合時(shí)采用加權(quán)集成的方式,將1-SOD(T,Ei)作為子空間對(duì)應(yīng)超邊簇的權(quán)重.

        算法3 子空間融合算法

        輸入:訓(xùn)練集T,超邊簇集合LS.

        輸出:超邊庫(kù)L.

        步驟1L←Φ.

        步驟2 遍歷每個(gè)子超邊簇,根據(jù)T在每個(gè)子超邊簇LSi對(duì)應(yīng)子空間Ei的投影,計(jì)算SOD(T,Ei),并將LSi中每個(gè)超邊的權(quán)重設(shè)為1-SOD(T,Ei).

        步驟3 將賦予權(quán)重的超邊簇加入到L中.

        步驟4 返回L.

        3.4 子空間融合超網(wǎng)絡(luò)的演化學(xué)習(xí)

        SF-HN通過(guò)將子超邊簇融合為一個(gè)超邊庫(kù),擬合模式空間的數(shù)據(jù)分布.因模型對(duì)子空間進(jìn)行了超邊全覆蓋操作,無(wú)需替代操作,故采用梯度下降演化學(xué)習(xí)方法[12],通過(guò)訓(xùn)練集來(lái)控制超邊權(quán)重的調(diào)整方向,調(diào)整模型結(jié)構(gòu),降低融合后模型對(duì)未知樣本的預(yù)測(cè)誤差.權(quán)重變化值Δwj計(jì)算公式為:

        (3)

        其中,P(y*|xi)和P*(y*|xi)分別表示樣本xi屬于類別y*的實(shí)際概率和目標(biāo)概率,y*是超網(wǎng)絡(luò)對(duì)樣本xi的分類結(jié)果,y是樣本xi的真實(shí)類別,η是學(xué)習(xí)速率.I為匹配函數(shù),當(dāng)超邊lj與樣本xi匹配時(shí)值為1;否則值為0.子空間融合超網(wǎng)絡(luò)的分類方法與傳統(tǒng)超網(wǎng)絡(luò)的流程[11]相似,唯一的區(qū)別在于估計(jì)概率時(shí)統(tǒng)計(jì)超邊權(quán)重之和而不是數(shù)量之和.

        算法4 子空間融合超網(wǎng)絡(luò)演化學(xué)習(xí)算法

        輸入:訓(xùn)練集T,子空間數(shù)sn;超邊階數(shù)k;梯度下降演化代數(shù)iternum.

        輸出:超邊庫(kù)L.

        步驟1 根據(jù)子空間劃分算法,生產(chǎn)包含sn個(gè)子空間的子空間集合E.

        步驟2 對(duì)每個(gè)子空間Ei,利用子空間超邊生成算法,生成子超邊簇LSi.最終得到包含sn個(gè)子超邊簇的超邊簇集合LS.

        步驟3 對(duì)超邊簇LS,利用子空間融合算法,得到初始超邊庫(kù)L.

        步驟4t←0.

        步驟5 用當(dāng)前子空間融合超網(wǎng)絡(luò)模型對(duì)訓(xùn)練集分類.

        步驟6 對(duì)每個(gè)錯(cuò)分樣本xi,更新與xi匹配的超邊lj的權(quán)重wj=wj+Δwj,其中通過(guò)式(3)計(jì)算Δwj.

        步驟7t++,若t

        步驟8 返回L.

        4 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證子空間融合演化超網(wǎng)絡(luò)的分類準(zhǔn)確性和泛化性,本文采用結(jié)腸癌[2]、急性白血病[1]、肺癌[14]、前列腺癌[15]四個(gè)DNA微陣列數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證.數(shù)據(jù)集的具體信息如表1所示.

        4.1 分類性能測(cè)試

        本文采用OCDD算法[16]對(duì)輸入數(shù)據(jù)進(jìn)行離散化處理,采用信噪比特征基因選擇方法[1]對(duì)數(shù)據(jù)進(jìn)行降維處理.為了驗(yàn)證SF-HN的分類效果,將其與其他文獻(xiàn)方法(GSVM-RFE[5],NN[4],Bagging[7])、傳統(tǒng)分類方法(C4.5決策樹、樸素貝葉斯(Nave Bayes,NB)、支持向量機(jī)(Support Vector Machine,SVM))以及HN和FG-HN進(jìn)行對(duì)比.本文的所有實(shí)驗(yàn)結(jié)果為20次實(shí)驗(yàn)的平均值.SF-HN的參數(shù)通過(guò)訓(xùn)練集5折交叉驗(yàn)證來(lái)確定,其參數(shù)設(shè)置如表2所示.HN和FG-HN采用文獻(xiàn)[11]中的實(shí)驗(yàn)參數(shù)設(shè)定,分類算法C4.5、NB、SVM采用Weka機(jī)器學(xué)習(xí)開源項(xiàng)目提供的算法(http://www.cs.waikato.ac.nz/ml/weka/),其輸入數(shù)據(jù)的特征維度與FG-HN相同.此外,本文通過(guò)t-檢驗(yàn)來(lái)測(cè)試SF-HN在統(tǒng)計(jì)學(xué)上是否顯著優(yōu)于C4.5、NB、SVM、HN和FG-HN方法.

        通過(guò)對(duì)完整的訓(xùn)練集進(jìn)行學(xué)習(xí),然后對(duì)獨(dú)立測(cè)試集進(jìn)行測(cè)試,所得結(jié)果如表3所示.在表3中,“·”表示SF-HN在p<0.01的水平下顯著優(yōu)于對(duì)比方法.相對(duì)于其它對(duì)比分類算法,SF-HN具有較好的分類性能和顯著性優(yōu)勢(shì).這主要是由于SF-HN在空間中進(jìn)行超邊覆蓋,增加了模型的信息熵,從而更有效地?cái)M合輸入模式空間中的數(shù)據(jù)分布.

        表1 數(shù)據(jù)集信息表

        表2 SF-HN的參數(shù)設(shè)置

        表3 不同方法對(duì)4個(gè)DNA微陣列數(shù)據(jù)集的測(cè)試集分類結(jié)果

        4.2 泛化性能測(cè)試

        泛化能力表示分類器通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí),對(duì)未知樣本的預(yù)測(cè)能力[17].但在據(jù)作者所知的文獻(xiàn)中,還缺乏公認(rèn)的對(duì)分類器泛化性能評(píng)價(jià)的定量指標(biāo).機(jī)器學(xué)習(xí)領(lǐng)域通常認(rèn)為泛化性能好的算法在小樣本訓(xùn)練集下仍可獲得較高的分類精度.本文采用部分替代整體思想進(jìn)行泛化性能測(cè)試的實(shí)驗(yàn)設(shè)計(jì),通過(guò)拆分原始訓(xùn)練集獲得小樣本訓(xùn)練集,進(jìn)而驗(yàn)證不同分類方法在小樣本訓(xùn)練集下的泛化性能.泛化性測(cè)試的主要流程為:首先是將訓(xùn)練集按原正負(fù)類別的比例平均分為n份;之后利用拆分后的每一份數(shù)據(jù)分別訓(xùn)練分類器并對(duì)獨(dú)立測(cè)試集進(jìn)行測(cè)試.對(duì)得到的n個(gè)獨(dú)立測(cè)試集測(cè)試結(jié)果求取平均,作為分類器泛化能力評(píng)價(jià)指標(biāo).在本文中,訓(xùn)練集平均劃分為n份以n-bt表示.

        泛化性能測(cè)試中對(duì)訓(xùn)練集進(jìn)行拆分后,訓(xùn)練集中樣本數(shù)量減少,離散區(qū)間數(shù)過(guò)大將導(dǎo)致數(shù)據(jù)中同類別樣本間的關(guān)聯(lián)概率降低;而階數(shù)過(guò)大的超邊很難與樣本進(jìn)行匹配.因此對(duì)四個(gè)數(shù)據(jù)集,特征選擇數(shù)設(shè)為32,特征最大離散區(qū)間數(shù)為設(shè)為3,HN、FG-HN和SF-HN的階數(shù)分別設(shè)定為5、4、3.對(duì)每個(gè)數(shù)據(jù)集,采取2-bt、3-bt、4-bt、5-bt泛化性能實(shí)驗(yàn).

        泛化性測(cè)試結(jié)果如表4~7所示.相對(duì)于其他方法,在3-bt、4-bt、5-bt設(shè)定下SF-HN具有更高的泛化性能.這是因?yàn)樵诜诸惼鞯膶W(xué)習(xí)過(guò)程中,SF-HN通過(guò)對(duì)超邊類別的預(yù)測(cè),對(duì)子空間進(jìn)行超邊覆蓋,在本質(zhì)上類似于虛擬樣本生成,通過(guò)增加樣本的數(shù)量,實(shí)現(xiàn)了對(duì)數(shù)據(jù)分布的更優(yōu)擬合.而在2-bt時(shí),由于某些數(shù)據(jù)集中正負(fù)類別的界限較寬,SVM能夠發(fā)揮更優(yōu)的性能.當(dāng)n-bt中的n增大時(shí),所有方法對(duì)獨(dú)立測(cè)試集的識(shí)別率隨之降低.這是因?yàn)殡S著訓(xùn)練集樣本數(shù)的減少,關(guān)于模式空間描述的信息量相應(yīng)減少,從而導(dǎo)致分類器對(duì)模式空間的描述可信度降低.然而相對(duì)其它方法,SF-HN下降趨勢(shì)最緩慢.這是因?yàn)镾F-HN通過(guò)子超邊簇對(duì)子空間進(jìn)行全覆蓋,增加了超邊對(duì)未知樣本的匹配概率,避免了超邊對(duì)其生成樣本的過(guò)度依賴,不會(huì)出現(xiàn)對(duì)訓(xùn)練集的過(guò)擬合,在小樣本數(shù)據(jù)中具有較高的優(yōu)勢(shì).

        表4 結(jié)腸癌數(shù)據(jù)集不同分類器泛化性能測(cè)試結(jié)果

        表5 急性白血病數(shù)據(jù)集不同分類器泛化性能測(cè)試結(jié)果

        表6 肺癌數(shù)據(jù)集不同分類器泛化性能測(cè)試結(jié)果

        表7 前列腺癌數(shù)據(jù)集不同分類器泛化性能測(cè)試結(jié)果

        5 結(jié)論

        本文提出了一種子空間融合演化超網(wǎng)絡(luò)模型.通過(guò)將子空間概念引入到演化超網(wǎng)絡(luò)中,把超邊包含的特征看作是輸入模式空間的子空間,在子空間進(jìn)行超邊覆蓋,減弱了模型對(duì)超網(wǎng)絡(luò)初始化效果的依賴;同時(shí)通過(guò)超邊子空間覆蓋和子空間融合,加入樣本間的關(guān)聯(lián)信息,提高了模型對(duì)未知樣本的分類效果和泛化性能.本文根據(jù)部分替代整體思想設(shè)計(jì)了分類器泛化性能測(cè)試實(shí)驗(yàn),并提出了評(píng)價(jià)分類器泛化性能的方法.通過(guò)四個(gè)DNA微陣列數(shù)據(jù)集下的對(duì)比實(shí)驗(yàn)表明,本文方法的識(shí)別率和在小樣本訓(xùn)練集下的泛化能力均優(yōu)于其他傳統(tǒng)模式識(shí)別方法.

        [1]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-537.

        [2]Alon U,Barkai N,Notterman D,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays[J].Proceedings of the National Academy of Sciences,1999,96(12):6745-6750.

        [3]Reunanen J.Overfitting in making comparisons between variable selection methods[J].Journal of Machine Learning Research,2003,3:1371-1382.

        [4]Cho S B,Won H.Cancer classification using ensemble of neural networks with multiple significant gene subsets[J].Applied Intelligence,2007,26(3):243-250.

        [5]Mundra P A,Rajapakse J C.SVM-RFE with MRMR filter for gene selection[J].IEEE Transactions on Nanobioscience,2010,9(1):31-37.

        [6]Prasartvit T,Banharnsakun A,Kaewkamnerdpong B,et al.Reducing bioinformatics data dimension with ABC-kNN[J].Neurocomputing,2013,116:367-381.

        [7]Tan A C,Gilbert D.Ensemble machine learning on gene expression data for cancer classification[J].Applied Bioinformatics,2003,2(3 suppl):75-83.

        [8]Zhang B T.Hypernetworks:a molecular evolutionary architecture for cognitive learning and memory[J].IEEE Computational Intelligence Magazine,2008,3(3):49-63.

        [9]Kim S J,Ha J W,Zhang B T.Bayesian evolutionary hypergraph learning for predicting cancer clinical outcomes[J].Journal of Biomedical Informatics,2014,49(6):101-111.

        [10]Park C H,Kim S J,Kim S,et al.Use of evolutionary hypernetworks for mining prostate cancer data[A].Proceedings of the 8th International Symposium on Advanced Intelligent Systems[C].Springer,2007.702-706.

        [11]王進(jìn),張軍,胡白帆.結(jié)合最優(yōu)類別信息離散的細(xì)粒度超網(wǎng)絡(luò)微陣列數(shù)據(jù)分類[J].上海交通大學(xué)學(xué)報(bào),2013,47(12):1856-1862.

        Wang Jin,Zhang Jun,Hu Bai-fan.Optimal class-dependent discretization-based fine-grain hypernetworks for classification of microarray data[J].Journal of Shanghai Jiaotong University,2013,47(12):1856-1862.(in Chinese)

        [12]Wang J,Huang P L,Sun K W,et al.Ensemble of cost-sensitive hypernetwork for class-imbalance learning[A].Proceedings of IEEE International Conference on Systems,Man,and Cybernetics[C].IEEE,2013.1883-1888.

        [13]孫煥良,鮑玉斌,于戈.一種基于劃分的孤立點(diǎn)檢測(cè)算法[J].軟件學(xué)報(bào),2006,17(5):1009-1016.

        Sun Huan-liang,Bao Yu-bin,Yu Ge.An algorithm based on partition for outlier detection[J].Journal of Software,2006,17(5):1009-1016.(in Chinese)

        [14]Gordon G J,Jensen R V,Hsiao L L,et al.Translation of microarray data into clinically relevant cancer diagnostic tests using gene expression ratios in lung cancer and mesothelioma[J].Cancer research,2002,62(17):4963-4967.

        [15]Singh D,Febbo P G,Ross K,et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.

        [16]Liu L,Wong K C,Wang Y.A global optimal algorithm for class-dependent discretization of continuous data[J].Intelligent Data Analysis,2004,8(2):151-170.

        [17]張海,徐宗本.學(xué)習(xí)理論綜述(I):穩(wěn)定性與泛化性[J].工程數(shù)學(xué)學(xué)報(bào),2008,25(1):1-9.

        Zhang Hai,Xu Zong-ben.A survey on learning theory (I):stability and generalization[J].Chinese Journal of Engineering Mathematics,2008,25(1):1-9.(in Chinese)

        王 進(jìn) 男,1979年1月出生于重慶,教授.主要研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí).

        E-mail:wangjin@cqupt.edu.cn

        劉 彬(通信作者) 男,1989年11月出生于河北保定,碩士研究生.主要研究方向?yàn)閿?shù)據(jù)挖掘.

        E-mail:nanfeizhilu@163.com

        Classification of Microarray Data Using Evolutionary Hypernetworks with Subspace Fusion

        WANG Jin,LIU Bin,ZHANG Jun,CHEN Qiao-song,DENG Xin

        (ChongqingKeyLaboratoryofComputationalIntelligence,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China)

        In order to solve the over-fitting problem of the traditional pattern recognition approaches under the DNA microarray data with small train samples,a subspace fusion-based evolutionary hypernetwork model is proposed in this paper.With the methods of subspace division,hyperedge coverage,and subspace fusion,the proposed scheme reduces the dependence on the initialization,decreases the fitting error of the data space,and enhances the generalization ability of the evolutionary hypernetwork.The experimental results on four DNA microarray datasets show that the proposed model achieves higher classification accuracy and stronger generalization ability than other compared traditional pattern recognition method.

        pattern recognition;microarray data classification;evolutionary hypernetwork;subspace;over-fitting

        2015-03-11;

        2015-06-30;責(zé)任編輯:李勇鋒

        國(guó)家自然科學(xué)基金(No.61203308,No.61403054);重慶教委科學(xué)技術(shù)研究項(xiàng)目(自然科學(xué)類)(No.KJ1400436);重慶市基礎(chǔ)與前沿研究計(jì)劃項(xiàng)目(No.cstc2014jcyjA40001)

        TP39

        A

        0372-2112 (2016)10-2308-06

        ??學(xué)報(bào)URL:http://www.ejournal.org.cn

        10.3969/j.issn.0372-2112.2016.10.004

        猜你喜歡
        類別分類器樣本
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        推動(dòng)醫(yī)改的“直銷樣本”
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        村企共贏的樣本
        服務(wù)類別
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        成人片黄网站a毛片免费| 国产强伦姧在线观看| 日韩有码中文字幕第一页| 国产91久久精品成人看网站| 日本一区二区不卡精品| 欧美人妻aⅴ中文字幕| 午夜精品久久久久久久久久久久| 无码成人片一区二区三区| 国产精品一级av一区二区| 国产熟女白浆精品视频二| 久久精品99国产精品日本 | 国产成人无码a区在线观看视频 | 青青久久精品一本一区人人 | 亚洲精品美女久久777777| 日韩少妇激情一区二区| 久久国产精品免费一区二区| 日本高清在线一区二区| 亚洲午夜精品一区二区麻豆av| 久久久中文久久久无码| 人人爽久久久噜人人看| 大香蕉视频在线青青草| 久久99国产综合精品女同| 精品中文字幕日本久久久| 精品亚洲av乱码一区二区三区| 中文人妻av久久人妻水蜜桃| 国产最新进精品视频| 日韩在线视精品在亚洲| 国产情侣自拍偷拍精品| 色哟哟亚洲色精一区二区| 亚洲精品乱码久久久久久蜜桃不卡| 亚洲熟妇网| 亚洲av精品一区二区| 美女下蹲露大唇无遮挡| 极品少妇一区二区三区四区| 国产精品九九九久久九九| 精品人妻久久av中文字幕| 国产嫩草av一区二区三区| 国产精品久久久久9999赢消| 国产精品久久码一区二区| 91麻豆精品一区二区三区| 亚洲av综合av一区|