亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx

        面向基因數(shù)據(jù)分類的核主成分分析旋轉(zhuǎn)森林算法*

        2017-10-12 03:40:05陸慧娟劉亞卿孟亞瓊劉硯秋
        計(jì)算機(jī)與生活 2017年10期
        關(guān)鍵詞:分類

        陸慧娟,劉亞卿,孟亞瓊,關(guān) 偉,劉硯秋

        1.中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,杭州 310018

        2.中國(guó)計(jì)量大學(xué) 現(xiàn)代科技學(xué)院,杭州 310018

        面向基因數(shù)據(jù)分類的核主成分分析旋轉(zhuǎn)森林算法*

        陸慧娟1+,劉亞卿1,孟亞瓊1,關(guān) 偉2,劉硯秋1

        1.中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,杭州 310018

        2.中國(guó)計(jì)量大學(xué) 現(xiàn)代科技學(xué)院,杭州 310018

        Abstract:Rotation forest(RoF)algorithm is an ensemble classification algorithm using linear analysis theory and decision trees.The rotation forest achieves higher classification accuracy and superior performance with less number of classifiers.However,the classification accuracy decreases for gene expression data with linearly inseparable cases.To address this issue,this paper proposes a rotation forest algorithm based on kernel principal component analysis(KPCA-RoF),chooses the Gaussian kernel function and principal component analysis to implement the nonlinear mapping and deal with differences in gene data.The proposed algorithm focuses on the optimization of parameters,and uses decision tree algorithm for ensemble learning.Experiments show that the new algorithm well addresses the linearly inseparabal issue and improves the classification accuracy.

        Key words:kernel function;principal component analysis;decision tree;rotation forest;gene data classification

        旋轉(zhuǎn)森林(rotation forest,RoF)是一種運(yùn)用線性分析理論和決策樹的集成分類算法,在分類器個(gè)數(shù)較少的情況下仍可以取得良好的結(jié)果,同時(shí)能保證集成分類的準(zhǔn)確性。但對(duì)于部分基因數(shù)據(jù)集,存在線性不可分的情況,原始的算法分類效果不佳。提出了一種運(yùn)用核主成分分析變換的旋轉(zhuǎn)森林算法(rotation forest algorithm based on kernel principal component analysis,KPCA-RoF),選擇高斯徑向基核函數(shù)和主成分分析的方法對(duì)基因數(shù)據(jù)集進(jìn)行非線性映射和差異性變化,著重于參數(shù)的選擇問題,再利用決策樹算法進(jìn)行集成學(xué)習(xí)。實(shí)驗(yàn)證明,改進(jìn)后的算法能很好地解決數(shù)據(jù)線性不可分的情形,同時(shí)也提高了基因數(shù)據(jù)集上的分類精度。

        核函數(shù);主成分分析;決策樹;旋轉(zhuǎn)森林;基因數(shù)據(jù)分類

        1 引言

        癌癥是嚴(yán)重威脅人類健康的一大疾病,已經(jīng)成為我國(guó)主要的公共衛(wèi)生問題之一。目前癌癥的發(fā)病率和死亡率一直呈上升趨勢(shì),因此預(yù)防和治療癌癥是全世界關(guān)注的焦點(diǎn)問題[1]。然而,人類肌體從癌變的發(fā)生,到有明顯癥狀的出現(xiàn),要經(jīng)過一個(gè)較長(zhǎng)的潛伏期,如果在此期間能夠及時(shí)發(fā)現(xiàn),并且進(jìn)行有效的干預(yù),就可以將腫瘤控制或扼殺在萌芽狀態(tài)。依靠基因表達(dá)數(shù)據(jù)進(jìn)行腫瘤診斷分類是目前比較熱門的一種分類方法,對(duì)于基因數(shù)據(jù)的分類問題,目前主要集中在分類精度、泛化能力、算法的復(fù)雜性和可理解性上。但是由于基因表達(dá)數(shù)據(jù)維數(shù)高、小樣本和非線性等特點(diǎn),使得基因表達(dá)數(shù)據(jù)的分析遇到一定的困難。且對(duì)于部分基因數(shù)據(jù)集,存在線性不可分的情況,原始的旋轉(zhuǎn)森林(rotation forest,RoF)算法在對(duì)線性不可分的基因數(shù)據(jù)集進(jìn)行分類時(shí)容易出現(xiàn)分類精度低,耗時(shí)長(zhǎng)等問題。對(duì)樣本數(shù)據(jù)的篩選、特征選擇、降維、數(shù)據(jù)分類等都是當(dāng)前數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的研究熱點(diǎn),清楚差異基因的功能和對(duì)其進(jìn)行干預(yù)而引起的結(jié)果,并最終可以根據(jù)獲得的信息進(jìn)行診斷和治療[2]。

        旋轉(zhuǎn)森林[3]是于2006年提出的一種分類器集成系統(tǒng),其基本思想建立在隨機(jī)森林算法基礎(chǔ)上。旋轉(zhuǎn)森林把原特征空間分割成若干子集,之后對(duì)每個(gè)子集分別進(jìn)行某種線性變換。如主成分分析(principal components analysis,PCA),保留所有主成分的情況下,將得到的變換分量分別按照這些子集原來對(duì)應(yīng)的順序合并,這樣每次隨機(jī)分割后得到的數(shù)據(jù)集都被投影到不同坐標(biāo)空間中,從而形成差別較大的分量子集,用這些分量自己訓(xùn)練分類器,能夠得到差異較大且分類性能較高的基分類器,以提高集成分類的性能。

        毛莎莎等人[4]利用旋轉(zhuǎn)森林集成方式,集成了兩種不同的模型,充分利用兩種模型各自的優(yōu)勢(shì),為形成異構(gòu)算法集成提供了啟示。Mousavi等人[5]結(jié)合了旋轉(zhuǎn)森林和集成剪枝兩種方法,并提出了EP-RTF(ensemble pruning and rotation forest)算法。首先通過遺傳算法選擇異構(gòu)的分類器子集,其次運(yùn)用旋轉(zhuǎn)森林方法進(jìn)行訓(xùn)練,參數(shù)由遺傳算法進(jìn)行優(yōu)化,并使用加權(quán)投票的方式得出最終結(jié)果。Wong等人[6]將旋轉(zhuǎn)森林分類器和LPQ(local phase quantization)算法相結(jié)合,驗(yàn)證了旋轉(zhuǎn)森林和支持向量機(jī)分類器的良好性能,同時(shí)也為未來的蛋白質(zhì)研究提供了理論基礎(chǔ)。不過從目前的文獻(xiàn)來看,對(duì)旋轉(zhuǎn)森林算法的研究和應(yīng)用依然不多,有很多地方值得進(jìn)一步深入探討。

        本文提出了一種運(yùn)用核主成分分析變換的旋轉(zhuǎn)森林算法(rotation forest algorithm based on kernerl principal component analysis,KPCA-RoF)。利用核主成分分析的方法進(jìn)行數(shù)據(jù)的非線性映射和差異性變換,并選擇合適的參數(shù),利用決策樹算法進(jìn)行集成學(xué)習(xí),形成核函數(shù)旋轉(zhuǎn)森林算法。實(shí)驗(yàn)表明,核旋轉(zhuǎn)森林方法在同等集成度的條件下具有更高的分類精度,這在一定程度上可以解決基因數(shù)據(jù)線性不可分的情形。

        2 核函數(shù)相關(guān)理論

        對(duì)于任意一數(shù)據(jù)集T有以下關(guān)系:

        其中,i=1,2,…,n,Rn表示n維空間。如果存在一個(gè)超平面S:

        可以將兩類樣本完全分開,則稱數(shù)據(jù)集T為線性可分?jǐn)?shù)據(jù)集。

        一個(gè)數(shù)據(jù)集是否線性可分,取決于是否能找到一個(gè)超平面來分離兩個(gè)相鄰的類別。如果每個(gè)類別的分布范圍本身是全連通的單一凸集,且沒有重疊部分,則這兩個(gè)類別就是線性可分的。如果存在的多種模式可以用n維歐式空間的點(diǎn)分開,則可以在此空間中形成一個(gè)曲面把歸屬于不同模式的樣本點(diǎn)完全隔開,如支持向量機(jī)(support vector machine,SVM)[7]就可以很好地分類。線性不可分的現(xiàn)象,簡(jiǎn)單來說就是一個(gè)數(shù)據(jù)集不可以通過一個(gè)線性分類器(直線、平面)來實(shí)現(xiàn)正確的分類。如圖1所示。

        Fig.1 Linearly separable and linearly inseparable圖1 線性可分與線性不可分

        對(duì)于線性不可分的情形,可以采用核函數(shù)映射的方式得到其特征空間,之后在此基礎(chǔ)上進(jìn)一步操作。但是采用直接映射的方法在高維空間進(jìn)行操作是不可行的,因?yàn)橹苯佑成浔旧砭痛嬖谥?jì)算復(fù)雜等技術(shù)問題,且映射函數(shù)的形式和參數(shù)也不容易把握,借助核函數(shù)的方法可以間接地實(shí)現(xiàn)此種映射[8]。

        以下列舉幾種常用的核函數(shù):

        (1)線性核函數(shù)

        (2)P階多項(xiàng)式核函數(shù)

        (3)高斯徑向基核函數(shù)(radialbasisfunction,RBF)

        將樣本集作為輸入,高維的特征空間作為輸入空間,許多的傳統(tǒng)線性分類算法就可以實(shí)現(xiàn)非線性分類,這是基于核的機(jī)器學(xué)習(xí)算法應(yīng)用的基礎(chǔ)。雖然其中的映射函數(shù)非常復(fù)雜甚至難以求出,但是可以通過核函數(shù)繞過此問題,使此方法變得容易應(yīng)用。高斯徑向基核函數(shù)由于更小的數(shù)值復(fù)雜度和較少的參數(shù),以及較強(qiáng)的代表性而成為核函數(shù)的首選方法[9],通過調(diào)整核函數(shù)參數(shù)的大小控制其過擬合的程度而得到合適的算法。

        3 核主成分分析

        假設(shè)x1,x2,…,xm為訓(xùn)練樣本,xk∈RN用來表示其輸入空間。選定映射函數(shù)為Φ,其定義如下:

        核函數(shù)通過映射關(guān)系Φ先實(shí)現(xiàn)輸入樣本點(diǎn)x到特征空間F的映射,F(xiàn)由Φ(x1),Φ(x2),…,Φ(xm)生成,中心化處理映射后的數(shù)據(jù),即:

        則映射后特征空間的協(xié)方差矩陣為:

        按照主成分分析的方式求解特征方程:

        λ和V是屬于Φ(xi)的生成空間中的特征值和特征向量,因此:

        并且存在參數(shù)αi,使得V可由Φ(xi)線性表示,即:

        合并式(6)、(7),把映射后數(shù)據(jù)的相互內(nèi)積定義成一個(gè)m階的矩陣K,其元素根據(jù)選擇的核函數(shù)計(jì)算所得:

        則可以得到與式(5)等價(jià)的公式:

        其中,α=(α1,α2,…,αm)T,矩陣K就是以后所要用到的變換矩陣[10]。

        求解K的特征值和特征向量。設(shè)K的特征值為λ1≤λ2≤ …≤λm,所對(duì)應(yīng)的特征向量為α1,α2,…,αm。

        4 算法描述

        4.1 基于核主成分分析的旋轉(zhuǎn)森林算法

        核函數(shù)方法可以按照模塊化的形式擴(kuò)展機(jī)器學(xué)習(xí)算法,基于這一原理,選擇利用核主成分分析的方式實(shí)現(xiàn)樣本數(shù)據(jù)的變換,并形成差異性強(qiáng)的訓(xùn)練集,之后再參照旋轉(zhuǎn)森林算法以決策樹為基分類器,形成核主成分分析旋轉(zhuǎn)森林算法。算法描述如圖2所示。

        Fig.2 Description of KPCA-RoF圖2 核主成分分析旋轉(zhuǎn)森林算法描述

        (1)對(duì)一給定的n維樣本集,取除去類標(biāo)的特征集部分為H,劃分為不相交的K份。

        (2)設(shè)D1,D2,…,DL為要用于分類的基分類器。Hij表示Di分類器所使用訓(xùn)練集中對(duì)應(yīng)的第j個(gè)特征子集,其中1≤i≤L,1≤j≤K。對(duì)樣本集進(jìn)行隨機(jī)抽樣m次,抽樣形成樣本子集Zi,并且m=n/k,Zij表示Hij所對(duì)應(yīng)的樣本子集。對(duì)Zij選擇某核函數(shù)進(jìn)行核主成分分析,排列其特征向量產(chǎn)生一個(gè)新的系數(shù)矩陣Cij。

        (3)重復(fù)上述步驟,對(duì)每個(gè)Zi通過核主成分分析的方式產(chǎn)生一個(gè)系數(shù)矩陣,共重復(fù)了K次。

        (4)將上述產(chǎn)生的系數(shù)矩陣組合成一個(gè)巨大的稀疏矩陣,以此生成基分類器Di的旋轉(zhuǎn)矩陣Ri:

        這樣分類器Di所使用的訓(xùn)練集則為ZRi。同樣在測(cè)試過程中,對(duì)于新樣本x,也要與旋轉(zhuǎn)矩陣相乘得到xRi再送入分類器,判定其類別的置信度為:

        4.2 核函數(shù)的選擇方法以及參數(shù)的選擇方法

        因?yàn)椴煌暮撕瘮?shù)會(huì)對(duì)分類效果帶來較大的差異,不適當(dāng)?shù)暮瘮?shù)形式或者參數(shù)甚至有可能達(dá)不到分類的效果。單獨(dú)對(duì)核函數(shù)進(jìn)行評(píng)價(jià),通過測(cè)算映射后數(shù)據(jù)的類內(nèi)聚集和類間離散程度來評(píng)估可分性的好壞[11]。這種方法獨(dú)立于具體的分類算法,也不考慮最后的泛化能力,因而適用性較強(qiáng)。本文采用高斯核函數(shù)改進(jìn)旋轉(zhuǎn)森林算法,并關(guān)注于參數(shù)的選擇問題。

        這里對(duì)參數(shù)的優(yōu)化選用特征類間距作為參考指標(biāo)[12]。數(shù)據(jù)映射后在特征空間中的夾角和距離為:

        用Di,j來表示兩個(gè)向量之間的距離,表示如下:

        將具體的核函數(shù)代入式(12)和(13):

        其中夾角滿足:

        同理可得出:

        從上述表達(dá)式可得,僅有一個(gè)參數(shù)影響類間距和夾角,從而影響特征空間的分布情況,進(jìn)一步影響旋轉(zhuǎn)森林算法的分類效果。

        當(dāng)參數(shù)δ的值趨于0時(shí),可以得出其夾角的余弦值趨于1,也即意味著映射后的兩向量夾角值趨于0;并且通過計(jì)算向量距離可知,向量的距離也趨于0,這意味著所有的樣本被映射到一點(diǎn)上了,這樣根本無法對(duì)樣本進(jìn)行分類。當(dāng)參數(shù)δ的值趨于無窮大時(shí),兩向量夾角趨于π/2,樣本的距離趨于一個(gè)常數(shù),這說明樣本集被映射到一個(gè)n維的特征空間中,且可以發(fā)現(xiàn)特征向量是兩兩正交。因此特征空間的維數(shù)隨著δ的增大而單調(diào)增大,一直增加到n(n是樣本空間樣本的個(gè)數(shù));并且特征空間各向量之間的夾角以及距離也是單調(diào)增加的,分別趨于π/2和。

        給定一個(gè)包含有L個(gè)樣本C個(gè)類別的訓(xùn)練集X,即:

        計(jì)算樣本映射后在特征空間中的平均值:

        則在映射后的空間中類間平均距離的表達(dá)式為:

        在核空間中類間余弦值為:

        在核空間中類內(nèi)余弦值為:

        綜合式(19)、(20)、(21)可得:

        通過上述表達(dá)式可知,類間距可以表述為類間角和類內(nèi)角的運(yùn)算結(jié)果。當(dāng)類內(nèi)角大,類間角小時(shí),類間距較大;反之則類間距較小。而根據(jù)式(14)可知,類間角和類內(nèi)角均隨著δ的增大而增大,因此可能存在一個(gè)參數(shù)值,使得類間距最大。

        5 實(shí)驗(yàn)結(jié)果及分析

        本實(shí)驗(yàn)主要選擇高斯徑向基核函數(shù)對(duì)樣本進(jìn)行變換,對(duì)比指標(biāo)主要有分類精度、集成度等。通過對(duì)核函數(shù)唯一的參數(shù)δ進(jìn)行優(yōu)化[13],使之獲得較好的分類性能。

        本實(shí)驗(yàn)選定Breast(乳腺癌)、CNS(神經(jīng)系統(tǒng)腫瘤組織)、ALL(急性淋巴細(xì)胞白血病)3個(gè)數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象,數(shù)據(jù)來源均可以從公開的站點(diǎn)下載,其下載網(wǎng)址為http://datam.i2r.a-star.edu.sg/datasets/krbd/。因?yàn)樵紨?shù)據(jù)集的維數(shù)過高,不利于直接進(jìn)行數(shù)據(jù)分類,所以先利用ReliefF算法[14]進(jìn)行一定程度上的降維處理。ReliefF算法是一種帶有特征權(quán)重的選擇方法,這里對(duì)數(shù)據(jù)集隨機(jī)抽樣30次,特征閾值設(shè)為0.95,得出預(yù)處理后的數(shù)據(jù)集。按照上述方法通過實(shí)驗(yàn)的手段取得各數(shù)據(jù)集的最佳參數(shù)。下面是有關(guān)的曲線δ-J(δ),δ的取值范圍為δ={10-5,10-4,…,105}。

        圖3表示3組數(shù)據(jù)各自的參數(shù)值與其歸一化的類間距之間的關(guān)系,均采用30次實(shí)驗(yàn)的平均值??梢钥闯觯诳捎^測(cè)到的范圍內(nèi)[10-6,106],存在著極大值點(diǎn),分別是0.9、0.9、0.8。則認(rèn)為對(duì)于這3組數(shù)據(jù)集,最優(yōu)的參數(shù)值分別為δ1=δ2=0.9,δ3=0.8。

        Fig.3 Parameter values and class separation distance圖3 參數(shù)值與類間距的關(guān)系

        本文主要通過與Bagging算法[15]、隨機(jī)森林算法以及原始的旋轉(zhuǎn)森林算法進(jìn)行比較實(shí)驗(yàn)和分析,依次驗(yàn)證改進(jìn)后的旋轉(zhuǎn)森林算法的有效性。所有算法的基分類器都采用C4.5決策樹[16],主要控制的變量有集成度N和抽取的樣本個(gè)數(shù)M,每次均做到控制單一量的變化,分別取最好的結(jié)果進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)統(tǒng)計(jì)量為F檢驗(yàn),樣本方差為S2,樣本均值為Xˉ。

        (1)高斯徑向基核旋轉(zhuǎn)森林(RBF-RoF)特征集分割數(shù)實(shí)驗(yàn)。

        表1在基于決策樹的集成數(shù)為30的情況下,不斷地改變各特征集的分割數(shù)后所得到的分類精度。保證基分類器的數(shù)目足夠多,這樣就可以使得每個(gè)實(shí)驗(yàn)數(shù)據(jù)集充分集成。從實(shí)驗(yàn)結(jié)果得到,在特征集分割數(shù)大于10時(shí),分割數(shù)的改變對(duì)于提高旋轉(zhuǎn)森林的分類精度不會(huì)帶來很大的改善,這跟原始的旋轉(zhuǎn)森林實(shí)驗(yàn)的結(jié)果類似。因此在后續(xù)的實(shí)驗(yàn)中,沒必要再去增加特征集的分割數(shù),保持在5~10之間的任何一個(gè)值即可,這里選擇N=9。

        Table 1 Classification accuracy and the number of feature set splitting表1 分類精度與特征集分割數(shù)之間的關(guān)系

        表2展示了隨著集成度的上升,各數(shù)據(jù)集分類精度的變化。從結(jié)果可以得到,隨著集成度的上升,各數(shù)據(jù)集大約在集成度為15時(shí)獲得較好的精度,之后就幾乎穩(wěn)定下來。分別在每一個(gè)數(shù)據(jù)集上選用幾種集成算法,實(shí)驗(yàn)變量為集成度,驗(yàn)證不同集成算法所帶來的分類效果。

        Table 2 Classification accuracy and integration level表2 分類精度與集成度之間的關(guān)系

        圖4~圖6分別展示了各數(shù)據(jù)集在不同分類算法下的分類精度,對(duì)比結(jié)果可以發(fā)現(xiàn),隨著集成度的上升,各分類算法的精度都會(huì)有所上升??傮w來講,Bagging決策樹的分類精度最差,隨機(jī)森林稍好,旋轉(zhuǎn)森林更好一些,經(jīng)過高斯徑向基核函數(shù)改進(jìn)的核主成分分析旋轉(zhuǎn)森林(RBF-RoF)效果總是最好的。Bagging決策樹僅僅是對(duì)決策樹的集成,不會(huì)對(duì)算法性能帶來明顯的提升,隨機(jī)森林增加了對(duì)特征空間的隨機(jī)分割,基分類器間存在一定的差異性。從上述實(shí)驗(yàn)結(jié)果可以看出,旋轉(zhuǎn)森林和RBF-RoF都會(huì)取得良好的實(shí)驗(yàn)效果,這是由于這兩種算法對(duì)特征空間進(jìn)行分割和變換。對(duì)比改進(jìn)前后的旋轉(zhuǎn)森林,改進(jìn)后的分類精度會(huì)有所提升;同時(shí),改進(jìn)后的旋轉(zhuǎn)森林在比較小的集成度時(shí)就可以取得很好的精度,這說明進(jìn)行非線性變換相比線性變換會(huì)帶來更好的可分性,同時(shí)非線性變換會(huì)增加很多的計(jì)算量,但算法的復(fù)雜度同屬于O(n3),復(fù)雜度影響并不明顯,相對(duì)于精度的提高,可以忽略。

        Fig.4 Classification accuracy of Breast dataset圖4 Breast數(shù)據(jù)集的分類精度

        Fig.5 Classification accuracy of CNS dataset圖5 CNS數(shù)據(jù)集的分類精度

        Fig.6 Classification accuracy ofALL dataset圖6 ALL數(shù)據(jù)集的分類精度

        (2)通過對(duì)改進(jìn)后的算法進(jìn)行統(tǒng)計(jì)學(xué)分析,以說明比原始算法存在顯著性差別。這里利用F檢驗(yàn)的方法來驗(yàn)證改進(jìn)前后的顯著性。

        求解實(shí)驗(yàn)結(jié)果樣本的方差S2:

        進(jìn)一步求得F值:

        其中一般取參數(shù)α=0.05,與F分布表中所查到的值進(jìn)行比對(duì),如果前者大于后者,則認(rèn)為本組算法之間是彼此顯著的,否則就認(rèn)為差別不大。

        表3列舉了幾個(gè)常用的統(tǒng)計(jì)量,樣本均值、方差S2以及顯著性F。從計(jì)算結(jié)果可以得到,在各個(gè)數(shù)據(jù)集上表現(xiàn)顯著性有效。

        Table 3 Statistics analysis of algorithms表3 算法改進(jìn)前后的統(tǒng)計(jì)量分析

        6 結(jié)束語(yǔ)

        通過特征集分割、采樣與變換,最后再重新生成一個(gè)變換矩陣,是旋轉(zhuǎn)森林的重要特點(diǎn)。借助核支持向量機(jī)的思想以及旋轉(zhuǎn)森林算法的流程,實(shí)現(xiàn)了基于高斯徑向基核主成分分析的旋轉(zhuǎn)森林,與利用線性變換的旋轉(zhuǎn)森林算法相比,分類精度得到提高。并通過對(duì)其他統(tǒng)計(jì)量的分析可知,改進(jìn)后的算法方差更小,并且比原始算法更顯著。盡管改進(jìn)后的算法會(huì)帶來更多的資源消耗,例如計(jì)算時(shí)間和內(nèi)存,但是在計(jì)算成本越來越低的現(xiàn)今社會(huì),這不應(yīng)該成為一種瓶頸。

        [1]Lu Huijuan.A study of tumor classification algorithms using gene expression data[D].Xuzhou:China University of Mining and Technology,2012.

        [2]Lu Huijuan,An Chunlin,Zheng Enhui,et al.Dissimilarity based ensemble of extreme learning machine for gene expression data classification[J].Neurocomputing,2014,128(5):22-30.

        [3]Liu Min,Xie Huosheng.Ensemble co-training algorithm based on rotation forest[J].Computer Engineering and Applications,2011,47(30):172-175.

        [4]Mao Shasha,Xiong Lin,Jiao Licheng,et al.Isomerous multiple classifier ensemble via transformation of the rotation forest[J].Journal of Xidian University,2014,41(5):48-53.

        [5]Mousavi R,Eftekhari M,Haghighi M G.A new approach to human microRNA target prediction using ensemble pruning and rotation forest[J].Journal of Bioinformatics and Computational Biology,2015,13(6):1550017.

        [6]Wong Leon,You Zhuhong,Ming Zhong,et al.Detection of interactions between proteins through rotation forest and local phase quantization descriptors[J].International Journal of Molecular Sciences,2015,17(1):21.

        [7]Adankon M M,Cheriet M.Support vector machine[M]//Encyclopedia of Biometrics.[S.l.]:Springer US,2015:1303-1308.

        [8]Lu Huijuan,Du Bangjun,Liu Jinyong,et al.A kernel extreme learning machine algorithm based on improved particle swam optimization[J].Memetic Computing,2017,9(2):121-128.

        [9]Jian Ling.Kernel based learning algorithm and application[D].Dalian:Dalian University of Technology,2012.

        [10]Li Zhe,Kruger U,Xie Lei,et al.Adaptive KPCA modeling of nonlinear systems[J].IEEE Transactions on Signal Processing,2015,63(9):2364-2376.

        [11]Song Xiaoshan,Jiang Xiaoyu,Luo Jianhua,et al.Analysis of the inter-class distance-based kernel parameter evaluating method for RBF-SVM[J].Acta Armamentarii,2012,33(2):203-208.

        [12]Wang Tinghua,Chen Junting.Survey of research on kernel function evaluation[J].Application Research of Computers,2011,28(1):25-28.

        [13]Qiu Xiaoyu.The selection for the kernel-based method[D].Jinan:Shandong Normal University,2008.

        [14]Chen Xiaolin,Ji Bo,Ye Yangdong.A R-NIC algorithm based on ReliefF feature weighting[J].Computer Engineering,2015,41(4):161-165.

        [15]Li Yaqin,Yang Huizhong.Ensemble modeling method based on Bagging algorithm and Gaussian process[J].Journal of Southeast University:Natural Science Edition,2011,41(S1):93-96.

        [16]Meng Yang,Hou Feifei.Node association mining based on C4.5[J].Telecom World,2016(10):131-132.

        附中文參考文獻(xiàn):

        [1]陸慧娟.基于基因表達(dá)數(shù)據(jù)的腫瘤分類算法研究[D].徐州:中國(guó)礦業(yè)大學(xué),2012.

        [3]劉敏,謝伙生.一種基于旋轉(zhuǎn)森林的集成協(xié)同訓(xùn)練算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(30):172-175.

        [4]毛莎莎,熊霖,焦李成,等.利用旋轉(zhuǎn)森林變換的異構(gòu)多分類器集成算法[J].西安電子科技大學(xué)學(xué)報(bào):自然科學(xué)版,2014,41(5):48-53.

        [9]漸令.基于核的學(xué)習(xí)算法與應(yīng)用[D].大連:大連理工大學(xué),2012.

        [11]宋小衫,蔣曉瑜,羅建華,等.基于類間距的徑向基函數(shù)——支持向量機(jī)核參數(shù)評(píng)價(jià)方法分析[J].兵工學(xué)報(bào),2012,33(2):203-208.

        [12]汪廷華,陳峻婷.核函數(shù)的度量研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2011,28(1):25-28.

        [13]邱瀟鈺.核函數(shù)的參數(shù)選擇[D].濟(jì)南:山東師范大學(xué),2008.

        [14]陳曉琳,姬波,葉陽(yáng)東.一種基于ReliefF特征加權(quán)的RNIC算法[J].計(jì)算機(jī)工程,2015,41(4):161-165.

        [15]李雅芹,楊慧中.一種基于Bagging算法的高斯過程集成建模方法[J].東南大學(xué)學(xué)報(bào),2011,41(S1):93-96.

        [16]孟楊,候飛飛.基于C4.5的節(jié)點(diǎn)關(guān)聯(lián)挖掘[J].通訊世界,2016(10):131-132.

        Classifier Algorithm of Genetic Data Based on Kernel Principal Component Analysis and Rotation Forest*

        LU Huijuan1+,LIU Yaqing1,MENG Yaqiong1,GUAN Wei2,LIU Yanqiu1
        1.College of Information Engineering,China Jiliang University,Hangzhou 310018,China
        2.College of Modern Science and Technology,China Jiliang University,Hangzhou 310018,China

        A

        TP181

        +Corresponding author:E-mail:hjlu@cjlu.edu.cn

        LU Huijuan,LIU Yaqing,MENG Yaqiong,et al.Classifier algorithm of genetic data based on kernel principal component analysis and rotation forest.Journal of Frontiers of Computer Science and Technology,2017,11(10):1570-1578.

        ISSN 1673-9418 CODEN JKYTA8

        Journal of Frontiers of Computer Science and Technology

        1673-9418/2017/11(10)-1570-09

        10.3778/j.issn.1673-9418.1608046

        E-mail:fcst@vip.163.com

        http://www.ceaj.org

        Tel:+86-10-89056056

        *The National Natural Science Foundation of China under Grant Nos.61272315,60905034(國(guó)家自然科學(xué)基金);the Natural Science Foundation of Zhejiang Province under Grant No.Y1110342(浙江省自然科學(xué)基金);the National Security Bureau Project under Grant No.zhejiang-00062014AQ(國(guó)家安全總局項(xiàng)目).

        Received 2016-08,Accepted 2016-10.

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-10-19,http://www.cnki.net/kcms/detail/11.5602.TP.20161019.1458.008.html

        LU Huijuan was born in 1962.She received the Ph.D.degree from China University of Mining and Technology in 2012.Now she is a professor at China Jiliang University,and the outstanding member of CCF.Her research interests include machine learning,pattern recognition and bioinformatics,etc.She has published over 80 papers,conducted 2 National Natural Science Foundation of China projects and 8 Science&Technology projects of Zhejiang Province.

        陸慧娟(1962—),女,浙江東陽(yáng)人,2012年于中國(guó)礦業(yè)大學(xué)獲得博士學(xué)位,現(xiàn)為中國(guó)計(jì)量大學(xué)教授,CCF杰出會(huì)員、理事,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),模式識(shí)別,生物信息學(xué)等。發(fā)表學(xué)術(shù)論文80多篇,主持完成國(guó)家自然科學(xué)基金項(xiàng)目2項(xiàng),浙江省級(jí)科技項(xiàng)目8項(xiàng)。

        LIU Yaqing was born in 1988.His research interests include machine learning,cloud computing and data mining,etc.

        劉亞卿(1988—),男,河南周口人,碩士,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),云計(jì)算,數(shù)據(jù)挖掘等。

        MENG Yaqiong was born in 1992.She is an M.S.candidate at China Jiliang University,and the member of CCF.Her research interests include machine learning and data mining,etc.

        孟亞瓊(1992—),女,安徽蕪湖人,中國(guó)計(jì)量大學(xué)碩士研究生,CCF會(huì)員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),數(shù)據(jù)挖掘等。

        GUAN Wei was born in 1976.He is a lecturer at China Jiliang University,and the member of CCF.His research interests include machine learning and pattern recognition,etc.

        關(guān)偉(1976—),男,湖北仙桃人,碩士,中國(guó)計(jì)量大學(xué)講師,CCF會(huì)員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),模式識(shí)別等。

        LIU Yanqiu was born in 1977.She is an associate professor at China Jiliang University,and the member of CCF.Her research interests include machine learning,data mining and image processing,etc.

        劉硯秋(1977—),女,河南洛陽(yáng)人,碩士,中國(guó)計(jì)量大學(xué)副教授,CCF會(huì)員,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,圖像處理等。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        久久综合狠狠色综合伊人| 五月激情在线观看视频| 国产精品久久婷婷免费观看| av天堂吧手机版在线观看| 熟妇人妻无乱码中文字幕| 十八禁在线观看视频播放免费| 8888四色奇米在线观看| 一区二区视频观看在线| 蜜桃视频网址在线观看| 综合偷自拍亚洲乱中文字幕| 蜜桃麻豆www久久囤产精品| 成人国产精品一区二区网站| 日本视频一区二区二区| 国产人妻熟女呻吟在线观看| 老太脱裤子让老头玩xxxxx| 国产精在线| 日本一区二区在线资源| 国产精品综合一区久久| 国产md视频一区二区三区| 伊人色综合视频一区二区三区| 亚洲av色香蕉一区二区蜜桃| 人妻少妇猛烈井进入中文字幕| 国产午夜成人av在线播放| 欧美一级欧美一级在线播放| 激情视频在线观看国产中文| 日本亚洲视频一区二区三区| 50岁退休熟女露脸高潮| 国产91网| 国产精品黑丝美女av| 国产 精品 自在 线免费| 国产自偷亚洲精品页65页| 无码专区无码专区视频网址| 亚洲一区二区三区在线看| 亚洲中文字幕无码中文字| 欧美亚洲日韩国产区| 一区二区日本影院在线观看| 亚洲国产中文字幕视频| 国产成人免费一区二区三区| 精精国产xxxx视频在线播放器| 精品人妻少妇丰满久久久免| 色狠狠色噜噜av天堂一区|