亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        DNA微陣列數(shù)據(jù)判別的旋轉(zhuǎn)森林方法

        2012-03-11 14:01:34陳金甌
        中國衛(wèi)生統(tǒng)計(jì) 2012年4期
        關(guān)鍵詞:分類特征

        陳金甌 柳 青

        DNA微陣列技術(shù)的出現(xiàn)使得我們可以同時(shí)檢測成千上萬個(gè)基因表達(dá)水平。基因表達(dá)數(shù)據(jù)分析的一個(gè)重要部分是通過表型(是否患疾病,疾病類型,疾病預(yù)后情況等)已知的樣本,運(yùn)用基因表達(dá)水平數(shù)據(jù)建立判別模型,以識(shí)別未知樣本的分類,并期望獲得良好的分類效果,這對(duì)疾病的分子分型、診斷、篩查和治療等研究都有很重要的意義。目前應(yīng)用于微陣列數(shù)據(jù)的基因分類方法主要有:(1)傳統(tǒng)統(tǒng)計(jì)學(xué)方法,如logistic回歸、Fisher線性判別;(2)機(jī)器學(xué)習(xí)方法,如分類與回歸樹(CART);(3)集成分類系統(tǒng)(ensemble classification system),如 Boosting,Bagging和隨機(jī)森林(random forest)〔1-2〕;(4)其他方法,如支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)(NN)等。集成分類系統(tǒng)由于其優(yōu)良的分類性能得到人們的重視。它通過多個(gè)子分類器的學(xué)習(xí),用投票(voting)的方法得到判別結(jié)果,使得分類結(jié)果更加準(zhǔn)確、穩(wěn)定,泛化誤差和推廣能力也較單個(gè)分類器強(qiáng)。近期出現(xiàn)的眾多算法中,旋轉(zhuǎn)森林(rotation forest)是一種建立在隨機(jī)森林基礎(chǔ)之上的數(shù)據(jù)判別分類方法。它具有隨機(jī)森林算法的優(yōu)點(diǎn):可應(yīng)用于高維小樣本數(shù)據(jù),不容易過擬合等;且它的分類性能更加優(yōu)良。本研究首先介紹旋轉(zhuǎn)森林算法,并應(yīng)用旋轉(zhuǎn)森林算法對(duì)公開的基因表達(dá)譜數(shù)據(jù)進(jìn)行分類判別分析,調(diào)整算法參數(shù)以初步探究旋轉(zhuǎn)森林的分類性能。

        基本原理和算法過程

        旋轉(zhuǎn)森林是2006年提出的一種分類器集成系統(tǒng),其基本設(shè)計(jì)思想建立在隨機(jī)森林算法基礎(chǔ)之上〔3-4〕。旋轉(zhuǎn)森林把原特征空間分割成若干子集,之后對(duì)每個(gè)子集分別進(jìn)行某種線性變換,如主成分分析(principal components analysis,PCA),保留所有主成分的情況下,將得到的變換分量分別按照這些子集原來對(duì)應(yīng)的順序合并,這樣每次隨機(jī)分割后得到的數(shù)據(jù)都被投影到不同坐標(biāo)空間中,因而形成差別較大的分量子集,用這些分量自己訓(xùn)練分類器,能夠得到差異度很大且分類性能較高的基分類器,以提高集成系統(tǒng)的分類性能。

        算法如下:在包含了n個(gè)特征的x=[x1,…,xn]T數(shù)據(jù)集中,x是樣本量為N的N×n矩陣,它們構(gòu)成了特征集F,Y是與之對(duì)應(yīng)的分類變量y=[y1,…,yN]T,分類取值為{ω1,…,ωc}。在微陣列表達(dá)數(shù)據(jù)中,通常以基因表達(dá)量為特征集,表型為分類變量。算法中有兩個(gè)重要參數(shù)需要定義:即數(shù)據(jù)集分割數(shù)目K;以及集成分類系統(tǒng)的基分類器數(shù)目L。在集成分類系統(tǒng)中,一般包含L=D1,…,DL個(gè)子分類器。

        第一步,首先將特征集F隨機(jī)分割為K個(gè)子集,每個(gè)子集含有M=n/K個(gè)變量,為簡單起見,一般設(shè)定K為n的一個(gè)因數(shù)。由于是隨機(jī)分割,這些子集中的變量可以相同,也可以是不同的。

        第二步,F(xiàn)ij是用于訓(xùn)練子分類器Di的第j個(gè)特征子集。對(duì)應(yīng)于每一個(gè)特征子集Fij,Xij為X中包含特征Fij的樣本子集。對(duì)Xij'采用bootstrap重采樣技術(shù),隨機(jī)且有重復(fù)的抽取75%的個(gè)體,構(gòu)成新的bootstrap樣本集Xij'。隨后對(duì)Xij'進(jìn)行某種線性變換,一般采用主成分分析,并且記錄生成的系數(shù)矩陣 Cij,用 a1ij,…,表示其系數(shù),它們都是M×1的向量。值得注意的是,可能得到的特征值為0,導(dǎo)致Mj≤M。在特征子集而不是全數(shù)據(jù)集上進(jìn)行線性變換的目的是為了避免用相同的系數(shù)矩陣來構(gòu)建子分類器。

        第三步,用已經(jīng)獲得的系數(shù)矩陣Cij構(gòu)造一個(gè)稀疏的“旋轉(zhuǎn)”矩陣Ri

        由于bootstrap過程打亂了數(shù)據(jù)順序,為了計(jì)算子分類器Di的訓(xùn)練集,需對(duì)矩陣Ri中的每一列都按原始特征集重新排序,重新排序后得到的旋轉(zhuǎn)矩陣記為Ra

        i,它是一個(gè)N×n的矩陣。對(duì)于子分類器Di,旋轉(zhuǎn)變換后的訓(xùn)練集為X'=

        第四步,在分類階段,對(duì)新樣本x也需要進(jìn)行旋轉(zhuǎn)變換,變換后的新樣本x'=設(shè) dij()為子分類器Di判定樣本x屬于類別ωc的概率,則將該樣本分配為某個(gè)類別的可信度為:

        樣本x以最大可信度判斷其所屬的類別。

        實(shí)例分析

        本文采用Bioconductor平臺(tái)的四個(gè)經(jīng)典基因微陣列數(shù)據(jù)〔5〕。分析包含結(jié)腸癌(colon),白血病(golub),急性淋巴細(xì)胞白血病(ALL),彌漫大B細(xì)胞淋巴瘤(DLBCL)四個(gè)數(shù)據(jù)集。colon數(shù)據(jù)以腫瘤患者和正常人為分類變量。golub數(shù)據(jù)以白血病種類ALL/AML(急性淋巴細(xì)胞白血病/急性髓細(xì)胞樣白血病)為分類變量。ALL數(shù)據(jù)集協(xié)變量較多,這里分別取是否復(fù)發(fā)(ALL1),是否有多重耐藥性(ALL2),以及是否有連續(xù)癥狀緩解(ALL3)作為分類變量。DLBCL以生存和死亡作為分類變量。

        數(shù)據(jù)預(yù)處理用R軟件完成,用幾個(gè)數(shù)據(jù)集標(biāo)準(zhǔn)預(yù)處理方法進(jìn)行〔6〕。colon用loess法進(jìn)行歸一化,golub先使最小值100最大值16000,而后對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換和歸一化。Bioconductor平臺(tái)的ALL數(shù)據(jù)已進(jìn)行歸一化和預(yù)處理,DLBCL用KNN法填補(bǔ)缺失值。數(shù)據(jù)分析用新西蘭Waikato大學(xué)開發(fā)的數(shù)據(jù)挖掘軟件Weka進(jìn)行〔7〕。所有分類器都以10折交叉驗(yàn)證(10-folod cross validation)評(píng)估分類性能。

        原始數(shù)據(jù)集基因數(shù)較多,會(huì)給分類器帶來較大的計(jì)算負(fù)擔(dān),直接利用原始基因表達(dá)譜數(shù)據(jù)建立模型并不現(xiàn)實(shí),因此在建立分類模型之前需要提取對(duì)分類重要的特征。六個(gè)數(shù)據(jù)集以SAM(significant analysis of microarray)法獲得在兩組間差異表達(dá)的基因〔8〕。其中colon,golub數(shù)據(jù)集以FDR<0.001為準(zhǔn),得到相應(yīng)差異表達(dá)基因。由于SAM法控制假陽性率較為嚴(yán)格,ALL1,ALL2,ALL3,DLBCL 數(shù)據(jù)得到差異表達(dá)基因過少,采用調(diào)整后的P<0.001作為差異基因入選標(biāo)準(zhǔn)。得到六個(gè)用于分類和判別分析的數(shù)據(jù)集。對(duì)數(shù)據(jù)集的描述見表1。

        1.不同分類器分類效果的比較

        所有分類器在默認(rèn)參數(shù)設(shè)置下進(jìn)行分類情況的比較,比較十種分類器的分類準(zhǔn)確性,比較的分類方法為:旋轉(zhuǎn)森林(RoF)、AdaBoost、LogitBoost、隨機(jī)森林(RF)、Bagging、CART、J48、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NN)和logistic回歸。旋轉(zhuǎn)森林的參數(shù)設(shè)置是K=3;集成規(guī)模L=10,即有10顆子樹;基分類器為剪枝的J48決策樹(J48是對(duì)C4.5的一種擴(kuò)展);線性變換方式為PCA。得到各分類器在各個(gè)數(shù)據(jù)集上的分類正確率見表2。

        表2 十種常用分類器分類結(jié)果比較

        按每個(gè)數(shù)據(jù)集上各個(gè)分類器分類準(zhǔn)確性排序編秩,若秩次相持則按平均秩次計(jì)算,各秩次相加得到分類器在六個(gè)數(shù)據(jù)集上的得分(score),對(duì)得分排序得到分類器分類性能的rank。

        從表2可以看出,在所有參數(shù)默認(rèn)的情況下,對(duì)六個(gè)數(shù)據(jù)集的分類效果旋轉(zhuǎn)森林(RoF)為最佳。其次的是LogitBoost和支持向量機(jī)。

        2.線性變換方式,基分類器是否剪枝對(duì)分類性能的影響

        線性變換方式是旋轉(zhuǎn)森林的重要參數(shù)之一。除主成分分析外,還有兩種隨機(jī)映射(random projection,RP)可以選擇〔9〕。同時(shí),對(duì)于基分類器J48決策樹,可采取剪枝和不剪枝兩種策略。線性變換方式和剪枝(pruning)、未剪枝(unpruning)對(duì)分類性能的影響見表3。

        表3 旋轉(zhuǎn)森林不同線性變換方式和是否剪枝的分類結(jié)果比較

        對(duì)表3中同一線性變換方式下是否剪枝,以及不同線性變換方式下剪枝和不剪枝的分類準(zhǔn)確性分別作配對(duì)t檢驗(yàn),P>0.05,分類效果間差別無統(tǒng)計(jì)學(xué)意義。

        3.基分類器的選擇

        對(duì)旋轉(zhuǎn)森林的基分類器,Weka提供了多種選擇。除了算法內(nèi)嵌的J48,其他常用的決策樹有:(1)Decision Stump,一種只一次進(jìn)行分裂的最簡單的決策樹;(2)CART,分類與回歸樹;(3)Random Tree,在每個(gè)節(jié)點(diǎn)隨機(jī)抽取變量進(jìn)行分裂的決策樹;以及(4)Best First Tree,掃描數(shù)據(jù)庫,以熵不純度下降最快的變量作為分裂節(jié)點(diǎn)的決策樹。結(jié)果見表4。

        表4 旋轉(zhuǎn)森林不同基分類器的分類結(jié)果比較

        對(duì)表4中各不同分類器分類結(jié)果進(jìn)行配對(duì)t檢驗(yàn),P>0.05,分類效果間差別無統(tǒng)計(jì)學(xué)意義。

        4.參數(shù) K

        對(duì)旋轉(zhuǎn)森林的參數(shù)K的設(shè)置是否會(huì)影響分類性能,我們?nèi)?K=1,2,…,10,得到結(jié)果見圖 1。

        專業(yè)英語詞匯量大是商務(wù)英語的特點(diǎn),盡管這些專業(yè)詞匯和普通英語詞匯不一樣,但是這些專業(yè)詞匯來源于具體使用的工作環(huán)境中,為了讓商務(wù)英語廣泛應(yīng)用在農(nóng)產(chǎn)品對(duì)外貿(mào)易中,與談判相關(guān)的工作人員應(yīng)該積累大量的商務(wù)英語專業(yè)詞匯,使用專業(yè)詞匯表達(dá)貿(mào)易雙方的意思,而且使用的專業(yè)詞匯也要符合世界通用的標(biāo)準(zhǔn),不然會(huì)造成誤差。

        圖1 旋轉(zhuǎn)森林參數(shù)K對(duì)分類性能影響的比較

        5.特征數(shù)(feature size)

        特征數(shù)是影響分類器分類性能的一個(gè)重要因素,而SAM法只能選取基因表達(dá)譜中特定數(shù)目的差異基因。為了比較不同特征數(shù)對(duì)旋轉(zhuǎn)森林分類性能的影響,在此我們按照P值對(duì)基因進(jìn)行排序,分別取幾個(gè)數(shù)據(jù)集的前 5,10,15,20,25,30,40,50,60,70,80,90,100個(gè)差異基因進(jìn)行分析,分類準(zhǔn)確性的結(jié)果見圖2。

        6.集成規(guī)模(ensemble size)

        集成分類系統(tǒng)的集成規(guī)模L是算法的重要參數(shù),在此我們?cè)O(shè)置起始為5個(gè)子分類器,間隔為5,直到集成規(guī)模為 100,L=5,10,15,…,100,同時(shí)分別測試三種線性變換方式PCA,RP1,RP2對(duì)旋轉(zhuǎn)森林分類性能的影響,結(jié)果見圖3。

        討 論

        本研究應(yīng)用旋轉(zhuǎn)森林算法對(duì)六個(gè)DNA微陣列數(shù)據(jù)集進(jìn)行判別分類的分析,除了對(duì)DLBCL數(shù)據(jù)分類結(jié)果不佳,分類準(zhǔn)確率為0.663,其余數(shù)據(jù)集分類準(zhǔn)確性均大于0.7。集成分類系統(tǒng)的分類準(zhǔn)確性優(yōu)于單個(gè)分類器。集成系統(tǒng)中旋轉(zhuǎn)森林和LogitBoost的分類表現(xiàn)強(qiáng)于單個(gè)分類器支持向量機(jī),而集成的Bagging也強(qiáng)于傳統(tǒng)的logistic回歸。有研究表明,集成分類系統(tǒng)分類性能是由基分類器的分類精度和各基分類器之間的差異決定的〔4〕。在旋轉(zhuǎn)森林算法中,采用PCA等線性變換會(huì)增大基分類器之間的差異,若變量之間相關(guān)性較強(qiáng),這種線性變換也可以旋轉(zhuǎn)坐標(biāo)軸以提高基分類器的分類精度,進(jìn)而提高整個(gè)集成系統(tǒng)的分類性能。其他研究顯示,對(duì)UCI的33個(gè)機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)庫進(jìn)行測試,旋轉(zhuǎn)森林的分類性能優(yōu)于其他集成算法〔10〕。

        圖2 不同特征數(shù)對(duì)旋轉(zhuǎn)森林分類性能的影響

        圖3 旋轉(zhuǎn)森林不同集成規(guī)模以及三種不同線性變換方式的分類結(jié)果比較

        對(duì)不同分類器比較中發(fā)現(xiàn)一個(gè)現(xiàn)象,傳統(tǒng)的logistic回歸分類性能受n/p影響較大,在n/p很小時(shí),即高維、樣本量較小時(shí)(對(duì)應(yīng)第1,2個(gè)數(shù)據(jù)庫),它的分類性能明顯較集成系統(tǒng)差。而在n/p較大時(shí),以DLBCL數(shù)據(jù)為例,logistic回歸的分類性能較其他分類器好。

        在對(duì)旋轉(zhuǎn)森林參數(shù)設(shè)置的比較中,得到如下幾個(gè)方面的結(jié)論:基分類器是否剪枝以及不同的基分類器選擇對(duì)旋轉(zhuǎn)森林分類性能影響不大,旋轉(zhuǎn)森林在這兩個(gè)方面穩(wěn)定性較強(qiáng)。參數(shù)K對(duì)分類性能影響在p較大的數(shù)據(jù)集中算法表現(xiàn)穩(wěn)定,而在對(duì)p較小的ALL1數(shù)據(jù)分析時(shí),不同的K值對(duì)旋轉(zhuǎn)森林分類效果影響較大。對(duì)于不同的特征數(shù)目,按照差異基因的顯著性,即p值排序,前5到10個(gè)差異基因似乎已經(jīng)能夠提供足夠多的分類信息,而增加差異基因數(shù)量并不能顯著地提升分類器的性能。對(duì)于數(shù)據(jù)集如ALL3,甚至出現(xiàn)分類效果隨特征數(shù)下降的現(xiàn)象,這說明在執(zhí)行分類任務(wù)時(shí)尋找差異基因的重要性,過多的基因也許提供了冗余信息,增加了分類器的計(jì)算負(fù)擔(dān)的同時(shí)降低了分類性能。集成規(guī)模L的初始值為5,開始時(shí)隨著集成規(guī)模的增加旋轉(zhuǎn)森林分類性能也在提高,但集成規(guī)模達(dá)到一定程度后,分類能力基本穩(wěn)定,不再隨集成規(guī)模的增加而變化。這也說明集成分類系統(tǒng)相對(duì)單個(gè)決策樹分類穩(wěn)定性更強(qiáng),分類準(zhǔn)確性更高,泛化誤差的推廣能力也更強(qiáng)。在不同的集成規(guī)模下使用不同的線性變換方式,在colon,golub和DLBCL三個(gè)數(shù)據(jù)集上,PCA和RP2分類性能優(yōu)于RP1;而在ALL1數(shù)據(jù)庫,PCA劣于RP1和RP2。這可能是不同數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)不同造成的。某種線性變換是否能在某個(gè)數(shù)據(jù)集上提供更精確的基分類器,能否增加基分類器之間的變異是決定集成系統(tǒng)分類性能的關(guān)鍵。

        由于計(jì)算復(fù)雜性較高,本研究只采用分類準(zhǔn)確性這個(gè)指標(biāo)對(duì)分類效果進(jìn)行評(píng)價(jià),將來的研究需要用更多指標(biāo),如敏感度和特異度對(duì)分類效果進(jìn)行更加全面的評(píng)價(jià)。未來應(yīng)采取數(shù)據(jù)模擬方式探索旋轉(zhuǎn)森林的分類性能,如在數(shù)據(jù)集中增加缺失值,以及對(duì)非平衡數(shù)據(jù)的研究。在算法參數(shù)設(shè)置方面,可以探索其他線性變換方式。

        1.武曉巖,閆曉光,李康.基因表達(dá)數(shù)據(jù)的隨機(jī)森林逐步判別分析方法.中國衛(wèi)生統(tǒng)計(jì),2007,24(2):151-154.

        2.李康,武曉巖.隨機(jī)森林方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用及研究進(jìn)展.中國衛(wèi)生統(tǒng)計(jì),2009,26(4):437-440.

        3.Breiman L.Random forest.Machine Learning,2001,45:5-32.

        4.Guez JR,Kuncheva L.Rotation forest:a new classifier ensemble method.IEEE Transaction on Pattern Analysis and Machine Intelligence,2006,28(10):1619-1630.

        5.http://www.bioconductor.org.

        6.Jeffery IB,Higgins DG,Culhane AC.Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data.BMC Bioinformatics,2006,7(1):359-375.

        7.http://www.cs.waikato.a(chǎn)c.nz/ml/weka.

        8.Tusher VG,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response.Proc Natl Acad Sci USA,2001,98(9):5116-5121.

        9.Fradkin D,Madigan D.Experiments with random projections for machine learning.New York,NY,USA,2003.

        10.Kuncheva LI,Rodrigue J.An experimental study on rotation forest ensembles.Lecture Notes in Computer Science,2007,4472:459-468.

        猜你喜歡
        分類特征
        抓住特征巧觀察
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        国产av国片精品有毛| 亚洲综合精品一区二区三区| 少妇精品揄拍高潮少妇桃花岛| 亚洲国产果冻传媒av在线观看| 在线精品国产一区二区三区| 国产成人啪精品午夜网站| 性感人妻av在线播放| 有坂深雪中文字幕亚洲中文 | 国产99re在线观看只有精品| 中文字幕一区二区三在线| 亚洲午夜精品一区二区麻豆av| 国自产精品手机在线观看视频| 欧美激情区| 国产黑色丝袜在线观看网站91 | 免费不卡在线观看av| 亚洲成人小说| 无码国产精品一区二区免费式芒果| 91精品国产综合久久精品密臀| av无码国产在线看免费网站| 男女超爽视频免费播放| 日本女优一区二区在线免费观看| 久久精品国产亚洲av高清三区| 成人性生交大片免费| 国产午夜福利精品| 一区二区三区日本久久| 亚洲国产精品日本无码网站| 午夜丰满少妇性开放视频| 人妻少妇精品无码系列| 男女搞事在线观看视频| 丁字裤少妇露黑毛| 性导航app精品视频| 久久久人妻丰满熟妇av蜜臀| 亚洲成a人片在线观看无码专区| 欧美综合自拍亚洲综合图片区| 久久久久无码精品国| 亚洲另类丰满熟妇乱xxxx| 日韩国产成人无码av毛片蜜柚 | 一区二区在线视频大片| 日本精品女优一区二区三区| 亚洲av之男人的天堂网站| 亚洲Av无码专区尤物|