亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

DNA微陣列數(shù)據(jù)判別的旋轉(zhuǎn)森林方法

2012-03-11 14:01:34陳金甌

中國衛(wèi)生統(tǒng)計(jì) 2012年4期

關(guān)鍵詞：分類特征

陳金甌柳青

DNA微陣列技術(shù)的出現(xiàn)使得我們可以同時(shí)檢測成千上萬個(gè)基因表達(dá)水平。基因表達(dá)數(shù)據(jù)分析的一個(gè)重要部分是通過表型(是否患疾病，疾病類型，疾病預(yù)后情況等)已知的樣本，運(yùn)用基因表達(dá)水平數(shù)據(jù)建立判別模型，以識(shí)別未知樣本的分類，并期望獲得良好的分類效果，這對(duì)疾病的分子分型、診斷、篩查和治療等研究都有很重要的意義。目前應(yīng)用于微陣列數(shù)據(jù)的基因分類方法主要有:(1)傳統(tǒng)統(tǒng)計(jì)學(xué)方法，如logistic回歸、Fisher線性判別;(2)機(jī)器學(xué)習(xí)方法，如分類與回歸樹(CART);(3)集成分類系統(tǒng)(ensemble classification system)，如 Boosting，Bagging和隨機(jī)森林(random forest)〔1－2〕;(4)其他方法，如支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)(NN)等。集成分類系統(tǒng)由于其優(yōu)良的分類性能得到人們的重視。它通過多個(gè)子分類器的學(xué)習(xí)，用投票(voting)的方法得到判別結(jié)果，使得分類結(jié)果更加準(zhǔn)確、穩(wěn)定，泛化誤差和推廣能力也較單個(gè)分類器強(qiáng)。近期出現(xiàn)的眾多算法中，旋轉(zhuǎn)森林(rotation forest)是一種建立在隨機(jī)森林基礎(chǔ)之上的數(shù)據(jù)判別分類方法。它具有隨機(jī)森林算法的優(yōu)點(diǎn):可應(yīng)用于高維小樣本數(shù)據(jù)，不容易過擬合等;且它的分類性能更加優(yōu)良。本研究首先介紹旋轉(zhuǎn)森林算法，并應(yīng)用旋轉(zhuǎn)森林算法對(duì)公開的基因表達(dá)譜數(shù)據(jù)進(jìn)行分類判別分析，調(diào)整算法參數(shù)以初步探究旋轉(zhuǎn)森林的分類性能。

基本原理和算法過程

旋轉(zhuǎn)森林是2006年提出的一種分類器集成系統(tǒng)，其基本設(shè)計(jì)思想建立在隨機(jī)森林算法基礎(chǔ)之上〔3－4〕。旋轉(zhuǎn)森林把原特征空間分割成若干子集，之后對(duì)每個(gè)子集分別進(jìn)行某種線性變換，如主成分分析(principal components analysis，PCA)，保留所有主成分的情況下，將得到的變換分量分別按照這些子集原來對(duì)應(yīng)的順序合并，這樣每次隨機(jī)分割后得到的數(shù)據(jù)都被投影到不同坐標(biāo)空間中，因而形成差別較大的分量子集，用這些分量自己訓(xùn)練分類器，能夠得到差異度很大且分類性能較高的基分類器，以提高集成系統(tǒng)的分類性能。

算法如下:在包含了n個(gè)特征的x=［x1，…，xn］T數(shù)據(jù)集中，x是樣本量為N的N×n矩陣，它們構(gòu)成了特征集F，Y是與之對(duì)應(yīng)的分類變量y=［y1，…，yN］T，分類取值為{ω1，…，ωc}。在微陣列表達(dá)數(shù)據(jù)中，通常以基因表達(dá)量為特征集，表型為分類變量。算法中有兩個(gè)重要參數(shù)需要定義:即數(shù)據(jù)集分割數(shù)目K;以及集成分類系統(tǒng)的基分類器數(shù)目L。在集成分類系統(tǒng)中，一般包含L=D1，…，DL個(gè)子分類器。

第一步，首先將特征集F隨機(jī)分割為K個(gè)子集，每個(gè)子集含有M=n/K個(gè)變量，為簡單起見，一般設(shè)定K為n的一個(gè)因數(shù)。由于是隨機(jī)分割，這些子集中的變量可以相同，也可以是不同的。

第二步，F(xiàn)ij是用于訓(xùn)練子分類器Di的第j個(gè)特征子集。對(duì)應(yīng)于每一個(gè)特征子集Fij，Xij為X中包含特征Fij的樣本子集。對(duì)Xij'采用bootstrap重采樣技術(shù)，隨機(jī)且有重復(fù)的抽取75%的個(gè)體，構(gòu)成新的bootstrap樣本集Xij'。隨后對(duì)Xij'進(jìn)行某種線性變換，一般采用主成分分析，并且記錄生成的系數(shù)矩陣 Cij，用 a1ij，…，表示其系數(shù)，它們都是M×1的向量。值得注意的是，可能得到的特征值為0，導(dǎo)致Mj≤M。在特征子集而不是全數(shù)據(jù)集上進(jìn)行線性變換的目的是為了避免用相同的系數(shù)矩陣來構(gòu)建子分類器。

第三步，用已經(jīng)獲得的系數(shù)矩陣Cij構(gòu)造一個(gè)稀疏的“旋轉(zhuǎn)”矩陣Ri

由于bootstrap過程打亂了數(shù)據(jù)順序，為了計(jì)算子分類器Di的訓(xùn)練集，需對(duì)矩陣Ri中的每一列都按原始特征集重新排序，重新排序后得到的旋轉(zhuǎn)矩陣記為Ra

i，它是一個(gè)N×n的矩陣。對(duì)于子分類器Di，旋轉(zhuǎn)變換后的訓(xùn)練集為X'=

第四步，在分類階段，對(duì)新樣本x也需要進(jìn)行旋轉(zhuǎn)變換，變換后的新樣本x'=設(shè) dij()為子分類器Di判定樣本x屬于類別ωc的概率，則將該樣本分配為某個(gè)類別的可信度為:

樣本x以最大可信度判斷其所屬的類別。

實(shí)例分析

本文采用Bioconductor平臺(tái)的四個(gè)經(jīng)典基因微陣列數(shù)據(jù)〔5〕。分析包含結(jié)腸癌(colon)，白血病(golub)，急性淋巴細(xì)胞白血病(ALL)，彌漫大B細(xì)胞淋巴瘤(DLBCL)四個(gè)數(shù)據(jù)集。colon數(shù)據(jù)以腫瘤患者和正常人為分類變量。golub數(shù)據(jù)以白血病種類ALL/AML(急性淋巴細(xì)胞白血病/急性髓細(xì)胞樣白血病)為分類變量。ALL數(shù)據(jù)集協(xié)變量較多，這里分別取是否復(fù)發(fā)(ALL1)，是否有多重耐藥性(ALL2)，以及是否有連續(xù)癥狀緩解(ALL3)作為分類變量。DLBCL以生存和死亡作為分類變量。

數(shù)據(jù)預(yù)處理用R軟件完成，用幾個(gè)數(shù)據(jù)集標(biāo)準(zhǔn)預(yù)處理方法進(jìn)行〔6〕。colon用loess法進(jìn)行歸一化，golub先使最小值100最大值16000，而后對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換和歸一化。Bioconductor平臺(tái)的ALL數(shù)據(jù)已進(jìn)行歸一化和預(yù)處理，DLBCL用KNN法填補(bǔ)缺失值。數(shù)據(jù)分析用新西蘭Waikato大學(xué)開發(fā)的數(shù)據(jù)挖掘軟件Weka進(jìn)行〔7〕。所有分類器都以10折交叉驗(yàn)證(10-folod cross validation)評(píng)估分類性能。

原始數(shù)據(jù)集基因數(shù)較多，會(huì)給分類器帶來較大的計(jì)算負(fù)擔(dān)，直接利用原始基因表達(dá)譜數(shù)據(jù)建立模型并不現(xiàn)實(shí)，因此在建立分類模型之前需要提取對(duì)分類重要的特征。六個(gè)數(shù)據(jù)集以SAM(significant analysis of microarray)法獲得在兩組間差異表達(dá)的基因〔8〕。其中colon，golub數(shù)據(jù)集以FDR＜0.001為準(zhǔn)，得到相應(yīng)差異表達(dá)基因。由于SAM法控制假陽性率較為嚴(yán)格，ALL1，ALL2，ALL3，DLBCL 數(shù)據(jù)得到差異表達(dá)基因過少，采用調(diào)整后的P＜0.001作為差異基因入選標(biāo)準(zhǔn)。得到六個(gè)用于分類和判別分析的數(shù)據(jù)集。對(duì)數(shù)據(jù)集的描述見表1。

1．不同分類器分類效果的比較

所有分類器在默認(rèn)參數(shù)設(shè)置下進(jìn)行分類情況的比較，比較十種分類器的分類準(zhǔn)確性，比較的分類方法為:旋轉(zhuǎn)森林(RoF)、AdaBoost、LogitBoost、隨機(jī)森林(RF)、Bagging、CART、J48、支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(NN)和logistic回歸。旋轉(zhuǎn)森林的參數(shù)設(shè)置是K=3;集成規(guī)模L=10，即有10顆子樹;基分類器為剪枝的J48決策樹(J48是對(duì)C4．5的一種擴(kuò)展);線性變換方式為PCA。得到各分類器在各個(gè)數(shù)據(jù)集上的分類正確率見表2。

表2 十種常用分類器分類結(jié)果比較

按每個(gè)數(shù)據(jù)集上各個(gè)分類器分類準(zhǔn)確性排序編秩，若秩次相持則按平均秩次計(jì)算，各秩次相加得到分類器在六個(gè)數(shù)據(jù)集上的得分(score)，對(duì)得分排序得到分類器分類性能的rank。

從表2可以看出，在所有參數(shù)默認(rèn)的情況下，對(duì)六個(gè)數(shù)據(jù)集的分類效果旋轉(zhuǎn)森林(RoF)為最佳。其次的是LogitBoost和支持向量機(jī)。

2．線性變換方式，基分類器是否剪枝對(duì)分類性能的影響

線性變換方式是旋轉(zhuǎn)森林的重要參數(shù)之一。除主成分分析外，還有兩種隨機(jī)映射(random projection，RP)可以選擇〔9〕。同時(shí)，對(duì)于基分類器J48決策樹，可采取剪枝和不剪枝兩種策略。線性變換方式和剪枝(pruning)、未剪枝(unpruning)對(duì)分類性能的影響見表3。

表3 旋轉(zhuǎn)森林不同線性變換方式和是否剪枝的分類結(jié)果比較

對(duì)表3中同一線性變換方式下是否剪枝，以及不同線性變換方式下剪枝和不剪枝的分類準(zhǔn)確性分別作配對(duì)t檢驗(yàn)，P＞0.05，分類效果間差別無統(tǒng)計(jì)學(xué)意義。

3．基分類器的選擇

對(duì)旋轉(zhuǎn)森林的基分類器，Weka提供了多種選擇。除了算法內(nèi)嵌的J48，其他常用的決策樹有:(1)Decision Stump，一種只一次進(jìn)行分裂的最簡單的決策樹;(2)CART，分類與回歸樹;(3)Random Tree，在每個(gè)節(jié)點(diǎn)隨機(jī)抽取變量進(jìn)行分裂的決策樹;以及(4)Best First Tree，掃描數(shù)據(jù)庫，以熵不純度下降最快的變量作為分裂節(jié)點(diǎn)的決策樹。結(jié)果見表4。

表4 旋轉(zhuǎn)森林不同基分類器的分類結(jié)果比較

對(duì)表4中各不同分類器分類結(jié)果進(jìn)行配對(duì)t檢驗(yàn)，P＞0.05，分類效果間差別無統(tǒng)計(jì)學(xué)意義。

4．參數(shù) K

對(duì)旋轉(zhuǎn)森林的參數(shù)K的設(shè)置是否會(huì)影響分類性能，我們?nèi)?K=1，2，…，10，得到結(jié)果見圖 1。

專業(yè)英語詞匯量大是商務(wù)英語的特點(diǎn)，盡管這些專業(yè)詞匯和普通英語詞匯不一樣，但是這些專業(yè)詞匯來源于具體使用的工作環(huán)境中，為了讓商務(wù)英語廣泛應(yīng)用在農(nóng)產(chǎn)品對(duì)外貿(mào)易中，與談判相關(guān)的工作人員應(yīng)該積累大量的商務(wù)英語專業(yè)詞匯，使用專業(yè)詞匯表達(dá)貿(mào)易雙方的意思，而且使用的專業(yè)詞匯也要符合世界通用的標(biāo)準(zhǔn)，不然會(huì)造成誤差。

圖1 旋轉(zhuǎn)森林參數(shù)K對(duì)分類性能影響的比較

5．特征數(shù)(feature size)

特征數(shù)是影響分類器分類性能的一個(gè)重要因素，而SAM法只能選取基因表達(dá)譜中特定數(shù)目的差異基因。為了比較不同特征數(shù)對(duì)旋轉(zhuǎn)森林分類性能的影響，在此我們按照P值對(duì)基因進(jìn)行排序，分別取幾個(gè)數(shù)據(jù)集的前 5，10，15，20，25，30，40，50，60，70，80，90，100個(gè)差異基因進(jìn)行分析，分類準(zhǔn)確性的結(jié)果見圖2。

6．集成規(guī)模(ensemble size)

集成分類系統(tǒng)的集成規(guī)模L是算法的重要參數(shù)，在此我們?cè)O(shè)置起始為5個(gè)子分類器，間隔為5，直到集成規(guī)模為 100，L=5，10，15，…，100，同時(shí)分別測試三種線性變換方式PCA，RP1，RP2對(duì)旋轉(zhuǎn)森林分類性能的影響，結(jié)果見圖3。

討論

本研究應(yīng)用旋轉(zhuǎn)森林算法對(duì)六個(gè)DNA微陣列數(shù)據(jù)集進(jìn)行判別分類的分析，除了對(duì)DLBCL數(shù)據(jù)分類結(jié)果不佳，分類準(zhǔn)確率為0．663，其余數(shù)據(jù)集分類準(zhǔn)確性均大于0．7。集成分類系統(tǒng)的分類準(zhǔn)確性優(yōu)于單個(gè)分類器。集成系統(tǒng)中旋轉(zhuǎn)森林和LogitBoost的分類表現(xiàn)強(qiáng)于單個(gè)分類器支持向量機(jī)，而集成的Bagging也強(qiáng)于傳統(tǒng)的logistic回歸。有研究表明，集成分類系統(tǒng)分類性能是由基分類器的分類精度和各基分類器之間的差異決定的〔4〕。在旋轉(zhuǎn)森林算法中，采用PCA等線性變換會(huì)增大基分類器之間的差異，若變量之間相關(guān)性較強(qiáng)，這種線性變換也可以旋轉(zhuǎn)坐標(biāo)軸以提高基分類器的分類精度，進(jìn)而提高整個(gè)集成系統(tǒng)的分類性能。其他研究顯示，對(duì)UCI的33個(gè)機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)庫進(jìn)行測試，旋轉(zhuǎn)森林的分類性能優(yōu)于其他集成算法〔10〕。

圖2 不同特征數(shù)對(duì)旋轉(zhuǎn)森林分類性能的影響

圖3 旋轉(zhuǎn)森林不同集成規(guī)模以及三種不同線性變換方式的分類結(jié)果比較

對(duì)不同分類器比較中發(fā)現(xiàn)一個(gè)現(xiàn)象，傳統(tǒng)的logistic回歸分類性能受n/p影響較大，在n/p很小時(shí)，即高維、樣本量較小時(shí)(對(duì)應(yīng)第1，2個(gè)數(shù)據(jù)庫)，它的分類性能明顯較集成系統(tǒng)差。而在n/p較大時(shí)，以DLBCL數(shù)據(jù)為例，logistic回歸的分類性能較其他分類器好。

在對(duì)旋轉(zhuǎn)森林參數(shù)設(shè)置的比較中，得到如下幾個(gè)方面的結(jié)論:基分類器是否剪枝以及不同的基分類器選擇對(duì)旋轉(zhuǎn)森林分類性能影響不大，旋轉(zhuǎn)森林在這兩個(gè)方面穩(wěn)定性較強(qiáng)。參數(shù)K對(duì)分類性能影響在p較大的數(shù)據(jù)集中算法表現(xiàn)穩(wěn)定，而在對(duì)p較小的ALL1數(shù)據(jù)分析時(shí)，不同的K值對(duì)旋轉(zhuǎn)森林分類效果影響較大。對(duì)于不同的特征數(shù)目，按照差異基因的顯著性，即p值排序，前5到10個(gè)差異基因似乎已經(jīng)能夠提供足夠多的分類信息，而增加差異基因數(shù)量并不能顯著地提升分類器的性能。對(duì)于數(shù)據(jù)集如ALL3，甚至出現(xiàn)分類效果隨特征數(shù)下降的現(xiàn)象，這說明在執(zhí)行分類任務(wù)時(shí)尋找差異基因的重要性，過多的基因也許提供了冗余信息，增加了分類器的計(jì)算負(fù)擔(dān)的同時(shí)降低了分類性能。集成規(guī)模L的初始值為5，開始時(shí)隨著集成規(guī)模的增加旋轉(zhuǎn)森林分類性能也在提高，但集成規(guī)模達(dá)到一定程度后，分類能力基本穩(wěn)定，不再隨集成規(guī)模的增加而變化。這也說明集成分類系統(tǒng)相對(duì)單個(gè)決策樹分類穩(wěn)定性更強(qiáng)，分類準(zhǔn)確性更高，泛化誤差的推廣能力也更強(qiáng)。在不同的集成規(guī)模下使用不同的線性變換方式，在colon，golub和DLBCL三個(gè)數(shù)據(jù)集上，PCA和RP2分類性能優(yōu)于RP1;而在ALL1數(shù)據(jù)庫，PCA劣于RP1和RP2。這可能是不同數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)不同造成的。某種線性變換是否能在某個(gè)數(shù)據(jù)集上提供更精確的基分類器，能否增加基分類器之間的變異是決定集成系統(tǒng)分類性能的關(guān)鍵。

由于計(jì)算復(fù)雜性較高，本研究只采用分類準(zhǔn)確性這個(gè)指標(biāo)對(duì)分類效果進(jìn)行評(píng)價(jià)，將來的研究需要用更多指標(biāo)，如敏感度和特異度對(duì)分類效果進(jìn)行更加全面的評(píng)價(jià)。未來應(yīng)采取數(shù)據(jù)模擬方式探索旋轉(zhuǎn)森林的分類性能，如在數(shù)據(jù)集中增加缺失值，以及對(duì)非平衡數(shù)據(jù)的研究。在算法參數(shù)設(shè)置方面，可以探索其他線性變換方式。

1．武曉巖，閆曉光，李康．基因表達(dá)數(shù)據(jù)的隨機(jī)森林逐步判別分析方法．中國衛(wèi)生統(tǒng)計(jì)，2007，24(2):151-154．

2．李康，武曉巖．隨機(jī)森林方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用及研究進(jìn)展．中國衛(wèi)生統(tǒng)計(jì)，2009，26(4):437-440．

3．Breiman L．Random forest．Machine Learning，2001，45:5-32．

4．Guez JR，Kuncheva L．Rotation forest:a new classifier ensemble method．IEEE Transaction on Pattern Analysis and Machine Intelligence，2006，28(10):1619-1630．

5．http://www．bioconductor．org．

6．Jeffery IB，Higgins DG，Culhane AC．Comparison and evaluation of methods for generating differentially expressed gene lists from microarray data．BMC Bioinformatics，2006，7(1):359-375．

7．http://www．cs．waikato．a(chǎn)c．nz/ml/weka．

8．Tusher VG，Tibshirani R，Chu G．Significance analysis of microarrays applied to the ionizing radiation response．Proc Natl Acad Sci USA，2001，98(9):5116-5121．

9．Fradkin D，Madigan D．Experiments with random projections for machine learning．New York，NY，USA，2003．

10．Kuncheva LI，Rodrigue J．An experimental study on rotation forest ensembles．Lecture Notes in Computer Science，2007，4472:459-468．

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

DNA微陣列數(shù)據(jù)判別的旋轉(zhuǎn)森林方法

基本原理和算法過程

實(shí)例分析

討 論

討論