亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于PTPR排名的基因隨機(jī)選擇算法

2011-08-13 07:34:48解瑞飛厲力華

中國生物醫(yī)學(xué)工程學(xué)報 2011年5期

關(guān)鍵詞：分類

解瑞飛韓斌厲力華祝磊

(杭州電子科技大學(xué)生命信息與儀器工程學(xué)院，杭州 310018)

引言

高維、小樣本數(shù)據(jù)是生物醫(yī)學(xué)信息處理中經(jīng)常遇到的數(shù)據(jù)類型，如何剔除其冗余特征、提高數(shù)據(jù)質(zhì)量，成為研究識別和分類問題的關(guān)鍵[1-2]。

近年來，Draminski等結(jié)合隨機(jī)搜索策略[3]和決策樹[4]，提出 Monte Carlo(MC)特征選擇算法[5]。它是一種隨機(jī)搜索的特征選擇算法，降低了結(jié)果陷入局部最優(yōu)的風(fēng)險，對高維數(shù)據(jù)具有較強(qiáng)的適應(yīng)性。同時，最終變量排名綜合考慮了分類率及變量的重要性，與經(jīng)典方法相比，克服了纏繞法(如SVMRFE)依賴分類器的缺點，以及單純依靠分類率所引起的弊端[6-7];與過濾法 ( 如 T-test[8])相比，MC不需要樣本呈正態(tài)分布的假設(shè)，比T-test更加適合真實的基因微陣列數(shù)據(jù);和 SVMRFE[9]相比，MC可以更加快速高效地提取出高維數(shù)據(jù)中的顯著變量。

雖然MC方法比傳統(tǒng)方法有更多的優(yōu)點，但是其在搜索過程中沒有規(guī)劃，在不同的迭代間相互獨立并且不相關(guān)，沒有合理利用歷史成績和當(dāng)前排名，搜索效率低，結(jié)果穩(wěn)定性差。本研究在MC算法基礎(chǔ)上，提出基于職業(yè)網(wǎng)球選手排名(professional tennis player ranking，PTPR)的基因隨機(jī)選擇算法。實際上，選手排名和基因選擇面臨相似的問題，例如，注冊的職業(yè)選手有幾十萬人，其中參與PTPR官方網(wǎng)站排名的就有近1500人，但每年認(rèn)可的賽事大約70場，因此從特征選擇角度來看是典型的“維災(zāi)”問題，目的是通過大量選手(基因)隨機(jī)參加賽事(基因比較)來對選手進(jìn)行排名。此外，兩者還有許多類似的地方，見圖1。更重要的是，作為權(quán)威排名，職業(yè)網(wǎng)球選手的排名方法在解決排名問題上有很多可以借鑒的地方：一是通過不同賽事對選手進(jìn)行綜合滾動排名，體現(xiàn)了選手的整體平均水平，而非由一場賽事決定最終的結(jié)果;二是考慮保留種子選手(根據(jù)以前比賽成績所選出的高水平選手)，把種子選手刻意劃分在不同的小組，可以最大限度地避免種子選手過早相遇而被淘汰，同時提高了每場賽事的水平;三是因不同賽事對選手排名的貢獻(xiàn)不同，PTPR選手的排名同樣也考慮了賽事本身的質(zhì)量對選手排名的影響。因此，借鑒PTPR的權(quán)威排名，筆者提出了基于PTPR排名的隨機(jī)選擇算法(稱為“PTPR算法”)，該算法保留了 MC算法的精髓，即隨機(jī)選擇，同時借鑒PTPR排名機(jī)制，引入了種子變量排名、排名滾動更新，優(yōu)化了搜索過程，提高了搜索效率，保持了結(jié)果穩(wěn)定。

圖1 網(wǎng)球比賽和特征選擇類比Fig.1 The analogy between tennis competition and feature selection

1 方法

1.1 數(shù)據(jù)來源

采用的測試數(shù)據(jù)包括Leukemia[10]、Colon[11]、Glioma[12]、Prostate[13]及 Ovarian 共 5 個基因微陣列數(shù)據(jù)集。Leukemia、Colon、Prostate和 Glioma基因表達(dá)譜數(shù)據(jù)來自于公共數(shù)據(jù)庫，已被許多研究者進(jìn)行了分析和研究，Ovarian來自于美國 Duke大學(xué)醫(yī)學(xué)中心和美國Moffitt腫瘤研究中心，具體樣本見表1。

表1 數(shù)據(jù)集描述Tab.1 The description of data sets

1.2 特征選擇方法

基于職業(yè)網(wǎng)球選手排名的特征提取方法(PTPR)，根據(jù)對職業(yè)網(wǎng)球選手排名和基因選擇問題的分析，筆者把PTPR的思想引入到特征提取方法中，在MC算法的基礎(chǔ)上，形成一種新穎的特征選擇算法——基于PTPR的特征選擇算法，簡稱PTPR。

1.2.1 特征隨機(jī)選擇方法

特征隨機(jī)選擇(MC)算法通過建立成千上萬個決策樹，然后計算所有決策樹各節(jié)點(特征基因)的重要性，以此作為最終衡量基因排名的指標(biāo)，有

式中，k為決策的結(jié)點(特征基因)，wAcc為特征基因k所在決策樹的分類率，IG(nk(τ))為特征基因k在第樹中所在結(jié)點 nk(τ)處的信息增益，no.in nk(τ)為結(jié)點 nk(τ)處的樣本數(shù)，no.in τ 為第棵樹的根結(jié)點的樣本數(shù)。nk(τ)的信息增益為

式中，N為結(jié)點nk(τ)處的樣本數(shù)，N(vj)為子結(jié)點處的樣本數(shù)，為子結(jié)點出現(xiàn)的概率，I(n(τ))k為結(jié)點nk(τ)處的信息熵，可表示為

式中，pj為該結(jié)點中屬于某類的分類概率，I(vj)為子結(jié)點處的信息熵。

MC算法在每一次迭代過程中，先隨機(jī)選擇含m個基因的候選集，然后通過決策樹比較，累加各變量所對應(yīng)的 RI值(見式(1))。RI計算基于兩點：一是此次決策樹的分類率，二是基因在此次比賽中(決策樹中)的信息增益和正確分類樣本占總樣本的比率。待迭代截止后，對所有變量對應(yīng)的RI進(jìn)行排名，最終排名是基因隨機(jī)參加的所有決策樹中兩項組合(RI)的累計。

1.2.2 基于MC的PTPR算法

在整個迭代過程中，MC算法存在兩個問題：第一，基因在不同的比賽間相互獨立不相關(guān)，中間過程的成績沒有得到合理的利用，搜索效率低;第二，MC算法中的排名是基于選手相對其他所有選手的重要水平(RI)，由于選手參與賽事(決策樹)的基因完全隨機(jī)選擇。在迭代次數(shù)較少時，不同基因參加賽事的次數(shù)受隨機(jī)影響，多少不等，RI受賽事次數(shù)影響大，造成結(jié)果不公平;在迭代次數(shù)足夠多時，不同基因參加賽事的次數(shù)大致相同，所得到的RI也大致相同，利用RI區(qū)分基因不敏感，算法收斂慢。針對MC的問題，PTPR算法模擬了職業(yè)網(wǎng)球選手的排名方式，讓種子選手和普通選手參加不同等級、水平的賽事，然后根據(jù)嚴(yán)格的積分、排名機(jī)制，從成千上萬個選手中快速高效地篩選出優(yōu)秀的選手。本研究把網(wǎng)球賽中的“種子選手”思想、滾動排名機(jī)制同隨機(jī)搜索思想結(jié)合起來，實現(xiàn)基因的快速提取。網(wǎng)球選手排名和基因排序的類比如圖1所示，基因變量相當(dāng)于選手，種子變量相當(dāng)于種子選手，決策樹相當(dāng)于各種賽事，而每次參與決策樹的基因相當(dāng)于每次參與賽事的選手。

本研究從搜索策略和排名機(jī)制兩方面做了改進(jìn)：首先引入了種子變量，在迭代中，普通變量以固定概率進(jìn)入賽事(決策樹建立)，而種子變量以較高的概率進(jìn)入賽事(因為種子變量的長度遠(yuǎn)遠(yuǎn)小于普通變量的長度)，保證種子變量參與每一場賽事，提高了賽事的水準(zhǔn)，從而提高了比賽的篩選效率。變量排名是List內(nèi)的種子選手到目前為止的歷史成績比較，同時算法逐次滾動更新當(dāng)前種子變量排名，保證目前最優(yōu)秀的選手(基因)參與下一次的比較，進(jìn)一步提高比賽的篩選效率，有

式中：第一部分是分子RIk，表示基因k到目前為止參與所有賽事成績的累積，見式(1);第二部分是分母sum(RI.List)/length(List)，是當(dāng)前種子變量的平均歷史成績，其中List用來存放當(dāng)前的種子變量，length(List)為當(dāng)前種子變量的個數(shù)，RI.List為存放List中種子變量所對應(yīng)的重要性(每個種子變量的重要性用其 RI來衡量)，sum(RI.List)為當(dāng)前 List中種子變量的重要性總和。

式(3)表示基因k到目前為止其歷史成績與種子變量平均歷史成績的一個比較。需要特別說明的是，相對于MC算法是基于所有選手的獲勝記錄(RI累計)來排名，PTPR算法的排名則是基于普通選手和種子選手的比較;wRIk是基因參與眾多賽事后，相對到目前為止“最優(yōu)種子選手”平均水平的一個衡量，對基因更具有甄別能力。同時注意的是，分母逐次遞增更新，意味著隨著迭代逐漸有真正的種子選手進(jìn)入種子名單，種子名單趨近最優(yōu)，保證對后面基因的篩選更加公平和高效。通過上面的分析可以看出，PTPR算法最重要的思想是：運用種子變量(滾動更新)及歷史信息，標(biāo)記并保留已搜索到的當(dāng)前最優(yōu)變量，并在下一步的迭代搜索中吸納更優(yōu)變量，避免因初解不同、盲目搜索對結(jié)果造成的動蕩不穩(wěn)定，從而快速高效地篩選出重要基因，其流程圖和步驟如圖2所示。其中，d為變量候選集，m為變量子集(每次參與決策樹比較的變量個數(shù))，wRI判決為通過wRI公式計算每個變量的重要性，Seed為存放當(dāng)前的種子變量，List為存放滿足一定條件后的種子變量，d-List為集合d與集合List的差集(即種子變量之外的普通變量)，p為概率值，m為變量中來自普通變量的比例。

圖2 PTPR算法流程Fig.2 The scheme of the PTPR algorithm

PTPR算法由兩部分組成，一是自由競爭(或初始化)，獲得初始的種子變量;二是循環(huán)競爭，滾動更新種子變量，得到最終變量排名。兩種算法分別包括以下步驟。

1.2.2.1 自由競爭：

步驟1：從d個基因候選集中，隨機(jī)選擇m個基因，構(gòu)成子集。

步驟2：對于此子集，按照一定比例隨機(jī) t次劃分訓(xùn)練集和測試集，訓(xùn)練集建立決策樹，測試集用來測試所構(gòu)建的決策樹。

步驟3：對步驟2中參與決策樹建立的基因，利用wRI公式計算后進(jìn)行排名，取前X%存入List。

步驟4：判斷 List長度。如果小于 n×L_List，重復(fù)步驟1;否則，初始化終止。利用 wRI，對 Seed中的基因進(jìn)行排名。

1.2.2.2 循環(huán)競爭

步驟1：判斷 List長度，刪除 List中 L_List之后的基因變量，得到List補集d-List。

步驟2：從集合d-List中隨機(jī)選擇 p×m個基因(0＜p＜1)，從集合 List中隨機(jī)選擇(1-p)×m個基因，組合為含有m個變量的子集;因d-List長度遠(yuǎn)遠(yuǎn)大于List長度，故List中的種子變量以高概率進(jìn)入決策樹，d-List中的普通變量以低概率進(jìn)入決策樹。

步驟3：對于此子集，按照一定比例隨機(jī) t次劃分訓(xùn)練集和測試集，訓(xùn)練集建立決策樹，測試集用來測試所構(gòu)建的決策樹。

步驟4：將步驟3中參與決策樹建立的基因加入到 List，在利用 wRI公式計算后，更新List排名。

步驟5：重復(fù)步驟1～步驟4至 s次，最后得到List排名。

1.3 PTPR算法驗證實驗設(shè)計原則

衡量一個特征提取算法是否能夠提取出有效的特征基因，可以從基因分類率和穩(wěn)定性兩個方面對算法做比較和評估。

1.3.1 基因穩(wěn)定性及顯著差異分析

MC算法和PTPR算法最終得到的都是基因重要性的相對排名，通過觀察基因排名隨迭代次數(shù)的變化規(guī)律，可以反映算法的收斂速度，顯示最終是否收斂達(dá)到穩(wěn)定性的結(jié)果?；蚺琶兓癁?/p>

式中，s為迭代次數(shù)，k為第 k個基因，Rank(s，k)為基因k的排名位置，(s，s-20)為當(dāng)?shù)螖?shù)由 s-20變化到s時基因的相對排名變化量。隨著迭代次數(shù)s的連續(xù)增大，基因排名的變化越來越小，最終趨于穩(wěn)定。

在特征提取的過程中，從訓(xùn)練集中提取特征，測試集進(jìn)行分類率的計算，一般需重復(fù)多次。即使在其他條件完全相同的情況下(比如特征提取算法、參數(shù)及樣本比例分配等)，訓(xùn)練集具體樣本不同造成了所提取的特征基因不同。因此，在不同的訓(xùn)練集上，提取穩(wěn)定的特征基因成為特征提取算法的一項重要指標(biāo)。為了驗證PTPR算法所提取基因的穩(wěn)定性，實驗包括下列步驟。

步驟1：特征基因獲取。隨機(jī)生成M組訓(xùn)練集，利用MC算法和 PTPR算法，分別提取 M組特征基因。

步驟2：基因重復(fù)率定義。對于 PTPR(或 MC)算法所得到的M組特征基因，兩兩比較，得到前N(N=10，20)個基因的基因重復(fù)率，共組，分別為PPTPRN和 PMCN。其中，PPTPRN=[p1，p2，…，pC2M]，PMCN=[q1，q2，…，qC2M]。

步驟3：平均基因重復(fù)率。計算前N個基因的平均重復(fù)率PPTPRN和PMCN(N=10，20)，有

步驟4：基因重復(fù)率的顯著性分析。在生物信息學(xué)研究中，由于所用數(shù)據(jù)含有較少樣本，往往無法滿足經(jīng)典的參數(shù)檢驗條件，可以考慮采用Permutation test進(jìn)行統(tǒng)計推斷。為了驗證PTPR算法在基因重復(fù)率上是否顯著優(yōu)于MC算法，筆者利用PPTPRN和PMCN數(shù)據(jù)，根據(jù)Permutation原理(由于篇幅限制，原理見附錄)，計算 P-value，分析基因重復(fù)率的顯著性差異。

1.3.2 分類率比較

為了驗證MC算法和PTPR算法所提取出的特征基因有效性，可以通過比較來挑出基因的分類能力。為了方便比較，數(shù)據(jù)劃分采用通用的劃分原則，即Leukemia數(shù)據(jù)集隨機(jī)選擇38個樣本作為訓(xùn)練集，其余34個樣本作為測試集[10];Colon數(shù)據(jù)集，隨機(jī)選擇33%的樣本作為測試集，其余樣本作為訓(xùn)練集[14];Glioma和 Prostate數(shù)據(jù)按照 9∶1隨機(jī)劃分訓(xùn)練集和測試集[15];Ovarian數(shù)據(jù)按照 7∶3，隨機(jī)劃分訓(xùn)練集和測試集。5個數(shù)據(jù)分別迭代10次，利用常用分類器支持向量機(jī)(support vector machine，SVM)、k 最近鄰(k-Nearest Neighbor，KNN，K=1)、Na?ve Bayes(NB)和 Random Forests(RF)，對測試集進(jìn)行分類比較。

2 結(jié)果和討論

2.1 基因穩(wěn)定性分析

圖3～圖7表示不同數(shù)據(jù)庫基因排名 Dist(s，s-20)和基因平均重復(fù)率(見式(5))隨迭代次數(shù)s的變化。PTPR和MC都是隨機(jī)搜索算法，靠多次的迭代而獲得最終相對穩(wěn)定的最優(yōu)解。隨著迭代次數(shù)的增加，基因排名變化幅度的大小體現(xiàn)了算法搜索的穩(wěn)定性。前后兩次迭代所引起基因排名變化越小，說明搜索過程越穩(wěn)定，從而體現(xiàn)出隨機(jī)算法穩(wěn)定性越強(qiáng)。從圖3～圖7中的(a)可以看出，在5個數(shù)據(jù)庫上，隨著迭代次數(shù)增加，PTPR算法所得到的基因排名變化幅度小于MC算法所得到的基因排名變化幅度，并快速收斂到比MC更加穩(wěn)定的水平;而且，PTPR算法在迭代次數(shù)較少的時候，基因排名的變化量遠(yuǎn)遠(yuǎn)小于 MC算法，體現(xiàn)了PTPR算法相對于MC算法，基因更早地進(jìn)入到收斂過程中。此外，MC和PTPR算法的計算量基本上是由迭代次數(shù)決定的，當(dāng)特征基因的排名趨于穩(wěn)定水平時，迭代終止。從圖3～圖7中可以看出，PTPR以較小的迭代次數(shù)，得到了和MC一樣的穩(wěn)定水平，說明PTPR算法比MC計算速度更快、計算量更小。

圖3 Leukemia—基因穩(wěn)定性。(a)基因排名的收斂性;(b)前10和前20個基因的重復(fù)率(從上至下)Fig.3 Gene stability for Leukemia.(a)convergence of gene ranking;(b)top 10 and 20 genes overlapping rate(from upper to bottom)

對于PTPR和MC等隨機(jī)算法，因隨機(jī)因素的存在，即使在其他條件完全相同的情況下，不同時刻的使用所得到的結(jié)果也不盡相同。因此，提取穩(wěn)定的特征基因成為衡量隨機(jī)算法的一項重要指標(biāo)。在圖3～圖7的(b)中，都是由兩幅子圖組成，分別表示基因個數(shù)為10和20的基因重復(fù)率，是兩種算法分別重復(fù)10次所得。在不同的數(shù)據(jù)集上，PTPR所得到的基因重復(fù)率大致介于60% ～80%之間，而MC最高只達(dá)到40%左右，即PTPR的基因重復(fù)率遠(yuǎn)遠(yuǎn)高于MC的結(jié)果。具體來說，對于含有w個變量的數(shù)據(jù)集，利用PTPR所提取出的10組特征基因中，每兩組的前10或20等(w?100)個基因，60%～80%是相同，而MC最高只有40%相同的基因。因此，PTPR能夠從成千上萬個基因中多次提取出60%～80%相同的基因，在穩(wěn)定性上比MC算法有顯著性的提高。除此之外，從圖3～圖7中也可以看出，隨著迭代次數(shù)的增加，雖然兩種方法的基因重復(fù)率都呈上升趨勢，但是MC算法仍然沒有超越PTPR算法。

圖4 Colon—基因穩(wěn)定性。(a)基因排名的收斂性;(b)前10和前20個基因的重復(fù)率(從上至下)Fig.4 Gene stability for Colon.(a)convergence of gene ranking;(b)top 10 and 20 genes overlapping rate(from upper to bottom)

圖5 Glioma—基因穩(wěn)定性。(a)基因排名的收斂性;(b)前10和前20個基因的重復(fù)率(從上至下)Fig.5 Gene stability for Glioma.(a)convergence of gene ranking;(b)top 10 and 20 genes overlapping rate(from upper to bottom)

圖6 Prostate—基因穩(wěn)定性。(a)基因排名的收斂性;(b)前10和前20個基因的重復(fù)率(從上至下)Fig.6 Gene stability for Prostate.(a)convergence of gene ranking;(b)top 10 and 20 genes overlapping rate(from upper to bottom)

圖7 Ovarian—基因穩(wěn)定性。(a)基因排名的收斂性;(b)前10和前20個基因的重復(fù)率(從上至下)Fig.7 Gene stability for Ovarian.(a)convergence of gene ranking;(b)top 10 and 20 genes overlapping rate(from upper to bottom)

對于圖3～圖7中的(b)，為了進(jìn)一步驗證PTPR的基因重復(fù)率在統(tǒng)計學(xué)角度是否顯著高于MC算法，筆者進(jìn)行了相應(yīng)的permutation實驗，具體的原理見附錄。從基因重復(fù)率的permutation實驗的結(jié)果看，在5個數(shù)據(jù)集上，在迭代次數(shù) s從20變化到1000的過程中，P-value的最高值達(dá)到0.0055左右，遠(yuǎn)遠(yuǎn)小于 0.05，而大多數(shù)的 P-value值為 0。因此，從統(tǒng)計學(xué)角度上證明了PTPR算法的基因重復(fù)率顯著高于MC算法。

2.2 分類率比較

圖8～圖12中的橫坐標(biāo)都是迭代次數(shù)s，縱坐標(biāo)表示分類率，是5個數(shù)據(jù)集在不同分類器上的結(jié)果;各圖中的(a)和(b)分別表示在基因個數(shù)為10和20上所得到的分類率，而每幅圖又由4幅子圖組成，表示在不同分類器 NB、SVM、KNN和 RF(從左至右，從上到下)上所得到的分類率。

圖8 不同基因在NB、SVM、KNN和RF上(從左至右，從上到下)的Leukemia分類率。(a)10個基因;(b)20個基因Fig.8 The classification rate of different gene number in NB，SVM，KNN and RF(from left to right，from upper to bottom)for Leukemia.(a)10 genes，(b)top 20 genes

從圖 8～圖 12中可以看出，對于 Colon和Glioma數(shù)據(jù)集，在分類器KNN上，PTPR和MC算法所得的分類率不相上下。但是，在其他數(shù)據(jù)集和分類器上，PTPR算法所得分類率明顯高于MC算法。在Leukemia數(shù)據(jù)集上，PTPR最高分類率達(dá)到98%左右，并且隨著迭代次數(shù)s的增加，一直保持較高的分類率;而MC算法的分類率在整體上低于 PTPR算法，且動蕩不穩(wěn)定。在Colon數(shù)據(jù)集中，對于個別分類器，PTPR和MC得到了同一水平的分類率;但是，從整體來看，PTPR比 MC仍具有一定的提高，PTPR最高達(dá)到了 90.0%左右的分類率。對于Glioma數(shù)據(jù)集，它和Colon數(shù)據(jù)集類似，所含樣本較少，在分類率上和 Colon也具有同樣的現(xiàn)象，但PTPR的部分結(jié)果仍高于 MC，且 PTPR比 MC更加快速地收斂到較高的分類率并保持穩(wěn)定，如圖10中的NB和SVM所示。在Prostate和Ovarian數(shù)據(jù)集上，除個別外，PTPR的分類率大多數(shù)超過了 MC，尤其是在 Ovarian數(shù)據(jù)集上，MC只得到65%的分類率，而PTPR卻達(dá)到了75%。

圖9 不同基因在NB、SVM、KNN和RF上(從左至右，從上到下)的Colon分類率。(a)10個基因;(b)20個基因;Fig.9 The classification rate of different gene number in NB，SVM，KNN and RF(from left to right，from upper to bottom)for Colon.(a)10 genes，(b)top 20 genes

圖10 不同基因在NB、SVM、KNN和RF上(從左至右，從上到下)的Glioma分類率。(a)10個基因;(b)20個基因;Fig.10 The classification rate of different gene number in NB，SVM，KNN and RF(from left to right，from upper to bottom)for Glioma.(a)10 genes，(b)top 20 genes

圖11 不同基因在NB、SVM、KNN和RF上(從左至右，從上到下)的Prostate分類率。(a)10個基因;(b)20個基因;Fig.11 The classification rate of different gene number in NB，SVM，KNN and RF(from left to right，from upper to bottom)for Prostate.(a)10 genes，(b)top 20 genes

圖12 不同基因在NB、SVM、KNN和RF上(從左至右，從上到下)的Ovarian分類率。(a)10個基因;(b)20個基因;Fig.12 The classification rate of different gene number in NB，SVM，KNN and RF(from left to right，from upper to bottom)for Ovarian.(a)10 genes，(b)top 20 genes

因此，從數(shù)據(jù)集Leukemia、Colon、Glioma、Prostate和Ovarian在不同分類器(NB、SVM、KNN和RF)上的分類率來看，PTPR整體的結(jié)果優(yōu)于MC，不依賴于某一固定的分類器，而且隨著迭代次數(shù)s的增加，它的分類率保持不變或者增長，動蕩幅度小于MC算法。

2.3 其他方法的分類率比較

Leukemia、Colon、Glioma和 Prostate作為公共數(shù)據(jù)集，已經(jīng)被廣大研究者用來進(jìn)行研究和分析，并取得了一定的成果。在與其他研究者所用數(shù)據(jù)和樣本比例劃分完全一致的條件下，利用PTPR算法提取特征基因，在獨立的測試集上進(jìn)行分類率測試，結(jié)果如表2～表5所示。

表2 Leukemia-PTPR和其他方法的分類率Tab.2 Classification accuracies for PTPR and other methods on Leukemia %

表3 Colon-PTPR和其他方法的分類率Tab.3 Classification accuracies for PTPR and other methods on Colon %

表4 Glioma-PTPR和其他方法的分類率Tab.4 Classification accuracies for PTPR and other methods on Glioma %

表5 Prostate-PTPR和其他方法的分類率Tab.5 Classification accuracies for PTPR and other methods on Prostate %

由表2可以看出，用 BWSS方法提取特征基因[16]，在50個基因個數(shù)時，4個分類器都取得最高分類率97.10%;而用 PTPR算法所提取的特征基因，在SVM、KNN、RF和 ANN上的分類率最高值分別為在 10、20、30、30個基因處所對應(yīng)的 98.24%、98.24% 、98.82% 、96.47% 。也就是說，除 ANN 上PTPR所得分類率最高值略低于BWSS方法外，在其他分類器上，PTPR方法在較少基因時得到的分類率都超過 BWSS的最高值97.10%。從整體上來看，PTPR算法在 10個基因時得到 98.24%、97.94%，超過 BWSS方法在 50個基因處的97.10%，而PTPR算法在30個基因上得到了高達(dá)98.82%的分類率。因此，從不同基因個數(shù)和不同分類器角度來看，所得分類率PTPR算法整體高于BWSS方法，在不同分類器上都保持較高的分類率。

由表 3 可以看出，MPE[14]，T-test[14]和 BWSS[16]方法所得到的最高分類率88.20%是在10個基因處SVM分類器上得到，而PTPR算法同樣的在10個基因、SVM分類器上得到分類率89.00%，在30個基因上得到最高值90.50%，其他基因個數(shù)上的分類率也都在88.00%以上，整體高于88.20%。換句話而言，PTPR算法所得分類率明顯高于 T-Test方法。雖然PTPR方法在其他分類器上的結(jié)果不如在SVM上高得顯著，但是同 BWSS、MPE相比仍處于較優(yōu)水平。

由表4可以看出，ILDC_REGEC[15]的方法所得到的分類率在不同基因個數(shù)上的分類率介于67.5% ～77.8%之間，而 PTPR算法得到的分類率最高達(dá)到86.0%，明顯高于77.8%。在NB、SVM和KNN上，PTPR所得分類率基本穩(wěn)定在80.0%以上，明顯高于ILDC_REGEC方法，而 ANN上分類率的結(jié)果雖然不及其他分類器，但整體仍然較優(yōu);在5個分類器上，PTPR方法的分類率最高值全部高于ILDC_REGEC最高值。

在表 5中，ILDC_REGEC[15]方法的分類率位于78.0% ～91.2% 之間，而 PTPR 算法在 NB、SVM、KNN、RF和 ANN上的分類率最高值分別為92.86% 、94.29% 、92.14% 、97.14% 、94.29% ，全部高于ILDC_REGEC方法的91.2%。在5個不同的分類器上，PTPR的分類率整體優(yōu)于 ILDC_REGEC算法的分類率。

3 結(jié)論

PTPR算法在隨機(jī)搜索算法的基礎(chǔ)上，借鑒職業(yè)網(wǎng)球選手的排名規(guī)則，引入了種子變量、滾動的排名機(jī)制，保留了MC算法的優(yōu)點，即選擇基因時，綜合利用決策樹本身的優(yōu)點，不是單純地依靠分類率的高低，而是從基因所含信息量的角度進(jìn)行選擇。除此之外，PTPR算法克服了MC算法搜索效率低、收斂慢的缺點，合理利用了當(dāng)前最優(yōu)的變量，提高了篩選效率，使得PTPR算法能夠有效地從成千上萬個變量中提取出具有顯著性差異的基因。通過在不同數(shù)據(jù)集、不同分類器上的驗證，可知 PTPR保持了較強(qiáng)的魯棒性，所得到的結(jié)果不依賴于固定分類器，適用于高維、高噪聲、小樣本的數(shù)據(jù)類型特征選擇問題，同時能夠快速地收斂到穩(wěn)定的最優(yōu)解，而且最終得到的分類率明顯優(yōu)于MC以及其他特征提取算法。

附錄 Permutation原理及實驗設(shè)計

為了比較MC和PTPR算法方法所挑選出的基因是否穩(wěn)定，設(shè)計了Permutation實驗，計算P-value步驟如下：

· 根據(jù)實驗?zāi)康?，得出兩組真實數(shù)據(jù)集如下：

P= [p1，p2，…，pn]和 Q= [q1，q2，…，qn]

·計算真實平均值的差值Δ0=，其中

· 混合數(shù)據(jù)集 P和 Q，隨機(jī)分成數(shù)據(jù)集 k次，即

· 計算Permutation數(shù)據(jù)集平均值的差值，有

[1]Inza I，Larranaga P，Blanco R，et al.Filter versus wrapper gene selection approaches in DNA microarray domains[J].Artificial Intelligence in Medicine，2004，31：91-103.

[2]Jirapech Umpai T，Aitken S.Feature selection and classification for microarray data analysis：evolutionary methods for identifying predictive genes[J].Bmc Bioinformatics，2005，6：1-11.

[3]Yang Wenzhu，Li Dongling，Zhu Liang.An improved genetic algorithm for optimal feature subset selection from multi-character feature set[J].Expert Systems with Applications，2011，38：2733-2740.

[4]Li Xiongmin，Chan CW.Application of an enhanced decision tree learning approach for prediction of petroleum production[J].Engineering Applications of Artificial Intelligence，2010，23：102-109.

[5]Draminski M，Rada-Iglesias A，Enroth S，et al.Monte Carlo feature selection for supervised classification [J].Bioinformatics，2008，24(1)：110-117.

[6]Hamdani TM，Wob JM，Alimi AM，et al.Hierarchical genetic algorithm with new evaluation function and bi-coded representation for the selection of features considering their confidence rate[J].Applied Soft Computing，2011，11：2501-2509.

[7]Mohammadi A，Saraee MH，Salehi M.Identification of diseasecausing genes using microarray data mining and Gene Ontology[J].BMC Medical Genomics，2011，4(12)：1-9.

[8]Li Lihua，Chen Li，Goldgof D，et al.Integration of clinical information and gene expression profiles for prediction of chemoresponse for ovarian cancer[C]//Proceedings of Annual International Conference of the IEEE Engineering in Medicine and Biology Society.Shanghai：IEEE，2005：4818-4821.

[9]Guyon I，Weston J，Barnhill S，et al.Gene selection for cancer classification using support vector machines[J].Machine Learning，2002，46：389-422.

[10]Golub TR， Slonim DK， Tamayo P， et al. Molecular classification of cancer：class discovery and class prediction by gene expression monitoring[J].Science，1999，286(5439)：531-537.

[11]Alon U，Barkai N，Notterman DA，et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays[J].Proc Natl Acad Sci USA，1999，96(12)：6745-6750.

[12]Nutt CL，Mani DR，Betensky RA，et al.Gene expression-based classification of malignant gliomas correlates better with survival than histological classification[J].Cancer Research，2003，63(7)：1602-1607.

[13]Singh D，F(xiàn)ebbo PG，Ross K，et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell，2002，1(2)：203-209.

[14]Mahata P，Mahata K.Selecting differentially expressed genes using minimum probability of classification error[J].Journal of Biomedical Informatics，2007，40(6)：775-786.

[15]Guarracino MR，Cuciniello S，Pardalos PM.Classification and Characterization of Gene Expression Data with Generalized Eigenvalues[J]. Journal of Optimization Theory and Applications，2009，141(3)：533-545.

[16]Chakraborty S. Simultaneous cancer classification and gene selection with Bayesian nearest neighbor method：An integrated approach[J].Computational Statistics＆ Data Analysis，2009，53(4)：1462-1474.