亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信噪比與鄰域粗糙集的特征基因選擇方法

        2015-05-04 05:34:01徐久成李玉惠
        數(shù)據(jù)采集與處理 2015年5期
        關(guān)鍵詞:粗糙集子集鄰域

        徐久成 李 濤 孫 林 李玉惠

        (1.河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院,新鄉(xiāng),453007; 2.河南省高校計(jì)算智能與數(shù)據(jù)挖掘工程技術(shù)研究中心,新鄉(xiāng),453007)

        ?

        基于信噪比與鄰域粗糙集的特征基因選擇方法

        徐久成1,2李 濤1,2孫 林1,2李玉惠1,2

        (1.河南師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院,新鄉(xiāng),453007; 2.河南省高校計(jì)算智能與數(shù)據(jù)挖掘工程技術(shù)研究中心,新鄉(xiāng),453007)

        鑒于傳統(tǒng)基因選擇方法會(huì)選出大量冗余基因從而導(dǎo)致樣本預(yù)測(cè)準(zhǔn)確率較低,提出了一種基于信噪比與鄰域粗糙集的特征基因選擇方法(Signal noise ration and the neighborhood rough set, SNRS)。首先采用信噪比指標(biāo)獲得分類(lèi)能力較強(qiáng)的預(yù)選特征子集;然后利用鄰域粗糙集約簡(jiǎn)算法對(duì)預(yù)選特征子集進(jìn)行尋優(yōu);最后采用不同的分類(lèi)器對(duì)特征基因子集進(jìn)行分類(lèi)。通過(guò)實(shí)驗(yàn)表明,該方法能夠克服傳統(tǒng)分類(lèi)算法精度不高的缺陷,并且能夠在較少的特征基因下取得較高的分類(lèi)精度,驗(yàn)證了該方法的可行性和有效性。

        腫瘤基因表達(dá)譜;信噪比;鄰域粗糙集;特征選擇

        引 言

        隨著大規(guī)模基因表達(dá)譜技術(shù)的發(fā)展,基因芯片為研究疾病的發(fā)病原理和臨床疾病診斷提供了強(qiáng)有力的手段。腫瘤基因表達(dá)數(shù)據(jù)通常具有小樣本、超高維的特點(diǎn),且原始數(shù)據(jù)存在大量冗余基因和噪聲,因此在利用特征基因選擇方法對(duì)新樣本進(jìn)行預(yù)測(cè)時(shí),不僅花費(fèi)大量時(shí)間,而且降低了分類(lèi)精度[1-3]。因此如何識(shí)別對(duì)疾病有鑒別意義的特征基因或疾病相關(guān)基因是生物信息學(xué)的研究熱點(diǎn)之一。

        基因選擇是從基因表達(dá)譜數(shù)據(jù)的所有屬性中選擇基因子集,且獲得的基因具有較強(qiáng)的疾病識(shí)別能力[4-5]。基因排序法按照計(jì)分準(zhǔn)則對(duì)每個(gè)基因計(jì)分,把分值較大的基因作為預(yù)選基因,基因分值越大,表明分類(lèi)能力越強(qiáng)[6]。目前常用的特征基因計(jì)分準(zhǔn)則主要包括信噪比指標(biāo)(Signal-noise ratio, SNR),Fisher判別(Fisher discriminant ratio,FDR)以及誤分類(lèi)閾值(Threshold number of misclassification score,TNM)等,其中信噪比指標(biāo)應(yīng)用最為廣泛?;蚺判蚍ú灰蕾?lài)于具體的分類(lèi)算法,并且得到的特征基因子集可有效避免“過(guò)擬合”現(xiàn)象,因此較適合用于基因表達(dá)數(shù)據(jù)[7-9]。目前常用的基因選擇方法是過(guò)濾法和纏繞法[5]。其中,基于排序的過(guò)濾法如信噪比、信息增益等具有簡(jiǎn)單快速的特點(diǎn),但是過(guò)濾法極有可能選擇高相關(guān)的基因作為特征基因。這不僅會(huì)降低分類(lèi)能力,而且也會(huì)增加額外的計(jì)算負(fù)擔(dān);而纏繞法將分類(lèi)器預(yù)測(cè)的正確率評(píng)價(jià)基因子集,時(shí)間復(fù)雜度較高,且特征基因子集在其他分類(lèi)器中的泛化能力較差。信噪比方法能有效地處理基因表達(dá)譜中的噪聲問(wèn)題,它根據(jù)基因?qū)颖痉诸?lèi)貢獻(xiàn)大小的度量,過(guò)濾掉噪聲基因,從而更有效識(shí)別出腫瘤基因。鄰域粗糙集具有不需要對(duì)連續(xù)型數(shù)據(jù)離散化處理的特點(diǎn),避免數(shù)據(jù)離散化所導(dǎo)致的信息損失。鄰域粗糙集憑借其獨(dú)特的優(yōu)勢(shì),逐漸應(yīng)用到生物信息學(xué)領(lǐng)域,并在腫瘤特征基因選取方面取得了一些較好的結(jié)果[10]。為了充分利用過(guò)濾法和纏繞法的優(yōu)勢(shì),有效地去除無(wú)關(guān)基因和冗余基因,國(guó)內(nèi)外專(zhuān)家提出了一些解決方法,文獻(xiàn)[11]將遺傳算法與支持向量機(jī)分類(lèi)器相結(jié)合,把支持向量機(jī)的距離作為適應(yīng)度函數(shù)評(píng)估特征基因的分類(lèi)能力;文獻(xiàn)[12]將隨機(jī)森林用于基因選擇和分類(lèi);文獻(xiàn)[13]提出一種優(yōu)化的鄰域粗糙集的混合基因選擇算法;文獻(xiàn)[14]結(jié)合K-means和Lasso方法對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行特征選擇和預(yù)測(cè)模型構(gòu)建,取得較好的效果。雖然這些組合式特征選擇方法在一定程度上提高了分類(lèi)精度,但依然存在算法穩(wěn)定性較差和特征子集規(guī)模較大的問(wèn)題,如何在特征基因子集規(guī)模、分類(lèi)能力和時(shí)間復(fù)雜度等多個(gè)目標(biāo)下求得折中解是腫瘤基因分類(lèi)領(lǐng)域的關(guān)鍵問(wèn)題[15]。

        鑒于腫瘤基因表達(dá)數(shù)據(jù)本身的特點(diǎn),為了保證采用盡可能少的信息基因獲得盡可能高的樣本分類(lèi)率,同時(shí)降低算法的時(shí)間復(fù)雜度,本文提出一種基于信噪比與鄰域粗糙集的特征基因選擇方法。首先選取信噪比值較大的基因作為預(yù)選特征基因子集;然后利用鄰域粗糙集約簡(jiǎn)算法對(duì)預(yù)選特征子集進(jìn)行尋優(yōu);最后通過(guò)仿真實(shí)驗(yàn)驗(yàn)證該方法的有效性和可靠性。

        1 基本概念

        1.1 信噪比

        信噪比是一種簡(jiǎn)單高效的排序法[4]。在進(jìn)行基因選擇過(guò)程中,首先采用的信噪比指標(biāo)在原始特征空間過(guò)濾無(wú)關(guān)基因,得到與類(lèi)別屬性相關(guān)性較高的基因,信噪比為

        (1)

        式中:μ+(gi)和μ-(gi)分別表示第i個(gè)基因gi在正類(lèi)和負(fù)類(lèi)的平均表達(dá)值;而δ+(gi)和δ-(gi)分別表示第i個(gè)基因gi在兩類(lèi)中的標(biāo)準(zhǔn)差。式(1)用來(lái)衡量每個(gè)基因的重要性,信噪比值越大,說(shuō)明該基因的重要性越強(qiáng)。

        1.2 鄰域決策系統(tǒng)

        在經(jīng)典粗糙集基礎(chǔ)上,文獻(xiàn)[16]提出了鄰域粗糙集模型,該模型能夠直接處理連續(xù)型數(shù)據(jù),不需要對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,從而避免了離散化過(guò)程中的信息損失。下面給出鄰域粗糙集模型的相關(guān)概念和性質(zhì)[12,17,18]。

        定義1 設(shè)U={u1,u2,…,un}為樣本集;C為條件屬性集;D為決策屬性集;N為由C產(chǎn)生的一簇鄰域關(guān)系,稱(chēng)〈U,C∪D,N〉為鄰域決策系統(tǒng)。

        定義2 在鄰域決策系統(tǒng)〈U,C∪D,N〉中,D將U劃分成N個(gè)等價(jià)類(lèi):X1, X2, X3,…,XN,?B?C生成U上的鄰域關(guān)系NB,則決策屬性D關(guān)于B的鄰域下近似、上近似分別定義為

        (2)

        (3)

        定義4 在鄰域決策系統(tǒng)〈U,C∪D,N〉中,?a∈B?C,若γB(D) >γB-a(D),稱(chēng)a在B中相對(duì)決策屬性D是必要的,否則是不必要的。

        定義5 在鄰域決策系統(tǒng)〈U,C(D,N〉中,若B?C滿足:(1) γB(D) =γc(D);(2) ?a∈B, γB-a(D) <γB(D),則稱(chēng)B是C的一個(gè)相對(duì)約簡(jiǎn)。

        定義6 在鄰域決策系統(tǒng)〈U, C∪D,N〉中,若B?C,a∈C-B,則a關(guān)于屬性子集B的重要度定義為SIG(a, D, B)=γB∪a(D)-γB(D)。

        2 特征基因選擇方法

        2.1 過(guò)濾無(wú)關(guān)基因

        信噪比方法簡(jiǎn)單高效且能有效處理基因表達(dá)譜中的噪聲問(wèn)題,而Relief算法具有計(jì)算復(fù)雜度小和考慮屬性間相關(guān)性的特點(diǎn)。本文利用信噪比去除基因表達(dá)數(shù)據(jù)中的無(wú)關(guān)基因,按照信噪比值的大小對(duì)全部基因進(jìn)行降序排列,將排好的基因變量以0.2為單位劃分到不同的區(qū)間,分別為(0,0.2],(0.2,0.4],(0.4,0.6],(0.6,0.8],(0.8, 1]。因此,原始基因表達(dá)譜數(shù)據(jù)集被劃分為5個(gè)特征基因子集,每個(gè)區(qū)間的基因均可作為預(yù)選特征基因子集。在此基礎(chǔ)上,采用經(jīng)典的Relief算法給出基因的分類(lèi)權(quán)重,過(guò)濾掉各區(qū)間權(quán)重較小的基因。

        為了選取噪聲較少且與分類(lèi)高相關(guān)的預(yù)選特征基因子集,本文只選取區(qū)間值最大的基因子集作為較優(yōu)的候選基因子集。由于通過(guò)式(1)計(jì)算本文的3個(gè)數(shù)據(jù)集信噪比值在區(qū)間(0.8, 1]的基因數(shù)目為零,為了保持算法的整體性能,不考慮Prostate數(shù)據(jù)集信噪比大于0.8的基因。若基因的信噪比越大,表明該基因?qū)Ψ诸?lèi)的影響越大,因此選取各數(shù)據(jù)集在(0.6,0.8]區(qū)間內(nèi)的基因作為候選特征基因子集。但是,候選特征基因子集中往往存在冗余基因,這不僅增加額外計(jì)算負(fù)荷,而且導(dǎo)致錯(cuò)誤的分類(lèi)結(jié)果。因此本文采用鄰域粗糙集進(jìn)一步剔除冗余基因,從候選特征基因集合中獲取較優(yōu)的特征基因子集。

        2.2 特征基因選擇方法

        鄰域粗糙集能夠直接處理連續(xù)型數(shù)據(jù),它可以直接應(yīng)用于特征基因的提取,避免了一定程度上的信息丟失,使得所選取的特征基因子集能最大限度地保持原數(shù)據(jù)集的分類(lèi)能力。下面給出有關(guān)算法定義[16-17]。

        定義7 在給定的N維實(shí)數(shù)空間Ω中,R為實(shí)數(shù)集,RN為N維實(shí)數(shù)向量空間,Δ:RN×RN→R,則稱(chēng)Δ為RN上的一個(gè)度量,若Δ滿足以下條件:(1) 對(duì)?x1,x2∈RN,有Δ(x1,x2)≥0,其中當(dāng)且僅當(dāng)x1=x2時(shí)等號(hào)成立;(2) 對(duì)?x1,x2∈RN,有Δ(x1,x2)=Δ(x2,x1);(3) 對(duì)?x1,x2,x3∈RN,有Δ(x1,x3)≤Δ(x1,x2)+Δ(x2,x3),則稱(chēng)(Ω,Δ)為度量空間,其中Δ(xi,xj)為距離函數(shù),表示元素xi和元素xj之間的距離。

        距離計(jì)算函數(shù)有曼哈頓距離函數(shù)、歐幾里德距離函數(shù)、P范式距離函數(shù),本文算法從特征選擇方法模型泛化的角度考慮,采用歐幾里德距離函數(shù),它能夠在一定程度上防止過(guò)擬合,提升模型的泛化能力。

        假設(shè)一個(gè)含有K個(gè)樣本T個(gè)屬性的基因數(shù)據(jù)集,直接利用鄰域粗糙集的向前屬性約簡(jiǎn)算法剔除冗余基因時(shí),算法的計(jì)算代價(jià)較大,時(shí)間復(fù)雜度為O(T2×KlogK)[19]。當(dāng)屬性的鄰域半徑一定時(shí),隨著屬性集B中屬性個(gè)數(shù)的增加,會(huì)增加樣本的誤判率,從而降低分類(lèi)正確率。本文提出基于信噪比與鄰域粗糙集的特征基因選擇算法,該算法可以有效去除大量的無(wú)關(guān)基因,減少鄰域粗糙集約簡(jiǎn)過(guò)程的時(shí)空消耗,同時(shí)也減少分類(lèi)器的訓(xùn)練時(shí)間,具體算法如下。

        輸入:基因數(shù)據(jù)集Set=(x1,x2,…,y),鄰域決策系統(tǒng)NDS=〈U,C∪D,N〉,計(jì)算屬性鄰域半徑的參數(shù)r及屬性的重要度下限參數(shù)λ。

        輸出:特征基因集合S。

        (1) 對(duì)Set每個(gè)屬性列進(jìn)行標(biāo)準(zhǔn)化處理;

        (2) 根據(jù)式(1)計(jì)算每個(gè)基因變量的信噪比值;

        (3) 根據(jù)信噪比的大小對(duì)Glist進(jìn)行升序排序;//Glist表示通過(guò)信噪比排序后的基因列表

        (4) 將信噪比值在區(qū)間[0.6, 0.8]的標(biāo)準(zhǔn)化基因數(shù)據(jù)生成新的矩陣Al×t;//l為樣本數(shù),t為屬性數(shù)

        (5) 利用Relief算法過(guò)濾掉各區(qū)間權(quán)重較小的基因;

        (6) 將矩陣Al×t中所有屬性列組成特征基因集合SA;//SA為已過(guò)濾掉無(wú)關(guān)基因的集合;

        (7) 初始化約簡(jiǎn)集合red=?;

        (8) 對(duì)SA中的ai∈SA-red;//ai表示特征基因集合SA的屬性列,i=1, 2, …, t;

        (9) 獲取屬性ai的最大的正域posk(D);//通過(guò)最大的正域posk(D)計(jì)算屬性的重要度;

        (10) 判斷重要度SIG是否大于設(shè)定的下限λ;

        (11) 若SIG≤λ,記錄k值,red=red+ak,S=S-posk,返回(8);//通過(guò)k記錄對(duì)應(yīng)的屬性列號(hào)

        (12) 若SIG>λ,輸出約簡(jiǎn)結(jié)果red;

        (13) 根據(jù)red對(duì)應(yīng)的屬性列,獲取較優(yōu)的特征基因集合S;

        (14) 結(jié)束。

        假設(shè)一個(gè)含有K個(gè)樣本T個(gè)屬性的基因數(shù)據(jù)集,經(jīng)過(guò)信噪比去除無(wú)關(guān)基因后獲得M個(gè)特征基因,平均選擇一個(gè)特征基因要向正域集合中添加K/M個(gè)樣本,則計(jì)算該數(shù)據(jù)集鄰域時(shí)間復(fù)雜度為O(KlogK)。由于第1個(gè)特征基因確定正域的時(shí)間復(fù)雜度為T(mén)×KlogK,第2個(gè)特征基因的時(shí)間復(fù)雜度為(T-1)×(K-K/M)log(K-K/M),則第M個(gè)特征基因的時(shí)間復(fù)雜度為(T-M+1)×(K/M)log(K/M),經(jīng)計(jì)算得到SNRS算法的時(shí)間復(fù)雜度為M×T×KlogK,因?yàn)镸?T,所以本文算法的時(shí)間復(fù)雜度小于O(T2×KlogK)。由以上分析可知,該算法通過(guò)約簡(jiǎn)過(guò)濾掉信噪比值小的基因,從而減小了時(shí)間復(fù)雜度。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境

        為了驗(yàn)證算法的有效性,本文在Leukemia,Colon,Lung和Prostate 4個(gè)公開(kāi)的基因表達(dá)譜數(shù)據(jù)集上仿真實(shí)驗(yàn)。數(shù)據(jù)集從http://datam.i2r.a-star.edu.sg/datasets/krbd/下載,具體數(shù)據(jù)集描述見(jiàn)表1。實(shí)驗(yàn)中所用的計(jì)算機(jī)配置為酷睿i5-3470,3.20 GHz,2 GB內(nèi)存,所有仿真都在MatlabR2010a和Weka3.6.11中實(shí)現(xiàn),并構(gòu)建樸素貝葉斯、Libsvm和決策樹(shù)C4.5三種分類(lèi)模型,其中Libsvm的核函數(shù)設(shè)置為線性核函數(shù),C4.5用于修剪的置信因子設(shè)置為0.25。所有實(shí)驗(yàn)都采用k折交叉驗(yàn)證方法,其中k均取值為10。

        表1 實(shí)驗(yàn)數(shù)據(jù)集描述

        3.2 實(shí)驗(yàn)結(jié)果分析

        根據(jù)信噪比值的大小,將基因變量分布在4個(gè)區(qū)間,為了直觀表示,圖1~4分別給出了4個(gè)數(shù)據(jù)集信噪比值相應(yīng)的區(qū)間分布。由圖1~4可知,本文實(shí)驗(yàn)將全部基因信噪比值分為4個(gè)區(qū)間:(0,0.2],(0.2,0.4],(0.4,0.6],(0.6,0.8],4個(gè)數(shù)據(jù)集在相應(yīng)區(qū)間內(nèi)的基因個(gè)數(shù)分別為{4 973, 1 796, 334, 26},{1 481,509,10,0},{1 727,969,174,10},{6 976,5 156,411,49}。可知大部分基因的信噪比值都較小,如Lung數(shù)據(jù)集的基因數(shù)目為2 880,其中有1 727個(gè)基因的信噪比值小于或等于0.2;Prostate數(shù)據(jù)集的基因數(shù)目為12 600,其中有6 976個(gè)基因的信噪比值小于或等于0.2。表明這些基因難以區(qū)分類(lèi)別,可做無(wú)關(guān)基因處理,只有為數(shù)不多的基因與樣本的分類(lèi)有密切相關(guān)。為了有效獲取特征基因子集,本文只將信噪比值分布在區(qū)間(0.6, 0.8]內(nèi)基因變量作為預(yù)選的特征基因子集。由于Colon數(shù)據(jù)集在區(qū)間(0.6, 0.8]的基因變量為零,所以將它在區(qū)間(0.4, 0.6]內(nèi)的基因變量作為預(yù)選的特征基因子集。因此,以上4個(gè)數(shù)據(jù)集通過(guò)信噪比去除無(wú)關(guān)基因和Relief算法去除權(quán)重較小的基因,最終獲得預(yù)選的特征基因子集數(shù)目分別為21,8,9和46。

        利用鄰域粗糙集剔除預(yù)選特征基因子集中的冗余基因,本文對(duì)計(jì)算鄰域半徑參數(shù)r和重要度下限進(jìn)行了優(yōu)化,經(jīng)過(guò)多次試驗(yàn)比較,r的取值[3.5, 4.5]較為合適,實(shí)驗(yàn)中將r取值為4,重要度下限取值越小越好,因此取值為0.001。學(xué)習(xí)分類(lèi)算法中的樸素貝葉斯具有訓(xùn)練速度較快的特點(diǎn),支持向量機(jī)能避免“維數(shù)災(zāi)難”,具有較好的魯棒性,而C4.5具有處理不完整數(shù)據(jù)及分類(lèi)規(guī)則易理解的特點(diǎn)。為了證實(shí)本文算法在分類(lèi)模型優(yōu)于其他的特征基因選擇方法,實(shí)驗(yàn)采用樸素貝葉斯、Libsvm、決策樹(shù)C4.5三種學(xué)習(xí)算法驗(yàn)證各自的分類(lèi)性能,如圖5~7所示。

        圖7 C4.5在數(shù)據(jù)集上的分類(lèi)性能Fig.7 Classification performance of C4.5 on dataset

        在圖5~7中,ODP(Originaldataprocessing)表示為直接對(duì)原數(shù)據(jù)集分類(lèi)的方法;NRS(Neighborhoodroughset)表示為僅采用鄰域粗糙集方法;SNR表示為只采用信噪比方法;SNRS表示為本文算法即采用基于信噪比與鄰域粗糙集的方法。由圖5~7可知,針對(duì)某一特定的數(shù)據(jù)集,不同的特征基因選擇方法在3種分類(lèi)器上表現(xiàn)出不同的分類(lèi)性能。通過(guò)本文算法與其他方法相比較,基于信噪比與鄰域粗糙集的算法的分類(lèi)正確率相對(duì)較高。例如在Prostate數(shù)據(jù)集中,本文方法在樸素貝葉斯分類(lèi)器、Libsvm分類(lèi)器、C4.5分類(lèi)器得到分類(lèi)正確率分別為91.176 5%,91.176 5%,90.196 1%,明顯高出其他方法的分類(lèi)正確率。但是在Leukemia數(shù)據(jù)集中,本文算法在NaiveBayesian分類(lèi)器的分類(lèi)正確率為86.111 1%低于ODP方法在該分類(lèi)器上94.736 8%的分類(lèi)正確率,這表明在利用本文方法去除無(wú)關(guān)基因和冗余基因時(shí),錯(cuò)誤地去除了對(duì)分類(lèi)影響較大的基因變量,最終影響了樣本分類(lèi)的正確率。但是該算法在其余3個(gè)數(shù)據(jù)集上都表現(xiàn)出良好的性能。因此,本文算法在整體上能夠獲取高度相關(guān)、低度冗余的特征基因子集,并且有效提高了特征基因分類(lèi)算法的正確率。

        由表2可知,ODP算法雖然可獲得較高的分類(lèi)精度,但是特征基因規(guī)模過(guò)于龐大;NRS算法可有效地去除無(wú)關(guān)基因,但是在去除冗余基因過(guò)程中也剔除了與分類(lèi)相關(guān)的特征基因,從而導(dǎo)致分類(lèi)精度較低;SNR算法可獲取較少的特征基因子集,并且分類(lèi)性能也相對(duì)較好。而一個(gè)較為理想的特征基因選擇方法不僅能獲得較少的特征基因子集,同時(shí)也具有較高的分類(lèi)精度?;谛旁氡扰c鄰域粗糙集的算法的分類(lèi)精度相對(duì)其他算法最高,特征基因個(gè)數(shù)也相對(duì)較少。例如在Leukemia數(shù)據(jù)集上,獲得4個(gè)特征基因相對(duì)其他方法最少,與此同時(shí),分類(lèi)性能也達(dá)到97.36%的正確率。從表2可知,雖然算法SNRS約簡(jiǎn)后的特征基因個(gè)數(shù)不少于算法NRS約簡(jiǎn)前的特征基因個(gè)數(shù),但兩者僅差1~3個(gè)特征基因,同時(shí)SNRS方法在4個(gè)數(shù)據(jù)集上都獲得最高分類(lèi)精度。例如在Prostate數(shù)據(jù)集上,SNRS算法獲得5個(gè)特征基因數(shù)目,雖然比NRS算法中獲得4個(gè)特征基因多1個(gè)特征基因,但是分類(lèi)精度已高達(dá)91.18%。由表3可知,LASSO方法可獲得較優(yōu)的分類(lèi)精度,但其時(shí)間復(fù)雜度高達(dá)O(PT3);NRS方法可有效減少特征基因個(gè)數(shù)但其分類(lèi)精度最低;MRMR方法的分類(lèi)精度略高,但其特征基因個(gè)數(shù)較多,時(shí)間復(fù)雜度也較高。與其他3個(gè)經(jīng)典特征基因選擇方法相比,本文方法在特征基因子集規(guī)模與分類(lèi)精度上均取得較好的結(jié)果,且時(shí)間復(fù)雜度也較低,綜合性能較強(qiáng)。例如在Leukemia數(shù)據(jù)集上,本文方法獲得4個(gè)特征基因均不多于其余3種方法,分類(lèi)精度高達(dá)97.36%,略低于LASSO方法的98.61%。

        表2 各種算法在不同數(shù)據(jù)集上的特征基因個(gè)數(shù)和最優(yōu)分類(lèi)性能的實(shí)驗(yàn)對(duì)比

        Table 2 Experimental contrast of all kinds of algorithms on different data sets feature gene number and optimal classification performance

        表3 不同特征基因選擇方法優(yōu)分類(lèi)性能和時(shí)間復(fù)雜度的實(shí)驗(yàn)對(duì)比

        Table 3 Experimental comparison of classification and time complexity of different feature gene selection methods

        數(shù)據(jù)集LASSO基因數(shù)分類(lèi)性能/%NRS基因數(shù)分類(lèi)性能/%MRMR基因數(shù)分類(lèi)性能/%本文方法基因數(shù)分類(lèi)性能/%Leukemia2398.61461.112889.06497.36Colon588.71564.525479.86682.26Lung899.45364.103684.61685.44Prostate6396.08464.717992.15591.18時(shí)間復(fù)雜度O(PT3)O(T2KlogK)O(T2)O(MTKlogK)

        由實(shí)驗(yàn)結(jié)果可知,基于信噪比與鄰域粗糙集的算法能夠選擇出較少的特征基因,通過(guò)該方法獲取的基因數(shù)目均不高于6個(gè)特征基因,最少的只達(dá)到4個(gè)特征基因。在特征基因子集規(guī)模如此小的情況下,本文方法在整體性能上均高于其他3種基因選擇方法,從而證明基于信噪比與鄰域粗糙集的算法能選擇出高信息含量的基因,同時(shí)也能減少了選擇基因子集的冗余性。總之,本文算法能選出基因數(shù)量較少且分類(lèi)能力較強(qiáng)的特征基因子集,解決了基因表達(dá)譜數(shù)據(jù)高維數(shù)、高冗余問(wèn)題,提高了分類(lèi)模型的精度和泛化能力。

        4 結(jié)束語(yǔ)

        從DNA微陣列中選擇分類(lèi)能力且數(shù)量較少的特征基因子集是生物信息學(xué)領(lǐng)域研究的一個(gè)重要問(wèn)題。本文針對(duì)目前特征基因選擇算法分類(lèi)精度較差和時(shí)間復(fù)雜度較高的問(wèn)題,提出了一種基于信噪比與鄰域粗糙集的特征基因選擇方法。該方法分為兩個(gè)過(guò)程,利用信噪比指標(biāo)衡量基因的重要性,并劃分不同區(qū)間,以過(guò)濾無(wú)關(guān)基因;采用鄰域粗糙集進(jìn)行冗余基因的剔除。實(shí)驗(yàn)結(jié)果表明,該方法能夠選擇出具有高分辨率且特征基因數(shù)目較少的基因子集,并且提高了算法的分類(lèi)精度并且降低了時(shí)間復(fù)雜度。本文提出的算法研究了單個(gè)特征基因類(lèi)間區(qū)分度,在特征基因選擇過(guò)程中考慮多個(gè)特征基因?qū)Ψ诸?lèi)的聯(lián)合貢獻(xiàn)及如何提高算法時(shí)間效率將是下一步的研究工作。

        [1] 李霞, 張?zhí)镂? 郭政.一種基于遞歸分類(lèi)樹(shù)的集成特征基因選擇方法[J].計(jì)算機(jī)學(xué)報(bào), 2004, 27(5):675-682.

        Li Xia, Zhang Tianwen, Guo Zheng.An integrated feature gene selection based on the recursive classification tree method[J].Chinese Journal of Computers,2004, 27(5): 675-682.

        [2] 徐菲菲, 苗奪謙, 魏萊.基于模糊粗糙集的腫瘤分類(lèi)特征基因選取[J].計(jì)算機(jī)科學(xué), 2009, 36(3):196-200.

        Xu Feifei, Miao Duoqian, Wei Lai.Tumor classification feature gene selection based on fuzzy rough sets[J]. Computer Science, 2009, 36(3): 196-200.

        [3] 汪荊琪, 徐林莉. 一種基于多視圖數(shù)據(jù)的半監(jiān)督特征選擇和聚類(lèi)方法[J]. 數(shù)據(jù)采集與處理, 2015, 30(1): 106-116.

        Wang Jingqi, Xu Linli. Semi-supervised feature selection and clustering for multi-view data[J]. Journal of Data Acquisition and Processing, 2015, 30(1): 106-116.

        [4] Golub T R,Slonim D K, Tamayo P, et al. Class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286: 531-537.

        [5] 周昉,何潔月.生物信息學(xué)中的基因芯片的特征選擇技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2007, 34(12):143-150.

        Zhou Fang, He Jieyue. Survey of the gene selection technologies based on microarray in bioinformatics[J].Computer Science,2007, 34(12):143-150.

        [6] 黃德雙.基因表達(dá)譜數(shù)據(jù)挖掘方法研究[M].北京: 科學(xué)出版社, 2009.

        Huang Deshuang.Gene expression profile data mining methods[M].Beijing:Science Press, 2009.

        [7] Zhao Y H,Yu X J, Wang G R, et al. Maximal subspace coregulated gene clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2008, 20 (1): 83-98.

        [8] 劉金勇, 鄭恩輝, 陸慧娟. 基于聚類(lèi)與微粒子群優(yōu)化的基因選擇方法[J]. 數(shù)據(jù)采集與處理, 2014, 29(1): 84-89.

        Liu Jinyong, Zheng Enhui, Lu Huijuan. Gene selection based on clustering method and particle swarm optimazition[J]. Journal of Data Acquisition and Processing, 2014, 29(1): 84-89.

        [9] 李建更, 郭慶雷, 賀益恒. 時(shí)序基因表達(dá)缺失值的加權(quán)上相回歸估計(jì)算法[J]. 數(shù)據(jù)采集與處理, 2013, 28(2): 137-140.

        Lin Jiangeng, Guo Qinglei, He Yiheng. Double weighted regression estimation for missing values in time series gene expression data[J]. Journal of Data Acquisition and Processing, 2013, 28(2): 137-140.

        [10]徐久成,徐天賀,孫林,等. 基于鄰域粗糙集和粒子群優(yōu)化的腫瘤分類(lèi)特征基因選取[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2014,35(11): 2529-2532.

        Xu Jiucheng, Xu Tianhe, Sun Lin, et al. Feature selection for cancer classification based on neighborhood rough set and particle swarm optimization[J].Journal of Chinese Computer Systems, 2014,35(11):2529-2532.

        [11]Chen X W. Margin-based wrapper methods for gene identification using microarray[J]. Neurocomputing,2006,69(18): 2236-2243.

        [12]Ramón D U, Sara A A. Gene selection and classification of microarray data using random forest[J]. BMC Bioinformatics,2006(7):3-4.

        [13]陳濤,洪增林, 鄧方安.基于優(yōu)化的鄰域粗糙集的混合基因選擇算法[J].計(jì)算機(jī)科學(xué),2014, 41(10):291-294.

        Cheng Tao, Hong Zenglin, Deng Fangan. Hybrid gene selection algorithm based on optimized neighborhood rough set[J].Computer Science,2014, 41(10): 291-294.

        [14]Ma Shuangge, Song Xiao, Huang Jian. Supervised group Lasso with applications to microarray data analysis[J].BMC Bioinformatics, 2007(8): 60.

        [15]王楠,歐陽(yáng)丹彤.基于模型診斷的抽象分層過(guò)程[J].計(jì)算機(jī)科學(xué), 2011, 34(2):384-394.

        Wang Nan, Ouyang Dantong.Hierarchical abstraction process in model-based diagnosis[J].Computer Science,2011, 34(2): 384-394.

        [16]胡清華,于達(dá)仁.基于鄰域粒化和粗糙逼近的屬性約簡(jiǎn)[J].軟件學(xué)報(bào), 2008, 15(3):121-125.

        Hu Qinghua, Yu Daren.Numerical attribute reduction based on neighborhood granulation and rough approximation[J].Journal of Software, 2008, 15(3): 121-125.

        [17]張文修,仇國(guó)芳.粗糙集屬性約簡(jiǎn)的一般理論[J].中國(guó)科學(xué):技術(shù)科學(xué), 2005,35(12):1304-1313.

        Zhang Wenxiu, Qiu Guofang.The general theory of rough set attribute reduction[J]. Scientia Sinica Technologica, 2005,35(12):1304-1313.

        [18]Chen T. Classification algorithm on gene expression profile of tumor using neighborhood rough set and support vector machine[J].Advanced Materials Research, 2014, 850:1238-1242.

        [19]謝娟英,李楠,喬子芮. 基于鄰域粗糙集的不完整決系統(tǒng)特征選擇算法[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué), 2011, 47(4): 384-390.

        Xie Juanying, Li Nan, Qiao Zirui. Feature subset selection algorithms for incomplete decision systems based on neighborhood tough sets[J].Journal of Nanjing University:Natural Sciences, 2011, 47(4): 384-390.

        Feature Gene Selection Based on SNR and Neighborhood Rough Set

        Xu Jiucheng1,2, Li Tao1,2, Sun Lin1,2, Li Yuhui1,2

        (1.College of Computer & Information Engineering, Henan Normal University, Xinxiang, 453007, China; 2.Engineering Technology Research Center for Computing Intelligence & Data Mining, Henan Province, Xinxiang, 453007, China)

        In view of that the traditional genetic selection method selects a large number of redundant genes, which leads to a lower sample forecast accuracy, a feature gene selection method is put forward based on the signal noise ration and the neighborhood rough set(SNRS). Firstly, the signal-to-noise ratio(SNR) index is used to obtain the primary feature subset which have a greater impact on classification. Secondly, the rough neighborhood intensive algorithm is used to optimize the primary feature subset. Finally, feature gene subset is classified by different classifier. Experiment results show that the proposed method can get a higher classification accuracy using less feature gene than the traditional ones, which verifies the feasibility and validity of the method.

        gene expression profiles;signal-to-noise ratio;neighborhood rough set;feature selection

        國(guó)家自然科學(xué)基金(61370169,61402153, 60873104)資助項(xiàng)目;河南省科技攻關(guān)重點(diǎn)(142102210056)資助項(xiàng)目;新鄉(xiāng)市重點(diǎn)科技攻關(guān)計(jì)劃(ZG13004)資助項(xiàng)目。

        2015-05-29;

        2015-07-02

        TP18

        A

        徐久成(1964-),男,教授,博士生導(dǎo)師,研究方向:粒計(jì)算、粗糙集、數(shù)據(jù)挖掘和生物信息學(xué)等,E-mail:xjch3701@sina.com。

        李玉惠(1988-),女,碩士研究生,研究方向:粒計(jì)算和圖像檢索。

        李濤(1990-),男,碩士研究生,研究方向:數(shù)據(jù)挖掘、粗糙集和生物信息學(xué)。

        孫林(1979-),男,講師,研究方向:粒計(jì)算、粗糙集和數(shù)據(jù)挖掘。

        猜你喜歡
        粗糙集子集鄰域
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
        稀疏圖平方圖的染色數(shù)上界
        關(guān)于奇數(shù)階二元子集的分離序列
        基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
        多?;植诩再|(zhì)的幾個(gè)充分條件
        關(guān)于-型鄰域空間
        雙論域粗糙集在故障診斷中的應(yīng)用
        每一次愛(ài)情都只是愛(ài)情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        米奇欧美777四色影视在线| 亚洲国产福利成人一区二区| 亚洲中文字幕永久网站| 久久婷婷综合激情五月| 国产肉体xxxx裸体784大胆| 久久国产成人午夜av影院| 一区二区三无码| 99久久精品人妻少妇一| 偷国产乱人伦偷精品视频| 18禁美女裸体网站无遮挡| av在线免费观看你懂的| 国产女优一区在线观看| 无码人妻人妻经典| 亚洲综合一区二区三区四区五区| 自拍视频国产在线观看| 一区二区在线视频免费蜜桃 | 国产视频一区2区三区| 国产精品videossex久久发布| 日日噜噜夜夜狠狠久久无码区| 国产精品无码久久久久久蜜臀AV| 丝袜美腿亚洲综合第一页| 欧美最猛黑人xxxx黑人猛交| 久久久久久av无码免费看大片| 久草视频在线这里只有精品| 中文字幕av人妻少妇一区二区| 中文字幕人妻无码一夲道| 综合无码一区二区三区四区五区| 美腿丝袜网址亚洲av| 搡女人真爽免费视频大全| 青草国产精品久久久久久| 亚洲色拍拍噜噜噜最新网站| 五月婷婷开心五月激情| 天天噜日日噜狠狠噜免费| 久久精品免费免费直播| 91久久国产精品综合| 国产精品一区二区av麻豆| 天天操夜夜操| 国产精品一区二区三区蜜臀| 久久精品国产亚洲av网| 亚洲欧美一区二区三区 | 亚洲av鲁丝一区二区三区|