亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基因表達(dá)數(shù)據(jù)在鄰域關(guān)系中的特征選擇

        2014-09-13 13:04:40陳玉明吳克壽李向軍
        智能系統(tǒng)學(xué)報(bào) 2014年2期
        關(guān)鍵詞:決策表粗糙集特征選擇

        陳玉明,吳克壽,李向軍

        (1. 廈門理工學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,福建 廈門 361024; 2. 南昌大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,江西 南昌 330031)

        美國(guó)人類基因組計(jì)劃(HGP)把基因組信息學(xué)定義為:它是一個(gè)學(xué)科領(lǐng)域,包含著基因組信息的獲取、處理、存儲(chǔ)、分配、分析和解釋的所有方面?;虮磉_(dá)數(shù)據(jù)分析的對(duì)象是在不同條件下,全部或部分基因的表達(dá)數(shù)據(jù)所構(gòu)成的數(shù)據(jù)矩陣。通過對(duì)該數(shù)據(jù)矩陣的分析,可以回答一些生物學(xué)問題。隨著試驗(yàn)技術(shù)及儀器的不斷改進(jìn)和基因組數(shù)據(jù)的急劇增長(zhǎng),現(xiàn)代DNA微陣列或芯片技術(shù)產(chǎn)生的各種基因表達(dá)數(shù)據(jù)均規(guī)模龐大、內(nèi)容復(fù)雜。如何有效地分析利用這些數(shù)據(jù)成為生物信息學(xué)中的挑戰(zhàn)性課題。在基因表達(dá)數(shù)據(jù)分析中,基因的數(shù)目成千上萬(wàn),但往往只是很少一部分的關(guān)鍵基因影響樣本的分類,其他的基因往往是冗余的或者是不重要的。在設(shè)計(jì)基因表達(dá)數(shù)據(jù)分類器之前進(jìn)行特征選擇,可以有效降低分類器的時(shí)間復(fù)雜度,提高分類精度。目前最常用的基因表達(dá)數(shù)據(jù)特征選擇方法主要有2類:基于過濾算法(filter)的選擇方法[1]與基于wrapper的選擇方法[2]。基于filter的基因表達(dá)數(shù)據(jù)特征選擇方法使用數(shù)據(jù)本身的內(nèi)在特性作為評(píng)價(jià)基因的準(zhǔn)則,但通過filter選擇出來的若干個(gè)基因可能具有較強(qiáng)的相關(guān)性?;趙rapper的基因表達(dá)數(shù)據(jù)特征選擇方法根據(jù)分類器的某種性能來評(píng)價(jià)基因或基因子集的重要性,而基于wrapper方法在基因的選擇過程中反復(fù)調(diào)用分類算法,往往造成較高的時(shí)間復(fù)雜度。

        粗糙集由波蘭科學(xué)家Pawlak于1982年提出[3],用于處理不確定、不一致、不精確數(shù)據(jù)的數(shù)學(xué)理論工具?,F(xiàn)已廣泛應(yīng)用在人工智能、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域[4-7]。然而,Pawlak粗糙集只能處理離散化的數(shù)據(jù),對(duì)于現(xiàn)實(shí)世界廣泛而大量存在的連續(xù)數(shù)據(jù)卻缺乏有效的處理能力。基因表達(dá)數(shù)據(jù)也往往都是連續(xù)的,目前大多數(shù)方法是將基因表達(dá)數(shù)據(jù)先進(jìn)行離散化[8],離散化過程必定會(huì)造成某種程度的信息丟失,并影響分類系統(tǒng)的分類精度。

        1 鄰域關(guān)系

        傳統(tǒng)粗糙集理論采用等價(jià)類形式化地表示知識(shí)分類。然而,等價(jià)類是基于離散型的數(shù)據(jù)形成的等價(jià)關(guān)系劃分而得到的,對(duì)于連續(xù)型的數(shù)據(jù)并不能構(gòu)造合適的等價(jià)類。因此,下面引入鄰域關(guān)系處理連續(xù)型的基因表達(dá)數(shù)據(jù),用于基因表達(dá)數(shù)據(jù)的特征選擇。

        定義2 給定鄰域信息系統(tǒng)IS=(U,A,V,f,δ),對(duì)于任一x,y∈U,B?A,B={a1,a2,...,an},定義B上的距離函數(shù)DB(x,y)滿足:

        1)DB(x,y)≥0,非負(fù);

        2)DB(x,y)=0,當(dāng)且僅當(dāng)x=y;

        3)DB(x,y)=DB(y,x),對(duì)稱;

        4)DB(x,y)+DB(y,z)≥DB(x,z)。

        式中:

        DB(x,y)=

        當(dāng)p=1時(shí),稱為曼哈頓距離,當(dāng)p=2時(shí),稱為歐氏距離。

        2 基于鄰域關(guān)系的基因選擇方法

        基于等價(jià)關(guān)系的信息熵、互信息、粗糙熵等概念度量了知識(shí)的粗細(xì)程度,也反映了決策系統(tǒng)中的分類能力大小,但主要處理離散型數(shù)據(jù)的決策系統(tǒng),對(duì)于連續(xù)型的數(shù)據(jù)并不能夠直接處理。下面結(jié)合鄰域關(guān)系與鄰域類的定義,進(jìn)一步定義了鄰域特征選擇概念,用于連續(xù)型的基因表達(dá)數(shù)據(jù)的特征選擇當(dāng)中。同時(shí),提出一種基于鄰域關(guān)系的啟發(fā)式基因表達(dá)數(shù)據(jù)特征選擇算法。

        2.1 鄰域特征選擇

        定義5 定義DT=(U,C∪D,V,f,δ)為一個(gè)鄰域決策表,其中C為條件特征,特征值為連續(xù)型的數(shù)據(jù),鄰域閾值為δ,其鄰域劃分為U/NRδ(C)={X1,X2,...,Xm},D為決策特征,決策特征是一些決策分類信息,為離散型的數(shù)據(jù),以等價(jià)關(guān)系劃分為U/D={Y1,Y2,...,Yn}。

        定義6 設(shè)DT=(U,C∪D,V,f,δ)為一個(gè)鄰域決策表,?B?C,X?U,記U/NRδ(B)={B1,B2,...,Bi},則稱B*(X)δ=∪{Bi|Bi∈U/NRδ(B),Bi?X}為X關(guān)于B的鄰域下近似集,稱B*(X)δ=∪{Bi|Bi∈U/NRδ(B),Bi∩X≠?}為X關(guān)于B的鄰域上近似集。

        定義7 設(shè)鄰域決策表DT=(U,C∪D,V,f,δ),其中C為條件特征,特征值為連續(xù)型的數(shù)據(jù),鄰域閾值為δ,D為決策特征,決策特征是一些決策分類信息,為離散型的數(shù)據(jù)。定義決策特征D對(duì)條件特征C的鄰域依賴度為γC(D)δ=|C*(D)δ|/|U|,其中|U|表示集合U的基數(shù)。

        定義8 設(shè)鄰域決策表DT=(U,C∪D,V,f,δ),對(duì)?b∈B?C,若γB(D)δ=γB-(D)δ,則稱b為B中相對(duì)于D是不必要的;否則稱b為B中相對(duì)于D是必要的。對(duì)?B?C,若B中任一元素相對(duì)于D都是必要的,則稱B相對(duì)于D獨(dú)立。

        定義9 設(shè)鄰域決策表DT=(U,C∪D,V,f,δ),若?B?C,γB(D)δ=γC(D)δ且B相對(duì)于D是獨(dú)立的,則稱B是選取的關(guān)鍵特征組,這一特征選取過程稱為鄰域特征選擇。

        性質(zhì)1 設(shè)鄰域決策表DT=(U,C∪D,V,f,δ),若B1?B2?...?C,則0≤γB1(D)δ≤γB2(D)δ≤...≤γC(D)δ≤1。

        定義10 設(shè)鄰域決策表DT=(U,C∪D,V,f,δ),?a∈C,R?C,定義a相對(duì)于R的特征重要度為Sign(a,R,D)=γR∪{a}(D)δ-γR(D)δ。

        2.2 基于鄰域關(guān)系的基因選擇算法

        性質(zhì)1表明鄰域依賴度具有單調(diào)性,因此可以采用刪除法或添加法進(jìn)行特征選擇,基因表達(dá)數(shù)據(jù)可以表示成前面定義的鄰域決策表,依據(jù)上述鄰域特征選擇的定義,可設(shè)計(jì)如下基于鄰域關(guān)系的基因選擇算法。下面以定義10的特征重要度為啟發(fā)式信息設(shè)計(jì)了一種基于鄰域關(guān)系的基因選擇算法。

        算法GSNRS(基于鄰域關(guān)系的基因選擇算法)

        輸入:基因表達(dá)數(shù)據(jù)決策表DT=(U,C∪D,V,f,δ);

        輸出:DT的一個(gè)鄰域約簡(jiǎn)R。

        1)計(jì)算整個(gè)條件特征集C相對(duì)于決策特征D的鄰域依賴度為γC(D)δ。

        2)R:=C。

        3) 當(dāng)γR(D)δ=γC(D)δ重復(fù):

        ①對(duì)所有的a∈R計(jì)算特征重要度Sign(a,R,D);

        ②在R中選擇特征a滿足特征重要度最小;

        ③R:=R-{a}。

        4) 輸出R。

        在算法中,每次選擇特征重要度最小的特征,若去掉它后決策表的鄰域依賴度仍然不變,則可以去掉,否則保留下來,依次進(jìn)行下去,直到得到一個(gè)條件特征子集,在其中去掉任何一個(gè)特征,決策表的鄰域依賴度都會(huì)改變,則算法結(jié)束,該特征子集即為所選取關(guān)鍵特征組。

        3 實(shí)驗(yàn)結(jié)果與分析

        下面選用2個(gè)標(biāo)準(zhǔn)的基因表達(dá)數(shù)據(jù)集來驗(yàn)證GSNRS算法的有效性。2個(gè)標(biāo)準(zhǔn)基因表達(dá)數(shù)據(jù)集分別為L(zhǎng)ymphoma和Liver cancer。Lymphoma數(shù)據(jù)集包含了96個(gè)樣本,4 026個(gè)特征基因,其中54個(gè)Othertype子類和42個(gè)B-celllymphoma子類。Liver cancer數(shù)據(jù)集包含了156個(gè)樣本,1 648個(gè)基因,其中82個(gè)HCCs子類和74個(gè)nontumorlivers子類。實(shí)驗(yàn)基因數(shù)據(jù)集如表1所示。

        表1 基因表達(dá)數(shù)據(jù)集

        在Lymphoma和Livercancer基因表達(dá)數(shù)據(jù)中分別采用文獻(xiàn)[9]中粗糙集的特征選擇算法TRS與本文鄰域特征選擇算法GSNRS進(jìn)行比較。首先進(jìn)行預(yù)處理,對(duì)于有缺失值的數(shù)據(jù)采用文獻(xiàn)[10]的方法進(jìn)行完備化。基因表達(dá)數(shù)據(jù)集是連續(xù)型的數(shù)據(jù),對(duì)于經(jīng)典粗糙集特征選擇算法,需要對(duì)其數(shù)據(jù)進(jìn)行離散化,離散化過程采用文獻(xiàn)[8]中的方法進(jìn)行。而本文GSNRS特征選擇算法,不需要離散化。設(shè)鄰域參數(shù)為δ=0.1,特征選擇結(jié)果如表2所示。

        表2 基因數(shù)據(jù)集特征選擇結(jié)果

        由表2可知,TRS算法在Lymphoma數(shù)據(jù)集中選擇出7個(gè)關(guān)鍵基因,在Liver cancer數(shù)據(jù)集中選擇出6個(gè)關(guān)鍵基因。GSNRS算法在Lymphoma數(shù)據(jù)集中選擇出6個(gè)關(guān)鍵基因,在Liver cancer數(shù)據(jù)集中選擇出5個(gè)關(guān)鍵基因。下面再比較2組基因的分類能力,分別針對(duì)選取的關(guān)鍵基因采用KNN,C5.0分類器進(jìn)行分類實(shí)驗(yàn),并用留一交叉法檢驗(yàn)分類精確率,實(shí)驗(yàn)結(jié)果如表3所示。

        表3 基因分類精確率

        上述實(shí)驗(yàn)結(jié)果表明,基于粗糙集的基因選擇方法和基于鄰域關(guān)系的基因選擇方法都能正確提取有效的基因?;卩徲蜿P(guān)系的基因選擇方法不需要離散化,而且由于避免了離散化過程的造成的信息丟失,提取的特征基因個(gè)數(shù)較少。在分類精度上,基于鄰域關(guān)系的基因選擇方法提取的基因優(yōu)于基于粗糙集的基因選擇方法提取的基因。

        4 結(jié)束語(yǔ)

        傳統(tǒng)粗糙集理論中的特征選擇方法往往難以處理連續(xù)性的基因表達(dá)數(shù)據(jù),成為基因表達(dá)數(shù)據(jù)研究中的主要缺陷和障礙。本文針對(duì)傳統(tǒng)粗糙集理論中難以處理連續(xù)數(shù)據(jù)的缺點(diǎn),在特征選擇中引入鄰域關(guān)系,定義了鄰域依賴度與鄰域特征選擇等概念,提出了一種基于鄰域關(guān)系的基因特征選擇方法。該特征方法不用對(duì)數(shù)據(jù)進(jìn)行離散化,避免了信息損失,從而提高了被選擇基因的分類準(zhǔn)確率。拓展了粗糙集理論的應(yīng)用范圍,為基因表達(dá)數(shù)據(jù)分析技術(shù)提供了一種新的嘗試。

        參考文獻(xiàn):

        [1]TIBSHIRANI R, HASTIE T, NARASHIMAN B, et al. Diagnosis of multiple cancer types by shrunken centroids of gene expression[C]//Nat’1 Academy of Sciences. [S.l.], USA, 2002: 6567-6572.

        [2]KOHAVI R, JOHN G H. Wrappers for feature subset selection[J]. Artificial Intelligence, 1997, 97(1/2): 273-324.

        [3]PAWLAK Z. Rough sets[J]. International Journal of Computer and Information Science, 1982, 11(5): 341-356.

        [4]BANERJEE M, MITRA S, BANKA H. Evolutinary-rough feature selection in gene expression data[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Application and Reviews, 2007, 37: 622-632.

        [5]YANG Ming, YANG Ping. A novel condensing tree structure for rough set feature selection[J]. Neurocomputing, 2008, 71(4/5/6): 1092-1100.

        [6]QIAN Yuhua, LIANG Jiye. Positive approximation: an accelerator for attribute reduction in rough set theory[J]. Artificial Intelligence, 2010, 174(9/10): 597-618.

        [7]CHEN Yuming, MIAO Duoqian. A rough set approach to feature selection based on power set tree[J]. Knowledge-Based Systems, 2011, 24(2): 275-281.

        [8]苗奪謙. Rough set理論中連續(xù)屬性的離散化方法[J]. 自動(dòng)化學(xué)報(bào), 2001, 27(3): 296-302.

        MIAO Duoqian. A new method of discretization of continuous attributes in rough sets [J]. Acta Automatica Sinica, 2001, 27(3): 296-302.

        [9]王國(guó)胤. Rough 集理論與知識(shí)獲取[M]. 西安: 西安交通大學(xué)出版社, 2001:24-28.

        [10]GRZYMALA-BUSSE J W. Handling missing attribute values[M]. [S.l.]: Springer, 2005: 37-57.

        猜你喜歡
        決策表粗糙集特征選擇
        基于決策表相容度和屬性重要度的連續(xù)屬性離散化算法*
        基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        多?;植诩再|(zhì)的幾個(gè)充分條件
        雙論域粗糙集在故障診斷中的應(yīng)用
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        正反轉(zhuǎn)電機(jī)缺相保護(hù)功能的實(shí)現(xiàn)及決策表分析測(cè)試
        兩個(gè)域上的覆蓋變精度粗糙集模型
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        基于二元搭配詞的微博情感特征選擇
        老少配老妇老熟女中文普通话| 永久免费在线观看蜜桃视频| 在线一区不卡网址观看| 天堂Av无码Av一区二区三区| 精选二区在线观看视频| 日韩精品在线观看在线| 男女做爰高清免费视频网站| 亚洲av午夜福利精品一区二区| 1000部夫妻午夜免费| 亚洲色大成在线观看| 无码一区二区三区久久精品| 男男做h嗯啊高潮涩涩| 亚洲中文字幕久久精品一区| 永久黄网站免费视频性色| 亚洲肥老熟妇四十五十路在线| 综合激情网站| 亚洲视频在线免费观看一区二区| 久久精品亚洲精品国产区| av剧情演绎福利对白| 国产精品无码无卡无需播放器 | 欧美洲精品亚洲精品中文字幕| 国产精品国产传播国产三级| 91在线视频在线视频| 亚洲欧洲国产成人综合在线| 日本人与黑人做爰视频网站| 午夜a福利| 国产人成在线免费视频| 91自拍视频国产精品| 国产免费a∨片在线软件 | 丰满人妻熟妇乱又仑精品| 久热综合在线亚洲精品| 国产成人丝袜网站在线看| 91蜜桃精品一区二区三区毛片 | 91精品国产92久久久| 天堂…在线最新版资源| 亚洲av日韩片在线观看| 精品国产乱码一区二区三区| 综合国产婷婷精品久久99之一| 伊人色综合久久天天五月婷| 99久久国产福利自产拍| a级国产精品片在线观看|