亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Fisher準(zhǔn)則和多類相關(guān)矩陣分析的腫瘤基因特征選擇方法

        2016-08-05 08:03:34
        關(guān)鍵詞:特征實(shí)驗(yàn)方法

        胡 洋 李 波

        (武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 湖北 武漢 430065) (智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室 湖北 武漢 430065)

        ?

        基于Fisher準(zhǔn)則和多類相關(guān)矩陣分析的腫瘤基因特征選擇方法

        胡洋李波

        (武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院湖北 武漢 430065) (智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室湖北 武漢 430065)

        摘要腫瘤特征基因的選擇是腫瘤基因表達(dá)數(shù)據(jù)分類的研究熱點(diǎn)之一。針對(duì)傳統(tǒng)的腫瘤特征基因選擇方法無法很好地剔除冗余基因,提出一種混合型的特征選擇方法。在所提出的方法中,首先將標(biāo)簽相同的樣本劃分到同一個(gè)矩陣,在所有矩陣中,當(dāng)且僅當(dāng)特征間的相關(guān)系數(shù)均大于特定閾值時(shí),即判定這幾個(gè)特征是相關(guān)特征,并對(duì)這些相關(guān)的特征進(jìn)行聚類。然后在每個(gè)聚類中選擇Fisher比最大的特征,對(duì)這些特征根據(jù)評(píng)價(jià)函數(shù)篩選得到最優(yōu)特征子集。最后采用SVM分類器對(duì)這些最優(yōu)特征子集進(jìn)行類別預(yù)測(cè)。在四個(gè)標(biāo)準(zhǔn)的腫瘤DNA微陣列數(shù)據(jù)集的測(cè)試結(jié)果證明所提出的腫瘤基因特征選擇方法的穩(wěn)定性和高效性。

        關(guān)鍵詞特征選擇Fisher準(zhǔn)則多類相關(guān)矩陣分析SVM

        0引言

        隨著生物信息技術(shù)的飛速發(fā)展,生物數(shù)據(jù)——如DNA微陣列數(shù)據(jù)被廣泛地應(yīng)用于腫瘤基因的鑒別,有效地分析和處理這些高維數(shù)據(jù)能為腫瘤疾病的診斷提供輔助。

        對(duì)于DNA微陣列數(shù)據(jù)集,考慮到采集腫瘤樣本的成本很高,所以采集的樣本數(shù)量相對(duì)較少,因此樣本的基因數(shù)遠(yuǎn)遠(yuǎn)大于樣本的個(gè)數(shù),造成的高維小樣本問題對(duì)基于機(jī)器學(xué)習(xí)的方法來預(yù)測(cè)腫瘤亞型帶來了挑戰(zhàn)。常用的腫瘤基因表達(dá)數(shù)據(jù)的降維方法主要包括特征提取和特征選擇,特征提取與選擇方法的優(yōu)劣極大地影響著分類效果[1]。

        為了提高分類效率,各種各樣的特征選擇方法被提出。按照特征子集的形成方式,特征選擇的方法分為窮舉法、啟發(fā)法和隨機(jī)法三類[2]。窮舉法指遍歷特征空間的所有特征組合,選取最優(yōu)特征組合的方法,其優(yōu)點(diǎn)是一定能尋找到最優(yōu)特征子集,但是計(jì)算復(fù)雜度巨大。啟發(fā)式方法為一種近似算法,具有很強(qiáng)的主觀傾向,方法簡單快速,應(yīng)用廣泛,如向前(向后)選擇、 決策樹法[3]、Relief方法[4]及其變體[5,6]等,但是不一定能得到最優(yōu)解。隨機(jī)方法是一種很新的方法,有完全隨機(jī)和概率隨機(jī)兩種,這類方法的參數(shù)設(shè)置是一個(gè)值得研究的問題。但是,這些傳統(tǒng)的特征選擇方法在剔除冗余基因時(shí),僅僅依據(jù)特征間的相關(guān)性,并沒有考慮到特征在不同類別間的差異性,造成有一些與腫瘤高度相關(guān)的基因被剔除掉,影響了最終腫瘤亞型的預(yù)測(cè)效果。

        因此,本文提出一種混合型的特征選擇方法,綜合考慮多類相關(guān)矩陣。首先按照樣本所屬的類別對(duì)基因矩陣進(jìn)行劃分,計(jì)算劃分矩陣的相關(guān)矩陣,然后對(duì)冗余基因聚類,從每個(gè)聚類中選擇類間方差和類內(nèi)方差之比最大的特征,將得到的特征組合成新的基因矩陣,最后對(duì)剔除冗余基因后的矩陣篩選得到最優(yōu)特征子集。

        1方法

        本文目的是在高維的基因集合中選擇最有利于分類結(jié)果的基因子集,然后對(duì)選擇的基因子集用支持向量機(jī)(SVM)方法分類測(cè)試。對(duì)于腫瘤DNA微陣列數(shù)據(jù)矩陣,它的每一行代表一個(gè)樣本,每一列代表一個(gè)基因的表達(dá)數(shù)據(jù),受實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)成本等因素的限制,DNA微陣列數(shù)據(jù)普遍含有噪聲數(shù)據(jù)和冗余基因,而且具有高維、小樣本等特點(diǎn),如神經(jīng)膠質(zhì)瘤(Gliomas)[7]數(shù)據(jù)的DNA微陣列數(shù)據(jù)由50個(gè)樣本組成,每個(gè)樣本含有12 625個(gè)基因。

        一般地,鑒別能力較強(qiáng)的特征的類間離差與類內(nèi)離差的比值較大,本文采用Fisher比作為度量準(zhǔn)則。

        1.1Fisher準(zhǔn)則

        (1)

        (2)

        用式(1)計(jì)算基因矩陣每列的Fisher比,然后將基因矩陣的列按照Fisher比值從大到小重新排列,得到新的基因矩陣。

        相關(guān)矩陣是統(tǒng)計(jì)學(xué)中用來度量向量間相關(guān)性的一種方法,下面用相關(guān)矩陣度量特征間的冗余度。

        1.2相關(guān)矩陣

        設(shè)A=(x1,x2,…,xn)是一個(gè)m×n的矩陣,xi與xj的相關(guān)系數(shù)為ρij,則以ρij為元素的n階方陣稱為矩陣A的相關(guān)矩陣[9],即:

        (3)

        其中:

        (4)

        1.3結(jié)合樣本標(biāo)簽的相關(guān)性度量準(zhǔn)則

        本文方法主要用來處理腫瘤基因分類中的二分類問題,在剔除冗余特征這一步,假設(shè)特征間的相關(guān)系數(shù)越大,則冗余度越大。在度量特征間的冗余度時(shí)根據(jù)樣本的類別標(biāo)簽,將原樣本矩陣劃分為兩個(gè)矩陣,依次求出得到的兩個(gè)矩陣的相關(guān)矩陣,同時(shí)分析這些相關(guān)矩陣,當(dāng)且僅當(dāng)特征間的相關(guān)系數(shù)在這兩個(gè)相關(guān)矩陣中均大于0.8時(shí),才認(rèn)為這些特征是相關(guān)的。通過對(duì)相關(guān)矩陣分析剔除數(shù)據(jù)集的冗余特征,對(duì)剔除冗余后的新樣本矩陣,根據(jù)設(shè)計(jì)的評(píng)價(jià)函數(shù)選擇最優(yōu)特征,最終得到最優(yōu)特征子集?,F(xiàn)將具體算法描述如下:

        算法1最優(yōu)子集生成算法

        輸入:基因矩陣G,規(guī)模為m×n,由m個(gè)樣本組成,每個(gè)樣本含n個(gè)基因;樣本的標(biāo)簽L=[L1,L2,…,Lm],Li=±1(i=1,2,…,m)。

        輸出: 特征子集F。

        算法:

        第1步:特征重排

        1.1 根據(jù)公式(1)計(jì)算矩陣G的每一列的Fisher比值;

        1.2 將矩陣G的列按照Fisher比值從大到小的順序重新排列;

        第2步:樣本分割

        2.1 根據(jù)樣本標(biāo)簽L將矩陣G劃分為兩類,記為A和B,分別表示腫瘤樣本矩陣和正常樣本矩陣。

        第3步:剔除冗余

        3.1 根據(jù)公式(3)計(jì)算矩陣A,B的相關(guān)矩陣,記為R1,R2;

        3.2 將R1,R2的下三角陣及對(duì)角線元素設(shè)為0,對(duì)其他元素取絕對(duì)值;

        3.3 從矩陣R1,R2的第1行開始,依次找出該行中元素的值同時(shí)超過0.8的元素,并將R1,R2中與這些元素在同一列的所有元素更新為0;

        3.4 將矩陣R1的對(duì)角線元素改為1,找出矩陣R1中列和為0的所有列的索引,在矩陣G中將這些列刪除;

        第4步:特征選擇

        4.1 將G的第1列加入F,用SVM分類器對(duì)F中的m個(gè)樣本留一法交叉驗(yàn)證實(shí)驗(yàn)m次取平均精度記為acc;

        4.2 循環(huán)將G的下一列加入F,同樣用4.1的方法得到精度acc′,若acc′>acc,令acc=acc′,否則從F中刪除新加入的這一列,循環(huán)直到acc=1或遍歷至G的最后一列;

        第5步:最優(yōu)子集

        5.1 輸出最優(yōu)特征子集F。

        2實(shí)驗(yàn)結(jié)果與分析

        在這一節(jié),我們將用原特征分類方法,啟發(fā)法(Wrapper方法)[2]和本文方法分別對(duì)四個(gè)公開發(fā)表的腫瘤DNA微陣列數(shù)據(jù)集做測(cè)試,實(shí)驗(yàn)工具為matlab 2012a,分類器選用matlab自帶的SVM分類器,分類器的核函數(shù)選擇線性核。

        這四個(gè)數(shù)據(jù)集分別是急性白血病(Leukemia)數(shù)據(jù)集[10],神經(jīng)膠質(zhì)瘤數(shù)據(jù)集[7],彌漫性大B細(xì)胞淋巴瘤(DLBCL)數(shù)據(jù)集[11]和結(jié)腸癌(Colon)數(shù)據(jù)集[12]。這幾個(gè)數(shù)據(jù)集均具有高維和小樣本的特征,樣本均僅含兩類,具體介紹如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        表2給出了用這三種方法對(duì)這四個(gè)數(shù)據(jù)集進(jìn)行留一法交叉驗(yàn)證(LOO-CV)的實(shí)驗(yàn)表現(xiàn)。

        表2 不同數(shù)據(jù)留一交叉驗(yàn)證(LOO-CV)結(jié)果(%)

        將樣本按根據(jù)表3的方法劃分為訓(xùn)練集和測(cè)試集,在所有樣本中選擇1/3做測(cè)試集,余下2/3做訓(xùn)練集,保證訓(xùn)練集和測(cè)試集中兩類樣本數(shù)量的比例大致相同。

        表3 樣本訓(xùn)練集和測(cè)試集劃分方法

        將表1中的四個(gè)數(shù)據(jù)集的樣本按照表3的方法劃分訓(xùn)練集和測(cè)試集,然后分別用這三種方法測(cè)試,實(shí)驗(yàn)得到的準(zhǔn)確率(Accuracy)和F指標(biāo)(F1-Score)[13]見表4所示。

        表4 樣本按表3劃分訓(xùn)練集和測(cè)試集的實(shí)驗(yàn)結(jié)果(%)

        從表2可以看出,用三種方法分別對(duì)這四個(gè)數(shù)據(jù)集進(jìn)行留一法交叉驗(yàn)證,本文方法的表現(xiàn)優(yōu)于Wrapper方法和原始特征分類方法,并且該實(shí)驗(yàn)結(jié)果不存在隨機(jī)性,證明了本文方法實(shí)驗(yàn)表現(xiàn)效果較好。

        從表4可以看出,對(duì)于數(shù)據(jù)集Leukemia,DLBCL和Colon,本文方法的分類準(zhǔn)確率和F指標(biāo)較高,對(duì)于數(shù)據(jù)集Gliomas,本文方法的分類準(zhǔn)確率和F指標(biāo)略低于Wrapper方法。因此,綜合考慮表2和表4的實(shí)驗(yàn)結(jié)果可以看出,本文方法在不同的數(shù)據(jù)集上表現(xiàn)都同樣穩(wěn)定,而且分類的準(zhǔn)確率也比較高,從而證明該方法的有效性。

        3結(jié)語

        DNA微陣列數(shù)據(jù)為腫瘤疾病的診斷開辟了新的思路,受實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)成本等因素的限制,DNA微陣列數(shù)據(jù)普遍含有噪聲數(shù)據(jù)和冗余基因,而且具有高維、小樣本等特點(diǎn),這些特點(diǎn)使得傳統(tǒng)的機(jī)器學(xué)習(xí)算法無法在微陣列數(shù)據(jù)上發(fā)揮高效的作用。本文提出了一種混合型的特征選擇的方法,并將該方法應(yīng)用于高維腫瘤DNA微陣列數(shù)據(jù)的分類,對(duì)于高維的腫瘤基因數(shù)據(jù),基因之間必然存在冗余性和不相關(guān)性,剔除冗余基因能大大降低矩陣的維數(shù)。本文方法在剔除冗余基因的時(shí)候獨(dú)創(chuàng)性地考慮了樣本的標(biāo)簽,綜合分析多類相關(guān)矩陣以剔除冗余特征,最終通過評(píng)價(jià)函數(shù)篩選得到最優(yōu)特征子集。通過實(shí)驗(yàn)結(jié)果可以看出,本文提出的方法是有價(jià)值的。

        參考文獻(xiàn)

        [1] 李波.基于流形學(xué)習(xí)的特征提取方法及其應(yīng)用研究[D].安徽:中國科學(xué)技術(shù)大學(xué),2008.

        [2] 王娟,慈林林,姚康澤.特征選擇方法綜述[J].計(jì)算機(jī)工程與科學(xué),2005,27(12):68-71.

        [3] 張琳,陳燕,李桃迎.決策樹分類算法研究[J].計(jì)算機(jī)工程,2011,37(13):66-70.

        [4] 張翔,鄧趙紅,王士同.極大熵Relief特征加權(quán)[J].計(jì)算機(jī)研究與發(fā)展,2011,48(6):1038-1048.

        [5] Zhang F P,Qiu Z G,Feng X T.Non-complete Relief Method for Measuring Surface Stresses in Surrounding Rocks[J].J.Cent.South Univ,2014,21(9):3665-3673.

        [6] 范文兵,王全全,雷天友.基于Q-relief的圖像特征選擇算法[J].計(jì)算機(jī)應(yīng)用,2011,31(3):724-728.

        [7] Nutt C L,Mani D R,Betensky R A.Gene Expression-Based Classification of Malignant Gliomas Correlates Better with Survival than Histological Classification[J].Cancer Res,2003,63(7):1602-1607.

        [8] 鮮曉東,樊宇星.基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J].計(jì)算機(jī)應(yīng)用,2014,34(2):558-561.

        [9] 章舜仲,王樹梅.相關(guān)系數(shù)矩陣與多元線性相關(guān)分析[J].大學(xué)數(shù)學(xué),2011,27(2):195-198.

        [10] Golub T R,Slonim D K,Tamayo P.Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring[J].Science,1999,286(15):531-537.

        [11] Alizadeh A A,Eisen M B,Davis R E.Distinct types of diffuse large B-cell lymphoma identified by gene expression pmrdillg[J].Nature,2000,403(6769):503-511.

        [12] Alon U,Barkai N,Notterman D A.Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays[J].Proc Natl Acad Sci USA,1999,96(12):6745-6750.

        [13] 劉誠.蛋白質(zhì)相互作用界面中熱點(diǎn)殘基預(yù)測(cè)方法的研究[D].湖北:武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2012.

        收稿日期:2014-11-25。國家自然科學(xué)基金項(xiàng)目(61273303,6127 3225,61373109);中國博士后科學(xué)基金項(xiàng)目(20100470613,201104173);湖北省自然科學(xué)基金項(xiàng)目(2010CDB03302);湖北省教育廳科研基金項(xiàng)目(Q20121115);模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室開放課題(201104212)。胡洋,碩士生,主研領(lǐng)域:生物信息學(xué),機(jī)器學(xué)習(xí)。李波,副教授。

        中圖分類號(hào)TP181

        文獻(xiàn)標(biāo)識(shí)碼A

        DOI:10.3969/j.issn.1000-386x.2016.07.018

        A FEATURE SELECTION METHOD FOR TUMOUR GENE BASED ON FISHER CRITERION AND MULTICLASS CORRELATION MATRIX ANALYSIS

        Hu YangLi Bo

        (SchoolofComputerScienceandTechnology,WuhanUniversityofScienceandTechnology,Wuhan430065,Hubei,China) (HubeiKeyLaboratoryofIntelligentInformationProcessingandReal-timeIndustrialSystem,Wuhan430065,Hubei,China)

        AbstractThe selection of tumour feature gene is one of the hot research topics in classification of gene expression data. In this paper, we propose a hybrid feature selection method aiming at that traditional tumour feature gene selection method cannot well remove the redundant genes. In the method, first we divide the samples with same labels into same matrix, and in all the matrixes, if and only if the correlation coefficients between the features are all greater than the specific threshold, then these features are regarded as the relevant features and will be clustered afterwards. Secondly, we select the features with maximum Fisher ratio from every cluster and sift these features according to evaluation function to obtain the optimal feature subsets. Finally, we use SVM classifier to do class prediction on these optimal feature subsets. The results of tests on four standard tumour DNA microarray datasets prove the stability and efficiency of the proposed method.

        KeywordsFeature selectionFisher criterionMulticlass correlation matrix analysisSVM

        猜你喜歡
        特征實(shí)驗(yàn)方法
        記一次有趣的實(shí)驗(yàn)
        如何表達(dá)“特征”
        做個(gè)怪怪長實(shí)驗(yàn)
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        男女啦啦啦视频在线观看| 最新中文字幕亚洲一区| 亚洲免费福利视频网站| 国产一区二区三区仙踪林 | 人与人性恔配视频免费| 亚洲一区二区三区无码国产| 国产网站视频| 国内精品极品久久免费看| 中文字幕亚洲永久精品| 国产极品美女高潮无套| 久久久久亚洲av片无码| 亚洲人成绝费网站色www| 人妻无码中文专区久久五月婷| 日韩永久免费无码AV电影| av福利资源在线观看| 日韩人妻精品中文字幕专区| 国产又大又黑又粗免费视频| 国产69精品久久久久9999| 日本a在线免费观看| 99久久久69精品一区二区三区| 白白色发布会在线观看免费| 亚洲成a∨人片在线观看不卡| 野狼第一精品社区| 久久精品人成免费| 久久这里只有精品9| 色偷偷亚洲女人的天堂| 精品人妻av一区二区三区| 国产精品久久久久久亚洲av | 国产精品无码av一区二区三区| 精品国产a∨无码一区二区三区 | 日本高清乱码中文字幕| 国产一极内射視颍一| 亚洲日韩精品A∨片无码加勒比| 亚洲美女国产精品久久久久久久久| 国产精品一二三区亚洲| 国产国产裸模裸模私拍视频| 国产精品第一二三区久久蜜芽| 久草久热这里只有精品| 色婷婷av一区二区三区久久| 少妇放荡的呻吟干柴烈火动漫| 啪啪免费网站|