亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        癌癥基因表達(dá)數(shù)據(jù)的集成分類器設(shè)計(jì)與分析

        2016-05-30 14:41:04宋年豐
        無(wú)線互聯(lián)科技 2016年7期

        宋年豐

        摘 要:基因表達(dá)水平對(duì)癌癥診斷起到重要的作用。文章提出了一種基于SVM(Support Vector Machine)的集成分類算法,從基因表達(dá)水平的微陣列數(shù)據(jù)中對(duì)癌癥和正常群體進(jìn)行分類。文章提出了一種結(jié)合Adaboost算法和遞歸特征消除(Recursive Feature Elimination,RFE)算法,選取最顯著的特征并設(shè)計(jì)與之適合的分類器。該方法已應(yīng)用于癌癥病人的基因表達(dá)微陣列數(shù)據(jù)的分類中,其分類結(jié)果在成功率方面有極大的提升。

        關(guān)鍵詞:SVM;集成方法;ROC;微陣列;基因表達(dá)

        基因的表達(dá)模式對(duì)于疾病的診斷具有特征性。到目前為止,在機(jī)器學(xué)習(xí)領(lǐng)域,有眾多分類或預(yù)測(cè)方法已經(jīng)被提出來(lái),其中許多已被應(yīng)用到基于基因表達(dá)水平的微陣列數(shù)據(jù)的癌癥分類。但是,由于高維微陣列數(shù)據(jù)容易帶來(lái)過(guò)擬合、性能差和效率低等缺陷,因此,將傳統(tǒng)的學(xué)習(xí)算法應(yīng)用到這類數(shù)據(jù)中將會(huì)遇到極大的挑戰(zhàn)。為了降低這種所謂的“高維小樣本”的問(wèn)題所帶來(lái)的不足,近年來(lái),一些改進(jìn)和綜合比較的算法已經(jīng)被提出來(lái)。這些算法都已表現(xiàn)出有效性和成為可行的解決方案。盡管很多研究人員對(duì)癌癥分類已經(jīng)做了很多研究,但是鮮有研究者關(guān)注基于支持向量機(jī)的綜合集成方法來(lái)處理這類問(wèn)題和特征如何影響分類器的性能。

        本文試圖引入綜合遞歸特征消除(RFE)算法連同基于SVM的Adaboost算法作為學(xué)習(xí)算法來(lái)極為顯著地改善樣本分類的準(zhǔn)確性和魯棒性。結(jié)合分類器的特征選擇可以利用樣本的更多信息同時(shí)移除分類中的特征噪聲。通過(guò)使用集成支持向量機(jī),本文能夠更有效地結(jié)合這些特征并改善結(jié)果的穩(wěn)定性和魯棒性。

        1 方法與數(shù)據(jù)

        1.1 實(shí)驗(yàn)流程

        基于基因表達(dá)微陣列數(shù)據(jù)的預(yù)處理和標(biāo)準(zhǔn)化。用RFE算法選擇特征,基于選擇的特征、訓(xùn)練和建立一個(gè)基于SVM的集成分類器作為學(xué)習(xí)算法。最后,通過(guò)競(jìng)爭(zhēng)性的集成算法,魯棒性大大改善。這里,本文用多數(shù)表決來(lái)結(jié)合Adaboost算法中的結(jié)果。所有處理框架的完成都通過(guò)MATLAB來(lái)實(shí)現(xiàn)。

        1.2 數(shù)據(jù)描述

        在本研究中,采用了2個(gè)來(lái)自不同群組的基因表達(dá)微陣列數(shù)據(jù)集。這2個(gè)數(shù)據(jù)集有不同的特性(其中一個(gè)數(shù)據(jù)集可以線性地分開(kāi),而另一個(gè)則不行)。第一個(gè)數(shù)據(jù)集來(lái)自患白血病的癌癥病人(急性髓細(xì)胞性白血病-AML和急性淋巴細(xì)胞白血病-ALL)。這個(gè)數(shù)據(jù)集有兩個(gè)子集,訓(xùn)練集包含38個(gè)骨髓樣本,測(cè)試集包含34個(gè)樣本(其中20個(gè)All樣本,14個(gè)AML樣本)。所有樣本共7129個(gè)特征,對(duì)應(yīng)一些從微陣列圖像中提取出來(lái)被標(biāo)準(zhǔn)化的基因表達(dá)水平值。

        第二個(gè)數(shù)據(jù)將來(lái)自正常的和癌變的乳腺組織。這個(gè)數(shù)據(jù)集包含295個(gè)樣本,8141個(gè)特征。病人有217個(gè)樣本,正常人只有78個(gè)樣本,為了數(shù)據(jù)的均勻化,本文從第一類中抽取了61個(gè)樣本,從第二類中抽取65個(gè)樣本作為訓(xùn)練集。在第一類中抽取27個(gè)樣本在第二類中抽取26個(gè)樣本作為測(cè)試集。

        2 結(jié)果與討論

        2.1 分類器的分類性能

        將SVM和基于SVM的集成算法應(yīng)用于乳腺癌數(shù)據(jù)中。盡管核函數(shù)為線性的SVM比核函數(shù)為RBF的效果更好,達(dá)96.23%,但前者需要更多的特征和時(shí)間來(lái)運(yùn)行程序。SVM-RBF的成功率只有90.566%,但集成方法的成功率是94.3396%,且只需要更少的特征數(shù)量,所以可以得出結(jié)論基于SVM的集成算法可以改進(jìn)分類器的性能。當(dāng)基因數(shù)量為34時(shí),訓(xùn)練集和測(cè)試集的成功率最高,這些基因被稱為與分類最相關(guān)的標(biāo)記基因(見(jiàn)圖1)。

        2.2 不同參數(shù)對(duì)分類器性能的影響

        2.2.1 核函數(shù)選擇的重要性

        首先,本文應(yīng)用SVM算法(核函數(shù)為RBF)的白血病數(shù)據(jù)集,但分類結(jié)果很差,成功率只有58.8235%。如果本文設(shè)置內(nèi)核函數(shù)為線性核函數(shù)類型時(shí),分類成功率得到了極大的提高,達(dá)到82.3529%。同樣的情況也發(fā)生在乳腺癌的數(shù)據(jù)中。當(dāng)應(yīng)用SVM算法的基因表達(dá)數(shù)據(jù)集進(jìn)行分類,核函數(shù)的選擇對(duì)分類結(jié)果有著重要的影響(見(jiàn)表1)。

        2.2.2 特征選擇的重要性

        本文將SVM或者基于SVM的集成算法應(yīng)用到白血病數(shù)據(jù)集,結(jié)果如表2所示。在選擇特征之前,測(cè)試集的成功率很低。當(dāng)使用了重要的特征,無(wú)論核函數(shù)是否合適,成功率都改善了很多,因此特征選擇是實(shí)驗(yàn)的關(guān)鍵因素。由于數(shù)據(jù)特征維數(shù)比數(shù)據(jù)集的樣本維數(shù)更多,會(huì)導(dǎo)致過(guò)擬合。這些特征中可能包含了噪聲,也會(huì)對(duì)分類有影響。實(shí)驗(yàn)中,本文發(fā)現(xiàn)集成方法對(duì)于白血病數(shù)據(jù)沒(méi)那么有效。原因是當(dāng)只使用了SVM時(shí),已經(jīng)獲得了91.1764%的結(jié)果。如果SVM已表現(xiàn)出很好的性能,那么集成方法將失去它的優(yōu)勢(shì)。

        3 結(jié)語(yǔ)

        本文應(yīng)用特征選擇改善Adaboost算法,通過(guò)RFE方法選取基因,得出結(jié)論:(1)集成方法在某種程度上改善了SVM分類器的性能。(2)如何選擇和提取特征子集對(duì)基因分類有至關(guān)重要的影響。(3)如果支持向量基的效果在某些數(shù)據(jù)集上更好,那集成將變得沒(méi)有作用。本文將在今后繼續(xù)探究導(dǎo)致基于支持向量基的集成算法變得無(wú)效的因素。

        [參考文獻(xiàn)]

        [1]Boulesteix AL,Strobl C,Augustin T,et al. Evaluating microarray-based classifiers:an overview[J].Cancer Informatics,2008(6):77-97.

        [2]Liu H,Sun J,Liu L,et al. Feature selection with dynamic mutual information[J].Pattern Recognition,2009(42):1330-1339.

        [3]Freund Y,Schapire RE.A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of computer and system sciences,1997(55):119-139.

        [4]Golub TR,Slonim DK,Tamayo P,et al.Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J].Science,1999(286):531-537.

        Design and Analysis of Ensemble Classifier for Gene Expression Data of Cancer

        Song Nianfeng

        (Automation Department, Xiamen University, Xiamen 361005, China)

        Abstract: Gene expression levels are important for disease, such as, Cancer diagnosis. This paper proposed a SVM-based ensemble classifier to classify the control and cancer groups based on gene expression levels from microarray data. A combinational Recursive Feature Elimination in conjunction with the Adaboost algorithm was developed to select significant features and design the proper classifier. The method is applied to microarray data of cancer patients, and the results show improvements on the success rate.

        Key words: SVM; ensemble methods; ROC; microarray; gene expression

        亚洲视频在线中文字幕乱码| 亚洲国产精品久久久久秋霞影院| 欧美日韩中文制服有码| 精品国产成人一区二区不卡在线 | 视频在线观看国产自拍| 国语对白做受xxxxx在| 大地资源网更新免费播放视频| aⅴ色综合久久天堂av色综合 | 中国娇小与黑人巨大交| 久久水蜜桃亚洲av无码精品麻豆| 亚洲日韩AV秘 无码一区二区| 亚洲精品一区二区三区日韩| 无码国产精成人午夜视频一区二区| 亚洲av蜜桃永久无码精品| 99精品热6080yy久久| 一区二区三区免费自拍偷拍视频| 18禁免费无码无遮挡不卡网站| 亚洲18色成人网站www| 亚洲中文久久久久无码| 你懂的视频网站亚洲视频 | 99久久国内精品成人免费| 国产91九色免费视频| 无码av中文一区二区三区桃花岛 | 国产精品福利小视频| 有码视频一区二区三区| 日韩人妻ol丝袜av一二区| 欧美黑人又粗又大久久久| 国产人妖在线免费观看| 日本国产亚洲一区二区| 风间由美性色一区二区三区| 久久精品国产72国产精福利| 国产人妖在线视频网站| 久久久精品一区aaa片| 国产尻逼视频| 亚洲发给我的在线视频| 胸大美女又黄的网站| 久久精品岛国av一区二区无码| 国内自拍视频在线观看| 香蕉久久一区二区不卡无毒影院| 国产又黄又大又粗的视频| 中文字幕人妻系列一区尤物视频|