亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PCA與KPCA的基因數(shù)據(jù)的特征簡(jiǎn)約

        2013-09-21 07:23:50邢笑雪
        關(guān)鍵詞:特征向量貢獻(xiàn)率準(zhǔn)確率

        邢笑雪,姜 利

        (長(zhǎng)春大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022)

        基于PCA與KPCA的基因數(shù)據(jù)的特征簡(jiǎn)約

        邢笑雪,姜 利

        (長(zhǎng)春大學(xué) 電子信息工程學(xué)院,長(zhǎng)春 130022)

        采用支持向量機(jī)方法(SVM)對(duì)上千維的基因表達(dá)數(shù)據(jù)分析時(shí),算法的運(yùn)行時(shí)間比較長(zhǎng)。為了解決這種情況,本文采用了基于主成分分析的支持向量機(jī)(PCA-SVM)和基于核主成分分析的支持向量機(jī) (KPCA-SVM)兩種算法對(duì)數(shù)據(jù)進(jìn)行降維和分類(lèi),既可以整合基因數(shù)據(jù)的特征信息又可以縮短計(jì)算時(shí)間。本文比較了累計(jì)貢獻(xiàn)率不同時(shí)兩種算法的分類(lèi)準(zhǔn)確率,實(shí)驗(yàn)結(jié)果表明,PCA-SVM分類(lèi)準(zhǔn)確率與累計(jì)貢獻(xiàn)率二者之間沒(méi)有明確規(guī)律,KPCA-SVM分類(lèi)準(zhǔn)確率隨累計(jì)貢獻(xiàn)率的降低存在降低或者保持不變的趨勢(shì)。

        特征簡(jiǎn)約;PCA-SVM;KPCA-SVM;累計(jì)貢獻(xiàn)率

        DNA微陣列技術(shù)的快速發(fā)展和后基因組時(shí)代的到來(lái)產(chǎn)生了海量復(fù)雜的基因表達(dá)數(shù)據(jù)集[1-2]。如何快速分析和處理海量數(shù)據(jù),并從中挖掘到有價(jià)值的生物學(xué)信息已成為當(dāng)下亟需解決的問(wèn)題[3]。基因表達(dá)數(shù)據(jù)的樣本數(shù)較少,但是特征量卻有成千上萬(wàn)甚至更多,而且特征量之間存在相互關(guān)系,所以在對(duì)基因數(shù)據(jù)進(jìn)行處理分析時(shí)必須進(jìn)行數(shù)據(jù)的降維。數(shù)據(jù)降維即為所謂的特征簡(jiǎn)約,也叫特征選擇。通過(guò)數(shù)據(jù)降維可以減小數(shù)據(jù)之間的冗余,提取有用的特征信息,降低數(shù)據(jù)處理的難度,得到更好的分類(lèi)準(zhǔn)確率。

        1 特征簡(jiǎn)約

        1.1 主成分分析

        設(shè)原始樣本的集合為{xi|xi=(xi1,xi2,…,xip)T,i=1,2,…,n},n 是樣本個(gè)數(shù),p 是樣本特征個(gè)數(shù)。主成分分析[4]PCA(Principal Component Analysis)的原理是對(duì)原始的 p 個(gè)特征(x1j,x2j,…,xnj)T,j=1,2,…,p 去構(gòu)造 p 個(gè)互相獨(dú)立的新特征(y1j,y2j,…,ynj)T,j=1,2,…,p。

        算法步驟如下:

        (2)計(jì)算協(xié)方差矩陣S的特征值λ1≥λ2≥…≥λp和特征向量u1,u2,…,up。將特征值和特征向量從大到小排列,則新的 p個(gè)特征向量為y1,y2,…,yp。新特征向量y1,y2,…,yp稱(chēng)為樣本的第1,2,…p個(gè)主成分。

        1.2 核主成分分析

        核主成分分析[4-5]KPCA(Kernel Principal Component Analysis)是首先將輸入的樣本數(shù)據(jù)通過(guò)非線(xiàn)性變換φ映射至一個(gè)高維的特征空間F,然后對(duì)高維空間中的數(shù)據(jù)進(jìn)行主成分分析。

        算法步驟如下:

        (1)計(jì)算矩陣 κ(i,j)=K(xi,xj),i,j=1,2,…,n。

        (2)計(jì)算矩陣 κ 的特征值 λ1,λ2,…,λm,和特征向量α1,α2,…,αm,將特征值和特征向量從大到小排列λ1≥λ2≥…≥λm,α1,α2,…,αm。

        (3)對(duì)m個(gè)特征向量歸一化,使得‖αi‖2=1/λi。

        (4)計(jì)算樣本x在特征向量上的m個(gè)投影y(k)。

        2 支持向量機(jī)分類(lèi)算法

        支持向量機(jī)[6]SVM(Support Vector Machine)是對(duì)給定的樣本集 Z={(xi,yi)|xi∈RN,yi∈{+1,-1},i=1,2,…,m}尋找能夠?qū)i中樣本正確分類(lèi),并且能夠使分類(lèi)間隔最大的超平面。其中,xi是n維實(shí)空間中的向量,yi是xi所屬類(lèi)的標(biāo)識(shí)。求解最優(yōu)超平面即為求解公式(3)的二次優(yōu)化問(wèn)題:

        其中,wTx+w0=0為要求解的超平面,w是超平面的法線(xiàn)方向,w0是超平面的偏移量,C是錯(cuò)誤懲罰因子,ξi為松弛變量。為了能夠準(zhǔn)確分類(lèi),采用映射Φ:X→H將X從輸入空間X映射至一個(gè)高維的特征空間H。為簡(jiǎn)化計(jì)算,選擇一個(gè)核函數(shù)κ(xi,xj)=[φ(xi)φ(xj)]用于特征空間中點(diǎn)積的運(yùn)算。上述問(wèn)題的拉格朗日對(duì)偶形式為:

        判別函數(shù)為:

        3 實(shí)驗(yàn)仿真

        本文選用PCA-SVM和KPCA-SVM兩種算法對(duì)Armstrong-2002-v1數(shù)據(jù)集[7]進(jìn)行分析。Armstrong-2002-v1數(shù)據(jù)集包括72個(gè)樣本12582種基因。其中包括急性淋巴細(xì)胞(ALL)樣本24個(gè),急性髓細(xì)胞白血病(AML)樣本48個(gè)。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理(去噪、缺失值丟棄)后剩余1081條基因。該數(shù)據(jù)集在前20個(gè)特征下基因表達(dá)可視化圖譜如圖1所示。

        本文選用基于RBF徑向基核函數(shù)的支持向量機(jī),對(duì)于懲罰因子和核參數(shù)的選擇,采用的方法是基于交叉驗(yàn)證的網(wǎng)格最優(yōu)搜索方法[8]。訓(xùn)練樣本集與測(cè)試樣本集的選擇如表1所示,圖2是Armstrong-2002-v1數(shù)據(jù)集的PCA和KPCA的累計(jì)方差貢獻(xiàn)圖。表2是基于網(wǎng)格搜索的Armstrong-2002-v1數(shù)據(jù)集的CSVM參數(shù)設(shè)置、運(yùn)行時(shí)間和準(zhǔn)確率。

        圖1 Armstrong-2002-v1數(shù)據(jù)集20維基因表達(dá)可視化圖譜

        表1 訓(xùn)練樣本集和測(cè)試樣本集的選擇

        圖2 Armstrong-2002-v1數(shù)據(jù)集的PCA與KPCA的累計(jì)方差貢獻(xiàn)率

        表2 基于網(wǎng)格搜索的C-SVM參數(shù)設(shè)置

        從表2可以看出:

        (1)基于主成分分析的算法中分類(lèi)準(zhǔn)確率與累計(jì)方差貢獻(xiàn)率二者之間并沒(méi)有直接關(guān)系?;诤酥鞒煞址治龅乃惴ㄖ胁煌睦塾?jì)方差貢獻(xiàn)率卻可以取得相同的分類(lèi)準(zhǔn)確率。

        (2)累計(jì)方差貢獻(xiàn)率相同時(shí),由于核主成分分析采用的非線(xiàn)性變換,所以在對(duì)數(shù)據(jù)進(jìn)行特征簡(jiǎn)約時(shí)可以取得更低的維數(shù)和更短的搜索時(shí)間。

        4 結(jié)語(yǔ)

        本文采用了基于網(wǎng)格搜索的PCA-SVM和KPCA-SVM兩種算法對(duì)Armstrong-2002-v1數(shù)據(jù)集進(jìn)行了分析,實(shí)驗(yàn)結(jié)果表明,兩種算法均可以實(shí)現(xiàn)數(shù)據(jù)的特征簡(jiǎn)約,在計(jì)算時(shí)間方面均可以得到較好的效果。在分類(lèi)準(zhǔn)確率方面,當(dāng)累計(jì)貢獻(xiàn)率變化時(shí)PCA-SVM算法的分類(lèi)準(zhǔn)確率沒(méi)有明顯且明確的規(guī)律,但KPCA-SVM算法分類(lèi)準(zhǔn)確率隨累計(jì)貢獻(xiàn)率的降低存在降低或者保持不變的趨勢(shì)。

        [1]王勇.聚類(lèi)方法在生物數(shù)據(jù)中的研究與應(yīng)用-基因表達(dá)數(shù)據(jù)聚類(lèi)方法研究[D].江蘇:江南大學(xué),2008.

        [2]Domany E.Cluster analysis of gene expression data[J].Journal of Statistical Physics,2003,110(3/4/5/6):1117-1139.

        [3]Cios K J,Mamitsuka H,Nagashima T,et al.Computational intelligence in solving bioinformatics problems[J].Artificial Intelligence in Medicine,2005,35(1/2):1-8.

        [4]張玉.支持向量機(jī)在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[D].長(zhǎng)春:吉林大學(xué),2012.

        [5]吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究[J].計(jì)算機(jī)工程及應(yīng)用,2009,26(8):2832-2835.

        [6]丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-8.

        [7]趙慧,劉希玉,崔海青.網(wǎng)格聚類(lèi)算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(9):83-86.

        Characteristics Simplicity of Gene Batum Based on PCA and KPCA

        XING Xiao-xue,JIANG Li
        (College of Electronic Information Engineering,Changchun University,Changchun 130022,China)

        When the support vector machine(SVM)method is applied in the analysis of gene expression datum with thousands of dimensions,the running time of the algorithm is much longer.In order to solve the problem,this paper uses PCA-based SVM algorithm and KPCA-based SVM algorithm to make dimension reduction and classification on the datum,which can not only integrate the characteristic information of gene datum,but also shorten the calculation time.It compares the classification accuracy rate of the two algorithms as the accumulative contribution rate is different,the experimental results show that there is not a fixed law between PCA-SVM classification accuracy rate and accumulative contribution rate,but KPCA-SVM classification accuracy rate will decline or keep unchangeable when cumulative contribution rate declines.

        characteristics simplicity;PCA-SVM;KPCA-SVM;cumulative contribution rate

        TP391.4

        A

        1009-3907(2013)12-1525-03

        2013-09-26

        邢笑雪(1981-),女,山西霍州人,講師,博士研究生,主要從事數(shù)字圖像處理方面研究。

        book=23,ebook=315

        責(zé)任編輯:

        吳旭云

        猜你喜歡
        特征向量貢獻(xiàn)率準(zhǔn)確率
        二年制職教本科線(xiàn)性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        一種通用的裝備體系貢獻(xiàn)率評(píng)估框架
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        一類(lèi)特殊矩陣特征向量的求法
        關(guān)于裝備體系貢獻(xiàn)率研究的幾點(diǎn)思考
        EXCEL表格計(jì)算判斷矩陣近似特征向量在A(yíng)HP法檢驗(yàn)上的應(yīng)用
        精品一区二区三区中文字幕在线| 被黑人猛躁10次高潮视频| 亚洲精品网站在线观看你懂的| 国内精品一区视频在线播放| 人妻av一区二区三区高| 国产人妖伦理视频在线观看 | 国产色秀视频在线播放| 欧洲亚洲视频免费| 国产一区二区三区不卡在线播放| 蜜桃视频在线免费观看| 男人靠女人免费视频网站| 亚洲天堂资源网| 中文字幕一区二区三区在线看一区| 亚洲悠悠色综合中文字幕| 肥臀熟女一区二区三区| 国产香蕉尹人综合在线观| 国产一级黄片久久免费看| 国产亚洲成性色av人片在线观| 国产精品爽黄69天堂a| 国产小屁孩cao大人| 91麻豆精品久久久影院| 国产成人精品优优av| www国产亚洲精品久久网站| 久久亚洲国产成人精品v| 美女视频黄a视频全免费网站色| 中文字幕日韩三级片| 久久久国产精品麻豆| 日本一区二区高清视频在线播放| 国偷自拍av一区二区三区| 免费观看激色视频网站| 中文字幕一区二区三区在线不卡| 亚洲天堂男人的av天堂| 久久亚洲av午夜福利精品一区| 青青草国产成人99久久| 国产亚洲精品成人av在线| 亚洲一区二区在线观看网址| 国产成年无码v片在线| 九九在线精品视频xxx| 在线国人免费视频播放| 国产精品欧美一区二区三区| 精品久久久久久无码不卡|