亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PCA與核PCA的微陣列數(shù)據(jù)分析

        2019-06-20 04:01:04黃紫成林增坦
        關(guān)鍵詞:降維識(shí)別率特征提取

        黃紫成,林增坦

        (仰恩大學(xué)工程技術(shù)學(xué)院,福建泉州 362014)

        微陣列技術(shù)是近年來(lái)生物信息領(lǐng)域出現(xiàn)的新興技術(shù),已被廣泛應(yīng)用于藥物研究、疾病診斷、基因測(cè)試等多個(gè)領(lǐng)域[1]。微陣列技術(shù)所呈現(xiàn)的數(shù)據(jù)以矩陣形式表示,也稱為基因表達(dá)數(shù)據(jù),當(dāng)前對(duì)微陣列的數(shù)據(jù)分析主要有差異表達(dá)分析、聚類分析、樣本分類、調(diào)控網(wǎng)絡(luò)、薈萃分析等。本文根據(jù)研究需要,重點(diǎn)進(jìn)行樣本分類分析,該分析是為了建立有效的疾病診斷,使用機(jī)器學(xué)習(xí)算法對(duì)微陣列數(shù)據(jù)進(jìn)行學(xué)習(xí),得出預(yù)測(cè)模型,進(jìn)而再對(duì)未知分類的表達(dá)數(shù)據(jù)進(jìn)行分類判別,為疾病的診斷及治療提供可靠的分類效果。由于微陣列數(shù)據(jù)存在著維數(shù)多而樣本少的問(wèn)題,如何有效地對(duì)基因數(shù)據(jù)進(jìn)行分析,選出具有特殊貢獻(xiàn)的特征基因,提高分類效率,是當(dāng)前基因數(shù)據(jù)樣本分類分析的研究熱點(diǎn)之一[2]。

        目前,有越來(lái)越多的特征選擇算法應(yīng)用于微陣列數(shù)據(jù)的降維分析,并能得到好的分類效果,典型的算法有主成分分析(PCA)[3]、非負(fù)矩陣分解、獨(dú)立分量分析等,常用的分類算法有支持向量機(jī)(SVM)、貝葉斯分類等,把微陣列數(shù)據(jù)降維之后再采用支持向量機(jī)等分類器計(jì)算識(shí)別率,能得到較高準(zhǔn)確率。本文使用PCA與核PCA對(duì)微陣列數(shù)據(jù)進(jìn)行降維處理,再計(jì)算經(jīng)過(guò)這兩種算法處理過(guò)的識(shí)別率,對(duì)比分析運(yùn)用兩種算法處理微陣列數(shù)據(jù)效果的優(yōu)劣。

        1 算法理論介紹

        1.1 主成分分析(PCA)

        主成分分析是一種統(tǒng)計(jì)學(xué)方法,也是數(shù)據(jù)挖掘中常用的一種降維算法,它能在損失很少信息的前提下,把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo),通常把轉(zhuǎn)化生成的綜合指標(biāo)稱之為主成分。

        算法有如下幾個(gè)步驟[4]:

        (3)求系數(shù)矩陣R的特征根與特征向量λ1≥λ2≥…≥λp>0,相應(yīng)正交特征向量為ai=[a1i,a2i,…,api]T,i=1,2,…,p.

        (5)確定主成分個(gè)數(shù),目標(biāo)是用較少的主成分提取更多的原始信息,取決于k和α(k)之間的權(quán)衡。一方面,應(yīng)該使k盡可能??;另一方面,使累積貢獻(xiàn)率α(k)盡可能大。在實(shí)際使用中,通常取αk≥85%[4]。

        1.2 核主成分分析(KPCA)

        核主成分分析是目前比較流行的一種新的特征提取方法,它是對(duì)PCA的非線性推廣,核函數(shù)的形式為k(xi,xj)=<φ(xi),φ(xj)>,其中,k函數(shù)為核函數(shù),<,>為內(nèi)積。算法簡(jiǎn)要步驟如下[5]。

        (1)計(jì)算矩陣k(xi,xj);

        (2)計(jì)算矩陣k(xi,xj)的m個(gè)特征值和特征向量;

        (3)對(duì)m個(gè)特征向量進(jìn)行歸一化處理;

        1.3 支持向量機(jī)(SVM)

        支持向量機(jī)(SVM)是以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出來(lái)的。支持向量機(jī)的分類實(shí)際是通過(guò)非線性的變換將輸入空間變換到一個(gè)高維的空間,接著在此新空間求最優(yōu)線性分類面,通過(guò)定義適當(dāng)內(nèi)積函數(shù)來(lái)實(shí)現(xiàn)這種非線性變換[6]。支持向量機(jī)主要有三種內(nèi)積函數(shù)。

        (1)多項(xiàng)式形式的內(nèi)積函數(shù)K(x,xi)=[(x·xi)+1]q,經(jīng)計(jì)算得到的是一個(gè)以q階多項(xiàng)式為分離器的支持向量機(jī)。

        (3)S形函數(shù)內(nèi)積K(x,xi)=tanh(v(x·xi)+c)。

        2 實(shí)驗(yàn)結(jié)果與分析

        本實(shí)驗(yàn)使用經(jīng)典的基因數(shù)據(jù)集Leukemia[7-8],該數(shù)據(jù)集包含了7129個(gè)基因,其中,訓(xùn)練集有38個(gè)樣本(27個(gè)ALL,11個(gè)AML),測(cè)試集有34個(gè)樣本(20個(gè)ALL,14個(gè)AML)。

        2.1 數(shù)據(jù)預(yù)處理

        在基因變量中,由于受條件限制,存在很多噪聲基因,這些基因會(huì)對(duì)分類結(jié)果產(chǎn)生干擾,在進(jìn)行特征選擇之前,需要先預(yù)處理,即基因篩選。本文選用的基因篩選方法是基因排序方法。計(jì)算各個(gè)基因的t值[9-11],具體公式如下:

        2.2 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)環(huán)境為Win7 64bit 操作系統(tǒng),8GB內(nèi)存,Intel?Core i7,Matlab R2017a,SVM工具箱使用臺(tái)灣林智仁教授開(kāi)發(fā)的Libsvm[12]。支持向量機(jī)以徑向基BRF作為核函數(shù),利用數(shù)據(jù)集中訓(xùn)練集進(jìn)行訓(xùn)練,選取出一個(gè)最優(yōu)交叉驗(yàn)證準(zhǔn)確率,得到σ與懲罰參數(shù)C,構(gòu)造分類器模型。利用此模型對(duì)測(cè)試集進(jìn)行測(cè)試,計(jì)算識(shí)別率。在實(shí)驗(yàn)中利用PCA與核PCA將數(shù)據(jù)降維到低維,在進(jìn)行SVM分類識(shí)別,兩種特征選擇算法識(shí)別率如表1所示。經(jīng)過(guò)PCA降維之后,最優(yōu)識(shí)別率可以達(dá)到97.0588%,34個(gè)樣本中有33個(gè)被正確識(shí)別。

        表1 PCA特征提取后識(shí)別率

        表2 核PCA特征提取后識(shí)別率

        圖1 PCA與KPCA在不同維數(shù)識(shí)別率比較

        從表2可以看出,核PCA降維之后,效果不是很好,最優(yōu)的識(shí)別率只有52.9412%,34個(gè)測(cè)試樣本只有18個(gè)被正確識(shí)別。為了更直觀地對(duì)比兩種算法特征提取之后的識(shí)別率,畫出圖形如圖1所示。經(jīng)過(guò)PCA特征提取之后的識(shí)別率高于KPCA,這說(shuō)明PCA作為經(jīng)典降維算法應(yīng)用的廣泛性,對(duì)微陣列數(shù)據(jù)來(lái)說(shuō)亦是如此。微陣列數(shù)據(jù)經(jīng)過(guò)降維分析之后,提高了分類識(shí)別率,有利于醫(yī)學(xué)上對(duì)一些疾病的識(shí)別。

        3 結(jié)語(yǔ)

        綜上所述,根據(jù)微陣列數(shù)據(jù)的特征,計(jì)算t值進(jìn)行篩選預(yù)處理,使用PCA與核PCA對(duì)數(shù)據(jù)進(jìn)行特征提取,利用基于徑向基BRF作為核函數(shù)的支持向量機(jī)進(jìn)行分類,計(jì)算分類識(shí)別率。實(shí)驗(yàn)結(jié)果表明,基于PCA降維處理之后其最優(yōu)識(shí)別率達(dá)到97.0588%,34個(gè)測(cè)試樣本有33個(gè)被正確識(shí)別,而核PCA效果不理想,最優(yōu)識(shí)別率只達(dá)到52.9412%。因此,針對(duì)微陣列數(shù)據(jù)高維小樣本的特點(diǎn),采用降維處理方法進(jìn)行分析可以提高分類的準(zhǔn)確性。

        猜你喜歡
        降維識(shí)別率特征提取
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        Bagging RCSP腦電特征提取算法
        高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        拋物化Navier-Stokes方程的降維仿真模型
        性色av一二三天美传媒| 国产精品国产三级国产在线观 | 国精产品一区一区二区三区mba| 国产激情电影综合在线看| 欧美色综合高清视频在线| 天堂女人av一区二区| 手机在线播放av网址| 国产内射爽爽大片视频社区在线 | 亚洲五月激情综合图片区| 91桃色在线播放国产| 国产香蕉视频在线播放| 极品粉嫩小泬无遮挡20p| a级福利毛片| 五十路在线中文字幕在线中文字幕 | 美女视频永久黄网站免费观看国产| 亚洲综合在不卡在线国产另类| 少妇夜夜春夜夜爽试看视频 | 日本高清一区二区三区色| 中文字幕日韩人妻少妇毛片| 激情第一区仑乱| 欧洲亚洲视频免费| 色综合久久精品中文字幕| 免费无遮挡无码永久在线观看视频| 人妻 日韩精品 中文字幕| 国产亚洲欧美在线播放网站| 久久久国产熟女综合一区二区三区| 无码人妻一区二区三区在线| 超薄肉色丝袜一区二区| 国产午夜av一区二区三区| 青青草在线免费播放视频| 被黑人猛躁10次高潮视频| 久久精品—区二区三区无码伊人色| 久久精品亚洲熟女九色| 久久不见久久见免费视频6| 日日av拍夜夜添久久免费| 日本一区免费喷水| 久久综合九色综合97婷婷| 欧美日韩视频在线第一区| 天天狠天天透天干天天| 国产丝袜一区丝袜高跟美腿| 吃奶呻吟打开双腿做受视频|