亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PCA與核PCA的微陣列數(shù)據(jù)分析

        2019-06-20 04:01:04黃紫成林增坦
        關(guān)鍵詞:降維識(shí)別率特征提取

        黃紫成,林增坦

        (仰恩大學(xué)工程技術(shù)學(xué)院,福建泉州 362014)

        微陣列技術(shù)是近年來(lái)生物信息領(lǐng)域出現(xiàn)的新興技術(shù),已被廣泛應(yīng)用于藥物研究、疾病診斷、基因測(cè)試等多個(gè)領(lǐng)域[1]。微陣列技術(shù)所呈現(xiàn)的數(shù)據(jù)以矩陣形式表示,也稱為基因表達(dá)數(shù)據(jù),當(dāng)前對(duì)微陣列的數(shù)據(jù)分析主要有差異表達(dá)分析、聚類分析、樣本分類、調(diào)控網(wǎng)絡(luò)、薈萃分析等。本文根據(jù)研究需要,重點(diǎn)進(jìn)行樣本分類分析,該分析是為了建立有效的疾病診斷,使用機(jī)器學(xué)習(xí)算法對(duì)微陣列數(shù)據(jù)進(jìn)行學(xué)習(xí),得出預(yù)測(cè)模型,進(jìn)而再對(duì)未知分類的表達(dá)數(shù)據(jù)進(jìn)行分類判別,為疾病的診斷及治療提供可靠的分類效果。由于微陣列數(shù)據(jù)存在著維數(shù)多而樣本少的問(wèn)題,如何有效地對(duì)基因數(shù)據(jù)進(jìn)行分析,選出具有特殊貢獻(xiàn)的特征基因,提高分類效率,是當(dāng)前基因數(shù)據(jù)樣本分類分析的研究熱點(diǎn)之一[2]。

        目前,有越來(lái)越多的特征選擇算法應(yīng)用于微陣列數(shù)據(jù)的降維分析,并能得到好的分類效果,典型的算法有主成分分析(PCA)[3]、非負(fù)矩陣分解、獨(dú)立分量分析等,常用的分類算法有支持向量機(jī)(SVM)、貝葉斯分類等,把微陣列數(shù)據(jù)降維之后再采用支持向量機(jī)等分類器計(jì)算識(shí)別率,能得到較高準(zhǔn)確率。本文使用PCA與核PCA對(duì)微陣列數(shù)據(jù)進(jìn)行降維處理,再計(jì)算經(jīng)過(guò)這兩種算法處理過(guò)的識(shí)別率,對(duì)比分析運(yùn)用兩種算法處理微陣列數(shù)據(jù)效果的優(yōu)劣。

        1 算法理論介紹

        1.1 主成分分析(PCA)

        主成分分析是一種統(tǒng)計(jì)學(xué)方法,也是數(shù)據(jù)挖掘中常用的一種降維算法,它能在損失很少信息的前提下,把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo),通常把轉(zhuǎn)化生成的綜合指標(biāo)稱之為主成分。

        算法有如下幾個(gè)步驟[4]:

        (3)求系數(shù)矩陣R的特征根與特征向量λ1≥λ2≥…≥λp>0,相應(yīng)正交特征向量為ai=[a1i,a2i,…,api]T,i=1,2,…,p.

        (5)確定主成分個(gè)數(shù),目標(biāo)是用較少的主成分提取更多的原始信息,取決于k和α(k)之間的權(quán)衡。一方面,應(yīng)該使k盡可能??;另一方面,使累積貢獻(xiàn)率α(k)盡可能大。在實(shí)際使用中,通常取αk≥85%[4]。

        1.2 核主成分分析(KPCA)

        核主成分分析是目前比較流行的一種新的特征提取方法,它是對(duì)PCA的非線性推廣,核函數(shù)的形式為k(xi,xj)=<φ(xi),φ(xj)>,其中,k函數(shù)為核函數(shù),<,>為內(nèi)積。算法簡(jiǎn)要步驟如下[5]。

        (1)計(jì)算矩陣k(xi,xj);

        (2)計(jì)算矩陣k(xi,xj)的m個(gè)特征值和特征向量;

        (3)對(duì)m個(gè)特征向量進(jìn)行歸一化處理;

        1.3 支持向量機(jī)(SVM)

        支持向量機(jī)(SVM)是以統(tǒng)計(jì)學(xué)理論為基礎(chǔ),根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出來(lái)的。支持向量機(jī)的分類實(shí)際是通過(guò)非線性的變換將輸入空間變換到一個(gè)高維的空間,接著在此新空間求最優(yōu)線性分類面,通過(guò)定義適當(dāng)內(nèi)積函數(shù)來(lái)實(shí)現(xiàn)這種非線性變換[6]。支持向量機(jī)主要有三種內(nèi)積函數(shù)。

        (1)多項(xiàng)式形式的內(nèi)積函數(shù)K(x,xi)=[(x·xi)+1]q,經(jīng)計(jì)算得到的是一個(gè)以q階多項(xiàng)式為分離器的支持向量機(jī)。

        (3)S形函數(shù)內(nèi)積K(x,xi)=tanh(v(x·xi)+c)。

        2 實(shí)驗(yàn)結(jié)果與分析

        本實(shí)驗(yàn)使用經(jīng)典的基因數(shù)據(jù)集Leukemia[7-8],該數(shù)據(jù)集包含了7129個(gè)基因,其中,訓(xùn)練集有38個(gè)樣本(27個(gè)ALL,11個(gè)AML),測(cè)試集有34個(gè)樣本(20個(gè)ALL,14個(gè)AML)。

        2.1 數(shù)據(jù)預(yù)處理

        在基因變量中,由于受條件限制,存在很多噪聲基因,這些基因會(huì)對(duì)分類結(jié)果產(chǎn)生干擾,在進(jìn)行特征選擇之前,需要先預(yù)處理,即基因篩選。本文選用的基因篩選方法是基因排序方法。計(jì)算各個(gè)基因的t值[9-11],具體公式如下:

        2.2 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)環(huán)境為Win7 64bit 操作系統(tǒng),8GB內(nèi)存,Intel?Core i7,Matlab R2017a,SVM工具箱使用臺(tái)灣林智仁教授開(kāi)發(fā)的Libsvm[12]。支持向量機(jī)以徑向基BRF作為核函數(shù),利用數(shù)據(jù)集中訓(xùn)練集進(jìn)行訓(xùn)練,選取出一個(gè)最優(yōu)交叉驗(yàn)證準(zhǔn)確率,得到σ與懲罰參數(shù)C,構(gòu)造分類器模型。利用此模型對(duì)測(cè)試集進(jìn)行測(cè)試,計(jì)算識(shí)別率。在實(shí)驗(yàn)中利用PCA與核PCA將數(shù)據(jù)降維到低維,在進(jìn)行SVM分類識(shí)別,兩種特征選擇算法識(shí)別率如表1所示。經(jīng)過(guò)PCA降維之后,最優(yōu)識(shí)別率可以達(dá)到97.0588%,34個(gè)樣本中有33個(gè)被正確識(shí)別。

        表1 PCA特征提取后識(shí)別率

        表2 核PCA特征提取后識(shí)別率

        圖1 PCA與KPCA在不同維數(shù)識(shí)別率比較

        從表2可以看出,核PCA降維之后,效果不是很好,最優(yōu)的識(shí)別率只有52.9412%,34個(gè)測(cè)試樣本只有18個(gè)被正確識(shí)別。為了更直觀地對(duì)比兩種算法特征提取之后的識(shí)別率,畫出圖形如圖1所示。經(jīng)過(guò)PCA特征提取之后的識(shí)別率高于KPCA,這說(shuō)明PCA作為經(jīng)典降維算法應(yīng)用的廣泛性,對(duì)微陣列數(shù)據(jù)來(lái)說(shuō)亦是如此。微陣列數(shù)據(jù)經(jīng)過(guò)降維分析之后,提高了分類識(shí)別率,有利于醫(yī)學(xué)上對(duì)一些疾病的識(shí)別。

        3 結(jié)語(yǔ)

        綜上所述,根據(jù)微陣列數(shù)據(jù)的特征,計(jì)算t值進(jìn)行篩選預(yù)處理,使用PCA與核PCA對(duì)數(shù)據(jù)進(jìn)行特征提取,利用基于徑向基BRF作為核函數(shù)的支持向量機(jī)進(jìn)行分類,計(jì)算分類識(shí)別率。實(shí)驗(yàn)結(jié)果表明,基于PCA降維處理之后其最優(yōu)識(shí)別率達(dá)到97.0588%,34個(gè)測(cè)試樣本有33個(gè)被正確識(shí)別,而核PCA效果不理想,最優(yōu)識(shí)別率只達(dá)到52.9412%。因此,針對(duì)微陣列數(shù)據(jù)高維小樣本的特點(diǎn),采用降維處理方法進(jìn)行分析可以提高分類的準(zhǔn)確性。

        猜你喜歡
        降維識(shí)別率特征提取
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        Bagging RCSP腦電特征提取算法
        高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        拋物化Navier-Stokes方程的降維仿真模型
        国产精品麻豆一区二区三区| 中文字幕人妻av一区二区| 久久久久亚洲精品无码网址| 999久久66久6只有精品| 在线视频一区二区观看| 精品亚洲一区中文字幕精品| 中文区中文字幕免费看| 色妞ww精品视频7777| 在线观看免费a∨网站| 北岛玲精品一区二区三区| 国产一区二区三区精品毛片| 免费国产自拍在线观看| 精品国内在视频线2019| 国产三级在线观看免费| 国产丰满乱子伦无码专| 街拍丝袜美腿美女一区| 人人妻人人澡人人爽欧美一区| 国产精品网站在线观看免费传媒| 久久夜色撩人精品国产小说| 精品国产日韩无 影视| 蜜臀av在线一区二区尤物| 午夜精品久久久久久久99老熟妇| 暖暖视频在线观看免费| 亚洲AV无码久久精品国产老人| 亚洲高清av一区二区| 黄片小视频免费观看完整版| 国产亚洲精品美女久久久| 人妻熟妇乱又伦精品视频app| AV无码人妻一区二区三区牛牛| 一级内射免费观看视频| 国产在线无码不卡影视影院| 欧美国产精品久久久乱码| 久久夜色精品国产亚洲噜噜| 亚洲激情视频在线观看a五月| 欧美最猛性xxxx| 精品国产乱码久久久久久影片| 日本精品网| 亚洲一区视频中文字幕| 伊人中文字幕亚洲精品乱码 | 成人区人妻精品一区二区三区| 国产成人无码一区二区在线播放|