亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        腫瘤微陣列數(shù)據(jù)的小波模極大值特征提取

        2016-02-06 00:31:33陳小梅
        電腦與電信 2016年5期
        關(guān)鍵詞:特征提取特征信號(hào)

        陳小梅

        (福建農(nóng)林大學(xué),福建 福州 350002)

        腫瘤微陣列數(shù)據(jù)的小波模極大值特征提取

        陳小梅

        (福建農(nóng)林大學(xué),福建 福州 350002)

        本文提出針對(duì)腫瘤微陣列數(shù)據(jù)的小波模極大值特征提取方法。首先求兩類數(shù)據(jù)的Bhattacharyya距離分布,初步提取特征基因;接著進(jìn)行小波分解,在頻域上用小波分解高頻系數(shù)檢測(cè)基因突變點(diǎn),低頻系數(shù)逼近表征原始信號(hào)特征;然后通過理論分析和構(gòu)建SVM分類器,經(jīng)過多次實(shí)驗(yàn)選取小波基和尺度,提取特征基因。將該算法應(yīng)用于數(shù)據(jù)集(1999年Golub所用ALL和AML),從中提取了5個(gè)基因,分類測(cè)試準(zhǔn)確率可達(dá)94.12%??梢娫撍惴ň哂休^高的可行性與有效性,能為腫瘤間差異基因研究提供一定參考。

        微陣列數(shù)據(jù);小波模極大值;SVM

        1 引言

        基因芯片進(jìn)行癌癥診斷極大地提高了數(shù)據(jù)獲取效率,但基因芯片數(shù)據(jù)存在高維數(shù)、高噪聲、高通量等特點(diǎn),如何從基因芯片的海量數(shù)據(jù)中提取有用的生物學(xué)信息,是癌癥基因檢測(cè)的關(guān)鍵。

        基因表達(dá)水平信號(hào)變化極不規(guī)則,但其奇異點(diǎn)和不規(guī)則的突變部分經(jīng)常攜帶比較關(guān)鍵的信息[1]。小波分析理論可以用于基因芯片數(shù)據(jù)的處理,小波分解后的系數(shù)能表征基因表達(dá)相關(guān)信息[2,3]。文獻(xiàn)[4]和[5]分別采用小波分解的低頻系數(shù)和高頻系數(shù)作為特征進(jìn)行分類,分類效果均可以達(dá)到93%左右,低頻系數(shù)特征提取結(jié)果總體上好于高頻,但沒有闡述提取多少個(gè)基因,提取的基因是什么,且分類準(zhǔn)確率還有待提高。本文提出一種基于小波模極大值的特征提取算法,可以從經(jīng)典數(shù)據(jù)集中提取5個(gè)特征基因,分類測(cè)試準(zhǔn)確率達(dá)到94.12%。

        小波變換理論最早是20世紀(jì)80年代初法國(guó)地球物理學(xué)家Morlet在分析地球物理信號(hào)時(shí),提出來的一種數(shù)學(xué)工具。它是為克服傅里葉分析時(shí)域不能局部化,難以檢測(cè)信號(hào)發(fā)生突變時(shí)間(或位置)的不足而提出的一種信號(hào)分析手段。一般情況下,在低頻部分(平穩(wěn)部分)具有較低的時(shí)間分辨率和較高的頻率分辨率,而在高頻部分(細(xì)節(jié)部分)較高的時(shí)間分辨率和較低的頻率分辨率,可見小波分析理論適合于探測(cè)正常信號(hào)中出現(xiàn)的反?,F(xiàn)象。而腫瘤微陣列數(shù)據(jù)突變基因的檢測(cè)正屬于這種從正常信號(hào)中探測(cè)異?,F(xiàn)象的問題。

        小波變換模極值點(diǎn)突變點(diǎn)檢測(cè)原理:模極大值突變點(diǎn)檢測(cè)是在不同尺度上先對(duì)信號(hào)進(jìn)行光滑,再由光滑后信號(hào)的一階和二階導(dǎo)數(shù)檢測(cè)信號(hào)的突變點(diǎn)。

        2 小波變換模極大值特征提取算法

        腫瘤基因微陣列數(shù)據(jù)一個(gè)顯著的特點(diǎn)是樣本少,維數(shù)高,基因集只有一小部分基因與腫瘤分型有關(guān),可以首先對(duì)基因集進(jìn)行初步的篩選。信噪比是由Golub提出的評(píng)價(jià)基因?qū)δ[瘤分型影響大小的經(jīng)典準(zhǔn)則[6]。但這種準(zhǔn)則存在有一定的缺陷,比如當(dāng)兩種類型腫瘤的分布均值相同時(shí),其信噪比d=0,但可能兩者的分布波動(dòng)區(qū)別較大,此時(shí)的基因可能會(huì)被剔除,進(jìn)而影響差異基因的提取。Bhattacharyya距離既體現(xiàn)了基因在兩個(gè)類別中均值的差異對(duì)樣本分類的貢獻(xiàn),又體現(xiàn)了方差的不同對(duì)不同分類的影響[7]。所以本文采用基因的Bhattacharyya距離來評(píng)價(jià)基因中蘊(yùn)含的分類信息,對(duì)基因集進(jìn)行初步提取。

        針對(duì)一包括兩類腫瘤的微陣列數(shù)據(jù)矩陣,利用高頻分量中的局部極大值點(diǎn)來初步確定基因可能突變位置,然后綜合考慮訓(xùn)練樣本的可能突變位置,確定這兩類腫瘤基因的可能突變點(diǎn)。最后根據(jù)突變點(diǎn)位置,提取突變點(diǎn)位置的低頻信息作為特征,構(gòu)建SVM分類器分類測(cè)試,具體算法如下:

        (1)先根據(jù)Bhattacharyya距離及其分布,提取兩類間距離較大的基因,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行初步降維。Bhattacharyya距離公式為

        其中B為兩腫瘤基因之間的Bhattacharyya距離,μ1和μ2分別為兩類腫瘤某基因表達(dá)水平的均值,σ1和σ2分別為兩類腫瘤某基因表達(dá)水平的標(biāo)準(zhǔn)差。

        (2)分別對(duì)訓(xùn)練子集的所有樣本的基因表達(dá)信號(hào)進(jìn)行小波變換處理。

        (3)對(duì)小波變換處理得到的高頻成分利用小波模極大值原理進(jìn)行突變點(diǎn)位置檢測(cè),并將每個(gè)樣本的局部模極大值點(diǎn)令為1,否則為0。

        (4)分別統(tǒng)計(jì)兩類腫瘤訓(xùn)練集中每個(gè)基因可能是突變點(diǎn)出現(xiàn)的次數(shù),求出每個(gè)基因可能為突變點(diǎn)的概率。

        (5)設(shè)定閾值TH,分別將兩類腫瘤中概率大于閾值TH的基因提取出來作為候選特征基因。

        (6)取兩類腫瘤所選基因突變點(diǎn)的并集,并選取所選突變點(diǎn)位置對(duì)應(yīng)的基因的小波分解的低頻部分作為特征。

        (7)利用訓(xùn)練集中提取的特征構(gòu)建SVM分類器,利用測(cè)試集測(cè)試分類器性能。

        其流程圖如下:

        圖1 小波變換模極大值特征提取流程圖

        3 實(shí)驗(yàn)分析

        為驗(yàn)證本文設(shè)計(jì)方法的有效性,文章選用一個(gè)含有7129個(gè)基因的常用數(shù)據(jù)集(Golub et al,1999年),該數(shù)據(jù)集包含38個(gè)訓(xùn)練樣本(27個(gè)ALL、11個(gè)AML)和34個(gè)測(cè)試樣本(20個(gè)ALL、14個(gè)AML)。對(duì)原始數(shù)據(jù)進(jìn)行缺失值處理、對(duì)數(shù)處理后,得到一個(gè)7129×72的矩陣,作為待處理數(shù)據(jù)。

        3.1 Bhattacharyya距離初步過濾基因

        文章首先求出利用Bhattacharyya距離公式,求出AML和ALL各基因之間的Bhattacharyya距離,構(gòu)建直方圖(如下圖2),選取閾值為0.2,從7129個(gè)基因中選取了757個(gè)候選特征基因。

        圖2 Bhattacharyya距離初步過濾基因直方圖

        3.2 小波基函數(shù)及尺度選取

        本文利用小波變換檢測(cè)基因表達(dá)信號(hào)的奇異性,主要是為了確定信號(hào)的奇異點(diǎn)位置,應(yīng)選擇合適的小波函數(shù)和尺度大小。如果選擇的尺度太小,則時(shí)間域所選擇的時(shí)間間隔較小,受噪聲的干擾較大;如果尺度太大,則信號(hào)突變點(diǎn)鄰域的小波變換的模極大值的幅度衰減較快,這使信號(hào)的突變點(diǎn)不明顯[8]。由于低層小波分解間斷的時(shí)間間隔較短,包含了頻率較高的成分,所以高頻系數(shù)有較大的幅值。所以文章選擇1~5層對(duì)不同的小波基進(jìn)行分解分析。

        小波基的選擇非常重要,利用不同的小波基函數(shù)對(duì)信號(hào)進(jìn)行分解,可以突出不同的信號(hào)特征。小波基的正則性主要影響小波系數(shù)重構(gòu)的穩(wěn)定性,通常要求小波基函數(shù)具有一定的正則性(光滑性)。樣條小波和Daubechies小波都具有較好的正則性。其中樣條小波是一種非緊致正交的對(duì)稱小波,且具有線性相位的特性,但由于非緊致小波會(huì)形成無窮長(zhǎng)濾波器,如果進(jìn)行截?cái)?,就?huì)產(chǎn)生一定的截?cái)嗾`差。而Daubechies小波是緊致正交基,具有很好的正則性,有利于信號(hào)的分解與重構(gòu)。

        腫瘤微陣列數(shù)據(jù)特征提取問題是奇異點(diǎn)檢測(cè)問題。在分析奇異信號(hào)時(shí),一般選取消失矩較高階數(shù)的小波基,讓信號(hào)中平滑部分的高頻系數(shù)趨于0,從而保留高頻中的突變部分[9]。小波基的消失矩與Lipschitz指數(shù)密切相關(guān),但突變信號(hào)的Lipschitz指數(shù)一般在0-1之間,因此所選擇的小波基的消失矩也不能太高。所以本文選擇Daubechies構(gòu)造的具有很好緊致性的小波基db1,db2,db3比較說明。

        3.3 實(shí)驗(yàn)結(jié)果

        經(jīng)過實(shí)驗(yàn),選擇小波基函數(shù)為'db3',分解層數(shù)為4,進(jìn)而利用提取的特征基因子集,構(gòu)建線性SVM分類器并進(jìn)行測(cè)試,得到如下表不同閾值TH下的測(cè)試結(jié)果。

        表1 不同TH閾值的測(cè)試結(jié)果

        可見,隨著閾值TH的變化,雖然提取的基因數(shù)發(fā)生了相應(yīng)的變化,但是測(cè)試的準(zhǔn)確率比較文檔,都達(dá)到了94%以上。當(dāng)選擇閾值為1時(shí),該方法所提取的基因只有5個(gè),在GEO中的登錄號(hào)分別為KIAA0101 gene、UBL1 Ubiquitinlike protein、RanBP2(Ran-binding protein 2)、Cadherin-15、Phosphatidylinositol-glycan-class C(PIG-C),這時(shí)測(cè)試的準(zhǔn)確率達(dá)到94.12%。

        4 結(jié)果分析

        本文針對(duì)常用數(shù)據(jù)集所提取的基因沒有出現(xiàn)在文獻(xiàn)[6]所提取的50個(gè)基因中,但該文獻(xiàn)在對(duì)34個(gè)測(cè)試樣本進(jìn)行獨(dú)立測(cè)試時(shí),其準(zhǔn)確率只達(dá)到了85.29%(29/34),可見該文獻(xiàn)所提取的基因并沒有完整的分類信息。文獻(xiàn)[10]采用浮動(dòng)順序搜索算法搜索特征空間生成候選特征子集,最后選擇了5個(gè)特征基因構(gòu)建SVM進(jìn)行分類,結(jié)果也很好,準(zhǔn)確率達(dá)到了100%,但在該文章中采用的是留一法進(jìn)行測(cè)試,其分類器所具有的泛化能力可能比較不具有說服力。而本文所提取的5個(gè)基因,在針對(duì)34個(gè)測(cè)試樣本進(jìn)行測(cè)試時(shí),準(zhǔn)確率達(dá)94.12%,因?yàn)榭赡艽嬖谝恍┍容^特別的樣本??梢娀谛〔O大值特征提取方法具有很好的可行性和有效性,能將其應(yīng)用于其他腫瘤分類數(shù)據(jù)中,研究腫瘤基因間的差異基因。

        [1]張引紅,吳勝舉.鼾音信號(hào)奇異點(diǎn)檢測(cè)的小波變換分析方法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(005):232-234.

        [2]Liu Y.Feature extraction for DNA microarray data in Proc[C].20thIEEE International Symposium on computer-Based Medical Systems,2007:371-376.

        [3]葛哲學(xué),陳仲生.Matlab時(shí)頻分析技術(shù)及其應(yīng)用[M].北京:人民郵電出版社,2006.

        [4]劉玉杰,劉毅慧.基于小波低頻系數(shù)基因芯片數(shù)據(jù)的特征提取[J].生物信息學(xué),2011,09(3):255-258.

        [5]劉玉杰,劉毅慧.基于小波高頻系數(shù)基因芯片數(shù)據(jù)的特征提取[J].生物信息學(xué),2011,09(4):339-343.

        [6]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring [J].Science,1999,286(5439):531-537.

        [7]李澤,包雷.基于基因表達(dá)譜的腫瘤分型和特征基因選取[J].生物物理學(xué)報(bào),2002,18(4):413-417.

        [8]Li S,Liao C,Kwok J T.Wavelet-based feature extraction for microarray data classification[A].IEEE,2006:5028-5033.

        [9]魏寶琴,李白萍.最優(yōu)小波基的選取原則[J].甘肅科技,2007,23 (010):42-43.

        [10]李穎新,劉全金,阮曉鋼.急性白血病的基因表達(dá)譜分析與亞型分類特征的鑒別[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2005,24(02):240-244.

        Feature Extraction Base on Wavelet Modulus Maxima for Microarray Data

        Chen Xiaomei
        (FujianAgriculture and Forestry University,Fuzhou 350002,Fujian)

        A new method of microarray data to extract features based on wavelet modulus maxima is proposed in this paper. First of all,the Bhattacharyya distance distributions of two classes are derived,preliminarily extracting feature genes.Then wavelet decomposition is adopted to detect the gene mutation of high frequency coefficient,and to approximate the original signal characterization based on low frequency.Finally the features are extracted by theoretical analysis and SVM classification,which selects the wavelet basis and scale based on multiple experiments.The proposed method is applied on the data set(1999 Golub used in ALL and AML).Five feature genes are extracted,whose classification test accuracy rate can reach 94.12%.It can be seen that the algorithm has high feasibility and effectiveness,and can provide some reference for the study of the differentially expressed genes between tumors.

        Microarray data;wavelet modulus maxima;SVM

        TP391.4

        A

        1008-6609(2016)05-0046-03

        陳小梅,女,福建漳州人,碩士,助理實(shí)驗(yàn)師,研究方向:模式識(shí)別、圖像處理。

        猜你喜歡
        特征提取特征信號(hào)
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        如何表達(dá)“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠的四個(gè)特征
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        基于LabVIEW的力加載信號(hào)采集與PID控制
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        精品国产一区二区三区av麻| 91爱爱视频| 亚洲av综合色区久久精品天堂| 五月开心六月开心婷婷网| 成年性生交大片免费看| 熟妇人妻无码中文字幕| 亚洲黄色性生活一级片| 国产亚洲日本精品二区| 成人日韩熟女高清视频一区| 日本一卡2卡3卡四卡精品网站| 精品人妻无码中文字幕在线| 中文字幕久久人妻av| 精品人妻av一区二区三区| 欧美日韩一区二区综合| 国产系列丝袜熟女精品视频| 久久偷拍国内亚洲青青草| 亚洲成熟女人毛毛耸耸多| 丰满多毛的大隂户视频| 丁香六月久久| 丝袜美腿亚洲综合第一页| 一二区成人影院电影网| 国产午夜无码视频免费网站| 亚洲一二三四五区中文字幕| 中国少妇久久一区二区三区| 九九热线有精品视频86| 无码精品一区二区免费AV| av有码在线一区二区三区| 国产高清在线观看av片| 无码人妻一区二区三区免费| 人妻少妇中文字幕久久69堂| 日本国产精品久久一线 | 国产精品一区二区久久不卡| 91爱爱视频| 日韩一二三四区在线观看| 日本又色又爽又黄的a片18禁| 国产欧美VA欧美VA香蕉在| 免费人成黄页网站在线观看国产| 亚洲中文字幕舔尻av网站| 国产影片中文字幕| 大屁股少妇一区二区无码| 亚洲中文字幕九色日本|