盧海紅 盧小杰
1 安徽省蕪湖市鳩江區(qū)疾病預(yù)防控制中心 241000; 2 皖南醫(yī)學(xué)院
?
結(jié)腸癌基因表達譜降噪算法研究
盧海紅1盧小杰2
1安徽省蕪湖市鳩江區(qū)疾病預(yù)防控制中心241000;2皖南醫(yī)學(xué)院
癌癥是威脅人類健康的幾大元兇之一,利用傳統(tǒng)的診斷方法診斷出癌癥以后,常常癌癥已經(jīng)發(fā)展到中期甚至到晚期,對于治療效果嚴重不理想[1]。隨著基因表達譜技術(shù)的發(fā)展,癌癥的診斷方法也逐步應(yīng)用到基因表達譜,對癌癥的診斷治療也力爭做到早發(fā)現(xiàn)、早治療、能治愈。腫瘤基因表達譜成為臨床醫(yī)學(xué)上一種快捷有效的診斷技術(shù)[1]。
去除腫瘤基因表達譜中的噪聲是非常重要的工作,對腫瘤基因表達譜的分析處理上往往不可避免的受到基因表達譜噪聲的干擾,對含有噪聲的基因表達譜提取信息時會造成結(jié)果出現(xiàn)偏差,影響診斷結(jié)果。本文針對目前已經(jīng)公布的結(jié)腸癌基因表達譜進行降噪處理,可以看出能得到較好的結(jié)果,為基因表達譜的分類、提取、處理做了很好的前序工作[2]。本文介紹以下兩種降噪方法:離散余弦算法和小波變換算法,這兩種算法是針對基因表達譜中常用的降噪方法。
1離散余弦變換降噪法
離散余弦變換(DCT)是離散傅里葉變換(DFT)的另外一種方式,它是對實信號進行變換,頻域中的信號也是實信號。DCT具有能量集中的特性,DCT也應(yīng)用在聲音和圖像的壓縮算法中。
一維DCT變換的數(shù)學(xué)表達式可用如下式子表示:
逆DCT變換如下:
經(jīng)過離散余弦變換DCT之后主成分量的表達水平有了一定的提高,這說明經(jīng)過離散余弦變換DCT之后,噪聲的干擾減少。
DCT是把基因表達譜的樣本數(shù)據(jù)分解成一系列的不同頻率的余弦波疊加的過程,通過其系數(shù)達到降噪的目的,但是也丟掉了局部信息。對于時間序列信號,丟掉了局部的時間信息,也就是部分基因表達譜的數(shù)據(jù)信息,在尖銳點上的逼近效果較差,難以描述信號細節(jié)上的變換,在實際應(yīng)用中造成一定的誤差性,本文又進一步討論了小波變換算法。
2小波閾值降噪法
小波閾值降噪法是在信號處理中常用的一種降噪方法,也可用在腫瘤基因表達譜的降噪處理上[3],它是基于小波變換的。
小波去噪的過程是通過把數(shù)據(jù)信息進行小波變換,把基因表達譜的信號分為低頻和高頻,低頻部分顯示了基因表達譜的信號特征,高頻部分則表達了噪聲和其他的干擾信息,從而可以濾掉高頻部分來保留低頻部分是基因表達譜的信息特征。
小波變換(Wavelet transformation)也是空間域到時間域上的變換,但是相對于以上的離散余弦變換有諸多優(yōu)點,如:低熵性、去相關(guān)性、選基的靈活性和多分辨率性。因此,小波閾值降噪算法被廣泛的應(yīng)用于腫瘤基因表達譜的數(shù)據(jù)噪聲處理中。
小波變換來源于信號的伸縮和平移,經(jīng)過一系列的發(fā)展小波變換被廣泛的應(yīng)用在數(shù)據(jù)壓縮、圖像處理、油氣預(yù)測等中,在數(shù)據(jù)降噪方面也普遍被很多學(xué)者青睞。
為了能夠直觀的說明小波降噪,以下給出對腫瘤基因表達譜進行小波降噪的結(jié)構(gòu)圖。見圖1。小波變換的重要兩點是選擇小波基函數(shù)和閾值估計的方法。
圖1 小波降噪結(jié)構(gòu)圖
2.1小波基函數(shù)的選擇小波基函數(shù)是小波降噪首先要考慮的問題,其直接影響到降噪效果。小波基包含以下標準:正交性、對稱性、緊支撐性、消失矩陣、正則性。這些標準對降噪效果產(chǎn)生不同的影響,但是不是所有的特性都可以達到最佳值,針對不同的基因表達譜選擇不同的小波基,使之達到相對好的降噪效果[4]。
2.2閾值估計[5]在腫瘤基因表達譜上確定合適的閾值直接影響到降噪的最終結(jié)果,于是對閾值的估計也是非常重要的。閾值一般包括如下形式:軟閾值、硬閾值、啟發(fā)式閾值、極值閾值。軟硬閾值的選擇是在小波閾值降噪中常需要考慮的問題,本文在對matlab中的Heavisine 信號分別用軟硬閾值函數(shù)進行去噪對比實驗。見圖2。
由上述結(jié)果可以看出對于Heavisine信號來說去噪效果并不明顯,在對于結(jié)腸癌基因的閾值選取上也需要對軟硬閾值進行優(yōu)化,結(jié)合兩者的特點對結(jié)腸癌基因?qū)Ρ?,最終選擇兩者折中的去噪方法[6]。
a含噪的原始信號b軟閾值小波去噪后的信號c硬閾值小波去噪后的信號
圖2Heavisine 信號軟硬閾值去噪對比
圖3 小波降噪的步驟
3基因主成分
結(jié)腸癌基因主成分也是需要考慮的問題,本文中不做詳細說明。由基因表達譜數(shù)據(jù)可以看出對于多維數(shù)據(jù)的處理常常使用降維運算。在降維過程中以及在進行基因圖譜去噪以前需要進行主成分的提取。
信息數(shù)據(jù)的主分量分析[8](PCA)是在信號處理領(lǐng)域中一種重要特征統(tǒng)計方法。為此在對基因表達譜的數(shù)據(jù)挖掘中,常用支持向量機(SVM)分類器、K-近鄰(KNN)分類器、徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN)分類器等分類方法對基因表達譜進行處理。本文只研究去噪算法,對此不做過多說明。
4實驗驗證
本文的實驗平臺是matlab7[9],使用生物信息工程中的函數(shù)庫進行分析,MATLAB 7生物信息工具箱為基因表達譜數(shù)據(jù)的分析和處理提供了一個綜合環(huán)境,通過眾多統(tǒng)計函數(shù)和繪圖函數(shù)的結(jié)合使用,過濾不合格的基因數(shù)據(jù)和噪聲數(shù)據(jù),從而對基因表達數(shù)據(jù)進行聚類分析和主成分分析,繪制相關(guān)的基因表達譜,完成基因芯片數(shù)據(jù)表達譜的分析,分析結(jié)果可視化程度高,圖表清晰、直觀[10]。
圖4 降噪前基因表達水平
圖5 降噪后基因表達水平
實驗數(shù)據(jù)是用Affymetrix公司的結(jié)腸癌基因表達譜數(shù)據(jù),原實驗為點有65 000個寡聚核苷酸探針組成的基因芯片,其中包括40例結(jié)腸腺癌組織和22例正常結(jié)腸組織構(gòu)成的樣本集。本文選取的腫瘤基因表達譜數(shù)據(jù)Alon等篩選出來的2 000個基因表達譜數(shù)據(jù)進行分析,本文的數(shù)據(jù)是在http://microarray.princefon.edu/oncology/affydata/index.html 下載的結(jié)腸癌基因譜數(shù)據(jù),并對數(shù)據(jù)進行分析處理。對結(jié)腸癌基因進行驗證,選取結(jié)腸癌基因表達譜Has.2166和Has.318兩種基因表達譜進行小波變換,經(jīng)過小波變換后的降噪處理基因表達水平前、后對比如圖4和圖5所示。
5結(jié)論
對腫瘤基因表達譜存在的噪聲問題是造成對基因表達譜數(shù)據(jù)分析結(jié)果誤差的主要因素之一。本文研究的兩種算法能夠有效的解決這一問題,但是經(jīng)過對比發(fā)現(xiàn),小波降噪能更好的解決問題,這種降噪方式也常常被用在其他基因表達譜數(shù)據(jù)的預(yù)處理上面。通過實驗驗證發(fā)現(xiàn),經(jīng)過降噪處理后的基因表達譜能夠取得很好的結(jié)果,去除了無效數(shù)據(jù)。
參考文獻
[1]李穎新,李建更,阮曉剛.腫瘤基因表達譜分類特征基因選取問題及分析方法研究〔J〕.計算機學(xué)報,2006,29(2):324-330.
[2]李穎新,劉全金,阮曉鋼.急性白血病的基因表達譜分析與亞型分類特征的鑒別〔J〕.中國生物醫(yī)學(xué)工程學(xué)報,2005,24(2):240-244.
[3]何風(fēng)華.小波分析在信號消噪中的應(yīng)用〔J〕.兵工自動化,2002,21(6):22-24.
[4]劉淑霞,陳榮川,劉艷麗,等.卵巢腫塊性質(zhì)的超聲指標 Fisher 判別分析〔J〕.中國醫(yī)學(xué)影像技術(shù),2010,26(4):737-740.
[5]Michael T Johnson,Xiaolong Yuan,Yao Ren.Speech Signal Enhancement Through Adaptive Wavelet Thresholding〔J〕.Speech Communication,2007,49(2):123-133.
[6]Donoho DL.De-noising by Soft-thresholding〔J〕.IEEE Trans Inform Theory,1995,41(3):613-627.
[7]張蓮,秦華峰,余成波.基于小波閾值降噪算法的研究〔J〕.計算機工程與應(yīng)用,2008,44(9):172-199.
[8]邊肇祺,張學(xué)工.模式識別〔M〕.第2 版.北京:清華大學(xué)出版社,1999.
[9]飛思科技產(chǎn)品研發(fā)中心.小波分析理論與MATLAB R2007實現(xiàn)〔M〕.北京:電子工業(yè)出版社,2007:354-358.
[10]周偉.MATLAB小波分析高級技術(shù)〔M〕.西安:西安電子科技大學(xué)出版社,2006.
(編輯落落)
摘要目的:對腫瘤基因表達譜的分類和提取過程中大量的數(shù)據(jù)噪聲進行研究。方法:在總結(jié)前人研究的基礎(chǔ)上,本文研究了離散余弦變換和小波變換兩種變換算法,且著重介紹了小波變換。結(jié)果:對結(jié)腸癌基因表達譜進行實驗驗證,實驗結(jié)果表明降噪效果良好,并且有效的保留了主要分量。結(jié)論:生物醫(yī)學(xué)信息方法結(jié)合數(shù)學(xué)算法能夠很好的對腫瘤基因表達譜進行分析和處理。
關(guān)鍵詞基因表達數(shù)據(jù)噪聲DCT小波變換
Noise Reduction Algorithm of Gene Expression Profiles in Colon Cancer
LU Haihong*,LU Xiaojie.*JiujiangCenterforDiseaseControlandPrevention,WuhuCity,AnhuiProvince241000
ABSTRACTObjective:For cancer gene expression profile of the process of classification and extract data often have a lot of noise.Methods:On the basis of summarizing the predecessors’research, this paper studies the discrete cosine transform and wavelet transform algorithm.Results:Choosing experimental verification was carried out on the colon cancer gene expression profile, the experimental results show that the effect of de-noising is good, and keeping the main component.Conclusion:Biomedical Informatics method combines mathematical algorithm can analyze the gene expression profiles of tumors and treatment.
KEY WORDSGene expression data,Noise,DCT,Wavelet transformation
收稿日期2015-02-09
中圖分類號:R735.3+5
文獻標識碼:A
文章編號:1001-7585(2015)14-1832-03