亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于熵信息處理和PCA的腫瘤基因表達譜分類識別

        2014-03-26 05:29:06汪沁紫鮑文霞
        生物學雜志 2014年6期
        關鍵詞:分類實驗方法

        汪沁紫, 王 年, 宋 豪, 鮑文霞

        (安徽大學 計算智能與信號處理教育部重點實驗室, 合肥 230039)

        腫瘤類型的識別一直是生物醫(yī)學研究的重點和難點。近年來隨著DNA微陣列技術[1]的發(fā)展,利用腫瘤基因表達譜進行深入地研究可以了解腫瘤的發(fā)生發(fā)展機制,有助于人們發(fā)現(xiàn)新的疾病亞型,進而提高治療效果。但是由于基因表達譜數(shù)據(jù)的分析難度遠遠超出傳統(tǒng)分析方法所能處理的范疇,因此采用快速有效的方法分類處理腫瘤基因對推進腫瘤醫(yī)學的發(fā)展有至關重要的作用。

        自從Golub等人[2]在1999年首次提出一種以“信噪比”為指標成功地對白血病的兩個亞型樣本進行分類研究以后,面對基因表達譜數(shù)據(jù)樣本少、維數(shù)高和冗余基因多等難題,諸多研究提供了新的思路。如2000年,Alizadeh等人[3]通過聚類分析的方法發(fā)現(xiàn)了兩種淋巴瘤的亞型;除此之外還出現(xiàn)了人工神經(jīng)網(wǎng)絡法[4]、貝葉斯法[5]和支持向量機法[6]。隨著解決方案的不斷更新完善,能夠分析處理的能力也在不斷增強。2002年,Singh等人[7]利用“信噪比”為指標,結合K近鄰算法實現(xiàn)了對前列腺癌樣本進行了分類研究;孔薇等人[8]利用改進稀疏非負矩陣分解技術對乳腺癌基因表達譜數(shù)據(jù)進行雙向聚類從而挖掘與乳腺癌發(fā)病密切相關的基因及其生物過程;阮曉鋼等人[9]提出一種CLUSTER_S2N的方法對急性白血病的基因表達譜進行分類預測實驗。與此同時,近年來多種理論的融合方法也得到快速發(fā)展:像使用熵信息處理與支持向量機結合[10]的方法對前列腺癌基因表達數(shù)據(jù)進行了有效處理;結合了主成分與獨立成分分析方法被用于識別胃癌相關差異表達基因以提高結果的準確度和可信度[11];以及鄰接矩陣分解結合主成分分析的方法尋找結腸癌信息基因等[12]。這些方法通常相對于單一理論,其效果具有一定的優(yōu)勢。

        通過分析已有的腫瘤分類方法及考慮到基因表達譜研究的廣泛應用前景和價值,本文提出一種基于熵信息處理和PCA理論對腫瘤基因進行分類處理的方法。首先對基因表達數(shù)據(jù)進行篩選并計算各個基因的熵,然后提取出熵最大的若干基因作為特征基因,為了進一步減少冗余,最后本文采用PCA方法進行降維處理從而得到樣本的主成分量。經(jīng)真實數(shù)據(jù)實驗及其他方法的對比,本文方法的有效性得到了驗證。

        1 熵信息

        熵信息[13]描述的是信源的不確定性,是信源中所有目標的平均信息量。這種信息度量的方法是由香農(nóng)( C E Shannon)提出的,一個消息出現(xiàn)的概率越小, 它所帶來的信息量就越大, 反之, 它所帶來的信息量就越小。近年來,熵信息的應用[14-16]十分地廣泛。下面是熵信息的具體描述:熵信息在信息論中是作為度量信息量的一種尺度,變量的不確定性越大,熵就越大,則包含的信息量也就越大。現(xiàn)假設基因變量X的概率分布為:

        (1)

        則X的熵信息定義如下形式:

        (2)

        對每個基因,計算相應的H,依據(jù)H的大小對基因進行篩選, 挑選熵值大的基因作為特征基因。在本文實驗中,假設所有基因符合均值為μi,方差為0.5的正態(tài)分布,以此初步去除不相關基因從而達到數(shù)據(jù)規(guī)模的降低。

        2 PCA

        PCA,即主成分分析[17],作為一種有效地線性數(shù)據(jù)壓縮和降維的工具,其應用越來越廣泛[18-20]。其實質是確定原變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的荷載lij,把原來多個變量劃分為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法。現(xiàn)就PCA給出如下簡要描述:假定有n個樣本,每個樣本有p個變量,構成一個n×p階的數(shù)據(jù)矩陣X如下:

        設xi,x2,…,xp為原變量指標,z1,z2,…,zm(m≤p)為新變量指標,滿足式(6)

        (6)

        其中系數(shù)lij的確定原則為:1)zi與zj(i≠j;i,j=1,2,…,m)相互無關;2)z1是x1,x2,…xp的一切線性組合中方差最大者;z2是與z1不相關的x1,x2,…,xp的所有線性組合中方差最大者;…;zm是與z1,z2,…,zm-1都不相關的x1,x2,…,xp的所有線性組合中方差最大者。則lij的計算為:

        (7)

        新變量指標z1,z2,…,zm分別稱為原變量指標x1,x2,…,xp的第1,第2,…,第m主成分。 一般取累計貢獻率達80%以上的特征值為λ1,λ2,…,λm所對應的第1、第2、…、第m(m≤p)個主成分。

        3 實驗

        3.1 實驗步驟

        本文以急性白血病基因表達譜數(shù)據(jù)以及前列腺癌基因表達譜數(shù)據(jù)為例。白血病基因表達譜數(shù)據(jù)中含有52個樣本,其中24個為急性淋巴性白血病(AML),28個為急性粒性白血病(ALL),每個樣本中含有12564個基因;前列腺癌基因表達數(shù)據(jù)共有102個樣本,其中正常樣本50個,癌癥樣本52個,每個樣本包含12600條基因(數(shù)據(jù)來自于http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi)。

        分類算法具體步驟如下:

        1)運用熵信息對超高維基因表達譜數(shù)據(jù)進行初選取,對所有基因進行重要性記分并按降序排列;得到特征基因子集;

        2)由于特征基因子集間仍存在相關性,進而利用PCA對子集進行進一步冗余剔除;

        3)利用SVM分類器對得到的無冗余且具有正交性信息的基因特征進行真實實驗驗證在各類中客觀地、真實地表達值,消去各種外界因素導致的出格點,即突變值;

        4)對二組公開的基因表達譜數(shù)據(jù)集進行分類驗證并給出分析。

        3.2 實驗結果與分析

        本文首先利用熵信息處理對白血病數(shù)據(jù)集進行了實驗,保留了ALL類和AML類中客觀地基因表達值,同時剔除了一些異常值(即出格點),再獲取基因特征子集,通過PCA方法的變換,將白血病樣本映射到一個低維特征空間,其實驗結果如圖1和圖2所示。

        圖1 熵信息處理選取白血病數(shù)據(jù)80個基因的表達譜

        圖2 3維空間下白血病樣本分布

        利用熵信息方法對白血病樣本的每個基因進行重要性記分,降序排列后選取記分高的80個基因,通過顏色等級劃分并歸一化后顯示于圖1,由藍色趨紅表明基因表達值越來越大,同時可以發(fā)現(xiàn)有一定的顏色分塊現(xiàn)象,說明選取的基因具有較好的分類信息。但是選取的基因間仍然存在著信息冗余,導致顏色分塊現(xiàn)象還不夠顯著,因此通過主成分分析進行主要分類信息提取與冗余信息壓縮,在提取基因子集信息的主成分為3時,圖2給出了白血病樣本的空間位置分布,其中尤其是在第一主成分坐標軸上,所有ALL類樣本的PC-1<2,而所有AML 類樣本的PC-1>2,從而實現(xiàn)了一個很好的區(qū)分與識別。

        圖3不同基因子集與不同主成分組合下的分類識別率

        圖3給出了由不同規(guī)?;蜃蛹c不同主成分組合下的白血病數(shù)據(jù)分類效果,主成分個數(shù)PC-n小于6時,其識別率波動較大,但都呈現(xiàn)增長趨勢,隨著PC-n的增加,即使基因子集規(guī)模Gene-Subset不斷變化,其識別率都能穩(wěn)定在近乎100%,說明本方法識別白血病數(shù)據(jù)是有效的,可行的。

        圖4 前列腺癌數(shù)據(jù)在不同特征基因子集下的分類結果

        按同樣思路給出結腸癌數(shù)據(jù)的實驗結果,以實現(xiàn)正常樣本與癌癥樣本的正確識別。

        在圖4的8個子圖中,前列腺癌數(shù)據(jù)分類識別率隨著PC-n的增加呈上升趨勢并趨于穩(wěn)定,當PC-n>8時,識別率均在90%左右,發(fā)現(xiàn)利用PCA選取有限個主分量就能較好地表達樣本特征,以及實現(xiàn)對數(shù)據(jù)中冗余信息的壓縮,最終得到較高地識別效果。

        本文將Sigh等人[7]以“信噪比”作提取特征基因指標以及阮曉剛等人[9]提出了CLUSTER_S2N方法提取特征基因等方法與本文方法進行比較,結果如表1所示。

        表1 實驗結果比較

        近來,SVM作為一種流行的、有效的分類方法,得到了廣泛關注。同時SVM對高維小樣本的處理能力具有獨特的優(yōu)勢。因此,本文選用SVM方法來實現(xiàn)腫瘤的識別。經(jīng)過多次實驗, SVM在選則高斯核函數(shù)(σ=3)、C=200的參數(shù)設置下,上述3種方法都能等到較高且穩(wěn)定的識別率,由于本文主要是對比3種方法選取基因特征的有效性,所以對SVM不再過多闡述。本文方法與其他方法的對比結果如表1所示,可以發(fā)現(xiàn)本文的方法在識別精度上具有一定優(yōu)勢。在處理白血病數(shù)據(jù)時,由于本文方法很好地將熵信息處理和PCA方法的優(yōu)勢相結合,信息熵的算法在篩選基因時可以最大程度不損壞基因的總信息量,PCA算法則可以對篩選后的基因特征子集進行冗余信息的有效消除,其實驗結果可以達到100%。而對于樣本數(shù)較多的前列腺癌數(shù)據(jù),其實驗結果中的正確率相比其他方法而言也是非常可觀的。

        4 結論

        利用DNA微陣列,本文提出了一種結合熵信息處理和PCA技術的腫瘤分類方法,經(jīng)過實驗驗證了該方法對腫瘤類型識別的可行性與有效性。由于本方法利用了PCA除冗余,在處理信息量大的基因特征子集時會降低正確率,因此在第一步粗選取時特征基因子集的保留方法有待改善。

        通過實驗證明了本方法對腫瘤類型識別的可行性與有效性,與其他方法相比具有一定的普適性。

        參考文獻:

        [1]楊春梅, 萬柏坤, 梁慧嬡,等. DNA微陣列技術及其在生物醫(yī)學中的應用[J]. 國外醫(yī)學.生物醫(yī)學工程分冊, 2002, 25(5): 203-206.

        [2]Golub T R, Slonim D K, Tamayo P, et al. Molecular classification of cancer: class discovery and class prediction by gene expression monitoring [J]. Science, 1999, 286(5439): 531-537.

        [3]Alizadeh A A, Elsen M B, Davis R E, et al. Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling[J]. Nature, 2000, 403(12): 503-511.

        [4]Khan J, Wei J S, Ringner M, et al. Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks[J]. Nature Medicine, 2001,7( 6): 673-679.

        [5]Haferlach T, Kohlmann A, Wieczorek L, et al. Clinical utility of microarray-based gene expression profiling in the diagnosis and sub classification of leukemia: report from the international microarray innovations in Leukemia study group [J]. Journal of Clinical Oncology, 2010, 28 (15): 2529-2537.

        [6]王 晶, 周 曠. 基于支持向量機的腫瘤基因識別[J]. 計算機與數(shù)字工程, 2011, 39(9): 3-6.

        [7]Singh D, Febbo P G, Ross K, et al. Gene expression correlates of clinical prostate cancer behavior [J]. Cancer Cell, 2002, 1(2): 203-209.

        [8]孔 薇, 王 娟, 牟曉陽. 基于改進稀疏非負矩陣分解方法的乳腺癌微陣列表達數(shù)據(jù)分析[J]. 安徽醫(yī)科大學學報, 2013, 48(7): 725-729.

        [9]阮曉鋼, 晁 浩. 腫瘤識別過程中特征基因的選取[J].控制工程,2007,14(4):373-380.

        [10]莊振華, 王 年, 李學俊, 等. 癌癥基因表達數(shù)據(jù)的熵度量分類方法[J]. 安徽大學學報, 2010, 34(2): 73-76.

        [11]陳戰(zhàn)雷, 李博宇, 李 益, 等. 結合主成分與獨立成分分析識別胃癌相關差異表達基因的方法研究[J]. 生物醫(yī)學工程學雜志, 2013, 30(5): 915-918.

        [12]陳 樂, 王 年, 蘇亮亮, 等. 基于鄰接譜主分量分析的腫瘤分類方法[J]. 安徽大學學報:自然科學版, 2011, 35(4): 86-91.

        [13]Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal, 1948, 27: 379-423, 623-656.

        [14]Wu Y, Zhou Y, Saveriades G, et al. Local Shannon entropy measure with statistical tests for image randomness [J]. Information Sciences, 2013, 222(10): 323-342.

        [15]Liu C, Li K, Zhao L, et al. Analysis of heart rate variability using fuzzy measure entropy [J]. Computers of Biology and Medicine, 2013, 43(2): 100-108.

        [16]Chou Y C, Yen H Y, Sun C C, et al. An integrate method for performance of women in science and technology based on entropy measure for objective weighting [J]. Quality & Quality , 2014, 48(1): 157-172.

        [17]Abdi H, Williams L J. Principal component analysis [J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(4): 433-459.

        [18]Ding S, Zhang P, Ding E, et al. On the application of PCA technique to fault diagnosis[J]. Tsinghua Science & Technology, 2010, 15(2): 138-144.

        [19]Kremic E, Subasi A, Hajdarevic K, et al. Face recognition implementation for client server mobile application using PCA[J]. Information Technology Interfaces, 2012, 25(28): 435-440.

        [20]Molenaar P, Wang Z, Newell K M. Compressing movement information via principal components analysis (PCA): contrasting outcomes from the time and frequency domains[J]. Human Movement Science, 2013, 32(6): 1495-1511.

        猜你喜歡
        分類實驗方法
        記一次有趣的實驗
        分類算一算
        做個怪怪長實驗
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        亚洲精品无码久久久久| 日本一区二区三区视频免费观看| 在线观看人成视频免费| 东京热加勒比无码少妇| 国产白丝网站精品污在线入口| 日本骚色老妇视频网站| 少妇一区二区三区久久| 国产精品乱码一区二区三区| 日本中文字幕在线播放第1页| 粉嫩av一区二区在线观看| 国产国语按摩对白av在线观看 | 国产三级在线观看完整版| 精品国产av 无码一区二区三区| 国产91在线|亚洲| 粉嫩人妻91精品视色在线看| 免费人成年激情视频在线观看| 亚洲精品永久在线观看| 中文字幕色视频在线播放| 亚洲一区二区三区99| 亚洲av无码一区二区三区不卡| 黄色毛片视频免费| 午夜亚洲精品一区二区| 国产无套乱子伦精彩是白视频| 欧美天欧美天堂aⅴ在线| 2020国产精品久久久久| 亚洲视频一区二区免费看| 少女韩国电视剧在线观看完整| 在线国产小视频| 在线精品亚洲一区二区三区| 午夜久久久久久禁播电影| 无码国产色欲xxxxx视频| 欧洲人体一区二区三区| 亚洲黄色av一区二区三区| 欧美一性一乱一交一视频| 亚洲综合免费| 国产精品三级在线不卡| 国产后入清纯学生妹| 日韩无码视频淫乱| 日韩中文字幕乱码在线| 久久久久亚洲精品男人的天堂 | 纯肉无遮挡H肉动漫在线观看国产 国产精品自产拍在线观看免费 |