亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙聚類算法研究

        2016-10-28 06:27:46李美航黃英仁
        廣東科技 2016年2期
        關(guān)鍵詞:常量聚類數(shù)值

        李美航,黃英仁

        (廣東省華南師范大學(xué),廣東廣州510006)

        雙聚類算法研究

        李美航,黃英仁

        (廣東省華南師范大學(xué),廣東廣州510006)

        雙聚類算法的出現(xiàn)促進(jìn)了生物基因分析領(lǐng)域的發(fā)展,簡單介紹雙聚類算法的起源、概念、目的及主要模型,對現(xiàn)有主要模型的優(yōu)勢與不足進(jìn)行分析,并對常用雙聚類算法的實(shí)驗(yàn)方法進(jìn)行概括。

        雙聚類;基因表達(dá)數(shù)據(jù);CC算法;OPSM

        0 引言

        基因芯片與DNA微陣列技術(shù)的發(fā)展給生物領(lǐng)域帶來了大量的基因表達(dá)數(shù)據(jù),如何從這些數(shù)據(jù)中找出有用的信息成為眾多研究人員研究的熱點(diǎn)。這些數(shù)據(jù)通常都以矩陣的形式存儲(chǔ),在基因表達(dá)數(shù)據(jù)矩陣中,行代表基因,列代表實(shí)驗(yàn)條件,每個(gè)元素代表某個(gè)基因在給定實(shí)驗(yàn)條件下的表達(dá)水平。

        為了有效的分析這些數(shù)據(jù),聚類分析最早被應(yīng)用于其中。但傳統(tǒng)聚類分析有一個(gè)明顯的缺陷,就是只能對一個(gè)維度上的數(shù)據(jù)進(jìn)行全局聚類。大量的生物實(shí)驗(yàn)已經(jīng)證明,參與細(xì)胞功能運(yùn)作的可能只是部分基因。不同于傳統(tǒng)聚類,雙聚類可以對數(shù)據(jù)矩陣的行和列同時(shí)聚類,它可以找到數(shù)據(jù)矩陣中的局部模式,這些局部模式可以很好的體現(xiàn)出部分基因在部分實(shí)驗(yàn)條件下的異同。

        1 雙聚類模型

        雖然傳統(tǒng)的聚類算法在分析基因表達(dá)數(shù)據(jù)時(shí)展現(xiàn)出一定的效果,但是面對加速膨脹的數(shù)據(jù)規(guī)模,其在解決高維度,高噪聲數(shù)據(jù)時(shí)暴露出的疲軟及不適合尋找矩陣中的局部模式缺陷,雙聚類算法慢慢得到青睞。在學(xué)術(shù)上,雙聚類算法主要分為四種模型:①常數(shù)型雙聚類;②行常量或列常量雙聚類;③數(shù)值一致表達(dá)型雙聚類;④一致演化型雙聚類。

        1.1常數(shù)型雙聚類

        Hartigan[1]為了找到常數(shù)型的雙聚類,采用了一種直接劃分的塊聚類方法。這種塊聚類算法把原始的數(shù)據(jù)分成一系列小矩陣,然后用方差評估每一個(gè)小矩陣。雖然Hartigan的目的是為了尋找常數(shù)型雙聚類,同時(shí)他也提出了尋找行常量和列常量雙聚類的可能性,他提到只要我們選擇合適的評價(jià)函數(shù)去評價(jià)分塊后的小矩陣,那么我們將有可能找到行列常量甚至數(shù)值一致表達(dá)型雙聚類。

        1.2行常量或列常量雙聚類

        在尋找行列常量雙聚類時(shí),除了上述提到的選擇合適的評價(jià)函數(shù)的方法。另外一個(gè)簡單的思想是把矩陣中的數(shù)值依照行或列進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理,這樣便可以把尋找行列常量的雙聚類轉(zhuǎn)化為尋找常數(shù)型的雙聚類。Getz等[2]便是用這種思想提出了CTWC算法。

        1.3數(shù)值一致表達(dá)型雙聚類

        相對于以上簡單的常量型雙聚類,大多數(shù)算法對于更為復(fù)雜的數(shù)值一致表達(dá)型雙聚類稍顯無措。Cheng and Church[3]在CC算法中提出了雙聚類這個(gè)概念,創(chuàng)造性地用均方殘基去衡量子矩陣中表達(dá)水平的一致性,它可以有效的找出數(shù)值一致表達(dá)型雙聚類,并給出了相應(yīng)的函數(shù)。函數(shù)定義如下:

        其中dij是當(dāng)前元素值,dij表示第i行的行均值,dij表示第j列的列均值,dIJ=表示該子矩陣的總均值。

        1.4一致演化型雙聚類

        隨著雙聚類算法研究的深入,越來越多算法聚焦于數(shù)據(jù)中的模式而非具體的數(shù)據(jù)元素值也就是一致演化型雙聚類,它實(shí)際上是對數(shù)值一致表達(dá)型雙聚類的一種放寬條件。最早由Bendor等[4]提出保序子矩陣模型(OPSM),它只關(guān)注元素值的相對大小而不理會(huì)實(shí)際值。OPSM雙聚類模型本質(zhì)上是一個(gè)基于模式的子矩陣,它的行在某種列置換情況下可以展示出嚴(yán)格的遞增模式。一旦找到這樣一種模式的雙聚類,在生物基因?qū)W上可能揭示出某些共調(diào)控的基因在某些實(shí)驗(yàn)條件下有升降一致的體現(xiàn),這對于研究基因在功能上的表現(xiàn)有很大的幫助。Bendor等人證明了尋找OPSM是NP-hard問題,并提出了一種貪心啟發(fā)式算法用于挖掘具有統(tǒng)計(jì)學(xué)意義的OPSM。該算法從一些小的OPSMs出發(fā),通過不斷迭代去擴(kuò)展這些OPSMs直到不能擴(kuò)展為止。該算法能挖掘具有較大支持度閾值的OPSMs,但是它不能保證找到所有的OPSMs,并且需要較多的計(jì)算資源。

        2 實(shí)驗(yàn)分析方法

        雙聚類算法已經(jīng)廣泛應(yīng)用于基因表達(dá)數(shù)據(jù),但如何去評估這些算法的優(yōu)劣是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。目前主要從三個(gè)方面對算法性能進(jìn)行綜合評估:①雙聚類結(jié)果的優(yōu)劣;②算法對噪聲數(shù)據(jù)的魯棒性以及能否找到重疊的雙聚類;③算法的可擴(kuò)展性。目前所用的實(shí)驗(yàn)數(shù)據(jù)集主要來源于兩方面,即真實(shí)數(shù)據(jù)集與人工合成數(shù)據(jù)集。

        2.1真實(shí)數(shù)據(jù)集

        在對雙聚類結(jié)果的優(yōu)劣進(jìn)行評估時(shí),我們會(huì)使用真實(shí)的數(shù)據(jù)集,目前雙聚類實(shí)驗(yàn)中公認(rèn)的幾個(gè)真實(shí)數(shù)據(jù)集有:①酵母菌數(shù)據(jù)集[3],包含2884個(gè)基因和17個(gè)條件;②人類B細(xì)胞表達(dá)數(shù)據(jù)[5],包含4026個(gè)基因和96個(gè)條件;③乳腺腫瘤數(shù)據(jù)集[6],包含3226個(gè)基因和22個(gè)實(shí)驗(yàn)條件。算法在這些基因數(shù)據(jù)集上找到雙聚類結(jié)果后,將對結(jié)果進(jìn)行g(shù)ene ontology(GO)(http://go. princeton.edu/cgi-bin/GOTermFinder)分析。GO分析被用來檢驗(yàn)算法找到的雙聚類的生物學(xué)意義,對產(chǎn)生的雙聚類結(jié)果作真實(shí)性的驗(yàn)證。當(dāng)某個(gè)結(jié)果在GO分析中有較小的P-value值,則說明該簇基因在某些細(xì)胞功能中有特別的生物意義。

        2.2人工合成數(shù)據(jù)集

        人工合成數(shù)據(jù)集由實(shí)驗(yàn)人員隨機(jī)生成一個(gè)數(shù)據(jù)矩陣,再往該數(shù)據(jù)矩陣中嵌入不同的雙聚類模型,不同噪聲等級(jí)的雙聚類,不同數(shù)量的雙聚類或不同重疊度的雙聚類。當(dāng)用該合成數(shù)據(jù)運(yùn)行算法得出結(jié)果后,可以對雙聚類結(jié)果進(jìn)行匹配分?jǐn)?shù)計(jì)算[7],該匹配分?jǐn)?shù)用來計(jì)算算法找到的雙聚類結(jié)果與人工嵌入雙聚類的匹配度,以此來衡量算法的性能。一般而言,算法的擴(kuò)展性能評估由合成數(shù)據(jù)集測試,Gao等[8]在不斷增加合成數(shù)據(jù)行、列和閾值數(shù)量的情況下,記錄算法的運(yùn)行時(shí)間,由此來評估該算法效率。

        3 總結(jié)

        雙聚類是一個(gè)較為年輕的學(xué)術(shù)領(lǐng)域,在如今各種數(shù)據(jù)規(guī)模呈指數(shù)級(jí)別增長的年代,對它的研究有著重要的意義。本文主要介紹了雙聚類在生物基因分析領(lǐng)域中的發(fā)展歷程,許多其它新興的領(lǐng)域(如數(shù)據(jù)挖掘,文本挖掘,推薦系統(tǒng),電子商務(wù)等)都需要我們?nèi)ヌ剿髋c研究。

        [1]Hartigan J A.Direct clustering of a data matrix.[J].Journal of the American Statistical Association,1972,67:123-129.

        [2]Getz G,Levine E,Domany E.Coupled two-way clustering analysis of gene microarray data.[J].Proceedings of the national academy of sciences of the united states of america,2000:12079-12084.

        [3]Cheng Y,Church G M.Biclustering of expression data.[J].In proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology,2000:75-85.

        [4]Ben-Dor A,Chor B,Karp R et al.Discovering local structure in gene expression data:the order-preserving submatrix problem.[J].In proceedings of the 6th international conference on computacional biology, 2002:49-57.

        [5]Alizadeh A A,Eisen M B,Davis R E et al.Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling.[J].Nature,2000,403:503-511.

        [6]Hedenfalk I,Duggan D,Chen Y et al.Gene-expression profiles in hereditary breast cancer.[J].New England Journal of Medicine, 2001,344(8):539-548.

        [7]Preli?A,Bleuler S,Zimmermann P et al.A systematic comparison and evaluation of biclustering methods for gene expression data.[J].Bioinformatics,2006,22(9):1122-1129.

        [8]Byron J G,Griffith O L,Ester M et al.On the deep Order-Preserving submatrix problem:a best effort approach.[J].Journal of IEEE Transactions on Knowledge and Data,2012,24(2):309-325.

        李美航(1990-),男,碩士,研究方向?yàn)閿?shù)據(jù)挖掘、雙聚類分析;黃英仁(1992-),男,本科,研究方向?yàn)閿?shù)據(jù)挖掘。

        猜你喜歡
        常量聚類數(shù)值
        用固定數(shù)值計(jì)算
        科學(xué)照亮世界
        ——卡文迪什測定萬有引力常量
        數(shù)值大小比較“招招鮮”
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于Fluent的GTAW數(shù)值模擬
        焊接(2016年2期)2016-02-27 13:01:02
        基于改進(jìn)的遺傳算法的模糊聚類算法
        低氧低分壓環(huán)境下泡塑吸附火焰原子吸收光譜法測定常量金
        西藏科技(2015年1期)2015-09-26 12:09:20
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        論常量函數(shù)的充分必要條件
        青春草免费在线观看视频| 亚洲欧美日韩中文综合在线不卡| 国产精品一区二区久久毛片| 亚洲最大一区二区在线观看| 亚洲成av人在线播放无码 | 亚洲美腿丝袜 欧美另类| 欧美性猛交xxxx乱大交蜜桃 | 亚欧AV无码乱码在线观看性色| 亚洲精品国产福利在线观看 | 99久久精品无码一区二区毛片| 欧洲一卡2卡三卡4卡免费网站| 97福利视频| 青青草视频免费在线播放| 蜜桃av精品一区二区三区| 久久人人爽人人爽人人av| 久久精品国产亚洲黑森林| 成年男女免费视频网站点播| 伊人久久大香线蕉午夜av| 无码少妇a片一区二区三区| 最新国产女主播福利在线观看| 一本到亚洲av日韩av在线天堂| 久久精品国产字幕高潮| 国产乱子伦视频大全| 精品无码国产一二三区麻豆| 国产丝袜美腿在线播放| 玩弄人妻少妇精品视频 | 97日日碰日日摸日日澡| 国产精品自拍网站在线| 射精区-区区三区| 女人夜夜春高潮爽a∨片传媒 | 男男车车的车车网站w98免费| 亚洲狼人社区av在线观看| 黄片国产一区二区三区| 人妻精品久久无码区| 人妻丰满av∨中文久久不卡| 亚洲国产精品色婷婷久久| 漂亮人妻洗澡被公强 日日躁| 中国丰满熟妇xxxx| 日本岛国精品中文字幕| 被灌醉的日本人妻中文字幕| 丰满多毛的大隂户毛茸茸|