亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于公共子序列的OPSM雙聚類算法

        2015-12-14 06:09:40傅俊橦李杰進(jìn)王杜齊鄺秋華張美珍
        關(guān)鍵詞:挖掘出聚類閾值

        薛 云 ,傅俊橦,李杰進(jìn),王杜齊,鄺秋華,張美珍,肖 化

        (華南師范大學(xué)物理與電信工程學(xué)院,廣州510006)

        隨著DNA 微陣列檢測技術(shù)的發(fā)展,產(chǎn)生的基因表達(dá)數(shù)據(jù)量呈現(xiàn)爆炸性增長態(tài)勢[1]. 如何對基因表達(dá)數(shù)據(jù)進(jìn)行有效的分析,挖掘有用信息已經(jīng)成為后基因組時代的研究熱點.

        作為針對基因分析的數(shù)據(jù)挖掘模型,雙聚類算法應(yīng)運而生[2-7].雙聚類和傳統(tǒng)聚類算法的本質(zhì)區(qū)別在于,雙聚類可以對基因表達(dá)數(shù)據(jù)矩陣的行和列同時進(jìn)行聚類,挖掘基因表達(dá)數(shù)據(jù)中的局部信息,從而確定在1個實驗條件子集下表現(xiàn)出相似行為的基因.這種無監(jiān)督學(xué)習(xí)技術(shù)是發(fā)現(xiàn)基因之間共表達(dá)或共調(diào)控關(guān)系、預(yù)測基因功能、分析轉(zhuǎn)錄調(diào)控、闡釋生物學(xué)通路和提供疾病機理等研究的重要手段[2-6].

        因為多個基因在關(guān)聯(lián)表達(dá)時,其各自的表達(dá)數(shù)值不需要完全相同[6],所以基因表達(dá)水平的升降模式比基因的精確表達(dá)水平更有意義. 因此,2003年Ben-Dor 等[6]提出OPSM (Order preserving submatrices)雙聚類模型,其根據(jù)是基因表達(dá)水平在不同時間點或不同實驗條件下表現(xiàn)出相同的上調(diào)或下調(diào)趨勢. Fang[8-9]、Hochbaum[10]等分別提出了幾種近似的OPSM 模型,諸如POPSM、AOPSM,但是這些模型不能保證OPSM 的精確度. 目前眾多針對OPSM 問題的精確算法在處理巨型基因數(shù)據(jù)矩陣的問題上都存在嚴(yán)重缺陷:時間復(fù)雜度和空間復(fù)雜度過高.因此在執(zhí)行時,在保證精確度的前提下必須限制所搜索雙聚類的行列數(shù)量,這影響了部分具有重大生物意義的基因聚類(Deep OPSM 模式)的發(fā)現(xiàn).本文提出一種高效的精確性算法,用于挖掘出基因數(shù)據(jù)矩陣中的OPSM,針對Deep OPSM 問題,分析并驗證了算法解決該問題的優(yōu)點.

        1 基本概念和定義

        1.1 基因表達(dá)數(shù)據(jù)集

        基因表達(dá)數(shù)據(jù)可用矩陣D=(dij)m×n表示:

        其中包含m個基因?qū)ο?,n個樣本,元素dij表示第i個基因在第j個條件下的表達(dá)水平值.

        1.2 公共子序列

        序列的子序列是指從給定字符序列中任意地(不一定連續(xù))去掉若干個字符后所形成的序列.如果1個序列既是c1序列的子序列又是c2的子序列,則稱這個序列為序列c1和c2的公共子序列.

        1.3 OPSM 與Deep OPSM 的定義和意義

        假設(shè)矩陣D 存在1個子矩陣,對應(yīng)的行列集合為(R,C),其中R 包含于矩陣D 的行集合中,C 包含于矩陣D 的列集合中,當(dāng)子矩陣(·)中每一行元素都呈現(xiàn)一致性變化趨勢時,此時子矩陣(R,C)就稱為OPSM 聚類[7].圖1A 為基因g1~g6在a ~g 這7 種實驗條件下的表達(dá)值(簡稱“七因子值”)折線圖,表達(dá)值的變化趨勢雜亂無章,無規(guī)律可循. 但如果將基因g1、g2、g6在a、c、d、f、g 這5 種實驗條件下的表達(dá)值從矩陣中抽選值(簡稱“五因子值”)畫出對應(yīng)折線圖(圖1B),這時可以清晰地看出同升同降的共性,即所挖掘的OPSM[6].進(jìn)一步對各行按元素值從小到大排序,則可以得出一致上升的模式(圖1C).

        圖1 基因數(shù)據(jù)OPSM 挖掘前后的表達(dá)值圖示Figure 1 Expression data of OPSM before and after mining

        行數(shù)少、列數(shù)多的OPSM 稱為Deep OPSM,這是OPSM 的一種特殊類型.從生物學(xué)的意義來說,Deep的意義在于即使基因數(shù)較少(2個基因),只要它們在眾多的實驗環(huán)境中,都具有相同變化趨勢的表達(dá)值時,則判斷這2個基因存在緊密聯(lián)系,具有重要的生物學(xué)意義[11].過去研究大都集中在尋找大群體基因中的OPSM 聚類,但目前生物學(xué)家更感興趣的是“小群體基因在很多實驗環(huán)境下緊密地互調(diào)節(jié)關(guān)系”[12],因而更應(yīng)該去關(guān)注和研究一個大基因群體里面數(shù)量很少的基因,它們極有可能在某些生物進(jìn)程或疾病機理上充當(dāng)著重要的角色[13],因此Deep OPSM 在基因表達(dá)數(shù)據(jù)的挖掘中理應(yīng)受到更多研究.但大部分傳統(tǒng)挖掘算法不能很好地解決Deep OPSM 問題,當(dāng)挖掘大群體基因中OPSM 聚類時,如果設(shè)定較低的行閾值,將大量消耗計算機內(nèi)存,甚至導(dǎo)致內(nèi)存溢出.而如果為了減少計算機消耗而設(shè)定較高的行閾值,將導(dǎo)致大量的Deep OPSM 被忽略.本文提出一種新的精確算法,用于挖掘基因表達(dá)數(shù)據(jù)集,以解決這一問題,首先提出一種高效方法尋找2個序列的所有公共子序列,并結(jié)合數(shù)據(jù)結(jié)構(gòu)得到全部OPSM,也包含全部Deep OPSM.

        2 針對OPSM 的精確算法

        首先針對基因數(shù)據(jù)矩陣中的每2 行尋找其公共子序列,然后在整個基因數(shù)據(jù)矩陣的范圍內(nèi),對找到的公共子序列進(jìn)行支持度統(tǒng)計. 當(dāng)公共子序列的支持度超過設(shè)定閾值時,保存該子序列并輸出為目標(biāo)OPSM.

        在解決時間復(fù)雜度高的問題時,利用每2個序列構(gòu)造出來的匹配矩陣,快速地找到2個序列的所有公共子序列.在解決空間復(fù)雜度高的問題時,利用了C++編程環(huán)境中的STL map,存儲產(chǎn)生的序列并統(tǒng)計相應(yīng)的支持度.算法流程如圖2 所示.

        2.1 數(shù)據(jù)預(yù)處理

        原始的基因表達(dá)數(shù)據(jù)矩陣中存在著部分缺失的元素,所以在數(shù)據(jù)預(yù)處理過程中必須對這部分缺失的元素進(jìn)行填充.數(shù)據(jù)預(yù)處理具體操作包括:(1)將數(shù)據(jù)矩陣中缺失的元素填充為0;(2)根據(jù)基因譜中基因表達(dá)水平的大小,對各個實驗條件按照表達(dá)水平遞增進(jìn)行排列;(3)用列標(biāo)識置換數(shù)據(jù)矩陣中對應(yīng)的元素.

        通過以上的數(shù)據(jù)預(yù)處理操作,基因數(shù)據(jù)矩陣可以轉(zhuǎn)換成1個序列數(shù)據(jù)集(表1)

        此時,OPSM 的挖掘問題轉(zhuǎn)化為序列模式挖掘問題,對基因數(shù)據(jù)矩陣的局部聚類即轉(zhuǎn)化為尋找頻繁公共子序列的問題.

        2.2 尋找全部公共子序列ACS 的算法

        本文提出一種高效的方法尋找2個序列的全部公共子序列即ACS (all common subsequences).

        定義1 假設(shè)有2個序列c1={A B C D E F }和c2={F A B C D E },將2個序列的其中一個序列作為行標(biāo)識,另一個序列作為列標(biāo)識.當(dāng)且僅當(dāng)元素dij對應(yīng)的行標(biāo)識與列標(biāo)識相同時,將元素dij置為相應(yīng)的行(列)標(biāo)識,其他元素置“0”,即組成1個矩陣M,稱之為匹配矩陣(圖3).

        圖2 算法流程圖Figure 2 Flowchart of the algorithm

        推論1 由序列c1以及序列c2生成的匹配矩陣M 中,當(dāng)且僅當(dāng)元素B 的位置在元素A 的位置的右下方(即B 行列號都大于A)時,元素B 可接在元素A 的后面構(gòu)成序列c1和c2的公共子序列.

        2.3 查找和存儲ACS

        根據(jù)匹配矩陣的定義和敘述,從匹配矩陣中尋找公共子序列的方法如下:

        表1 數(shù)據(jù)預(yù)處理結(jié)果Table 1 Results of data preprocessing

        圖3 匹配矩陣Figure 3 Matching matrix

        掃描匹配矩陣中第一列,查找非零元素如A,此元素A 為第一個公共子序列的起點.

        掃描下一列的元素,查找非零元素如B,判斷該元素B 的行號:

        如果元素B 的行號大于上一個元素A 的行號,則元素B 可以接在原有公共子序列的后面,形成新的公共子序列.

        如果元素B 的行號小于上一個元素A 的行號,則元素B 不可以接在原有公共子序列的后面,應(yīng)該生成新的公共子序列的起點.

        以此類推,直到判斷完匹配矩陣的最后一列,并以樹的形式存儲查找結(jié)果. 由匹配矩陣生成的結(jié)果存儲如圖4 所示.

        圖4 存儲樹結(jié)構(gòu)Figure 4 Structure of storage tree

        遍歷該樹,得到2個序列的所有公共子序列.在找出每2個序列的所有公共子序列后,對結(jié)果進(jìn)行存儲.對于未出現(xiàn)的新子序列,創(chuàng)建新的存儲單元;對于此前已經(jīng)出現(xiàn)過的子序列,要在其行支持度記錄上加1.因為子序列的個數(shù)多,所以必須使用一種適合快速檢索的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲.

        2.4 頻繁項集統(tǒng)計方法

        利用C++標(biāo)準(zhǔn)程序庫中STL map 對產(chǎn)生的公共子序列進(jìn)行存儲并統(tǒng)計其支持度. 對比支持度與設(shè)定的最小支持度,將頻繁項集作為結(jié)果輸出.STL map 的底層數(shù)據(jù)結(jié)構(gòu)是紅黑樹. 紅黑樹是一種自平衡二叉查找樹,可以在O(lg n)時間內(nèi)做查找、插入和刪除,這里的n 是樹中元素的數(shù)目.運用STL map對產(chǎn)生的公共子序列進(jìn)行存儲并統(tǒng)計支持度,能夠降低算法的空間和時間復(fù)雜度.

        采用STL map 對生成的子序列進(jìn)行存儲具有以下優(yōu)點:(1)用紅黑樹的數(shù)據(jù)結(jié)構(gòu)能快速檢索元素,可以在O(lg n)時間內(nèi)做查找和插入,而雙聚類問題本身是NP 問題,因此該數(shù)據(jù)結(jié)構(gòu)非常適用于雙聚類的精確算法;(2)可以根據(jù)生成的子序列的長度進(jìn)行判斷,從而對子序列進(jìn)行條件存儲.當(dāng)程序只對較長的生成子序列進(jìn)行存儲時,能夠快速地找到長的頻繁項集,這對于挖掘出Deep OPSM 非常有利;(3)根據(jù)條件存儲,可以同時在多臺計算機分析同1個數(shù)據(jù)集,實現(xiàn)并行計算,提高分析處理速度,適應(yīng)大型數(shù)據(jù)矩陣的分析需求.

        3 案例分析

        為了驗證本文方法的有效性,利用真實的基因數(shù)據(jù)矩陣來進(jìn)行實驗. 使用半乳糖酵母基因數(shù)據(jù)集中的時間序列,其中包含205個半乳糖酵母基因在20個時間點(大于2個完整的細(xì)胞周期)的表達(dá)數(shù)據(jù)[14].它是一組在真實的實驗條件下獲得的基因表達(dá)數(shù)據(jù),是Yee 等[15]從生物數(shù)據(jù)庫中搜索出的205條基因,它們分別歸屬于4個功能類別(表2),這4個功能類別也被廣泛用于衡量聚類質(zhì)量的外部標(biāo)準(zhǔn).

        系統(tǒng)開發(fā)平臺參數(shù)如下:

        處理器:Intel(R)Core(TM)i3 CPU M 380 @2.53 GHz;內(nèi)存:4G;運行速度2 533.3 MHz;計算機系統(tǒng)為Windows7;運行軟件為VS2010;實驗編程語言為C++.

        表2 數(shù)據(jù)集的4個功能類別Table 2 Four functions of the genes in this dataset

        3.1 OPSMs 可視化分析

        使用本文提出的算法挖掘出全部OPSMs,并把4個典型OPSMs 進(jìn)行可視化操作,繪制成折線圖(圖5),直觀地發(fā)現(xiàn)其共同特點. 橫坐標(biāo)為對應(yīng)OPSMs 聚類的列號,縱坐標(biāo)為對應(yīng)的聚類元素在基因表達(dá)數(shù)據(jù)矩陣上的表達(dá)值. 每一條折線所對應(yīng)的聚類基因,其表達(dá)值在原矩陣中呈現(xiàn)同增同減的一致變化趨勢,即OPSM.

        圖5 隨機挑選實驗中找到的4個OPSMs 折線圖Figure 5 Broken line charts of OPSMs found in randomly picked experiments

        3.2 算法性能比較

        對文獻(xiàn)[7]算法和本文算法所挖掘出的OPSMs進(jìn)行可視化操作,分別繪制成折線圖進(jìn)行比較.行閾值均設(shè)置為20,本文算法的列閾值設(shè)置為6 時,由于剪掉的序列模式較多,所以2 種算法均能在內(nèi)存負(fù)擔(dān)能承受的范圍內(nèi)挖掘出相應(yīng)的結(jié)果(圖6). 均比較第33 790個OPSMs.橫坐標(biāo)為對應(yīng)OPSMs 聚類的列號,縱坐標(biāo)為對應(yīng)的聚類元素在基因表達(dá)數(shù)據(jù)矩陣上的表達(dá)值.2 種算法對應(yīng)結(jié)果中每一條折線對應(yīng)的聚類基因,其表達(dá)值在原矩陣中呈現(xiàn)一致的同增同減變化趨勢,即為OPSM.

        為了挖掘出Deep OPSM 而把2個算法的行閾值降低為2 時,文獻(xiàn)[7]算法在運行過程中內(nèi)存占用量極大,導(dǎo)致結(jié)果無法挖掘出來,普通的服務(wù)器根本無法承受其內(nèi)存負(fù)擔(dān). 本文算法在同等行閾值條件下,運行過程中占用的內(nèi)存比文獻(xiàn)[7]算法占用的內(nèi)存小,說明本文算法更適合挖掘Deep OPSM.如圖7 所示,統(tǒng)計行閾值α 分別為2、3、4 時,可挖掘出列數(shù)分別為10 ~15 的Deep OPSM 的數(shù)量. 在相同行閾值下,OPSM 數(shù)量隨著列數(shù)的增加而減少;在列數(shù)相同時,OPSM 數(shù)量隨著行閾值的增加而急劇減少. 而行數(shù)較少、列數(shù)較多的OPSM 往往更具有生物學(xué)意義,本算法能有效地將Deep OPSMs 挖掘出來.

        3.3 GO 分析

        GO(Gene Ontology)[16]注釋被用來檢驗本文算法生成的OPSM 聚類的生物學(xué)意義,對產(chǎn)生的聚類結(jié)果作真實性驗證. GO 是基因本體聯(lián)合會(Gene Onotology Consortium)所建立的數(shù)據(jù)庫,旨在建立一個適用于各種物種的、對基因和蛋白質(zhì)功能進(jìn)行限定和描述的、并能隨著研究不斷深入而更新的語言詞匯標(biāo)準(zhǔn).

        圖6 算法性能比較Figure 6 Performance comparisons of two algorithms

        圖7 低閾值Deep OPSM 統(tǒng)計圖Figure 7 Statistical chart of Deep OPSMs based on low threshold

        從本文算法產(chǎn)生的OPSM 聚類中挑選出部分聚類,進(jìn)行GO 注釋實驗.結(jié)果證明,實驗產(chǎn)生的OPSM聚類,能夠?qū)?yīng)某些基因關(guān)聯(lián)調(diào)控的生物特征.列出部分GO 注釋的查找結(jié)果如表3 所示. 其中當(dāng)Pvalue 值較低時,說明了該簇基因在1個或者多個GO 項目中具有某些特別的生物學(xué)意義. 部分P-value 值小于1.0 ×10-25的GO 項目,表明本文算法能夠找到包含關(guān)聯(lián)調(diào)控信息的基因簇,從生物意義上證明了本文方法的可行性.

        表3 GO 分析部分結(jié)果Table 3 Part of GO analysis results

        4 結(jié)論

        OPSM 模型作為一種基于模式的雙聚類方法,在分析基因數(shù)據(jù)矩陣等方面被廣泛的應(yīng)用. 在一個OPSM 聚類中,形成聚類的若干基因在特定的條件子集下有一致的表達(dá)模式. 這種關(guān)聯(lián)的共同表達(dá)隱含著基因的關(guān)聯(lián)調(diào)控,所以在基因數(shù)據(jù)矩陣上進(jìn)行的雙聚類分析有極大的生物學(xué)意義. 本文根據(jù)OPSM 模型,建立了一種快速有效的精確性尋找方法,來挖掘分散在基因數(shù)據(jù)矩陣中的OPSM 聚類.結(jié)果證明,該方法能夠快速地找到符合條件的OPSM聚類,并且能夠通過條件存儲,針對長頻繁模式進(jìn)行尋找分析,挖掘出更具生物學(xué)意義的Deep OPSM 聚類.此外,通過條件存儲,可以在多臺計算機上實現(xiàn)并行計算,提高分析處理速度,適應(yīng)大型數(shù)據(jù)矩陣的分析需求.最后從生物學(xué)(以半乳糖酵母基因數(shù)據(jù)中的時間序列)的角度,驗證了該方法的可行性.

        [1]蔡莉,郭紅. 一種改進(jìn)的基因表達(dá)數(shù)據(jù)雙聚類算法[J].福州大學(xué)學(xué)報:自然科學(xué)版,2010,38(1):41-47.Cai L,Guo H. An improved biclustering a lgorithm for gene expression data[J]. Journal of Fuzhou University:Natural Science,2010,38(1):41-47.

        [2]Lazzeronil L,Owen A. Plaid models for gene expression data[J]. Statistica Sinica,2000,12(1):61-86.

        [3]Andrew C T,Prokopyev O A. Solving the order-preserving submatrix problem via integer programming[J]. Informs Journal on Computing,2010,22(3):387-400.

        [4]Liu J Z,Wei W. OP-cluster:Clustering by tendency in high dimensional space[C]∥3rd IEEE International Conference on Data Mining. Melbourne,USA,2003:187-194.

        [5]Yun X,Li Y T,Deng W J,et al. Mining order-preserving submatrices based on frequent sequential pattern mining[C]∥Health Information Science,HIS 2014.Shenzhen,China,2014:184-193.

        [6]Ben-Dor A,Chor B,Karp R,et al. Discovering local structure in gene expression data:The order-preserving submatrix problem[J]. Journal of Computational Biology,2003,10(3/4):373-384.

        [7]Cheung L,Kevin Y Y,Cheund D W,et al. On mining micro-array data by order-preserving submatrix[J]. International Journal of Bioinformatics Research A,2007,3(1):42-64.

        [8]Fang Q. Effective discovery of order-preserving submatrices[D]. Hong Kong:Hong Kong University of Science and Technology,2012.

        [9]Fang Q,Wilfred N G,F(xiàn)eng J L,et al. Mining order-preserving submatrices from probabilistic matrices[J]. ACM Transactions on Database Systems,2014,39(1):1-44.

        [10]Hochbaum D S,Levin A. Approximation algorithms for a minimization variant of the order-preserving submatrices and for biclustering problems[J]. ACM Transactions on Algorithms,2013,9(2):1-12

        [11]Byron J G,Grifiith O L,Ester M,et al. On the deep order-preserving submatrix problem:A best effort approach[J]. IEEE Transactions on Knowledge and Data Engineering,2012,24(2):309-325.

        [12]Williamson M P,Sutcliffe M J. Protein-protein interactions[J]. Biochemical Society Transactions,2010,38(4):875-878.

        [13]Albert R. Scale-free networks in cell biology[J]. Journal of Cell Science,2005,118(21):4947-4957.

        [14]Ideker T,Thorsson V,Ranish J A,et al. Integrated genomic and proteomic analyses of a systematically perturbed metabolic network[J]. Science,2001,292(5518):929-934.

        [15]Yee Y K,Medvedovic M,Bumgarner R E. Clustering gene-expression data with repeated measurements[J].Genome Biology,2003,4(5):1-17.

        [16]David M,Brun C,Remy E,et al. GOToolBox:Functional analysis of gene datasets based on gene ontology[J]. Genome Biology,2005,5(12):1-8.

        猜你喜歡
        挖掘出聚類閾值
        小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
        從唱片里面挖掘出更多的細(xì)節(jié) Thorens多能士| TD 905黑膠唱盤
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        三次實地采訪,挖掘出暖新聞背后的超暖細(xì)節(jié)
        傳媒評論(2018年5期)2018-07-09 06:05:20
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        感悟生活,拓展思維空間
        室內(nèi)表面平均氡析出率閾值探討
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        优优人体大尺大尺无毒不卡 | 国产在线观看无码免费视频| 十八禁视频在线观看免费无码无遮挡骂过 | 又污又黄又无遮挡的网站| 五月天丁香久久| 亚洲 无码 制服 丝袜 自拍| av男人的天堂手机免费网站| 精品久久亚洲中文字幕| 国产成人亚洲综合| 亚洲精品无码久久久影院相关影片| 色欲麻豆国产福利精品| 无码精品人妻一区二区三区98| 亚洲一区久久久狠婷婷| 白白色最新福利视频二| 免费亚洲一区二区三区av| 国产高清av首播原创麻豆| 狠狠色噜噜狠狠狠97影音先锋| 91狼友在线观看免费完整版| 一区二区三区四区四色av| 风韵犹存丰满熟妇大屁股啪啪| 狠狠噜天天噜日日噜无码| 亚洲中文无码久久精品1| 成人全视频在线观看免费播放| 友田真希中文字幕亚洲| 白又丰满大屁股bbbbb| 中文字幕精品一二三区| 亚洲国产欲色有一二欲色| 亚洲国产美女高潮久久久| 中文亚洲欧美日韩无线码| 国产精品久久久久…| 亲少妇摸少妇和少妇啪啪| 国产亚洲精品视频一区二区三区| 久久久www免费人成精品| 免费av在线国模| 国产男女做爰猛烈视频网站| 精品一区2区3区4区| 亚洲精品国精品久久99热| 色妺妺在线视频| 亚洲一区日本一区二区| 精品天堂色吊丝一区二区| 国产一线二线三线女|