路東方,許俊富,項(xiàng)超娟,謝 江(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444)
生物大數(shù)據(jù)中的聚類方法分析
路東方,許俊富,項(xiàng)超娟,謝江
(上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海200444)
隨著人類基因組計(jì)劃的實(shí)施和完成,生物實(shí)驗(yàn)技術(shù)快速發(fā)展,生物數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)并不斷積累,生命科學(xué)迎來(lái)了大數(shù)據(jù)時(shí)代.在后基因組時(shí)代,單一的統(tǒng)計(jì)模式逐漸被智能化與綜合分析相結(jié)合的方式所取代,聚類分析便是核心的數(shù)據(jù)挖掘方式.描述了生物信息學(xué)領(lǐng)域中的大數(shù)據(jù)現(xiàn)狀,總結(jié)基因表達(dá)譜分析和生物網(wǎng)絡(luò)分析中常用的聚類方法,并對(duì)小鼠胚胎成纖維細(xì)胞的時(shí)間序列數(shù)據(jù)進(jìn)行實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)結(jié)果表明,不同的聚類方法生成了不同的實(shí)驗(yàn)結(jié)果,面臨高噪聲的生物大數(shù)據(jù),選擇或結(jié)合合適的聚類方法進(jìn)行綜合分析將有助于獲得更可靠的分析結(jié)果.
生物大數(shù)據(jù);數(shù)據(jù)分析;聚類方法
生物信息學(xué)是一門交叉學(xué)科,包含了對(duì)生物信息數(shù)據(jù)的獲取、處理、儲(chǔ)存、轉(zhuǎn)發(fā)、分析和解釋等方方面面.生物信息學(xué)綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來(lái)闡明和理解生物信息數(shù)據(jù)所包含的生物學(xué)意義[1].生物信息學(xué)發(fā)展呈現(xiàn)出兩個(gè)主要特征:一是伴隨著海量生物數(shù)據(jù)的產(chǎn)生;二是相關(guān)科研活動(dòng)逐步從傳統(tǒng)的手工統(tǒng)計(jì)方式轉(zhuǎn)向智能化與綜合分析相結(jié)合的方式.
2000年6月26日,被譽(yù)為生命“阿波羅計(jì)劃”的人類基因組計(jì)劃工作草圖的完成,是生物信息學(xué)發(fā)展史上又一個(gè)里程碑式的事件,它預(yù)示著完成人類基因組計(jì)劃已經(jīng)指日可待.迄今已完成了約40多種生物的全基因組測(cè)序工作,其中人類基因組已完成了約3×109個(gè)堿基對(duì)的測(cè)序任務(wù).尤其是第二代測(cè)序技術(shù)[2]的發(fā)展,使得基因組學(xué)每天都產(chǎn)生數(shù)以“T”計(jì)的海量數(shù)據(jù).
在數(shù)據(jù)爆炸時(shí)代,根據(jù)數(shù)據(jù)類型進(jìn)行有效整合是非常重要的.截至2012年[3],僅記錄在美國(guó)GenBank數(shù)據(jù)庫(kù)(美國(guó)國(guó)家生物技術(shù)信息中心的DNA序列總數(shù)據(jù)庫(kù))中的DNA序列總量就已超過(guò)了70億個(gè)堿基對(duì)[3-4].在這樣一個(gè)生物信息的浪潮之巔,生物大數(shù)據(jù)的積累無(wú)疑會(huì)隨著時(shí)間的演進(jìn)而愈發(fā)增多.基于cDNA序列測(cè)序建立起來(lái)的reptiledatabase[5](爬行動(dòng)物數(shù)據(jù)庫(kù))中已經(jīng)存儲(chǔ)了超過(guò)1萬(wàn)個(gè)基因的數(shù)據(jù).美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)下的基因表達(dá)數(shù)據(jù)庫(kù)(Gene Expression Omnibus,GEO)[6]中已存儲(chǔ)了3 848個(gè)數(shù)據(jù)集,包括1 618 438個(gè)樣本的基因表達(dá)、基因芯片、蛋白質(zhì)結(jié)構(gòu)信息等數(shù)據(jù).在這些數(shù)據(jù)的基礎(chǔ)上派生、整理出來(lái)的數(shù)據(jù)庫(kù)已超過(guò)500個(gè),這一切構(gòu)成了生物學(xué)數(shù)據(jù)的海洋.這些科學(xué)數(shù)據(jù)的急速增長(zhǎng)和海量積累[7],在人類的科學(xué)研究歷史上是空前的.圖1統(tǒng)計(jì)了GEO中從2000年到2015年存儲(chǔ)樣本數(shù)據(jù)的變化情況.
圖1 GEO樣本數(shù)據(jù)增長(zhǎng)趨勢(shì)Fig.1 Trends of GEO samples
常用的生物數(shù)據(jù)庫(kù)分為以下三類:一是基于DNA序列的數(shù)據(jù)庫(kù),包括與DNA的復(fù)制、轉(zhuǎn)錄、修復(fù)等密切相關(guān)的蛋白質(zhì)因子數(shù)據(jù)庫(kù),有GenBank、EMBL(European Molecular Biology Laboratory,歐洲分子生物學(xué)實(shí)驗(yàn)室的DNA和RNA序列庫(kù))、RepBase(真核生物DNA中重復(fù)序列數(shù)據(jù)庫(kù))等;二是基于核酸序列的數(shù)據(jù)庫(kù),主要有INSD(International Nucleotide Sequence Database,國(guó)際核酸序列數(shù)據(jù)庫(kù))、DDBJ(DNA Data Bank of Japan,日本核酸數(shù)據(jù)庫(kù))等;三是基于蛋白質(zhì)建立的數(shù)據(jù)庫(kù),主要有BIOGRID(Biological General Repository for Interaction Datasets,蛋白質(zhì)-蛋白質(zhì)以及基因相互作用的數(shù)據(jù)庫(kù))、DIP(Database of Interacting Proteins,蛋白質(zhì)功能和蛋白質(zhì)-蛋白質(zhì)關(guān)系數(shù)據(jù)庫(kù)),STRING(Search Tool for the Retrieval of Interacting Genes/Proteins,已知和預(yù)測(cè)蛋白質(zhì)相互作用數(shù)據(jù)庫(kù))、Uniprot(Universal Protein Resource,蛋白質(zhì)序列功能信息數(shù)據(jù)庫(kù))等.
在當(dāng)前的大數(shù)據(jù)時(shí)代,通常這些數(shù)據(jù)表現(xiàn)出以下四個(gè)特征[8-11]:①數(shù)據(jù)量巨大;②數(shù)據(jù)類別多樣;③數(shù)據(jù)潛在價(jià)值高;④增長(zhǎng)速度驚人.人類基因組計(jì)劃的實(shí)施和完成,以及下一代測(cè)試技術(shù)(又稱為高通量測(cè)序技術(shù))的不斷發(fā)展,不僅解決了生命科學(xué)發(fā)展中的經(jīng)濟(jì)障礙,而且產(chǎn)生了更多的生物數(shù)據(jù),推進(jìn)了生命科學(xué)乃至醫(yī)學(xué)水平的發(fā)展.常見的生物數(shù)據(jù)類型包括基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等,具體表現(xiàn)形式有基因的表達(dá)值、蛋白質(zhì)相互作用、蛋白質(zhì)結(jié)構(gòu)等.生命科學(xué)的巨量數(shù)據(jù)正以多種類型和不同表現(xiàn)形式急劇膨脹,生命科學(xué)迎來(lái)了大數(shù)據(jù)時(shí)代[12-13].毫無(wú)疑問(wèn),這些生物大數(shù)據(jù)蘊(yùn)涵著巨大價(jià)值,然而數(shù)據(jù)不等于信息和知識(shí),而只是信息和知識(shí)的源泉.生物學(xué)家們需要將看似雜亂的數(shù)據(jù)轉(zhuǎn)變成可用的資源以后才能充分利用這些數(shù)據(jù).計(jì)算科學(xué)的發(fā)展在伴隨著一定挑戰(zhàn)的同時(shí),也給生命科學(xué)的“大數(shù)據(jù)時(shí)代”帶來(lái)了曙光.一方面,通過(guò)足夠的技術(shù)保障,可以保存這些具有巨大價(jià)值的生物大數(shù)據(jù);另一方面,通過(guò)一些特定的方法充分挖掘這些大數(shù)據(jù)中隱藏的信息,將給生命科學(xué)研究帶來(lái)無(wú)限可能.
生物數(shù)據(jù)挖掘是當(dāng)前生物數(shù)據(jù)研究的重點(diǎn)內(nèi)容之一.常用的統(tǒng)計(jì)學(xué)方法已無(wú)法適應(yīng)當(dāng)前的大數(shù)據(jù)時(shí)代,而作為機(jī)器學(xué)習(xí)領(lǐng)域的無(wú)監(jiān)督算法——聚類,卻備受青睞.在生物信息學(xué)研究領(lǐng)域中,從基本的序列分析、分子進(jìn)化和比較基因組學(xué),到蛋白質(zhì)結(jié)構(gòu)比對(duì)和預(yù)測(cè),再到計(jì)算機(jī)輔助藥物設(shè)計(jì)等,聚類分析都顯示出極大的優(yōu)勢(shì).合適的聚類方法有助于發(fā)現(xiàn)相似的DNA,RNA或蛋白質(zhì)功能組.一方面,是基于基因表達(dá)譜的聚類,其主要研究方式分為3種[14-15]:一是基于時(shí)間序列的分析,也就是測(cè)定基因在多個(gè)時(shí)間點(diǎn)的表達(dá)值,通過(guò)聚類和主成分分析等手段尋找共表達(dá)基因;二是基因表達(dá)差異的顯著性分析;三是蛋白質(zhì)調(diào)控功能的研究.另一方面,是基于生物網(wǎng)絡(luò)的聚類,如蛋白質(zhì)相互作用網(wǎng)絡(luò)的分析等.本研究結(jié)合生物大數(shù)據(jù)的研究背景,綜合概述常用的聚類方法在生物數(shù)據(jù)分析中的應(yīng)用.
2.1聚類分析概念
聚類是現(xiàn)階段計(jì)算機(jī)科學(xué)領(lǐng)域最熱門的研究課題之一,在數(shù)據(jù)挖掘、生物信息學(xué)、圖像處理、復(fù)雜網(wǎng)絡(luò)(如社交網(wǎng)絡(luò))等方面得到了成功應(yīng)用.對(duì)生物大數(shù)據(jù)的分析和預(yù)測(cè)是生物信息學(xué)的兩個(gè)重要任務(wù),聚類分析便是該領(lǐng)域中一個(gè)非?;钴S的研究課題.聚類與分類不同,它不依賴于預(yù)先定義的類和帶標(biāo)號(hào)的訓(xùn)練實(shí)例,也不確定會(huì)產(chǎn)生幾個(gè)不同的簇.
聚類分析作為一種探索性的數(shù)據(jù)分析方法[16-18],根據(jù)所要研究對(duì)象(個(gè)體)的屬性值特征,采用合適的計(jì)算方法對(duì)其進(jìn)行整理,將相似度較高的對(duì)象劃分為一類;再對(duì)同一類內(nèi)個(gè)體的共性及不同類間個(gè)體的差異性作進(jìn)一步歸納,從而得出新的規(guī)律.聚類方法建立在多元統(tǒng)計(jì)基礎(chǔ)之上,是模式識(shí)別、數(shù)據(jù)挖掘等領(lǐng)域中常用的基礎(chǔ)方法,尤其適用于分析模式類別數(shù)目不確定的情況.合理運(yùn)用聚類分析方法,將復(fù)雜生物數(shù)據(jù)根據(jù)某些相似性度量規(guī)則(如基于歐式距離的相似矩陣)進(jìn)行有效挖掘,對(duì)于相似基因表達(dá)模塊、蛋白質(zhì)功能組等生物內(nèi)容的研究大有裨益.
在生物信息學(xué)中,可以針對(duì)不同的數(shù)據(jù)集進(jìn)行聚類分析.通過(guò)基因表達(dá)譜的聚類[19],分析聚在一個(gè)簇中的基因,有助于找到表達(dá)模式相近的共表達(dá)基因組、探索未知基因的功能、研究基因的調(diào)控以及細(xì)胞分化的過(guò)程等,相比分析單個(gè)基因其可靠性更高.通過(guò)基于網(wǎng)絡(luò)的聚類分析,可以發(fā)現(xiàn)功能相近的家族蛋白,充分了解細(xì)胞內(nèi)部的工作機(jī)理.基于網(wǎng)絡(luò)的數(shù)據(jù)主要指蛋白質(zhì)相互作用網(wǎng)絡(luò)、基因調(diào)控網(wǎng)絡(luò)和代謝網(wǎng)絡(luò)三種.
傳統(tǒng)的聚類方法包括基于劃分的聚類和基于層次的聚類.劃分聚類包括K-均值聚類、K-中心點(diǎn)聚類等;層次聚類包括基于距離的分層聚類和基于概率的分層聚類等.近年來(lái),生物技術(shù)的突飛猛進(jìn)和大數(shù)據(jù)的積累,產(chǎn)生了很多新型的聚類方法[20],如譜聚類、自組織映射神經(jīng)網(wǎng)絡(luò)聚類、雙聚類、二次聚類、模糊聚類,以及基于生物大數(shù)據(jù)的并行聚類方法[21]等,這些聚類方法給大數(shù)據(jù)時(shí)代帶來(lái)了無(wú)限生機(jī).
2.2聚類分析基本要求
聚類分析借助于不同的相似性度量規(guī)則,產(chǎn)生了不同的方法.對(duì)于不同的數(shù)據(jù)類型、不同的目的以及不同的應(yīng)用領(lǐng)域,應(yīng)該選擇合適的聚類方法加以分析.在生物信息發(fā)展領(lǐng)域,自1998年Eisen等[22]的基于距離度量的基因表達(dá)聚類分析,到2001年Hartmink等[23]的基于調(diào)控網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的聚類分析,乃至如今對(duì)于大數(shù)據(jù)的挖掘,都體現(xiàn)了生物數(shù)據(jù)聚類的發(fā)展及挑戰(zhàn).因此,聚類分析在生物領(lǐng)域的應(yīng)用中也形成了一些基本的要求[24],主要有以下幾點(diǎn).
(1)可伸縮性,指算法除了應(yīng)用于小規(guī)模數(shù)據(jù)外,還要能夠適應(yīng)大數(shù)據(jù)背景下的要求,因此要保證算法的時(shí)間復(fù)雜度足夠低,占用空間足夠小.
(2)適應(yīng)性,指算法對(duì)于目標(biāo)數(shù)據(jù)類型的識(shí)別,除了能處理數(shù)值型數(shù)據(jù)(如基因的表達(dá)值),還要能處理非數(shù)值型數(shù)據(jù)(如網(wǎng)絡(luò)類型、時(shí)間序列類型、生成樹類型等).
(3)可用性.目前數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)可能是任意形狀的,因此要求算法具備能夠發(fā)現(xiàn)任意形狀的聚類能力.
(4)弱依賴性.很多聚類方法都要求用戶輸入一些參數(shù)(如聚類數(shù)目、支持度等),這些參數(shù)的值都可能對(duì)聚類分析的結(jié)果產(chǎn)生很大影響.
(5)對(duì)高維數(shù)據(jù)分析的能力.傳統(tǒng)的數(shù)據(jù)分析對(duì)低維數(shù)據(jù)效果良好,卻不一定適合大數(shù)據(jù)背景下的高維數(shù)據(jù),因此聚類分析應(yīng)該具有降維分析或直接分析的能力.
3.1基于基因表達(dá)譜的聚類
3.1.1K-均值聚類
K-均值聚類[25]的中心用各類別中所有數(shù)據(jù)的平均值表示,首先選k個(gè)初始點(diǎn)放入簇中計(jì)算平均值,然后重新將每個(gè)點(diǎn)放入與平均值距離最近的簇,重新計(jì)算平均值,直到均值不變或變化小于某一閾值.因此,這種方法一般被稱為基于“質(zhì)心”的技術(shù).需注意的是,在一般情況下,這些質(zhì)心不是X中的點(diǎn),雖然它們屬于同一個(gè)空間.K均值常常被稱為L(zhǎng)loyd's算法,其目標(biāo)是在盡量減小簇內(nèi)誤差平方和的基礎(chǔ)上選擇質(zhì)心,即一組N個(gè)樣本集合X分為不相交的K個(gè)簇,各由簇中的樣本均值μj表示:
K-均值聚類的過(guò)程[26]如圖2所示.
圖2 K-均值聚類的過(guò)程Fig.2 Process of K-means clustering
2014年,Marco等[27]的基于分岔理論的單細(xì)胞分析聚類實(shí)驗(yàn)中,從小鼠胚胎早期階段分離出438個(gè)體細(xì)胞,根據(jù)其基因的表達(dá)水平,使用高通量的反轉(zhuǎn)錄聚合酶鏈?zhǔn)椒磻?yīng)(reverse transcription polymerase chain reaction,RT-PCR)定量選擇48個(gè)基因,其中包括發(fā)育過(guò)程中的27個(gè)關(guān)鍵轉(zhuǎn)錄因子.從單細(xì)胞到64細(xì)胞階段,在7個(gè)不同的時(shí)間點(diǎn)提取細(xì)胞,每一個(gè)時(shí)間點(diǎn)對(duì)應(yīng)一個(gè)細(xì)胞加倍階段.對(duì)這些數(shù)據(jù)運(yùn)用K-均值聚類方法和間距統(tǒng)計(jì)方法進(jìn)行聚類.在每一個(gè)時(shí)間點(diǎn),將每個(gè)細(xì)胞根據(jù)其基因表達(dá)譜分配給一個(gè)父類簇.為了確定某一分岔事件是否發(fā)生,將每個(gè)父類簇的子簇根據(jù)K-均值聚類進(jìn)一步分為2個(gè)不同的簇,并采用間隙統(tǒng)計(jì)來(lái)選擇單簇或雙簇模型.重復(fù)上述過(guò)程,直到最后的時(shí)間點(diǎn).這樣就可以創(chuàng)建細(xì)胞層次的二叉樹初始估計(jì)模型.
下面定義描述最佳全局基因表達(dá)模式二叉樹的結(jié)構(gòu).通過(guò)懲罰似然函數(shù)評(píng)估每個(gè)參數(shù)的性能,即
式中,θ表示所有參與定義樹結(jié)構(gòu)中的參數(shù);x為觀測(cè)數(shù)據(jù);μc和μa(c)分別為簇c和a(c)的中心,其中a(c)為c的父類簇;λ為事先定義的常量,本實(shí)驗(yàn)中設(shè)置λ=1.將最終的聚類結(jié)果[27]投影到空間上(見圖3).
圖3 細(xì)胞階段聚類結(jié)果Fig. 3 Clustering results of cell stages
圖3顯示了兩個(gè)分岔方向上跨平面的整體結(jié)構(gòu),其中X32和X64不完全正交,每種顏色代表不同的集群,父子集群對(duì)由直線連接.圖3進(jìn)一步證明了細(xì)胞分化過(guò)程中的兩個(gè)重要階段,32細(xì)胞階段和64細(xì)胞階段,這對(duì)于細(xì)胞分化的動(dòng)力學(xué)研究非常有益.
3.1.2K-中心點(diǎn)聚類
K-中心點(diǎn)聚類[28]不同于K-均值聚類,而是選取一個(gè)到其他所有點(diǎn)距離之和最小的點(diǎn)作為中心點(diǎn).這種聚類方法能處理任意類型數(shù)據(jù)的屬性,對(duì)異常數(shù)據(jù)不敏感,因此這些看似異常的數(shù)據(jù)可能會(huì)導(dǎo)致聚類結(jié)果的均值變得“扭曲”.與K-均值聚類一樣,K-中心點(diǎn)聚類也可以采用歐幾里得距離來(lái)衡量樣本點(diǎn)之間的相似性,終止條件是當(dāng)所有的類簇的質(zhì)點(diǎn)都不再發(fā)生變化時(shí),認(rèn)為聚類結(jié)束.這里,距離的定義如下:
K-中心點(diǎn)聚類在小型數(shù)據(jù)集上運(yùn)行良好,但不適合大數(shù)據(jù)集,其算法復(fù)雜度為O(k(nk)),相對(duì)較高.K-中心點(diǎn)聚類的過(guò)程[25]如圖4所示.
2014年,Trapnell等[29]的關(guān)于細(xì)胞擬時(shí)間動(dòng)力學(xué)分析的研究中,提出對(duì)單細(xì)胞進(jìn)行聚類,將具有相似基因表達(dá)的基因聚類為一組.該實(shí)驗(yàn)首先將具有相似表達(dá)趨勢(shì)的基因分為一組,因?yàn)檫@些細(xì)胞可能共享某些生物學(xué)功能和調(diào)控.一旦每個(gè)基因具有廣義相加模型(generalized additive models,GAM)值,這些模型就可以用來(lái)預(yù)測(cè)擬時(shí)間功能的平滑響應(yīng)曲線.規(guī)范這些曲線,允許所有基因的數(shù)據(jù)跨擬時(shí)間設(shè)置有效的K-中心點(diǎn)聚類.根據(jù)方向和時(shí)間,基因x和y之間的成對(duì)距離為
式中,ρx,y表示響應(yīng)曲線的Pearson相關(guān)系數(shù),簇對(duì)應(yīng)的基因遵循相同的相對(duì)動(dòng)力學(xué)趨勢(shì).在實(shí)驗(yàn)中,聚類對(duì)象不是原始數(shù)據(jù),而是基于GAM響應(yīng)曲線.相對(duì)于通常采用的中心點(diǎn),這種聚類方法具有較小的均方根誤差,更符合動(dòng)力學(xué)原理;同時(shí),對(duì)于模式分析的支持也更多樣化.在這項(xiàng)研究中,聚類分析了全部可檢測(cè)的基因表達(dá),無(wú)需考慮擬時(shí)間序列調(diào)控的意義.K-中心點(diǎn)聚類在基因的log轉(zhuǎn)換和標(biāo)準(zhǔn)化后對(duì)基因擬時(shí)間的GAM進(jìn)行聚類.聚類應(yīng)用R語(yǔ)言中的PAM包進(jìn)行.實(shí)驗(yàn)產(chǎn)生了6個(gè)區(qū)別明顯的簇,并最終根據(jù)聚類結(jié)果對(duì)6個(gè)簇進(jìn)行順式調(diào)控分析.
圖4 K-中心點(diǎn)聚類的過(guò)程Fig.4 Process of K-mediods clustering
3.1.3層次聚類
層次聚類[25]是一種將數(shù)據(jù)結(jié)構(gòu)化為組群對(duì)象,通過(guò)自上而下(或自下而上)的迭代,構(gòu)建相似嵌套集群的聚類方法.層次聚類的結(jié)構(gòu)常用樹狀圖來(lái)表示,樹根即為所選樣本的集合,葉子節(jié)點(diǎn)是單一的樣本數(shù)據(jù).自下而上(凝聚)的聚類[20]是由每個(gè)單一樣本構(gòu)成初始簇,根據(jù)歐式距離(見式(3))或余弦距離等度量標(biāo)準(zhǔn),逐層合并相似簇;自上而下(分裂)的聚類是由所有樣本構(gòu)成初始簇,逐層分裂為相似度較低的集合.層次聚類還衍生出了基于密度和基于網(wǎng)格[30]等的聚類方法,特別適用于中等規(guī)模的數(shù)據(jù)集,具有簡(jiǎn)單、直接的優(yōu)點(diǎn).自下而上的層次聚類過(guò)程如圖5所示.
2015年,Levine等[31]的關(guān)于數(shù)據(jù)驅(qū)動(dòng)下急性骨髓白血病的表現(xiàn)型研究中,對(duì)16個(gè)小兒急性髓細(xì)胞白血?。╝cute myelocytic leukemia,AML)患者以及5個(gè)正常人總共1.5億個(gè)高維數(shù)據(jù)定義的表型細(xì)胞作關(guān)聯(lián)性分析.對(duì)細(xì)胞表面的16個(gè)信號(hào)特征和內(nèi)部的14個(gè)抗體信號(hào)特征進(jìn)行觀察和數(shù)據(jù)采樣,以Jaccard系數(shù)作為相似度的衡量標(biāo)準(zhǔn),對(duì)一組干細(xì)胞和相關(guān)分化細(xì)胞進(jìn)行分層聚類,這些病人的層次聚類描述顯示一些遺傳異質(zhì)性與遺傳標(biāo)志物相關(guān),細(xì)胞表面標(biāo)志物并不能作為細(xì)胞表型變化的衡量標(biāo)準(zhǔn).因此,在研究細(xì)胞變化的過(guò)程中,通過(guò)細(xì)胞內(nèi)的信號(hào)分泌物才能得到比較準(zhǔn)確的信息.
圖5 自下而上的層次聚類過(guò)程Fig.5 Process of bottom-up hierarchical clustering
隨著生物技術(shù)的逐漸成熟,大量生物數(shù)據(jù)不斷產(chǎn)生,數(shù)據(jù)維度也越來(lái)越高.在一般情況下,對(duì)高維數(shù)據(jù)的聚類主要分為子空間聚類法和維歸約法.子空間聚類法又大致分為子空間搜索法、基于相關(guān)性聚類法和雙聚類法.雙聚類[32]是指通過(guò)二維空間上兩個(gè)維度同時(shí)聚類的方法,比如在基因表達(dá)上的應(yīng)用中,通常所說(shuō)的基因表達(dá)數(shù)據(jù)或DNA微陣列數(shù)據(jù)是一個(gè)基因-樣本/條件矩陣,其中每行表示一個(gè)基因,每列表示一個(gè)樣本或條件,從聚類的角度看即是對(duì)兩個(gè)維度的分析.2012年,Gerstein等[33]的關(guān)于人類調(diào)控網(wǎng)絡(luò)的DNA元件百科全書(encyclopedia of DNA elements,ENCODE)數(shù)據(jù)研究中,通過(guò)雙聚類對(duì)基因表達(dá)譜進(jìn)行分析,最終發(fā)現(xiàn)了特定背景下幾種共關(guān)聯(lián)的表達(dá)基因.當(dāng)然,面對(duì)高維大數(shù)據(jù)也可以采用譜聚類等方法,或者借助于MapReduce工具來(lái)實(shí)現(xiàn).
3.2基于蛋白質(zhì)網(wǎng)絡(luò)的聚類
分子生物學(xué)是一門研究生物本身組成成分的科學(xué),主要包括核酸、蛋白質(zhì)和酶的結(jié)構(gòu)和合成、功能和代謝、表達(dá)和調(diào)控以及它們之間的相互作用等,以此來(lái)揭示生命的本質(zhì),是目前生物發(fā)展進(jìn)程中的基礎(chǔ)學(xué)科.而研究蛋白質(zhì)的相互作用[34](protein-protein interaction,PPI)則是生命科學(xué)研究中的重要一環(huán).蛋白質(zhì)作為生命功能的執(zhí)行者,尤其是隨著后基因組時(shí)代的到來(lái),蛋白質(zhì)相互作用網(wǎng)絡(luò)的研究更是成為系統(tǒng)生物學(xué)研究中的重要內(nèi)容之一.比較成熟的研究理論認(rèn)為,蛋白質(zhì)并不是單獨(dú)發(fā)揮作用的,而是通過(guò)與相關(guān)蛋白質(zhì)的相互作用,在空間和時(shí)間上協(xié)調(diào)一致,共同調(diào)控、維持細(xì)胞的特定功能.通過(guò)對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)的聚類分析,可以找到感興趣的蛋白質(zhì)功能組,這對(duì)于生物體的行為研究、未知蛋白功能的預(yù)測(cè)以及藥物的設(shè)計(jì)都具有重要的作用.
利用聚類方法獲取蛋白質(zhì)網(wǎng)絡(luò)中的生物相關(guān)功能模塊是目前的研究熱點(diǎn)之一[35].根據(jù)采取方式的不同,主要有基于圖論的方法(graph-theoretic approach)、基于模擬流的方法(flow simulation-based approaches)、基于譜聚類的方法(spectral clustering-based approaches)、基于監(jiān)督學(xué)習(xí)的方法(supervised clustering approaches)、基于依賴核心的方法(core attachmentbased approaches)、基于群體智能的方法(swarm intelligence-based approaches)等.具體劃分[36]如表1所示.
表1 蛋白質(zhì)網(wǎng)絡(luò)聚類方法分類Table 1 Classification of protein network clustering
2008年,Blondel等[37]基于層次聚類和模塊性最優(yōu)化提出了Louvain方法.該方法實(shí)現(xiàn)了在模塊性最優(yōu)化的基礎(chǔ)上,快速得到網(wǎng)絡(luò)分層的效果.此后,Xie等[38]將Louvain方法應(yīng)用在蛋白質(zhì)模塊比對(duì)的可視化分析中,利用Louvain層次化的網(wǎng)絡(luò)聚類結(jié)果,用可視化形式分析生物分子網(wǎng)絡(luò)比對(duì)的結(jié)果.層次聚類之后的網(wǎng)絡(luò)能很好地以整體和局部?jī)煞N視圖分析生物分子網(wǎng)絡(luò)的特點(diǎn)(見圖6).同時(shí),結(jié)合蛋白質(zhì)功能模塊與蛋白質(zhì)相互作用網(wǎng)絡(luò)的比對(duì)結(jié)果,有助于發(fā)現(xiàn)生物相關(guān)功能模塊的比對(duì)結(jié)果.為便于進(jìn)行相關(guān)功能蛋白的研究,還可以使用主成分分析(principal component analysis,PCA)方法[39].
圖6 Louvain層次化的蛋白質(zhì)網(wǎng)絡(luò)聚類可視化效果[38]Fig.6 Visualization effect of Louvain hierarchical clustering protein network[38]
眾所周知,基因表達(dá)數(shù)據(jù)的聚類分析為生物研究提供了強(qiáng)有力的技術(shù)支持,但是不同的聚類方法卻會(huì)導(dǎo)致不同的實(shí)驗(yàn)結(jié)果.本研究對(duì)GEO中小鼠胚胎成纖維細(xì)胞體外低溫下基因表達(dá)差異性[40]數(shù)據(jù)進(jìn)行聚類,數(shù)據(jù)由Affymetrix公司提供[41],總共包括不同時(shí)間點(diǎn)的13組樣本數(shù)據(jù).這種基于時(shí)間序列[42]的聚類可廣泛應(yīng)用于不同領(lǐng)域,并且已被證明是非常有效的.將胚胎成纖維細(xì)胞體外暴露在輕度低溫(32°C)環(huán)境或常溫(37°C)環(huán)境下長(zhǎng)達(dá)18 h,在不同時(shí)間點(diǎn)對(duì)數(shù)據(jù)進(jìn)行采樣.低溫是一種臨床上有效的治療各種缺氧和缺血的手段之一.37和32°C取樣時(shí)間點(diǎn)分別為0,0.5,1.0,2.0,4.0,8.0,18.0 h和0.5,1.0,2.0,4.0,8.0,18.0 h,這些樣本分別編號(hào)為GSM1310500~GSM1310512,共計(jì)13組.正常溫度下樣本包括GSM1310500~GSM1310506,低溫下樣本包括GSM1310507~GSM1310512.聚類方法采用K-均值、K-中心點(diǎn)和分層聚類的方法,相似性度量選擇歐氏距離,初始選擇k=4.以熱圖(heatmap)的形式展現(xiàn)部分聚類結(jié)果如圖7~9所示[41].
實(shí)驗(yàn)聚類的具體數(shù)據(jù)可參照文獻(xiàn)[41],圖7~9中顏色接近程度表示基因之間的相似表達(dá)程度.根據(jù)不同時(shí)間點(diǎn)的基因聚類結(jié)果可以得出同一時(shí)間點(diǎn)的共表達(dá)基因組,這為細(xì)胞分化的階段性分析提供了強(qiáng)有力的證據(jù).
圖7 K-均值聚類結(jié)果Fig.7 Results of K-means clustering
圖8 K-中心點(diǎn)聚類結(jié)果Fig.8 Results of K-mediods clustering
圖9 層次聚類結(jié)果Fig.9 Results of hierarchical clustering
表2 三種聚類方法結(jié)果Table 2 Results of the three clustering methods
從3組聚類結(jié)果的基因表達(dá)譜可以看出:①?gòu)恼w上而言,正常溫度下基因的表達(dá)值相對(duì)較高;②某些基因在低溫下0.5~1.5 h時(shí)表達(dá)增強(qiáng).表2列出了三種聚類方法的結(jié)果,通過(guò)對(duì)比可以發(fā)現(xiàn),K-均值和K-中心點(diǎn)聚類結(jié)果顯示一致,卻與層次聚類結(jié)果有所差異.也就是說(shuō),當(dāng)采用不同的聚類方法時(shí),得到的聚類結(jié)果將受到影響.表2中三種算法都聚在一個(gè)簇的樣本分別以下劃線、星號(hào)(*)、井號(hào)(#)及梅花符號(hào)(?)標(biāo)記,這些樣本的聚類具有更高的可信度,也是在進(jìn)一步分析中需要著重關(guān)注的內(nèi)容.
生物信息學(xué)是一個(gè)成長(zhǎng)中的跨學(xué)科領(lǐng)域[43-44],生物數(shù)據(jù)日新月異、逐年增長(zhǎng).聚類是數(shù)據(jù)挖掘的基本方法之一,在基因表達(dá)和生物網(wǎng)絡(luò)等數(shù)據(jù)挖掘過(guò)程中起到了舉足輕重的作用.后基因組時(shí)代伴隨著二代甚至三代測(cè)序技術(shù)的發(fā)展,單一的聚類方法已經(jīng)無(wú)法滿足當(dāng)前的大數(shù)據(jù)要求.另外,高噪聲數(shù)據(jù)的干擾也是亟待解決的問(wèn)題.綜上所述,選擇和結(jié)合不同的聚類方法,針對(duì)不同的生物數(shù)據(jù)進(jìn)行綜合分析與比較,進(jìn)一步提出新的適用于大數(shù)據(jù)挖掘的方法,將有助于揭曉更多的生物奧秘.
[1]趙屹,谷瑞升,杜生明.生物信息學(xué)研究現(xiàn)狀及發(fā)展趨勢(shì)[J].醫(yī)學(xué)信息學(xué)雜志,2012,33(5):2-6.
[2]KOBOLDT D C,STEINBERG K M,LARSON D E,et al.The next-generation sequencing revolution and its impact on genomics[J].Cell,2013,155(1):27-38.
[3]任艷姣.生物信息學(xué)數(shù)據(jù)整合的應(yīng)用研究[D].長(zhǎng)春:吉林大學(xué),2012.
[4]BENSON D A,KARSCH-MIZRACHI I,LIPMAN D J,et al.GenBank[J].Nucleic Acids Research,2000,28(1):15-18.
[5]UETZ P,ETZOLD T.The EMBL/EBI reptile database[J].Herpetological Review,1996,27(4):174-175.
[6]BARRETT T,WILHITE S E,LEDOUx P,et al.NCBI GEO:archive for functional genomics data sets-update[J].Nucleic Acids Res,2013,41:D1005-D1010.
[7]王洪昌,丁立軍,黃宇.生物信息學(xué)中模式識(shí)別技術(shù)應(yīng)用與發(fā)展[J].醫(yī)學(xué)信息學(xué)雜志,2013(11):7-10.
[8]LI Y,CHEN L.Big biological data:challenges and opportunities[J].Genomics,Proteomics and Bioinformatics,2014,12(5):187-189.
[9]MARx V.Biology:the big challenges of big data[J].Nature,2013,498(7453):255-260.
[10]SCHUSTER S C.Next-generation sequencing transforms today's biology[J].Nature,2007,200(8):16-18.
[11]REIS-FILHO J S.Next-generation sequencing[J].Breast Cancer Res,2009,11(S3):S12.
[12]MARCOTTE E M,DATE S V.Exploiting big biology:integrating large-scale biological data for function inference[J].Briefings in Bioinformatics,2001,2(4):363-374.
[13]ARONOVA E,BAKER K S,ORESKES N.Big science and big data in biology:from the international geophysical year through the International Biological Program to the Long Term Ecological Research(LTER)Network,1957—present[J].Historical Studies in the Natural Sciences,2010,40(2):183-224.
[14]MADEIRA S C,OLIVEIRA A L.Biclustering algorithms for biological data analysis:a survey[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics(TCBB),2004,1(1):24-45.
[15]楊春梅,萬(wàn)柏坤,高曉峰.基因表達(dá)聚類分析技術(shù)的現(xiàn)狀與發(fā)展[J].生物化學(xué)與生物物理進(jìn)展,2003,30(6):974-979.
[16]黃金.聚類和分類技術(shù)在生物信息學(xué)中的應(yīng)用[D].哈爾濱:黑龍江大學(xué),2005.
[17]陳亮.聚類算法及其在生物信息學(xué)中的應(yīng)用[D].無(wú)錫:江南大學(xué),2012.
[18]REDDY C K,AL HASAN M,ZAKI M J.Clustering biological data[M]//Data clustering:algorithms and applications.London:Chapman and Hall/CRC,2013:381-414.
[19]ERCIYES K.Clustering of biological sequences[M]//ERCIYES K.Distributed and sequential algorithms for bioinformatics.Berlin:Springer International Publishing,2015:135-160.
[20]AGGARWAL C C,REDDY C K.Data clustering:algorithms and applications[M].Boca Raton:CRC Press,2014.
[21]WANG M,ZHANG W,DING W,et al.Parallel clustering algorithm for large-scale biological data sets[J].PLoS ONE,2014,9(4):e91315.
[22]EISEN M B,SPELLMAN P T,BROWN P O,et al.Cluster analysis and display of genome-wide expression patterns[J].Proceedings of the National Academy of Sciences,1998,95(25):14863-14868.
[23]HARTEMINK A J,GIFFORD D K,JAAKKOLA T,et al.Using graphical models and genomic expression data to statistically validate models of genetic regulatory networks[C]//Pacific Symposium on Biocomputing.2001:422-433.
[24]蘇志中.聚類分析研究及其在生物數(shù)據(jù)分析中的應(yīng)用[D].長(zhǎng)沙:湖南大學(xué),2009.
[25]周洋.基因表達(dá)譜數(shù)據(jù)聚類分析的研究[D].咸陽(yáng):西北農(nóng)林科技大學(xué),2014.
[26]HAN J,KAMBER M,PEI J.Data mining:concepts and techniques:concepts and techniques[M]. Amsterdam:Elsevier,2011.
[27]MARCO E,KARP R L,GUO G,et al.Bifurcation analysis of single-cell gene expression data reveals epigenetic landscape[J].Proceedings of the National Academy of Sciences,2014,111(52):E5643-E5650.
[28]張琛.生物信息學(xué)中的基因表達(dá)譜數(shù)據(jù)分析研究[D].長(zhǎng)春:吉林大學(xué),2008.
[29]TRAPNELL C,CACCHIARELLI D,GRIMSBY J,et al.The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells[J].Nature Biotechnology,2014,32(4):381-386.
[30]MURTAGH F,CONTRERAS P.Algorithms for hierarchical clustering:an overview[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2012,2(1):86-97.
[31]LEVINE J H,SIMONDS E F,BENDALL S C,et al.Data-driven phenotypic dissection of AML reveals progenitor-like cells that correlate with prognosis[J].Cell,2015,162(1):184-197.
[32]安平.基因表達(dá)數(shù)據(jù)的雙聚類分析方法研究[D].蘇州:蘇州大學(xué),2013.
[33]GERSTEIN M B,KUNDAjE A,HARIHARAN M,et al.Architecture of the human regulatory network derived from ENCODE data[J].Nature,2012,489(7414):91-100.
[34]王正華,董蘊(yùn)源,王勇獻(xiàn).蛋白質(zhì)相互作用網(wǎng)絡(luò)的幾種聚類方法綜述[J].國(guó)防科技大學(xué)學(xué)報(bào),2009,31(004):81-86.
[35]劉昊,廖波,彭利紅.基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的聚類算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,44(30):142-144.
[36]JI J Z,ZHANG A D,LIU C N,et al.Survey:functional module detection from protein-protein interaction networks[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(2):261-277.
[37]BLONDEL V D,GUILLAUME J L,LAMBIOTTE R,et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,DOI:10.1088/1742-5468/2008/10/P10008.
[38]XIANG C J,XIE J,GU Y L,et al.Visualization of module alignment discovery[C]//Control Conference(CCC).2015:8545-8549.
[39]ASUR S,UCAR D,PARTHASARATHY S.An ensemble framework for clustering protein-protein interaction networks[J].Bioinformatics,2007,23(13):i29-i40.
[40]TIBSHIRANI R,HASTIE T,EISEN M,et al.Clustering methods for the analysis of DNA microarray data[R].Stanford:Stanford University,1999.
[41]STEN I,ANSGAR H C,RIIN R,et al.Estimating differential expression from multiple indicators[J].Nucleic Acids Research,2014,42(8):e72.
[42]LIAO T W.Clustering of time series data—a survey[J].Pattern Recognition,2005,38(11):1857-1874.
[43]TORARINSSON E,HAVGAARD J H,GORODKIN J.Multiple structural alignment and clustering of RNA sequences[J].Bioinformatics,2007,23(8):926-932.
[44]FITZGERALD P C,SHLYAKHTENKO A,MIR A A,et al.Clustering of DNA sequences in human promoters[J].Genome Research,2004,14(8):1562-1574.
Survey of clustering methods for big data in biology
LU Dongfang,XU Junfu,XIANG Chaojuan,XIE Jiang
(School of Computer Engineering and Science,Shanghai University,Shanghai 200444,China)
With the implementation of the Human Genome Project and the rapid development of biological experiment technology,biological data sharply grow and continuous accumulate.Age of big data in biology is coming.In the post genomic era,single statistical models are gradually replaced with combination of intelligent and comprehensive analyses. Clustering is the core of data mining.This paper describes the state-of-the-art technology of big data in bioinformatics,and summarizes several popular clustering methods on gene expression profiling and biological networks.Furthermore,some experiments are made to compare different clustering methods on the time series data of mouse embryonic fibroblasts,showing that different clustering methods have different results.To achieve more reliable conclusions for highly noisy biological data,it is necessary for investigators to do comprehensive analyses by selecting and combining proper clustering methods.
big data in biology;data analysis;clustering method
TP 39
A
1007-2861(2016)01-0045-13
10.3969/j.issn.1007-2861.2015.04.018
2015-11-30
國(guó)家自然科學(xué)基金重大研究計(jì)劃項(xiàng)目(91330116);教育部留學(xué)回國(guó)人員科研啟動(dòng)基金資助項(xiàng)目
謝江(1971—),女,副教授,博士,研究方向?yàn)樯镄畔W(xué)、高性能計(jì)算.E-mail:jiangxsh@shu.edu.cn