亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        優(yōu)先聚類(lèi)和高斯混合模型樹(shù)相融合的遞增聚類(lèi)研究

        2017-10-12 09:53:58資和周
        現(xiàn)代電子技術(shù) 2017年19期
        關(guān)鍵詞:仿真實(shí)驗(yàn)聚類(lèi)分析大數(shù)據(jù)

        資和周

        摘 要: 傳統(tǒng)聚類(lèi)算法實(shí)現(xiàn)大數(shù)據(jù)集聚類(lèi)時(shí),耗費(fèi)大量的時(shí)間和內(nèi)存,無(wú)法適應(yīng)大數(shù)據(jù)流的動(dòng)態(tài)性,聚類(lèi)穩(wěn)定性較差。因此,提出基于優(yōu)先聚類(lèi)和高斯混合模型樹(shù)的遞增聚類(lèi)方法。采用優(yōu)先聚類(lèi)算法對(duì)大數(shù)據(jù)集進(jìn)行優(yōu)先聚類(lèi),獲取典型數(shù)據(jù)集,降低大數(shù)據(jù)集的數(shù)據(jù)復(fù)雜度,采用高斯混合模型樹(shù)的遞增聚類(lèi)算法,將典型數(shù)據(jù)集中的數(shù)據(jù)插入到高斯混合模型樹(shù)內(nèi),塑造數(shù)據(jù)集的高斯混合模型樹(shù),樹(shù)的葉子節(jié)點(diǎn)和非葉子節(jié)點(diǎn)分別同單高斯數(shù)據(jù)分布和高斯混合模型分布對(duì)應(yīng),基于插入結(jié)果對(duì)高斯混合模型樹(shù)實(shí)施調(diào)整,檢測(cè)插入到模型樹(shù)內(nèi)的數(shù)據(jù)是否需要?jiǎng)h除,并完成數(shù)據(jù)的刪除操作,采用廣度優(yōu)先方法獲取最佳的樹(shù)節(jié)點(diǎn)作為最終的聚類(lèi)結(jié)果。實(shí)驗(yàn)結(jié)果表明該算法取得了很好的效果,具有較高的可擴(kuò)展性和穩(wěn)定性。

        關(guān)鍵詞: 大數(shù)據(jù); 聚類(lèi)分析; 高斯混合模型; 仿真實(shí)驗(yàn)

        中圖分類(lèi)號(hào): TN911.1?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)19?0177?05

        Research on incremental clustering integrating priority clustering

        with Gaussian mixture model tree

        ZI Hezhou

        (School of Finance and Trade Management, Yunnan College of Business Management, Kunming 650106, China)

        Abstract: The traditional clustering algorithms consume a large amount of time and memory for large dataset clustering, can′t adapt to the dynamic performance of big data flow, and have poor clustering stability. Therefore, an incremental clustering method based on partial?priority clustering and Gaussian mixture model tree is put forward. The partial?priority clustering algorithm is used to perform the priority clustering for large dataset, acquire the typical dataset, and reduce the data complexity of large dataset. And then the incremental clustering algorithm based on Gaussian mixture model tree is used to insert the data in typical dataset into a Gaussian mixture model tree to construct the Gaussian mixture model tree of the dataset. The leaf nodes and none?leaf nodes of the tree are matched with single Gaussian data distribution and Gaussian mixture model distribution respectively. According the insertion results, the Gaussian mixture model tree is adjusted, the data inserted into the model should be deleted whether or not is detected, and data deletion is accomplished. The breadth?first method is adopted to get the best tree node as the final clustering result. The experimental results indicate that the proposed incremental clustering algorithm has perfect clustering effect, strong expansibility, and high stability.

        Keywords: big data; clustering analysis; Gaussian mixture model; simulation experiment

        0 引 言

        隨著計(jì)算機(jī)和數(shù)據(jù)分析計(jì)算的高速發(fā)展,信息在人們的生產(chǎn)和生活中具有重要的作用,并且當(dāng)前互聯(lián)網(wǎng)中數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),人們需要通過(guò)聚類(lèi)技術(shù)從大數(shù)據(jù)環(huán)境中采集有價(jià)值的信息。聚類(lèi)技術(shù)在生物學(xué)、數(shù)據(jù)挖掘、信息檢索等領(lǐng)域具有較高的應(yīng)用價(jià)值。大數(shù)據(jù)環(huán)境下的聚類(lèi)技術(shù),成為相關(guān)人員分析的重點(diǎn)[1]。當(dāng)前大數(shù)據(jù)集的聚類(lèi)算法主要是靜態(tài)聚類(lèi)算法,其對(duì)總體數(shù)據(jù)集進(jìn)行檢索,耗費(fèi)大量的時(shí)間和內(nèi)存,并且無(wú)法適應(yīng)大數(shù)據(jù)流的動(dòng)態(tài)性,聚類(lèi)穩(wěn)定性較差[2]。因此,本文提出基于優(yōu)先聚類(lèi)和高斯混合模型樹(shù)的遞增聚類(lèi)方法。

        1 基于優(yōu)先聚類(lèi)和高斯混合模型樹(shù)的遞增聚類(lèi)

        方法

        1.1 優(yōu)先聚類(lèi)算法

        優(yōu)先聚類(lèi)算法的示意圖如圖1所示。

        優(yōu)先聚類(lèi)算法從某個(gè)大數(shù)據(jù)集內(nèi)任意采集樣本[A,]若分析[A]是典型樣本,則獲取典型點(diǎn),否則繼續(xù)進(jìn)行分析,直至獲取典型樣本。隨機(jī)從[A]內(nèi)采集一個(gè)點(diǎn)當(dāng)成原始點(diǎn),設(shè)置半徑[r]以及密度閾值Minpts。若以該原始點(diǎn)為中心,半徑為[r]的圓內(nèi)存在的數(shù)據(jù)量比Minpts大,則該樣本是典型樣本。采用[C1=xi∈pxiP]運(yùn)算典型樣本的中心,將[C1]看成是典型點(diǎn)。以[C1]為中心實(shí)施聚類(lèi),運(yùn)算[C1]同數(shù)據(jù)集內(nèi)各對(duì)象間的距離:

        [d(xi,xj)=xi-xj=k=1p(xik-xjk)2] (1)

        若[C1]同某對(duì)象[xi]間的聚類(lèi)比數(shù)值[r]低,則將該對(duì)象劃分到該類(lèi)內(nèi),否則分析后續(xù)對(duì)象,直至完成數(shù)據(jù)集內(nèi)全部數(shù)據(jù)的分析。

        設(shè)置原始空集是[T1,]并向其融入典型點(diǎn)[C1,]若運(yùn)算[T1]內(nèi)全部點(diǎn)同[C1]間的距離比閾值[r]低,則將該對(duì)象[xi]融入[T1,]最終獲取第一個(gè)類(lèi)[T1。]將該類(lèi)中的數(shù)據(jù)從原始數(shù)據(jù)集內(nèi)過(guò)濾掉,確保[T1]中的數(shù)據(jù)不再進(jìn)行后續(xù)的分類(lèi),降低數(shù)據(jù)的復(fù)雜度。循環(huán)進(jìn)行形成第一類(lèi)的過(guò)程,直到剩余數(shù)據(jù)不再符合規(guī)范,形成相關(guān)的類(lèi)是[T1,T2,…,Tk]。這些類(lèi)中存在著大部分?jǐn)?shù)據(jù),并且各類(lèi)中存在一個(gè)典型點(diǎn)[Ck(k=1,2,…,k)]。因?yàn)槭S鄶?shù)據(jù)是不符合規(guī)范的點(diǎn),則將這些數(shù)據(jù)平均劃分成[k]類(lèi),再將其分配到前期產(chǎn)生的[k]個(gè)[T1,T2,…,Tk]類(lèi)內(nèi),獲取的典型數(shù)據(jù)集是[T′1,T′2,…,T′k (i=1,2,…,k)]。

        上述分析的優(yōu)先聚類(lèi)算法采用隨機(jī)大數(shù)據(jù)集樣本,獲取典型樣本以及典型點(diǎn),將典型樣本的均值當(dāng)成典型點(diǎn)實(shí)現(xiàn)聚類(lèi),可提高“召集”數(shù)據(jù)量,確保原數(shù)據(jù)集最大程度的縮小。獲取首個(gè)類(lèi)后,從原始數(shù)據(jù)集中將其過(guò)濾掉,可大大降低原始數(shù)據(jù)集的復(fù)雜度。

        1.2 高斯混合模型樹(shù)的遞增聚類(lèi)算法

        采用1.1節(jié)分析的優(yōu)先聚類(lèi)算法對(duì)大數(shù)據(jù)集進(jìn)行優(yōu)先聚類(lèi),獲取典型數(shù)據(jù)集,大大降低了大數(shù)據(jù)集的數(shù)據(jù)復(fù)雜度,為后續(xù)的數(shù)據(jù)遞增聚類(lèi)過(guò)程提供可靠的基礎(chǔ)。進(jìn)而采用高斯混合模型樹(shù)的遞增聚類(lèi)算法實(shí)現(xiàn)大數(shù)據(jù)集的高精度聚類(lèi)。該算法將優(yōu)先聚類(lèi)算法獲取的典型數(shù)據(jù)集中的數(shù)據(jù)插入到當(dāng)前的高斯混合模型樹(shù)中,基于插入結(jié)果對(duì)高斯混合模型樹(shù)實(shí)施調(diào)整,檢測(cè)插入到模型樹(shù)內(nèi)的數(shù)據(jù)是否需要?jiǎng)h除,并完成數(shù)據(jù)的刪除操作,獲取最終的聚類(lèi)結(jié)果。

        1.2.1 高斯混合模型樹(shù)的構(gòu)建

        結(jié)合高斯混合模型與樹(shù)型的框架構(gòu)成高斯混合模型樹(shù)。數(shù)據(jù)聚類(lèi)、子聚類(lèi)以及整個(gè)數(shù)據(jù)集間的聯(lián)系可通過(guò)高斯混合模型樹(shù)呈現(xiàn)。由下至上組建高斯混合模型樹(shù)的方法與遞增聚類(lèi)的流程一致。葉子節(jié)點(diǎn)與單一高斯成分相對(duì)應(yīng),構(gòu)成了高斯混合模型樹(shù)中數(shù)據(jù)散布程度最密集的區(qū)域,高位節(jié)點(diǎn)處于數(shù)據(jù)散布稀疏區(qū)域,全部數(shù)據(jù)集的高斯混合模型分散度與根節(jié)點(diǎn)的分散度一致,構(gòu)成高斯混合模型樹(shù)中數(shù)據(jù)分散度最高的區(qū)域。數(shù)據(jù)集中的各聚類(lèi)簇頭同一個(gè)高斯混合模型對(duì)應(yīng),高斯混合模型描述了數(shù)據(jù)的分散狀態(tài)[3]。多個(gè)高斯混合模型構(gòu)成了高斯混合模型樹(shù)。塑造高斯混合模型樹(shù)的流程與數(shù)據(jù)集匹配高斯混合模型的流程相同,葉子節(jié)點(diǎn)處于數(shù)據(jù)最密集的區(qū)域,樹(shù)的層數(shù)與數(shù)據(jù)分散度成反比。

        高斯混合模型樹(shù)示意圖如圖2所示,其中[G1~G3]表示葉子節(jié)點(diǎn),分別與單一高斯成分相對(duì)應(yīng),GMM1~ GMM3表示非葉子節(jié)點(diǎn),與高斯混合模型相對(duì)應(yīng)。由圖2可知,GMM1作為[G1,G2]的父親節(jié)點(diǎn),其數(shù)據(jù)分散狀態(tài)受[G1,G2]的數(shù)據(jù)分散狀態(tài)制約。非葉子節(jié)點(diǎn)連接著單一高斯成分與高斯混合模型,即非葉子節(jié)點(diǎn)的構(gòu)成可以是單一高斯成分也可以是高斯混合模型。高斯模型GMM1與GMM2組成根節(jié)點(diǎn)GMM3。

        1.2.2 數(shù)據(jù)插入

        數(shù)據(jù)插入是塑造數(shù)據(jù)集的高斯混合模型樹(shù)的關(guān)鍵。將優(yōu)先聚類(lèi)算法獲取的典型數(shù)據(jù)集中的各個(gè)新數(shù)據(jù)點(diǎn)插入到高斯混合模型樹(shù)的葉子層,獲取高斯混合模型樹(shù)。這個(gè)新數(shù)據(jù)既可能形成新的葉子節(jié)點(diǎn),也可能被安插到已有的葉子節(jié)點(diǎn)中。基于對(duì)上文的分析,葉子節(jié)點(diǎn)反映出高斯混合模型樹(shù)中單高斯分布最密集的區(qū)域,使獲取的新數(shù)據(jù)能夠被精確地安插到適合的葉子節(jié)點(diǎn)上,需要求出新數(shù)據(jù)點(diǎn)與全部單高斯成分的平均值的歐式距離,其中與歐式距離最小值對(duì)應(yīng)的則是待檢索的葉子節(jié)點(diǎn)。閾值[Tinsert]的使用可保障葉子層單高斯成分的密集度[4],當(dāng)最小的歐式距離大于該閾值時(shí),會(huì)有新的葉子節(jié)點(diǎn)誕生,與該葉子節(jié)點(diǎn)相應(yīng)的單高斯成分的方差是一個(gè)較小的起始值,數(shù)據(jù)點(diǎn)即是平均值;當(dāng)最小的歐式距離小于該閾值時(shí),與最小歐式距離相應(yīng)的葉子節(jié)點(diǎn)會(huì)接收新的數(shù)據(jù)點(diǎn)。如果葉子節(jié)點(diǎn)密集度變大,會(huì)降低新插入的節(jié)點(diǎn)與全部葉子節(jié)點(diǎn)歐式距離的運(yùn)算速度,因此,可由高到低即從根節(jié)點(diǎn)開(kāi)始,依據(jù)類(lèi)條件概率密度的方法確定相似度最高的葉子節(jié)點(diǎn)。詳細(xì)過(guò)程為:

        (1) 先獲取新數(shù)據(jù),再對(duì)不同的高斯混合模型樹(shù)已有的葉子節(jié)點(diǎn)量采用不同的數(shù)據(jù)安插方式,比較已存在的高斯混合模型樹(shù)葉子節(jié)點(diǎn)量與設(shè)定的閾值,如果已存在的高斯混合模型樹(shù)葉子節(jié)點(diǎn)量不大于閾值,那么接受過(guò)程(2)的方式;如果已存在的高斯混合模型樹(shù)葉子節(jié)點(diǎn)量大于閾值時(shí),那么接受過(guò)程(3)的方式。

        (2) 求出過(guò)程(1)獲取的新數(shù)據(jù)與全部單高斯成分的平均值的歐氏距離,并將其中最小的歐氏距離以及與之相應(yīng)的葉子節(jié)點(diǎn)做好標(biāo)記[5];當(dāng)最小的歐氏距離小于等于設(shè)定的閾值時(shí),此歐氏距離值由相應(yīng)的葉子節(jié)點(diǎn)保管;當(dāng)最小的歐氏距離大于設(shè)定的閾值時(shí),此歐氏距離值由形成的新葉子節(jié)點(diǎn)保管。

        (3) 以根節(jié)點(diǎn)作為開(kāi)端,基于類(lèi)條件概率密度的方法確定相似度最高的葉子節(jié)點(diǎn),類(lèi)條件概率密度的公式為:

        [Co=argmaxkPXCk] (2)

        用[k]描述目前數(shù)據(jù)集相應(yīng)的聚類(lèi)量,用[P,X]分別描述條件概率以及數(shù)據(jù),用[Ck,][Co]分別描述第[k]個(gè)聚類(lèi)以及符合公式的類(lèi)。過(guò)程(2)中新數(shù)據(jù)安插到已有的葉子節(jié)點(diǎn)時(shí),要對(duì)新葉子節(jié)點(diǎn)中高斯成分的參數(shù)進(jìn)行更改,更改平均值以及方差的公式為:

        [μn+1=μn+1n+1xn+1-μn] (3)

        [σn+1=n-1nσn+1n+1xn+1-μnxn+1-μnT] (4)

        1.2.3 數(shù)據(jù)刪除

        本文研究的遞增聚類(lèi)算法對(duì)當(dāng)前高斯混合模型樹(shù)中的數(shù)據(jù)點(diǎn)可以進(jìn)行刪除操作。對(duì)數(shù)據(jù)進(jìn)行刪除與插入數(shù)據(jù)都是以葉子層節(jié)點(diǎn)作為開(kāi)端。當(dāng)該葉子節(jié)點(diǎn)上僅存在一個(gè)數(shù)據(jù)點(diǎn)時(shí),刪除這個(gè)數(shù)據(jù)點(diǎn)也就意味著刪除該葉子節(jié)點(diǎn)[6]。當(dāng)該葉子節(jié)點(diǎn)上存在多個(gè)數(shù)據(jù)點(diǎn)時(shí),可采用以下公式對(duì)葉子節(jié)點(diǎn)相應(yīng)的高斯成分參數(shù)進(jìn)行更改:

        [μn+1=nn-1μn-1m-1xn] (5)

        [Σn+1=n-1n-2Σn-n-1n?(n-2)xn-μn+1xn-μn+1T] (6)

        對(duì)式(3)~式(6)的推算過(guò)程如下:

        針對(duì)數(shù)據(jù)集[D1=x1,…,xm-1,xm,]平均值、方差為:

        [μm=1mj=1mxj] (7)

        [Σm=1m-1j=1mxj-μmxj-μmT] (8)

        新數(shù)據(jù)點(diǎn)被安插至原數(shù)據(jù)集,進(jìn)而得到新的數(shù)據(jù)集:

        [D2=x1,…,xm-1,xm,xm+1] (9)

        新的高斯成分的平均值為:

        [μm+1=1m+1j=1m+1xj=1m+1j=1m+1xj+1m+1xm+1=mm+11mj=1mxj+1m+1xm+1=mm+1μm+1m+1xm+1] (10)

        進(jìn)而得到高斯成分的新方差,被安插的新數(shù)據(jù)點(diǎn)相應(yīng)的平均值以及方差為:

        [μm+1=mm+1(xj-m)+m+1m+1μm] (11)

        [Σm+1=m-1mΣm+1m+1xm+1-μmxm+1-μmT] (12)

        對(duì)一個(gè)數(shù)據(jù)點(diǎn)進(jìn)行刪除操作后的數(shù)據(jù)集為:[D3=x1,x2,…,xm-1] (13)

        更改后的平均值以及方差為:

        [μm-1=m-xm-1j=1m-1xj] (14)

        [Σm-1=1m-2j=1m-1xj-μm-1xj-μm-1T] (15)

        同理可得,對(duì)一個(gè)數(shù)據(jù)點(diǎn)進(jìn)行刪除操作后的高斯成分得到的新均值以及方差為:

        [μm-1=mm-1μm-1m-1xm] (16)

        [Σm-1=m-1m-2Σm-m-1mm-2xm-μm-1xm-μm-1T] (17)

        1.2.4 高斯混合模型樹(shù)的更新

        高斯混合模型樹(shù)的更新流程包括對(duì)相應(yīng)父節(jié)點(diǎn)參數(shù)進(jìn)行更新以及確認(rèn)父節(jié)點(diǎn)是否具備裂變條件。對(duì)相應(yīng)父節(jié)點(diǎn)參數(shù)進(jìn)行更新的具體過(guò)程是:對(duì)數(shù)據(jù)進(jìn)行安插或刪除操作后,利用全部和數(shù)據(jù)安插節(jié)點(diǎn)來(lái)自于同一父節(jié)點(diǎn)的節(jié)點(diǎn),對(duì)安插節(jié)點(diǎn)的父節(jié)點(diǎn)進(jìn)行參數(shù)更新[7],其中,主要參數(shù)是與父節(jié)點(diǎn)相應(yīng)的高斯混合模型的平均值、方差以及權(quán)重等。確認(rèn)父節(jié)點(diǎn)是否具備裂變條件的具體過(guò)程是:求出父節(jié)點(diǎn)中子節(jié)點(diǎn)的連通圖數(shù)量,體現(xiàn)出父節(jié)點(diǎn)的連通度,同時(shí)也體現(xiàn)出高斯混合模型樹(shù)與數(shù)據(jù)粘稠度[8]。兩個(gè)高斯混合模型樹(shù)間的距離可通過(guò)兩個(gè)節(jié)點(diǎn)間的距離描述。若連通程度GQFD比閾值[Tdivide]高,則說(shuō)明節(jié)點(diǎn)擁有較小的連通度,將該父節(jié)點(diǎn)分割成多個(gè)同其處于同層的新節(jié)點(diǎn);否則當(dāng)GQFD比閾值[Tdivide]低時(shí),保持該父節(jié)點(diǎn)穩(wěn)定不變。循環(huán)運(yùn)行上述兩個(gè)過(guò)程,直至根節(jié)點(diǎn),完成高斯混合模型樹(shù)的更新。

        1.2.5 聚類(lèi)結(jié)果的確定

        本文基于類(lèi)內(nèi)距離和類(lèi)間聚類(lèi)兩個(gè)指標(biāo),獲取高質(zhì)量的聚類(lèi)結(jié)果。類(lèi)內(nèi)聚類(lèi)越小,類(lèi)間聚類(lèi)越大,說(shuō)明聚類(lèi)效果越優(yōu)。高斯混合模型樹(shù)的非葉子節(jié)點(diǎn)描述了模型的數(shù)據(jù)分布情況[9],高斯分布是最小的數(shù)據(jù)單元?;诟咚够旌夏P偷南嗨贫染垲?lèi)公式,運(yùn)算類(lèi)內(nèi)聚類(lèi)和類(lèi)間聚類(lèi)公式為:

        [IC=i=1M1≤p≤q≤kiGQFDGpi,Gqi] (18)

        [IS=1≤i≤j≤MGQFDCi,Cj] (19)

        式中:設(shè)置[C1,C2,…,CM]是[M]個(gè)聚類(lèi)族,各聚類(lèi)族表示一個(gè)高斯混合模型;[Gji]表示第[i]個(gè)聚類(lèi)族內(nèi)的第[j]個(gè)高斯成分;第[i]個(gè)聚類(lèi)族相關(guān)的高斯數(shù)量為[Ki]。通過(guò)聚類(lèi)質(zhì)量CQ能夠衡量聚類(lèi)算法的聚類(lèi)性能,表達(dá)式為:

        [CQ=ICIS] (20)

        類(lèi)內(nèi)聚類(lèi)越低,類(lèi)間距離越高,說(shuō)明數(shù)據(jù)的聚類(lèi)質(zhì)量效果越佳。塑造完高斯混合模型樹(shù)后,基于CQ指標(biāo)分析聚類(lèi)效果的優(yōu)劣,采用廣度優(yōu)先方法獲取最佳的樹(shù)節(jié)點(diǎn)作為最終的聚類(lèi)結(jié)果。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 有效性分析

        實(shí)驗(yàn)采用本文遞增聚類(lèi)方法對(duì)菌群功能代謝通路以及表達(dá)基因兩種類(lèi)型大數(shù)據(jù)集進(jìn)行聚類(lèi)分析,檢測(cè)本文方法的有效性。實(shí)驗(yàn)分析的菌群功能代謝KEGG數(shù)據(jù)庫(kù)是常用的功能注釋數(shù)據(jù)庫(kù),其是一種生物代謝通路分析數(shù)據(jù)庫(kù),其中包含了完備的代謝通路地圖以及注釋說(shuō)明,其還具備KAAS等在線注釋分析平臺(tái),基于用戶提交的菌群蛋白序列,能夠得到相應(yīng)的KO注釋信息,進(jìn)而分析不同菌群樣本的功能代謝?;贙EGG數(shù)據(jù)庫(kù)的注釋結(jié)果,采用本文聚類(lèi)方法對(duì)注釋結(jié)果實(shí)施聚類(lèi)分析,獲取菌群樣本的功能代謝通路聚類(lèi)情況,如圖3所示,采用不同的顏色描述聚類(lèi)結(jié)果。

        采用本文方法實(shí)現(xiàn)芯片數(shù)據(jù)的聚類(lèi)分析,采用的示例芯片數(shù)據(jù)來(lái)自于GEO數(shù)據(jù)庫(kù)內(nèi)GSE11787的Affvmetrix芯片的CEL文件,其中包括6個(gè)CEL文件、3個(gè)正常對(duì)照組以及3個(gè)HPS刺激組,是免疫器官脾臟的表達(dá)數(shù)據(jù)。讀入原始數(shù)據(jù)后,采用AffvBatch目標(biāo)將數(shù)據(jù)變換成ExpressionSet目標(biāo),為了提高差異表達(dá)基因的檢測(cè)統(tǒng)計(jì)精度,采用本文方法對(duì)數(shù)據(jù)對(duì)過(guò)濾后的數(shù)據(jù)集實(shí)施遞增聚類(lèi),聚類(lèi)效果圖如圖4所示。

        分析圖3和圖4的結(jié)果能夠看出,本文方法實(shí)現(xiàn)了菌群功能代謝通路聚類(lèi)以及表達(dá)基因的聚類(lèi),說(shuō)明本文方法進(jìn)行大數(shù)據(jù)集的數(shù)據(jù)聚類(lèi)是有效的,具有較高的應(yīng)用價(jià)值。

        2.2 可擴(kuò)展性和穩(wěn)定性分析

        大數(shù)據(jù)集具有動(dòng)態(tài)性,穩(wěn)定性好的遞增算法能夠確保在數(shù)據(jù)規(guī)模、特征維數(shù)以及聚類(lèi)簇?cái)?shù)量提高的狀態(tài)下,將內(nèi)存以及時(shí)間的消耗都控制在線性增長(zhǎng)的維度,獲取更為穩(wěn)定的聚類(lèi)效果,該穩(wěn)定性確保算法具有較高的可擴(kuò)展性。實(shí)驗(yàn)檢測(cè)本文遞增聚類(lèi)方法同[k]均值聚類(lèi)方法、EM聚類(lèi)方法的可擴(kuò)展性和穩(wěn)定性結(jié)果,如圖5~圖7所示。其中的矩形圖和曲線圖分別用于描述不同方法的內(nèi)存耗費(fèi)和時(shí)間耗費(fèi)情況。

        對(duì)比分析圖5~圖7能夠看出,無(wú)論在何種情況下本文方法的時(shí)間消耗和內(nèi)存消耗都比其他兩種算法低。同時(shí)隨著數(shù)據(jù)規(guī)模、特征維度以及聚類(lèi)簇個(gè)數(shù)的逐漸提高,本文方法的時(shí)間消耗呈現(xiàn)線性增長(zhǎng)趨勢(shì),而其他兩種方法卻呈現(xiàn)指數(shù)增長(zhǎng)趨勢(shì),說(shuō)明本文方法在時(shí)間消耗方面具有較高的穩(wěn)定性和可擴(kuò)展性。本文方法需要進(jìn)行舊節(jié)點(diǎn)的刪除和新節(jié)點(diǎn)的生成操作,需要進(jìn)行的操作較多,但是隨著高斯模型樹(shù)的增長(zhǎng),節(jié)點(diǎn)合并和刪除,節(jié)點(diǎn)數(shù)量逐漸降低,使得本文方法的內(nèi)存消耗低于其他兩種算法。并且本文方法的內(nèi)存消耗呈現(xiàn)線性增長(zhǎng),確保在內(nèi)存消耗上本文方法具有較高的穩(wěn)定性和可擴(kuò)展性。

        3 結(jié) 語(yǔ)

        本文提出一種基于優(yōu)先聚類(lèi)和高斯混合模型樹(shù)的遞增聚類(lèi)方法,先采用優(yōu)先聚類(lèi)算法對(duì)大數(shù)據(jù)集進(jìn)行優(yōu)先聚類(lèi),獲取典型數(shù)據(jù)集,然后在典型數(shù)據(jù)集的基礎(chǔ)上,采用高斯混合模型樹(shù)的遞增聚類(lèi)算法獲取最佳的聚類(lèi)結(jié)果。

        參考文獻(xiàn)

        [1] 盧志茂,馮進(jìn)玫,范冬梅,等.面向大數(shù)據(jù)處理的劃分聚類(lèi)新方法[J].系統(tǒng)工程與電子技術(shù),2014,36(5):1010?1015.

        [2] 張曉,王紅.一種改進(jìn)的基于大數(shù)據(jù)集的混合聚類(lèi)算法[J].計(jì)算機(jī)工程與科學(xué),2015,37(9):1621?1626.

        [3] 韓巖,李曉.加速大數(shù)據(jù)聚類(lèi)K?means算法的改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(5):1317?1320.

        [4] 李斌,王勁松,黃瑋.一種大數(shù)據(jù)環(huán)境下的新聚類(lèi)算法[J].計(jì)算機(jī)科學(xué),2015,42(12):247?250.

        [5] 向堯,袁景凌,鐘珞,等.一種面向大數(shù)據(jù)集的粗粒度并行聚類(lèi)算法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(10):2370?2374.

        [6] 馬蕾,楊洪雪,劉建平.大數(shù)據(jù)環(huán)境下用戶隱私數(shù)據(jù)存儲(chǔ)方法的研究[J].計(jì)算機(jī)仿真,2016,33(2):465?468.

        [7] 冷泳林,陳志奎,張清辰,等.不完整大數(shù)據(jù)的分布式聚類(lèi)填充算法[J].計(jì)算機(jī)工程,2015,41(5):19?25.

        [8] 周潤(rùn)物,李智勇,陳少淼,等.面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類(lèi)K?means算法[J].計(jì)算機(jī)應(yīng)用,2016,36(2):311?315.

        [9] 龍虎,張小梅.基于修正二階錐規(guī)劃模型的大數(shù)據(jù)聚類(lèi)算法[J].科技通報(bào),2016,32(8):168?171.

        猜你喜歡
        仿真實(shí)驗(yàn)聚類(lèi)分析大數(shù)據(jù)
        開(kāi)展體驗(yàn)式教學(xué)創(chuàng)新研究 提高化學(xué)課堂有效性
        農(nóng)村居民家庭人均生活消費(fèi)支出分析
        基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
        基于聚類(lèi)分析的互聯(lián)網(wǎng)廣告投放研究
        科技視界(2016年20期)2016-09-29 12:32:48
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        基于多重視閾下的《電子控制技術(shù)》課程的教學(xué)探討
        考試周刊(2016年64期)2016-09-22 18:20:00
        “縣級(jí)供電企業(yè)生產(chǎn)經(jīng)營(yíng)統(tǒng)計(jì)一套”表輔助決策模式研究
        基于ETAP的電氣設(shè)計(jì)仿真實(shí)驗(yàn)
        計(jì)算數(shù)據(jù)中心的動(dòng)態(tài)數(shù)據(jù)聚集算法研究
        精品久久久噜噜噜久久久| 久久亚洲中文字幕伊人久久大| 亚洲午夜无码毛片av久久| 久久久无码人妻精品一区| 青春草国产视频| 久久亚洲精品成人av观看| 熟女中文字幕一区二区三区| 真人做爰片免费观看播放| 欧美黄色免费看| 中文字幕高清一区二区| 人妻av有码中文字幕| 中文字幕在线亚洲日韩6页| 亚洲爆乳大丰满无码专区| 中文字幕视频一区二区| аⅴ天堂中文在线网| 国产精品成人免费视频网站京东| 亚洲网站免费看| 亚洲国产日韩一区二区三区四区 | 亚洲色欲Aⅴ无码一区二区| 亚洲成av人片在久久性色av| 欧美熟妇另类久久久久久多毛 | 91麻豆国产香蕉久久精品| 成人综合亚洲国产成人| 日本一区二区三区视频国产| 久久久久亚洲精品中文字幕 | 日韩精品极品免费观看| 国产精品日韩经典中文字幕| 亚洲第一se情网站| 国产成人8x视频网站入口| 中文字幕亚洲乱码熟女1区2区 | 亚洲精品成AV无在线观看| 一二三四在线观看韩国视频| 国产精品成熟老女人| 97人人超碰国产精品最新o| 日本经典中文字幕人妻| 国产一区二区视频在线免费观看| 国产在线精品成人一区二区三区| 久久国产精品免费一区二区| 精品亚洲av乱码一区二区三区| 内射人妻视频国内| 国产精品一区二区在线观看完整版|