亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        幾種數(shù)據(jù)流聚類算法分析

        2013-01-03 02:42:18強(qiáng),周
        關(guān)鍵詞:數(shù)據(jù)項(xiàng)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)流

        朱 強(qiáng),周 曉

        (合肥師范學(xué)院,安徽 合肥 230601)

        隨著傳感器技術(shù)和網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展和廣泛應(yīng)用,一種被稱為數(shù)據(jù)流的新的數(shù)據(jù)時(shí)時(shí)刻刻地不斷產(chǎn)生了,例如在網(wǎng)上商城等web應(yīng)用、網(wǎng)絡(luò)監(jiān)控、實(shí)時(shí)監(jiān)控、衛(wèi)星遙感系統(tǒng)、股票交易系統(tǒng)、物聯(lián)網(wǎng)、氣象與環(huán)境監(jiān)控等動(dòng)態(tài)環(huán)境當(dāng)中產(chǎn)生了大量的實(shí)時(shí)數(shù)據(jù).這類數(shù)據(jù)與傳統(tǒng)的存儲(chǔ)在物理存儲(chǔ)介質(zhì)上的靜態(tài)數(shù)據(jù)不同,它是動(dòng)態(tài)的,像水流一樣的形式存在,是一種實(shí)時(shí)持續(xù)到達(dá)、數(shù)據(jù)規(guī)模不能預(yù)知且宏大、到達(dá)速度快、數(shù)據(jù)到達(dá)無序、突變的數(shù)據(jù)[1].因此處理數(shù)據(jù)流只能進(jìn)行單遍掃描算法,一經(jīng)處理的數(shù)據(jù)不能或沒有必要再次提取或者提取的代價(jià)較高;傳統(tǒng)的數(shù)據(jù)挖掘算法應(yīng)用于數(shù)據(jù)流上效果不同理想,如何高效地從數(shù)據(jù)流中獲取有價(jià)值的信息是目前數(shù)據(jù)挖掘領(lǐng)域的重要研究內(nèi)容.聚類分析是數(shù)據(jù)挖掘的一個(gè)重要研究方法,基于數(shù)據(jù)流的聚類分析也引起了越來越多人的關(guān)注,他們提出了多種基于數(shù)據(jù)流的聚類分析算法,較好地解決了傳統(tǒng)聚類分析的不足.本文首先介紹了數(shù)據(jù)流和基于數(shù)據(jù)流的聚類分析算法應(yīng)該滿足的特點(diǎn),然后討論了幾種數(shù)據(jù)流聚類算法,并對其進(jìn)行分析和評價(jià).

        1 數(shù)據(jù)流定義與窗口模型

        數(shù)據(jù)流是一種實(shí)時(shí)持續(xù)到達(dá)、數(shù)據(jù)規(guī)模不能預(yù)知且宏大、到達(dá)速度快、數(shù)據(jù)到達(dá)無序、突變的數(shù)據(jù)序列X1,X2,…,Xn…,序列中每一個(gè)數(shù)據(jù)Xi假設(shè)是d維,xi=xi1,xi2,…,xid,每一項(xiàng)數(shù)據(jù)到達(dá)的時(shí)間假設(shè)是T1,T2,…Tn,…,則數(shù)據(jù)流可可以看作是帶有時(shí)間標(biāo)記的一系列數(shù)據(jù)項(xiàng):<X1,T1>,<X2,T2>,….基于數(shù)據(jù)流的數(shù)據(jù)挖掘往往是在某一個(gè)時(shí)間段內(nèi)進(jìn)行,也就是在時(shí)間窗口內(nèi)進(jìn)行,比較常用的時(shí)間窗口模型有三種[2]:

        1.1 界標(biāo)窗口模型(Landmark Window Model):該種窗口模型是指被用來挖掘的數(shù)據(jù)流為從數(shù)據(jù)流開始到當(dāng)前到達(dá)的所有數(shù)據(jù)項(xiàng)的集合,即{X1,X2,…,Xn},其中是Xn當(dāng)前時(shí)刻的數(shù)據(jù)項(xiàng),且窗口大小隨著數(shù)據(jù)的到達(dá)不斷增加.

        1.2 滑動(dòng)窗口模型(Sliding Window Model):該種窗口模型是指被用來挖掘的數(shù)據(jù)流從當(dāng)前時(shí)刻開始,到最近到達(dá)的N個(gè)數(shù)據(jù)項(xiàng)的集合,N即是滑動(dòng)窗口的大小,數(shù)據(jù)項(xiàng)集合為{Xi-N+1…Xi},其中Xi是當(dāng)前時(shí)刻的數(shù)據(jù)項(xiàng).這種窗口模型的窗口位置在時(shí)間軸上隨著數(shù)據(jù)流不斷滑動(dòng).

        1.3 衰減窗口模型(Damped Window Model):該種窗口模型是指被用來挖掘的數(shù)據(jù)流為從數(shù)據(jù)流開始到當(dāng)前到達(dá)的所有數(shù)據(jù)項(xiàng)的集合,但個(gè)數(shù)據(jù)項(xiàng)被賦予不同的權(quán)重,較早到達(dá)的數(shù)據(jù)項(xiàng)具有較小的權(quán)重,較晚到達(dá)的數(shù)據(jù)項(xiàng)具有較大的權(quán)重.各數(shù)據(jù)項(xiàng)的權(quán)重根據(jù)某種衰減函數(shù)隨著時(shí)間不斷地衰減.

        用戶根據(jù)需求選擇其中一種或幾種窗口模型應(yīng)用于數(shù)據(jù)流的挖掘,不論采用哪種窗口模型,一般數(shù)據(jù)流挖掘都采用相同的挖掘框架,如下圖1所示.

        該框架下,算法需要在內(nèi)存中維護(hù)一個(gè)概要數(shù)據(jù)結(jié)構(gòu)[2],概要數(shù)據(jù)結(jié)構(gòu)是一種利用較少的內(nèi)存空間從已往數(shù)據(jù)流中提取數(shù)據(jù)特征或信息而形成的數(shù)據(jù)結(jié)構(gòu).當(dāng)新的數(shù)據(jù)項(xiàng)到達(dá)時(shí),數(shù)據(jù)流挖掘算法通過計(jì)算來維護(hù)和更新內(nèi)存中的概要數(shù)據(jù)結(jié)構(gòu).當(dāng)用戶發(fā)出挖掘請求時(shí),算法從概要數(shù)據(jù)結(jié)構(gòu)中讀取信息并處理,再把處理的結(jié)果反饋給用戶.不同的概要數(shù)據(jù)結(jié)構(gòu)對挖掘結(jié)果的影響很大,因此,設(shè)計(jì)出新的概要數(shù)據(jù)結(jié)構(gòu)也是數(shù)據(jù)流挖掘的一個(gè)重要研究內(nèi)容.

        2 幾種代表性的數(shù)據(jù)流聚類算法

        數(shù)據(jù)流聚類分析是數(shù)據(jù)流挖掘的一個(gè)重要研究方向,而數(shù)據(jù)流本身的特點(diǎn)也決定了對于一般數(shù)據(jù)的聚類分析算法不適合數(shù)據(jù)流聚類.數(shù)據(jù)流聚類算法有以下幾個(gè)基本的要求[3]:

        2.1 由于數(shù)據(jù)流是源源不斷地持續(xù)到達(dá),因此對于數(shù)據(jù)流聚類算法的速度要很快,甚至實(shí)時(shí)響應(yīng),而傳統(tǒng)的聚類數(shù)據(jù)是靜態(tài)的,對時(shí)間復(fù)雜度的要求并不苛刻.

        2.2 由于數(shù)據(jù)流持續(xù)無限、規(guī)模龐大,因此整個(gè)流數(shù)據(jù)集不可能在存儲(chǔ)在內(nèi)存或硬盤上,須對數(shù)據(jù)流進(jìn)行必要的概化舍棄處理;同樣,對數(shù)據(jù)流的分析也不像傳統(tǒng)的聚類那樣可以多次掃描數(shù)據(jù),而只能是單遍掃描.

        2.3 數(shù)據(jù)流數(shù)據(jù)往往都是高維的、海量的,因此其算法的復(fù)雜性比傳統(tǒng)算法更高.目前影響比較大的數(shù)據(jù)流聚類算法有以下幾種:

        2.3.1 CluStream數(shù)據(jù)流聚類算法[4]

        數(shù)據(jù)流聚類算法CluStream是有C.Aggarwal等人提出的,它把不是把數(shù)據(jù)流看成一個(gè)整體,而是看成是一個(gè)隨時(shí)間變化的過程進(jìn)行聚類分析,因此,算法優(yōu)點(diǎn)是當(dāng)數(shù)據(jù)流隨著時(shí)間變化較大時(shí),它的聚類結(jié)果質(zhì)量更高.而且,CluStream算法可以給出任意時(shí)間范圍內(nèi)的聚類結(jié)果及進(jìn)行數(shù)據(jù)流的進(jìn)化分析.CluStream算法的聚類過程包含兩部分或兩階段:在線的微聚類和離線的宏聚類.在線部分用micro-cluster定時(shí)存儲(chǔ)數(shù)據(jù)流的摘要信息,以增量的方式對數(shù)據(jù)進(jìn)行處理和更新,并在金字塔時(shí)間框架下分級(jí)保存摘要信息;離線部分是用micro-cluster在在線部分保存的中間結(jié)果再進(jìn)行分析得到指定時(shí)間范圍內(nèi)的聚類結(jié)果.CluSTream算法提出的這個(gè)兩階段處理框架被之后的許多數(shù)據(jù)流聚類算法所改進(jìn)和采用.但是由于算法的micro-cluster采用類似于BRICH算法所用的特征值記錄它所產(chǎn)生的子聚類,因此算法對球形的聚類結(jié)果很好,但對其它形狀聚類并不能產(chǎn)生很好的聚類結(jié)果.

        2.3.2 HPStream數(shù)據(jù)流聚類算法[5]

        Aggarwal等人后來為了解決高維數(shù)據(jù)流聚類問題又提出了一種基于投影的數(shù)據(jù)流聚類算法HPStream,該算法是將投影的技術(shù)應(yīng)用到數(shù)據(jù)流聚類中,在相關(guān)維形成的子空間內(nèi)算法解決了高維數(shù)據(jù)的稀疏性問題,提供了聚類的質(zhì)量.HPStream算法使用衰減結(jié)構(gòu),利用可調(diào)衰減因子較好地將當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)結(jié)合起來,在數(shù)據(jù)流的進(jìn)化中逐步刪除過期的歷史數(shù)據(jù),體現(xiàn)了當(dāng)前數(shù)據(jù)的重要.但是HPStream算法和CluStream算法一樣,對球形的聚類結(jié)果很好,但對其它形狀聚類并不能產(chǎn)生很好的聚類結(jié)果.

        2.3.3 DenStream數(shù)據(jù)流聚類算法[6]

        DenStream數(shù)據(jù)流聚類算法是由Cao等人提出的一種基于密度的聚類算法,它改進(jìn)了DenStream算法,采用CluStream算法中提出的兩階段處理框架,引入了核心微聚類簇、孤立點(diǎn)微聚類簇和潛在微聚類簇等概念以獲取較準(zhǔn)確的聚類結(jié)果,可挖掘在有噪聲環(huán)境下衰減窗口內(nèi)數(shù)據(jù)流中任意形狀的簇.但因?yàn)椴捎萌忠恢碌慕^對密度作參數(shù),所以聚類結(jié)果對參數(shù)值比較敏感,同時(shí),由于需要統(tǒng)計(jì)輸入數(shù)據(jù)帶有時(shí)間特性的特征向量及大量密度計(jì)算,所以其時(shí)間復(fù)雜度也比較高.SDStream算法[7]是在DenStream算法的基礎(chǔ)上,利用滑動(dòng)窗口來處理數(shù)據(jù)流,雖然減少了時(shí)間復(fù)雜度,但是卻只能獲取到最近數(shù)據(jù)流中任意形狀的聚類簇.

        2.3.4 D-Stream數(shù)據(jù)流聚類算法[8]

        D-Stream數(shù)據(jù)流聚類算法是一種典型的數(shù)據(jù)流網(wǎng)格聚類算法.網(wǎng)格聚類往往是將數(shù)據(jù)空間首先劃分為由一定數(shù)目的網(wǎng)格單元組成的網(wǎng)格結(jié)構(gòu),然后將數(shù)據(jù)流映射到網(wǎng)格結(jié)構(gòu)中,形成網(wǎng)格密度的概念,相鄰的高密度網(wǎng)格的集合代表一個(gè)聚類,聚類操作在網(wǎng)格上進(jìn)行.D-Stream算法在線部分將數(shù)據(jù)映射到一個(gè)網(wǎng)格,在離線部分計(jì)算網(wǎng)格的密度,從而形成基于密度的簇.D-Stream算法使用密度衰減技術(shù)來捕獲數(shù)據(jù)流的動(dòng)態(tài)變化,通過實(shí)時(shí)地調(diào)整簇,以探索衰減因、數(shù)據(jù)密度和簇結(jié)構(gòu)間的關(guān)系,合理地移除屬于離群的點(diǎn)的稀疏網(wǎng)格,提高系統(tǒng)的空間和時(shí)間效率.D-Stream算法能有效地對高速數(shù)據(jù)流進(jìn)行聚類而不損失聚類質(zhì)量,能發(fā)現(xiàn)任意形狀的簇,能準(zhǔn)確地識(shí)別實(shí)時(shí)數(shù)據(jù)流的演化行為,但其聚類效果明顯會(huì)受到網(wǎng)格粒度的影響.

        3 結(jié)論

        基于數(shù)據(jù)流的聚類算法得到了眾多人員的研究,也產(chǎn)生了很多的聚類算法成果,但是在實(shí)時(shí)數(shù)據(jù)流聚類、高維數(shù)據(jù)流聚類以及提高聚類的質(zhì)量和降低時(shí)間復(fù)雜度等方面還存在不足,數(shù)據(jù)流的模糊聚類還處于起步階段,這也是下一步努力的方向.

        〔1〕萬仁霞.數(shù)據(jù)流聚類算法研究[D].上海:東華大學(xué),2009.

        〔2〕曹鋒.數(shù)據(jù)流聚類分析算法[D].上海:復(fù)旦大學(xué),2006.

        〔3〕趙煥平,曹蕾.基于密度的數(shù)據(jù)流聚類算法[J].南陽理工學(xué)院學(xué)報(bào),2012,4(2):73-75.

        〔4〕C.Aggarwal,J.Han,et al.A framework for clustering evolvingdata streams[J].Proc.of VLDB,2003:81-87.

        〔5〕C.Aggarwal,J.Han,et al.A framework for projected clustering of high dimensional data streams[J].Proc.of VLDB,2004:850-859.

        〔6〕F.Cao,A.zhou,etc.Density -based clustering over an evolving data stream with noise [J].Proc.of the SIAM Conf.on Data Mining.2006.

        〔7〕Ren J D,Ma R Q.Density-based data streams clustering over sliding windows.Proceedings of the 6th International Conference on FKD,2009:240-251.

        〔8〕Chen Y X,Tu L.Density-based clusteing for real-time stream data.Proceeding of the 13th ACM SIGKDD,2007:130-140.

        猜你喜歡
        數(shù)據(jù)項(xiàng)數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)流
        汽車維修數(shù)據(jù)流基礎(chǔ)(下)
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫Skyline-join查詢*
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
        “翻轉(zhuǎn)課堂”教學(xué)模式的探討——以《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)為例
        高職高專數(shù)據(jù)結(jié)構(gòu)教學(xué)改革探討
        中國市場(2016年45期)2016-05-17 05:15:48
        基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
        北醫(yī)三院 數(shù)據(jù)流疏通就診量
        TRIZ理論在“數(shù)據(jù)結(jié)構(gòu)”多媒體教學(xué)中的應(yīng)用
        久久无码人妻一区二区三区午夜| 日韩av不卡一二三区| 国产自拍一区二区三区| 插鸡网站在线播放免费观看| 国产台湾无码av片在线观看| 亚洲免费视频播放| 日本韩国黄色三级三级| 国产白浆一区二区在线| 人与动牲交av免费| 四虎永久免费一级毛片| 日韩精品免费在线视频| 东北熟妇露脸25分钟| 亚洲春色在线视频| 日韩AV无码免费二三区| 亚洲av中文字字幕乱码| 97成人精品国语自产拍| 99精品欧美一区二区三区| 传媒在线无码| 99亚洲女人私处高清视频| 女人下边被添全过视频| 国产精品无码不卡一区二区三区| 国产福利97精品一区二区| AV成人午夜无码一区二区| 全部孕妇毛片丰满孕妇孕交| 欧美色精品91av| 国产最新一区二区三区| 在线观看午夜视频一区二区| 欧美国产精品久久久乱码| 在线观看国产三级av| av中文字幕在线直播| 美女脱了内裤张开腿让男人桶网站 | 伊人网视频在线观看| 国产一品二品三品精品久久| 91九色老熟女免费资源| 中文字幕无码av激情不卡| 精品亚洲一区二区99| 在线观看国产视频午夜| 国精产品推荐视频| 2021精品国产综合久久| 91久久精品一区二区三区大全| 亚洲中文字幕久久精品无码a |