□閆巧梅,袁 峰
(1.山西經(jīng)貿(mào)職業(yè)學(xué)院信息工程系,山西 太原 030024;2.晉城市公安局網(wǎng)絡(luò)警察支隊,山西 晉城 048000)
流數(shù)據(jù)聚類技術(shù),作為一種重要的挖掘手段,已被廣泛應(yīng)用于流數(shù)據(jù)挖掘環(huán)境下的各領(lǐng)域中。而流式數(shù)據(jù)的聚類研究也伴隨著各種問題及需求而不斷發(fā)展。而如何解決傳統(tǒng)聚類算法對內(nèi)在單元、處理效率這一對相互矛盾的問題是現(xiàn)今研究的重點內(nèi)容之一。
云計算是一種基于互聯(lián)網(wǎng)的、大眾參與的計算模式,其計算資源(包括計算能力、存儲能力、交互能力等)是實時動態(tài)的、可伸縮的而且被虛擬化的,并以服務(wù)的方式提供。因此,云計算為海量、復(fù)雜的流式數(shù)據(jù)挖掘提供了技術(shù)支持,并為網(wǎng)絡(luò)環(huán)境下面向大眾的數(shù)據(jù)挖掘服務(wù)帶來了機遇,同時也為數(shù)據(jù)挖掘研究提出了新的挑戰(zhàn)性課題。
本文基于原有的流式數(shù)據(jù)聚類算法模型之上,將云計算技術(shù)原理應(yīng)用于其聚類過程,通過模型高效實時地分析流數(shù)據(jù)的聚類過程,從而降低了海量流式數(shù)據(jù)處理過程中對內(nèi)存的占用量,增加了數(shù)據(jù)的處理維度,提高了數(shù)據(jù)分析及算法的可移植能力,拓寬了流數(shù)據(jù)聚類技術(shù)的應(yīng)用領(lǐng)域。
作為信息產(chǎn)業(yè)下一代領(lǐng)軍技術(shù),云計算是一種大規(guī)模資源整合的思想,它的出現(xiàn)給處于信息大爆炸時代的高效率流數(shù)據(jù)處理及資源的整合提出了新的課題。
云計算是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計算(Grid Computing)的發(fā)展,或者說是這些計算機科學(xué)概念的商業(yè)實現(xiàn)。通過使計算分布在大量的分布式計算機上,而非本地計算機或遠(yuǎn)程服務(wù)器中,將大量用網(wǎng)絡(luò)連接的計算資源統(tǒng)一分配調(diào)度,將數(shù)據(jù)中心的資源構(gòu)成一個計算資源池向用戶提供按需服務(wù)。
云計算集成了各類計算資源,以服務(wù)的形式提供資源的使用和繁衍。同時也是物聯(lián)網(wǎng)、“感知中國”和“智慧地球”等前沿理念的技術(shù)支撐,代表了信息技術(shù)及其基礎(chǔ)架構(gòu)的發(fā)展方向,因此受到了社會各界的高度重視。
在云計算中將云計算中心提供的服務(wù)分為三個層次。當(dāng)用戶加入云計算不需要安裝服務(wù)器或任何客戶端軟件,可在任何時間、任何地點、任何設(shè)備(前提是接入互聯(lián)網(wǎng))上通過瀏覽器隨時隨意訪問,云計算的典型服務(wù)模式有三類:“軟件即服務(wù)(Software as a Service,SaaS)”,“平臺即服務(wù)(Platform asa Service,PaaS)”和“基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as aService,IaaS)”。
基于云技術(shù)的優(yōu)點,將其引入流數(shù)據(jù)挖掘算法模型中,不僅可通過資源的共享及虛擬應(yīng)用節(jié)約內(nèi)存,而且可通過其所提供的服務(wù)方式針對流式數(shù)據(jù)處理特點及過程提高流數(shù)據(jù)挖掘的實時及快速處理數(shù)據(jù)的能力,在此過程中,資源的調(diào)度及分配對挖掘?qū)<沂峭该鞯模瑥亩?jié)約內(nèi)存資源,提高挖掘質(zhì)量及其效率。
基于滑動窗口的進(jìn)化數(shù)據(jù)流聚類算法CluWin(見圖1),依據(jù)實際應(yīng)用需求,對一個滑動窗口內(nèi)的數(shù)據(jù)流進(jìn)行聚類分析采用納偽或拒真兩種聚類特征指數(shù)直方圖作為流式數(shù)據(jù)的概要數(shù)據(jù)結(jié)構(gòu)。而它所設(shè)計的在線消除舊記錄機制,用于保存數(shù)據(jù)流當(dāng)前時間線內(nèi)所分布數(shù)據(jù)的數(shù)據(jù)特征,包括分布狀況,用戶據(jù)此可分析出較高質(zhì)量的聚類結(jié)果。
圖1 滑動窗口模型下的流數(shù)據(jù)處理
因特網(wǎng)是一個巨大的、分布廣泛的信息服務(wù)中心,其產(chǎn)生的海量數(shù)據(jù)通常是地理上分布、異構(gòu)、動態(tài)的,復(fù)雜性也越來越高,用已有的集中式數(shù)據(jù)挖掘方法已不能滿足應(yīng)用的要求。為了解決這些問題,提出了一種基于云計算的流數(shù)據(jù)挖掘方法。
在流數(shù)據(jù)挖掘算法中,內(nèi)存單元的大小是有限的,而數(shù)據(jù)的存在是有時效性的,這就要求在設(shè)計挖掘算法過程中既要考慮內(nèi)存空間的使用,同時需要對數(shù)據(jù)進(jìn)行實時處理。
通過對云技術(shù)的分析,可借助于其所提供的云端服務(wù)技術(shù),將一部分固定的處理過程分布于云端,不僅可減輕數(shù)據(jù)流處理負(fù)荷,同時可節(jié)約內(nèi)存資源的占用。
針對當(dāng)前流數(shù)據(jù)聚類技術(shù)的發(fā)展及云技術(shù)的不斷成熟及其廣泛應(yīng)用,本文通過在流數(shù)據(jù)處理模型中引入新型的云計算平臺,使用其提供的各項服務(wù)模式,從而在滑動窗口技術(shù)下設(shè)計出一種基于云技術(shù)的流式數(shù)據(jù)聚類模型,如圖2 所示。
圖2 數(shù)據(jù)處理模型
該模型分四個模塊:數(shù)據(jù)流預(yù)處理模塊,流數(shù)據(jù)管理平臺,云技術(shù)服務(wù)模塊及查詢模塊。通過使用云技術(shù),可以將數(shù)據(jù)流數(shù)據(jù)模塊DSMS“瘦身”,即將其一部分?jǐn)?shù)據(jù)的查詢及驗證通過云計算平臺分布于其他模塊,從而提高DSMS 在處理海量實時數(shù)據(jù)時的高效性,同時也為數(shù)據(jù)流處理模塊節(jié)約了內(nèi)存資源。
2.4.1 L1 中間資源池模塊
在有限的內(nèi)存空間上,當(dāng)數(shù)據(jù)中心的海量流式數(shù)據(jù)流過滑動窗口進(jìn)行預(yù)處理時,可以借助于中間資源池將操作相似簡單的過程交付中間資源池,從而將數(shù)據(jù)處理預(yù)處理過程并行處理。
2.4.2 L2 軟件即服務(wù)模塊
使用互聯(lián)網(wǎng)向數(shù)據(jù)挖掘?qū)<姨峁┏S密浖哪J?,L2 為云端模式可提高運算速度及服務(wù)模式。在使用過程中,用戶可根據(jù)實際需求向云端申請注冊,申請成功后即可通過向云計算中心支付相應(yīng)費用,獲取軟件的使用服務(wù)。
2.4.3 L1/L2 平臺即服務(wù)模塊
平臺層為用戶提供服務(wù)平臺、中間件平臺和硬件平臺,用戶通過這些平臺上進(jìn)行應(yīng)用程序并為其提供服務(wù)。通過該平臺可以將固有的操作過程分布于云端,挖掘?qū)<铱赏ㄟ^因特網(wǎng)申請并使用該平臺提供的服務(wù)。
2.4.4 L2 基礎(chǔ)設(shè)施即服務(wù)模塊
基于該層,可將挖掘過程中所需要的基本資源如內(nèi)存等設(shè)備,集成為一個資源池,為用戶提供高效、節(jié)約能源的過程,從而避免了因內(nèi)存資源有限而導(dǎo)致對數(shù)據(jù)處理能力的影響,提高了數(shù)據(jù)處理效率。
圖3 流數(shù)據(jù)處理過程
在該模型下,可采用實際應(yīng)用需求,根據(jù)數(shù)據(jù)運營中心對網(wǎng)絡(luò)資源的需求及其分析,將一些處理簡單、使用頻度較高、資源占用空間較小以及容易在局域網(wǎng)內(nèi)實現(xiàn)的中間件部分從云端分布于局域網(wǎng)內(nèi),而將使用頻度一般,但還經(jīng)常使用的軟件資源、硬件資源以及占用空間較大、技術(shù)較復(fù)雜的模塊借助于云技術(shù)實現(xiàn),從而對流式數(shù)據(jù)進(jìn)行分布式的實時處理,節(jié)省內(nèi)存,提高處理效率。
在某個時間段內(nèi),基于云技術(shù)的流數(shù)據(jù)處理過程,如圖3 所示。
通過理論分析及驗證可知,將云計算技術(shù)應(yīng)用于進(jìn)化數(shù)據(jù)流挖掘雙層聚類算法,從而可達(dá)到對數(shù)據(jù)中心海量流式數(shù)據(jù)的實時處理,節(jié)約內(nèi)存資源,依據(jù)聚類算法所設(shè)定的規(guī)則,預(yù)估用戶拐點數(shù)據(jù)及其可能行為,提高算法的預(yù)處理能力及其數(shù)據(jù)信息分析的準(zhǔn)確性。
[1]常建龍,曹 鋒,周傲英.基于滑動窗口的進(jìn)化數(shù)據(jù)流聚類[J].軟件學(xué)報,2007,18(4).
[2]Hey Trefethen A E Cyberinfrastructure for e- Science[J].Science,2005,308(5723).
[3]金澈清,錢衛(wèi)寧,周傲英.流數(shù)據(jù)分析與管理綜述[J].軟件學(xué)報,2004,15(8).
[4]俞華鋒.基于云計算的三維虛擬學(xué)習(xí)環(huán)境的設(shè)計與應(yīng)用[J].計算機仿真,2010,27(9).
[5]王 鵬,董靜宜.一種云計算架構(gòu)的實現(xiàn)方法研究[J].計算機工程與科學(xué),2009,31(A01).
[6]陳 康,鄭緯民.云計算:系統(tǒng)實例與研究現(xiàn)狀[J].軟件學(xué)報,2009,20(5).