一、引言
目前,人們正處于一個“無處不網(wǎng)、無時不網(wǎng),人人上網(wǎng)、時時在線”的時代,云計(jì)算的應(yīng)用價值得到了包括IBM、Google在內(nèi)的眾多公司的重視,其未來將像工業(yè)革命一樣影響計(jì)算機(jī)應(yīng)用的發(fā)展。目前,云計(jì)算處于研究和應(yīng)用的初級階段,云計(jì)算走出實(shí)驗(yàn)室邁向商業(yè)化指日可待,云計(jì)算的特點(diǎn)使存儲及數(shù)據(jù)商業(yè)化,海量數(shù)據(jù)存儲和挖掘是一個具有理論和應(yīng)用價值的研究領(lǐng)域,本文闡述了在云計(jì)算開源框架下應(yīng)用挖掘聚類分析算法。
二、云計(jì)算和數(shù)據(jù)挖掘
云計(jì)算一般是指一種虛擬的網(wǎng)絡(luò)資源,它是一種實(shí)時的動態(tài)的和容易擴(kuò)展的網(wǎng)絡(luò)資源,本身是根據(jù)因特網(wǎng)的一種使用、增加和交付的模式。在狹義上,云計(jì)算主要是指通過互聯(lián)網(wǎng),根據(jù)用戶需要、并且是容易擴(kuò)展的辦法得到網(wǎng)絡(luò)資源,是信息技術(shù)設(shè)施的提交和利用模式;在廣義上,主要指一般的服務(wù)的提交和利用模式,通過因特網(wǎng)獲得需要的服務(wù)。這種服務(wù)范圍廣泛,包括信息技術(shù)、應(yīng)用軟件、互聯(lián)網(wǎng)絡(luò)等等相關(guān)的方面,當(dāng)然也可以是其他的一些服務(wù)。這就表示計(jì)算能力可以通過網(wǎng)絡(luò)商品化,在互聯(lián)網(wǎng)上面流通。
云計(jì)算,它的計(jì)算資源--包括計(jì)算能力、交互能力、存儲能力等,是一種實(shí)時的、可變的、和虛擬化的資源,它是一種網(wǎng)絡(luò)化的、人人都能參與的計(jì)算形式,為互聯(lián)網(wǎng)上的用戶提供服務(wù)。云計(jì)算為下面幾方面提供了可能性:第一,云計(jì)算具有實(shí)時性和可變的計(jì)算能力可以為海量高效的數(shù)據(jù)挖掘提供了可能;第二,云計(jì)算是所有互聯(lián)網(wǎng)公司或個人參與的,能夠發(fā)揮集體智慧,從而孕育新的數(shù)據(jù)挖掘環(huán)境;第三,云計(jì)算還是得我們普通人數(shù)據(jù)挖掘成為可能。還有,云計(jì)算與數(shù)據(jù)挖掘是相輔相成的,相互發(fā)展。
數(shù)據(jù)挖掘,也就是在大量的數(shù)據(jù)中尋找到需要的事件,然后運(yùn)用科學(xué)技術(shù)分析出其中的需要找到的事件,并提取其中的一些數(shù)據(jù),找到數(shù)據(jù)隱藏的意思,并且,我們可以根據(jù)環(huán)境背景的不同,創(chuàng)建不同的數(shù)據(jù)挖掘形式,從而得到所需要的有用的信息,然后可以將這些有用的信息提供給相關(guān)企業(yè)或者個人,為企業(yè)或個人的決策提供依據(jù)。
因此,云計(jì)算為海量和復(fù)雜數(shù)據(jù)對象的數(shù)據(jù)挖掘提供了基礎(chǔ)設(shè)施,為網(wǎng)絡(luò)環(huán)境下面向大眾的數(shù)據(jù)挖掘服務(wù)帶來了機(jī)遇,同時也為數(shù)據(jù)挖掘研究提出了新的挑戰(zhàn)性課題。
三、聚類分析方法和用處
這些年,在計(jì)算機(jī)技術(shù)的迅猛發(fā)展帶動下,數(shù)據(jù)挖掘技術(shù)和聚類分析技術(shù)發(fā)展迅速,吸引了很多的專家投入到這個領(lǐng)域,成為了相當(dāng)活躍的研究領(lǐng)域。到今天為止,很多專家研究了很多效率很高的聚類分析方法,而且新的聚類分析法也在不斷涌現(xiàn)。
聚類分析通過把把相同性質(zhì)的東西聚集到一起,然后對事物進(jìn)行分類統(tǒng)計(jì)的多元統(tǒng)計(jì)辦法,是一種中不需要監(jiān)督學(xué)習(xí)的方式,在沒有前提知識的狀況下,根據(jù)大量的樣品,根據(jù)他們自身性質(zhì)合理的進(jìn)行分類,沒有任何的參考模式和遵循方式。
聚類分析是實(shí)驗(yàn)如何將指標(biāo)或者樣品通過不同的性質(zhì)特點(diǎn),采用綜合起來分類別的多元統(tǒng)計(jì)辦法。聚類就是通過運(yùn)用數(shù)據(jù)的相似層度(預(yù)先定義的),將目標(biāo)數(shù)據(jù)在沒有訓(xùn)練的情況下分為若干組。
聚類分析法在數(shù)據(jù)挖掘中很多時候都會用到,這項(xiàng)技術(shù)本身即是一種數(shù)據(jù)挖掘方法,同時可以為作為數(shù)據(jù)挖掘的前期處理。
四、基于云計(jì)算平臺的聚類分析算法
要在云計(jì)算平臺上實(shí)現(xiàn)聚類分析算法,首先,要考慮算法的并行性,只有那種本身具有并行化特征的聚類分析算法才能正確地遷移到云計(jì)算平臺上。
現(xiàn)在的聚類方法分為五類:根據(jù)類別的聚類分析法,根據(jù)層次的聚類分析法,基于密度的聚類分析方法,基于網(wǎng)絡(luò)的聚類分析方法,基于模型的的聚類分析方法。下面以基于密度DBSCAN(densityial-based spatial clustering of applications with noise )算法為例闡述聚類分析法在云計(jì)算中的應(yīng)用。根據(jù)密度的辦法是得到密度夠高的區(qū)域劃分為幾個部分,于是可以得到任何形狀的聚類結(jié)果。BDSCAN算法擁有很多的優(yōu)點(diǎn),比如,可以有效屏蔽多余數(shù)據(jù)的干擾,可以找到任何形狀的簇,是具有代表性的聚類分析算法。
DBSCAN算法描述:
DBSCAN(D,EPs,MinPts)
初始化//輸入數(shù)據(jù):D:數(shù)據(jù)對象集合,EPs:鄰域,MinPts:密度閉值
Step1:讀取D中任何一個沒有分類的對象o;
Step2:查找出與o的距離小于等于EPs的所有的NePs(o);
Step3:if │Neps(o)│≤MinPts(即o為非核心對象),則將o標(biāo)記為噪聲,并執(zhí)行Step1;
Step4:else(即o為核心對象),給NePs(o)中的所有對象打上一個新的類標(biāo)簽newid,并且將這些對象壓縮到堆棧的SeedS中;
Step5:置Currentobjeet=Seeds.top;然后檢索屬于Neps(C二entobject)的所有對象;如果│NePs(CurreniObjeet) │>MinPts,則剔除己經(jīng)打上標(biāo)記的對象,將剩下的沒有分類的標(biāo)上類標(biāo)簽newid,然后壓入堆棧;
Step6:Seeds.pop,判斷Seeds是不是空的,是,則執(zhí)行step1),否則執(zhí)行Step5。
通過上面的算法,我們可以分析出來,DBSCAN算法可以找到任何形狀的聚類,而且對數(shù)據(jù)的次序不敏感,并且還有處理噪音數(shù)據(jù)的能力。但是,改算法對于客戶定義的一些參數(shù)是敏感的,而選擇恰當(dāng)?shù)膮?shù)需要相關(guān)的經(jīng)驗(yàn),而且,該算法的時間復(fù)雜性是O(n2),對于大型的數(shù)據(jù)庫來說,這種較高的復(fù)雜度并不容易實(shí)現(xiàn)。
五、結(jié)語
數(shù)據(jù)挖掘以及聚類分析應(yīng)用領(lǐng)域十分廣泛和巨大,相對國外而言我們國家在這方面的研究開發(fā)創(chuàng)造相對落后了許多,在很多實(shí)際應(yīng)用的領(lǐng)域在技術(shù)上研究上不免受制于人,因此,加強(qiáng)國內(nèi)數(shù)據(jù)挖掘方面的算法和應(yīng)用的研究就顯得十分重要,這也成為推動我們國家數(shù)據(jù)挖掘領(lǐng)域不斷進(jìn)步和發(fā)展的不竭動力。