亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的數(shù)據(jù)聚類算法研究

        2015-04-02 11:54:56徐正巧趙德偉
        軟件導(dǎo)刊 2015年2期
        關(guān)鍵詞:聚類分析云計算

        徐正巧 趙德偉

        摘要:聚類算法一直備受研究者青睞。隨著信息技術(shù)和數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)的種類和數(shù)量急劇增長,云計算平臺Hadoop成為這些數(shù)據(jù)存儲和處理的新平臺,基于云計算平臺Hadoop的聚類算法逐漸成為熱門。針對數(shù)據(jù)挖掘中的聚類問題,依托云計算模式及Hadoop平臺,研究了Kmeans算法,有效改變了現(xiàn)有算法的局限性。

        關(guān)鍵詞關(guān)鍵詞:云計算;Hadoop;聚類分析;MapReduce

        DOIDOI:10.11907/rjdk.143858

        中圖分類號:TP301.6

        文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2015)002000402

        基金項目基金項目:四川省教育廳科研項目(12ZB144);西華師范大學(xué)?;痦椖浚?2A038)

        作者簡介作者簡介:徐正巧(1982-),女,寧夏鹽池人,碩士,西華師范大學(xué)實驗中心講師,研究方向為數(shù)據(jù)挖掘與智能計算。

        0引言

        隨著信息技術(shù)和電子商務(wù)的飛速發(fā)展,數(shù)據(jù)正以驚人的速度劇增,無論是數(shù)據(jù)量還是數(shù)據(jù)種類都越來越豐富。這些海量的數(shù)據(jù)中隱藏著大量有價值的信息,如何存儲、處理這些海量數(shù)據(jù),從這些海量數(shù)據(jù)中挖掘出有用信息,利用已有數(shù)據(jù)進(jìn)行預(yù)測是目前的研究熱點。

        海量數(shù)據(jù)分布在不同的計算機中,分布式計算和大規(guī)模異構(gòu)系統(tǒng)資源共享是實現(xiàn)海量數(shù)據(jù)挖掘的關(guān)鍵技術(shù),云計算技術(shù)為這一問題提供了理想的技術(shù)解決方案,云計算平臺滿足了用戶“按需使用,按量付費,即需即用”的服務(wù)需求,有效解決了計算機中海量數(shù)據(jù)的存儲與處理問題。

        1云計算

        1.1云計算概念

        云計算(Cloud Computing)是將存儲于電腦、移動電話和智能通訊設(shè)備上的大量信息和處理器資源集中在一起進(jìn)行工作的超級計算機模式。它將要完成的任務(wù)分布在大量計算機構(gòu)成的資源池上,各種應(yīng)用系統(tǒng)能夠根據(jù)需要從資源池中獲取計算力、存儲空間和各種軟件服務(wù)\[1\]。

        云計算是集群計算(Cluster Computing)、分布式處理 (Distributed Computing)、并行計算(Parallel Computing)和網(wǎng)格計算(Grid Computing)的發(fā)展\[2\]。云計算采用計算機集群構(gòu)成數(shù)據(jù)中心和資源池,使用戶能夠利用互聯(lián)網(wǎng)隨時隨地、按實際需要共享云資源。

        1.2云計算特點

        云計算以其超大規(guī)模、高可擴展性、高可靠性、虛擬化、按需分配、廉價性和通用性等優(yōu)勢,使普通用戶在普通計算機上都能享受到高性能計算機的存儲、計算能力,給人類生活和工作帶來了極大便利。目前Google、IBM、Microsoft等大型互聯(lián)網(wǎng)企業(yè)都部署有云計算平臺,供用戶分享云技術(shù)帶來的好處。

        1.3云計算平臺

        云計算系統(tǒng)主要由云平臺、云終端、云存儲和云安全4部分組成,其中云平臺是云計算系統(tǒng)的核心,它整合了多個數(shù)據(jù)中心的資源,統(tǒng)一分配和調(diào)度計算機資源、存儲資源和網(wǎng)絡(luò)資源,為用戶提供了良好的計算環(huán)境、開發(fā)平臺和應(yīng)用軟件等多種服務(wù)\[3\]。

        云計算平臺可以劃分為存儲型云平臺、計算型云平臺以及綜合云計算平臺。其中,存儲型云平臺主要以數(shù)據(jù)存儲為主,計算型云平臺主要進(jìn)行數(shù)據(jù)處理,綜合云計算平臺則兼顧計算和數(shù)據(jù)存儲。

        Hadoop是一個易開發(fā)及并行處理海量數(shù)據(jù)的云計算平臺,主要由兩部分組成:分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和MapReduce計算模型\[45\],HDFS為海量數(shù)據(jù)提供存儲,是分布式計算的基石,采用了M/S架構(gòu),主要執(zhí)行的操作有創(chuàng)建、刪除、移動或重命名等,架構(gòu)類似于傳統(tǒng)的分級文件系統(tǒng);而MapReduce則為海量數(shù)據(jù)提供計算。

        2數(shù)據(jù)聚類分析

        聚類分析(Clastering Analysis)以對象的相似性為基礎(chǔ),在聚類模式之間具有更多的相似性,是數(shù)據(jù)挖掘的重要技術(shù)之一。聚類是將物理或抽象對象的集合分成由類似的對象組成多個類的過程,是現(xiàn)實世界中普遍存在的現(xiàn)象,作為統(tǒng)計學(xué)的一個分支,其應(yīng)用非常廣泛。

        在數(shù)據(jù)挖掘之前,對象類劃分的數(shù)據(jù)量與類型均是未知的,因此在數(shù)據(jù)挖掘后一般需要對數(shù)據(jù)挖掘結(jié)果進(jìn)行合理的分析與解釋。聚類算法可分為劃分法、層次法、基于網(wǎng)格方法、基于密度方法、圖論聚類法等。數(shù)據(jù)聚類分析主要有4個步驟,如圖1所示。

        圖1聚類分析步驟

        3基于Hadoop的數(shù)據(jù)聚類算法

        數(shù)據(jù)挖掘的特點就是從海量數(shù)據(jù)中提取有價值的規(guī)則和信息。隨著數(shù)據(jù)量和種類的急劇增加,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)已經(jīng)很難滿足數(shù)據(jù)挖掘的需求。在云計算時代,海量的數(shù)據(jù)分布在不同地理位置的計算機上,現(xiàn)有聚類算法在時間復(fù)雜性和空間復(fù)雜性上都無法很好地解決此問題。研究思路就是將并行處理技術(shù)應(yīng)用到現(xiàn)有的聚類算法中,降低聚類算法的時間復(fù)雜度和空間復(fù)雜度,節(jié)約聚類時間。

        并行聚類算法能夠在多臺計算機上同時運行,滿足云計算需求,節(jié)約了大量計算機資源。目前,并行聚類算法有:并行聚類算法PWIDE、并行KMeans算法、基于密度和密度可達(dá)并行聚類算法PCADD等\[6\]。

        KMeans算法是最著名和最常用的聚類算法。Kmeans算法以k為輸入?yún)?shù),把n個對象分為k個簇,使得簇內(nèi)具有較高的相似度,簇間具有較低的相似度。相似度的計算根據(jù)一個簇中對象的平均值(被稱為簇的重心或簇心)進(jìn)行。本文聚類算法采用均方差作為標(biāo)準(zhǔn)測度函數(shù):

        E=∑ki=1∑Pcip-mi2(1)

        其中,E為所有數(shù)據(jù)對象的均方差之和;P代表對象空間中的一個點;mi為聚類均值。

        并行Kmeans算法采用數(shù)據(jù)并行的設(shè)計思想,首先把整個空間數(shù)據(jù)按照計算機的節(jié)點數(shù)量對海量的數(shù)據(jù)集X進(jìn)行劃分,形成N個子數(shù)據(jù)樣本集X1,X2,X3……XN(N為計算機節(jié)點個數(shù)),每個節(jié)點上分別對應(yīng)自己的數(shù)據(jù)集,然后對每個子數(shù)據(jù)集進(jìn)行獨立的數(shù)據(jù)聚類,形成數(shù)據(jù)集的簇{C11,C12,……,C1M},{C21,C22,……,C2O},……,{Cn1,Cn2,……,CnQ}(其中M,O,Q為聚類簇的個數(shù),N為數(shù)據(jù)集的個數(shù)),最后把聚類結(jié)果發(fā)送到主節(jié)點上,主節(jié)點再把各個聚類結(jié)果匯總,輸出最終的聚類結(jié)果。

        Hadoop平臺主要有HDFS和MapReduce兩部分,并行Kmeans聚類算法,在每次迭代過程中分別執(zhí)行Map和Reduce操作。

        在Hadoop平臺中,HDFS負(fù)責(zé)存儲海量數(shù)據(jù),并管理數(shù)據(jù)文件,記錄數(shù)據(jù)文件分布在哪個節(jié)點上,從哪個數(shù)據(jù)節(jié)點上獲得,并記錄數(shù)據(jù)的初始中心。 Map函數(shù)的任務(wù)是完成每個記錄員到中心點距離的計算并重新標(biāo)記其新的類別,其輸入為待聚類所有數(shù)據(jù)和上一輪聚類中心,輸入數(shù)據(jù)聚類<行,記錄>。Reduce函數(shù)的任務(wù)是根據(jù)Map函數(shù)得到的中間計算結(jié)果,計算出新類的聚類中心并發(fā)送給各節(jié)點,更新HDFS到文件然后進(jìn)行下一次迭代直到收斂。

        并行Kmeans聚類算法步驟如下:①任意選擇K個樣本作為初始的中心點;②迭代并執(zhí)行Map和Reduce操作;③直到收斂。

        4結(jié)語

        利用云計算技術(shù)和Hadoop平臺,獲得強大的計算能力、存儲能力以及基礎(chǔ)設(shè)施服務(wù)能力,有效解決了分析與處理海量數(shù)據(jù)面臨的問題,降低了終端設(shè)備要求,提高了數(shù)據(jù)處理能力。本文基于云計算平臺Hadoop,對海量數(shù)據(jù)聚類的并行算法Kmeans進(jìn)行了深入的研究和探討,以期對聚類發(fā)展起到推動作用。

        參考文獻(xiàn)參考文獻(xiàn):

        \[1\]黃成云,左明章,榮先海. 基于云計算的移動學(xué)習(xí)系統(tǒng)設(shè)計\[J\]. 現(xiàn)代教育技術(shù),2010,20 (8):102105.

        \[2\]侯建, 帥仁俊, 侯文. 基于云計算的海量數(shù)據(jù)存儲模型\[J\].通信技術(shù),2011,44(5):163165.

        \[3\]吳功,吳英.物聯(lián)網(wǎng)導(dǎo)論\[M\].北京:機械工業(yè)出版社,2012.

        \[4\]趙衛(wèi)中,馬慧芳,傅燕翔,等. 基于云計算平臺Hadoop的并行kmeans聚類算法設(shè)計研究\[J\].計算科學(xué),2011, 38 (10):166176.

        \[5\]GHEMAWAT S,GOBIOFF H,LEUNG S. The google file system \[J\]. SACM SIGOPS Operating Systems Review, 2003,37(5):2943.

        \[6\]張強,趙鄭.WIDE:海量數(shù)據(jù)的聚類算法\[J\]. 天津大學(xué)學(xué)報, 2006(7):3339.

        責(zé)任編輯(責(zé)任編輯:杜能鋼)

        猜你喜歡
        聚類分析云計算
        農(nóng)村居民家庭人均生活消費支出分析
        基于云計算的移動學(xué)習(xí)平臺的設(shè)計
        基于省會城市經(jīng)濟(jì)發(fā)展程度的實證分析
        中國市場(2016年33期)2016-10-18 12:16:58
        實驗云:理論教學(xué)與實驗教學(xué)深度融合的助推器
        云計算中的存儲虛擬化技術(shù)應(yīng)用
        科技視界(2016年20期)2016-09-29 13:34:06
        基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
        科技視界(2016年20期)2016-09-29 12:32:48
        “縣級供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計一套”表輔助決策模式研究
        亚洲一区有码在线观看| 精品国产18久久久久久| 国产成人精品三级麻豆| 国产亚洲精品久久777777| 亚洲人成无码网www| 国产啪精品视频网站免| 99伊人久久精品亚洲午夜| 国产极品视觉盛宴| 无码尹人久久相蕉无码| 亚洲av电影天堂男人的天堂| 久久久久亚洲av成人网址| 国产亚洲精品高清视频| 青青草成人在线免费视频| 久久久中文久久久无码| 亚洲国产精品久久久久婷婷老年| 国产一区二区精品在线观看| 亚洲最黄视频一区二区| 亚洲国产精品av在线| 天天躁日日躁狠狠很躁| 久久亚洲AV无码精品色午夜| 亚洲天堂一二三四区在线| 国产福利一区二区三区在线视频| 久久国产免费观看精品3| 99精品视频在线观看| 国产短视频精品区第一页| 免费人成网站在线观看| 91日韩东京热中文字幕| 成人免费无码大片a毛片| 欧美交换配乱吟粗大25p| 亚洲人成人一区二区三区| 青青草手机在线免费视频| 午夜不卡无码中文字幕影院| 亚洲av色无码乱码在线观看| 亚洲av国产大片在线观看| 白浆国产精品一区二区| 国产精品免费看久久久8| 极品诱惑一区二区三区| av免费资源在线观看| 48久久国产精品性色aⅴ人妻| 精品国产v无码大片在线观看| 乱人伦人妻中文字幕无码|