亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云計算的大數據處理及關鍵技術

        2018-05-08 13:20:44蔣澤艷
        電子技術與軟件工程 2018年22期
        關鍵詞:聚類算法云計算大數據

        蔣澤艷

        摘要 現階段,云計算在以其自身的諸多特點,在各個領域中獲得廣泛應用。基于此點,文章首先對云計算進行概括性介紹,在此基礎上,對基于云計算的大數據處理及關鍵技術進行論述。期望通過本文的研究能夠對大數據處理效率的提升有所幫助。

        【關鍵詞】云計算 大數據 聚類算法

        1 云計算概述

        最早提出云計算這一概念的是谷歌公司的首席執(zhí)行官,它是一種全新的計算模式,可為用戶提供付費服務。云計算的典型服務方式有三種,軟件即服務(SaaS)、平臺即服務(PaaS)以及基礎架構即服務(lssS),這三種服務方式也可以說是云計算所具備的主要功能,在諸多領域中得到了應用實施?,F階段,云計算已經逐步成為大數據服務的基礎平臺,其所提供的資源層次性如圖1所示。

        用戶可對較高層次的云服務進行直接調用,也可對封裝在較低層次中的服務資源進行調用,據此構建定制云服務。如,用戶可從軟件即服務(SaaS)的提供商處,對已有的云服務進行調用,或是使用平臺即服務(PaaS)對應用進行開發(fā)。云計算是以云平臺作為依托,按照用戶所需的計算資源為他們提供相應的服務,美國國家標準與技術研究院(NIST)依據部署模式,對云計算平臺進行具體分類,即公有云、私有云和混合云。不同類型的云計算平臺有著自己的特點,如公有云的提供商,可借助互聯網為用戶提供云服務,而用戶在對公有云中的資源進行使用時,則需要支付一定的費用;私有云是一種特定的云計算解決方案,針對的群體為一些特定的企業(yè)或是用戶,以定制的方式為他們提供云計算服務。通常情況下,用戶可以自行搭建私有云;混合云實質上就是公有云和私有云的一種延伸,它的存在主要是為了滿足企業(yè)的某些業(yè)務需求。

        2 基于云計算的大數據處理及關鍵技術

        在基于云計算的大數據處理中,數據挖掘是關鍵技術之一,下面本文著重對數據挖掘中的密度峰值聚類算法(以下簡稱該算法)進行分析。

        2.1 算法的特點

        與傳統(tǒng)的聚類算法相比,該算法具有如下特點:交互性、無迭代性、無依賴性。

        2.1.1 交互性

        這是該算法最為顯著的特點之一,與常用的K-Means聚類算法有所不同,該算法在執(zhí)行前,需要用戶對聚類的個數k進行指定,當計算出各個點的p與6值后,用戶可按照這兩個值對聚類的個數進行確定。

        2.1.2 無迭代性

        該算法與K-Means算法相比,其一般只需要對數據集進行三次遍歷,就能完成聚類分析,這三次遍歷分別為密度值計算、斥群值計算和聚類分組,無需進行多次迭代。

        2.1.3 無依賴性

        該算法是以密度作為聚類的主要依據,對聚類形狀無任何要求,當發(fā)現能力較強的簇時,無論其形狀如何,均可在多種環(huán)境的聚類中適用。該算法能夠發(fā)現圖2中兩種形狀的聚類。

        2.2 密度峰值聚類算法

        該算法是一種新型的聚類算法,其具有較為新穎的思想,它在進行計算的過程中,所依據的是以下幾種假設:第一種假設是聚類的密度中心點的密度比附近點的密度高;第二種假設是該中心點與數據中密度超過它的點之間有著較遠的距離。在該算法中,所有點均具有兩個屬性,一個屬性是密度值ρ,另一個屬性是斥群值δ。ρ越大則表明該點越有可能是聚類的密度中心,而δ越大,則表明該點可能代表一個新的聚類。對于分布在空間中的數據而言,一個簇與另一個簇之間一般都是通過低密度區(qū)來區(qū)分的,也就是說,δ越大,該點越有可能成為新的聚類。在待聚類的數據集中,局部密度ρ.的計算公式如下:

        式(1)中的參數dc>0時,為截斷距離,這是一個可由用戶進行自定義的距離臨界值,根據專家學者的研究,給出了該參數較為合適的經驗值,舉個例子對其進行具體說明:假設一個數據集中共有100個點,這些點有3950中組合方式,對它們的組合距離進行排序,然后在50-100這一區(qū)間內,選取出組合距離為de值,由式(l)可知,局部密度ρ1代表了數

        依據數據集當中的ρ和δ能夠繪制出一個2D決策圖,ρ為橫軸坐標,δ為縱軸坐標。在該決策圖中,分布著數量眾多的決策點,按照點的具體分布情況,ρ和δ都比較大的點通常會分布在圖的右上角,可將這些但作為聚類的中心點。之所以這樣做的主要原因是,聚類中心點的密度都比較大,其依附點通常分布在其它的聚類當中。正因如此,使得聚類中心點的δ較大,會分布在圖的上半部分,結合以上這兩個方面的因素,可以從決策圖中選取右上角的點,作為聚類中心點。隨后再按照數據集當中,各個點之間δ的依附關系,便可以將每個點發(fā)送到其所依附點的聚類中,在此基礎上,可推出數據集中任意一點所屬的聚類。

        通常情況下,大部分數據集當中,往往會存在一些并不屬于任何聚類的點,這些點被稱之為離群點,它們主要分布在決策圖的左上角位置,這些點周圍的點數量非常少,有的點周圍甚至并不存在任何的數據點,其密度值p較小。同時離群點與聚類點之間的距離較大,其斥群值也比較大,基于上述兩個原因,可以選取決策圖中右上角的點作為離群點。

        在上文中,對該算法的特點進行了簡要介紹,雖然其優(yōu)點較為明顯,但在實際應用中發(fā)現,其也存在一定的不足,主要體現在,該算法的實現必須對數據集中每個點的ρ和δ進行計算,在進行具體計算的過程中,需要對數據集中任意兩點之間的歐式距離進行測量。當需要對維度較高度的大數據進行處理時,該算法的實現需要完成大量歐式距離計算,隨著計算量的增大,在單機環(huán)境下,可能無法正常運行,由此對算法的性能和使用效果造成了一定程度的影響。此外,該算法是基于單機的運行環(huán)境進行設計的,也就是說,該算法無法對分布式數據進行有效地處理,為了解決這一問題,可對該算法進行分布式擴展。

        2.3 分布式擴展聚類算法的實現

        分布式計算是一種實用性較強的計算方式,具體是指多個處理及存儲的軟硬件系統(tǒng),多個程序或并發(fā)進程在集中控制的方式,對任務進行處理。在分布式計算的過程中,完整的程序被分割成若干個部分,并在同一個網絡環(huán)境下,對程序進行加以執(zhí)行。這種計算方式歸屬于并行計算的范疇,它所強調的是異構性,簡而言之,就是具有不同延時的計算機網絡。Hadoop是分布式計算框架,其能為應用程序提供較為穩(wěn)定的接口。近年來,隨著云計算的快速發(fā)展和廣泛應用,使得該框架的使用人群逐步增多。分布式文件系統(tǒng)HDFS和MapReduce分布式編程模型是該框架的核心。為對海量數據進行高效處理,程序設計人員采用很多專用的算法,下面本文基于Map Reduce模型設計分布式密度峰值聚類算法,并在開源框架Hadoop上實現該算法,具體的實現過程如下:

        2.3.1 數據預處理

        由上文分析可知,數據集中的參數dc>0為截斷距離,式(1)給出了密度值的計算公式,基于以上前提條件,在對數據進行預處理的過程中,應當先對參數de的大小進行確定。可對樣本中各個點之間的距離進行分別計算,并將距離值按照從小到大的順序進行排列,隨后從中選取出1.5%的位置處作為參數de值。

        2.3.2 對密度值ρ進行計算

        基于分布式擴展的聚類算法對數據集中每個點的密度值進行計算時,需要兩個MapReduce作業(yè)來完成,其中一個是對點間的距離進行計算,據此判斷各點之間距離的關系是否小于參數de,因對點間距離的計算分布于不同的計算機上,從而使得各點的參數de范圍內的點也會分布在不同的計算機上,故此,需要借助第二個作業(yè)對參數de范圍內的點數進行合并處理,由此獲得最終的密度值。在第一個個MapReduce作業(yè)中,歐式空間的距離呈現出對稱性的特點,所以僅需要對上三角或是下三角進行計算即可,無需重復計算。數據集中點間組合的實現方法有以下兩種:第一種是對兩個記錄進行單獨組合,在該實現方法中,每個數據對象的副本個數均為N·1,這是因為該點必須與其它數據對象進行組合,方可計算出點間的距離。第二種實現方法是對兩點間的距離進行計算,并對距離之間的關系進行判斷。通過對這兩種實現方法的副本個數進行比較后發(fā)現,第二種方法的副本數量更少一些,所以可選擇該方法對點間距離的數據組合進行計算。

        2.3.3 對斥群值δ進行計算

        在對數據集中每個點的斥群值δ進行計算的過程中,因計算機密度值時需要對點間的距離進行計算,所以,在計算斥群值δ無需在對點間距離進行計算。需要注意的是,雖然可以省去這個計算環(huán)節(jié),但必須要將密度值的計算結果進行保存。可將數據集的空間開銷設定為O(N2),并在對斥群值δ進行計算時,預先對該距離矩陣進行讀取。通常情況下,當數據集的規(guī)模較大時,它的距離矩陣也比較大,需要將之存儲在分布式文件系統(tǒng)當中,由此勢必會造成網絡輸入與輸出的開銷則高達。同時,在對距離矩陣進行讀取的過程中,計算機的硬盤I/0也需要較大的開銷。業(yè)內的一些專家學者經過研究后發(fā)現,通過對距離矩陣進行讀取所產生的開銷,要比計算數據集中點間關系的開銷大很多。而這種情況是有一定的前提條件,當數據集的維度增加后,差距則會變得越來越小,這是因為,維度的增加,計算距離的開銷也會隨之增加,但增長速度也極為緩慢。

        2.3.4 軟硬件環(huán)境的搭建

        本文所提出的算法需要通過搭建軟硬件環(huán)境來實現。借助云計算開發(fā)環(huán)境中的hadoop,這是一個開源分布式框架,并采用分布式編程模型MapReduce。在搭建前,需要先行安裝Linux系統(tǒng)準備好計算機集群,分別在每臺虛擬機上加裝vim和ssh。隨后對主機名及網絡配置進行修改,主要包括子網掩碼和DNS服務器;對每臺計算機上的etc/hosts/文件進行修改,經過修改之后,配置ssh,由此便可實現無需密碼登錄。為對本文提出的分布式密度峰值聚類算法的有效性進行驗證,可通過大規(guī)模高維數據性能測試,由測試結果可知,該算法所產生出來的數據點副本個數具有增長緩慢的特點,副本的數量會逐漸變少,由此使得數據點之間距離計算次數隨之減少,大幅度縮短了程序的執(zhí)行時間??梢姡撍惴ň哂幸欢ǖ耐茝V應用價值。

        3 結論

        綜上所述,云計算為大數據處理提供了一個有效的平臺,在基于云計算進行大數據處理時,需要運用的關鍵技術為數據挖掘。本文重點對數據挖掘技術中的密度峰值聚類算法進行分析,論述了該算法的實現過程。在未來一段時期,應當重點加大對大數據處理相關技術的研究力度,除對現有的技術進行改進和完善之外,還應開發(fā)一些新的技術,從而更好地為大數據處理服務。

        參考文獻

        [1]孫海軍.基于云計算的大數據處理技術[J].信息安全與技術,2014 (11):61-63.

        [2]龔旭.基于云計算的大數據處理技術探討[J].電子技術與軟件工程,2015 (10):198—198.

        [3]李薇.基于云計算的大數據處理技術探討[J].數字技術與應用,2017 (08):218-219.

        [4]潘樂.基于云計算的大數據處理技術研究[J].物聯網技術,201 7,7(06):67-68.

        [5]蔡錦勝,基于云計算的大數據分析技術及應用[J],電腦編程技巧與維護,2017 (12):53-55.

        [6]邢敏,互聯網金融風險及防范對策的探討[J],長春金融高等??茖W校學報,2018 (04):57-61.

        猜你喜歡
        聚類算法云計算大數據
        K—Means聚類算法在MapReduce框架下的實現
        軟件導刊(2016年12期)2017-01-21 14:51:17
        基于K?均值與AGNES聚類算法的校園網行為分析系統(tǒng)研究
        基于云計算的移動學習平臺的設計
        實驗云:理論教學與實驗教學深度融合的助推器
        大學教育(2016年9期)2016-10-09 08:54:03
        云計算中的存儲虛擬化技術應用
        科技視界(2016年20期)2016-09-29 13:34:06
        基于大數據背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        基于改進的K_means算法在圖像分割中的應用
        大規(guī)模風電場集中接入對電力系統(tǒng)小干擾穩(wěn)定的影響分析
        科技視界(2016年8期)2016-04-05 18:39:39
        亚洲AV秘 无码一区二区三区1| 国产三级a三级三级| 人人妻人人狠人人爽| 大学生被内谢粉嫩无套| 丁香美女社区| 亚洲av色无码乱码在线观看| 国产av无码专区亚洲草草| 我想看久久久一级黄片| 中文字幕亚洲入口久久 | 人妻熟妇乱又伦精品视频| 特级av毛片免费观看| 久久久国产精品樱花网站| 巨乳av夹蜜桃站台蜜桃机成人| 青青草视频在线观看9| 国产剧情av麻豆香蕉精品| 日本一本之道高清不卡免费| 亚洲日本va中文字幕久久| 国产成人自拍小视频在线| 青青草成人免费在线视频| 国产乱子伦农村xxxx| 高清国产日韩欧美| 国语精品视频在线观看不卡| 在线观看国产一区二区av| 国产尤物精品视频| 亚洲国产高清在线观看视频| 一区二区三区中文字幕有码| 水蜜桃精品视频在线观看| 国产亚洲欧美精品久久久| 国产精品久久久久尤物| 日本不卡一区二区三区在线观看| 亚洲国产一二三精品无码| 少妇厨房愉情理伦片bd在线观看| 久久精品国产亚洲av成人擦边 | 亚洲国产天堂久久综合网| 国产精品精品| 亚洲另类国产精品中文字幕| 亚洲国产精品无码久久一线| 亚洲学生妹高清av| 完整在线视频免费黄片| 亚洲永久国产中文字幕| 香港日本三级亚洲三级|