亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云計(jì)算的數(shù)據(jù)挖掘算法研究

        2013-12-31 00:00:00李珩武雪芳
        無線互聯(lián)科技 2013年12期

        摘 要:隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,面對(duì)網(wǎng)絡(luò)中海量數(shù)據(jù)的挖掘存在著計(jì)算能力和存儲(chǔ)空間兩方面的限制,云計(jì)算技術(shù)可以有效地解決數(shù)據(jù)挖掘中出現(xiàn)的這些問題。本文介紹了云計(jì)算的關(guān)鍵技術(shù),數(shù)據(jù)挖掘算法的分類以及云計(jì)算平臺(tái)下的數(shù)據(jù)挖掘算法。

        關(guān)鍵詞:云計(jì)算;數(shù)據(jù)挖掘;MapReduce

        隨著互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)中的信息量、數(shù)據(jù)量越來越龐大,而且這些大量的信息數(shù)據(jù)并非簡單整齊地排列在數(shù)據(jù)庫中,它們具有動(dòng)態(tài)、異構(gòu)、分布廣等特點(diǎn),分析與處理這些數(shù)據(jù)的復(fù)雜度高,計(jì)算能力和存儲(chǔ)空間方面不容易達(dá)到要求,給現(xiàn)有的數(shù)據(jù)挖掘帶來了難題。云計(jì)算可以有效地解決這個(gè)問題,它是數(shù)據(jù)管理技術(shù)發(fā)展的必然趨勢(shì)。

        1 云計(jì)算及其關(guān)鍵技術(shù)

        云計(jì)算技術(shù)是近年來新興起的共享型編程架構(gòu)方法,它是由傳統(tǒng)的網(wǎng)格計(jì)算和并行計(jì)算發(fā)展而來的,本質(zhì)上是一種分布式并行計(jì)算技術(shù),它所處理的數(shù)據(jù)并不是運(yùn)行在本地機(jī)器上,而是存儲(chǔ)在大規(guī)模服務(wù)器集群中。

        云計(jì)算技術(shù)的基本原理是通過遠(yuǎn)程服務(wù)訪問大量分布式計(jì)算機(jī)組成的服務(wù)器集群,為互聯(lián)網(wǎng)用戶提供計(jì)算、存儲(chǔ)、軟硬件等服務(wù),云計(jì)算系統(tǒng)可以按照用戶的需求來分配資源并根據(jù)任務(wù)的優(yōu)先級(jí)別訪問計(jì)算機(jī)和存儲(chǔ)系統(tǒng),從而提高了對(duì)軟硬件資源的利用率。

        2 數(shù)據(jù)挖掘算法分類

        通過數(shù)據(jù)挖掘去發(fā)現(xiàn)知識(shí)的模式一般有兩種,分別是統(tǒng)計(jì)分析型數(shù)據(jù)挖掘和預(yù)測(cè)決策型數(shù)據(jù)挖掘,兩類挖掘模式都有各自經(jīng)典的算法,并且從不同視角可以有以下不同的分類標(biāo)準(zhǔn)。

        2.1 根據(jù)發(fā)現(xiàn)的知識(shí)種類分類

        根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)種類可將數(shù)據(jù)挖掘算法分為:數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、分類或預(yù)測(cè)模型知識(shí)發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。

        2.2 根據(jù)挖掘的數(shù)據(jù)庫種類分類

        根據(jù)挖掘的數(shù)據(jù)庫種類可以分為基于各種數(shù)據(jù)庫的挖掘算法:關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺留數(shù)據(jù)庫等,以及基于數(shù)據(jù)倉庫和基于Web的數(shù)據(jù)挖掘算法等。

        2.3 根據(jù)挖掘方法采用的技術(shù)分類

        根據(jù)數(shù)據(jù)挖掘方法采用的技術(shù)可以將數(shù)據(jù)挖掘算法分為:統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、模式識(shí)別、面向數(shù)據(jù)庫或數(shù)據(jù)倉庫技術(shù)、可視化技術(shù)和神經(jīng)網(wǎng)絡(luò)等。

        基于云計(jì)算的數(shù)據(jù)挖掘算法是在以上這些數(shù)據(jù)挖掘算法的基礎(chǔ)上,采用云計(jì)算平臺(tái)實(shí)現(xiàn)的數(shù)據(jù)挖掘算法。各挖掘算法對(duì)數(shù)據(jù)類型的要求是不同的,它不可能會(huì)適應(yīng)所有數(shù)據(jù)類型的挖掘應(yīng)用,所以我們?cè)诳紤]不同數(shù)據(jù)類型的挖掘和具體的應(yīng)用時(shí),往往要結(jié)合多方面的因素來考慮算法的優(yōu)缺點(diǎn),以便能夠采用多種算法實(shí)現(xiàn)有效的數(shù)據(jù)挖掘。

        3 云計(jì)算平臺(tái)下的數(shù)據(jù)挖掘算法

        MapReduce是一種基于云計(jì)算的并行編程模型,它采用函數(shù)式的編程思想,將整個(gè)模型的計(jì)算過程分為映射過程Map和聚集處理過程Reduce。其中,Map階段負(fù)責(zé)數(shù)據(jù)拆分,Reduce階段負(fù)責(zé)數(shù)據(jù)歸并。想要將經(jīng)典的數(shù)據(jù)挖掘算法運(yùn)行在云平臺(tái)上,算法本身并不需要太大的變化,關(guān)鍵在于要將算法按照Map/Reduce框架合理的并行化,以及將并行化后的算法部署在云計(jì)算環(huán)境中,使得它可以加載云存儲(chǔ)環(huán)境中的數(shù)據(jù)并進(jìn)行運(yùn)算。

        3.1 基于Map/Reduce的Apriori算法執(zhí)行過程

        ⑴主進(jìn)程基于(K-1)-項(xiàng)頻繁項(xiàng)集遍歷事務(wù)數(shù)據(jù)庫,并生成K-項(xiàng)候選集,然后由Map/Reduce框架將此候選集分發(fā)到各個(gè)計(jì)算節(jié)點(diǎn);⑵每個(gè)Map節(jié)點(diǎn)處理一個(gè)數(shù)據(jù)分塊,并計(jì)算當(dāng)前分配到數(shù)據(jù)分塊的K-項(xiàng)候選集的支持?jǐn)?shù),此時(shí)Map/Reduce框架會(huì)在數(shù)據(jù)分塊和Map節(jié)點(diǎn)之間持續(xù)調(diào)度,直到所有的分塊數(shù)據(jù)處理完畢為止;⑶Reduce節(jié)點(diǎn)合并來自所有Map節(jié)點(diǎn)處理的數(shù)據(jù),獲得全局K-項(xiàng)候選集的支持?jǐn)?shù),并基于此支持?jǐn)?shù)生成(K+1)-項(xiàng)頻繁項(xiàng)集;⑷主進(jìn)程通過遍歷事務(wù)數(shù)據(jù)庫來決定該任務(wù)是否已經(jīng)完成。

        3.2 基于Map/Reduce的K-Means算法執(zhí)行過程

        ⑴隨機(jī)選擇k個(gè)初始聚類中心,同時(shí)將這些初始聚類中心保存到OriginalCluster[]中,并將其進(jìn)行數(shù)據(jù)分塊,根據(jù)計(jì)算節(jié)點(diǎn)集群的情況,將此分塊分配給各個(gè)計(jì)算節(jié)點(diǎn);⑵在Map階段計(jì)算最近距離和總數(shù),同時(shí)在Map/Reduce框架下,把鍵值對(duì)的Key和Value分別對(duì)應(yīng)到i和D[k],其中D是事務(wù)數(shù)據(jù)集;⑶在Reduce階段,由于i是Map/Reduce框架中的Key,這就保證了同一個(gè)Key的所有D[k]會(huì)分配到同一個(gè)Reduce進(jìn)程中,在此Reduce進(jìn)程計(jì)算新的聚類中心并保存到DestinationCluster[]中;⑷比較DestinationCluster[]和OriginalCluster[]兩個(gè)值,如果兩者的變化小于預(yù)先給定的閾值則聚類完成,否則,將DestinationCluster[]保存到OriginalCluster[]中,繼續(xù)跳轉(zhuǎn)到第(2)步執(zhí)行。

        3.3 基于Map/Reduce的PageRank算法執(zhí)行過程

        ⑴Map階段讀入數(shù)據(jù)文件集中的每行數(shù)據(jù),把這些數(shù)據(jù)進(jìn)行簡單的格式處理,并拆分成形式。⑵Reduce階段收集Map階段的輸出,按照key值合并相應(yīng)的value值,對(duì)每個(gè)key值計(jì)算并輸出新的PageRank,將數(shù)據(jù)結(jié)果保存在HDFS中,用于下一次迭代計(jì)算。⑶將階段(2)計(jì)算的結(jié)果與階段(1)生成的鏈接結(jié)果合并,作為下一次迭代計(jì)算PageRank值的輸入。

        4 結(jié)束語

        基于云計(jì)算數(shù)據(jù)挖掘是當(dāng)今計(jì)算機(jī)界的熱門研究領(lǐng)域,其研究成果應(yīng)用前景廣闊且價(jià)值巨大。隨著云計(jì)算技術(shù)的進(jìn)一步發(fā)展,必將對(duì)數(shù)據(jù)挖掘帶來更多新的突破和更好的技術(shù)支持。

        [參考文獻(xiàn)]

        [1]劉鵬.云計(jì)算[M].北京:電子工業(yè)出版社,2010.

        [2]李軍華.云計(jì)算及若干數(shù)據(jù)挖掘算法的MapReduce化研究[D].成都:電子科技大學(xué),2010.

        国产亚洲午夜高清国产拍精品 | 国产成年无码V片在线| 激情五月婷婷久久综合| 亚洲丰满熟女乱一区二区三区| 隔壁老王国产在线精品| 亚洲精品无码久久久久| 亚洲激情人体艺术视频| 青青草成人免费播放视频| 天堂资源中文网| 国产精品igao视频网| 日韩欧美亚洲中字幕在线播放| 青青青草视频手机在线| 国产欧美综合一区二区三区| 人人妻人人妻人人片av| 亚洲色大成在线观看| 国产精品高清一区二区三区人妖| 国产在线视频一区二区天美蜜桃 | 国产一极内射視颍一| 国产在线不卡AV观看| 男女啪啪免费视频网址| 米奇欧美777四色影视在线| 国产伦精品一区二区三区| 亚洲αⅴ无码乱码在线观看性色| 久久精品国产亚洲av日韩精品| 午夜性刺激免费看视频| 国产成人无码一区二区三区在线 | 国产精品亚洲一区二区三区正片| 中文字日产幕码三区的做法步| 无遮挡h肉动漫在线观看| 亚州精品无码人妻久久| 青青草视频在线观看9| 国产aⅴ无码专区亚洲av| 国产a v无码专区亚洲av| 狠狠亚洲超碰狼人久久老人| 亚洲美女毛片在线视频| 国产亚洲日韩在线一区二区三区| 久久无码一二三四| 蜜桃视频色版在线观看| 大陆老熟女自拍自偷露脸| 国产免费av片在线播放 | 呦泬泬精品导航|