亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于云計算的Web數(shù)據(jù)挖掘Hadoop仿真平臺研究

        2018-03-29 03:36:56勃,徐
        電子設計工程 2018年2期
        關鍵詞:數(shù)據(jù)挖掘

        王 勃,徐 靜

        (陜西國防工業(yè)職業(yè)技術學院陜西西安710302)

        云計算自出現(xiàn)伊始,就被廣泛的應用到分布式計算機網絡處理上,面對大量的網絡服務器終端,如何能夠有效地將它們組合在一起,建立穩(wěn)定、快捷的服務網絡已經成為云計算網絡急需解決的關鍵問題。面對服務器日益增大的網絡服務數(shù)據(jù)流,web數(shù)據(jù)挖掘不斷收取網絡中的數(shù)據(jù)源,通過Hadoop仿真平臺進行相應的計算、分析,該平臺能夠較成功的解決了云計算的分布式的復雜問題[1]。

        1 云計算與WEB數(shù)據(jù)挖掘技術

        1.1 云計算

        云計算通過互聯(lián)網服務的方式,收集、處理大量相關數(shù)據(jù)軟件的能力,并將傳統(tǒng)基于客戶端的復雜運算移植到云計算上,降低客戶端用戶的硬件要求,提升客戶端的各項速度。它具有分布處理(Distributed Computing)、網格計算(Grid Computing)和并行處理(Parallel Computing)等特點,是虛擬化服務的結果。云計算能夠使客戶通過較低投資,獲取許多無限的網絡資源,同時云計算還對所有的數(shù)據(jù)安全性提供了較大的保證,實現(xiàn)了數(shù)據(jù)共享[2]。

        1.2 WEB數(shù)據(jù)挖掘

        WEB數(shù)據(jù)挖掘是以互聯(lián)網為載體,相關仿真平臺為依托,從大量的網絡WEB日志中發(fā)現(xiàn)未知的,有規(guī)律的網絡數(shù)據(jù)源,得到各類用戶在云計算環(huán)境下使用WEB的結構,WEB的內容、調用WEB數(shù)據(jù)庫、使用記錄等相關信息并對其進行挖掘。目前,WEB數(shù)據(jù)挖掘算法主要采用分類分析、頻繁序列模式分、關聯(lián)規(guī)則分析、聚類分析等多種挖掘形式,這些WEB挖掘算法在處理分布式網絡數(shù)據(jù)源時具有動態(tài)性強等特點,使其更新速度、訪問頻率加快[3]。

        2 Hadoop仿真平臺

        Hadoop仿真平臺是一個基于分布式的網絡框架仿真平臺,該平臺能夠將大量的網絡數(shù)據(jù)任務進行分解,并將處理后的結果匯總輸出,同時還擁有簡化的,不需要改變原有網絡框架的可擴展性,具有經濟、運行速度快等特點。其結構示意圖如圖1所示。

        圖1 Hadoop結構示意圖

        Hadoop仿真平臺是一個具有高度糾錯性的系統(tǒng),該平臺把輸入數(shù)據(jù)按照相同的屬性分解為大量的數(shù)據(jù)模塊,通過Handle將數(shù)據(jù)模塊以并行方式處理,然后結果返還到主機,并且輸出。其可用公式(1)表示。

        在公式(1)中,Q為平臺的輸出數(shù)據(jù)值,m為數(shù)據(jù)模塊數(shù)量,n為單位時間,為單位時間處理數(shù)據(jù)的數(shù)量[5-7]。

        3 基于云計算的web數(shù)據(jù)挖掘Hadoop仿真平臺

        3.1 基于云計算的web數(shù)據(jù)挖掘Hadoop仿真平臺概述

        云計算的Hadoop仿真平臺是由大量的服務器群組合而成的,這些服務器具有地域分布較廣,因此相對于一般平臺復雜程度更高,在云計算環(huán)境中,有效地利用了云計算的可擴展性、穩(wěn)定性等特點組成該平臺,使平臺能夠存儲大量的客戶信息,而且不會因為客戶信息流量的大量增加造成網絡的堵塞。該平臺根據(jù)實際需要通過主網分支為多個支網,支網又可分為多個子網,最后形成一個類似于樹形的網絡結構。其網絡結構如圖2所示。

        圖2 網絡結構圖

        由圖2可知該網絡結構客戶端用戶通過SOAP OVER HTTPS協(xié)議實現(xiàn)與云計算服務器端的數(shù)據(jù)信息傳遞、計算與交換等功能,為了保證數(shù)據(jù)信息在交換過程中的安全性,使用HTTPS5協(xié)議作為網絡通訊協(xié)議,最終形成了一個網絡集合,使客戶端用戶、服務器端管理同時降低了運行過程中對硬件的要求。節(jié)約大量的資源,最終使該網絡仿真平臺具有容納網絡流量、網絡交換容量和獲取網絡地圖信息等特征,可以形成一個網絡結構飽滿、網絡維護簡便、運行成本低廉的網絡構架[8-10]。

        3.2 平臺的MapReduce編程模型

        仿真平臺在建立軟件框架時,需要使用MapReduce技術建立其編程模型,MapReduce表示Map(映射)和Reduce(歸約),該技術應用于大量的數(shù)據(jù)并行計算,其最大的特點就是建立了輸入模式(Input)后,輸入任務分為兩個步驟,分別是Map和Reduce作業(yè)區(qū),在每個步驟中,都使用關鍵字Key,經過高速運算,得到輸出模式(Output)[11]。其核心結構是:

        由于運算過程中產生的是臨時文件,因此其數(shù)據(jù)交換時間更加快捷,運行速度得到大幅提升。MapReduce工作流程圖如圖3所示。

        其工作流程步驟如下:

        步驟一:使用庫文件MapReduce把程序分解為若干個小任務,如圖中任務a,任務b,任務c,平臺要求分解的任務大小是16 M至64 M。

        步驟二:通過調度功能將閑置的任務及時分配到Map或者Reduce作業(yè)區(qū),并且由調度功能按照平臺任務大小要求分配任務個數(shù)。

        步驟三:在Map作業(yè)區(qū)的多個被分解的任務啟動,并且開始輸入數(shù)據(jù),開始讀取相關大小的數(shù)據(jù)信息,通過關鍵字Key傳遞相關函數(shù),并將計算過程中產生的臨時文件有效存儲。

        步驟四:臨時文件的關鍵字Key將會及時存入本地空間中,并且會在Reduce作業(yè)區(qū)找到相對應的位置,通過介質文件將相關信息數(shù)據(jù)傳遞給Reduce作業(yè)區(qū)。Reduce產生的數(shù)據(jù)將會以輸出文件的方式輸出[12-13]。

        7.1.1 苗期猝倒?。好绱矅栏裣?,方法同上。底水澆足后,基本不大澆灌,出苗后噴施75%百菌清600倍液,或64%殺毒礬500倍液,每7~10天噴一次。

        圖3 MapReduce工作流程圖

        3.3 平臺的實現(xiàn)及算法過程

        平臺的建立過程可用公式(2)表示。

        其中,P表示平臺網絡分支及連接結構,gi表示分支的各條路線的帶寬,i表示分支的各條路線的常量,a表示建立該平臺的基本支出,bi表示網絡帶寬容量。k是簡捷的無向圖標,同時表明k是沒有重合的邊框[14]。

        在建立平臺的過程中,需要對平臺的容錯度做以評估,它是平臺的穩(wěn)定運行的重要指標之一,它的作用是在該仿真平臺相關信息點出現(xiàn)無效的情況下,進行容錯的能力,其可用公式(3)表示。

        其中,L平臺容錯度,X為容錯常量,其取值范圍是X{1,2,3,4,5,6},如無特殊情況,X取值為3,t為時間變量值。

        在該平臺建立的過程中,還使用了CRF(條件隨機場)算法,該算法可用公式(4)表示。

        其中,Q(f)為該算法的表示方法,P(i)為所有子模塊的集合,其每個子模塊的非負的勢能函數(shù)為f[15-16]。

        通過以上公式可知,其算法基本思想就是,在云計算的Hadoop仿真平臺中,為避免云計算網絡中相關數(shù)據(jù)任務長時間等待,不同任務又能夠根據(jù)實際情況變化調度優(yōu)先級,可以使用加權輪轉調度算法。其相關步驟如下:

        步驟二:類tasktracker在有空閑存量的情況下,向子任務J發(fā)送任務執(zhí)行命令。子任務J接到相關命令后,將發(fā)送距離最近的任務分配執(zhí)行,同時執(zhí)行指針會指向下一個子任務,繼續(xù)等待下一個類tasktracker發(fā)送的執(zhí)行命令。

        步驟三:當類tasktracker執(zhí)行命令到最后一個子任務時,子任務J會自動排序新的任務集合,并將執(zhí)行指針指向第一個子任務。

        類tasktracker的數(shù)據(jù)結構如下:

        在該算法過程中,各個子模塊經過迭加運算后,得到各條路線的最短路徑,降低了平臺的復雜度,得到運行時間最短的平臺布局圖,提高了平臺的運行效率[17-18]。

        4 仿真結果

        基于云計算的Web數(shù)據(jù)挖掘Hadoop仿真平臺的運行,有效的驗證了算法,同時得出了仿真結果。在仿真實驗中,確定了平臺路線的數(shù)目,連接各條路線的信息點,最終完成了網絡的布局。其仿真運行結果如圖4所示。

        由圖4可知,在該仿真實驗中,設置了5,10,15,20,25,30等 6個信息點,設置 20,40,60,80,100,120等6個時間節(jié)點,隨著信息點的增加,各個子模塊的路線不斷增加,同時也得到了較多的時間,實現(xiàn)了該平臺的云計算實現(xiàn)是由主干交換部分和眾多樹狀子模塊網絡形成的構想。

        5 結 論

        本文通過基于云計算的web數(shù)據(jù)挖掘Hadoop仿真平臺研究,分析了在云計算的普及和快速發(fā)展的情況下,Hadoop的結構與流程,提出了基于云計算的Web數(shù)據(jù)挖掘Hadoop仿真平臺的設計與實現(xiàn)方法,完成了易于搭建的仿真平臺,建立了完整的網絡算法,通過仿真實驗數(shù)據(jù)得出仿真平臺的實用性,也為最終達到云計算環(huán)境下的高速分布式計算的目標提供了數(shù)據(jù)依據(jù)。

        圖4 仿真結果運行圖

        [1]Liang Q,Wang Y Z,Zhang Y H.Resource Virtualization Model Using Hybrid-graph Reprsenetation and Conver-ging Algorithm for Cloud Computing[J].International Journal of Automation &Computing,2013,10(6):597-606.

        [2]Oruganti S,Ding Q,Tabrizi N.Exploring HADOOP as a Platform for Distributed Association Rule Mining[C]//FUTURE COMPUTING 2013,The Fifth International Conference on Future Computational Technologies and Applications,2013:62-67.

        [3]Jinbo Shang,Yu ZhengTong,EricChang,Yong Yu.Inferring gas and consumption pollution emission of vehicles throughout a city[C]//In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2014:1027-1036

        [4]Zhou X,Huang Y An improved parallel association rules algorithm based on MapReduce framework for big data[C]//Fuzzy Systems and Knowledge Discovery(FSKD) ,2014 11th International Conference on.IEEE,2014:284-288.

        [5]Wen Yang,Yinan Dou.High Performance Distributed Indexing and Retrieval for Large Volume Traffic Log Datasets on the Cloud[C]//International Conference on Intelligent Human- Machine Systems and Cyemetics(IHMSC),2013:185-189.

        [6]Vijay Rana,Gurdev Singh.Analysis of Web Mining Technology and Their Impact on Semantic Web[C]//International Gonferencr on Innovative Applications of Computational Intelligence on Power,Energy and Crontrols with their Impact on Humanity,20I4:5-11.

        [7]郭建偉,李瑛,杜麗萍,等.基于hadoop平臺的分布式數(shù)據(jù)挖掘系統(tǒng)研究[J].中國科技信息,2013,13:81-83.

        [8]楊勇,王偉.一種基于MapReduce的并行FP-growth算法[J].重慶郵電大學學報:自然科學版,2013,25(5):651-670.

        [9]戴小平,張宜力.Hadoop平臺下計算能力調度算法的改進與實現(xiàn)[J].計算機工程與應用,2015(19):61-65.

        [10]郝偉妓,周世健,彭大為.基于HADOOP平臺的云GIS構架研究[[J].江西科學,2013(1):109-112.

        [11]劉義,景寧,陳犖,等.Map Reduce框架下基于R-樹的k-近鄰連接算法[J].軟件學報,2013,24(8):1836-1851.

        [12]葉可江,吳朝暉,姜曉紅,等.虛擬化云計算平臺的能耗管理[[J].計算機學報,2013,35(6):209-223.

        [13]李建江,崔健,王耽,等.MapReduce并行編程模型研究綜述[[J].電子學報,2012,39(11):2635-2642.

        [14]李燕,陳瑩,董秀蘭,等.基于神經網絡的遙感圖像識別算法[[J].測繪與空間地理信息,2012,35(2):156-158.

        [15]魯偉明,杜晨陽,魏寶剛,等.基于MapReduce的分布式近鄰傳播聚類算法[[J].計算機研究與發(fā)展,2012,49(8):1762-1772.

        [16]崔杰,李陶深,蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲平臺設計與開發(fā)[[J].計算機研究與發(fā)展,2012 49(S1):12-18.

        [17]虞倩,戴月明.基于MapReduce的并行模糊C均值算法[J].計算機工程與應用,2013,49(14):133-137.

        [18]余思,桂小林,黃汝維,等.一種提高云存儲中小文件存儲效率的方案[J].西安交通大學學報,2011,45(6):59-63.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網絡流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術在打擊倒賣OBU逃費中的應用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        數(shù)據(jù)挖掘在高校圖書館中的應用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        国内精品久久久久久久亚洲 | 韩国三级中文字幕hd久久精品| 久久国产国内精品对话对白| 国产精品一区二区黄色片| 国产一级二级三级在线观看视频| 成人av一区二区亚洲精| 国产在线播放一区二区不卡| 亚洲精品成人网线在线播放va| 国产一区a| 国产亚洲精品高清视频| 男女av一区二区三区| 亚洲精品一区久久久久久| 日韩秘 无码一区二区三区| 在线播放偷拍一区二区| 我和丰满妇女激情视频| 性生交片免费无码看人| 亚洲综合久久成人a片| 日韩人妻无码中文字幕一区| 国产精品一区二区三区在线观看 | 亚洲av无码无线在线观看| 国产精品国产午夜免费看福利| 国产精品情侣露脸av在线播放| 日本人妻高清免费v片| 粗大的内捧猛烈进出看视频| 色婷婷欧美在线播放内射| 国产精品国产三级国产av主| 麻豆人妻性色av专区0000| 日韩精品内射视频免费观看| 夫妇交换刺激做爰视频| 激情 一区二区| 亚洲av在线观看播放| 777国产偷窥盗摄精品品在线| 水蜜桃久久| 免费国产自拍视频在线观看| 最新欧美精品一区二区三区| 性大片免费视频观看| www.尤物视频.com| 亚洲一二三四五中文字幕| 久久狠狠爱亚洲综合影院| 熟妇与小伙子matur老熟妇e| 国产一起色一起爱|