亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的數(shù)據(jù)挖掘引擎研究

        2017-09-03 10:13:56王小燕張麗敏
        電子設計工程 2017年15期
        關鍵詞:引擎數(shù)據(jù)挖掘系統(tǒng)

        王小燕,張麗敏

        (1.陜西廣播電視大學 陜西 西安 710119;2.西安外事學院 信息與網(wǎng)絡學院,陜西 西安 710077)

        基于大數(shù)據(jù)的數(shù)據(jù)挖掘引擎研究

        王小燕1,張麗敏2

        (1.陜西廣播電視大學 陜西 西安 710119;2.西安外事學院 信息與網(wǎng)絡學院,陜西 西安 710077)

        為了解決數(shù)據(jù)挖掘在大數(shù)據(jù)中存在的問題,文中對大數(shù)據(jù)下的數(shù)據(jù)挖掘引擎進行了研究,以Spark作為核心引擎,并在Spark的內(nèi)存計算算子的基礎上,實現(xiàn)了多個傳統(tǒng)數(shù)據(jù)挖掘算法的并行計算,使得傳統(tǒng)的數(shù)據(jù)挖掘算法能在集群環(huán)境中并行運行,從而在大數(shù)據(jù)中得到較好的應用。然后通過系統(tǒng)分層方法,將數(shù)據(jù)挖掘系統(tǒng)進行分層設計,實現(xiàn)了一個完整的大數(shù)據(jù)挖掘平臺。實驗表明,基于Spark實現(xiàn)的Apriori算法跟PageRank算法的并行計算能有效減少執(zhí)行時間,在大數(shù)據(jù)挖掘上具有較好的應用。

        大數(shù)據(jù);數(shù)據(jù)挖掘;Spark;引擎

        由于計算機的普及以及網(wǎng)絡的發(fā)展,互聯(lián)網(wǎng)在人們的日常生活與工作中應用越來越廣泛,每天均有大量的人在使用互聯(lián)網(wǎng),同時也產(chǎn)生了大量的數(shù)據(jù)。隨著時間的推移,人們積累的數(shù)據(jù)量越來越多,規(guī)模高達TB級甚至PB級。為了取得這些數(shù)據(jù)中的有用信息,人們利用各種數(shù)據(jù)挖掘算法來挖掘其中的潛在價值。雖然數(shù)據(jù)挖掘在小數(shù)據(jù)集上的應用具有較好的效果,但對于大數(shù)據(jù)集而言,數(shù)據(jù)挖掘算法在執(zhí)行效率,算法并行化及平臺易用性等存在問題[1-5]。

        為了解決上述問題,文中對大數(shù)據(jù)下的數(shù)據(jù)挖掘引擎進行了研究,以Spark作為核心引擎,并在Spark的內(nèi)存計算算子的基礎上,實現(xiàn)了多個傳統(tǒng)數(shù)據(jù)挖掘算法的并行計算,使得傳統(tǒng)的數(shù)據(jù)挖掘算法能在集群環(huán)境中并行運行,從而在大數(shù)據(jù)中得到較好的應用。然后通過系統(tǒng)分層方法,將數(shù)據(jù)挖掘系統(tǒng)進行分層設計,實現(xiàn)了一個完整的大數(shù)據(jù)挖掘平臺。

        1 基于Spark的并行數(shù)據(jù)挖掘算法

        Spark是一種開源集群計算環(huán)境,與Mahout相比,其擁有更快的計算速度,更適用于大數(shù)據(jù)的數(shù)據(jù)挖掘中,因此將其選為數(shù)據(jù)挖掘的核心引擎。由于Spark所提供的數(shù)據(jù)挖掘算法覆蓋量較少,例如缺少Apriori算法和PageRank算法。為了使Spark能成為核心引擎,本文在Spark的基礎上實現(xiàn)了Apriori算法和PageRank算法的并行執(zhí)行。

        1.1 Spark編程模型

        Spark[6-7]主要有兩個特點,首先是彈性分布式數(shù)據(jù)集(RDD),其將集群中的節(jié)點內(nèi)存全部組織起來,從而使所有節(jié)點內(nèi)存能并行使用。RDD的建立一方面可通過加載HDFS文件來實現(xiàn),也可由轉(zhuǎn)換現(xiàn)有的RDD來得到。用戶可將指定的RDD緩存在內(nèi)存中,從而在再次使用時可免去創(chuàng)建過程,提升速度。

        另一個特點是變量共享功能。Spark能在不同節(jié)點執(zhí)行的任務中對共享向量進行拷貝,其能夠在并行計算中使用。Spark的共享變量主要有廣播變量及累加器變量,廣播變量用于將一個值緩存到所有節(jié)點內(nèi)存中,累加器變量執(zhí)行累加功能。

        1.2 Apriori算法

        Apriori算法[8-9]是一種關聯(lián)規(guī)則算法,其功能為挖掘大數(shù)據(jù)中事件的關聯(lián)性,篩選出關聯(lián)性大于預設閾值的事件,主要用于分析用戶的消費行以及為商業(yè)政策的制定提供可行性分析等。設定事件A與B同時發(fā)生的概率為支持度,事件項集支持度大于預設值稱為頻繁項集,Apriori算法的工作步驟為:

        1)掃描數(shù)據(jù)庫,計算每個事件集的支持度,并將支持度小于預設值的事件集篩選掉,得到頻繁項集L1。

        2)將頻繁項集的元素兩兩結(jié)合為一個事件項,形成新的事件項集。

        3)將支持度小于預設值的事件集篩選掉,得到頻繁項集Lk。

        4)重復執(zhí)行步驟 2)、3),直到不能形成新的事件項集。

        1.3 PageRank算法

        PageRank算法[10-11]是一種對網(wǎng)頁搜索結(jié)果進行排序的算法,其工作原理為,以所有鏈接到某一網(wǎng)頁的鏈接數(shù)作為該網(wǎng)頁的支持度,對于一次搜索行為后,計算每一個搜索結(jié)果網(wǎng)頁的支持度,并按照支持度從大到小的順序?qū)λ阉鹘Y(jié)果進行排序。

        2 系統(tǒng)設計

        2.1 系統(tǒng)架構(gòu)設計

        本文的數(shù)據(jù)挖掘系統(tǒng)架構(gòu)[12-15]如圖1所示,從底往上分別分為引擎層、中間層以及用戶層。引擎層為系統(tǒng)的最低層,其作為系統(tǒng)的數(shù)據(jù)處理引擎,以Spark集群為主體,并通過Zookeeper實現(xiàn)集群配置管理,以及使用Mesos對資源進行調(diào)度,封裝常見的數(shù)據(jù)接入接口。中間層包括對(RPC)接口的遠程調(diào)用以及多用戶并發(fā)的控制請求。用戶層主要包含開發(fā)套件和可視化控件等。

        圖1 系統(tǒng)整體架構(gòu)圖

        2.2 引擎層

        引擎層是整個數(shù)據(jù)挖掘系統(tǒng)的核心部分,其擔負著系統(tǒng)的數(shù)據(jù)處理引擎。引擎層運行在Linux集群環(huán)境下,文中使用的是Ubuntu 16.04 64位系統(tǒng)。引擎層以spark集群為核心,通過Zookeeper實現(xiàn)集群配置管理,并使用Mesos對資源進行調(diào)度,封裝常見的數(shù)據(jù)接入接口,包括Kafka,F(xiàn)lume等。此外,引擎層還具有3個組件,包括Spark SQL、數(shù)據(jù)挖掘算法包及Spark Streaming。Spark SQL用于處理結(jié)構(gòu)化大數(shù)據(jù);數(shù)據(jù)挖掘算法包用于提供數(shù)據(jù)挖掘算法,包括前文介紹的Apriori算法和PageRank算法;Spark Streaming用于處理流式數(shù)據(jù)。

        圖2 引擎層設計圖

        2.3 中間層

        中間層負責對(RPC)接口的遠程調(diào)用以及多用戶并發(fā)的控制請求。RPC(Remote Procedure CallProtocol),即遠程過程調(diào)用協(xié)議,其是一種通過網(wǎng)絡從遠程計算機程序上請求服務,而無需要了解底層網(wǎng)絡技術(shù)的協(xié)議。RPC能夠使用戶免去登錄到集群環(huán)境中進行操作的環(huán)節(jié)而直接在本地進行調(diào)用,減去了提交大數(shù)據(jù)計算任務的環(huán)節(jié)。由于RPC由Python語言編寫,因而選用Python的xml-rpc,其工作過程如圖3所示。

        首先是用戶發(fā)起調(diào)用請求后,數(shù)據(jù)將被封裝為xml的格式,然后通過HTTP的post方法,將xml格式的數(shù)據(jù)傳播給rpc服務端,服務端解析xml數(shù)據(jù),執(zhí)行相關指令后,將結(jié)果以xml格式返回給調(diào)用端。

        圖3 xml-rpc處理過程

        為了滿足同一時間不同用戶的需求,引入隊列作為請求的存儲結(jié)構(gòu),對任務進行優(yōu)先級排序。用戶請求調(diào)度過程如圖4所示,中間層在接收到一個RPC調(diào)用時,先判斷是否為getModel調(diào)用,若是將調(diào)用從Memcached取出執(zhí)行,并將結(jié)果返回給用戶層。若不是getModel調(diào)用,判斷是否為Schedule調(diào)用,若為Schedule調(diào)用,則將調(diào)用標記為KEY鎖定并放入到候選隊列中等候執(zhí)行;若不是Schedule調(diào)用,則不執(zhí)行調(diào)用。

        圖4 中間層流程圖

        3 實驗測試

        文中在惠普Precision T5810工作站上搭建實驗平臺,處理器為Intel E5-1620處理器,主頻3.5GHz,內(nèi)存16G,硬盤1TB。在工作站上建立虛擬機,系統(tǒng)環(huán)境為Ubuntu 16.04 64位系統(tǒng),完成Spark分布式環(huán)境的搭建。本文通過實驗來比較以MapReduce及以Spark為基礎的Apriori算法和PageRank的并行化執(zhí)行效率,其中數(shù)據(jù)集采用大小分別為20MB,30MB,70MB,100MB 的 Note Dame,Stanford,Google以及Berkeley-Stanford數(shù)據(jù)集,對于頻繁項分析,本文采用T10I4D100K.數(shù)據(jù)集,實驗結(jié)果如圖5~8所示。

        由圖5,圖7可看出,不管是Apriori算法還是PageRank算法,本文提出的基于Spark的內(nèi)存計算算子實現(xiàn)的數(shù)據(jù)挖掘算法的并行計算,其平均執(zhí)行時間遠小于MapReduce的平均執(zhí)行時間。隨著數(shù)據(jù)量的增加,基于MapReduce的數(shù)據(jù)挖據(jù)算法執(zhí)行時間成線性增長,且斜率較大。而基于Spark的數(shù)據(jù)挖掘算法執(zhí)行時間增長緩慢,并未發(fā)生較大變化。這是由于Spark基于內(nèi)存進行計算的,其將每次迭代結(jié)果均緩存在內(nèi)存中,因而能直接讀取,減少了從硬盤讀取數(shù)據(jù)的時間。

        其次,隨著Slave節(jié)點的增加,基于Spark的數(shù)據(jù)挖掘算法Apriori和PageRank算法的執(zhí)行時間呈線性下降,說明這兩種算法均能較好地進行算法的并行計算。

        4 結(jié)束語

        基于大數(shù)據(jù)的數(shù)據(jù)挖掘算法其在執(zhí)行效率,算法并行化以及平臺易用性等存在問題。為了解決這些問題,本文對大數(shù)據(jù)下的數(shù)據(jù)挖掘引擎進行了研究,以Spark作為核心引擎,并在Spark的內(nèi)存計算算子的基礎上,實現(xiàn)了多個傳統(tǒng)數(shù)據(jù)挖掘算法的并行計算,使得傳統(tǒng)的數(shù)據(jù)挖掘算法能在集群環(huán)境中并行運行,從而在大數(shù)據(jù)中得到較好的應用。然后通過系統(tǒng)分層方法,將數(shù)據(jù)挖掘系統(tǒng)進行分層設計,實現(xiàn)了一個完整的大數(shù)據(jù)挖掘平臺。實驗表明,基于Spark實現(xiàn)的Apriori算法跟PageRank算法的并行計算能有效減少執(zhí)行時間,在大數(shù)據(jù)挖掘上具有較好的應用。

        圖5 并行化Apriori算法的數(shù)據(jù)規(guī)模實驗結(jié)果

        圖6 并行化Apriori算法的集群規(guī)模實驗結(jié)果

        圖7 并行化PageRank算法的數(shù)據(jù)規(guī)模實驗結(jié)果

        圖8 并行化PageRank算法的集群規(guī)模實驗結(jié)果

        [1]Gheraawat S,Gobioff H,Leung ST.The Google file system [C].ACM SIGOPS Operating Systems Review.ACM, 2003,37(5):29-43.

        [2]Dean J,Ghemawat S.MapReduce:simplified data processing on large chisters[J].Communications of the ACM,2008,51(1):107-113.

        [3]Chang F,Dean J,Ghemawat S,et al.Bigtable:A distributed storage system for structured data[J].ACM Transactions on Computer Systems(TOCS),2008,26(2):4.

        [4]Taylor R C.An overview of the Hadoop/Map Reduce/HBase framework and its current applications in bioinformatics[J].BMC bbinformatics,2010,ll(Suppl 12):S1.

        [5]McKenna A, Hanna M, Banks E,et al.The Genome Analysis Toolkit:aMapReduce framework for analyzing next-generation DNA sequencing data[J].Genome research^2010,20(9):1297-1303.

        [6]胡俊,胡賢德,程家興.基于Spark的大數(shù)據(jù)混合計算模型[J].計算機系統(tǒng)應用,2015(4):214-218.HU Jun,HU Xiande,CHENG Jiaxing.Spark Big Data hybrid computing model[J].Computer Systems&Applications,2015(4):214-218.

        [7]王虹旭,吳斌,劉旸.基于Spark的并行圖數(shù)據(jù)分析系統(tǒng)[J].計算機科學與探索,2015,9(9):1066-1074.

        [8]崔貫勛,李梁,王柯柯,等.關聯(lián)規(guī)則挖掘中Apriori算法的研究與改進[J].計算機應用,2010,30(11):2952-2955.

        [9]栗青霞,王換換,傅喆.改進的Apriori算法在試題關聯(lián)分析中的應用[J].電子科技,2014,27(2):35-38.

        [10]李稚楹,楊武,謝治軍.PageRank算法研究綜述[J].計算機科學,2011(s1):185-188.

        [11]錢功偉,倪林,MIAO,等.基于網(wǎng)頁鏈接和內(nèi)容分析的改進PageRank算法[J].計算機工程與應用,2007,43(21):160-164.

        [12]余永紅,向曉軍,高陽,等.面向服務的云數(shù)據(jù)挖掘引擎的研究[J].計算機科學與探索,2012,6(1):46-57.

        [13]張英朝,鄧蘇,張維明,等.智能數(shù)據(jù)挖掘引擎的設計與實現(xiàn)[J].計算機科學,2002,29(10):11-13.

        [14]姚全珠,張杰.基于數(shù)據(jù)挖掘的搜索引擎技術(shù)[J].計算機應用研究,2006,23(11):29-30.

        [15]陳勇,張佳驥,吳立德,等.基于數(shù)據(jù)挖掘的面向話題搜索引擎研究[J].無線電通信技術(shù),2011,37(5):38-40.

        Research on data mining engine based on big data

        WANG Xiao-yan1,ZHANG Li-min2
        (1.Shaanxi Radio and TV University, Xi'an 710119,China; 2.Xi'an Institute of Foreign Affairs and Network Information Institute, Xi'an 710077, China)

        In order to solve the problem of data mining in large data,the data of the large-scale data mining engine is studied, using Spark as the core engine, and in the memory of Spark operator on the basis of the implementation of a number of traditional data mining algorithms of parallel computing,the traditional data mining algorithm can run in parallel in a cluster environment,so as to obtain the very good application in big data.Then through the system layering method,the data mining system is designed,and a complete big data mining platform is realized.Experimental results show that the Apriori algorithm based on Spark algorithm and PageRank algorithm can effectively reduce the execution time,and it has a good application in large data mining.

        big data; data mining; Spark;engine

        TN99

        :A

        :1674-6236(2017)15-0031-04

        2016-09-17稿件編號:201609153

        陜西省教育廳科研項目(16JK2176);陜西工商職業(yè)學院2015年度教學改革研究項目(GJ1510)

        王小燕(1982—),女,陜西西安人,碩士,工程師。研究方向:軟件工程。

        猜你喜歡
        引擎數(shù)據(jù)挖掘系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機系統(tǒng)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        ZC系列無人機遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        藍谷: “涉藍”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        無形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        基于Cocos2d引擎的PuzzleGame開發(fā)
        国产白袜脚足j棉袜在线观看| 亚洲免费一区二区av| 国产伦一区二区三区色一情| 无码视频在线观看| 中文字幕无码无码专区| 国产精品亚洲A∨无码遮挡 | 日韩一区二区三区熟女| 国产又大又黑又粗免费视频| 吸咬奶头狂揉60分钟视频| 在线观看精品国产福利片87| 日日噜噜噜夜夜狠狠久久蜜桃 | 日本成熟妇人高潮aⅴ| 高清不卡av一区二区| 久久天天躁狠狠躁夜夜不卡| 久久亚洲精品无码gv| 日韩不卡无码三区| 少妇太爽了在线观看免费| 人妻aⅴ中文字幕| 亚洲久无码中文字幕热| 亚洲成人免费久久av| 午夜影视免费| 国内精品伊人久久久久影院对白| 久久99精品中文字幕在| 久久久黄色大片免费看| 精品国产第一国产综合精品| 两个人看的www中文在线观看| 蜜桃在线观看免费高清完整版| 亚洲男人综合久久综合天堂| 97人人超碰国产精品最新| 美女裸体无遮挡免费视频的网站| 精品蜜桃在线观看一区二区三区| 伊人久久综合无码成人网| 亚洲国产av导航第一福利网| 国产丝袜精品丝袜一区二区| 日韩精品一二三区乱码| 芒果乱码国色天香| 日韩在线不卡免费视频| 亚洲一区二区三区天堂av | 国产免费av片无码永久免费| 亚洲熟妇在线视频观看| 麻豆成年人视频在线观看|