亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的陶瓷行業(yè)信息聚合平臺設(shè)計

        2018-01-09 13:23:13羅新
        軟件導(dǎo)刊 2017年12期

        羅新

        摘要:

        在陶瓷行業(yè)信息聚合網(wǎng)站的基礎(chǔ)上,通過Web日志分析可以獲取網(wǎng)站用戶的訪問情況,但是隨著Web服務(wù)器上日志的劇增,在單機上運行日志分析或挖掘程序變得越來越不可行。采用Hadoop并行計算平臺對日志進行預(yù)處理,然后對頁面訪問量、用戶訪問量、網(wǎng)站流量等指標(biāo)進行統(tǒng)計,還應(yīng)用Apriori算法對日志進行挖掘,對群集在不同節(jié)點數(shù)、不同數(shù)據(jù)集以及不同最小支持度的情形下的性能進行比較。實驗結(jié)果表明,在Hadoop平臺上,隨著集群節(jié)點的增加,大數(shù)據(jù)集處理性能會得到較大提升。應(yīng)用Hadoop 平臺構(gòu)建的日志分析平臺可以為陶瓷行業(yè)信息聚合平臺的管理者提供各種有價值的信息。

        關(guān)鍵詞:Hadoop;Apriori;陶瓷信息系統(tǒng)

        DOIDOI:10.11907/rjdk.173070

        中圖分類號:TP319

        文獻標(biāo)識碼:A 文章編號:1672-7800(2017)012-0128-03

        Abstract: Based on the development of the ceramic industry information aggregation website, User's access informationcan be obtained through Web log analysis. However, with the rapid increase of the logs on the Web server, it becomes more and more impossible to run log analysis or mining programs on a single computer Row. In this paper, Hadoop parallel computing platform for log pretreatment, and then page views, user traffic, website traffic and other indicators statistics, but also Apriori algorithm to log mining, the cluster in different nodes, different data sets and different Minimum support in the case of performance comparison. Experimental results show that the processing of large data sets on the Hadoop platform will be greatly enhanced with the increase of cluster nodes. The log analysis platform built using the Hadoop platform can provide valuable information to managers of the ceramic industry information aggregation platform.

        Key Words:Hadoop; Apriori; ceramic information system

        0 引言

        Hadoop[1-2]平臺實現(xiàn)了HDFS分布式文件系統(tǒng),它具有高容錯性的特點,而且可以部署在低端硬件上,提供高吞吐量的處理能力,適合處理超大數(shù)據(jù)集的應(yīng)用程序。Hadoop框架最核心的設(shè)計是HDFS和MapReduce,HDFS為海量數(shù)據(jù)存儲提供了物質(zhì)基礎(chǔ),MapReduce為大數(shù)據(jù)提供了計算技術(shù)。

        本文在一個陶瓷行業(yè)信息聚合平臺的基礎(chǔ)上,應(yīng)用Hadoop技術(shù),實現(xiàn)了網(wǎng)站訪問日志的預(yù)處理、統(tǒng)計、挖掘等功能,為網(wǎng)站管理者提供了改進依據(jù)。

        1 研究背景

        陶瓷行業(yè)信息聚合平臺網(wǎng)站是一個前端采用BootStrap框架,應(yīng)用HTML5、AJAX、JQuery等相關(guān)技術(shù),后臺采用Struts+Hiberate+Spring框架技術(shù)的網(wǎng)站。系統(tǒng)功能包括用戶注冊與管理、陶瓷產(chǎn)品上架與展示、供求信息發(fā)布、各類信息搜索等功能。網(wǎng)站布局如圖1所示。

        系統(tǒng)后臺數(shù)據(jù)庫采用MySQL框架, 數(shù)據(jù)庫設(shè)計了business_chances, product, news, category等表,分別對應(yīng)供需信息、產(chǎn)品、新聞、產(chǎn)品類別等信息。

        為了更深入了解網(wǎng)站訪客的使用習(xí)慣,可以對網(wǎng)站訪問日志進行分析。例如tomcat服務(wù)器上記錄的訪問日志的信息。

        通過這些字段的統(tǒng)計分析,可以得到每個頁面的訪問、IP訪問量與用戶某個時段的訪問量、用戶來源,用戶訪問瀏覽器(設(shè)備)等指標(biāo)的統(tǒng)計。通過對日志進行預(yù)處理后,形成一個用戶訪問事務(wù)文件,在Hadoop平臺上應(yīng)用并行化的挖掘算法[3-6],實現(xiàn)關(guān)聯(lián)、聚類等分析。

        2 Hadoop平臺處理網(wǎng)站日志

        2.1 日志處理模塊

        對于海量日志數(shù)據(jù),如果用單機來進行統(tǒng)計分析、挖掘,處理效率將會降低。此時可以采用Hadoop平臺[2],在集群上完成日志的分布式處理。日志分析/挖掘模塊框架如圖2所示。

        日志分析及挖掘處理可以分為3個子模塊。第一個模塊是日志收集模塊。日志收集模塊主要負責(zé)定期把日志文件從Web應(yīng)用服務(wù)器上傳到集群的HDFS系統(tǒng);然后在NameNode節(jié)點上啟動Hadoop Job,完成日志文件的分片、分配Mappe及Reducer節(jié)點,執(zhí)行完Job之后,把結(jié)果導(dǎo)出到MySQL, 用戶可以在陶瓷信息聚合網(wǎng)站上查看統(tǒng)計或挖掘的結(jié)果。

        日志收集模塊可以采用Java編寫GUI程序, 然后用Socket定期完成日志的上傳。這種方式需要開發(fā)服務(wù)器端及客戶端軟件。日志上傳客戶端的界面如圖3所示。

        日志上傳客戶端運行在各個Web應(yīng)用服務(wù)器上,可以進行服務(wù)器地址/端口、日志上傳時間間隔、日志文件所在位置等參數(shù)的設(shè)置。日志上傳服務(wù)器端具有帳戶管理、日志預(yù)處理、Hadoop挖掘算法設(shè)置等功能。服務(wù)器端如圖4所示。

        2.2 日志統(tǒng)計分析

        通過MapReduce進行日志統(tǒng)計的原理如下:在Mapper階段進行每行日志的讀取,以空格作為分隔符進行字段分割,再找到需要進行統(tǒng)計的字段。如統(tǒng)計一個頁面的訪問量,就應(yīng)該找到request字段,然后獲取里面的URL,最后以URL作為Key值,以1作為value值,向Context寫入。在Reducer階段,則以URL為key,對傳進的value值集合的元素進行求和操作。最后就可以得到一個頁面的總訪問次數(shù)。代碼如下所示:

        Apriori算法[7-12]通常用于關(guān)聯(lián)分析。對于陶瓷行業(yè)信息聚合平臺網(wǎng)站,首先對日志進行預(yù)處理,刪除用戶訪問無關(guān)數(shù)據(jù);然后執(zhí)行用戶識別、會話識別;最后形成用戶訪問網(wǎng)站記錄的事務(wù)集合。通過對事務(wù)集合的挖掘,可以得到關(guān)聯(lián)規(guī)則,為用戶提供產(chǎn)品或者頁面推薦。

        在開發(fā)Hadoop版本的Aprioir算法時,由于算法要進行迭代,每次迭代時會產(chǎn)生大量候選項集。在Hadoop平臺上,每一次迭代運行都以一個Job任務(wù)形式進行,Job之間不能進行進程間的數(shù)據(jù)共享。所以應(yīng)該把中間結(jié)果緩存到HDFS文件系統(tǒng)中,每一次新的迭代開始時,就把上一次迭代生成的候選項集讀取到Job中,然后再計算頻繁項集。下面代碼解決了Apriori算法迭代中結(jié)果的存儲問題。

        3 實驗結(jié)果分析及結(jié)果展示

        如表2所示,從日志中截取2個數(shù)據(jù)集DataSet_8M和DataSet_80M,經(jīng)過預(yù)處理后,每一行數(shù)據(jù)代表一個事務(wù)。其中DataSet_8M中有1萬條事務(wù)記錄,DataSet_80M有10萬條記錄。實驗平臺是Hadoop2.5.2,節(jié)點處理機Intel I7-4790 3.6G,內(nèi)存5G。表2的數(shù)據(jù)是在Hadoop群集下運行Apriroir算法[3],在數(shù)據(jù)集大小、最小支持度、節(jié)點數(shù)的3個維度下,運行時間的比較。從運行時間來看,由于NameNode與DataNode的之間通信會消耗算法處理時間,所以算法在多節(jié)點群集下運行并無優(yōu)勢。但隨著數(shù)據(jù)集的增大和最小支持度的降低(產(chǎn)生的候選項集會急劇增加),此時隨著節(jié)點數(shù)增加,算法處理時間明顯減少,從而達到較好的并行計算結(jié)果。

        在網(wǎng)頁上可以使用ECHARTS模塊對統(tǒng)計數(shù)據(jù)用圖表進行可視化顯示,便于用戶分析。IP訪問量的排行榜如圖5所示。

        4 結(jié)語

        本文在一個陶瓷行業(yè)信息聚合平臺網(wǎng)站的基礎(chǔ)上,引入Hadoop并行計算技術(shù),對網(wǎng)站的日志進行分析及挖掘。在日志數(shù)據(jù)量不斷增加的情況下,云計算技術(shù)處理優(yōu)勢會越來越明顯。通過Hadoop技術(shù)對日志進行離線處理,將經(jīng)過分析處理的數(shù)據(jù)存入數(shù)據(jù)庫,從而方便用戶使用。

        參考文獻:

        [1] TOM WHITE. Hadoop權(quán)威指南[M]. 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院.譯.北京:清華大學(xué)出版社,2013.

        [2] 陳吉榮.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計算機工程與科學(xué),2013,35(10):25-35.

        [3] 程苗.基于Hadoop的Web日志挖掘[J].計算機工程,2011,37(11):37-39.

        [4] 許抗震,吳云.基于Hadoop的網(wǎng)絡(luò)日志挖掘方案的設(shè)計[J].現(xiàn)代電子技術(shù),2017,40(9):115-120.

        [5] 楊鋒英,劉會超.基于Hadoop的在線網(wǎng)絡(luò)日志分析系統(tǒng)研究[J].計算機應(yīng)用與軟件,2014(8):311-316.

        [6] 姜開達,章思宇,孫強.基于Hadoop的校園網(wǎng)站日志系統(tǒng)的設(shè)計與實現(xiàn)[J].華東師范大學(xué)學(xué)報:自然科學(xué)版,2015(S1):126-131.

        [7] 魏玲.基于Bigtable與MapReduce的Apriori算法改進[J].計算機科學(xué),2015,42(10):208-210.

        [8] 肖強,朱慶華.Hadoop環(huán)境下的分布式協(xié)同過濾算法設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2013(1):83-89.

        [9] 黃劍,李明奇,郭文強.基于Hadoop的Apriori改進算法研究[J].計算機科學(xué),2017,44(7):262-269.

        [10] 劉永增,張曉景,李先毅.基于Hadoop /Hive的web日志分析系統(tǒng)的設(shè)計[J].廣西大學(xué)學(xué)報:自然科學(xué)版,2011(A1):314-317.

        [11] 孫趙旭.基于Hadoop的Apriori算法與實現(xiàn)[J].桂林理工大學(xué)學(xué)報,2014,34(3):584-588.

        [12] 王英博.基于Hadoop平臺的改進關(guān)聯(lián)規(guī)則挖掘算法[J].計算機工程,2016,42(10):69-74.

        (責(zé)任編輯:劉亭亭)

        91极品尤物在线观看播放| 蜜桃网站入口可看18禁| 日本高清长片一区二区| 色婷婷精品国产一区二区三区| 久久久精品国产三级精品| 国产爽快片一区二区三区| 国产午夜视频在线观看免费| 天堂一区二区三区在线观看视频| 亚洲av永久中文无码精品综合| 真人做爰片免费观看播放| 亚洲精品suv精品一区二区| 亚洲国产一区二区三区亚瑟| 亚洲欧洲日韩免费无码h| 538任你爽精品视频国产| 亚洲一区二区国产精品视频| 男女视频一区二区三区在线观看| 日本视频在线观看一区二区| 婷婷色综合视频在线观看| 成人特黄a级毛片免费视频| 成人综合网站| 欧美艳星nikki激情办公室| aaa级久久久精品无码片| 亚洲综合偷自成人网第页色| av天堂手机在线免费| 黄色一区二区三区大全观看| 国产成人久久精品一区二区三区| 人妻插b视频一区二区三区| 久久精品国产亚洲av忘忧草18| 久久精品中文字幕极品| 色婷婷丁香综合激情| 久久伊人精品只有这里有| 国产精品第一区亚洲精品| 99久久婷婷国产精品网| 国产乱理伦在线观看美腿丝袜| 久久人人爽人人爽人人片av高请| 男女做爰高清免费视频网站| 国产超碰人人做人人爱ⅴa| 亚洲两性视频一三区| 一区二区三区在线视频爽| 亚洲av网站在线观看一页| 午夜三级a三级三点在线观看|