亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進Hadoop云平臺的海量文本數據挖掘

        2016-06-25 06:47:25陳炎龍段紅玉
        關鍵詞:文本挖掘云計算

        陳炎龍+段紅玉

        摘 要 針對常用的文本數據挖掘系統在處理海量文本數據時時間效率較低的問題,論文提出了一種基于改進Hadoop云平臺的海量文本數據挖掘方法.該方法首先將傳統Hadoop云平臺進行改進以適應海量文本數據挖掘的需要,然后將海量文本數據集和挖掘任務分解到該改進平臺上的多臺計算機上并行處理,從而實現了一個基于改進Hadoop云平臺的海量文本數據挖掘平臺,并通過對10 000篇新聞材料組成的實驗數據集進行挖掘驗證了該平臺的有效性和高效性.

        關鍵詞 文本挖掘;Hadoop;云計算;文本數據

        中圖分類號 TP301 文獻標識碼 A 文章編號 1000-2537(2016)03-0084-05

        Abstract To overcome the problem of low time efficiency for commonly used text data mining system in the treatment of massive text data, an improved mass text data mining method was put forward based on the Hadoop cloud platform.This method firstly improved traditional Hadoop cloud framework to meet the needs of the massive text data mining, and then decomposed mass text data sets and mining task to multiple computers of the improved platform for parallel processing. By doing so, this method realizes the mass text data mining platform based on the improved Hadoop cloud platform. The effectiveness of this improved platform is verified by the mass experimental data set composed of 10 000 news materials.

        Key words text mining; Hadoop; cloud computing; text data;

        隨著計算機技術與信息技術的飛速發(fā)展,國民經濟各行業(yè)所獲得的數據呈爆炸式增長,TB級甚至PB級海量數據無處不在[1].由于數據主要來自于互聯網,例如電子商務、微博等,這些數據主要以文本形式存儲,十分繁雜但又極具價值.它們產生的速度遠遠超過了人們收集信息、利用信息的速度,使得人們無法快速有效地查找到自己真正感興趣的信息,從而造成了時間、資金和精力的巨大浪費,導致“數據資源”變成“數據災難”[2].因此,如何有效地從這類海量數據中獲取信息或規(guī)律已成為當今信息科學技術領域所面臨的基本科學問題之一.

        然而, 在傳統計算框架下,海量文本數據的處理一般需要借助高性能機或者是更大規(guī)模的計算設備來完成[3].這雖然能夠在一定程度上解決海量數據的處理問題,但是其具有成本昂貴、隨著時間推移容錯性能差、可擴展性差等缺點,從而導致其很難普及[4].

        Hadoop云平臺作為一種專門處理海量數據的新式計算模型于2005年被提出,2011年1.0.0版本釋出,標志著Hadoop已經初具生產規(guī)模,它將現代計算機的高性能與人的高智能相結合,是當今處理海量數據最有效、最核心的手段與途徑[5].論文將傳統Hadoop云平臺進行改進以適應海量文本數據挖掘的需要,然后將海量文本數據集和挖掘任務分解到該改進平臺上的多臺計算機上并行處理,從而實現了一個基于改進Hadoop云平臺的海量文本數據挖掘平臺,并通過對10 000篇新聞材料組成的實驗數據集進行挖掘驗驗證了平臺的有效性和高效性.

        1 Hadoop云平臺簡介

        Hadoop云平臺[6]是由Apache基金會開發(fā)的一個能夠對大量數據進行分布式處理的軟件框架,是一個能夠讓用戶輕松架構和使用的分布式計算平臺.通過該框架,用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運算和存儲.Hadoop框架由HDFS[7]和MapReduce[8]組成,其中,Hadoop分布式文件系統(HDFS)[3]在最開始是作為Apache Nutch搜索引擎項目的基礎架構而開發(fā)的,目前已經是Apache Hadoop Core項目的一部分.HDFS被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統.它和現有的分布式文件系統有很多共同點.但同時,它和其他的分布式文件系統的區(qū)別也很明顯[9].HDFS是一個高度容錯性的系統,適合部署在廉價的機器上;能提供高吞吐量的數據訪問,非常適合大規(guī)模數據集上的應用[10].MapReduce[11]是谷歌開發(fā)的一種分布式程序設計框架,基于它編寫的應用程序能夠運行在由上千臺計算機組成的大型集群上,并且以一種可靠容錯的方式對海量數據進行并行處理.Hadoop能夠實現對多種類型文件的處理,比如文本、圖像、視頻等.我們可以根據自己的需要編寫特定的應用程序來完成任務目標 [12].

        2 傳統基于Hadoop云平臺的文本數據挖掘

        在傳統基于Hadoop云平臺的文本挖掘系統中,節(jié)點主要分為主節(jié)點(Master)和從節(jié)點(Slave)這兩類.整個系統僅有一個Master節(jié)點,由NameNode、文本數據集、JobTracker、文本挖掘算法庫組成.在系統中可有多個Slave節(jié)點,它由DataNode、TaskTracker組成,主要負責系統的存儲和計算任務.系統的整體架構如圖1所示.

        NameNode: 整個集群中只有一個,是整個系統的大腦,負責管理HDFS的目錄樹和相關的文件元數據信息以及監(jiān)控各個DataNode的健康狀態(tài).NameNode主要職責是跟蹤文件如何被分割成文件塊、文件塊又被哪些節(jié)點存儲,以及分布式文件系統的整體運行狀態(tài)是否正常等,如果NameNode節(jié)點停止運行的話將會導致數據節(jié)點無法通信,客戶端無法讀取和寫入數據到HDFS,實際上這也將導致整個系統停止工作.通常情況下每個Slave節(jié)點安裝一個DataNode,數據以若干個固定大小的block塊的形式在其上存儲,定期向NameNode匯報其上存儲的數據信息.

        文本挖掘算法庫主要用于存儲對數據進行挖掘所需的算法,這些算法都被存于Master節(jié)點中.通常算法都是串行的,為使它們能夠在Hadoop云平臺執(zhí)行,在使用之前需要對它們按照Hadoop云平臺的特點進行改造.在挖掘過程中,JobTracker會根據實際所需自動將其分發(fā)至各Slave節(jié)點,供TaskTracker使用.

        在該系統中,Master周期性地ping每個Slave,如果在一個時間段內Slave沒有返回信息,Master就會標注該Slave節(jié)點失效,此節(jié)點上所有任務將被重新初始空閑狀態(tài),并被分配給其他Slave執(zhí)行.

        從功能上劃分,NameNode、DataNode、文本數據集形成了系統的存儲部件,JobTracker、文本挖掘算法庫、TaskTracker形成了系統的計算部件.

        3 Hadoop云平臺的改進

        在海量文本數據挖掘中,網絡通信性能制約了系統性能的提高,網絡寬帶資源比較重要.在“計算遷移總是比數據遷移代價低”[12]的思想指導下,本文將計算節(jié)點和存儲節(jié)點配置在一起,在任務調度時盡量在保存相應輸入文件塊的設備上分配并執(zhí)行任務,這種方法使得大部分并行任務都在本地機器上讀取輸入數據,有效的減少網絡數據流量,從而減少了節(jié)點間的通訊消耗.

        在Hadoop云平臺工作過程中,節(jié)點間的數據傳輸消耗大量時間,如果能減少數據傳輸次數,就有可能提高系統整體時間性能.在傳統的Hadoop云平臺中,需要將具有相同鍵值Key/Value對的中間數據傳送到同一個Reduce節(jié)點歸約.如果相同類型的鍵值Key/Value對較多,即這類中間結果較多的話,那么節(jié)點間就必定存在大量中間結果的傳送,這勢必消耗大量寬帶資源,平臺的時間性能也就交差.為此,我們對傳統Hadoop云平臺作如下修改:在Map階段增加一個CombineProcess模塊,對同一Map階段中具有相同鍵值Key/Value對的中間結果做一個初步合并,并過濾掉一些無用的中間結果.改進后的Hadoop云平臺海量文本數據挖掘系統工作流程如圖2所示.

        由于CombineProcess模塊位于Map階段,只在本地機上執(zhí)行,并不存在節(jié)點間的數據傳輸,因此,該模塊耗時較少.而在文本挖掘中,相同鍵值Key/Value對的中間結果以及無用的中間結果較多,經過CombineProcess模塊的初步合并和過濾,能夠減少很多中間結果,相應地也就較多地減少了節(jié)點間的數據傳輸,此較少的消耗時間要比CombineProcess模塊在本地機上執(zhí)行初步合并和過濾所消耗的時間要多得多,因此,改進后的Hadoop云平臺系統在整體上能夠減少耗時,執(zhí)行效率能夠有所提升.

        4 仿真實驗

        在實驗中,我們的Hadoop云平臺由9臺計算機組成(其中1臺為Master,另8臺為Slave),操作系統均為CentOS-6.4 64 bit,配置均為八核IntelCorei 7處理器,4 GB內存,1 TB硬盤,Hadoop版本為1.1.2,Java版本為1.7.25,每個節(jié)點通過100Mb/s的局域網連接.實驗數據集,從新華網(http://forum.xinhuanet.com/)下載2010—2013年間新聞材料,共10 000篇,包括財經、法律、娛樂、體育、計算機等10大類.這些實驗數據集經預處理后 (忽略所有的報頭)進行挖掘實驗,采用改進前后的Hadoop云平臺海量文本挖掘系統,主要進行了以下3組不同的對比實驗(注:所有時間結果都四舍五入取整):

        實驗1 處理10 000篇新聞材料,文件復制數分別設為1和3,BlockSize設為10 M,系統執(zhí)行時間如表1所示.

        從表1可以看出:文件復制數的增多并沒有提高整體挖掘的時間性能,同時,文件復制數增多,系統準備時間在一定程度上會增多.

        實驗2 文件復制數設為1, Slave分別為2,4,6,8臺,BlockSize設為10 M,處理10 000篇新聞材料,系統執(zhí)行時間如表2所示.

        從表3可以看出:BlockSize分塊大小對系統有很大影響.如果BlockBlockSize較小,那么Job數目增多,系統調度頻繁,節(jié)點間通信開銷大,性能降低;如果BlockBlockSize較大,雖節(jié)點間通信開銷小,但是并行程度較低,節(jié)點內部計算時間較大.

        從表1、表2和表3可以看出:在同樣條件下,改進后的Hadoop云平臺海量文本數據挖掘系統在時間消耗上都優(yōu)于改進前的平臺系統.這是因為改進后的平臺系統能夠借助CombineProcess模塊來過濾掉一些無用的數據,且把計算節(jié)點和存儲節(jié)點盡可能配置在一起,從而極大地減少了節(jié)點間的網絡通訊,進而提高了系統的整體時間性能.

        5 結束語

        針對傳統文本挖掘系統作用于海量文本數據時時間性能較低的問題,論文把Hadoop云平臺引入其中并加以改進,在此基礎上提出了一個基于改進Hadoop云平臺的海量文本數據挖掘系統.以人民網上下載的10 000篇新聞材料作為實驗數據集,分別進行了不同的3組對比實驗,結果都顯示改進后的平臺系統在時間性能上有一定程度上的提高,這也表明了改進后的平臺系統是有一定實用價值的.論文下一步的工作將是對平臺系統改進前后的挖掘精度,以及應用于其他類型的海量數據,例如對海量植物葉片圖像數據所涉及的關鍵技術做進一步研究.

        參考文獻:

        [1] 中國互聯網絡信息中心(CNNIC).第33次中國互聯網絡發(fā)展狀況統計報告[R].北京:中國互聯網絡信息中心, 2014.

        [2] 王 珊,王會舉,覃雄派,等. 架構大數據:挑戰(zhàn)、現狀與展望[J].計算機學報, 2011,34(10):1741-1752.

        [3] SEGALL R S, ZHANG Q Y. Web mining technologies for customer and marketing surveys [J].Int J Syst Cyber, 2009,38(6):925-949.

        [4] THEUER H, LASS S. Engineering data management systeme/product data management systeme [J]. Productivity Manag, 2010,15(4):34-38.

        [5] MARSTON S, LI Z, BANDYOPADHYAY S, et al. Cloud computing—the business perspective[J].Decision Supp Syst, 2011,51(1):176-189.

        [6] ARMBRUST M, FOX A, GRIFFITH R, et al. A view of cloud computing[J]. Commun ACM, 2010,53(4):50-58.

        [7] DEAN J, GHEMAWAT S. MapReduce: a flexible data processing tool[J]. Commun ACM, 2010,53(1):72-77.

        [8] AFRATI F N, ULLMAN J D. Optimizing multiway joins in a map-reduce environment[J]. IEEE Trans Knowled Data Engi, 2011,23(9):1282-1298.

        [9] 覃雄派,王會舉,杜小勇,等.大數據分析——RDBMS 與MapReduce 的競爭與共生[J].軟件學報, 2012,23(1):32-45.

        [10] 李建江,崔 健,王 聃. MapReduce并行編程模型研究綜述[J].電子學報, 2011,39(11):2635-2642.

        [11] SRINIVASAN A, FARUQUIE T A, JOSHI S. Data and task parallelism in ILP using MapReduce [J]. Mach Lear, 2012,86(1):141-168.

        [12] 羅軍舟,金嘉暉,宋愛波,等. 云計算:體系架構與關鍵技術[J].通信學報, 2011,32(7):13-21.

        (編輯 HWJ)

        猜你喜歡
        文本挖掘云計算
        數據挖掘技術在電站設備故障分析中的應用
        軟件導刊(2016年12期)2017-01-21 15:55:21
        基于LDA模型的95598熱點業(yè)務工單挖掘分析
        從《遠程教育》35年載文看遠程教育研究趨勢
        基于云計算的移動學習平臺的設計
        實驗云:理論教學與實驗教學深度融合的助推器
        大學教育(2016年9期)2016-10-09 08:54:03
        云計算中的存儲虛擬化技術應用
        科技視界(2016年20期)2016-09-29 13:34:06
        慧眼識璞玉,妙手煉渾金
        国产av天堂亚洲av刚刚碰| 精品乱码一区二区三区四区| 日批视频免费在线观看| 熟女少妇av免费观看| 麻豆密入视频在线观看| 亚洲精品熟女乱色一区| 日本熟妇视频在线中出| 尤物国产一区二区三区在线观看| 国产在线第一区二区三区| 熟女无套内射线观56| 亚洲av之男人的天堂| 成年毛片18成年毛片| 蕾丝女同一区二区三区 | 蜜桃视频在线免费观看| 爱性久久久久久久久| 精品综合久久久久久97超人| 成人国产精品一区二区网站| 黄片在线观看大全免费视频| 亚洲国产最新免费av| 18禁裸体动漫美女无遮挡网站 | 日本少妇被黑人xxxxx| 中文字幕久久久人妻无码| 极品少妇在线观看视频| 亚洲女同恋av中文一区二区| 国模吧无码一区二区三区| 伊人久久无码中文字幕| 无码久久精品蜜桃| 亚洲在线一区二区三区| 日本一区二区三区四区高清不卡| 中文无码伦av中文字幕| 亚洲日韩精品欧美一区二区一 | 噜噜综合亚洲av中文无码| 军人粗大的内捧猛烈进出视频| 粗大挺进尤物人妻一区二区| 精品在线亚洲一区二区三区 | 亚洲乱码中文字幕综合| 国产精品三级在线专区1 | 久久久久久久妓女精品免费影院| 高清亚洲精品一区二区三区| 国产精品黑丝高跟在线粉嫩| 亚洲一区 日韩精品 中文字幕|