亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop海量數(shù)據(jù)挖掘技術(shù)分析

        2014-09-21 17:13:57胡昕
        企業(yè)導(dǎo)報(bào) 2014年11期
        關(guān)鍵詞:挖掘數(shù)據(jù)處理

        胡昕

        摘 要:對(duì)現(xiàn)有多款云計(jì)算平臺(tái)做了分析與對(duì)比。之后選定 Hadoop 開源云平臺(tái)作為項(xiàng)目的基礎(chǔ)研究平臺(tái),對(duì)其進(jìn)行深入的分析與討論。

        關(guān)鍵詞:Hadoop;數(shù)據(jù)處理;挖掘

        曾有一句話在互聯(lián)網(wǎng)業(yè)界廣為流傳:“大量的數(shù)據(jù)勝于好的算法”,這句話的意思是說對(duì)于某些應(yīng)用,相比與優(yōu)秀的算法,大量可用的數(shù)據(jù)能夠帶來更好的推薦效果。這就是數(shù)據(jù)處理和挖掘。數(shù)據(jù)處理的根本目的是利用有效的手段快速準(zhǔn)確的獲取數(shù)據(jù)、加工數(shù)據(jù)、應(yīng)用數(shù)據(jù)。這其中,數(shù)據(jù)挖掘技術(shù)是將收集到的數(shù)據(jù)得以有效應(yīng)用的核心技術(shù)。數(shù)據(jù)挖掘(Data Mining)技術(shù)又被稱作數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),其核心就是從大量雜亂無章的、難以理解的數(shù)據(jù)中獲取有效的、新穎的、具有潛在應(yīng)用價(jià)值的信息的過程。

        目前比較有研究價(jià)值的 Web 挖掘的方向有:(1)數(shù)據(jù)預(yù)處理技術(shù)方向。(2)現(xiàn)有挖掘算法改進(jìn)方向。(3)智能搜索引擎方向。(4)電子商務(wù)領(lǐng)域應(yīng)用方向。

        海量數(shù)據(jù)處理雖然剛剛興起,但數(shù)據(jù)在企業(yè)中一直處于核心地位,傳統(tǒng)的數(shù)據(jù)產(chǎn)品,在企業(yè)中部署運(yùn)行多年,為企業(yè)的經(jīng)營決策貢獻(xiàn)巨大。企業(yè)現(xiàn)有數(shù)據(jù)產(chǎn)品的服務(wù)商,排在前六位的分別是 Oracle(27.93%)、IBM(15.99%)、Microsoft(14.41%)、Apache Hadoop(9.01%)、EMC(8.33%),以及SAP(7.66%)。Oracle 以絕對(duì)優(yōu)勢拔得頭籌,可見其在數(shù)據(jù)庫、數(shù)據(jù)分析和大數(shù)據(jù)方面的地位。值得一提的是Hadoop 的普及水平已超出我們的想象,成為繼 Oracle、IBM和 Microsoft 之后又一主流平臺(tái)產(chǎn)品。

        Hadoop 云平臺(tái)由分布式文件系統(tǒng) HDFS 與并行計(jì)算構(gòu)架MapReduce兩個(gè)核心組件構(gòu)成。接下來將對(duì) Hadoop 的核心組件、主要構(gòu)造模塊及拓?fù)浣Y(jié)構(gòu)進(jìn)行分析與討論。

        分布式文件系統(tǒng) HDFS。HDFS(Hadoop Distributed FileSystem)是為Hacloop項(xiàng)目開發(fā)的分布式文件系統(tǒng),它采用主/從( master/slave)架構(gòu)。HDFS 由一個(gè)NarneNode(文件索引服務(wù)器)以及眾多DataNode(數(shù)據(jù)節(jié)點(diǎn))組成。HDFS 提供給用戶相應(yīng)的文件命名空間供用戶將數(shù)據(jù)以文件的形式存放。HDFS 一般會(huì)把這些文件切分為幾個(gè)文件塊,切分后的文件塊將被存放在一組數(shù)據(jù)服務(wù)器上。然后由NameNode提供打開、關(guān)閉、重命名文件與目錄等基本功能,同時(shí)負(fù)責(zé)將文件塊映射到DataNode上。再由DataNode負(fù)責(zé)響應(yīng)客戶端具體文件的讀寫操作,同時(shí)處理由NameNode發(fā)起的創(chuàng)建、刪除和備份數(shù)據(jù)塊的請(qǐng)求。

        一般而言 HDFS 在 Linux 操作系統(tǒng)上運(yùn)行。由于采用了Java語言,所以理論上任何支持Java語言的操作系統(tǒng)都可以運(yùn)行NameNode與DataNodeo HDFS 采用主/從式系統(tǒng)架構(gòu),其中的所有元數(shù)據(jù)都存儲(chǔ)在NameNode上,故客戶端可以方便地通過NameNode得到全局?jǐn)?shù)據(jù)存儲(chǔ)狀況,但如果出現(xiàn)NameNode死機(jī)的情況,用戶也將失去訪問數(shù)據(jù)的能力,為此 HDFS 在新版本中加入了備份NameNode功能,以防止上述故障。

        并行計(jì)算架構(gòu)MapReduce。MapReduce是一種為多臺(tái)計(jì)算機(jī)并行處理大量數(shù)據(jù)而設(shè)計(jì)的并行計(jì)算框架。MapReduce通常工作的輸入數(shù)據(jù)分割成獨(dú)立的數(shù)據(jù)塊,分割后的數(shù)據(jù)一般由多個(gè) Map 任務(wù)并行處理。Mapper 從 HDFS 上取出數(shù)據(jù),處理后將結(jié)果存儲(chǔ)在本地硬盤,Reducer 在本地硬盤或通過網(wǎng)絡(luò)方法取得Mapper 的輸出結(jié)果后進(jìn)一步計(jì)算,將結(jié)果輸出到 HDFS。

        MapReduce框架關(guān)注調(diào)度任務(wù),并監(jiān)視任務(wù)的執(zhí)行狀況,如果執(zhí)行失敗,將重新執(zhí)行該任務(wù)。

        在 Hadoop 中計(jì)算節(jié)點(diǎn)通常與存儲(chǔ)節(jié)點(diǎn)在一起。這就使得MapReduce框架可以根據(jù)數(shù)據(jù)的存儲(chǔ)分布。情況來調(diào)度任務(wù)。

        MapReduce框架包含一個(gè)獨(dú)立的主服務(wù)器JobTracker(工作分配服務(wù)器)及一組與DataNode安裝在一起的從服務(wù)器TaskTracker(任務(wù)執(zhí)行服務(wù)器)。主服務(wù)器負(fù)責(zé)將任務(wù)調(diào)度到從服務(wù)器上,并監(jiān)控任務(wù),重新執(zhí)行失敗的任務(wù)。應(yīng)用程序在 HDFS 上指定輸入與輸出位置,并通過實(shí)現(xiàn)專門的接口來提供相應(yīng)的 Map 和 Reduce 方法。 Hadoop 客戶端負(fù)責(zé)發(fā)送工作相配置信息給JobTracker,由JobTracker來分發(fā)、調(diào)度任務(wù)給TaskTracker,并將相應(yīng)的狀態(tài)信息反饋給 Hadoop 客戶端。

        首先由JobClient向部署于 Master節(jié)點(diǎn)上的JobTracker守護(hù)進(jìn)程提交MapReduce作業(yè)。JobTracker在接受到作業(yè)請(qǐng)求后計(jì)入隊(duì)列中去。駐留在 Slave 節(jié)點(diǎn)上的TaskTarcker守護(hù)進(jìn)程在完成自己分配到的作業(yè)后會(huì)不斷向JobTracker發(fā)送心跳信息,查詢 Job 隊(duì)列中是否有新的任務(wù)可做,若隊(duì)列中有新的任務(wù),JobTracker會(huì)在第一時(shí)間發(fā)送給空閑的TaskTracker進(jìn)行處理。

        Hadoop 有 5 大構(gòu)造模塊構(gòu)成,其分別為:NameNode(名字節(jié)點(diǎn))、SecondaryNameNode(次名字節(jié)點(diǎn))、DataNode(數(shù)據(jù)節(jié)點(diǎn))、TaskTracker(任務(wù)跟蹤)、JobTracker(作業(yè)跟蹤)。每個(gè)模塊具備不同的功能,共同完成分布式數(shù)據(jù)處理任務(wù)。

        在 Hadoop 云平臺(tái)基礎(chǔ)上,進(jìn)行了海量 Web 日志數(shù)據(jù)預(yù)處理模型的研究,提出了改進(jìn)型預(yù)處理模型,并在單機(jī)及Hadoop分布式平臺(tái)下分別進(jìn)行了仿真驗(yàn)證,對(duì)仿真結(jié)果進(jìn)行了對(duì)比分析與研究。在海量 Web 日志數(shù)據(jù)預(yù)處理研究基礎(chǔ)上進(jìn)行了Apriori并行分層搜索算法的研究,分析傳統(tǒng) CD、DD 算法的優(yōu)劣、提出改進(jìn)型并行Apriori算法,并對(duì)其進(jìn)行MapReduce化,部署于 Hadoop 平臺(tái)下做仿真分析,最后對(duì)仿真結(jié)果進(jìn)行分析研究。

        猜你喜歡
        挖掘數(shù)據(jù)處理
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
        使德育開花結(jié)果
        將“再也沒有”帶向更有深度的思考中
        古詩詞教學(xué)中藝術(shù)內(nèi)涵的挖掘策略
        挖掘檔案文化資源推進(jìn)檔案文化建設(shè)
        資治文摘(2016年7期)2016-11-23 00:37:46
        關(guān)注數(shù)學(xué)思考 提升數(shù)學(xué)本質(zhì)
        大數(shù)據(jù)技術(shù)在商業(yè)銀行中的應(yīng)用分析
        MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
        Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
        999国产精品999久久久久久| av亚洲在线一区二区| 综合中文字幕亚洲一区二区三区| 区无码字幕中文色| 自拍偷区亚洲综合激情| 日本一二三区免费在线 | 日本19禁啪啪吃奶大尺度| 久久精品人妻一区二区三区| 亚洲欧洲一区二区三区波多野| 日本免费一区二区精品| 国产一区二区黄色网页| 亚洲人成无码区在线观看| 国产av日韩a∨亚洲av电影| 亚洲日韩国产精品不卡一区在线| 亚洲熟女少妇一区二区三区青久久| 麻豆亚洲一区| 极品美女aⅴ在线观看| 久久久久久av无码免费看大片| 欧美日韩亚洲成色二本道三区| 日韩精品一区二区三区含羞含羞草| 在线观看一级黄片天堂| 欧美艳星nikki激情办公室| 在线视频一区二区日韩国产| 日本高清人妻一区二区| 制服丝袜一区二区三区| 亚洲精品97久久中文字幕无码| 久草热这里只有精品在线| 人妻系列中文字幕av| 久久人妻无码一区二区| 自拍偷自拍亚洲精品播放| 就国产av一区二区三区天堂| 国产黑色丝袜在线观看网站91| av剧情演绎福利对白| 精产国品一二三产品蜜桃| 真正免费一级毛片在线播放| 久久精品国产亚洲av热九| 在线精品国产亚洲av蜜桃| 风间由美性色一区二区三区| 欧美日韩一区二区三区视频在线观看 | 99热久久只有这里是精品| 久久久国产精品123|