亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的海量數(shù)據(jù)處理平臺(tái)的架構(gòu)與研究

        2019-08-29 02:57:44關(guān)金金未培莊彥
        科技視界 2019年20期
        關(guān)鍵詞:海量數(shù)據(jù)

        關(guān)金金 未培 莊彥

        【摘 要】大數(shù)據(jù)時(shí)代的來(lái)臨,成就了海量數(shù)據(jù)的衍生,但如何快速聚類高價(jià)值數(shù)據(jù),深度挖掘電商行業(yè)客戶和服務(wù)數(shù)據(jù),搭建海量數(shù)據(jù)服務(wù)著陸平臺(tái),監(jiān)測(cè)行業(yè)數(shù)據(jù)輿情,提升公共服務(wù)水平,拓寬數(shù)據(jù)資源應(yīng)用市場(chǎng)是“互聯(lián)網(wǎng)+”行業(yè)轉(zhuǎn)型的關(guān)鍵。借助Hadoop分布式存儲(chǔ)與計(jì)算平臺(tái),以高效、可靠、可伸縮的方式維護(hù)數(shù)據(jù)精確度、緩解數(shù)據(jù)冷啟動(dòng)問(wèn)題,增強(qiáng)數(shù)據(jù)多樣化推薦。

        【關(guān)鍵詞】Hadoop平臺(tái);海量數(shù)據(jù);服務(wù)處理平臺(tái);HDFS架構(gòu)

        中圖分類號(hào): TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2019)20-0099-002

        DOI:10.19694/j.cnki.issn2095-2457.2019.20.046

        0 概述

        多元化的數(shù)據(jù)來(lái)源,井噴式的數(shù)據(jù)增長(zhǎng),龐冗雜的數(shù)據(jù)規(guī)模正預(yù)示著大數(shù)據(jù)時(shí)代的來(lái)臨,擺脫了傳統(tǒng)數(shù)據(jù)庫(kù)儲(chǔ)存、管理和分析的約束,大數(shù)據(jù)正朝著深度學(xué)習(xí)、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)過(guò)濾,分布式計(jì)算、推薦算法等體現(xiàn)其時(shí)效價(jià)值性的方向發(fā)展。面對(duì)海量數(shù)據(jù),如何快速挖掘,過(guò)濾分析、決策處理成為各大“互聯(lián)網(wǎng)+”公司轉(zhuǎn)型的關(guān)鍵,而基于Hadoop分布式存儲(chǔ)與計(jì)算機(jī)平臺(tái)的誕生正是為改善企業(yè)數(shù)據(jù)資源的高效運(yùn)用,提升品牌價(jià)值市場(chǎng)競(jìng)爭(zhēng)力而服務(wù)[1]。

        1 Hadoop集群的偽分布環(huán)境的架構(gòu)

        Hadoop分布式存儲(chǔ)與分布式計(jì)算環(huán)境,是基于JAVA語(yǔ)言開發(fā)的,需要部署在計(jì)算機(jī)集群中,因此可以首先在載有CentOS系統(tǒng)的master虛擬機(jī)器中,借助xshell和xftp工具完成主-虛兩機(jī)JAVA語(yǔ)言編程環(huán)境安裝。接著完成CentOS克隆,構(gòu)建三臺(tái)Hadoop基礎(chǔ)集群計(jì)算機(jī),三臺(tái)VM機(jī)之間實(shí)現(xiàn)SSH免密碼登錄,在master機(jī)器上修改Hadoop組件后,將Hadoop安裝目錄拷貝到兩個(gè)salve node節(jié)點(diǎn)上,修改$Hadoop Home/etc/hadoop目錄下的配置文件core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml內(nèi)容,完成配置,直至三個(gè)節(jié)點(diǎn)均安裝語(yǔ)言編程環(huán)境[1-2]。

        2 海量數(shù)據(jù)分析

        以電商網(wǎng)站為例,供應(yīng)商通過(guò)將企業(yè)商品和開放網(wǎng)絡(luò)彼此關(guān)聯(lián)為客戶提供了商用數(shù)據(jù)服務(wù), 運(yùn)用智能算法深度挖掘Web站點(diǎn)內(nèi)容和結(jié)構(gòu),構(gòu)建模型,運(yùn)用平臺(tái)推薦系統(tǒng),聚類高價(jià)值信息,規(guī)范關(guān)聯(lián)數(shù)據(jù)格式,形成個(gè)性化數(shù)據(jù)訂閱,提供精準(zhǔn)服務(wù),拓寬銷售渠道,提升平臺(tái)價(jià)值和品牌效應(yīng)。海量數(shù)據(jù)來(lái)源廣泛,包括電商平臺(tái)交易數(shù)據(jù),互聯(lián)網(wǎng)關(guān)聯(lián)數(shù)據(jù),傳感器數(shù)據(jù)等,數(shù)據(jù)類型包括非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù),異化半結(jié)構(gòu)數(shù)據(jù),但處理流程基本一致,主要有 “數(shù)據(jù)采集-數(shù)據(jù)分析-數(shù)據(jù)過(guò)濾-數(shù)據(jù)標(biāo)準(zhǔn)化-數(shù)據(jù)應(yīng)用”五個(gè)步驟,具體如圖1。

        面向Hadoop平臺(tái)能夠快速獲取豐富的信息資源,但不可避免的會(huì)遇到“信息過(guò)載”和“信息失效”問(wèn)題,及時(shí)過(guò)濾冗余數(shù)據(jù),篩選出對(duì)用戶有用的數(shù)據(jù),提供個(gè)性化和類似群體的信息推薦,識(shí)別潛在隱藏用戶,產(chǎn)生良好的推薦策略,引導(dǎo)用戶訪問(wèn)和消費(fèi),提升電商平臺(tái)公共服務(wù)能力,完善網(wǎng)站精準(zhǔn)數(shù)據(jù)評(píng)估[3-4]。圖2給出了海量數(shù)據(jù)服務(wù)著陸平臺(tái)的架設(shè)。

        3 基于Hadoop平臺(tái)的海量數(shù)據(jù)處理關(guān)鍵技術(shù)

        Hadoop兩大大數(shù)據(jù)核心技術(shù),其一MapReduce分布式存儲(chǔ)框架遵循主-從結(jié)構(gòu),主-從節(jié)點(diǎn)中的數(shù)據(jù)一般屬于同一個(gè)命名空間(namespace)即文件系統(tǒng)的目錄結(jié)構(gòu)。主節(jié)點(diǎn)是用戶操作的入口,負(fù)責(zé)接收操作的各種請(qǐng)求信息,維護(hù)命名空間;而從節(jié)點(diǎn)主要負(fù)責(zé)存儲(chǔ)數(shù)據(jù)。其二HDFS分布式計(jì)算框架,存儲(chǔ)在其中的文件會(huì)被分割成若干塊(Block),然后這些塊會(huì)復(fù)制到多個(gè)計(jì)算機(jī)節(jié)點(diǎn)中,計(jì)算框架內(nèi)部之間的通信基于TCP/IP協(xié)議,Hdfs文件在各存儲(chǔ)節(jié)點(diǎn)間讀和寫的流程如下圖3[5]。

        HDFS中的NameNode節(jié)點(diǎn)讀取從客戶端Client發(fā)送過(guò)來(lái)的路徑,將文件的元數(shù)據(jù)信息返回給請(qǐng)求客戶,Client端之后會(huì)根據(jù)這些信息找到對(duì)應(yīng)的DataNode獲取Block塊并在本地端整合數(shù)據(jù)還原文件內(nèi)容。

        而客戶端Client向HDFS寫數(shù)據(jù)時(shí),在獲得和NameNode節(jié)點(diǎn)通信確認(rèn)ACK信息后,接收文件Block的DataNode信息,按序?qū)lock傳遞給對(duì)應(yīng)的DataNode,DataNode-1和DataNode-2之間傳遞Block副本。

        4 小結(jié)

        海量數(shù)據(jù)信息量龐、冗、雜,為快速獲取關(guān)鍵數(shù)據(jù)、避免在分布式存儲(chǔ)和計(jì)算過(guò)程中出現(xiàn)數(shù)據(jù)稀疏、數(shù)據(jù)傾斜和數(shù)據(jù)失真,考慮通過(guò)加入正則表達(dá)式匹配防止數(shù)據(jù)堆棧溢出,清洗出有價(jià)值數(shù)據(jù),挖掘數(shù)據(jù)關(guān)聯(lián),引入推薦系統(tǒng),跨域提供精準(zhǔn)決策,豐富客戶需求,提升電商行業(yè)的數(shù)據(jù)資源競(jìng)爭(zhēng)力,從而拓寬行業(yè)服務(wù)平臺(tái)。

        【參考文獻(xiàn)】

        [1]張趁香.基于Hadoop平臺(tái)的海量數(shù)據(jù)分析和處理[J].數(shù)據(jù)庫(kù)與信息管理.2019,01:95-97.

        [2]申晉祥,鮑美英.基于Hadoop、平臺(tái)的優(yōu)化協(xié)同過(guò)濾推薦算法研究[J].軟件.2018,39(12):1-5.

        [3]孫輝,馬躍,楊海波.一種相似度改進(jìn)的用戶聚類系統(tǒng)過(guò)濾算法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(9):1967-1970.

        [4]王文賢,陳興蜀,王海舟,等.一種基于Solr的HBase海量數(shù)據(jù)二級(jí)索引方案[J].信息網(wǎng)絡(luò)安全.2017(8):39-44.

        [5]宋陽(yáng).高校大數(shù)據(jù)存儲(chǔ)方案探索[J].中小企業(yè)管理與科技.2018(11):82-83.

        猜你喜歡
        海量數(shù)據(jù)
        云存儲(chǔ)服務(wù)端海量數(shù)據(jù)安全存儲(chǔ)的加密解決方案
        基于HADOOP集群的數(shù)據(jù)采集和清洗
        軟件工程(2016年11期)2017-01-17 17:05:51
        商業(yè)銀行海量金融數(shù)據(jù)分析中數(shù)據(jù)分析技術(shù)的實(shí)踐探究
        海量數(shù)據(jù)庫(kù)的設(shè)計(jì)與優(yōu)化
        基于hadoop平臺(tái)海量數(shù)據(jù)的快速查詢與實(shí)現(xiàn)
        基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)研究
        MongoDB在氣象傳感器數(shù)據(jù)處理中的應(yīng)用
        軟件(2015年11期)2016-01-12 07:59:59
        一種基于HBase的交通旅行時(shí)間計(jì)算方法
        基于MapReduce的海量數(shù)據(jù)動(dòng)態(tài)裝箱算法研究
        基于遺傳算法的多中心海量數(shù)據(jù)布局研究
        国产亚洲欧美精品一区| 久久狠狠色噜噜狠狠狠狠97| 国产成人aaaaa级毛片| 国内精品一区视频在线播放| 人妻丰满少妇一二三区| 99在线视频这里只有精品伊人| 高清偷自拍亚洲精品三区| 狠狠躁夜夜躁无码中文字幕| caoporon国产超碰公开| 一区二区三区四区黄色av网站 | 久久国语露脸国产精品电影| 极品美女aⅴ在线观看| 日韩成人无码v清免费| 一区二区日本免费观看| 日日噜噜夜夜狠狠va视频v| 日韩精品无码av中文无码版| 欧美1区二区三区公司| 丝袜av乱码字幕三级人妻| 国产片精品av在线观看夜色| 少妇极品熟妇人妻无码| 人妻丝袜中文字幕久久 | 伊人大杳焦在线| 国产mv在线天堂mv免费观看| 亚洲一区二区情侣| 一区二区三区午夜视频在线| 亚洲av无码专区在线播放| 午夜三级网| 国产日本精品一区二区| 色婷婷五月综合激情中文字幕| 久久久久国产精品免费免费搜索 | 东北女人一级内射黄片| 女人扒开屁股爽桶30分钟| 精品国偷自产在线不卡短视频| 国产又大大紧一区二区三区| 成人亚洲一区二区三区在线| 国内精品视频一区二区三区| 一亚洲一区二区中文字幕| 人妻少妇哀求别拔出来| av香港经典三级级 在线| 日本岛国精品中文字幕| 国产一区二区三区色哟哟|