亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop平臺(tái)的數(shù)據(jù)清洗研究

        2020-04-24 14:50:40范會(huì)麗彭寧任薇
        電腦知識(shí)與技術(shù) 2020年5期

        范會(huì)麗 彭寧 任薇

        摘要:各行各業(yè)數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng),導(dǎo)致數(shù)據(jù)倉(cāng)庫建設(shè)管理,數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)和總體數(shù)據(jù)質(zhì)量管理中涉及的重復(fù)數(shù)據(jù)、數(shù)據(jù)值缺失、錯(cuò)誤記錄、沒有意義的異常值等數(shù)據(jù)問題越來越棘手。這三個(gè)領(lǐng)域也是數(shù)據(jù)清洗的主要領(lǐng)域?;诋?dāng)前現(xiàn)狀,結(jié)合當(dāng)前各大企業(yè)數(shù)據(jù)處理的平臺(tái),利用Hadoop平臺(tái)中的相關(guān)組件對(duì)企業(yè)中的完全重復(fù)的數(shù)據(jù)和相似重復(fù)的數(shù)據(jù)進(jìn)行清洗研究。

        關(guān)鍵詞:Hadoop平臺(tái);數(shù)據(jù)清洗;完全重復(fù)數(shù)據(jù);相似重復(fù)數(shù)據(jù)

        中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)05-0027-02

        開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        數(shù)據(jù)清洗(Data Cleaning)旨在提高數(shù)據(jù)質(zhì)量,為后續(xù)數(shù)據(jù)的使用做準(zhǔn)備,主要應(yīng)用在數(shù)據(jù)倉(cāng)庫建設(shè)管理,數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)和總體數(shù)據(jù)質(zhì)量管理3個(gè)領(lǐng)域[1]。數(shù)據(jù)清洗主要是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,通過判斷識(shí)別,得到數(shù)據(jù)集含有的諸如錯(cuò)誤,無效,重復(fù)的數(shù)據(jù)等,再填補(bǔ)空值,最大可能地保證在數(shù)據(jù)真正使用和分析應(yīng)用前的正確性,從而提高數(shù)據(jù)決策的質(zhì)量?;ヂ?lián)網(wǎng)的普及給人類的生活帶來了極大的便利,但是人類產(chǎn)生的龐大數(shù)據(jù)也給互聯(lián)網(wǎng)的發(fā)展以及人類對(duì)互聯(lián)網(wǎng)的使用帶來了各種問題。以數(shù)據(jù)倉(cāng)庫為例,數(shù)據(jù)倉(cāng)庫中數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)的復(fù)雜度以及數(shù)據(jù)冗余度的上升等。為了解決類似問題,結(jié)合我國(guó)目前很多大型企業(yè)使用的大數(shù)據(jù)架構(gòu)都是Hadoop架構(gòu),因此本實(shí)驗(yàn)采用Hadoop架構(gòu)進(jìn)行完全重復(fù)數(shù)據(jù)和相似重復(fù)數(shù)據(jù)的處理,達(dá)到提高數(shù)據(jù)質(zhì)量。

        1 研究?jī)?nèi)容

        Hadoop是由Apache基金會(huì)開發(fā)的一個(gè)開源的分布式系統(tǒng)基礎(chǔ)架構(gòu),主要是對(duì)大文件(GB級(jí)別及以上)進(jìn)行存儲(chǔ)和管理[2]。它的主要功能是利用分布式架構(gòu)來存儲(chǔ)海量數(shù)據(jù)和實(shí)現(xiàn)分布式的計(jì)算。Hadoop架構(gòu)具有極好的可擴(kuò)展性和可用性[3]。Ha—doop的可擴(kuò)展性是由于其自身可以通過增加廉價(jià)的服務(wù)器個(gè)數(shù)從而增加整個(gè)集群的數(shù)據(jù)存儲(chǔ)量和提高集群的并行計(jì)算數(shù)據(jù)的速度。Hadoop的可用性是因?yàn)槠渥陨淼母北緳C(jī)制。在完全分布式的集群中,每個(gè)存儲(chǔ)數(shù)據(jù)的block(HDFS設(shè)計(jì)的存儲(chǔ)數(shù)據(jù)的基本單元是數(shù)據(jù)塊)的副本都有3個(gè)。當(dāng)其中一個(gè)副本丟失時(shí),集群中的DataNode利用心跳機(jī)制中NameNode發(fā)送的指令,通過管道進(jìn)行副本的復(fù)制,從而保證副本數(shù)量。Hadoop生態(tài)系統(tǒng)如下圖所示:

        HDFS(Hadoop Distributed File System):來源于《Coogle FileSystem》的一個(gè)高吞吐量的分布式文件系統(tǒng)。HDFS提供高吞吐率來訪問數(shù)據(jù),適合具有海量數(shù)據(jù)的應(yīng)用需求[4],HDFS的主要功能就是提供一個(gè)存儲(chǔ)系統(tǒng),用來存儲(chǔ)海量數(shù)據(jù),未經(jīng)處理的數(shù)據(jù)和經(jīng)過處理的數(shù)據(jù)。

        MapReduce:谷歌工程師開發(fā)的分布式計(jì)算模型。主要用于大規(guī)模數(shù)據(jù)的并行計(jì)算。MapReduce框架的節(jié)點(diǎn)由Job-Tracker和TaskTracker組成。JobTracker對(duì)人物進(jìn)行調(diào)度,管理多個(gè)TaskTracker;TaskTracker負(fù)責(zé)執(zhí)行任務(wù)。MapReduce處理數(shù)據(jù)是先經(jīng)過map處理,然后再經(jīng)過reduce處理。Map處理通過map函數(shù)自定義規(guī)則,將輸入值映射為key-value鍵值對(duì),再給reduce函數(shù)處理,reduce函數(shù)也根據(jù)需求自定義規(guī)則,將keyhash值相同的value進(jìn)行合并處理得到最終結(jié)果。本課題中,reduce階段處理輸出的結(jié)果再次存到HDFS中。

        ZooKeeper:分布式的協(xié)調(diào)服務(wù)框架,主要解決分布式系統(tǒng)中數(shù)據(jù)的一致性問題。數(shù)據(jù)的一致性主要由Zookeeper的ZAB協(xié)議和過半原則來保證。Zookeeper類似于一個(gè)動(dòng)物管理員,對(duì)hadoop系統(tǒng)中的各個(gè)組件進(jìn)行協(xié)調(diào)管理。

        Hive:分布式數(shù)據(jù)倉(cāng)庫工具,提供數(shù)據(jù)整理、特殊查詢和分析存儲(chǔ)數(shù)據(jù)等功能。采用類似soL的操作語言HQL,通過編譯器底層轉(zhuǎn)化為MapReduce任務(wù)執(zhí)行。擁有針對(duì)大型數(shù)據(jù)集的查詢功能[5]。

        本實(shí)驗(yàn)中,主要涉及Hadoop的核心模塊是HDFS和Ma-pReduce。HDFS提供大量數(shù)據(jù)存儲(chǔ)的地方,MapReduce提供分布式計(jì)算的程序設(shè)計(jì)需要的編程接口,編寫集群分布式并行程序,計(jì)算數(shù)據(jù)。

        實(shí)驗(yàn)過程中搭建的Hadoop集群如圖2所示。

        2 技術(shù)方案

        對(duì)于完全重復(fù)的數(shù)據(jù)的處理,實(shí)驗(yàn)中的Hadoop平臺(tái)是利用3臺(tái)CentOs系統(tǒng)的虛擬機(jī)搭建的一個(gè)小型Hadoop集群。其中涉及了Hadoop中的HDFS組件進(jìn)行大量數(shù)據(jù)的存儲(chǔ),使用MapReduce編寫程序進(jìn)行完全重復(fù)數(shù)據(jù)的清洗處理;然后將處理后的沒有完全重復(fù)數(shù)據(jù)但是包含相似重復(fù)數(shù)據(jù)的文件再次存儲(chǔ)到HDFS中,為后續(xù)算法的處理做準(zhǔn)備。

        對(duì)于相似重復(fù)數(shù)據(jù)的處理,采用的是Windows 7系統(tǒng),運(yùn)行內(nèi)存8GB,使用Anaconda和Pvcharm的python語言環(huán)境。本文改進(jìn)的是編輯距離算法。并對(duì)改進(jìn)前和改進(jìn)后的編輯距離算法的處理結(jié)果進(jìn)行對(duì)比及反復(fù)調(diào)優(yōu),使能夠得到最理想的效果。

        參考文獻(xiàn):

        [1]葉鷗,張璨,李軍懷,中文數(shù)據(jù)清洗研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(14):121-129.

        [2] http://hadoop.apache.org/

        [3]李元亨,鄒學(xué)玉.Hadoop綜述[Jl.電腦知識(shí)與技術(shù),2018(3):8-19.

        [4]李亞.智能電網(wǎng)大數(shù)據(jù)在線分析與決策系統(tǒng)研究[Dl.北京:華北電力大學(xué),2017.

        [5]曾新勵(lì).基于Hadoop平臺(tái)的分布式web日志分析系統(tǒng)的研究與實(shí)現(xiàn)[D].西南石油大學(xué),2017.

        【通聯(lián)編輯:唐一東】(上接第6頁)健康水平。與外部社交數(shù)據(jù)不同,來自傳感器的大數(shù)據(jù)公司可直接管理。

        4 小結(jié)

        大數(shù)據(jù)具有眾多特性,導(dǎo)致傳統(tǒng)的處理方式無法對(duì)其進(jìn)行分析,本文主要介紹了幾個(gè)有代表性大數(shù)據(jù)處理系統(tǒng),介紹了機(jī)器學(xué)習(xí)、可視化分析等大數(shù)據(jù)分析技術(shù),并對(duì)大數(shù)據(jù)在幾個(gè)行業(yè)中的應(yīng)用進(jìn)行了簡(jiǎn)單的介紹。

        參考文獻(xiàn):

        [1]程學(xué)旗,靳小龍,王元卓,等,大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(9):1889-1908.

        [2]何清,李寧,羅文娟,等,大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(4):327-336.

        [3]路晶,大數(shù)據(jù)可視分析研究綜述[J].科技展望,2015,25(16):20.

        [4]沈榮,張保文.大數(shù)據(jù)分析和大數(shù)據(jù)處理技術(shù)研究綜述[J].電腦知識(shí)與技術(shù),2019,15(11):13-16.

        [5]武永成.基于云計(jì)算的大數(shù)據(jù)處理與分析綜述[J].軟件導(dǎo)刊,2016,15(12):161-163.

        【通聯(lián)編輯:光文玲】

        收稿日期:2019 -11-15

        作者簡(jiǎn)介:范會(huì)麗(1993-),山西太原人,碩士,主要研究方向?yàn)檐浖こ膛c信息系統(tǒng)集成技術(shù);彭寧(1994-),女,河北唐山人,碩士,千要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)與信息安全技術(shù);任薇(1995-),河北宣化人,碩士,主要研究方向?yàn)樽匀徽Z言處理。

        国产真人无码作爱视频免费| 国产精品亚洲精品一区二区| 色天使久久综合网天天| 边啃奶头边躁狠狠躁| 亚洲A∨无码国产精品久久网| 国产三级视频一区二区| 日本av亚洲中文字幕| 亚洲无亚洲人成网站77777| 久热这里只有精品99国产| 中文乱码字幕在线中文乱码| 视频一区二区三区黄色| 中文字幕乱码一区av久久不卡| 国产精品深田咏美一区二区| 亚洲双色视频在线观看| 亚洲一区二区日韩精品在线| 亚洲精品一品区二品区三品区| 91精品一区国产高清在线gif| 亚洲精品国产熟女久久| 丰满少妇被猛进去高潮| a级毛片无码久久精品免费| 91老司机精品视频| 男女啦啦啦视频在线观看| 国产香蕉视频在线播放| 国产成人乱色伦区| 久久夜色精品国产亚洲噜噜| 日本二区三区在线免费| 最近中文字幕国语免费| 久久99国产乱子伦精品免费| 台湾佬中文偷拍亚洲综合| 国产精品一区二区av不卡| 午夜成人鲁丝片午夜精品| 日韩欧美亚洲中字幕在线播放| 久久精品国产亚洲av沈先生| a级国产乱理伦片| 国产黑色丝袜在线观看下| 按摩女内射少妇一二三区| 日韩精品中文一区二区三区在线| 欧美大屁股xxxxhd黑色| 免费 无码 国产精品| 亚洲一区二区三区av资源| 亚洲春色在线视频|