亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運用

        2019-08-01 01:52:06劉政宇
        關(guān)鍵詞:大數(shù)據(jù)應(yīng)用

        劉政宇

        摘要:本文探討了數(shù)據(jù)清洗技術(shù),研究了大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運用,希望為研究數(shù)據(jù)清洗技術(shù)的專家和學(xué)者提供理論參考依據(jù)。

        關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)清洗技術(shù);應(yīng)用

        中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2019)04-0092-01

        0 引言

        大數(shù)據(jù)時代來臨,數(shù)據(jù)的類型多樣化,數(shù)據(jù)的數(shù)量增多,這給數(shù)據(jù)清洗帶來一定的問題,如何科學(xué)有效的對數(shù)據(jù)清洗,滿足現(xiàn)代企業(yè)發(fā)展需要。傳統(tǒng)的數(shù)據(jù)清洗方法已經(jīng)不適合現(xiàn)代社會發(fā)展需要,尤其大數(shù)據(jù)時代數(shù)據(jù)的多元化,必須更新現(xiàn)在數(shù)據(jù)清洗技術(shù),提高數(shù)據(jù)清洗的能力,滿足大數(shù)據(jù)時代數(shù)據(jù)清洗的需要。

        1 數(shù)據(jù)清洗技術(shù)概述

        數(shù)據(jù)在采集的過程中出現(xiàn)錯誤的數(shù)據(jù)是一種正?,F(xiàn)象,一旦數(shù)據(jù)在應(yīng)用與模型中已經(jīng)形成,需要在數(shù)據(jù)庫中對錯誤數(shù)據(jù)進(jìn)行處理,這時候需要發(fā)揮數(shù)據(jù)清洗技術(shù)的作用。為了提高數(shù)據(jù)質(zhì)量而剔除數(shù)據(jù)中錯誤記錄的一種技術(shù)手段,在實際應(yīng)用中通常與數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉庫技術(shù)、數(shù)據(jù)整合技術(shù)結(jié)合應(yīng)用。在具體數(shù)據(jù)清洗的過程中,根據(jù)清洗數(shù)據(jù)的特點,需要選擇合適的數(shù)據(jù)清洗方式,同時選用其它數(shù)據(jù)分析相應(yīng)的數(shù)據(jù)技術(shù),對錯誤的數(shù)據(jù)進(jìn)行科學(xué)有效的清洗,達(dá)到數(shù)據(jù)清洗的目的。

        數(shù)據(jù)清洗技術(shù)的基本原理為:在分析數(shù)據(jù)源特點的基礎(chǔ)上,找出數(shù)據(jù)質(zhì)量問題原因,確定清洗要求,建立起清洗模型,應(yīng)用清洗算法、清洗策略和清洗方案對應(yīng)到數(shù)據(jù)識別與處理中,最終清洗出滿足質(zhì)量要求的數(shù)據(jù)。在對數(shù)據(jù)進(jìn)行處理的過程中,數(shù)據(jù)清洗一般起到重要作用,其需要把錯誤的數(shù)據(jù)清洗,這樣對數(shù)據(jù)進(jìn)行分析才有一定的意義。數(shù)據(jù)清洗是數(shù)據(jù)分析、數(shù)據(jù)挖掘的前提,也是數(shù)據(jù)預(yù)處理的關(guān)鍵環(huán)節(jié),可保證數(shù)據(jù)質(zhì)量和數(shù)據(jù)分析的準(zhǔn)確性。數(shù)據(jù)處理是一個多元化因素,必須利用現(xiàn)有的技術(shù)進(jìn)行科學(xué)有效的進(jìn)行數(shù)據(jù)處理,在數(shù)據(jù)處理的過程中,數(shù)據(jù)清洗起到重要作用,數(shù)據(jù)分析前提必須數(shù)據(jù)正確,數(shù)據(jù)錯誤進(jìn)行分析沒有任何意義。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)清洗技術(shù)已經(jīng)被廣泛應(yīng)用于大健康、銀行、移動通信、交通等領(lǐng)域,在一定程度上保證了數(shù)據(jù)質(zhì)量,為大數(shù)據(jù)決策提供了可靠依據(jù)。數(shù)據(jù)清洗應(yīng)用的范圍廣,有數(shù)據(jù)的地方,基本都需要數(shù)據(jù)清洗,在互聯(lián)網(wǎng)+時代,數(shù)據(jù)采集的多元化,這是增加數(shù)據(jù)錯誤的概率,進(jìn)行數(shù)據(jù)清洗是非常必要的,也是非常重要的,是保障數(shù)據(jù)分析正確性起到?jīng)Q定性作用[1,2]。

        2 大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)及運用

        2.1 基于函數(shù)依賴的數(shù)據(jù)清洗技術(shù)

        (1)建立數(shù)據(jù)庫。數(shù)據(jù)庫建立是數(shù)據(jù)清洗的重要過程,對數(shù)據(jù)的分析起到重要作用,數(shù)據(jù)庫對數(shù)據(jù)進(jìn)行有效存儲,數(shù)據(jù)清洗過程中可以通過數(shù)據(jù)庫進(jìn)行數(shù)據(jù)清洗,對數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量,通過數(shù)據(jù)庫可以優(yōu)化數(shù)據(jù),在數(shù)據(jù)查找中起到重要作用,對原始數(shù)據(jù)庫進(jìn)行科學(xué)有效的添加,刪除,選擇有用數(shù)據(jù)進(jìn)行分析,對一些錯誤數(shù)據(jù)可以利用數(shù)據(jù)庫進(jìn)行刪除,提高了數(shù)據(jù)的利用效率,對提升數(shù)據(jù)清洗效果起到重要作用。(2)數(shù)據(jù)篩選。數(shù)據(jù)篩選是數(shù)據(jù)清洗,數(shù)據(jù)挖掘,數(shù)據(jù)分析中常用的手段,在海量的數(shù)據(jù)中,通過數(shù)據(jù)篩選對數(shù)據(jù)進(jìn)行分類,有助于進(jìn)行科學(xué)數(shù)據(jù)清洗,對提高數(shù)據(jù)清洗的效率,保證數(shù)據(jù)清洗的質(zhì)量都起到重要作用。數(shù)據(jù)篩選都需要利用數(shù)據(jù)庫中的字段進(jìn)行數(shù)據(jù)篩選,字段之間有一定的關(guān)聯(lián),通過函數(shù)之間讓字段產(chǎn)生一定聯(lián)系,確定數(shù)據(jù)清洗的關(guān)聯(lián)性,完整性,科學(xué)性,對提升數(shù)據(jù)分析起到促進(jìn)作用。(3)數(shù)據(jù)查找。數(shù)據(jù)查找是數(shù)據(jù)庫的基本功能,在數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)查找非常方便,提高了數(shù)據(jù)查找的效率。在數(shù)據(jù)清洗,數(shù)據(jù)挖掘、數(shù)據(jù)分析中都涉及數(shù)據(jù)查找,數(shù)據(jù)查找對數(shù)據(jù)清洗都起到重要作用,利用數(shù)據(jù)庫字段進(jìn)行查找,提升查找效率,對數(shù)據(jù)之間的實際應(yīng)用起到重要作用。(4)數(shù)據(jù)清洗。數(shù)據(jù)庫之間利用字段之間的聯(lián)系,對提高數(shù)據(jù)清洗的效率,完成數(shù)據(jù)清洗的能力都起到重要作用,在實際數(shù)據(jù)清洗的過程中,利用數(shù)據(jù)庫之間函數(shù)之間的關(guān)系,通過字段之間的關(guān)聯(lián),對數(shù)據(jù)清洗,修復(fù)、挖掘、分析等都起到重要作用,對提升數(shù)據(jù)清洗的效率起到重要作用[3]。

        2.2 相似重復(fù)數(shù)據(jù)清洗技術(shù)

        數(shù)據(jù)清洗技術(shù)在具體清洗數(shù)據(jù)的過程中,一般需要結(jié)合算法一起使用,對提高數(shù)據(jù)清洗的效率起到重要作用。基于排列合并算法是數(shù)據(jù)清洗技術(shù)中常用的算法,在數(shù)據(jù)清洗中起到重要作用?;谂帕泻喜⑺惴ㄉ婕皵?shù)據(jù)庫的知識,對字段等進(jìn)行實踐應(yīng)用,對提高數(shù)據(jù)篩選,數(shù)據(jù)查找等都起到重要作用,對數(shù)據(jù)清洗起到基本保障作用,數(shù)據(jù)清洗的效率提升,對數(shù)據(jù)分析起到重要作用,數(shù)據(jù)庫中字段之間存在一定的關(guān)聯(lián),對其中錯誤的數(shù)據(jù)記錄進(jìn)行科學(xué)有效的清洗起到重要作用,在數(shù)據(jù)庫中數(shù)據(jù)冗余現(xiàn)象是一種常態(tài),數(shù)據(jù)清洗重復(fù)記錄,對提高數(shù)據(jù)分析起到重要作用?;谂帕泻喜⑺惴ǖ臄?shù)據(jù)清洗技術(shù)對提高數(shù)據(jù)清洗效率起到重要作用,也是符合現(xiàn)代數(shù)據(jù)清洗技術(shù)發(fā)展的需要。

        2.3 不完整數(shù)據(jù)清洗技術(shù)

        不完整數(shù)據(jù)清洗技術(shù)主要針對數(shù)據(jù)庫字段是空值或錯誤字段,大數(shù)據(jù)時代,數(shù)據(jù)類型的多變性,對數(shù)據(jù)庫的數(shù)據(jù)采集,存儲都帶來了一定的挑戰(zhàn),在實際應(yīng)用過程中,其中在數(shù)據(jù)清洗過程中涉及一些常用數(shù)據(jù)庫函數(shù),比如求和、平均、最大、最小值等。不完整數(shù)據(jù)清洗技術(shù)對數(shù)據(jù)清洗的流程有一定轉(zhuǎn)變,但在實際清洗過程中根據(jù)需要科學(xué)選擇清洗方法結(jié)合其它數(shù)據(jù)分析技術(shù)進(jìn)行科學(xué)清洗。

        2.4 不一致數(shù)據(jù)修復(fù)技術(shù)

        大數(shù)據(jù)時代數(shù)據(jù)采集的多樣化,數(shù)據(jù)類型的多元化,這增加了數(shù)據(jù)錯誤的概率,同時為數(shù)據(jù)清洗增加了難度。在數(shù)據(jù)清洗的過程中存在數(shù)據(jù)類型等不一致情況,利用不一致數(shù)據(jù)修復(fù)技術(shù)不一定對數(shù)據(jù)清洗進(jìn)行完整,起到數(shù)據(jù)清洗的效果。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)源受多種因素的影響,違反完整性約束,造成大量不一致數(shù)據(jù)的產(chǎn)生。數(shù)據(jù)不一致的情況也是多樣化,必須對數(shù)據(jù)進(jìn)行篩選,對數(shù)據(jù)科學(xué)進(jìn)行歸類,為數(shù)據(jù)清洗進(jìn)行科學(xué)準(zhǔn)備。在數(shù)據(jù)清洗中,要利用不一致數(shù)據(jù)修復(fù)技術(shù)使不一致數(shù)據(jù)符合完整性約束,進(jìn)而保證數(shù)據(jù)質(zhì)量。但在數(shù)據(jù)實際清洗過程中,會出現(xiàn)多元化情況,這個數(shù)據(jù)清洗帶來一定的困難[4]。數(shù)據(jù)修復(fù)流程如:

        (1)檢測數(shù)據(jù)源中的數(shù)據(jù)格式,對數(shù)據(jù)格式進(jìn)行預(yù)處理;(2)檢測預(yù)處理數(shù)據(jù)后的數(shù)據(jù)是否符合完整性,如果不符合,則要修復(fù)數(shù)據(jù)。如果在數(shù)據(jù)修復(fù)之后依然存在著與數(shù)據(jù)完整性約束不一致的情況,則要再次修復(fù)數(shù)據(jù),直到數(shù)據(jù)符合要求;(3)數(shù)據(jù)修復(fù)完成后,將其還原成原格式,為數(shù)據(jù)錄入系統(tǒng)打下基礎(chǔ)。數(shù)據(jù)清洗是數(shù)據(jù)分析的重要過程,需要把一些有問題的數(shù)據(jù)清洗,提高數(shù)據(jù)分析的準(zhǔn)確性,也促使數(shù)據(jù)分析有意義,對促進(jìn)其它行業(yè)的發(fā)展起到重要作用。

        3 結(jié)語

        總之,數(shù)據(jù)清洗是數(shù)據(jù)分析中的重要環(huán)節(jié),在大數(shù)據(jù)時代,傳統(tǒng)的數(shù)據(jù)清洗方法已經(jīng)不適合現(xiàn)代數(shù)據(jù)分析的要求,必須根據(jù)數(shù)據(jù)的轉(zhuǎn)變,結(jié)合數(shù)據(jù)挖掘等知識進(jìn)行數(shù)據(jù)清洗,提高數(shù)據(jù)清洗的效果,滿足大數(shù)據(jù)時代企業(yè)對數(shù)據(jù)清洗的要求。

        參考文獻(xiàn)

        [1] 鄧線平.大數(shù)據(jù)清洗的方法論考察[J].江南論壇,2018(3):31-32.

        [2] 葉鷗,張璟,李軍懷.中文數(shù)據(jù)清洗研究綜述[J].計算機(jī)工程與應(yīng)用,2012(14):121-129.

        [3] 譚暉,廖振松,周小翠,賀凡.大數(shù)據(jù)的數(shù)據(jù)清洗方法研究[J].信息通信,2017(01):238-239.

        [4] 王志剛,毛亞瓊,徐越,梁永春.生態(tài)環(huán)境監(jiān)測的數(shù)據(jù)清洗研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019(1):94-95.

        猜你喜歡
        大數(shù)據(jù)應(yīng)用
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        多媒體技術(shù)在小學(xué)語文教學(xué)中的應(yīng)用研究
        考試周刊(2016年76期)2016-10-09 08:45:44
        分析膜技術(shù)及其在電廠水處理中的應(yīng)用
        科技視界(2016年20期)2016-09-29 14:22:00
        GM(1,1)白化微分優(yōu)化方程預(yù)測模型建模過程應(yīng)用分析
        科技視界(2016年20期)2016-09-29 12:03:12
        煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
        科技視界(2016年20期)2016-09-29 11:47:01
        氣體分離提純應(yīng)用變壓吸附技術(shù)的分析
        科技視界(2016年20期)2016-09-29 11:02:20
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        會計與統(tǒng)計的比較研究
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        人妻少妇久久久久久97人妻 | 日本av一区二区播放| 中文字幕一区二区三区综合网| 成人女同av在线观看网站| 国产av无码专区亚洲av中文| 日韩手机在线免费视频| 在线观看视频日本一区二区三区 | 久久久久久久极品内射| 人妻aⅴ无码一区二区三区| 午夜无码无遮挡在线视频| 亚洲啪啪色婷婷一区二区| 人妻丰满熟av无码区hd| 欧美xxxx黑人又粗又长精品| 美女窝人体色www网站| 丁香婷婷六月综合缴清| 久久久久亚洲av无码专区喷水| 成人做爰69片免费看网站| 无码人妻丰满熟妇区免费| 日本美女在线一区二区| 国产青榴视频在线观看| 国产精品多人P群无码| 日本在线中文字幕一区二区| 亚洲成人免费av影院| 中文字幕久久精品一二三区| 久久久久久久妓女精品免费影院 | 91精品啪在线观看国产色| 亚洲国产精品无码一线岛国| 国产丝袜视频一区二区三区| 日本视频一区二区三区免费观看| 99伊人久久精品亚洲午夜| 无码av不卡一区二区三区| 日本动态120秒免费| 激情视频在线观看国产中文| 免费人成视频网站网址| 一本一道久久a久久精品综合| 女人的天堂av免费看| 人妻有码av中文幕久久| 国产三区在线成人av| 国产一级片毛片| 自拍情爱视频在线观看| 牛牛在线视频|