亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下數(shù)據(jù)預(yù)處理方法研究

        2020-02-18 01:31:36周黨生
        山東化工 2020年1期
        關(guān)鍵詞:原始數(shù)據(jù)數(shù)據(jù)挖掘預(yù)處理

        周黨生

        (青島科技大學(xué),山東 青島 266000)

        隨著人類的進(jìn)步社會(huì)的發(fā)展,信息和科學(xué)技術(shù)也飛速前進(jìn),大數(shù)據(jù)成長(zhǎng)勢(shì)頭愈發(fā)迅猛,各個(gè)行業(yè)也以極快的速度產(chǎn)生海量的且形式各異的數(shù)據(jù)信息。但是,從這些大量數(shù)據(jù)中提取出的有用的信息卻是相當(dāng)匱乏的,若沒有一個(gè)系統(tǒng)性的提取工具,那么提取有用信息的效率是相當(dāng)?shù)拖碌?。所以,各種數(shù)據(jù)挖掘工具隨著時(shí)代的需求應(yīng)運(yùn)而生。然而,隨著挖掘工具的實(shí)際應(yīng)用,人們發(fā)現(xiàn)這些數(shù)據(jù)是不能直接用來(lái)挖掘的,是非結(jié)構(gòu)性的,于是,數(shù)據(jù)的預(yù)處理成為了擋在大數(shù)據(jù)前進(jìn)路上的第一個(gè)關(guān)卡。在真實(shí)世界中,數(shù)據(jù)來(lái)源各式各樣質(zhì)量良莠不齊,所以原始數(shù)據(jù)一般是有缺陷的,不完整的,重復(fù)的,是極易受侵染的。這樣的數(shù)據(jù)處理起來(lái)不僅效率低下而且結(jié)果也不盡人意,這種情況下數(shù)據(jù)的預(yù)處理顯得尤為重要。一方面,數(shù)據(jù)預(yù)處理把原始數(shù)據(jù)規(guī)范化、條理化,最終整理成結(jié)構(gòu)化數(shù)據(jù),極大地節(jié)省了處理海量信息的時(shí)間;另一方面,數(shù)據(jù)預(yù)處理可以使得挖掘愈發(fā)準(zhǔn)確并且結(jié)果愈發(fā)真實(shí)有效。本文指出了大數(shù)據(jù)背景下處理原始數(shù)據(jù)時(shí)極易遇到的難題,并且針對(duì)這些難題得出了一些常規(guī)的數(shù)據(jù)預(yù)處理方法。在這些方法的應(yīng)用過程中,刪除多余數(shù)據(jù),撥正偏差數(shù)據(jù),填補(bǔ)不完整數(shù)據(jù),使得數(shù)據(jù)趨向結(jié)構(gòu)化且準(zhǔn)確性大幅提高,為下一步工作打下了基礎(chǔ),極大地節(jié)省了數(shù)據(jù)挖掘的成本。

        1 大數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理在整個(gè)大數(shù)據(jù)工作中占據(jù)極其關(guān)鍵的位置,在真實(shí)世界里,數(shù)據(jù)來(lái)源各式各樣質(zhì)量良莠不齊,所以原始數(shù)據(jù)一般是有缺陷的,不完整的,重復(fù)的,是極易受侵染的。這些數(shù)據(jù)完全不適用于直接進(jìn)行數(shù)據(jù)挖掘,所以為了得出更加準(zhǔn)確的結(jié)果,我們不得不將原始數(shù)據(jù)進(jìn)行預(yù)處理。從整個(gè)大數(shù)據(jù)的處理流程來(lái)看, 數(shù)據(jù)預(yù)處理技術(shù)的水平?jīng)Q定了數(shù)據(jù)的真實(shí)性、完整性,對(duì)后續(xù)的數(shù)據(jù)分析起到十分關(guān)鍵的作用[1]。

        數(shù)據(jù)清洗(Data Cleaning)的主要內(nèi)容就是按照一定的規(guī)則和標(biāo)準(zhǔn)把原始數(shù)據(jù)中存在的如數(shù)據(jù)缺失、奇異值和離群點(diǎn)等問題處理掉,也包括處理原始數(shù)據(jù)中留存的重復(fù)信息和噪聲干擾。

        數(shù)據(jù)集成(Data Integration),數(shù)據(jù)集成顧名思義就是按照一定的特征規(guī)則將數(shù)據(jù)有機(jī)地集中,將來(lái)源各異的現(xiàn)實(shí)世界的數(shù)據(jù)相互匹配和統(tǒng)一的過程。這一過程改善了系統(tǒng)的協(xié)作性和統(tǒng)一性,大大節(jié)省了準(zhǔn)備和分析數(shù)據(jù)所需的時(shí)間成本,提高了數(shù)據(jù)資源的利用率。這個(gè)過程的主要難點(diǎn)包括如何選擇數(shù)據(jù),如何解決數(shù)據(jù)不兼容,如何根據(jù)不同的理論和規(guī)則將數(shù)據(jù)統(tǒng)一起來(lái)。例如冗余問題,常用的冗余相關(guān)分析方法有皮爾遜積距系數(shù)、卡方檢驗(yàn)、數(shù)值屬性的協(xié)方差等。

        數(shù)據(jù)變換(Data Transformation)是大數(shù)據(jù)工作中的重要一環(huán),就是按照規(guī)則將數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其滿足一定的條件來(lái)適用于下一步的工作。是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換來(lái)減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、切換和投影等操作[2]。它的主要轉(zhuǎn)換形式:(1)數(shù)據(jù)光滑。即運(yùn)用分箱、聚類等進(jìn)行數(shù)據(jù)光滑。(2)數(shù)據(jù)聚集。即將數(shù)據(jù)進(jìn)行集中匯總。(3)數(shù)據(jù)概化。即用高一級(jí)的概念代替低一級(jí)的概念。(4)數(shù)據(jù)規(guī)范。把特征數(shù)據(jù)縮放,將原始數(shù)據(jù)映射到指定的區(qū)域中。(5)特征構(gòu)造。即構(gòu)造出新的特征并匯合到原本特征集中。(6)規(guī)范化。最小-最大規(guī)范化;零一均值規(guī)范化;小數(shù)定標(biāo)規(guī)范化。

        數(shù)據(jù)歸約(Data Reduction)主要有三個(gè)方面:(1)維歸約。利用主成分分析和小波變換將原始數(shù)據(jù)映射到較小的空間,常見算法有:LVF(Las Vegas filter)、MIFS(mutual informationfeature selection)、mRMR(minimum redundancy maxi-mum relevance)、Relief算法等。(2)樣本歸約。從原始數(shù)據(jù)中尋找出一個(gè)具有代表性的子集(估計(jì)量),使其能夠體現(xiàn)整個(gè)原始數(shù)據(jù)集的特征。(3)數(shù)據(jù)壓縮。若可以從處理后的數(shù)據(jù)中重構(gòu)出原始數(shù)據(jù)且不丟失信息,則稱之為無(wú)損的,反之,稱之為有損的。(4)數(shù)值壓縮。原始數(shù)據(jù)可以用較小或較短的數(shù)據(jù)來(lái)表示,也可以用數(shù)據(jù)模型來(lái)代替。(5)離散化。把數(shù)據(jù)離散化,用有限個(gè)區(qū)間數(shù)據(jù)代替原始數(shù)據(jù)。

        圖1 數(shù)據(jù)預(yù)處理的一般步驟

        2 典型問題和方法

        由于數(shù)據(jù)產(chǎn)生于真實(shí)世界里各個(gè)真正運(yùn)轉(zhuǎn)的系統(tǒng),所以原始數(shù)據(jù)有如下三個(gè)典型問題:

        (1)無(wú)序性。數(shù)據(jù)來(lái)源各異并且質(zhì)量良莠不齊,所以原始數(shù)據(jù)一般是無(wú)序雜亂的。原始數(shù)據(jù)都是來(lái)源于現(xiàn)實(shí)世界各個(gè)實(shí)際應(yīng)用的系統(tǒng),因?yàn)檫@些應(yīng)用系統(tǒng)并沒有統(tǒng)一的標(biāo)準(zhǔn)來(lái)要求原始數(shù)據(jù)如何定義,也沒有統(tǒng)一的數(shù)據(jù)表達(dá)形式,所以原始數(shù)據(jù)間存在無(wú)序雜亂的狀態(tài),且存在大量的無(wú)用誤導(dǎo)的數(shù)據(jù),無(wú)法拿來(lái)直接使用。

        (2)重復(fù)性。是指對(duì)于同一個(gè)客觀事物在數(shù)據(jù)庫(kù)中存在其兩個(gè)或兩個(gè)以上完全相同的物理描述。這是應(yīng)用系統(tǒng)實(shí)際使用過程中普遍存在的問題,幾乎所有應(yīng)用系統(tǒng)中都存在數(shù)據(jù)的重復(fù)和信息的冗余現(xiàn)象[3]。

        政工部門在企業(yè)中是一個(gè)重要部門,其對(duì)企業(yè)的發(fā)展起著重要作用。故需要對(duì)工作機(jī)制進(jìn)行不斷創(chuàng)新,優(yōu)化工作管理制度,建立適應(yīng)企業(yè)發(fā)展的管理機(jī)制??梢越梃b的建議為在制定企業(yè)管理制度時(shí),將政工工作人員的利益放在第一位,對(duì)表現(xiàn)優(yōu)秀的工作人員進(jìn)行加薪和升職,需要建立合理的獎(jiǎng)勵(lì)制度和懲罰制度,從而有效提高工作人員對(duì)工作的熱情和素質(zhì)水平。政工工作人員需要留意在工作中遇到的問題,及時(shí)處理出現(xiàn)問題。此外,應(yīng)該及時(shí)關(guān)注政工工作人員的政治思想,工作態(tài)度和工作人員對(duì)工作的反映情況,根據(jù)企業(yè)管理發(fā)展的具體目標(biāo)完成對(duì)政工人員的管理,只有真真正正的考慮政工人員的利益,對(duì)企的發(fā)展才會(huì)更有益。

        (3)缺失性。因?yàn)閷?shí)際應(yīng)用中的系統(tǒng)存在某些缺陷或是運(yùn)行不當(dāng),可能使得數(shù)據(jù)集的某些屬性值缺失和記錄錯(cuò)誤,甚關(guān)鍵數(shù)據(jù)的缺失導(dǎo)致整個(gè)數(shù)據(jù)集的價(jià)值大大降低,最后無(wú)法得出準(zhǔn)確的結(jié)果。原始數(shù)據(jù)的缺失信息和隨機(jī)信息極多,只有對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,處理重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)、隨機(jī)數(shù)據(jù)、不可用數(shù)據(jù)等原始數(shù)據(jù)存在的問題,下一步的數(shù)據(jù)挖掘工作才能更準(zhǔn)確地展開。因此,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘前的一個(gè)非常重要的數(shù)據(jù)準(zhǔn)備工作,是知識(shí)發(fā)現(xiàn)過程(knowledge discov-ery in database,KDD)的關(guān)鍵環(huán)節(jié)之一[4]。

        數(shù)據(jù)預(yù)處理對(duì)下一步的工作來(lái)說(shuō)是非常關(guān)鍵的,它直接影響最終的結(jié)果。針對(duì)"問題數(shù)據(jù)"比較典型的數(shù)據(jù)預(yù)處理方法:缺失值處理、異常值處理、重復(fù)值處理、去噪聲等。

        圖2 問題數(shù)據(jù)種類

        2.1 缺失值處理

        1)刪除。當(dāng)缺失值樣本對(duì)總體樣本的影響不明顯的時(shí)候可以通過刪除這種簡(jiǎn)單有效的方法來(lái)解決問題,但是這種方法的缺陷也比較明顯,若刪除的缺失值恰好是關(guān)鍵需要的數(shù)據(jù),則會(huì)直接影響到后續(xù)工作并且最終結(jié)果會(huì)產(chǎn)生較大偏移。

        2)人工填補(bǔ)。只有用戶自己最了解自己的數(shù)據(jù),所以通過人工填補(bǔ)的方法處理缺失值產(chǎn)生的數(shù)據(jù)偏離最小。但是,當(dāng)數(shù)據(jù)集規(guī)模很大并且缺失值問題較嚴(yán)重時(shí)會(huì)消耗大量的精力和時(shí)間,此情況下不建議使用。

        3)均值插補(bǔ)。數(shù)據(jù)集中的信息特征分為數(shù)據(jù)特征和非數(shù)據(jù)特征,如果數(shù)據(jù)集中的缺失值是數(shù)據(jù)特征,則根據(jù)此特征上其他對(duì)象的值的平均值來(lái)賦予該缺失的特征值;如果數(shù)據(jù)集中的缺失值是非數(shù)據(jù)特征,那就根據(jù)此特征值上其他對(duì)象的眾數(shù)來(lái)賦予該缺失的特征值。

        4)就近補(bǔ)齊。對(duì)于存在缺失值的特征,就近補(bǔ)齊是在所有數(shù)據(jù)集中找與之最相近的特征,然后用這個(gè)相近特征的值進(jìn)行填充。但是此方法中的“相近”這一概念沒有統(tǒng)一的標(biāo)準(zhǔn),有較強(qiáng)的主觀影響,可能造成較大的數(shù)據(jù)偏離。

        5)多重插補(bǔ)。主要有三步:①為每個(gè)缺失值都生成一套可以用來(lái)填補(bǔ)的值,產(chǎn)生若干完整數(shù)據(jù)集。②用對(duì)完整數(shù)據(jù)的統(tǒng)計(jì)分析方法對(duì)每個(gè)插補(bǔ)數(shù)據(jù)集合進(jìn)行統(tǒng)計(jì)分析。③根據(jù)分析結(jié)果進(jìn)行評(píng)析,選擇最優(yōu)的插補(bǔ)值。

        6)回歸。在完整數(shù)據(jù)集的前提下建立回歸模型,將已知的特征值帶入模型預(yù)測(cè)出未知的特征值,然后將此預(yù)測(cè)值填補(bǔ)缺失部分。

        7)極大似然估計(jì)。一般常見的缺失值填補(bǔ)算法包括EM最大期望值算法(expectation-maximization algorithm)、MI算法(multiple imputa-tion)和KNNi算法(k-nearest neighbor imputation)等。

        2.2 異常值判別和處理

        1)簡(jiǎn)單統(tǒng)計(jì)分析。例如對(duì)男性成人身高這個(gè)特征值進(jìn)行規(guī)范統(tǒng)計(jì):身高區(qū)間是[1.3:2.3],若樣本中的某個(gè)身高值不在這個(gè)區(qū)間內(nèi),則說(shuō)明這個(gè)身高值屬于異常值。

        2)3δ原則。根據(jù)正態(tài)分布定義可知P(|x-μ|>3δ)<=0.003,這種事件發(fā)生的概率不超過0.003,常規(guī)情況下不會(huì)發(fā)生,所以我們默認(rèn)當(dāng)樣本的距離的平均值大于3δ時(shí)該樣本為異常值。

        3)基于模型判別。根據(jù)完整數(shù)據(jù)建立一個(gè)模型,其中不能同數(shù)據(jù)模型擬合的值就是異常值。

        4)基于密度判別。當(dāng)一個(gè)點(diǎn)的局域密度與其近鄰的點(diǎn)的局域密度有顯著不同時(shí),我們可以判斷這個(gè)點(diǎn)是異常的。

        5)處理方法:刪除;按照缺失值的方法來(lái)處理;用平均值修正。

        2.3 噪聲處理

        1)分箱法。將預(yù)處理的數(shù)據(jù)分散到若干個(gè)箱中,考察數(shù)據(jù)近鄰的噪聲數(shù)據(jù)值來(lái)光滑有序數(shù)據(jù)值。分箱的具體方法有三種:用箱平均值光滑,用箱中所有值的平均值代替箱中的每一個(gè)值; 用中位數(shù)光滑,即用箱中所有值的中位數(shù)代替箱中的每一個(gè)值; 用箱邊界光滑,將箱中的最值視為兩邊界,箱中的值都被更近的邊界值所代替。

        2)聚類法。用聚類的方法找出并刪除孤立于簇之外的值,這些孤立點(diǎn)就是噪音。噪聲過濾的常用算法包括IPF算法(itera-tive partitioning filter)、EF算法(ensemble filter)[5]。

        2.4 重復(fù)值處理

        重復(fù)數(shù)據(jù)即兩次甚至多次出現(xiàn)的數(shù)據(jù),因?yàn)樵谡w樣本中占得比例大于其他類型的數(shù)據(jù)問題而更容易令結(jié)果出現(xiàn)傾向性,因此處理重復(fù)值的方法一般是降低重復(fù)值的權(quán)重,對(duì)于重復(fù)數(shù)量不多的重復(fù)值可以使用直接刪除這種簡(jiǎn)單方法。對(duì)那些可控的也就是數(shù)量不多的重復(fù)數(shù)據(jù),一般是將其帶入代碼中進(jìn)行匹配進(jìn)而刪除多余的不需要的數(shù)據(jù)。一種混合刪除機(jī)制(Hy-Dedup),Hy-Dedup能把離線刪除和在線刪除結(jié)合起來(lái),先使用在線刪除把重復(fù)數(shù)據(jù)刪除節(jié)約存儲(chǔ)空間,接著再使用離線刪除將未能在線刪除和刪除不徹底的重復(fù)數(shù)據(jù)刪除。

        3 總結(jié)

        隨著時(shí)間的推進(jìn),大數(shù)據(jù)發(fā)展日新月異,各種行業(yè)以及新興科技都會(huì)對(duì)數(shù)據(jù)預(yù)處理的發(fā)展產(chǎn)生巨大的推動(dòng)作用,經(jīng)過數(shù)據(jù)的預(yù)處理工作,刪除冗余數(shù)據(jù),填補(bǔ)不完整數(shù)據(jù),撥正偏差數(shù)據(jù),將數(shù)據(jù)清洗后再挑選出必要的數(shù)據(jù)進(jìn)行集成,達(dá)到數(shù)據(jù)格式一致、表達(dá)簡(jiǎn)練、存儲(chǔ)形式統(tǒng)一。本文主要闡述了數(shù)據(jù)預(yù)處理的幾種典型方法,實(shí)際上由于外部環(huán)境干擾因素太多太雜,同時(shí)又因?yàn)楦餍懈鳂I(yè)對(duì)數(shù)據(jù)的要求形式不同,造成原始數(shù)據(jù)極大的不同且存在各樣的問題。所以我們?cè)谶M(jìn)行數(shù)據(jù)預(yù)處理時(shí)應(yīng)該針對(duì)不同的數(shù)據(jù)采用不同的方法,科學(xué)地對(duì)數(shù)據(jù)對(duì)癥下藥,這樣才能把原始數(shù)據(jù)處理的適用于數(shù)據(jù)挖掘。

        猜你喜歡
        原始數(shù)據(jù)數(shù)據(jù)挖掘預(yù)處理
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
        汽車零部件(2017年4期)2017-07-12 17:05:53
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        无码少妇一区二区三区芒果| 亚洲三区二区一区视频| 亚洲国产欧美久久香综合| 久久久精品国产亚洲av网| 中文字幕一区二区三区在线乱码| 麻豆精品国产免费av影片| 男女视频一区二区三区在线观看| 中文字幕女同人妖熟女| 亚洲香蕉av一区二区三区| 国产精品一区二区三区专区| 国模gogo无码人体啪啪| 久久久精品一区aaa片| 久久精品视频在线看99| 国产精品女视频一区二区| 伊人亚洲综合网色AV另类| 538亚洲欧美国产日韩在线精品 | 中文字幕色偷偷人妻久久一区 | 欧美在线成人午夜网站| 蜜桃视频色版在线观看| 高清中文字幕一区二区三区| 校园春色日韩高清一区二区| 国产av一区二区三区性入口 | 精品国产高清一区二区广区| 日本肥老熟妇在线观看| 亚洲国产丝袜美女在线| 中文字幕人妻互换激情| 视频一区二区三区黄色| 久久婷婷五月综合色欧美 | 91九色中文视频在线观看| 亚洲av综合色区| 把插八插露脸对白内射| a级福利毛片| 人妻中文字幕av有码在线| 日韩美女人妻一区二区三区| 国产乱淫h侵犯在线观看| 中国一级黄色片久久久| 亚洲乱码中文字幕久久孕妇黑人| 男人扒开女人下面狂躁小视频| 欧美午夜精品久久久久久浪潮| 2020国产精品久久久久| 女同av免费在线播放|