亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)

        2017-12-21 22:22:12張治斌劉威
        關(guān)鍵詞:數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘過程

        張治斌++劉威

        摘要:無論在數(shù)據(jù)分析還是數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理都處于重要的地位和作用,占據(jù)數(shù)據(jù)挖掘過程總工作量的60-80%,數(shù)據(jù)預(yù)處理過程決定著數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性和有效性,本文主要針對數(shù)據(jù)預(yù)處理的基本工作內(nèi)容進(jìn)行介紹。

        關(guān)鍵詞:數(shù)據(jù)預(yù)處理;數(shù)據(jù)挖掘;過程;數(shù)據(jù)清洗

        中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)10-0216-02

        現(xiàn)實世界的數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)量迅速膨脹,目前數(shù)據(jù)存儲的數(shù)量級已經(jīng)達(dá)到G-T-P的級別,由于用戶輸入、數(shù)據(jù)庫設(shè)計與界面設(shè)計等各種原因,在海量的數(shù)據(jù)中難免會出現(xiàn)各種不符合分析需求的噪聲數(shù)據(jù)、空缺值、缺失值;有些數(shù)據(jù)描述不完整;在進(jìn)行數(shù)據(jù)整合與合并時,不同數(shù)據(jù)源的統(tǒng)一屬性字段存在不一致性的情況,為了使數(shù)據(jù)挖掘的結(jié)果能夠可觀、真實反映歷史數(shù)據(jù)的情況,為用戶提供精確的指導(dǎo)建議,所以在數(shù)據(jù)挖掘之前進(jìn)行數(shù)據(jù)預(yù)處理工作,改善和提高數(shù)據(jù)質(zhì)量非常必要。

        1 數(shù)據(jù)挖掘過程介紹

        數(shù)據(jù)挖掘也叫做資料勘探或數(shù)據(jù)采礦,從宏觀上定義為從海量的各類數(shù)據(jù)中通過某種算法探索隱匿的信息和知識的過程,許多人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)的同義詞,知識發(fā)現(xiàn)的過程如圖1所示。

        在上述數(shù)據(jù)挖掘工作中的數(shù)據(jù)清理與集成、數(shù)據(jù)選取與變換過程就是數(shù)據(jù)預(yù)處理過程,所謂數(shù)據(jù)預(yù)處理指的是在進(jìn)行挖掘前對數(shù)據(jù)進(jìn)行一些必要的處理,其主要過程包括:數(shù)據(jù)選取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)加載的過程,這一過程也被稱作ETL,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的基礎(chǔ),通過研究發(fā)現(xiàn),數(shù)據(jù)預(yù)處理過程要花費(fèi)整個挖掘過程的60-80%左右的時間和精力。在挖掘前進(jìn)行有效的數(shù)據(jù)預(yù)處理工作,既可以節(jié)省大量時間和空間,更能確保數(shù)據(jù)挖掘結(jié)果得到更好的決策和預(yù)測作用。

        假設(shè)有這樣一個需求:某公司要對歷史銷售的數(shù)據(jù)進(jìn)行挖掘分析,以為后期的銷售提供指導(dǎo),我們指導(dǎo)銷售數(shù)據(jù)通常包括諸如商品名稱、產(chǎn)地、經(jīng)銷地、生產(chǎn)時間、銷售量與銷售時間等信息,這樣,我們通常首先選取能夠獲得以上數(shù)據(jù)的數(shù)據(jù)庫和數(shù)據(jù)倉庫內(nèi)容,進(jìn)一步挑選與挖掘任務(wù)相關(guān)的數(shù)據(jù)對象的屬性特征與記錄。但是,我們會發(fā)現(xiàn)在數(shù)據(jù)庫中有些數(shù)據(jù)存在一些錯誤和不正常與不一致的情況;有些記錄屬性值不是我們所關(guān)心的;有些數(shù)據(jù)屬性之間的值存在較大的偏差,那么在數(shù)據(jù)挖掘前就有必要將這些噪聲數(shù)據(jù)以及不一致的屬性進(jìn)行預(yù)先的處理。

        我們通常把數(shù)據(jù)中存在的錯誤或異常或偏離期望值的數(shù)據(jù)成為噪聲數(shù)據(jù);把有些在挖掘中需要或感興趣但其屬性卻沒有值的數(shù)據(jù)稱為不完整數(shù)據(jù);把數(shù)據(jù)庫中具有相同屬性意義,但表現(xiàn)字段屬性不同的情況稱為不一致的數(shù)據(jù),例如:同一部門的編號在數(shù)據(jù)庫中表現(xiàn)為不同的值,或者性別字段的記錄值表現(xiàn)形式不同等。

        2 數(shù)據(jù)預(yù)處理技術(shù)解析

        數(shù)據(jù)預(yù)處理技術(shù)主要由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等四部分工作組成。所謂數(shù)據(jù)清洗,是指將數(shù)據(jù)中存在的噪聲數(shù)據(jù)進(jìn)行消除,糾正數(shù)據(jù)庫中數(shù)據(jù)不一致的情況;數(shù)據(jù)集成比較容易理解與實現(xiàn),指的是將不同數(shù)據(jù)源的數(shù)據(jù)通過橫向合并或縱向追加等形式重新構(gòu)成一個新的數(shù)據(jù)集合;數(shù)據(jù)變換的目的是為了數(shù)據(jù)格式的統(tǒng)一而進(jìn)行的將一種格式的數(shù)據(jù)轉(zhuǎn)換為另一種規(guī)范統(tǒng)一并能夠易于分析處理的數(shù)據(jù)格式;最后,由于我們處理的是海量數(shù)據(jù),為了能夠提高挖掘效率,需要將與挖掘業(yè)務(wù)無關(guān)的冗余特征進(jìn)行刪除,再通過聚類等方式消除多余數(shù)據(jù),這個過程就是數(shù)據(jù)歸約。下面針對數(shù)據(jù)預(yù)處理的四個過程進(jìn)行詳細(xì)介紹。

        (1)數(shù)據(jù)清理:數(shù)據(jù)清理是完成格式的標(biāo)準(zhǔn)化、對空缺值進(jìn)行處理、清除重復(fù)的數(shù)據(jù)以及對異常數(shù)據(jù)進(jìn)行錯誤糾正和清除等操作;例如在分析一個學(xué)生家庭基本信息的數(shù)據(jù)時,發(fā)現(xiàn)有好多記錄中的屬性值為空:例如:“家庭年收入”屬性;還有一些屬性值為異常狀況,例如 “家庭年收入”屬性值為負(fù)數(shù);當(dāng)數(shù)據(jù)庫中出現(xiàn)空的屬性值或異常的屬性值時,如果對于挖掘結(jié)果影響不大,可以將其忽略;如果不完整數(shù)量不多,可以根據(jù)需要進(jìn)行手動填補(bǔ)空缺值或替換異常值;此外,如果對于數(shù)據(jù)量較大,對數(shù)據(jù)質(zhì)量要求較高的時候,也可以利用缺省值、可能出現(xiàn)的值、平均值進(jìn)行填補(bǔ)的方法。相對來說利用最可能出現(xiàn)的值填補(bǔ)遺漏值是一種比較普遍使用的方法,能夠最大程度上確保信息符合當(dāng)前數(shù)據(jù)所包含的特征,幫助預(yù)測所遺漏的數(shù)據(jù)。

        (2)數(shù)據(jù)集成:數(shù)據(jù)集成是將來自不同數(shù)據(jù)源的數(shù)據(jù)合并為統(tǒng)一一致的數(shù)據(jù)存儲中,這種數(shù)據(jù)存儲可以是數(shù)據(jù)庫或數(shù)據(jù)倉庫;數(shù)據(jù)集成主要包括:包含相同字段屬性的縱向追加和具有相關(guān)屬性疊加的橫向合并。在進(jìn)行數(shù)據(jù)橫向合并時,會出現(xiàn)同一對象的一些屬性字段在不同數(shù)據(jù)庫或數(shù)據(jù)倉庫中的名稱不同或?qū)傩灾挡煌?,這樣就容易造成合成后的數(shù)據(jù)出現(xiàn)不一致性或者數(shù)據(jù)的冗余性。例如:在學(xué)生成績的數(shù)據(jù)庫中,學(xué)生的學(xué)號字段表示為“Student_ID”,學(xué)生性別的屬性取值為(0,1),在另一個學(xué)生基本信息的數(shù)據(jù)庫中,學(xué)生的學(xué)號字段表示為“ID”,學(xué)生性別的屬性取值為(‘男,‘女);這樣兩個數(shù)據(jù)庫的信息在進(jìn)行集成的時候,就會出現(xiàn)性別字段的屬性取值不一致,學(xué)號字段的信息存在冗余的情況,這樣進(jìn)一步大大降低數(shù)據(jù)挖掘的效率,而且會誤導(dǎo)挖掘的過程,所以在數(shù)據(jù)集成過程的一項重要工作是消減數(shù)據(jù)的冗余。

        (3)數(shù)據(jù)歸約:數(shù)據(jù)歸約是針對原始數(shù)據(jù)集中地屬性和記錄,實現(xiàn)有效的數(shù)據(jù)采樣與對應(yīng)屬性選擇,進(jìn)一步降低數(shù)據(jù)規(guī)模,在數(shù)據(jù)歸約過程可以采用聚集、聚類以及將冗余特征值刪除等形式,達(dá)到既能最大限度的保持?jǐn)?shù)據(jù)的原有特征,又能夠有效的精簡數(shù)據(jù)量的目的。數(shù)據(jù)歸約的前提是保持原有數(shù)據(jù)的完整性和有效性的基礎(chǔ)上,在龐大的數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中抽取出具有特征性的精簡的數(shù)據(jù)集合。數(shù)據(jù)歸約主要通過數(shù)據(jù)立方體技術(shù)、維消減、數(shù)據(jù)壓縮、數(shù)據(jù)塊消減、離散化和概念層次生成等方法實現(xiàn)。

        (4)數(shù)據(jù)變換:數(shù)據(jù)變換是根據(jù)需要將數(shù)據(jù)壓縮到較小的區(qū)間中,也就是對數(shù)據(jù)進(jìn)行規(guī)格化處理,將數(shù)據(jù)壓縮到特定的范圍之內(nèi),例如【0,1】之間。例如對于學(xué)生基本信息中的成績屬性和家庭年收入屬性,由于家庭年收入屬性比成績屬性的值大得多,如果不進(jìn)行規(guī)范化處理,在進(jìn)行類似神經(jīng)網(wǎng)絡(luò)等挖掘方法處理時,家庭年收入的距離計算值會遠(yuǎn)遠(yuǎn)大于學(xué)生成績的距離計算值,這就將家庭年收入的屬性作用在整個數(shù)據(jù)對象的距離計算中被遠(yuǎn)遠(yuǎn)放大。

        以上所提到的幾種數(shù)據(jù)預(yù)處理方法,相互之間不僅關(guān)聯(lián)而且是獨(dú)立的,各個預(yù)處理方法的實施并沒有先后順序的嚴(yán)格制約,并且相互貫通,例如消除數(shù)據(jù)冗余的過程既可以看做是數(shù)據(jù)清洗過程的一項工作,也可以認(rèn)為是數(shù)據(jù)歸約工作中的一種方法。

        數(shù)據(jù)預(yù)處理無論在數(shù)據(jù)挖掘或數(shù)據(jù)分析過程中,都被視為是一項重要的工作,特別隨著海量數(shù)據(jù)的逐漸龐大,各類噪聲數(shù)據(jù)與不完整數(shù)據(jù)的層出不窮,每一項數(shù)據(jù)挖掘工作中都要對數(shù)據(jù)質(zhì)量進(jìn)行嚴(yán)格的預(yù)處理工作,以提高數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確與真實性,達(dá)到提高數(shù)據(jù)挖掘所獲模式知識質(zhì)量的目的。

        參考文獻(xiàn)

        [1]薛薇.基于SPSS Modeler的數(shù)據(jù)挖掘[M].中國人民大學(xué)出版社,2014.endprint

        猜你喜歡
        數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘過程
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        描寫具體 再現(xiàn)過程
        臨終是個怎樣的過程
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        芻議電力系統(tǒng)規(guī)劃設(shè)計在電力工程設(shè)計中的應(yīng)用
        中國市場(2016年41期)2016-11-28 05:30:48
        慢性乙肝癥狀與生物信息相關(guān)性的數(shù)據(jù)挖掘研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        在這個學(xué)習(xí)的過程中收獲最大的是哪些,為什么?
        Coco薇(2015年12期)2015-12-10 03:54:58
        中醫(yī)方劑數(shù)據(jù)庫文本挖掘數(shù)據(jù)預(yù)處理的嘗試
        圓滿的過程
        26uuu在线亚洲欧美| 国产精品久久久久久久y| 久久国产精品国产精品久久| 中美日韩在线一区黄色大片| 欧美又粗又长又爽做受| 色一情一区二| 亚洲国产日韩欧美高清片a| 免费人成黄页网站在线一区二区| 乱子轮熟睡1区| 国产zzjjzzjj视频全免费| 99re6久精品国产首页| 老岳肥屁熟女四五十路| 后入内射国产一区二区| 国产精品麻豆成人av电影艾秋 | 亚洲人成欧美中文字幕 | 国产超碰人人做人人爽av大片 | 少妇爆乳无码专区 | 欧美视频九九一区二区| 看大陆男女真人草逼视频| 多毛小伙内射老太婆| 亚洲日本在线电影| 亚洲国产一区二区三区在线视频| 女同在线视频一区二区| 日本边添边摸边做边爱喷水 | 亚洲av精品一区二区三区| 粗一硬一长一进一爽一a级| 日本亚洲一级中文字幕| 国产精品三区四区亚洲av| 欧洲熟妇色xxxx欧美老妇多毛 | 亚洲美女自拍偷拍视频| 免费人成网ww555kkk在线| 国产精品亚洲一区二区杨幂 | 亚洲国产丝袜久久久精品一区二区| 色avav色av爱avav亚洲色拍| 欧美在线日韩| 国产在线视频一区二区三区| 丰满人妻被两个按摩师| 八区精品色欲人妻综合网| 精品国产一区二区三区毛片| 国内永久福利在线视频图片| 人妻精品无码一区二区三区 |