亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究

        2015-08-06 11:56:18
        關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)信息

        胡 秀

        (荊楚理工學(xué)院 計(jì)算機(jī)工程學(xué)院,湖北 荊門(mén) 448000)

        1 引言

        隨著科學(xué)技術(shù)不斷發(fā)展,計(jì)算機(jī)信息技術(shù)在各個(gè)領(lǐng)域中得到了廣泛應(yīng)用,尤其是在原材料采購(gòu)、金融、通信等方面,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理等技術(shù)更是被各個(gè)企業(yè)用來(lái)記錄企業(yè)運(yùn)營(yíng)過(guò)程中各種信息數(shù)據(jù)的記錄和處理,以方便日后的企業(yè)財(cái)務(wù)管理和信息核對(duì)等操作.隨著時(shí)間的推移,各個(gè)領(lǐng)域的不同企業(yè)的數(shù)據(jù)信息存儲(chǔ)量越來(lái)越大,過(guò)量信息的處理是各個(gè)信息處理行業(yè)不得不面對(duì)的問(wèn)題.同時(shí)由于這些信息對(duì)于日后用戶信息分類、信息推送、企業(yè)的決策等方面起著非常重要的作用,不可能人為地刪減信息來(lái)減少數(shù)據(jù)處理工作量,所以如何從爆炸式的數(shù)據(jù)信息中及時(shí)地提取有用的數(shù)據(jù)進(jìn)而為企業(yè)的各種信息分類和決策提供合理、科學(xué)的數(shù)據(jù)決策依據(jù),已經(jīng)成為了我們當(dāng)前面臨的亟需解決的重要課題.為了能夠使海量數(shù)據(jù)成為寶貴的資源,必須采取數(shù)據(jù)挖掘技術(shù)手段,結(jié)合相關(guān)的業(yè)務(wù)決策和企業(yè)戰(zhàn)略發(fā)展計(jì)劃,才能使企業(yè)在經(jīng)濟(jì)全球化的浪潮中在競(jìng)爭(zhēng)日益激烈的環(huán)境下奪得先機(jī)而立于不敗之地.

        2 數(shù)據(jù)挖掘及其過(guò)程介紹

        數(shù)據(jù)挖掘的英文名稱為Data Mining(DM),是從企業(yè)的大型關(guān)系型數(shù)據(jù)庫(kù)中或數(shù)據(jù)倉(cāng)庫(kù)中提取一些人們感興趣的潛在有用的信息數(shù)據(jù)處理過(guò)程,是一門(mén)從大型關(guān)系型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的預(yù)測(cè)性信息的新技術(shù).

        圖1 數(shù)據(jù)挖掘邏輯結(jié)構(gòu)示意圖

        數(shù)據(jù)挖掘的數(shù)據(jù)來(lái)源是數(shù)據(jù)挖掘技術(shù)處理的大數(shù)據(jù),常見(jiàn)數(shù)據(jù)挖掘的數(shù)據(jù)來(lái)源于有關(guān)系型數(shù)據(jù)庫(kù)、事務(wù)型數(shù)據(jù)庫(kù)等,然后經(jīng)過(guò)一定的清理和集成的過(guò)程以數(shù)據(jù)倉(cāng)庫(kù)的形式存儲(chǔ)起來(lái),為數(shù)據(jù)挖掘提供數(shù)據(jù)源.數(shù)據(jù)挖掘的邏輯過(guò)程是利用人工智能的、機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘技術(shù)對(duì)源數(shù)據(jù)進(jìn)行數(shù)據(jù)處理并提取對(duì)企業(yè)決策有用的數(shù)據(jù)過(guò)程.數(shù)據(jù)挖掘的過(guò)程是一個(gè)完整的系統(tǒng),是結(jié)合了多項(xiàng)技術(shù)完整的一個(gè)整體.從數(shù)據(jù)源開(kāi)始,根據(jù)數(shù)據(jù)的挖掘?qū)τ诖髷?shù)據(jù)處理的邏輯過(guò)程大致可以分為以下:目標(biāo)數(shù)據(jù)樣本的準(zhǔn)備、數(shù)據(jù)挖掘過(guò)程以及挖掘結(jié)果分為三級(jí),包含多個(gè)處理步驟,如圖1.所示,為數(shù)據(jù)挖掘的邏輯過(guò)程結(jié)構(gòu)示意圖.

        由圖1可知,整個(gè)數(shù)據(jù)挖掘的過(guò)程包括從最原始的數(shù)據(jù)開(kāi)始數(shù)據(jù)選取的過(guò)程,這里的原始數(shù)據(jù)一般指的是存在企業(yè)各種信息管理數(shù)據(jù)庫(kù)中的海量數(shù)據(jù),是雜亂無(wú)章的、不能以專業(yè)的良好的形式展現(xiàn)出來(lái)的原始數(shù)據(jù).通數(shù)據(jù)選取的過(guò)程,主要是選擇能夠參與數(shù)據(jù)挖掘過(guò)程的數(shù)據(jù),從而生成目標(biāo)數(shù)據(jù).得到目標(biāo)數(shù)據(jù)之后,就需要對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理的過(guò)程,囊括了數(shù)據(jù)清洗(Data Cleaning)、數(shù)據(jù)變換(Data Transformation)、數(shù)據(jù)集成(Data Integration)、數(shù)據(jù)簡(jiǎn)化(Data Reduction)等數(shù)據(jù)處理過(guò)程,主要包括了消除噪聲數(shù)據(jù)、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、按成數(shù)據(jù)類型轉(zhuǎn)換等數(shù)據(jù)操作.得到預(yù)處理數(shù)據(jù)之后,就可以利用數(shù)據(jù)挖掘的技術(shù),對(duì)這些數(shù)據(jù)進(jìn)行智能挖掘和分類的過(guò)程,主要是基于某種思想,設(shè)計(jì)相應(yīng)的算法,最后通過(guò)對(duì)預(yù)處理之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘算法的處理,最終是生成而分類的數(shù)據(jù).當(dāng)然,這時(shí)數(shù)據(jù)挖掘的過(guò)程并沒(méi)有結(jié)束,這些數(shù)據(jù)只是以某種數(shù)據(jù)挖掘的思想進(jìn)行分類存儲(chǔ),并沒(méi)有以具有現(xiàn)實(shí)意義的形式展現(xiàn)出來(lái),所以此時(shí)還需要開(kāi)發(fā)人員,基于自己的業(yè)務(wù)邏輯和需求,開(kāi)發(fā)相應(yīng)的分析或評(píng)估功能,對(duì)數(shù)據(jù)挖掘之后的數(shù)據(jù)進(jìn)行形象顯示,從而形成對(duì)企業(yè)有用的知識(shí).

        3 數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過(guò)程中必不可少的一部分,進(jìn)行數(shù)據(jù)預(yù)處理過(guò)程的主要原因是因?yàn)閺脑紨?shù)據(jù)選取的目標(biāo)數(shù)據(jù),是以原有的數(shù)據(jù)庫(kù)初始定義的格式和結(jié)構(gòu)進(jìn)行存儲(chǔ)的數(shù)據(jù),存在很多空白數(shù)據(jù)、重復(fù)數(shù)據(jù)、復(fù)雜數(shù)據(jù)、不可用數(shù)據(jù)等,這些數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)非常不適用,而且會(huì)增加數(shù)據(jù)挖掘的復(fù)雜度,所以需要數(shù)據(jù)預(yù)處理的過(guò)程來(lái)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,從而生成預(yù)處理之后的數(shù)據(jù).由圖1.可以看出,數(shù)據(jù)預(yù)處理的過(guò)程對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)是非常重要的,是為后期數(shù)據(jù)挖掘過(guò)程奠定堅(jiān)實(shí)基礎(chǔ)的過(guò)程.常見(jiàn)的數(shù)據(jù)預(yù)處理的過(guò)程包括,數(shù)據(jù)清洗(Data Cleaning)、數(shù)據(jù)變換(Data Transformation)、數(shù)據(jù)集成(Data Integration)、數(shù)據(jù)簡(jiǎn)化(Data Reduction)等內(nèi)容.其中數(shù)據(jù)清洗(Data Cleaning)的主要操作就是在根據(jù)一定的原則和規(guī)定對(duì)目標(biāo)數(shù)據(jù)樣本進(jìn)行消除無(wú)關(guān)數(shù)據(jù)或者噪聲數(shù)據(jù)的操作,包括處理數(shù)據(jù)樣本內(nèi)的重復(fù)數(shù)據(jù)以及缺省數(shù)據(jù)等.數(shù)據(jù)變換(Data Transformation)的操作主要是對(duì)處理后的數(shù)據(jù)進(jìn)行降維處理,從而消除原始特征力度無(wú)效屬性,找到真正有用的特征,以方便后期數(shù)據(jù)挖掘的處理和計(jì)算.數(shù)據(jù)集成(Data Integration)的操作主要是合并目標(biāo)數(shù)據(jù)樣本內(nèi)存在的異構(gòu)數(shù)據(jù),主要包括數(shù)據(jù)的選擇、不同數(shù)據(jù)庫(kù)文件之間的數(shù)據(jù)沖突以及不一致等問(wèn)題的處理操作.數(shù)據(jù)簡(jiǎn)化(Data Reduction)的過(guò)程是在挖掘目標(biāo)的有用特征以及對(duì)數(shù)據(jù)自身內(nèi)容理解的基礎(chǔ)上,盡量保持目標(biāo)數(shù)據(jù)樣本原有的數(shù)據(jù)特性的基礎(chǔ)上,最大限度地對(duì)目標(biāo)數(shù)據(jù)樣本進(jìn)行精簡(jiǎn)處理的過(guò)程,主要包括數(shù)據(jù)樣本的參考屬性選擇以及數(shù)據(jù)抽樣的數(shù)據(jù)處理.

        3.1 數(shù)據(jù)預(yù)處理主要方法

        數(shù)據(jù)預(yù)處理的主要方法是填充目標(biāo)數(shù)據(jù)缺失值、消弱噪聲數(shù)據(jù)、數(shù)據(jù)集成等.

        在我們?cè)O(shè)計(jì)信息管理系統(tǒng)伊始,會(huì)考慮到各種各樣的問(wèn)題,所以在設(shè)計(jì)數(shù)據(jù)存儲(chǔ)表時(shí)會(huì)牽涉到各方面的信息,而在實(shí)際的應(yīng)用過(guò)程中,之前設(shè)計(jì)的數(shù)據(jù)表的內(nèi)容有很多時(shí)候并未有實(shí)際的數(shù)據(jù),而是使用了缺失值存儲(chǔ),如果這些數(shù)據(jù)作為數(shù)據(jù)挖掘處理,會(huì)帶來(lái)諸多不便,所以對(duì)于這些缺失值的處理,可以直接使用人工填寫(xiě)的方法來(lái)彌補(bǔ)缺失值,或者用該字段的所有屬性值的均值,其他同類的屬性值,利用回歸或貝葉形式化的推理工具得出的最有可能值或最鄰近的值的來(lái)代替,從而對(duì)缺失值進(jìn)行填充彌補(bǔ),形成完成的數(shù)據(jù).

        此外,在目標(biāo)數(shù)據(jù)中,統(tǒng)一類的屬性值可能有某些偏離正常數(shù)據(jù),這些數(shù)據(jù)我們稱之為噪聲數(shù)據(jù),對(duì)于噪聲數(shù)據(jù)的數(shù)據(jù)預(yù)處理也需要專門(mén)的方法或技術(shù)來(lái)對(duì)其進(jìn)行噪聲消除.常見(jiàn)的方法有分箱法,即對(duì)某一個(gè)區(qū)域內(nèi)的近鄰數(shù)據(jù)進(jìn)行觀察,從而形成局部噪聲消除;回歸法則是利用回歸函數(shù)找出某兩個(gè)屬性值的回歸線,通過(guò)一個(gè)屬性來(lái)對(duì)另外一個(gè)屬性進(jìn)行預(yù)測(cè);中心點(diǎn)距離法就是計(jì)算目標(biāo)數(shù)據(jù)的該屬性值的平均值,然后計(jì)算所有數(shù)據(jù)對(duì)象與中心點(diǎn)的歐氏距離,并對(duì)其進(jìn)行排序,而后根據(jù)數(shù)據(jù)性質(zhì)和背景知識(shí)確定一個(gè)距離閾值,而與中心點(diǎn)距離大于該閾值的數(shù)據(jù)對(duì)象則為孤立點(diǎn).

        在我們?cè)O(shè)計(jì)信息系統(tǒng)數(shù)據(jù)表時(shí),各個(gè)表格之間需要存在一些冗余來(lái)提高各個(gè)表之間的關(guān)聯(lián)性,方便信息系統(tǒng)的數(shù)據(jù)表的關(guān)聯(lián)查詢.這也就導(dǎo)致了在得到的目標(biāo)數(shù)據(jù)中,可能是因?yàn)閿?shù)據(jù)信息的相同或者業(yè)務(wù)邏輯數(shù)據(jù)信息的類似,會(huì)有一部分的數(shù)據(jù)信息冗余,這些冗余對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)也是沒(méi)有必要的,或者最后需要數(shù)據(jù)挖掘的對(duì)象是來(lái)自不通數(shù)據(jù)庫(kù)內(nèi)容的信息,所以要通過(guò)數(shù)據(jù)集成的方法來(lái)對(duì)冗余數(shù)據(jù)或者不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)進(jìn)行集成.在使用數(shù)據(jù)集成的方法來(lái)對(duì)數(shù)據(jù)信息進(jìn)行預(yù)處理時(shí),需要考慮到以下問(wèn)題,第一就是集成的模式與原數(shù)據(jù)對(duì)象之間的匹配度的問(wèn)題,現(xiàn)實(shí)生活中的很多數(shù)據(jù)存儲(chǔ)的形式多種多樣,在數(shù)據(jù)庫(kù)存儲(chǔ)的格式、類型、形式也不盡相同,而統(tǒng)一業(yè)務(wù)數(shù)據(jù)在不同的數(shù)據(jù)庫(kù)之間存儲(chǔ)后,能否最終以一種統(tǒng)一的數(shù)據(jù)格式來(lái)存儲(chǔ);第二個(gè)問(wèn)題就是不同屬性之間的冗余度的問(wèn)題,不同的屬性值之間是否冗余,是否需要?jiǎng)h除某個(gè)屬性值來(lái)使最終得到的數(shù)據(jù)最大化精簡(jiǎn).關(guān)于不同屬性之間的相關(guān)度,可以通過(guò)專門(mén)的公式進(jìn)行計(jì)算,假如判斷A屬性和B屬性兩者之間是否是相互冗余的,可以通過(guò)以下公式來(lái)計(jì)算.

        其中,N為A或者B屬性值的個(gè)數(shù),ai或bi為A,B屬性的各個(gè)屬性值,A軍,B軍為 A,B屬性的平均值,σA和 σB分別為兩個(gè)屬性的標(biāo)準(zhǔn)差,屬性的叉積的和.根據(jù)上述公式對(duì)A,B兩種屬性進(jìn)行判斷,如果rA,B的值大于0,則說(shuō)明二個(gè)屬性是正相關(guān),而且該值越大,這說(shuō)明相關(guān)性越強(qiáng),也就說(shuō)明A,B二者之間存在數(shù)據(jù)冗余,可以刪除其中一個(gè)屬性.

        3.2 數(shù)據(jù)預(yù)處理過(guò)程

        數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的一個(gè)前期過(guò)程,是一個(gè)完整的數(shù)據(jù)操作階段,上述的數(shù)據(jù)預(yù)處理的操作步驟和預(yù)處理方法都是在數(shù)據(jù)預(yù)處理過(guò)程中應(yīng)用到的.在整個(gè)數(shù)據(jù)預(yù)處理的過(guò)程中,首先需要得到目標(biāo)數(shù)據(jù),然后利用數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)簡(jiǎn)化等數(shù)據(jù)挖掘的操作,利用填充缺失值、弱化噪聲數(shù)據(jù)、數(shù)據(jù)集成等數(shù)據(jù)預(yù)處理方法,來(lái)完成數(shù)據(jù)預(yù)處理的過(guò)程.整個(gè)過(guò)程的實(shí)施,可以通過(guò)人工檢查的方式來(lái)實(shí)現(xiàn),也可以通過(guò)編寫(xiě)專門(mén)的數(shù)據(jù)預(yù)處理軟件來(lái)實(shí)現(xiàn),或針對(duì)某個(gè)特定區(qū)域或接近某一類應(yīng)用于的數(shù)據(jù)預(yù)處理問(wèn)題等來(lái)實(shí)現(xiàn)數(shù)據(jù)預(yù)處理的前期操作.然后要遵循某種模式或者基于某種統(tǒng)計(jì)方法、識(shí)別方法等發(fā)現(xiàn)目標(biāo)數(shù)據(jù)中的異常數(shù)據(jù),同時(shí)對(duì)這些異常數(shù)據(jù)進(jìn)行處理,例如通過(guò)校驗(yàn)的方法來(lái)識(shí)別元素的一致性以及內(nèi)容上的錯(cuò)誤,通過(guò)觀察記錄來(lái)找出數(shù)據(jù)中的重復(fù)或異常的數(shù)據(jù)等.最后要對(duì)這些數(shù)據(jù)進(jìn)行記錄,并以檔案化的形式存儲(chǔ)起來(lái),從而使用戶對(duì)數(shù)據(jù)有更加深刻的認(rèn)識(shí).

        4 總結(jié)

        數(shù)據(jù)挖掘的過(guò)程是一個(gè)復(fù)雜的過(guò)程,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中對(duì)目標(biāo)數(shù)據(jù)進(jìn)行預(yù)先處理的過(guò)程,為后期的數(shù)據(jù)挖掘過(guò)程奠定基礎(chǔ).主要的數(shù)據(jù)預(yù)處理操作包括數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)簡(jiǎn)化等,并通過(guò)填充缺失值、弱化噪聲數(shù)據(jù)、數(shù)據(jù)集成等技術(shù)并給予專門(mén)的數(shù)據(jù)預(yù)處理的流程來(lái)實(shí)現(xiàn)數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理的過(guò)程.

        〔1〕白鳳偉.數(shù)據(jù)預(yù)處理系統(tǒng)的幾個(gè)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].北京交通大學(xué),2012.

        〔2〕羅錦坤.數(shù)據(jù)預(yù)處理關(guān)鍵技術(shù)應(yīng)用研究[J].福建電腦,2014.

        〔3〕解二虎.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理關(guān)鍵技術(shù)研究[J].科技通報(bào),2013(12).

        猜你喜歡
        數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)信息
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        展會(huì)信息
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        青青草视频免费观看| 蜜桃视频第一区免费观看| 午夜天堂av天堂久久久| 国产精品一区二区无线| 成年女人免费v片| 男子把美女裙子脱了摸她内裤| 国产一级二级三级在线观看av| 国产精品免费_区二区三区观看| 四虎影视一区二区精品| 日韩中文字幕无码av| 一区二区三区精品免费| 免费国产a国产片高清网站| 久久久久麻豆v国产精华液好用吗| 在线无码精品秘 在线观看| 亚洲永久免费中文字幕| 国产精品无码无卡无需播放器| 亚洲国产成人va在线观看天堂 | 亚洲国产成人久久综合| 人妻久久久一区二区三区蜜臀| 国产精品国产三级国av在线观看| 无码一区二区三区AV免费换脸| 美女偷拍一区二区三区| av在线观看一区二区三区| 97在线观看| 国产成人av在线影院无毒| 国产精品又爽又粗又猛又黄| 中文字幕亚洲欧美在线不卡| 亚洲av无码乱码国产精品fc2| 最新国产美女一区二区三区| 精品人妻69一区二区三区蜜桃| 草草浮力影院| 精品午夜久久网成年网| 亚洲一区二区三区麻豆| 妺妺跟我一起洗澡没忍住| 少妇下面好紧好多水真爽播放| 91视频免费国产成人| 亚洲成av人片在久久性色av| 欧美丰满少妇xxxx性| 丰满人妻无奈张开双腿av| 国产av91在线播放| 蜜桃视频在线免费观看|