亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析數(shù)據(jù)挖掘技術(shù)

        2009-10-22 08:13:22陳文捷
        商情 2009年23期
        關(guān)鍵詞:提取數(shù)據(jù)挖掘

        王 曉 陳文捷

        【摘 要】數(shù)據(jù)挖掘技術(shù)為應(yīng)對(duì)信息爆炸,海量信息的處理提供了科學(xué)和有效的手段。本文介紹了數(shù)據(jù)挖掘的概念、對(duì)象、任務(wù)、過(guò)程、方法和應(yīng)用領(lǐng)域。

        【關(guān)鍵詞】數(shù)據(jù)挖掘 信息分析 提取 知識(shí)

        社會(huì)的發(fā)展進(jìn)入了網(wǎng)絡(luò)信息時(shí)代,各種形式的數(shù)據(jù)海量產(chǎn)生,在這些數(shù)據(jù)的背后隱藏著許多重要的信息,如何從這些數(shù)據(jù)中找出某種規(guī)律,發(fā)現(xiàn)有用信息,越來(lái)越受到關(guān)注。為了適應(yīng)信息處理新需求和社會(huì)發(fā)展各方面的迫切需要而發(fā)展起來(lái)一種新的信息分析技術(shù),這種技術(shù)稱為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。

        一、數(shù)據(jù)挖掘的對(duì)象

        數(shù)據(jù)挖掘可以在任何類(lèi)型的數(shù)據(jù)上進(jìn)行,即可以來(lái)自社會(huì)科學(xué),又可以來(lái)自自然科學(xué)產(chǎn)生的數(shù)據(jù),還可以是衛(wèi)星觀測(cè)得到的數(shù)據(jù)。數(shù)據(jù)形式和結(jié)構(gòu)也各不相同,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),可以是面向?qū)ο蟮母呒?jí)數(shù)據(jù)庫(kù)系統(tǒng),也可以是面向特殊應(yīng)用的數(shù)據(jù)庫(kù),如空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、文本數(shù)據(jù)庫(kù)和多媒體數(shù)據(jù)庫(kù)等,還可以是Web數(shù)據(jù)信息。

        二、數(shù)據(jù)挖掘的任務(wù)

        數(shù)據(jù)挖掘的目標(biāo)是從海量數(shù)據(jù)中發(fā)現(xiàn)隱含的、有意義的知識(shí)。它的任務(wù)主要是分類(lèi)、預(yù)測(cè)、時(shí)間序列模式、聚類(lèi)分析、關(guān)聯(lián)分析預(yù)測(cè)和偏差分析等。

        1.分類(lèi)。分類(lèi)就是按照一定的標(biāo)準(zhǔn)把數(shù)據(jù)對(duì)象劃歸成不同類(lèi)別的過(guò)程。

        2.預(yù)測(cè)。預(yù)測(cè)就是通過(guò)對(duì)歷史數(shù)據(jù)的分析找出規(guī)律,并建立模型,通過(guò)模型對(duì)未來(lái)數(shù)據(jù)的種類(lèi)和特征進(jìn)行分析。

        3.時(shí)間序列模式。時(shí)間序列模式就是根據(jù)數(shù)據(jù)對(duì)象隨時(shí)間變化的規(guī)律或趨勢(shì)來(lái)預(yù)測(cè)將來(lái)的值。

        4.聚類(lèi)分析。聚類(lèi)分析是在沒(méi)有給定劃分類(lèi)的情況下,根據(jù)數(shù)據(jù)信息的相似度進(jìn)行數(shù)據(jù)聚集的一種方法。

        5.關(guān)聯(lián)分析預(yù)測(cè)。關(guān)聯(lián)分析就是對(duì)大量的數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)滿足一定支持度和可信度的數(shù)據(jù)項(xiàng)之間的聯(lián)系規(guī)則。

        6.偏差分析。偏差分析就是通過(guò)對(duì)數(shù)據(jù)庫(kù)中的孤立點(diǎn)數(shù)據(jù)進(jìn)行分析,尋找有價(jià)值和意義的信息。

        三、數(shù)據(jù)挖掘的過(guò)程

        數(shù)據(jù)挖掘使用一定的算法從實(shí)際應(yīng)用數(shù)據(jù)中挖掘出未知、有價(jià)值的模式或規(guī)律等知識(shí),整個(gè)過(guò)程由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、模式評(píng)估、鞏固知識(shí)和運(yùn)用知識(shí)等步驟組成。

        1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)挖掘的處理對(duì)象是數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫(kù)系統(tǒng)中,是長(zhǎng)期積累的結(jié)果。但往往不適合直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘,首先要清除數(shù)據(jù)噪聲和與挖掘主題明顯無(wú)關(guān)的數(shù)據(jù);其次將來(lái)自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)組合并;然后將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式,這就是數(shù)據(jù)準(zhǔn)備。

        2.數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是根據(jù)數(shù)據(jù)挖掘的目標(biāo),選取相應(yīng)算法及參數(shù),分析準(zhǔn)備好的數(shù)據(jù),產(chǎn)生一個(gè)特定的模式或數(shù)據(jù)集,從而得到可能形成知識(shí)的模式模型。

        3.模式評(píng)估。由挖掘算法產(chǎn)生的模式規(guī)律,存在無(wú)實(shí)際意義或無(wú)實(shí)用價(jià)值的情況,也存在不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義的情況,甚至在某些情況下與事實(shí)相反,因此需要對(duì)其進(jìn)行評(píng)估,從挖掘結(jié)果中篩選出有意義的模式規(guī)律。在此過(guò)程中,為了取得更為有效的知識(shí),可能會(huì)返回前面的某一處理步驟中以反復(fù)提取,從而提取出更有效的知識(shí)。

        四、數(shù)據(jù)挖掘的常用方法

        1.決策樹(shù)方法。決策樹(shù)是一種常用于預(yù)測(cè)模型的算法,它通過(guò)一系列規(guī)則將大量數(shù)據(jù)有目的分類(lèi),從中找到一些有價(jià)值的、潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類(lèi)速度快,易于理解、精度較高,特別適合大規(guī)模的數(shù)據(jù)處理,在知識(shí)發(fā)現(xiàn)系統(tǒng)中應(yīng)用較廣。它的主要缺點(diǎn)是很難基于多個(gè)變量組合發(fā)現(xiàn)規(guī)則。在數(shù)據(jù)挖掘中,決策樹(shù)方法主要用于分類(lèi)。

        2.神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)是模擬人類(lèi)的形象直覺(jué)思維,在生物神經(jīng)網(wǎng)絡(luò)研究的基礎(chǔ)上,根據(jù)生物神經(jīng)元和神經(jīng)網(wǎng)絡(luò)的特點(diǎn),通過(guò)簡(jiǎn)化、歸納、提煉總結(jié)出來(lái)的一類(lèi)并行處理網(wǎng)絡(luò),利用其非線性映射的思想和并行處理的方法,用神經(jīng)網(wǎng)絡(luò)本身結(jié)構(gòu)來(lái)表達(dá)輸入和輸出的關(guān)聯(lián)知識(shí)。

        3.粗糙集方法。粗糙集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗糙集處理的對(duì)象是類(lèi)似二維關(guān)系表的信息表。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),為粗糙集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。粗糙集理論能夠在缺少先驗(yàn)知識(shí)的情況下,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)處理。在該方法中知識(shí)是以信息系統(tǒng)的形式表示的,先對(duì)信息系統(tǒng)進(jìn)行歸約,再?gòu)慕?jīng)過(guò)歸約后的知識(shí)庫(kù)抽取得到更有價(jià)值、更準(zhǔn)確的一系列規(guī)則。因此,基于粗糙集的數(shù)據(jù)挖掘算法實(shí)際上就是對(duì)大量數(shù)據(jù)構(gòu)成的信息系統(tǒng)進(jìn)行約簡(jiǎn),得到一種屬性歸約集的過(guò)程,最后抽取規(guī)則。

        4.遺傳算法。遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的、潛在有用的信息。因此,許多數(shù)據(jù)挖掘問(wèn)題可以看成是搜索問(wèn)題,數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)為搜索空間,挖掘算法是搜索策略。應(yīng)用遺傳算法在數(shù)據(jù)庫(kù)中進(jìn)行搜索,對(duì)隨機(jī)產(chǎn)生的一組規(guī)則進(jìn)行進(jìn)化,直到數(shù)據(jù)庫(kù)能被該組規(guī)則覆蓋,就可以挖掘出隱含在數(shù)據(jù)庫(kù)中的規(guī)則。

        五、數(shù)據(jù)挖掘的應(yīng)用

        數(shù)據(jù)挖掘技術(shù)在各個(gè)需要進(jìn)行信息分析的領(lǐng)域得到十分廣泛的應(yīng)用。它可以帶來(lái)顯著的經(jīng)濟(jì)效益,不僅可以控制成本,也可以給企業(yè)帶來(lái)更多效益。在金融業(yè),可以通過(guò)信用卡歷史數(shù)據(jù)的分析,判斷哪些人有風(fēng)險(xiǎn),哪些人沒(méi)有;在超市,可以通過(guò)對(duì)超市交易信息的分析,安排貨價(jià)貨物擺設(shè),以提高銷(xiāo)售收入;在保險(xiǎn)業(yè),可以通過(guò)對(duì)保險(xiǎn)公司客戶記錄的分析,來(lái)判定哪些客戶是花費(fèi)昂貴的對(duì)象;在學(xué)校,可以通過(guò)分析學(xué)校學(xué)生課程及成績(jī)等信息,來(lái)判斷課程之間的關(guān)系。此外,在醫(yī)學(xué)中,可以利用數(shù)據(jù)挖掘技術(shù)對(duì)疾病發(fā)作前后癥狀的分析,來(lái)對(duì)病癥進(jìn)行診斷;在體育運(yùn)動(dòng)中,利用數(shù)據(jù)挖掘技術(shù)對(duì)對(duì)抗性強(qiáng)的積極運(yùn)動(dòng)進(jìn)行分析,發(fā)現(xiàn)對(duì)方弱點(diǎn),制定有效的戰(zhàn)術(shù)。

        六、結(jié)束語(yǔ)

        數(shù)據(jù)挖掘技術(shù)作為一個(gè)多學(xué)科交叉的新興學(xué)科,在研究領(lǐng)域和商業(yè)領(lǐng)域得到了越來(lái)越多的應(yīng)用,尤其是在市場(chǎng)營(yíng)銷(xiāo)中取得了成功。企業(yè)每天都有海量數(shù)據(jù)產(chǎn)生,利用數(shù)據(jù)挖掘技術(shù)可以從這些數(shù)據(jù)信息中發(fā)現(xiàn)對(duì)企業(yè)有益的知識(shí),給企業(yè)帶來(lái)經(jīng)濟(jì)效益,這也將促使數(shù)據(jù)挖掘技術(shù)不停的發(fā)展進(jìn)步。

        參考文獻(xiàn):

        [1]蘇新寧,楊建林,江念南,栗湘.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2006.

        [2]Jiawei Han,Micheline Kamber著,范明,孟小峰等譯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

        [3]鄭緯民,黃剛.數(shù)據(jù)挖掘縱覽[EB/OL].http://www2.ccw.com.cn/99/9920/9920c01.asp,1999.

        猜你喜歡
        提取數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        現(xiàn)場(chǎng)勘查中物證的提取及應(yīng)用
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        土壤樣品中農(nóng)藥殘留前處理方法的研究進(jìn)展
        中學(xué)生開(kāi)展DNA“細(xì)”提取的實(shí)踐初探
        淺析城市老街巷景觀本土設(shè)計(jì)元素的提取與置換
        蝦蛄殼中甲殼素的提取工藝探究
        科技視界(2016年22期)2016-10-18 17:02:00
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        環(huán)保新型緩蝕劑發(fā)展?fàn)顩r與展望
        科技視界(2015年25期)2015-09-01 15:33:38
        免费一级毛片麻豆精品| 免费a级毛片无码a∨蜜芽试看 | 国产美女精品一区二区三区| 国产内射合集颜射| 亚洲一区二区三区香蕉| 久久精品夜夜夜夜夜久久| 亚洲综合一| 丁香婷婷六月综合缴清| 国产精品办公室沙发| 日本老熟欧美老熟妇| 中文字幕av无码一区二区三区电影| 国产在线观看一区二区三区av| 日日摸夜夜添夜夜添高潮喷水| 精品无码中文视频在线观看| 国产一区二区三区爆白浆| 久久久噜噜噜久久熟女| 国产亚洲精品久久久久久国模美| 福利视频一二三在线观看| 国产自在自线午夜精品视频在 | 国产人成无码视频在线1000| 国产精品髙潮呻吟久久av| a级国产乱理伦片| 色先锋资源久久综合5566| 亚洲区在线播放| 囯产精品无码一区二区三区AV | 亚洲片一区二区三区| 丰满人妻一区二区三区精品高清| 91露脸半推半就老熟妇| 国产在线一区二区三区av| 国产视频网站一区二区三区| 亚洲国产91高清在线| 又爽又黄又无遮挡网站| 久久精品久久精品中文字幕| 日韩av不卡一二三区| 日本精品视频免费观看| 99精品国产99久久久久久97 | 亚洲天堂丰满人妻av| 日韩人妻无码免费视频一区二区三区| 911国产在线观看精品| 日本精品一级二区三级| 亚洲熟妇久久国产精品|