亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析分類規(guī)則挖掘

        2009-04-29 00:00:00
        科教導(dǎo)刊 2009年36期

        摘要分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一。本文首先分析了分類規(guī)則挖掘的產(chǎn)生背景及意義,其次簡(jiǎn)述了分類規(guī)則挖掘的算法和應(yīng)用領(lǐng)域等方面,然后從分類問題、表示方法和分類挖掘步驟三個(gè)方面進(jìn)行分析,最后指出分類規(guī)則挖掘面臨的問題及挑戰(zhàn)。

        關(guān)鍵詞數(shù)據(jù)挖掘分類規(guī)則挖掘算法

        中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A

        分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一,同時(shí),也是其它諸如人工智能、模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)等學(xué)科的重要研究?jī)?nèi)容,并且有豐富的結(jié)果和廣泛的應(yīng)用,因此對(duì)分類規(guī)則挖掘的研究是很有必要的。

        1 數(shù)據(jù)挖掘概念和技術(shù)

        20世紀(jì)70年代以來,數(shù)據(jù)庫(kù)技術(shù)得到了迅速發(fā)展及廣泛應(yīng)用。在自然科學(xué)、工程技術(shù)、工商管理、金融證券、政府機(jī)構(gòu)等領(lǐng)域,已經(jīng)或者正在實(shí)施全面的信息化建設(shè),其核心是建立大型復(fù)雜的數(shù)據(jù)庫(kù)管理系統(tǒng)。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫(kù)的應(yīng)用規(guī)模、范圍和深度不斷擴(kuò)大,已經(jīng)從點(diǎn)(單臺(tái)機(jī)器)、線(局域網(wǎng))發(fā)展到面(廣域網(wǎng)),甚至到Internet全球信息系統(tǒng)。

        隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展和企業(yè)界不斷提出新的需求,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(Data Mining)是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的潛在有用信息。它的目標(biāo)是高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減小風(fēng)險(xiǎn),做出正確的決策。IBM將數(shù)據(jù)挖掘的分析方法從功能上劃分為以下四種:(1)關(guān)聯(lián)分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分類分析(Classifications);(4)聚類分析(Clusterings)。其中,分類分析(即分類規(guī)則挖掘)是數(shù)據(jù)挖掘的一項(xiàng)重要內(nèi)容,是知識(shí)發(fā)現(xiàn)的一個(gè)重要方面。

        分類就是找出一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則,可被用于規(guī)則描述和預(yù)測(cè)。隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)中內(nèi)容的復(fù)雜程度日益增加,大量的信息不斷加入到數(shù)據(jù)庫(kù)系統(tǒng)中來,研究高效和快速的分類規(guī)則挖掘方法已經(jīng)成為一個(gè)十分迫切的課題。

        2 分類規(guī)則挖掘的算法

        分類規(guī)則挖掘是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一,至今已經(jīng)提出多種算法。對(duì)于分類規(guī)則挖掘通常有以下幾種算法:決策樹方法、貝葉斯方法、人工神經(jīng)網(wǎng)絡(luò)方法、粗糙集方法和關(guān)聯(lián)規(guī)則分類法、k一最臨近分類法等。這些算法是主要的算法,他們都有其優(yōu)缺點(diǎn),都有其適用的數(shù)據(jù)。還有一些其他的算法,比如遺傳算法,后向傳播分類、基于概念層次的分類、基于案例的推理、群智能算法如蟻群算法和粒子群算法,以及各種算法的混合算法。

        分類算法的優(yōu)劣直接影響數(shù)據(jù)挖掘的效率與準(zhǔn)確性。分類算法采用五層評(píng)價(jià)標(biāo)準(zhǔn):預(yù)測(cè)準(zhǔn)確度(模型正確預(yù)測(cè)新數(shù)據(jù)類標(biāo)號(hào)的能力);計(jì)算復(fù)雜度(依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境);健壯性(在有噪聲數(shù)據(jù)或空缺值的情況下模型是否具有正確預(yù)測(cè)的能力);可伸縮性(對(duì)于海量的數(shù)據(jù)或大型數(shù)據(jù)庫(kù),是否具有有效的構(gòu)造模型的能力);模型簡(jiǎn)潔度和可理解性(學(xué)習(xí)模型是否具有提供理解和觀察的層次的能力)。

        3 分類規(guī)則挖掘的應(yīng)用領(lǐng)域

        分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域最重要的研究課題之一,很多數(shù)據(jù)挖掘的問題都可以轉(zhuǎn)化為分類挖掘問題。目前,分類挖掘算法已經(jīng)具有廣泛的應(yīng)用,其中應(yīng)用最集中的領(lǐng)域包括科學(xué)研究、金融投資、市場(chǎng)營(yíng)銷、保險(xiǎn)、醫(yī)療衛(wèi)生、產(chǎn)品制造業(yè)、通信網(wǎng)絡(luò)管理等行業(yè)。

        4 數(shù)據(jù)分類問題、表示方法

        4.1 分類問題的描述

        數(shù)據(jù)分類是通過挖掘已有的分類數(shù)據(jù),集中同一類數(shù)據(jù)對(duì)象的共同特征,提取分類規(guī)則,對(duì)整個(gè)數(shù)據(jù)集進(jìn)行合理分類的過程。分類方法用于預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別,分類的目的是能根據(jù)已經(jīng)分類的數(shù)據(jù)構(gòu)造出一個(gè)分類模型,即分類器。

        要構(gòu)造一個(gè)分類器,需要有一個(gè)訓(xùn)練數(shù)據(jù)集作為輸入。訓(xùn)練數(shù)據(jù)集由一組數(shù)據(jù)庫(kù)元組構(gòu)成,每個(gè)元組由若干個(gè)屬性(又稱字段或特征)描述。假定訓(xùn)練數(shù)據(jù)集的每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)稱為類標(biāo)號(hào)屬性的屬性確定,則每個(gè)元組與一個(gè)特定的類標(biāo)號(hào)相對(duì)應(yīng)。該類標(biāo)號(hào)是系統(tǒng)的輸入,通常是以往的一些經(jīng)驗(yàn)數(shù)據(jù)。

        4.2 分類問題的表示方法

        分類模型有很多表示方法,比如分類規(guī)則、判定樹、數(shù)學(xué)公式、形式文法、形式邏輯表達(dá)式、神經(jīng)網(wǎng)絡(luò)、框架和模式等等。與其它幾種表示方法相比,使用分類規(guī)則的好處在于:每條規(guī)則能夠獨(dú)立地表示被發(fā)現(xiàn)的知識(shí);新規(guī)則的加入并不影響已經(jīng)存在的規(guī)則集,而且表示形式簡(jiǎn)單,易于理解。假設(shè)數(shù)據(jù)挖掘用于決策支持系統(tǒng),但真正最后的決策者是用戶,數(shù)據(jù)挖掘的結(jié)果對(duì)于用戶來說應(yīng)該是易于理解,表示形式簡(jiǎn)單的結(jié)果,采用規(guī)則表示的分類器就比較好理解,而神經(jīng)網(wǎng)絡(luò)的結(jié)果就比較難以理解。例如,給定一個(gè)顧客的信用信息的數(shù)據(jù)庫(kù),可以學(xué)習(xí)分類規(guī)則,根據(jù)他們的信譽(yù)度優(yōu)良或相(下轉(zhuǎn)第139頁(yè))(上接第129頁(yè))當(dāng)好來識(shí)別顧客。這些規(guī)則可以用來為以后的數(shù)據(jù)樣本分類,也能對(duì)數(shù)據(jù)庫(kù)的內(nèi)容提供更好的理解。

        5 分類規(guī)則挖掘步驟

        第一步,建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型。該模型是通過對(duì)數(shù)據(jù)庫(kù)中各數(shù)據(jù)行內(nèi)容的分析而獲得的。每一數(shù)據(jù)行都可認(rèn)為是屬于一個(gè)確定的數(shù)據(jù)類別,其類別值是由一個(gè)屬性描述(被稱為類別屬性)。分類學(xué)習(xí)方法所使用的數(shù)據(jù)集稱為訓(xùn)練樣本集合,因此分類學(xué)習(xí)又可以稱為監(jiān)督學(xué)習(xí)(Learning by Example)。它是在已知訓(xùn)練樣本類別的情況下,通過學(xué)習(xí)建立相應(yīng)的模型;而無教師監(jiān)督學(xué)習(xí)則是在訓(xùn)練樣本的類別與類別個(gè)數(shù)均未知的情況下進(jìn)行的。

        第二步,利用所獲得的模型進(jìn)行分類操作。首先對(duì)模型分類準(zhǔn)確率進(jìn)行估計(jì),例如使用保持(Holdout)方法。如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)為是可以接受的,那么就可以使用這一模型對(duì)未來的數(shù)據(jù)行或?qū)ο?其類別未知)進(jìn)行分類。

        6 分類挖掘面臨的問題和挑戰(zhàn)

        隨著對(duì)數(shù)據(jù)挖掘分類問題研究的不斷深入和廣泛應(yīng)用,人們發(fā)現(xiàn)現(xiàn)實(shí)世界數(shù)據(jù)庫(kù)存在的一些固有的特點(diǎn)給分類挖掘帶來了巨大的挑戰(zhàn)。比如,在其他規(guī)則挖掘的過程中,提供一種與分類規(guī)則挖掘技術(shù)相結(jié)合的方法,把分類規(guī)則挖掘技術(shù)融入其中。還有噪音數(shù)據(jù)、數(shù)據(jù)庫(kù)的動(dòng)態(tài)性以及海量數(shù)據(jù)和高維數(shù)據(jù)等這些問題都是值得研究的。

        分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一,它有著豐富的結(jié)果和廣泛的應(yīng)用,因此對(duì)分類規(guī)則挖掘的研究是很有必要的。

        无套内射无矿码免费看黄| 四房播播在线电影| 亚洲成在人线久久综合| 91精品在线免费| 亚洲av调教捆绑一区二区三区| 一本无码中文字幕在线观| 一本色道久久综合亚洲精品不卡| 国产精品爽爽va在线观看网站| av免费观看在线网站| 欲女在线一区二区三区| 久久久久久国产精品mv| 久久无码一二三四| 国产精品农村妇女一区二区三区| 国产又湿又爽又猛的视频| 亚洲国产亚综合在线区| 亚洲精品成人区在线观看| 精品少妇爆乳无码aⅴ区| 成人性生交大片免费看激情玛丽莎| 精品无码av一区二区三区不卡| 欧美黑人又粗又硬xxxxx喷水| 久久国产成人免费网站| 亚洲乱码av中文一区二区第八页| 亚洲精品一区二区国产精华液| 亚洲精品国偷自产在线99正片| 草莓视频在线观看无码免费| 亚洲国产精品av麻豆网站| 好吊妞无缓冲视频观看| 欧美精品偷自拍另类在线观看| 日本一区二区国产高清在线播放 | 亚洲精品国产熟女久久久| 国产免码va在线观看免费| 日产精品久久久久久久蜜臀| 狠狠狠色丁香婷婷综合激情| 亚洲国产不卡免费视频| 无码免费无线观看在线视| 色视频www在线播放国产人成| 久久久久人妻精品一区5555| 日本av天堂一区二区三区| 三年片大全在线观看免费观看大全 | 日韩av无码成人无码免费| 日本人妻少妇精品视频专区|