亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺析分類規(guī)則挖掘

2009-04-29 00:00:00張帆

科教導(dǎo)刊 2009年36期

摘要分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一。本文首先分析了分類規(guī)則挖掘的產(chǎn)生背景及意義，其次簡述了分類規(guī)則挖掘的算法和應(yīng)用領(lǐng)域等方面，然后從分類問題、表示方法和分類挖掘步驟三個(gè)方面進(jìn)行分析，最后指出分類規(guī)則挖掘面臨的問題及挑戰(zhàn)。

關(guān)鍵詞數(shù)據(jù)挖掘分類規(guī)則挖掘算法

中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A

分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一，同時(shí)，也是其它諸如人工智能、模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)等學(xué)科的重要研究內(nèi)容，并且有豐富的結(jié)果和廣泛的應(yīng)用，因此對分類規(guī)則挖掘的研究是很有必要的。

1 數(shù)據(jù)挖掘概念和技術(shù)

20世紀(jì)70年代以來，數(shù)據(jù)庫技術(shù)得到了迅速發(fā)展及廣泛應(yīng)用。在自然科學(xué)、工程技術(shù)、工商管理、金融證券、政府機(jī)構(gòu)等領(lǐng)域，已經(jīng)或者正在實(shí)施全面的信息化建設(shè)，其核心是建立大型復(fù)雜的數(shù)據(jù)庫管理系統(tǒng)。隨著信息技術(shù)的高速發(fā)展，數(shù)據(jù)庫的應(yīng)用規(guī)模、范圍和深度不斷擴(kuò)大，已經(jīng)從點(diǎn)(單臺(tái)機(jī)器)、線(局域網(wǎng))發(fā)展到面(廣域網(wǎng))，甚至到Internet全球信息系統(tǒng)。

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展和企業(yè)界不斷提出新的需求，數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(Data Mining)是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識(shí)，這些知識(shí)是隱含的、事先未知的潛在有用信息。它的目標(biāo)是高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù)，做出歸納性的推理，從中挖掘出潛在的模式，預(yù)測客戶的行為，幫助企業(yè)的決策者調(diào)整市場策略，減小風(fēng)險(xiǎn)，做出正確的決策。IBM將數(shù)據(jù)挖掘的分析方法從功能上劃分為以下四種:(1)關(guān)聯(lián)分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分類分析(Classifications);(4)聚類分析(Clusterings)。其中，分類分析(即分類規(guī)則挖掘)是數(shù)據(jù)挖掘的一項(xiàng)重要內(nèi)容，是知識(shí)發(fā)現(xiàn)的一個(gè)重要方面。

分類就是找出一個(gè)類別的概念描述，它代表了這類數(shù)據(jù)的整體信息，即該類的內(nèi)涵描述，并用這種描述來構(gòu)造模型，一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則，可被用于規(guī)則描述和預(yù)測。隨著數(shù)據(jù)庫技術(shù)的發(fā)展，數(shù)據(jù)庫中內(nèi)容的復(fù)雜程度日益增加，大量的信息不斷加入到數(shù)據(jù)庫系統(tǒng)中來，研究高效和快速的分類規(guī)則挖掘方法已經(jīng)成為一個(gè)十分迫切的課題。

2 分類規(guī)則挖掘的算法

分類規(guī)則挖掘是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一，至今已經(jīng)提出多種算法。對于分類規(guī)則挖掘通常有以下幾種算法:決策樹方法、貝葉斯方法、人工神經(jīng)網(wǎng)絡(luò)方法、粗糙集方法和關(guān)聯(lián)規(guī)則分類法、k一最臨近分類法等。這些算法是主要的算法，他們都有其優(yōu)缺點(diǎn)，都有其適用的數(shù)據(jù)。還有一些其他的算法，比如遺傳算法，后向傳播分類、基于概念層次的分類、基于案例的推理、群智能算法如蟻群算法和粒子群算法，以及各種算法的混合算法。

分類算法的優(yōu)劣直接影響數(shù)據(jù)挖掘的效率與準(zhǔn)確性。分類算法采用五層評價(jià)標(biāo)準(zhǔn):預(yù)測準(zhǔn)確度(模型正確預(yù)測新數(shù)據(jù)類標(biāo)號(hào)的能力);計(jì)算復(fù)雜度(依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境);健壯性(在有噪聲數(shù)據(jù)或空缺值的情況下模型是否具有正確預(yù)測的能力);可伸縮性(對于海量的數(shù)據(jù)或大型數(shù)據(jù)庫，是否具有有效的構(gòu)造模型的能力);模型簡潔度和可理解性(學(xué)習(xí)模型是否具有提供理解和觀察的層次的能力)。

3 分類規(guī)則挖掘的應(yīng)用領(lǐng)域

分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域最重要的研究課題之一，很多數(shù)據(jù)挖掘的問題都可以轉(zhuǎn)化為分類挖掘問題。目前，分類挖掘算法已經(jīng)具有廣泛的應(yīng)用，其中應(yīng)用最集中的領(lǐng)域包括科學(xué)研究、金融投資、市場營銷、保險(xiǎn)、醫(yī)療衛(wèi)生、產(chǎn)品制造業(yè)、通信網(wǎng)絡(luò)管理等行業(yè)。

4 數(shù)據(jù)分類問題、表示方法

4.1 分類問題的描述

數(shù)據(jù)分類是通過挖掘已有的分類數(shù)據(jù)，集中同一類數(shù)據(jù)對象的共同特征，提取分類規(guī)則，對整個(gè)數(shù)據(jù)集進(jìn)行合理分類的過程。分類方法用于預(yù)測數(shù)據(jù)對象的離散類別，分類的目的是能根據(jù)已經(jīng)分類的數(shù)據(jù)構(gòu)造出一個(gè)分類模型，即分類器。

要構(gòu)造一個(gè)分類器，需要有一個(gè)訓(xùn)練數(shù)據(jù)集作為輸入。訓(xùn)練數(shù)據(jù)集由一組數(shù)據(jù)庫元組構(gòu)成，每個(gè)元組由若干個(gè)屬性(又稱字段或特征)描述。假定訓(xùn)練數(shù)據(jù)集的每個(gè)元組屬于一個(gè)預(yù)定義的類，由一個(gè)稱為類標(biāo)號(hào)屬性的屬性確定，則每個(gè)元組與一個(gè)特定的類標(biāo)號(hào)相對應(yīng)。該類標(biāo)號(hào)是系統(tǒng)的輸入，通常是以往的一些經(jīng)驗(yàn)數(shù)據(jù)。

4.2 分類問題的表示方法

分類模型有很多表示方法，比如分類規(guī)則、判定樹、數(shù)學(xué)公式、形式文法、形式邏輯表達(dá)式、神經(jīng)網(wǎng)絡(luò)、框架和模式等等。與其它幾種表示方法相比，使用分類規(guī)則的好處在于:每條規(guī)則能夠獨(dú)立地表示被發(fā)現(xiàn)的知識(shí);新規(guī)則的加入并不影響已經(jīng)存在的規(guī)則集，而且表示形式簡單，易于理解。假設(shè)數(shù)據(jù)挖掘用于決策支持系統(tǒng)，但真正最后的決策者是用戶，數(shù)據(jù)挖掘的結(jié)果對于用戶來說應(yīng)該是易于理解，表示形式簡單的結(jié)果，采用規(guī)則表示的分類器就比較好理解，而神經(jīng)網(wǎng)絡(luò)的結(jié)果就比較難以理解。例如，給定一個(gè)顧客的信用信息的數(shù)據(jù)庫，可以學(xué)習(xí)分類規(guī)則，根據(jù)他們的信譽(yù)度優(yōu)良或相(下轉(zhuǎn)第139頁)(上接第129頁)當(dāng)好來識(shí)別顧客。這些規(guī)則可以用來為以后的數(shù)據(jù)樣本分類，也能對數(shù)據(jù)庫的內(nèi)容提供更好的理解。

5 分類規(guī)則挖掘步驟

第一步，建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型。該模型是通過對數(shù)據(jù)庫中各數(shù)據(jù)行內(nèi)容的分析而獲得的。每一數(shù)據(jù)行都可認(rèn)為是屬于一個(gè)確定的數(shù)據(jù)類別，其類別值是由一個(gè)屬性描述(被稱為類別屬性)。分類學(xué)習(xí)方法所使用的數(shù)據(jù)集稱為訓(xùn)練樣本集合，因此分類學(xué)習(xí)又可以稱為監(jiān)督學(xué)習(xí)(Learning by Example)。它是在已知訓(xùn)練樣本類別的情況下，通過學(xué)習(xí)建立相應(yīng)的模型;而無教師監(jiān)督學(xué)習(xí)則是在訓(xùn)練樣本的類別與類別個(gè)數(shù)均未知的情況下進(jìn)行的。

第二步，利用所獲得的模型進(jìn)行分類操作。首先對模型分類準(zhǔn)確率進(jìn)行估計(jì)，例如使用保持(Holdout)方法。如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測試被認(rèn)為是可以接受的，那么就可以使用這一模型對未來的數(shù)據(jù)行或?qū)ο?其類別未知)進(jìn)行分類。

6 分類挖掘面臨的問題和挑戰(zhàn)

隨著對數(shù)據(jù)挖掘分類問題研究的不斷深入和廣泛應(yīng)用，人們發(fā)現(xiàn)現(xiàn)實(shí)世界數(shù)據(jù)庫存在的一些固有的特點(diǎn)給分類挖掘帶來了巨大的挑戰(zhàn)。比如，在其他規(guī)則挖掘的過程中，提供一種與分類規(guī)則挖掘技術(shù)相結(jié)合的方法，把分類規(guī)則挖掘技術(shù)融入其中。還有噪音數(shù)據(jù)、數(shù)據(jù)庫的動(dòng)態(tài)性以及海量數(shù)據(jù)和高維數(shù)據(jù)等這些問題都是值得研究的。

分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一，它有著豐富的結(jié)果和廣泛的應(yīng)用，因此對分類規(guī)則挖掘的研究是很有必要的。

科教導(dǎo)刊2009年36期

科教導(dǎo)刊的其它文章: 淺談小學(xué)生體育興趣的培養(yǎng)策略; 淺談中學(xué)化學(xué)教學(xué)中多媒體的應(yīng)用; 淺談中職學(xué)生創(chuàng)新能力的培養(yǎng); 淺談書法課程的構(gòu)建與開發(fā); 關(guān)于大體積混凝土裂縫控制的思考; 有關(guān)技校教師數(shù)學(xué)教學(xué)的新思考