摘要分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一。本文首先分析了分類規(guī)則挖掘的產(chǎn)生背景及意義,其次簡(jiǎn)述了分類規(guī)則挖掘的算法和應(yīng)用領(lǐng)域等方面,然后從分類問題、表示方法和分類挖掘步驟三個(gè)方面進(jìn)行分析,最后指出分類規(guī)則挖掘面臨的問題及挑戰(zhàn)。
關(guān)鍵詞數(shù)據(jù)挖掘分類規(guī)則挖掘算法
中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A
分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一,同時(shí),也是其它諸如人工智能、模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)等學(xué)科的重要研究?jī)?nèi)容,并且有豐富的結(jié)果和廣泛的應(yīng)用,因此對(duì)分類規(guī)則挖掘的研究是很有必要的。
1 數(shù)據(jù)挖掘概念和技術(shù)
20世紀(jì)70年代以來,數(shù)據(jù)庫(kù)技術(shù)得到了迅速發(fā)展及廣泛應(yīng)用。在自然科學(xué)、工程技術(shù)、工商管理、金融證券、政府機(jī)構(gòu)等領(lǐng)域,已經(jīng)或者正在實(shí)施全面的信息化建設(shè),其核心是建立大型復(fù)雜的數(shù)據(jù)庫(kù)管理系統(tǒng)。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)庫(kù)的應(yīng)用規(guī)模、范圍和深度不斷擴(kuò)大,已經(jīng)從點(diǎn)(單臺(tái)機(jī)器)、線(局域網(wǎng))發(fā)展到面(廣域網(wǎng)),甚至到Internet全球信息系統(tǒng)。
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展和企業(yè)界不斷提出新的需求,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(Data Mining)是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱含的、事先未知的潛在有用信息。它的目標(biāo)是高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減小風(fēng)險(xiǎn),做出正確的決策。IBM將數(shù)據(jù)挖掘的分析方法從功能上劃分為以下四種:(1)關(guān)聯(lián)分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分類分析(Classifications);(4)聚類分析(Clusterings)。其中,分類分析(即分類規(guī)則挖掘)是數(shù)據(jù)挖掘的一項(xiàng)重要內(nèi)容,是知識(shí)發(fā)現(xiàn)的一個(gè)重要方面。
分類就是找出一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則,可被用于規(guī)則描述和預(yù)測(cè)。隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)中內(nèi)容的復(fù)雜程度日益增加,大量的信息不斷加入到數(shù)據(jù)庫(kù)系統(tǒng)中來,研究高效和快速的分類規(guī)則挖掘方法已經(jīng)成為一個(gè)十分迫切的課題。
2 分類規(guī)則挖掘的算法
分類規(guī)則挖掘是數(shù)據(jù)挖掘中應(yīng)用領(lǐng)域極其廣泛的重要技術(shù)之一,至今已經(jīng)提出多種算法。對(duì)于分類規(guī)則挖掘通常有以下幾種算法:決策樹方法、貝葉斯方法、人工神經(jīng)網(wǎng)絡(luò)方法、粗糙集方法和關(guān)聯(lián)規(guī)則分類法、k一最臨近分類法等。這些算法是主要的算法,他們都有其優(yōu)缺點(diǎn),都有其適用的數(shù)據(jù)。還有一些其他的算法,比如遺傳算法,后向傳播分類、基于概念層次的分類、基于案例的推理、群智能算法如蟻群算法和粒子群算法,以及各種算法的混合算法。
分類算法的優(yōu)劣直接影響數(shù)據(jù)挖掘的效率與準(zhǔn)確性。分類算法采用五層評(píng)價(jià)標(biāo)準(zhǔn):預(yù)測(cè)準(zhǔn)確度(模型正確預(yù)測(cè)新數(shù)據(jù)類標(biāo)號(hào)的能力);計(jì)算復(fù)雜度(依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境);健壯性(在有噪聲數(shù)據(jù)或空缺值的情況下模型是否具有正確預(yù)測(cè)的能力);可伸縮性(對(duì)于海量的數(shù)據(jù)或大型數(shù)據(jù)庫(kù),是否具有有效的構(gòu)造模型的能力);模型簡(jiǎn)潔度和可理解性(學(xué)習(xí)模型是否具有提供理解和觀察的層次的能力)。
3 分類規(guī)則挖掘的應(yīng)用領(lǐng)域
分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域最重要的研究課題之一,很多數(shù)據(jù)挖掘的問題都可以轉(zhuǎn)化為分類挖掘問題。目前,分類挖掘算法已經(jīng)具有廣泛的應(yīng)用,其中應(yīng)用最集中的領(lǐng)域包括科學(xué)研究、金融投資、市場(chǎng)營(yíng)銷、保險(xiǎn)、醫(yī)療衛(wèi)生、產(chǎn)品制造業(yè)、通信網(wǎng)絡(luò)管理等行業(yè)。
4 數(shù)據(jù)分類問題、表示方法
4.1 分類問題的描述
數(shù)據(jù)分類是通過挖掘已有的分類數(shù)據(jù),集中同一類數(shù)據(jù)對(duì)象的共同特征,提取分類規(guī)則,對(duì)整個(gè)數(shù)據(jù)集進(jìn)行合理分類的過程。分類方法用于預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類別,分類的目的是能根據(jù)已經(jīng)分類的數(shù)據(jù)構(gòu)造出一個(gè)分類模型,即分類器。
要構(gòu)造一個(gè)分類器,需要有一個(gè)訓(xùn)練數(shù)據(jù)集作為輸入。訓(xùn)練數(shù)據(jù)集由一組數(shù)據(jù)庫(kù)元組構(gòu)成,每個(gè)元組由若干個(gè)屬性(又稱字段或特征)描述。假定訓(xùn)練數(shù)據(jù)集的每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)稱為類標(biāo)號(hào)屬性的屬性確定,則每個(gè)元組與一個(gè)特定的類標(biāo)號(hào)相對(duì)應(yīng)。該類標(biāo)號(hào)是系統(tǒng)的輸入,通常是以往的一些經(jīng)驗(yàn)數(shù)據(jù)。
4.2 分類問題的表示方法
分類模型有很多表示方法,比如分類規(guī)則、判定樹、數(shù)學(xué)公式、形式文法、形式邏輯表達(dá)式、神經(jīng)網(wǎng)絡(luò)、框架和模式等等。與其它幾種表示方法相比,使用分類規(guī)則的好處在于:每條規(guī)則能夠獨(dú)立地表示被發(fā)現(xiàn)的知識(shí);新規(guī)則的加入并不影響已經(jīng)存在的規(guī)則集,而且表示形式簡(jiǎn)單,易于理解。假設(shè)數(shù)據(jù)挖掘用于決策支持系統(tǒng),但真正最后的決策者是用戶,數(shù)據(jù)挖掘的結(jié)果對(duì)于用戶來說應(yīng)該是易于理解,表示形式簡(jiǎn)單的結(jié)果,采用規(guī)則表示的分類器就比較好理解,而神經(jīng)網(wǎng)絡(luò)的結(jié)果就比較難以理解。例如,給定一個(gè)顧客的信用信息的數(shù)據(jù)庫(kù),可以學(xué)習(xí)分類規(guī)則,根據(jù)他們的信譽(yù)度優(yōu)良或相(下轉(zhuǎn)第139頁(yè))(上接第129頁(yè))當(dāng)好來識(shí)別顧客。這些規(guī)則可以用來為以后的數(shù)據(jù)樣本分類,也能對(duì)數(shù)據(jù)庫(kù)的內(nèi)容提供更好的理解。
5 分類規(guī)則挖掘步驟
第一步,建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型。該模型是通過對(duì)數(shù)據(jù)庫(kù)中各數(shù)據(jù)行內(nèi)容的分析而獲得的。每一數(shù)據(jù)行都可認(rèn)為是屬于一個(gè)確定的數(shù)據(jù)類別,其類別值是由一個(gè)屬性描述(被稱為類別屬性)。分類學(xué)習(xí)方法所使用的數(shù)據(jù)集稱為訓(xùn)練樣本集合,因此分類學(xué)習(xí)又可以稱為監(jiān)督學(xué)習(xí)(Learning by Example)。它是在已知訓(xùn)練樣本類別的情況下,通過學(xué)習(xí)建立相應(yīng)的模型;而無教師監(jiān)督學(xué)習(xí)則是在訓(xùn)練樣本的類別與類別個(gè)數(shù)均未知的情況下進(jìn)行的。
第二步,利用所獲得的模型進(jìn)行分類操作。首先對(duì)模型分類準(zhǔn)確率進(jìn)行估計(jì),例如使用保持(Holdout)方法。如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)為是可以接受的,那么就可以使用這一模型對(duì)未來的數(shù)據(jù)行或?qū)ο?其類別未知)進(jìn)行分類。
6 分類挖掘面臨的問題和挑戰(zhàn)
隨著對(duì)數(shù)據(jù)挖掘分類問題研究的不斷深入和廣泛應(yīng)用,人們發(fā)現(xiàn)現(xiàn)實(shí)世界數(shù)據(jù)庫(kù)存在的一些固有的特點(diǎn)給分類挖掘帶來了巨大的挑戰(zhàn)。比如,在其他規(guī)則挖掘的過程中,提供一種與分類規(guī)則挖掘技術(shù)相結(jié)合的方法,把分類規(guī)則挖掘技術(shù)融入其中。還有噪音數(shù)據(jù)、數(shù)據(jù)庫(kù)的動(dòng)態(tài)性以及海量數(shù)據(jù)和高維數(shù)據(jù)等這些問題都是值得研究的。
分類規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中最重要的研究領(lǐng)域之一,它有著豐富的結(jié)果和廣泛的應(yīng)用,因此對(duì)分類規(guī)則挖掘的研究是很有必要的。