王飛
[摘要]通過(guò)機(jī)器學(xué)習(xí)及統(tǒng)計(jì)理論,再結(jié)合數(shù)據(jù)庫(kù)的產(chǎn)物就是數(shù)據(jù)挖掘技術(shù),這項(xiàng)技術(shù)是在模糊的、不完全的、隨機(jī)的大量實(shí)際數(shù)據(jù)中來(lái)提取出那些隱含的、有潛在價(jià)值的、原先未知的有效信息,這是一個(gè)龐大的不平凡的過(guò)程。而數(shù)據(jù)挖掘領(lǐng)域中主要的研究課題就是分類算法問(wèn)題,同時(shí)這也是數(shù)據(jù)挖掘中最重要的技術(shù)之一。分類就是一項(xiàng)利用分類器來(lái)對(duì)未知類別樣本進(jìn)行分類從而賦予類別的技術(shù),這里的分類器是指根據(jù)數(shù)據(jù)集的特點(diǎn)來(lái)構(gòu)建的。就目前分類算法來(lái)看,主要有神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、貝葉斯網(wǎng)絡(luò)算法、決策樹(shù)分類算法等。因?yàn)椴煌姆诸惙椒〞?huì)產(chǎn)生不同的分類器,而分類器的好壞又直接影響著數(shù)據(jù)挖掘的準(zhǔn)確性以及效率,所以,當(dāng)面對(duì)海量的大規(guī)模數(shù)據(jù)的分類情況時(shí),選擇一個(gè)最為合適有效的分類方法是非常重要的。
[關(guān)鍵詞]數(shù)據(jù)挖掘;分類算法;決策樹(shù)
一、數(shù)據(jù)挖掘和分類算法的基本概述
數(shù)據(jù)挖掘作為一個(gè)交叉學(xué)科領(lǐng)域,它包括了機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)和信息科學(xué)等,所以會(huì)受到多個(gè)學(xué)科的影響。從本質(zhì)來(lái)看,數(shù)據(jù)挖掘其實(shí)是一種支持決策的過(guò)程,它的主要的技術(shù)手段就是統(tǒng)計(jì)方法,這些統(tǒng)計(jì)方法包括多元統(tǒng)計(jì)方法、數(shù)理化統(tǒng)計(jì)方法以及時(shí)間序列分析方法等,除此之外,近年來(lái)數(shù)據(jù)挖掘也出現(xiàn)了新的統(tǒng)計(jì)思路發(fā)展,比如人工神經(jīng)網(wǎng)路、統(tǒng)計(jì)學(xué)和專家系統(tǒng)技術(shù)等。其主要的特點(diǎn)就是能夠深度自動(dòng)分析原有的混亂的大數(shù)據(jù),然后從中找出規(guī)律從而歸納推理挖掘出新的隱含的有價(jià)值的模式,依次來(lái)預(yù)測(cè)客戶的行為,從而有利于決策者做出最為正確有效的決定。
目前數(shù)據(jù)挖掘的研究方向主要有分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則挖掘,序列模式發(fā)現(xiàn)以及趨勢(shì)發(fā)現(xiàn)等,但其中最成熟、最重要的研究方向是分類挖掘,所以說(shuō),分類算法是數(shù)據(jù)挖掘中最為重要的技術(shù)之一,同時(shí)也是數(shù)據(jù)挖掘中至關(guān)重要的一個(gè)研究課題。分類的主要目的就是構(gòu)造一個(gè)分類器,也就是分類模型,而這個(gè)模型就是能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)給映射到其同一類別的某一個(gè)中,因此分類算法可用于提取重要數(shù)據(jù)和用來(lái)預(yù)測(cè)未來(lái)數(shù)據(jù)趨勢(shì)。分類通過(guò)對(duì)輸入的數(shù)據(jù)進(jìn)行分析表現(xiàn)出來(lái)的特性,再為每一類找到其準(zhǔn)確的模型,由此來(lái)對(duì)未來(lái)的測(cè)試數(shù)據(jù)進(jìn)行分類。雖然這些數(shù)據(jù)是未知的是混亂的,但我們?nèi)匀豢梢愿鶕?jù)模型來(lái)預(yù)測(cè)這些新數(shù)據(jù)的歸屬類別,因此我們也可以更好地理解數(shù)據(jù)庫(kù)中數(shù)據(jù)的每一類別。換句話說(shuō),我們獲得了對(duì)這一類別的知識(shí)的了解。
其中包括三種分類器比較評(píng)價(jià):預(yù)測(cè)準(zhǔn)確度、計(jì)算復(fù)雜度和模型描述簡(jiǎn)潔度。預(yù)測(cè)準(zhǔn)確度是目前用的最多的一種比較評(píng)價(jià)尺度,尤其是對(duì)于預(yù)測(cè)性的分類任務(wù);計(jì)算復(fù)雜度是在數(shù)據(jù)挖掘中依賴具體的硬件環(huán)境和操作細(xì)節(jié),所以最重要的一個(gè)環(huán)節(jié)就是時(shí)間和空間的復(fù)雜度;而模型描述的簡(jiǎn)潔度指的是對(duì)于描述性的分類任務(wù),模型越簡(jiǎn)潔實(shí)用越受到喜愛(ài)。但大部分的分類算法都是內(nèi)存駐留算法,不過(guò)最近市面上出現(xiàn)了新的可伸縮性的分類技術(shù),比如神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、貝葉斯算法和決策樹(shù)算法。這些算法可以處理大量的駐留在磁盤(pán)的數(shù)據(jù),而在這些新興的分類算法中,決策樹(shù)相關(guān)算法又是最為重點(diǎn)研究的課題方向,同時(shí)研究成果也較之其他方法較多。
二、幾種分類算法
(一)神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)算法是指通過(guò)一定的規(guī)則把簡(jiǎn)單的神經(jīng)元連接在一起構(gòu)成新的網(wǎng)絡(luò)系統(tǒng),這種系統(tǒng)能夠模擬人類大腦的結(jié)構(gòu)和功能,可以應(yīng)用某種學(xué)習(xí)算法來(lái)從數(shù)據(jù)樣本中進(jìn)行學(xué)習(xí),然后把獲取到的知識(shí)儲(chǔ)存在網(wǎng)絡(luò)各個(gè)單元間的連接權(quán)中,其中連接權(quán)值就是一個(gè)分布式的矩形結(jié)構(gòu)。在學(xué)習(xí)算法階段,神經(jīng)網(wǎng)絡(luò)通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)來(lái)使其可以預(yù)測(cè)出輸入樣本的正確類別。這種神經(jīng)網(wǎng)絡(luò)算法主要有三種模型:前向神經(jīng)網(wǎng)絡(luò)模型、后向神經(jīng)網(wǎng)絡(luò)模型和自組織網(wǎng)絡(luò)模型。其中應(yīng)用最為廣泛的就是前向神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練時(shí)間很長(zhǎng),因?yàn)樗枰罅康臄?shù)據(jù)參數(shù),而這些參數(shù)一般主要依靠經(jīng)驗(yàn)確定,例如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是能夠承受較高的噪聲數(shù)據(jù),以及先天擁有較高的對(duì)數(shù)據(jù)進(jìn)行分類的能力,而缺點(diǎn)就是由于過(guò)于依賴經(jīng)驗(yàn)導(dǎo)致可解釋性差。
(二)遺傳算法
遺傳算法是指通過(guò)模擬生物進(jìn)化過(guò)程來(lái)達(dá)到全局優(yōu)化的方法,把初始的較劣解通過(guò)一系列遺傳算子在求解空間內(nèi)按照一定隨機(jī)規(guī)則來(lái)搜索直到得到問(wèn)題的最優(yōu)解。遺傳算法的優(yōu)勢(shì)就是具有隱含并行性及易于和其他模型相結(jié)合,使得它廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域,還可以與BP算法結(jié)合來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),使其可以從網(wǎng)絡(luò)提規(guī)則。它的劣勢(shì)就是在數(shù)據(jù)挖掘中遺傳算法較為復(fù)雜,而且還存在收斂于局部極小的過(guò)早收斂等問(wèn)題。
(三)貝葉斯分類算法
貝葉斯分類算法是一種基于概率統(tǒng)計(jì)學(xué)的貝葉斯定理,在已知先前概率和類似條件概率的情況下,對(duì)成員關(guān)系進(jìn)行預(yù)測(cè)的一種分類算法模式,比如計(jì)算一個(gè)給定樣本的屬于一個(gè)特定類別的概率,同時(shí)選定其中最大概率的一個(gè)類別作為該樣本的最終類別。利用先驗(yàn)概率再驗(yàn)分布的貝葉斯方法十分的直觀,而且只需要掃描一次訓(xùn)練數(shù)據(jù)就可以得出模型,但是由于貝葉斯分類假設(shè)的前提是各變量之間相互獨(dú)立,因此需要提前對(duì)連續(xù)的數(shù)據(jù)進(jìn)行分類,所以對(duì)解決實(shí)際問(wèn)題有過(guò)高要求。
貝葉斯分類算法常見(jiàn)的有兩種模型,樸素貝葉斯算法和貝葉斯信念網(wǎng)絡(luò)算法。樸素貝葉斯分類算法模型可用于大型的數(shù)據(jù)庫(kù),同時(shí)也表現(xiàn)出了較高的速度與準(zhǔn)確性,這些特性可以和神經(jīng)網(wǎng)絡(luò)算法和決策樹(shù)算法相媲美。雖然從理論上來(lái)看,樸素貝葉斯算法與其他所有算法相比具有較高的準(zhǔn)確性,但是實(shí)際來(lái)講,并不是這樣,因?yàn)闃闼刎惾~斯算法對(duì)其應(yīng)用的假定具有不準(zhǔn)確性,并且缺乏可用的概率數(shù)據(jù),同時(shí),樸素貝葉斯算法也沒(méi)有規(guī)則的輸出。所以針對(duì)該缺點(diǎn),研究出現(xiàn)了一些可以降低獨(dú)立性假設(shè)的貝葉斯改進(jìn)分類算法,比如半樸素貝葉斯算法、貝葉斯網(wǎng)絡(luò)信念算法等。所以另外一種常見(jiàn)的貝葉斯分類算法模型就是貝葉斯信念網(wǎng)絡(luò)模型,它是一種圖形模型,是由兩部分組成的。貝葉斯信念網(wǎng)絡(luò)模型的—個(gè)至關(guān)重要的特性就是他有—個(gè)結(jié)點(diǎn),如果已知其父母結(jié)點(diǎn),那么其條件獨(dú)立于其的所有非后代結(jié)點(diǎn),所以說(shuō)也可以用貝葉斯網(wǎng)絡(luò)信念來(lái)代表樸素貝葉斯分類其中的條件獨(dú)立假設(shè)。
用概率來(lái)表示各種形式的不確定性是貝葉斯分類算法的關(guān)鍵所在,貝葉斯算法還可以用來(lái)對(duì)不直接使用貝葉斯定理的其他分類算法提供依據(jù)。同時(shí)基于聚類分析思想,可提出一種更加合理可信的各方面都優(yōu)于樸素貝葉斯算法的修補(bǔ)算法。將貝葉斯算法的先驗(yàn)信息和決策樹(shù)分類算法的信息增益法相結(jié)合,也就是將貝葉斯分類算法和決策樹(shù)分類算法的優(yōu)點(diǎn)相結(jié)合,那么在處理不完整或不一致的大量數(shù)據(jù)時(shí),就會(huì)比單一的使用貝葉斯算法或單一的使用決策樹(shù)算法更加有效率且準(zhǔn)確度也會(huì)更高。
(四)決策樹(shù)分類算法
決策樹(shù)分類算法運(yùn)用的是決策樹(shù)技術(shù),決策樹(shù)技術(shù)則是用來(lái)分類和預(yù)測(cè)的主要技術(shù)。它采用的是自上向下的分支方式構(gòu)造,著重于從一組無(wú)規(guī)則、無(wú)順序的事例中來(lái)推理出決策樹(shù)從而表示形式的分類規(guī)則,它是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。決策樹(shù)分類算法能夠很好地學(xué)習(xí)分析噪聲數(shù)據(jù)得出表達(dá)式,是目前被使用的最為廣泛地分類算法之一。所謂的決策樹(shù)就是一種用來(lái)表示人們?yōu)榱俗龀瞿硞€(gè)決策進(jìn)行的一系列判斷過(guò)程的樹(shù)形結(jié)構(gòu),它包括決策結(jié)點(diǎn)、分支節(jié)點(diǎn)、葉子節(jié)點(diǎn)等。決策樹(shù)最上面的節(jié)點(diǎn)就是根節(jié)點(diǎn),表示整個(gè)決策樹(shù)的開(kāi)始,然后從根節(jié)點(diǎn)再到葉子節(jié)點(diǎn)的一條路徑就形成了一條合取規(guī)則,那整棵決策樹(shù)對(duì)應(yīng)的就是一組表達(dá)式規(guī)則。決策樹(shù)中的每個(gè)決策結(jié)點(diǎn)代表的是在一個(gè)屬性上的測(cè)試,每個(gè)分支代表的是一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表的是類或類分布。也就是說(shuō),決策樹(shù)分類算法就是通過(guò)比較決策樹(shù)和樣本的屬性,來(lái)對(duì)未知的樣本進(jìn)行分類。
決策樹(shù)分類算法的優(yōu)點(diǎn)首先是決策樹(shù)易于被理解和解釋,這樣人們?cè)谕ㄟ^(guò)合理的解釋后才會(huì)有能力去更好的理解決策樹(shù)所表達(dá)的含義;其次是對(duì)于決策樹(shù),它能夠同時(shí)處理常規(guī)型的和數(shù)據(jù)型屬性,同時(shí)數(shù)據(jù)的準(zhǔn)備不像其他技術(shù)一樣要先把數(shù)據(jù)單一化;然后是決策樹(shù)可以在相對(duì)較短的時(shí)間內(nèi)對(duì)大型數(shù)據(jù)進(jìn)行分析做出有效可行且效果良好的結(jié)果,而且決策樹(shù)算法易于通過(guò)靜態(tài)測(cè)試來(lái)對(duì)模型進(jìn)行評(píng)測(cè);最后關(guān)鍵的是決策樹(shù)可以很好擴(kuò)展到大型的數(shù)據(jù)庫(kù)中,同時(shí)其大小又能相對(duì)獨(dú)立于數(shù)據(jù)庫(kù)的大小。雖然決策樹(shù)分類算法有很多優(yōu)勢(shì),但它也有其局限性,比如決策樹(shù)對(duì)于數(shù)據(jù)缺失情況的處理比較困難,在處理數(shù)據(jù)時(shí)會(huì)出現(xiàn)過(guò)度擬合的問(wèn)題。而且對(duì)于那些類別不一樣的數(shù)據(jù),決策樹(shù)的處理結(jié)果更偏向于那些具有更多數(shù)值的特征而忽略了數(shù)據(jù)集中屬性之間的相關(guān)性。在決策樹(shù)建樹(shù)過(guò)程中,沒(méi)有哪一種屬性選擇的方法是最好的,每種方法都會(huì)存在它的優(yōu)缺點(diǎn),只有合適與不合適之分。但總而言之,決策樹(shù)分類算法是當(dāng)前數(shù)據(jù)挖掘中所采用的最為成熟有效的一種分類規(guī)則學(xué)習(xí)方法,因?yàn)樗庇^易于被理解、被實(shí)現(xiàn),也易于提取規(guī)則,達(dá)到較高的效率。
三、總結(jié)
分類和預(yù)測(cè)是數(shù)據(jù)挖掘中最重要的部分之一,對(duì)于數(shù)據(jù)挖掘的分類算法有很多,近年來(lái)又出現(xiàn)了很多新的改進(jìn)的算法,比如基于貝葉斯的TAN算法和基于粗糙集的決策樹(shù)算法等。在數(shù)據(jù)挖掘應(yīng)用中,用戶要根據(jù)數(shù)據(jù)的特點(diǎn)來(lái)選擇合適的分類算法或者是混合的交互分類算法。在以后的工作中,為了更進(jìn)一步的提高分類的準(zhǔn)確性同時(shí)將達(dá)其計(jì)算的復(fù)雜性,就更應(yīng)該綜合多領(lǐng)域的技術(shù),力將分類算法與多學(xué)科相互交叉滲透,使其向著更加多樣化的方向發(fā)展。