蔡雨昕
摘 要:數(shù)據(jù)挖掘,即利用大量的、不完整的、隨機的實際應(yīng)用數(shù)據(jù),提取潛在其中的有用信息,解決相關(guān)問題。針對圖像特征數(shù)據(jù),利用提取的圖像特征向量的基礎(chǔ)上,基于決策樹對圖像數(shù)據(jù)進行分類處理,并對生成的決策樹進行優(yōu)化和剪枝處理。
關(guān)鍵詞:圖像分類;決策樹;交叉驗證誤差;信息增益
中圖分類號:TB 文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2019.28.097
0 引言
本文已知樣本數(shù)為10000個,23個特征形成的向量,并且,樣本已分為0與1兩類。在此基礎(chǔ)上,我們運用決策樹模型進行分類器的訓練。分別利用算葉子結(jié)點所含最小樣本數(shù)和剪枝的方法對決策樹進行優(yōu)化,并比較分類結(jié)果,得到最后決策樹模型。
1 模型假設(shè)
(1)所給的樣本集中無重復樣本;
(2)圖像特征的提取均正確可靠;
(3)屬性之間的關(guān)聯(lián)性較弱。
2 模型建立
2.1 決策樹的建立
針對不同的屬性,首先我們考慮信息熵。假設(shè)其中的一個離散屬性a,有n個可能的取值,則當使用屬性a來對數(shù)據(jù)集D來劃分時,會產(chǎn)生n個不同的分支結(jié)點,其中第m個結(jié)點在屬性a上取值為am的樣本,將其記為Dm,則對應(yīng)的信息熵為:
其中Dmk表示Dm中分類為k的樣本。其次,在考慮到樹上不同的分支結(jié)點所包含樣本個數(shù)的不同,則分別對分支節(jié)點進行賦權(quán)。利用屬性a,劃分所獲得的信息增益為:
基于上述理論,利用MATLAB軟件進行決策樹分類器的訓練。我們從10000個樣本中取9000個樣本數(shù)據(jù)進行訓練,得到以下決策樹模型,如圖 1所示。
從圖中不難看出,原始決策樹體系龐大且復雜。隨后,將測試的10000個樣本通過決策樹模型進行分類。結(jié)果顯示,樣本正確分類的概率為81%,其中正確分為1的概率為86.48%,正確分為0的概率為66.04%。
2.2 決策樹優(yōu)化
關(guān)于決策樹,其葉子節(jié)點數(shù)會影響樹的生長情況及性能。優(yōu)化時,為找到最優(yōu)的葉子結(jié)點最小樣本取值,我們首先在10至1000的范圍內(nèi),等距取200個點進行遍歷。結(jié)果顯示,葉子結(jié)點的最小樣本數(shù)隨取值的增大,它的交叉驗證誤差也呈現(xiàn)增大的趨勢。隨后,我們將范圍縮小至10-100,等距取50個點進行遍歷,遍歷結(jié)果如圖 2所示。
由上圖可以發(fā)現(xiàn),當取值約為15時,模型的交叉驗證誤差是最小的。因此,我們將葉子結(jié)點處的最小樣本數(shù)限制為15。為檢驗優(yōu)化后模型分類效果,我們計算優(yōu)化前后交叉驗證誤差進行比較。結(jié)果顯示,優(yōu)化前為0.1912,優(yōu)化后為0.2043,因此舍棄該方法。
2.3 決策樹剪枝
為減少異常數(shù)據(jù)對決策樹模型的影響,得到更好的分類效果,我們采用剪枝的方法進行優(yōu)化和簡化。葉結(jié)點的數(shù)量越多,反映了決策樹對訓練數(shù)據(jù)的細節(jié)問題反映了越多,繼而弱化了泛化的能力。因此,我們采用后剪枝的方法進行處理,結(jié)果如圖3。
為驗證剪枝后的決策樹分類情況,進行了誤差檢驗。結(jié)果顯示,剪枝后交叉驗證誤差為0.1917,僅比剪枝前的大了0.0005,可以忽略不計。此時建立決策樹為最終模型。
參考文獻
[1]王惠中,彭安群.數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢[J].工礦自動化,2011,37(02):29-32.
[2]欒麗華,吉根林.決策樹分類技術(shù)研究[J].計算機工程,2004,(09):94-96+105.
[3]楊明,張載鴻.決策樹學習算法ID3的研究[J].微機發(fā)展,2002,(05):6-9.
[4]唐華松,姚耀文.數(shù)據(jù)挖掘中決策樹算法的探討[J].計算機應(yīng)用研究,2001,(08):18-19+22.