摘 要:隨機(jī)森林算法(RF)是一種將決策分類樹綜合起來的預(yù)測(cè)及分類的算法,RF首先將眾多分類樹匯總起來,進(jìn)而提高模型精度,由于隨機(jī)森林利用的是Bootstrap方法進(jìn)行抽樣,進(jìn)而產(chǎn)生許多個(gè)Bootstrap樣本,建立新的分類模型,但是Bootstrap抽樣方法也有它自身的缺點(diǎn),降低了隨機(jī)森林模型的效率和精確度。文章提出將改進(jìn)的Bootstrap方法(BLB)運(yùn)用到隨機(jī)森林模型中,減少評(píng)估估計(jì)質(zhì)量的計(jì)算成本,提高其分類預(yù)測(cè)的效率。
關(guān)鍵詞:隨機(jī)森林;機(jī)器學(xué)習(xí);BLB重抽樣;數(shù)據(jù)挖掘
引言
在數(shù)據(jù)和信息急劇膨脹的今天,人們可以很容易的獲取數(shù)據(jù)和信息,如何對(duì)這些數(shù)據(jù)做有效處理,從中挖掘出有價(jià)值的信息,在原有統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工具的基礎(chǔ)上,進(jìn)行進(jìn)一步優(yōu)化研究是大數(shù)據(jù)處理領(lǐng)域的熱點(diǎn)問題之一。分類分析一直是數(shù)據(jù)挖掘中的熱點(diǎn)問題之一,但是由于單分類器自身的限制,有學(xué)者開始提出將眾多分類器的分類結(jié)果通過某種方式整合在一起, 產(chǎn)生隨機(jī)森林算法。 在大數(shù)據(jù)的背景之下,Ishwaran等人[1]之前驗(yàn)證過隨機(jī)森林的一致性及收斂性,并認(rèn)為隨機(jī)森林在高維數(shù)據(jù)等方面[2]明顯優(yōu)于其余分類方法。Breiman將Bagging集成學(xué)習(xí)理論[3]和Kam的隨機(jī)子空間方法[4]結(jié)合起來,并且對(duì)隨機(jī)森林方法從原理及應(yīng)用等方面進(jìn)行了詳細(xì)的論述。
1 改進(jìn)的隨機(jī)森林分類方法
1.1 BLB算法
BLB抽樣方法[5]是在Bootstrap的基礎(chǔ)上進(jìn)行改進(jìn)的重抽樣方
1.2 改進(jìn)的隨機(jī)森林的算法步驟
(1)采用BLB重抽樣方法重復(fù)抽取n個(gè)樣本,將其作為一個(gè)訓(xùn)練集;(2)建立決n棵決策樹,使用基尼指數(shù)作為進(jìn)行評(píng)估,形成不需要剪枝的完整樹;(3)將測(cè)試集的測(cè)試結(jié)果采用多數(shù)投票法(Majo
rity Voting),得票最多的類別就是分類結(jié)果。
2 改進(jìn)的隨機(jī)森林算法的應(yīng)用
自然界中,探險(xiǎn)者發(fā)現(xiàn)了三種肉眼分不太清的形態(tài)相似的植物,首先我們找到四個(gè)量度指標(biāo)(W1,W2,W3,W4),然后通過運(yùn)行改進(jìn)的隨機(jī)森林算法的程序進(jìn)行種類識(shí)別。表1給出了具體數(shù)據(jù)。
具體代碼運(yùn)行過程如下,得到改進(jìn)的隨機(jī)森林的結(jié)果。
In stall. packages(\"Im-random Forest\") #安裝改進(jìn)的隨機(jī)森林程序包
Library(Im-random Forest)#調(diào)用改進(jìn)的隨機(jī)森林程序包
Plant<- read.txt(\"c:/data/plant.txt\")#往Plant中輸入數(shù)據(jù)
IRF1 Plant[‘kinds’],Importance=RIGHT, ntree=20000)#運(yùn)行改進(jìn)的隨機(jī)森林模型 IRF1#顯示出模型運(yùn)算結(jié)果 最后輸出由該量度判斷出的植物類別。 表2中顯示模型對(duì)A的判別失誤率為20%,對(duì)B、C的錯(cuò)誤判斷率均為0,比經(jīng)典的隨機(jī)森林模型高出8%。 運(yùn)行改進(jìn)的隨機(jī)森林算法的程序產(chǎn)生的結(jié)果內(nèi)部會(huì)含有一組判別函數(shù),通過運(yùn)行下列代碼判定植物的種類。 New. data<-data. frame(W1=10,W2=40,W3=20,W4=10)#一個(gè)新植物的量度 Predict(IRF,new.data,Type=\"prob\")#判別此量度的植物歸類為三種植物的概率 Predict(IRF,new.data,Type=\"Frequency Response\")#判別此量度的植物的類別。 判別的結(jié)果為A,B,C的概率分別為90.3%,9.3%,6.4%。因此將其判別為A種植物。 3 結(jié)束語 近年來,隨機(jī)森林在理論及方法上有了很大提升,眾多學(xué)者也對(duì)其進(jìn)行各種改進(jìn)。文章中所提出的改進(jìn)的隨機(jī)森林算法雖然能在處理很大數(shù)據(jù)時(shí),提高運(yùn)算速度,但是改進(jìn)的隨機(jī)森林在預(yù)測(cè)分類等方面仍然有一些不足之處。大數(shù)據(jù)已經(jīng)滲透到我們的生活中,隨機(jī)森林算法也應(yīng)該與時(shí)俱進(jìn),對(duì)其進(jìn)行改進(jìn)已成為眾學(xué)者不可推卸的任務(wù)。 參考文獻(xiàn) [1]Ishwaran H, Kogalur U B, Blackstone E H, Lauer M S. Random Survival Forests [J]. The Annals of Applied Statistics,2008,2(3):18-28. [2]Ishwaran H, Udaya B, Kogalur. Consistency of Random Survival Forests[J]. Statistics and Probability Letters, 2010,80(9):13 -14. [3]L.Breiman. Bagging Predicators[J].Machine Learning,1996,24(2):123-140. [4]T. K. Ho,he Random Subspace Method for Constructing Decision Forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844. [5]L. Breiman,Random Forests [J].Machine Learning,2001,45(1):5-32.