亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)的隨機(jī)森林分類方法及其應(yīng)用

2016-12-31 00:00:00張艷翠

科技創(chuàng)新與應(yīng)用 2016年29期

摘要：隨機(jī)森林算法（RF）是一種將決策分類樹綜合起來的預(yù)測(cè)及分類的算法，RF首先將眾多分類樹匯總起來，進(jìn)而提高模型精度，由于隨機(jī)森林利用的是Bootstrap方法進(jìn)行抽樣，進(jìn)而產(chǎn)生許多個(gè)Bootstrap樣本，建立新的分類模型，但是Bootstrap抽樣方法也有它自身的缺點(diǎn)，降低了隨機(jī)森林模型的效率和精確度。文章提出將改進(jìn)的Bootstrap方法（BLB）運(yùn)用到隨機(jī)森林模型中，減少評(píng)估估計(jì)質(zhì)量的計(jì)算成本，提高其分類預(yù)測(cè)的效率。

關(guān)鍵詞：隨機(jī)森林；機(jī)器學(xué)習(xí)；BLB重抽樣；數(shù)據(jù)挖掘

引言

在數(shù)據(jù)和信息急劇膨脹的今天，人們可以很容易的獲取數(shù)據(jù)和信息，如何對(duì)這些數(shù)據(jù)做有效處理，從中挖掘出有價(jià)值的信息，在原有統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工具的基礎(chǔ)上，進(jìn)行進(jìn)一步優(yōu)化研究是大數(shù)據(jù)處理領(lǐng)域的熱點(diǎn)問題之一。分類分析一直是數(shù)據(jù)挖掘中的熱點(diǎn)問題之一，但是由于單分類器自身的限制，有學(xué)者開始提出將眾多分類器的分類結(jié)果通過某種方式整合在一起，產(chǎn)生隨機(jī)森林算法。在大數(shù)據(jù)的背景之下，Ishwaran等人[1]之前驗(yàn)證過隨機(jī)森林的一致性及收斂性，并認(rèn)為隨機(jī)森林在高維數(shù)據(jù)等方面[2]明顯優(yōu)于其余分類方法。Breiman將Bagging集成學(xué)習(xí)理論[3]和Kam的隨機(jī)子空間方法[4]結(jié)合起來，并且對(duì)隨機(jī)森林方法從原理及應(yīng)用等方面進(jìn)行了詳細(xì)的論述。

1 改進(jìn)的隨機(jī)森林分類方法

1.1 BLB算法

BLB抽樣方法[5]是在Bootstrap的基礎(chǔ)上進(jìn)行改進(jìn)的重抽樣方

1.2 改進(jìn)的隨機(jī)森林的算法步驟

（1）采用BLB重抽樣方法重復(fù)抽取n個(gè)樣本，將其作為一個(gè)訓(xùn)練集；（2）建立決n棵決策樹，使用基尼指數(shù)作為進(jìn)行評(píng)估，形成不需要剪枝的完整樹；（3）將測(cè)試集的測(cè)試結(jié)果采用多數(shù)投票法（Majo

rity Voting），得票最多的類別就是分類結(jié)果。

2 改進(jìn)的隨機(jī)森林算法的應(yīng)用

自然界中，探險(xiǎn)者發(fā)現(xiàn)了三種肉眼分不太清的形態(tài)相似的植物，首先我們找到四個(gè)量度指標(biāo)（W1，W2，W3，W4），然后通過運(yùn)行改進(jìn)的隨機(jī)森林算法的程序進(jìn)行種類識(shí)別。表1給出了具體數(shù)據(jù)。

具體代碼運(yùn)行過程如下，得到改進(jìn)的隨機(jī)森林的結(jié)果。

In stall. packages（\"Im-random Forest\"） #安裝改進(jìn)的隨機(jī)森林程序包

Library（Im-random Forest）#調(diào)用改進(jìn)的隨機(jī)森林程序包

Plant<- read.txt（\"c：/data/plant.txt\"）#往Plant中輸入數(shù)據(jù)

IRF1

Plant[‘kinds’]，Importance=RIGHT， ntree=20000）#運(yùn)行改進(jìn)的隨機(jī)森林模型

IRF1#顯示出模型運(yùn)算結(jié)果

最后輸出由該量度判斷出的植物類別。

表2中顯示模型對(duì)A的判別失誤率為20%，對(duì)B、C的錯(cuò)誤判斷率均為0，比經(jīng)典的隨機(jī)森林模型高出8%。

運(yùn)行改進(jìn)的隨機(jī)森林算法的程序產(chǎn)生的結(jié)果內(nèi)部會(huì)含有一組判別函數(shù)，通過運(yùn)行下列代碼判定植物的種類。

New. data<-data. frame（W1=10，W2=40，W3=20，W4=10）#一個(gè)新植物的量度

Predict（IRF，new.data，Type=\"prob\"）#判別此量度的植物歸類為三種植物的概率

Predict（IRF，new.data，Type=\"Frequency Response\"）#判別此量度的植物的類別。

判別的結(jié)果為A，B，C的概率分別為90.3%，9.3%，6.4%。因此將其判別為A種植物。

3 結(jié)束語

近年來，隨機(jī)森林在理論及方法上有了很大提升，眾多學(xué)者也對(duì)其進(jìn)行各種改進(jìn)。文章中所提出的改進(jìn)的隨機(jī)森林算法雖然能在處理很大數(shù)據(jù)時(shí)，提高運(yùn)算速度，但是改進(jìn)的隨機(jī)森林在預(yù)測(cè)分類等方面仍然有一些不足之處。大數(shù)據(jù)已經(jīng)滲透到我們的生活中，隨機(jī)森林算法也應(yīng)該與時(shí)俱進(jìn)，對(duì)其進(jìn)行改進(jìn)已成為眾學(xué)者不可推卸的任務(wù)。

參考文獻(xiàn)

[1]Ishwaran H， Kogalur U B， Blackstone E H， Lauer M S. Random Survival Forests [J]. The Annals of Applied Statistics，2008，2（3）：18-28.

[2]Ishwaran H， Udaya B， Kogalur. Consistency of Random Survival Forests[J]. Statistics and Probability Letters， 2010，80（9）：13 -14.

[3]L.Breiman. Bagging Predicators[J].Machine Learning，1996，24（2）：123-140.

[4]T. K. Ho，he Random Subspace Method for Constructing Decision Forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，1998，20（8）：832-844.

[5]L. Breiman，Random Forests [J].Machine Learning，2001，45（1）：5-32.

科技創(chuàng)新與應(yīng)用2016年29期

科技創(chuàng)新與應(yīng)用的其它文章: 淺析消防防火監(jiān)督工作開展的難點(diǎn); 探析GPS土地測(cè)繪精確度的影響因素; 提升消防部隊(duì)滅火救援實(shí)戰(zhàn)化建設(shè)的探討; 計(jì)量檢測(cè)工作中計(jì)算機(jī)信息技術(shù)的運(yùn)用; 石嘴山“9.30”大風(fēng)氣象風(fēng)險(xiǎn)服務(wù)效果評(píng)估; 數(shù)字城市云數(shù)據(jù)中心應(yīng)用研究