【摘要】 討論了在中草藥數(shù)據(jù)分類應(yīng)用中兩種分類器算法multiboostAB和adaboostM1的分類性能的問(wèn)題,在weka平臺(tái)上實(shí)驗(yàn)可知,這兩種分類器算法中adaboostM1的分類精度比較高。
【關(guān)鍵詞】 中草藥 AdaBoostM1 weka
一、概述
以往對(duì)于中草藥的分類一般都是采用傳統(tǒng)的單分類算法,如最近鄰分類算法、神經(jīng)網(wǎng)絡(luò)算法等,本實(shí)驗(yàn)研究的是把組合分類器算法應(yīng)用于中草藥數(shù)據(jù)的分類中,使用了目前比較流行的adaboostM1算法,與該算法進(jìn)行比較的也是一種元學(xué)習(xí)算法,該算法為multiboostAB分類器算法。
本文首先在weka平臺(tái)上用兩種分類器算法對(duì)草藥數(shù)據(jù)集進(jìn)行分類,然后再對(duì)這兩種算法的分類精度進(jìn)行對(duì)比,實(shí)驗(yàn)表明:在實(shí)驗(yàn)數(shù)據(jù)集為輸入樣本集的情況下,AdaboostM1算法的分類精度比較高。
二、AdaBoost 算法
AdaBoost 算法的基本思想可以概括為:
(1)對(duì)實(shí)驗(yàn)中的每個(gè)樣本 X都賦予一個(gè)權(quán)重W。
(2)對(duì)輸入的訓(xùn)練數(shù)據(jù)進(jìn)行K次迭代學(xué)習(xí)。每次迭代后,對(duì)其中分類錯(cuò)誤的樣本進(jìn)行加大權(quán)重修改,使得下次進(jìn)行迭代時(shí)把重點(diǎn)放在這些樣本上。
(3)同時(shí)對(duì)于算法中的每個(gè)弱分類器都有一個(gè)原始的權(quán)重α,隨著迭代的進(jìn)行,每個(gè)弱分類器的權(quán)重進(jìn)行修改,其中正確率高的分類器權(quán)重也相對(duì)高。
三、在Weka上用AdaBoost算法及幾種單分類算法對(duì)草藥數(shù)據(jù)進(jìn)行分類
本文所進(jìn)行的實(shí)驗(yàn)在Weka3-7-1平臺(tái)上完成,用三種草藥三七、人參、西洋參的指紋圖譜數(shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集。本實(shí)驗(yàn)采用的方法是對(duì)數(shù)據(jù)集采用5重交叉驗(yàn)證,實(shí)驗(yàn)得出的分類精度體現(xiàn)為分類性能,分類精度越高表示分類效果越好。
multiboostAB的參數(shù)設(shè)置如下:
基分類器為decisionstump,numiteration是10,numsubcmtys為3,seed為1,weightThreshold為100,其他的為默認(rèn)參數(shù)設(shè)置。
AdaboostM1的參數(shù)設(shè)置如下:
基分類器為decisionstump,numiteration為10,seed為1,weightThresold為100。
之后執(zhí)行RUN界面的START指令,再進(jìn)入ANALYSE界面載入文件選擇分析分類精度,可得到這些算法的平均分類精度如表1所示。
四、實(shí)驗(yàn)結(jié)果與分析
從表1可以看出,在實(shí)驗(yàn)的中草藥數(shù)據(jù)集中,AdaBoostM1算法的分類精度大于multiboostAB算法的分類精度。
五、結(jié)論
綜上所述,在中草藥分類領(lǐng)域,在與multiboostAB算法比較下,可以利用AdaBoostM1算法來(lái)提高傳統(tǒng)分類器算法的分類精度,使用AdaBoostM1算法來(lái)進(jìn)行草藥數(shù)據(jù)集的分類以達(dá)到高的精度。
參 考 文 獻(xiàn)
[1] Witten,1.H.and Frank,E.Data Mining practical machine leaning tool sand techniques,second edition. 北京,機(jī)械工業(yè)出版社,2006