【摘要】 實驗中討論了在中草藥數(shù)據(jù)分類應(yīng)用中兩種分類器算法multiclassclassifier和adaboostM1的分類性能的問題,在weka平臺上實驗可知,這兩種分類器算法中adaboostM1的分類精度比較高。
【關(guān)鍵詞】 中草藥 AdaBoostM1 weka
一、概述
AdBoostM1算法是目前一種流行的組合分類器算法,把它用在傳統(tǒng)的分類器算法上,并應(yīng)用于中草藥分類,使傳統(tǒng)的分類器性能得到進一步提升。而在實驗平臺WEKA上的multiclassclassifier算法也是一種分類器算法,是元學(xué)習(xí)算法中的一種。
本文在實驗中首先在weka平臺上用兩種算法對草藥數(shù)據(jù)集進行分類,然后再對這兩種算法的分類精度進行對比,實驗表明:在實驗數(shù)據(jù)集為輸入樣本集的情況下,AdaboostM1算法的分類精度比較高。
二、平臺WEKA簡介
WEKA全稱Waikto Environlnent for Knowledge Analysis,即懷卡托智能分析環(huán)境的縮寫,是一款免費的非商業(yè)化的機器學(xué)習(xí)和數(shù)據(jù)挖掘軟件[1]。該平臺是用JAVA語言編寫,故有很好的可移植性,研究人員可以根據(jù)自己的研究對平臺里面已經(jīng)存在的傳統(tǒng)的經(jīng)典算法進行修改,使得修改后的算法適合自己的研究領(lǐng)域。
該平臺對所有的機器學(xué)習(xí)及數(shù)據(jù)挖掘分析領(lǐng)域的研究愛好者開放,經(jīng)過這些研究者和愛好者的補充,WEKA平臺的內(nèi)容及里面的經(jīng)典算法在原有的基礎(chǔ)上得到了很大的擴充,特別是優(yōu)秀的算法在Weka上基本上都能找的到,為研究者提供了良好的實驗條件。
三、在Weka上用AdaBoost算法及幾種單分類算法對草藥數(shù)據(jù)進行分類
本文所進行的實驗在Weka3-7-1平臺上完成,用三種草藥三七、人參、西洋參的指紋圖譜數(shù)據(jù)作為實驗的數(shù)據(jù)集。
本實驗對數(shù)據(jù)集采用5重交叉驗證,然后取其分類精度做為最終的分類性能,則其分類精度體現(xiàn)了它的分類性能,分類精度越高表示分類性能越好。
multiclassclassifier的參數(shù)設(shè)置如下:
基分類器為decisionstump,randomwidthfactor是2.0,seed為1,其他的為默認參數(shù)設(shè)置。
AdaboostM1的參數(shù)設(shè)置如下:
基分類器為decisionstump,numiteration為10,seed為1,weightThresold為100。
之后執(zhí)行RUN界面的START指令,再進入ANALYSE界面載入文件選擇分析分類精度,可得到這些算法的平均分類精度如表1所示。
四、實驗結(jié)果與分析
從表1可以看出,在實驗的中草藥數(shù)據(jù)集中,AdaBoostM1算法的分類精度大于multiclassclassifier算法的分類精度。
五、結(jié)論
綜上所述,在中草藥分類領(lǐng)域,在與multiclassclassifier算法比較下,可以利用AdaBoostM1算法來提高傳統(tǒng)分類器算法的分類精度,使用AdaBoostM1算法來進行草藥數(shù)據(jù)集的分類以達到高的精度。
參 考 文 獻
[1] Witten,1.H.and Frank,E.Data Mining practical machine leaning tool sand techniques,second edition. 北京,機械工業(yè)出版社,2006