【摘要】 討論了在中草藥數(shù)據(jù)分類應(yīng)用中兩種分類器算法:屬性選擇分類器算法和adaboostM1算法的分類性能的問題,在WEKA平臺上實驗可知,這兩種經(jīng)典組合分類器算法中屬性選擇分類器算法的分類精度比較高。
【關(guān)鍵詞】 中草藥 AdaBoostM1 WEKA
一、概述
組合分類器算法是現(xiàn)在比較流行的分類器算法,基本思想是利用組合的很多個單分類器來彌補單分類器對數(shù)據(jù)分類器的不足,從而提高分類器的分類性能。而屬性選擇分類器算法是WEKA平臺上的一種傳統(tǒng)分類器算法,本文在WEKA平臺上用這兩種算法對草藥數(shù)據(jù)集進行分類,然后再對這兩種算法的分類精度進行對比,實驗表明:在實驗數(shù)據(jù)集為輸入樣本集的情況下,屬性選擇分類器算法的分類精度比adaboostM1算法的分類精度高。
二、AdaBoost 算法介紹
1988 年,Kearns等在研究 PAC 學(xué)習(xí)模型時提出了一個有趣的問題:弱可學(xué)習(xí)是否等價于強可學(xué)習(xí),即Boosting問題。如果這一問題有肯定的回答,意味著只要找到比隨機猜測略好的弱學(xué)習(xí)算法,就可以將其提升為強學(xué)習(xí)算法,而不必直接去尋找通常情況下很難獲得的強學(xué)習(xí)算法,這對學(xué)習(xí)算法的設(shè)計有著重要的意義。在更深入的研究中,F(xiàn)reund 等發(fā)現(xiàn):在線分配問題與Boostin問題之間存在著很強的相似性,引入在線分配算法的設(shè)計思想,有助于設(shè)計出更實用的 Boosting算法。他們將加權(quán)投票的相關(guān)研究成果與在線分配問題結(jié)合,并在Boostin問題框架下進行對應(yīng)推廣,得到了著名的AdaBoost算法。該算法不再要求預(yù)知弱學(xué)習(xí)算法的任何先驗知識,在實踐中獲得了極大的成功[1]。
三、在Weka上用AdaBoost算法及幾種單分類算法對草藥數(shù)據(jù)進行分類
本文所進行的實驗在Weka3-7-1平臺上完成,用三種草藥三七、人參、西洋參的指紋圖譜數(shù)據(jù)作為實驗的數(shù)據(jù)集。對輸入的三種草藥數(shù)據(jù)集采用5重交叉驗證,取其分類精度來表現(xiàn)它們的分類性能,分類精度越高表示分類性能越好。
屬性選擇分類器的參數(shù)設(shè)置如下:
基分類器為decisionstump,evaluator 是classifiersubseteval,search為linearforwardselection。
AdaboostM1的參數(shù)設(shè)置如下:
基分類器為decisionstump,numiteration為10,seed為1,weightThresold為100。
之后執(zhí)行RUN界面的START指令,再進入ANALYSE界面載入文件選擇分析分類精度,可得到這些算法的平均分類精度如表1所示。
四、實驗結(jié)果與分析
從表1可以看出,在實驗的中草藥數(shù)據(jù)集中,屬性選擇分類器算法的分類精度大于adaboostM1算法的分類精度。
五、結(jié)論
綜上所述,在中草藥分類領(lǐng)域,在與adaboostM1算法比較下,可以利用屬性選擇分類器算法來提高傳統(tǒng)分類器算法的分類精度,也說明了在特定的數(shù)據(jù)集中,一些單分類器算法的分類性能可能會比組合分類器算法高的。
參 考 文 獻
[1] 曹瑩,苗啟廣,劉家辰,高琳. AdaBoost算法研究進展與展望[J]. 自動化學(xué)報,2013,06:745-758