楊 云, 盧美靜, 穆天紅
(1.陜西科技大學(xué) 電氣與信息工程學(xué)院, 陜西 西安 710021; 2.青海省農(nóng)牧業(yè)市場信息中心,青海 西寧 810008)
基于AdaBoost-SVM的葡萄酒品質(zhì)分類模型優(yōu)化設(shè)計(jì)
楊 云1, 盧美靜1, 穆天紅2
(1.陜西科技大學(xué) 電氣與信息工程學(xué)院, 陜西 西安 710021; 2.青海省農(nóng)牧業(yè)市場信息中心,青海 西寧 810008)
針對(duì)傳統(tǒng)葡萄酒品質(zhì)分類中低品質(zhì)類葡萄酒樣本識(shí)別率低的問題,提出一種基于集成支持向量機(jī)的葡萄酒品質(zhì)分類優(yōu)化算法.首先,通過“一對(duì)多”支持向量機(jī)實(shí)現(xiàn)多分類;其次,把支持向量機(jī)作為基分類器,反復(fù)訓(xùn)練支持向量機(jī)分類樣本,通過AdaBoost得到多個(gè)支持向量機(jī)基分類器組合的強(qiáng)分類器,運(yùn)用AdaBoost算法動(dòng)態(tài)調(diào)整樣本權(quán)值,適當(dāng)提高低品質(zhì)類樣本權(quán)重,使低品質(zhì)類中錯(cuò)判的樣本代價(jià)增大,從而改進(jìn)不平衡樣本分類性能;最后,以Wine Quality數(shù)據(jù)集為研究對(duì)象,建立以多分類器優(yōu)化集成為核心的葡萄酒品質(zhì)分類模型.仿真結(jié)果表明,與傳統(tǒng)的SVM算法相比,所提方法顯著提高了低品質(zhì)類葡萄酒分類精度.
分類; 支持向量機(jī); 集成學(xué)習(xí); 葡萄酒品質(zhì); 不平衡數(shù)據(jù)
隨著我國市場經(jīng)濟(jì)的蓬勃發(fā)展和人們對(duì)葡萄酒消費(fèi)需求的迅速增加,葡萄酒行業(yè)正處于一個(gè)高速發(fā)展的時(shí)期[1].葡萄酒品質(zhì)一直以來都是消費(fèi)者以及生產(chǎn)者最關(guān)心的問題,尤其是對(duì)于中高檔的葡萄酒來說,葡萄酒品質(zhì)高低近乎決定了其價(jià)值的高低[2].傳統(tǒng)葡萄酒品質(zhì)分類方法主要通過感官分析法,但這種方法易受到評(píng)酒人員嗜好、經(jīng)驗(yàn)等因素的影響,通常使得評(píng)定存在一定主觀性和不確定性[3].因此有學(xué)者研究基于數(shù)據(jù)挖掘的葡萄酒品質(zhì)分類方法.最初,Cortez等[4]提出采用支持向量分類算法建立葡萄酒品質(zhì)分類模型.之后,徐海濤[5]在Cortez工作基礎(chǔ)上進(jìn)行了優(yōu)化,提出采用改進(jìn)的近似支持向量機(jī)方法進(jìn)行葡萄酒品質(zhì)分類,其目標(biāo)是改進(jìn)其分類精度;劉延玲[6]提出基于一種新的Hopfield神經(jīng)網(wǎng)絡(luò)分類模型,使得該模型能夠在較短收斂時(shí)間內(nèi)實(shí)現(xiàn)葡萄酒品質(zhì)分類.
現(xiàn)有研究雖然能夠取得較高分類準(zhǔn)確率,但沒有考慮樣本數(shù)據(jù)分布不平衡的特點(diǎn),忽略了低品質(zhì)類葡萄酒樣本分類精度.實(shí)際在葡萄酒品質(zhì)分類過程中,高品質(zhì)葡萄酒被誤判為低品質(zhì)葡萄酒所產(chǎn)生的成本遠(yuǎn)小于忽視低品質(zhì)問題而造成的損失.本文采用與上述文獻(xiàn)同樣的數(shù)據(jù)集,充分考慮葡萄酒樣本數(shù)據(jù)分布,以提高低品質(zhì)類葡萄酒識(shí)別率為目標(biāo),提出一種基于集成學(xué)習(xí)改進(jìn)的支持向量機(jī)葡萄酒品質(zhì)分類優(yōu)化模型.提取樣本數(shù)據(jù)特征,建立數(shù)據(jù)分析模型,通過實(shí)驗(yàn)驗(yàn)證,該方法可以準(zhǔn)確識(shí)別葡萄酒品質(zhì)類別,有效提高低品質(zhì)葡萄酒分類精度.
不平衡數(shù)據(jù)是指樣本類之間呈現(xiàn)不相等的數(shù)據(jù)分布,其中某些類的樣本數(shù)遠(yuǎn)遠(yuǎn)多于其他類的樣本數(shù).通常標(biāo)準(zhǔn)的分類算法是偏向樣本數(shù)量多的類,沒有將數(shù)據(jù)分布考慮在內(nèi)并且使用總體精度作為訓(xùn)練目標(biāo)[7].在最壞的情況下,少樣本類會(huì)被視為多樣本類的異常點(diǎn)而被忽略,從而導(dǎo)致少樣本類分類性能下降.
隨著集成學(xué)習(xí)理論體系的不斷發(fā)展完善,集成學(xué)習(xí)方法通過使用不同權(quán)重加權(quán)的投票策略,有效解決了非平衡數(shù)據(jù)集分類問題[8].對(duì)于多類不平衡數(shù)據(jù)集分類問題,可以通過分解策略將多類分類問題轉(zhuǎn)化為更容易解決的二分類問題[9].文中提出采用一對(duì)多支持向量機(jī)方法,在一類樣本與剩余的多類樣本之間構(gòu)造分類平面,從而達(dá)到多類識(shí)別的目的.
2.1 支持向量機(jī)原理
支持向量機(jī)(Support Vector Machine,SVM)是 Vapnik等提出的一種應(yīng)用于二類平衡數(shù)據(jù)集分類的有效算法,其核心思想是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小原理尋找最優(yōu)分類平面[10].如圖1所示,以二元線性可分問題為例,所謂最優(yōu)分類面,就是能將兩類樣本點(diǎn)正確分類,且要使兩類的分類空隙最大[11].線性分類平面描述如式(1)所示.
ωT·x+b=0,x∈Rd
(1)
式(1)中:ω和b分別表示權(quán)重向量和最優(yōu)超平面偏移.
圖1 最優(yōu)分類超平面示意圖
對(duì)于非線性分類問題,支持向量機(jī)通過引入核函數(shù),通過一個(gè)非線性函數(shù)φ(·)將訓(xùn)練數(shù)據(jù)集X映射到某個(gè)高維線性特征空間,在變換空間求最優(yōu)分類面,并得到分類器的決策函數(shù)[12].采用適當(dāng)?shù)暮撕瘮?shù)K(xi,xj),并使K(xi,xj)=φ(xi)·φ(xj),把優(yōu)化問題中的所有點(diǎn)積運(yùn)算都運(yùn)用核函數(shù)運(yùn)算代替,得到對(duì)偶最優(yōu)化問題見式(2).
(2)
采用拉格朗日乘子法,得到最優(yōu)判別函數(shù)見式(3).
(3)
2.2 AdaBoost算法
集成學(xué)習(xí)的基本思想是對(duì)同一問題通過集成多個(gè)基分類器共同決策的機(jī)器學(xué)習(xí)技術(shù),通過調(diào)用簡單的分類算法,獲得多個(gè)不同的基分類器,并使用某種策略將基分類器組合成一個(gè)強(qiáng)分類器[13].Boosting算法[14]是被廣泛使用的集成學(xué)習(xí)算法,AdaBoost算法[15]是Boosting算法的代表算法,其核心原則是反復(fù)修改訓(xùn)練樣本集權(quán)重分布擬合一系列基分類器.在每次迭代過程中,增大錯(cuò)分類樣本權(quán)重,減小正確分類樣本權(quán)重,使得基分類器聚焦在那些很難分的樣本上,根據(jù)調(diào)整權(quán)重后的訓(xùn)練樣本重新進(jìn)行學(xué)習(xí),這使得分類器在下次迭代過程中更關(guān)注被錯(cuò)分的樣本,循環(huán)迭代此過程,所有弱基分類器的預(yù)測通過加權(quán)多數(shù)投票法,最終得到一個(gè)強(qiáng)分類器[16].該方法對(duì)非平衡數(shù)據(jù)集分類有利.
運(yùn)用AdaBoost-SVM分類算法進(jìn)行集成分類器設(shè)計(jì),主要有兩個(gè)問題,一是核函數(shù)及參數(shù)選擇;二是改善標(biāo)準(zhǔn)支持向量機(jī)對(duì)非平衡數(shù)據(jù)集分類效果不佳問題.AdaBoost-SVM算法是把基于徑向基核函數(shù)(RBF)的SVM作為AdaBoost的基分類器,并應(yīng)用網(wǎng)格搜索法[17]進(jìn)行參數(shù)優(yōu)化.主要的設(shè)計(jì)思路:(1)基于隨機(jī)采樣,由原始樣本D產(chǎn)生m個(gè)訓(xùn)練子集;(2)訓(xùn)練子集由Di(i=1,2,…,m)產(chǎn)生子分類器SVMi;(3)采用加權(quán)多數(shù)投票法組合得到強(qiáng)分類器.具體實(shí)現(xiàn)過程如圖2所示.
圖2 AdaBoost-SVM算法流程圖
AdaBoost-SVM具體算法描述如下:
輸入:訓(xùn)練集D={(x1,y1),(x2,y2),…,(xm,ym)};基分類器RBFSVM,訓(xùn)練循環(huán)次數(shù)T.
Step1:初始化.訓(xùn)練集權(quán)值分布Dt(i)=1/N,循環(huán)次數(shù)t=1;
Step2:參數(shù)選擇.利用網(wǎng)格搜索方法在D上進(jìn)行十折交叉驗(yàn)證法求得SVM基分類器建模最優(yōu)參數(shù)(C,σ);
Step3:訓(xùn)練基分類器.
Step3.1:Fort=1, 2 …T;
Step3.2:通過具有權(quán)值分布D1(i)的訓(xùn)練集得到第t次弱學(xué)習(xí)器Ht=L(D,Dt);
Step3.3:根據(jù)式(4)計(jì)算Ht的錯(cuò)誤率εt;
(4)
Step3.4:
IF:0<εt<=0.5,根據(jù)式(5)計(jì)算權(quán)重值αt,根據(jù)式(6)更新樣本權(quán)重;
(5)
(6)
t++;跳轉(zhuǎn)至Step3.2繼續(xù)執(zhí)行.
ELSE:跳轉(zhuǎn)至步驟4,結(jié)束循環(huán).
Step4:構(gòu)建基分類器的線性組合.訓(xùn)練T輪后得到T組弱分類器Ht(x),由T組弱分類器組合得到強(qiáng)分類器H(X)如式(7)所示.
(7)
基于AdaBoost-SVM的葡萄酒品質(zhì)分類系統(tǒng)如圖3所示,包括了分類器設(shè)計(jì)的核心模塊.如上文所述,葡萄酒品質(zhì)分類屬于多類分類問題,文中采用一對(duì)余類支持向量機(jī)(1-against-the rest SVM)方法將其轉(zhuǎn)換為多個(gè)二類分類,在某類樣本與剩余多類樣本間構(gòu)造決策平面,從而達(dá)到多類分類的目的.如圖3所示,AdaBoost-SVM分類器:AdaBoost-SVM1表示低等級(jí)(類0)和中(類1)、高(類2)等級(jí)間的分類器;AdaBoost-SVM2表示中等級(jí)(類1)和高等級(jí)(類2)間的分類器.
圖3 葡萄酒品質(zhì)分類系統(tǒng)框圖
假設(shè)第k類樣本看做正類(j=0,1,2),而將其余k-1類樣本合并看做負(fù)類,通過二分SVM方法求出一個(gè)決策函數(shù)如式(8)所示:
(8)
5.1 數(shù)據(jù)采集及預(yù)處理
實(shí)驗(yàn)數(shù)據(jù)來自UCI數(shù)據(jù)庫[18]中的Wine Quality數(shù)據(jù)集,該數(shù)據(jù)集共4 898個(gè)樣本數(shù)據(jù),每一個(gè)樣本由11個(gè)理化指標(biāo)(特征變量)和1個(gè)感官指標(biāo)(目標(biāo)變量)組成,具體的理化指標(biāo)統(tǒng)計(jì)量如表1所示.感官指標(biāo)指的是品酒師的感官評(píng)價(jià)結(jié)果,也就是葡萄酒的品質(zhì)等級(jí),按照十分制的評(píng)分標(biāo)準(zhǔn)將葡萄酒分為0(最差)到10(最優(yōu)),樣本數(shù)據(jù)共7個(gè)等級(jí):3~9.由于數(shù)據(jù)集中有些類別樣本數(shù)過少,為了方便研究,文中依據(jù)感官評(píng)價(jià)結(jié)果將葡萄酒品質(zhì)分為3個(gè)等級(jí),具體等級(jí)劃分標(biāo)準(zhǔn)以及每個(gè)等級(jí)的樣本分布如表2所示,三類樣本的非平衡比例約為1∶20∶6.
表1 葡萄酒理化指標(biāo)
表2 等級(jí)劃分及每個(gè)等級(jí)的樣本分布情況
如表1所示,酒石酸的測量值介于[3.8,14.2] g/dm3之間,而總SO2的測量值則介于[9,400] mg/dm3之間,為了提高最后分類的準(zhǔn)確率,對(duì)樣本數(shù)據(jù)集進(jìn)行歸一化預(yù)處理.本文采用最大最小歸一化法,將所有屬性歸一到[0,1]之間,計(jì)算方法見式(9):
(9)
在Python中使用StandardScaler().fit_transform (Data)函數(shù)對(duì)數(shù)據(jù)集歸一化處理,如某樣本酒石酸初始值為7.0,則xnormalization=(7.0-3.80)/(14.20-3.80)=0.31.
5.2 模型構(gòu)建
經(jīng)過數(shù)據(jù)預(yù)處理后,根據(jù)建模樣本數(shù)據(jù)建立基于AdaBoost-SVM算法的葡萄酒品質(zhì)分類模型.在建立分類模型過程中,為了防止過擬合,樣本數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集如表3所示.
表3 樣本數(shù)據(jù)
在訓(xùn)練支持向量機(jī)的時(shí)候,選取高斯徑向基核(RBF)作為支持向量機(jī)核函數(shù),包括兩個(gè)核參數(shù):C和σ.選擇適當(dāng)?shù)腃和σ,對(duì)于支持向量的性能是至關(guān)重要的,過低的參數(shù)C使決策表面光滑,而過高的C會(huì)出現(xiàn)訓(xùn)練樣本過擬合現(xiàn)象.文中使用網(wǎng)格搜索法選取有效的參數(shù)(C,σ).設(shè)C和σ的搜索范圍分別為[10-1,103]和[10-5,105],可以嘗試5×11= 55種參數(shù)組合,選擇使得分類器的正確率保持在50%~60%之間的參數(shù)組合,經(jīng)過多次實(shí)驗(yàn)當(dāng)(C,σ)取(1, 0. 01)時(shí)訓(xùn)練得到的分類器就可以滿足系統(tǒng)算法的需要.
當(dāng)C=10,σ=0.01時(shí),使用訓(xùn)練數(shù)據(jù)集訓(xùn)練支持向量機(jī)模型.構(gòu)建2個(gè)子分類器,AdaBoost-SVM1和AdaBoost-SVM2.建立模型之后,首先使用訓(xùn)練數(shù)據(jù)集進(jìn)行回判,然后使用測試數(shù)據(jù)集進(jìn)行測試,分類結(jié)果如表4和表5所示.對(duì)于訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集來說,AdaBoost-SVM1和AdaBoost-SVM2子分類器的分類準(zhǔn)確率均達(dá)到90%以上.最后,將子分類器的分類結(jié)果通過加權(quán)多數(shù)投票法得到AdaBoost-SVM的分類結(jié)果混淆矩陣如表5所示.混淆矩陣對(duì)角線上元素表示每個(gè)等級(jí)類被正確分類的樣本數(shù),第一行說明類0的60個(gè)樣本有44個(gè)分類正確,16個(gè)錯(cuò)分為類1.最終,測試數(shù)據(jù)集共有892個(gè)樣本被正確分類, AdaBoost-SVM分類器取得了91.02%(892/980)的準(zhǔn)確率.
表4 AdaBoost-SVM子分類器分類結(jié)果
表5 AdaBoost-SVM分類結(jié)果混淆矩陣
5.3 對(duì)比分析
為了比較AdaBoost-SVM的分類性能,基于同一樣本數(shù)據(jù)集,以及相同的參數(shù)值(C,σ),采用標(biāo)準(zhǔn)SVM算法再次進(jìn)行分類實(shí)驗(yàn),分類結(jié)果如表6和表7所示.對(duì)比發(fā)現(xiàn),表6和表7基于AdaBoost-SVM算法的分類結(jié)果均優(yōu)于表4和表5基于標(biāo)準(zhǔn)SVM算法的分類結(jié)果.并且從實(shí)驗(yàn)的結(jié)果上可以看出,基于AdaBoost-SVM分類器各等級(jí)的分類正確率都有了明顯的提升,例如類0的分類準(zhǔn)確率由原來的46.67%提高到優(yōu)化后的73.33%.同理,由表7的混淆矩陣計(jì)算可得,最終SVM分類器的分類準(zhǔn)確率為85.51%(838/980).
表6 SVM子分類器分類結(jié)果
表7 SVM分類器分類結(jié)果混淆矩陣
非平衡數(shù)據(jù)集分類器常用正類覆蓋率(True Positive Rate,TPR)和負(fù)類覆蓋率(False Positive Rate,F(xiàn)PR)來衡量其分類性能,正類覆蓋率是指在葡萄酒樣本中正確識(shí)別出低品質(zhì)葡萄酒的概率,負(fù)類覆蓋率是指在非低品質(zhì)樣本中分類結(jié)果是否定的比例,分別表示為公式(10)、(11):
TP/(TP+FN)
(10)
FN/(TP+TN)
(11)
式(10)、(11)中,其中TP為正確的肯定、FN為錯(cuò)誤的否定、FP為錯(cuò)誤的肯定,TN為正確的否定.
以TPR為縱軸,F(xiàn)PR為橫軸,繪制標(biāo)準(zhǔn)支持向量機(jī)與集成支持向量機(jī)的葡萄酒品質(zhì)分類器的ROC曲線,分別繪制在如圖4~5中,曲線下面積記為AUC,AUC越大則模型分類效果越好.當(dāng)且僅當(dāng)AUC>0.5 and AUC<=1,分類器才是有價(jià)值的.ROC分析結(jié)果顯示,標(biāo)準(zhǔn)支持向量機(jī)AUC約為0.85±0.045,表現(xiàn)為82.80%的TPR和100%的FPR,集成支持向量機(jī)AUC約為0.89±0.045,表現(xiàn)為86.72%的TPR和100%的FPR,說明基于AdaBoost-SVM的葡萄酒品質(zhì)分類器有良好的分類性能.
圖4 ROC Curve of SVM
圖5 ROC Curve of AdaBoost-SVM
基于AdaBoost-SVM分類算法的葡萄酒品質(zhì)分類模型,克服了現(xiàn)有葡萄酒品質(zhì)分類方法存在的缺點(diǎn),有效解決了非平衡葡萄酒樣本數(shù)據(jù)分類效果不佳的問題.文中所提算法與標(biāo)準(zhǔn)SVM算法分類結(jié)果進(jìn)行對(duì)比分析,分析結(jié)果表明文中算法有效地改善了標(biāo)準(zhǔn)SVM對(duì)非平衡數(shù)據(jù)集的分類效果,使得低品質(zhì)類葡萄酒樣本識(shí)別率得到了很大提高的同時(shí),整體樣本分類性能以及泛化能力也得到了提升.因此該方法也可以被集成到支持決策系統(tǒng)中,輔助提高釀酒師的釀酒速度以及質(zhì)量.
[1] 何 瑜.中國葡萄酒產(chǎn)業(yè)競爭力研究[D].楊凌:西北農(nóng)林科技大學(xué),2014.
[2] Baker A K,Ross C F.Sensory evaluation of impact of wine matrix on red wine finish: A preliminary study[J].Sensory Studies,2014,29(2):139-148.
[3] 邵志芳.葡萄酒品質(zhì)分析方法研究進(jìn)展[J].中國釀造,2015,34(4):17-20.
[4] Paulo Cortez,Antonio Cerdeira,Fernando Almeida,et al.Modeling wine preferences by data mining from physicochemical properties[J].Decision Support Systems,2009,47(4):547-553.
[5] 徐海濤.改進(jìn)的近似支持向量機(jī)在葡萄酒質(zhì)量鑒定中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2010,38(29):16 105-16 106.
[6] 劉延玲.新的Hopfield神經(jīng)網(wǎng)絡(luò)分類器在葡萄酒質(zhì)量評(píng)價(jià)中的應(yīng)用[J].價(jià)值工程,2012,35(2):181-182.
[7] Jose A.Seas,Bartosz Krawczyk, Michal Wozniak.Analyzing the oversampling of different classes and types of examples in multi-class imbalanced datasets[J].Pattern Recognition,2016,3(12): 164-178.
[8] 黃久玲.面向失衡數(shù)據(jù)集的集成學(xué)習(xí)分類方法及其應(yīng)用研究[D].黑龍江:哈爾濱理工大學(xué),2015.
[9] Zhong liang Zhang, Bartosz Krawczyk,Salvador Garcia,et al.Empowering one-vs-one decomposition with ensemble learning for multi-class imbalanced[J].Knowledge-Based Systems,2016,5(48):251-263.
[10] 顧燕萍,趙文杰,吳占松.最小二乘支持向量機(jī)魯棒回歸算法研究[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,55(4):396-402.
[11] 袁興梅,楊 明,楊 楊.一種面向不平衡數(shù)據(jù)的結(jié)構(gòu)化SVM 集成分類器[J].模式識(shí)別與人工智能,2013,26(3):315-320.
[12] 呂 鋒,李 翔,杜文霞.基于MultiBoost的集成支持向量機(jī)分類方法及其應(yīng)用[J].控制與決策,2015,30(1):81-85.
[13] 李 勇,劉戰(zhàn)東,張海軍.不平衡數(shù)據(jù)的集成分類算法綜述[J].計(jì)算機(jī)應(yīng)用研究,2014,31(5):1 287-1 291.
[14] 李秋潔,茅耀斌.基于數(shù)據(jù)重平衡的AUC優(yōu)化Boosting算法[J].自動(dòng)化學(xué)報(bào),2013,39(9):1 467-1 475.
[15] Ebenezer Owusu,Yong Zhao Zhan,Qi Rong Mao. An SVM-adaBoost-based face detection system[J].Journal of Experimental & Theoretical Artificial Intelligence,2014,26(4):477-491.
[16] 李 壘,任越美.基于改進(jìn)AdaBoost集成學(xué)習(xí)的空間目標(biāo)識(shí)別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015,32(8):202-205.
[17] 魏 峻.一種有效的支持向量機(jī)參數(shù)優(yōu)化算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(12):97-100,104.
[18] Paulo Cortez.Center for machine learning and intelligent systems[DB/OL].http://archive.ics.uci.edu/ml/datasets/Wine+Quality,2009-10-07.
【責(zé)任編輯:陳 佳】
Optimal design of wine quality classification model based on AdaBoost-SVM
YANG Yun1, LU Mei-jing1, MU Tian-hong2
(1.College of Electrical and Information Engineering, Shaanxi University of Science & Technology, Xi′an 710021,China; 2.Qinghai Agriculture and Animal Husbandry Market Information Center, Xining 810008, China)
Focused on the issue that traditional classification algorithms for wine quality classification have a low recognition rate to low-quality wines,an optimization algorithm based on ensemble Support Vector Machine (SVM) was proposed. Firstly,muti-class was accomplished by 1-against-the rest SVM;Secondly,SVM was repeatedly trained as weaker classifier and a strong classifier was gotten by grouping a number of base classifiers based on SVM.The sample weight were dynamically adjusted by using AdaBoost algorithm,the sample weight of low quality were appropriately increased,and then the cost of misjudge samples was also increased for improving classification performance of unbalanced datasets;Finally, the wine quality datasets of UCI database was taken as research object,the classification model of wines quality was established that using muti-classifiers optimal integration as the core.The simulation results show that compared with the standard SVM algorithm, classification accuracy of low quality wine was significantly improved based on AdaBoost-SVM.
classification; support vector machine; ensemble learning; wine quality; unbalanced data
2016-08-19
陜西省科技廳社會(huì)發(fā)展科技攻關(guān)計(jì)劃項(xiàng)目(2015SF277,2016SF-444); 陜西省科技廳科學(xué)技術(shù)研究發(fā)展計(jì)劃項(xiàng)目(2014K15-03V06); 西安市科技計(jì)劃項(xiàng)目(NC1403(2),NC1319(1))
楊 云(1965-),女,山東青島人,教授,博士,研究方向:嵌入式應(yīng)用、材料計(jì)算機(jī)應(yīng)用
1000-5811(2017)01-0178-05
TP391
A