童珂凡 張忠良* 雒興剛 曾 鳴 湯建國
1(杭州電子科技大學(xué)管理學(xué)院 浙江 杭州 310018)2(云南中煙工業(yè)有限責(zé)任公司技術(shù)中心 云南 昆明 650231)
卷煙的感官質(zhì)量是評(píng)價(jià)其品質(zhì)的重要指標(biāo)之一,一般包括光澤、香氣、諧調(diào)、雜氣、刺激性和余味等指標(biāo)。目前,煙草公司主要采用卷煙感官評(píng)估專家人工評(píng)吸的方式對(duì)卷煙感官質(zhì)量進(jìn)行評(píng)價(jià)。這種依賴專家經(jīng)驗(yàn)進(jìn)行卷煙感官質(zhì)量評(píng)價(jià)的方式存在諸多不足:首先,受到評(píng)吸專家主觀因素以及客觀環(huán)境的影響,不能保證評(píng)價(jià)結(jié)果的準(zhǔn)確性;其次,高強(qiáng)度的評(píng)吸工作會(huì)影響評(píng)吸專家的身體健康;最后,煙草行業(yè)面臨著日益嚴(yán)峻的市場競爭,要求相關(guān)企業(yè)在卷煙制品的開發(fā)和產(chǎn)品維護(hù)中具有更高的效率和靈活性。
為了解決上述問題,從事煙草研究的相關(guān)專家試圖采用智能方式對(duì)卷煙感官質(zhì)量進(jìn)行評(píng)價(jià)。文獻(xiàn)[1-5]表明,煙葉化學(xué)成分是卷煙感官質(zhì)量的物質(zhì)基礎(chǔ),很多研究致力于建立卷煙感官質(zhì)量與化學(xué)成分之間的映射關(guān)系,從而輔助卷煙感官質(zhì)量評(píng)估。近年來,采用數(shù)據(jù)挖掘技術(shù)構(gòu)建卷煙感官質(zhì)量評(píng)估模型受到了廣泛的關(guān)注。文獻(xiàn)[6]利用BP神經(jīng)網(wǎng)絡(luò)建立了卷煙感官質(zhì)量評(píng)估模型,而文獻(xiàn)[7]則采用基于支持向量機(jī)的技術(shù)對(duì)卷煙感官質(zhì)量評(píng)估進(jìn)行了研究??紤]卷煙感官評(píng)估中的錯(cuò)分代價(jià)敏感問題,文獻(xiàn)[8]提出了一種基于代價(jià)敏感學(xué)習(xí)的卷煙感官質(zhì)量評(píng)估方法。
然而,在卷煙感官質(zhì)量智能預(yù)測方面,現(xiàn)有研究大多使用單一分類器對(duì)卷煙感官質(zhì)量進(jìn)行預(yù)測。數(shù)據(jù)挖掘研究[10]表明,目前還不存在一種分類學(xué)習(xí)算法可以在任何情況下都比其他分類算法表現(xiàn)出更好的性能[10]。即使是針對(duì)同一分類問題,針對(duì)不同的預(yù)測樣本的特點(diǎn),不同的分類算法也表現(xiàn)出不同的分類效果。基于這個(gè)事實(shí),研究人員提出了動(dòng)態(tài)選擇分類器,并且成為了數(shù)據(jù)挖掘領(lǐng)域重要的研究方向。另一方面,文獻(xiàn)[11-12]表明,集成學(xué)習(xí)能夠有效改善學(xué)習(xí)效果,并且對(duì)不同分類問題具有良好的魯棒性。結(jié)合動(dòng)態(tài)分類器選擇和集成學(xué)習(xí)優(yōu)勢,人們提出了動(dòng)態(tài)分類器集成選擇策略,目前該策略是一種有效的數(shù)據(jù)挖掘手段[13-15]。
本文針對(duì)卷煙感官質(zhì)量智能化評(píng)估問題的特點(diǎn),提出了一種基于動(dòng)態(tài)分類器集成選擇的卷煙感官質(zhì)量預(yù)測方法。首先,利用分類算法訓(xùn)練得到20個(gè)不同的分類器形成分類器池;然后針對(duì)每一個(gè)測試樣本,采用一定的標(biāo)準(zhǔn)選擇符合要求的分類器;最后利用被選擇的分類器輸出預(yù)測結(jié)果。在候選分類器集合生成過程中,本文采用兩種方式:同種分類器集成和異種分類器集成。實(shí)驗(yàn)結(jié)果表明,無論采用何種候選分類器集合生成方式,動(dòng)態(tài)分類器集成方案在卷煙感官質(zhì)量評(píng)估中都能取得顯著的效果。
不同于靜態(tài)分類算法對(duì)不同的待分類樣本采用一致的分類器,動(dòng)態(tài)分類學(xué)習(xí)算法對(duì)每個(gè)待分類樣本選擇不同的分類器。一般地,動(dòng)態(tài)分類學(xué)習(xí)算法大致又可以分為動(dòng)態(tài)分類器選擇和動(dòng)態(tài)集成選擇。前者考慮對(duì)每個(gè)待測樣本盡量選擇最有競爭力的分類器,而后者則選擇最合適的分類器組合。圖1反映了動(dòng)態(tài)分類器選擇和動(dòng)態(tài)集成選擇的過程。
(a) 動(dòng)態(tài)分類器選擇
(b) 動(dòng)態(tài)集成選擇圖1 動(dòng)態(tài)分類學(xué)習(xí)算法示例
可以看出,動(dòng)態(tài)分類器集成大致可以分為4個(gè)步驟:(1) 生成候選分類器集合,分類器集合中的分類器可以采用同種分類學(xué)習(xí)算法得到也可以采用異質(zhì)分類學(xué)習(xí)算法獲得;(2) 評(píng)估候選分類器集合中每個(gè)基分類器對(duì)待測樣本分類性能;(3) 選擇最有競爭力的分類器或分類器組合;(4) 對(duì)待測樣本進(jìn)行預(yù)測。
動(dòng)態(tài)分類器選擇算法如算法1所示。本文采用文獻(xiàn)[16]所提出的算法,該方法采用待測未知樣本在訓(xùn)練集中的鄰域作為評(píng)估候選分類器池中基分類器的性能,分類準(zhǔn)確率最高的分類器被選擇預(yù)測未知樣本的標(biāo)識(shí)。
算法1動(dòng)態(tài)分類器選擇算法
輸入:分類器池C;訓(xùn)練集Tr;測試集Te;最近鄰參數(shù)k
For每個(gè)測試集Te中的樣本tdo
If所有的分類器的輸出結(jié)果一致then
1-將該類別賦予測試樣本t
Else
2-在訓(xùn)練集Tr中找到樣本t的k個(gè)最近鄰,由這些樣本構(gòu)成樣本t的鄰域Ψ
For每個(gè)分類器池C中的分類器cido
Endfor
Endif
Endfor
在動(dòng)態(tài)集成選擇方面,本文采用文獻(xiàn)[17]提出的方案。該方法采用基于隨機(jī)分類器來評(píng)估分類器的競爭力。分類器的競爭力采用如下方式計(jì)算:
(1)
算法2動(dòng)態(tài)集成選擇算法
輸入:分類器池C;訓(xùn)練集Tr;測試集Te;最近鄰參數(shù)k
For每個(gè)測試集Te中的樣本tdo
If所有的分類器的輸出結(jié)果一致then
2-將該類別賦予測試樣本t
Else
3-在訓(xùn)練集Tr中找到樣本t的k個(gè)最近鄰組成鄰域Ψ
For每個(gè)分類器池C中的分類器cido
IfCompetencei(ci|t)>0
Endif
Endfor
7-k=k-1
Ifk=0
Else
9-返回步驟3
Endif
Endif
Endif
Endfor
本文所采用的實(shí)驗(yàn)數(shù)據(jù)來自于國內(nèi)某煙草公司在2010年-2012年間針對(duì)成品煙的物理化學(xué)成份分析檢測和相應(yīng)的感官質(zhì)量人工專家評(píng)吸結(jié)果。表1描述了卷煙感官質(zhì)量評(píng)判標(biāo)準(zhǔn),樣本總量為684組數(shù)據(jù)。具體而言,物理化學(xué)指標(biāo)包括總糖量、還原糖、總揮發(fā)堿、煙堿量、總氮量、煙堿氮、蛋白質(zhì)、含鉀量、含氯量、氨態(tài)堿、糖堿比、氮堿比、施木克值,總計(jì)13項(xiàng),這些指標(biāo)將作為分類學(xué)習(xí)算法的輸入屬性;用于評(píng)估卷煙感官質(zhì)量的指標(biāo)包括香氣、光澤、諧調(diào)、刺激、雜氣和余味,共計(jì)6項(xiàng),這些指標(biāo)將分別作為分類學(xué)習(xí)算法的決策屬性。因此,本文考慮6組表示卷煙不同感官指標(biāo)的數(shù)據(jù)集。
表1 卷煙感官質(zhì)量評(píng)判標(biāo)準(zhǔn)
按照表1卷煙感官質(zhì)量評(píng)判標(biāo)準(zhǔn),由多位卷煙評(píng)吸專家以0.5為最小單位獨(dú)立地給出各感官指標(biāo)的評(píng)吸結(jié)果,然后計(jì)算每個(gè)感官指標(biāo)平均值作為相應(yīng)感官指標(biāo)的最終感官評(píng)價(jià)結(jié)果。我們得到的原始數(shù)據(jù)表中感官指標(biāo)的數(shù)值不是0.5為間隔的離散值,需要對(duì)感官結(jié)果進(jìn)行離散化處理。本文采用等區(qū)間的離散化處理方式,表2給出了卷煙感官評(píng)估指標(biāo)的離散化情況。例如,以光澤感官指標(biāo)為例,其評(píng)分標(biāo)準(zhǔn)為3~5,事實(shí)上在卷煙實(shí)際生產(chǎn)過程中感官質(zhì)量會(huì)滿足一定指標(biāo)要求,因此在光澤指標(biāo)上歷史數(shù)據(jù)中不存在分值小于3.75的情況,這樣將分值在[3.75,4.25]的樣本歸為第1類,(4.25,4.75]為第2類,(4.75,5]為第3類。
表2 卷煙感官指標(biāo)離散化情況
續(xù)表2
針對(duì)每個(gè)感官指標(biāo),按照表2的離散化區(qū)間將歷史數(shù)據(jù)轉(zhuǎn)化成分類問題,獲得光澤、香氣、諧調(diào)、雜氣、刺激性以及余味6個(gè)數(shù)據(jù)集,其基本信息如表3所示,其中#Ex.表示樣本數(shù)量,#Attr.表示屬性個(gè)數(shù),#Cl.表示類別數(shù)目,#Dc.表示樣本分布。
表3 感官評(píng)估數(shù)據(jù)集信息
此外,由于歷史數(shù)據(jù)的物化指標(biāo)量綱不同,需要進(jìn)行歸一化處理,本文采用下式進(jìn)行歸一化操作:
(2)
式中:xi是屬性取值;xmin是相應(yīng)屬性取值中的最小值;xmax是相應(yīng)屬性取值中的最大值。經(jīng)過歸一化處理之后,所有屬性取值在[0,1]之間。
本文采用5次5折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn)分析。首先將全部數(shù)據(jù)樣本隨機(jī)分為數(shù)據(jù)規(guī)模相似的5份并盡可能保持?jǐn)?shù)據(jù)分布的一致性。然后,每次取其中的4份訓(xùn)練算法獲得分類器,剩下的1份樣本作為測試集,計(jì)算分類器在測試集上的分類準(zhǔn)確率。每份數(shù)據(jù)集作一次測試集,就可以獲得5個(gè)測試結(jié)果,返回這5個(gè)結(jié)果的均值。重復(fù)進(jìn)行5次這樣的實(shí)驗(yàn),并返回5次的平均結(jié)果作為最終分類預(yù)測準(zhǔn)確率。
本文根據(jù)文獻(xiàn)[12]采用兩種方式產(chǎn)生候選分類器集合:同種類型的分類器和異質(zhì)分類器。在同種類型候選分類器集合中,分類器之間的差異通過有放回抽樣的方式獲得,也就是每個(gè)分類器使用不同的訓(xùn)練樣本得到。在異質(zhì)候選分類器集合中,每個(gè)分類器使用的訓(xùn)練樣本一致,分類器之間的差異通過不同類型的分類學(xué)習(xí)算法得到。本文中,同種類型候選分類器集合采用決策樹作為基分類器,而異質(zhì)候選分類器集合采用決策樹作為基分類器,兩種候選分類器集合中的基分類器個(gè)數(shù)均設(shè)置為20,所采用的分類學(xué)習(xí)算法和參數(shù)設(shè)置如表4所示。
表4 基礎(chǔ)分類器及其參數(shù)設(shè)置
本文采用以下方法進(jìn)行實(shí)驗(yàn)比較:
(1) 理想效果(Oracle):對(duì)于任意一個(gè)待測樣本,只要有一個(gè)分類器分類正確,則認(rèn)為該樣本被正確預(yù)測,因此這是動(dòng)態(tài)分類器選擇預(yù)測系統(tǒng)效果的上界,也是理想效果。
(2) 靜態(tài)分類器選擇(Static Classifier Selection, SCS):靜態(tài)選擇最優(yōu)的分類器,首先選擇在驗(yàn)證集上效果最好的分類器,然后采用該分類器對(duì)所有的未知樣本進(jìn)行標(biāo)識(shí)。
(3) 動(dòng)態(tài)分類器選擇(Dynamic Classifier Selection, DCS):針對(duì)每個(gè)被測樣本,首先確定被測樣本的鄰域,然后根據(jù)分類器在鄰域上的分類準(zhǔn)確率(Local Accuracy, LA),選擇最優(yōu)的分類器。其中鄰域的選擇采用兩種方式:k-最近鄰(K-Nearest Neighbor, KNN)和k平等最近鄰(K-Nearest Neighbor Equality, KNNE),而分類性能的計(jì)算又采用距離加權(quán)(Distance weighted, DW)和未加權(quán)兩種方式。因此,產(chǎn)生4種動(dòng)態(tài)分類器選擇的方式:LA-KNN(LK)、 LA-DW-KNN(LDK)、LA-KNNE(LKE)以及LA-DW-KNNE(LDKE)。
(4) 動(dòng)態(tài)集成選擇(Dynamic Ensemble Selection, DES):對(duì)每個(gè)待測樣本動(dòng)態(tài)地選擇分類器集合進(jìn)行預(yù)測,采用基于距離加權(quán)的分類器性能評(píng)估方法,最終的預(yù)測結(jié)果采用多數(shù)投票機(jī)制,其中最近鄰個(gè)數(shù)設(shè)置為10。
采用分類準(zhǔn)確率作為評(píng)價(jià)預(yù)測效果的標(biāo)準(zhǔn),即分類準(zhǔn)確率=(正確分類樣本數(shù)/樣本總數(shù))×100%。
采用同種分類器的實(shí)驗(yàn)結(jié)果如表5所示。從平均結(jié)果看,LA-DW-KNN取得了最優(yōu)的結(jié)果,而DES緊追其后,兩者效果表現(xiàn)差異不大。從具體數(shù)據(jù)集角度看,除了在香氣這個(gè)數(shù)據(jù)集上,DES取得了最優(yōu)的效果,LA-DW-KNN在其他數(shù)據(jù)集上取得的效果最好。另外,相比較于靜態(tài)分類器選擇,動(dòng)態(tài)分類器選擇方案具有明顯的優(yōu)勢。和理想情況相比,目前所取得的效果還有很大差距,理論上還有改進(jìn)的空間。為了更直觀地觀察各個(gè)算法在卷煙感官質(zhì)量預(yù)測中的效果,圖2給出了所有算法(包括理想情況)的預(yù)測結(jié)果的直方圖??梢钥闯?,LA-DW-KNN和DES比其他方法的預(yù)測效果更好。
表5 采用同質(zhì)分類器的實(shí)驗(yàn)結(jié)果
圖2 基于同種分類器集成的結(jié)果比較
采用異種分類器的實(shí)驗(yàn)結(jié)果如表6所示。不同于采用同種分類器產(chǎn)生分類器池所得到的實(shí)驗(yàn)結(jié)果,采用異種分類器產(chǎn)生分類器池的情況下,DES取得了最優(yōu)的效果,并且其總體效果也優(yōu)于前者。具體來看,除了在光澤數(shù)據(jù)集上,SCS取得了最優(yōu)的效果,在其他數(shù)據(jù)集上,DES均取得了最優(yōu)的效果。但相較于理想情況,還有很大的改進(jìn)空間。類似的結(jié)論也可以從圖3給出的直方圖中直觀地得出。
表6 采用異種分類器的實(shí)驗(yàn)結(jié)果
圖3 基于異種分類器集成的結(jié)果比較
本文采用動(dòng)態(tài)分類器選擇對(duì)卷煙感官質(zhì)量進(jìn)行預(yù)測,實(shí)驗(yàn)結(jié)果表明該方法可以有效改善預(yù)測效果。為了觀察基礎(chǔ)分類器對(duì)實(shí)驗(yàn)結(jié)果的影響,我們采用了兩種方式產(chǎn)生分類器池:同種分類器和異種分類器??傮w而言,當(dāng)采用同種分類器時(shí),LA-DW-KNN效果最好;而當(dāng)采用異種分類器時(shí),DES效果最優(yōu)。
雖然本文的研究表明采用動(dòng)態(tài)分類器選擇可以有效改善卷煙感官質(zhì)量預(yù)測的效果,但是本文只采用了幾種經(jīng)典的動(dòng)態(tài)分類器選擇方案,因此下一步將對(duì)不同動(dòng)態(tài)分類器選擇方案在卷煙感官質(zhì)量預(yù)測中的效果進(jìn)行比較實(shí)驗(yàn)。