章平泉,杜秀敏,金嵐峰,陳兆華,金殿明
(江蘇中煙工業(yè)有限責任公司淮陰卷煙廠,江蘇 淮安 223002)
不同的學者[1-2]對煙葉的可用性有不同的認識,一般認為可用性包括煙葉本身主觀的特征和客觀的要求,是可變的,是某種煙葉在特定的廠家的特定的卷煙制品中滿足其配方需求的程度[3]。目前煙葉可用性問題主要表現(xiàn)在以下幾個方面:煙葉香味風格尚不能完全滿足中式卷煙對原料的需要;部分煙葉的化學成分不夠協(xié)調;一些煙葉的外觀質量和內在質量不一致;煙葉質量的穩(wěn)定性較差。因此,如何提高和評價煙葉可用性是一項綜合性的系統(tǒng)工程[4]。隨著新理論、新技術的發(fā)展,人們提出了許多新模型和方法應用于煙葉可用性評價[5-9],但這些方法都存在著評價指標適宜值及評價因子權重難于客觀確定等不足。
支持向量機(Support Vector Machine,SVM)是建立在VC(Vapnik Chervonenkis)維理論和結構風險最小化準則基礎上的一種新型機器學習方法[10]。與神經網絡等傳統(tǒng)機器學習方法相比,SVM具有小樣本學習、泛化能力強等特點,能有效地避免過學習、局部極小點以及“維數災難”等問題[11]。目前,并沒有SVM應用于煙葉可用性預測的相關文獻報道。因此,本研究嘗試建立煙葉可用性SVM模型,并對模型的預測準確性進行驗證,以便更好地進行煙葉可用性評價,為卷煙產品配方維護和煙葉分組加工提供參考。
給定訓練集
超平面w·x+b=0能將兩類樣本正確區(qū)分,并使分類間隔最大的優(yōu)化問題可表示為:
當訓練集線性不可分時,任何超平面都必有劃分錯誤的樣本點。為此,引入松弛變量ξi≥0(i=1,…,n),約束條件為yi[w·x+b]+ξi? 1≥0(i=1,2,…,n),同時引進懲罰參數C作為對錯分樣本點的懲罰,此時優(yōu)化函數為:
優(yōu)化(2)式的對偶問題為:
由Kuhn-Tucker定理可知,對偶變量與約束的乘積為0,即:
如果ai=0,樣本xi稱為非支持向量;若ai>0樣本xi稱為支持向量,因此,最后得判別函數為:
對于非線性分類,使用非線性映射?把數據從原空間Rn映射到一個高維特征空間ω,在高維特征空間ω上建立優(yōu)化平面。此時,在非線性情況下支持向量機對分類問題稱為最大化函數:
此時決策面為:
最后得決策函數為:
其中K(x,xi)為核函數,核函數的選取應使其成為特征空間的一個點積,即存在函數?,使得K(x,xi)=φ(x) φ(xi),常用的核函數:
其中γ,r, 和d為核函數參數。
對于訓練集中第i和j類,需要解決以下二分類問題:
通過(6)式求出最終的決策函數為:
劉國順等[5]用化學成分(總氮、總糖、還原糖、施木克值、總植物堿和鉀)和物理特性(單葉重、含梗率、葉質重、平衡含水率和填充力)作為分類參數,運用主成分分析和聚類分析方法,對 44個煙葉樣本進行了分類,根據綜合得分把所有煙葉樣本分為5組。為了清晰區(qū)分樣品的分類屬性,根據文獻[5]的煙葉可用性評價結果,去除8和9號樣本,將剩余42個煙葉樣本分為4類,即可用性差(記為第 1類,共 8個樣本)、可用性較差(記為第 2類,共8個樣本)、可用性較好(記為第3類,共14個樣本)和可用性好(記為第4類,共12個樣本)(表1)。
從第1類至第4類樣品中分別隨機選取2、2、3和3個共計10個樣品組成預測集樣本,將其余32個樣品組成訓練集樣本建立煙葉可用性SVM預測模型,并對預測集樣本分類屬性進行預測。為了消除不同物理量綱的影響,對所有物理特性和化學指標按照x'=(x?min(x))/(max(x)?min(x))進行規(guī)范化處理,其中x'為某指標規(guī)范后的數值,min(x)=min(x1,x2,…xn);max(x)=max(x1,x2,…xn)。采用libsvm2.9軟件[12]建立SVM預測模型。
以文獻[5]中32個原始數據為訓練樣本集,用Fisher法[13]作模式識別投影圖。分別選取多項式函數、sigmoid函數以及RBF函數作為核函數建立SVM預測模型,采用k-折交叉驗證法確定最優(yōu)參數,并與Fisher法分析結果進行對比。結果如圖1和表2。
從圖1可以看出,F(xiàn)isher法訓練分類結果較好,但對預測集樣本的預測準確率只有70%。從表2可以看出,SVM方法對預測集樣本的預測準確率達到了80%~90%,明顯優(yōu)于前者,且以RBF為核函數建立的SVM模型預測結果最好,對訓練集和預測集樣本的預測準確率分別為84.38%和90%,表現(xiàn)出較強的泛化能力(建模參數為C=4,γ=0.25,ε=0.001),這可能是由于RBF可調參數少,在一般光滑性假設條件下具有良好的性能所致[14]。但另一方面,本研究建立的煙葉可用性SVM預測模型對訓練集和預測集的預測準確性仍有較大的提升空間,其原因可能有以下幾點:①試驗所選取的物理特性和化學成分只是影響煙葉可用性的一部分,而不是全部;②模型選擇影響SVM的性能;③預測準確性依賴于訓練集和預測集樣本的選取以及訓練集樣本的來源,數量及其代表性。
表1 煙葉可用性分組結果Table1 Grouping results of tobacco leaf usability
圖1 煙葉可用性的Fisher法分類投影圖Fig.1 The class projection chart of tobacco leaf usability forecast with Fisher method
表2 不同方法對預測集樣本預測結果的對比Table2 Comparison prediction results of forecast samples with different methods
運用不同的核函數建立煙葉可用性SVM預測模型,并與Fisher法分析結果進行對比。分析結果表明,煙葉可用性SVM預測模型比Fisher法分析結果均好,且以RBF為核函數建立的SVM分類預測模型能更佳地反映煙葉可用性與物理和化學指標之間的非線性關系。如何建立更好地評價煙葉可用性SVM分類預測模型,并準確地對煙葉可用性進行預測,還需綜合訓練集樣本選擇、評價指標的確定及SVM模型參數的選擇才能進一步、合理地確定。
[1]左天覺.煙草的生產,生理和生物化學[M].朱尊權,等,譯.上海:遠東出版社,1993.
[2]朱尊權.煙葉的可用性與卷煙的安全性[J].煙草科技,2000(8):3-6.
[3]唐遠駒.關于煙葉的可用性問題[J].中國煙草科學,2007,28(1):1-5.
[4]鄧小華.湖南烤煙區(qū)域特征及質量評價指標間關系研究[D].長沙:湖南農業(yè)大學,2007:12.
[5]劉國順,楊永鋒,凌愛芬.應用主成分分析和聚類分析評價烤煙葉位間質量差異[C]//中國煙草學會 2006年學術年會論文集,2007.
[6]王欣.湖北煙區(qū)烤煙質量綜合評價及與國內外優(yōu)質烤煙的差異分析[D].鄭州:河南農業(yè)大學,2008.
[7]薛超群,尹啟生,王信民.模糊綜合評判在化學成分評價煙葉可用性中的應用[J].煙草科技,2007(4):62-64.
[8]丁云生,何悅,曹金麗.大理州烤煙主要化學成分特征及其可用性分析[J].中國煙草科學,2009,30(3):13-18.
[9]張永安.提高上部煙葉可用性的化控技術研究[D].合肥:安徽農業(yè)大學,2004:6.
[10]Vapnik V.統(tǒng)計學習理論的本質[M].北京:清華大學出版社,2000.
[11]Vapnik V.An overview of statistical learning theory[J].IEEE Transactions on Neural Netwoks,1999,10(5): 988-999.
[12]Chih Chung Chang, Chih Jen Lin.LIBSVM-a library for support vector machines [EB/OL]. [2010-1-10]http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[13]張文彤.SPSS 11統(tǒng)計分析教程(高級篇)[M].北京:北京希望電子出版社,2002.
[14]田盛豐,黃厚寬.回歸型支持向量機的簡化算法[J].軟件學報,2002,13(6):1169-1172.