王國祥, 王海燕, 王 虎, 張正勇, 劉 軍
1. 南京財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院, 江蘇 南京 210046
2. 江蘇省質(zhì)量安全工程研究院, 江蘇 南京 210000
基于Raman光譜和支持向量機回歸的古井貢酒年份鑒別方法
王國祥1, 王海燕2, 王 虎1, 張正勇2, 劉 軍1
1. 南京財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院, 江蘇 南京 210046
2. 江蘇省質(zhì)量安全工程研究院, 江蘇 南京 210000
白酒年份的快速準(zhǔn)確鑒定是白酒品質(zhì)分析的重點和難點問題之一。 實現(xiàn)白酒年份酒的快速、 準(zhǔn)確的鑒別, 對促進白酒行業(yè)的健康發(fā)展、 維護消費者的合法權(quán)益具有重要意義。 光譜分析法結(jié)合模式識別技術(shù)是實現(xiàn)白酒品質(zhì)快速鑒別的首選方法之一, 而Raman光譜由于其受水的影響很小且很少或不需要樣品前處理, 在白酒分析中具有廣闊的發(fā)展空間。 因此, 采用Raman光譜和支持向量機回歸(SVR)建立數(shù)據(jù)分析模型, 用于不同年份白酒的年份鑒定和同一年份不同貯存時間的白酒年份鑒定。 該研究創(chuàng)新之處主要包括如下三個方面: (1)應(yīng)用Raman光譜對白酒品質(zhì)進行分析, 在分析方法的應(yīng)用上具有一定的創(chuàng)新之處。 (2)研究白酒的年份鑒定問題, 在研究對象的選擇上, 具有一定的創(chuàng)新之處。 (3)建立基于回歸框架的白酒年份與年份指數(shù)對應(yīng)關(guān)系, 實現(xiàn)白酒年份識別及預(yù)測, 不僅可以有效鑒別白酒年份, 同時可用于鑒別白酒貯存時間, 因此, 在分析方法的確定和應(yīng)用上, 具有一定的創(chuàng)新之處。 實驗中采用古井貢5年、 8年、 16年及26年系列年份酒進行了實證分析, 數(shù)據(jù)分析實驗結(jié)果表明, 所建立的基于Raman光譜和SVR的白酒年份鑒別分析流程和方法, 對鑒別不同年份的白酒, 以及同一年份不同貯存時間的白酒樣品(包括對數(shù)據(jù)庫內(nèi)已有樣本年份的鑒別, 以及對數(shù)據(jù)庫內(nèi)沒有的盲樣的年份預(yù)測), 均取得較好的應(yīng)用效果, 相比于其他常用回歸分析方法具有明顯的優(yōu)越性, 可以為白酒年份酒分析提供一定的技術(shù)支持。
Raman光譜; 支持向量機回歸; 白酒年份鑒別; 白酒貯存時間鑒別
自20世紀(jì)90年代“年份酒”的概念引入白酒市場以來, 白酒年份酒成為了我國白酒市場的重要組成部分。 然而, 由于對“年份酒”的年份定義標(biāo)準(zhǔn)以及“年份酒”檢測標(biāo)準(zhǔn)的缺乏, 目前我國白酒年份酒市場亂象叢生: 以假亂真, 以非年份酒充當(dāng)年份酒的案例層出不窮。 實現(xiàn)白酒年份酒的真?zhèn)渭澳攴莸目焖勹b定, 無論對市場監(jiān)管機構(gòu)還是對白酒生產(chǎn)企業(yè), 都是亟需解決的重大問題。
國內(nèi)外研究者在對白酒及其他蒸餾酒的研究過程中, 主要采用高效液相色譜、 氣相色譜、 質(zhì)譜或毛細管電泳等儀器分析技術(shù)結(jié)合多元統(tǒng)計方法分別利用酒中揮發(fā)性物質(zhì)、 芳香族物質(zhì)或金屬元素含量的差異進行定性分析[1], 并在酒齡鑒別方面提出了一些分析方法[2-5], 如莊名揚等提出的以白酒貯存期中金屬元素的變化規(guī)律為依據(jù)的年份酒鑒別方法[6]、 徐占成等提出的“揮發(fā)系數(shù)鑒別年份酒的方法”[7]等。
隨著對快速檢測的需求日益迫切, 作為一種快速檢測方法, 近幾年, “紅外指紋圖譜”的概念被引入到白酒生產(chǎn)行業(yè)中來, 并取得了一定的研究成果[8]。 與紅外光譜相比, Raman光譜在白酒分析中具有其與生俱來的優(yōu)勢。 首先, Raman光譜很少或者不需要樣品制備或提取, 沒有來自于水或CO2氣體的干擾, 與傅里葉變換紅外相比, 很容易對水溶液進行分析, 適當(dāng)配合表面增強技術(shù), 可以實現(xiàn)高靈敏度的分析甚至單分子檢測, 因此, 在白酒這類由微量或痕量組分決定產(chǎn)品性質(zhì)的復(fù)雜混合物體系中, Raman光譜可以發(fā)揮巨大的作用, 而目前Raman光譜在白酒分析中應(yīng)用的研究還比較少。
隨著化學(xué)計量學(xué)等學(xué)科的不斷發(fā)展, 模式識別技術(shù)也不斷引入到化學(xué)分析中, 大大促進了化學(xué)譜圖的解析, 取得了較為豐富的研究成果。 本文將模式識別方法應(yīng)用于白酒年份酒的年份鑒定工作中, 考慮到樣品分析過程中, 針對特定年份酒的小樣本問題, 本文采用支持向量機(support vector machine, SVM)方法進行白酒年份的鑒別。 SVM是近年來的研究熱點問題之一, 是Vapnik等根據(jù)統(tǒng)計學(xué)理論提出的一種通用學(xué)習(xí)方法, 它是建立在統(tǒng)計學(xué)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理的基礎(chǔ)上的, 根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷, 以期獲得最好的推廣能力, 能夠較好地解決小樣本、 非線性、 高維數(shù)和局部極小點等實際問題。 SVM可以分為分類(SVC)和回歸(SVR)兩類, 近年來在理論研究和算法實現(xiàn)方面都取得了突破性進展, 并成功地應(yīng)用于分類、 函數(shù)逼近和時間序列預(yù)測等方面[8]。
嘗試使用SVM方法對特定年份的白酒及其貯存時間進行預(yù)測和鑒別, 考慮到白酒的貯存時間是一個連續(xù)數(shù)據(jù), 單純應(yīng)用SVC無法滿足對年份鑒定的要求, 因此, 本文采用SVR進行白酒年份及其貯存時間的鑒別, 并以Raman光譜為分析手段, 建立一種用于白酒年份鑒別的分析方法。 由于采用便攜式Raman光譜采集十分簡便快速, 無需樣品前處理, 同時, 采用計算機進行的數(shù)據(jù)分析也可以在2 s內(nèi)完成, 因此, 本文構(gòu)建的白酒年份鑒別方法可以認為是一種快速、 簡便的分析方法。
1.1 樣品
實驗樣品為安徽古井集團生產(chǎn)的古井貢系列年份原漿樣本, 包括5年、 8年、 16年和26年四個年份樣本。 其中8年樣本提供了5個不同生產(chǎn)批次樣品, 每個批次50個, 其他年份樣本各50個, 共計400個白酒樣本。
研究主要針對在年份酒成品酒的年份鑒定, 并考慮對貯存一定時間的年份酒的鑒定和識別問題, 因此, 在回歸過程中, 以白酒企業(yè)所聲明的白酒年份作為白酒的年份基數(shù), 并以出廠日期作為基準(zhǔn), 以采譜時間和出廠時間的差值計算貯存時間, 建立貯存時間和光譜譜圖的回歸分析模型。 為了與白酒的不同年份相對應(yīng), 現(xiàn)將不同貯存天數(shù)轉(zhuǎn)化為白酒年份指數(shù), 其基本公式為
表1給出了具體的樣本分組及其對應(yīng)的年份指數(shù)。
Table 1 Age index of the wine samples
1.2 儀器與光譜采集
Raman光譜采集采用美國恩威光電股份有限公司(Enwave Optronics)生產(chǎn)的D3便攜式Raman光譜儀。 于暗室內(nèi)進行光譜采集, CCD冷卻溫度-75~-76 ℃, 掃描時間3 s, 平均次數(shù) 3次。
1.3 數(shù)據(jù)分析方法
數(shù)據(jù)分析在MATLAB 2012b平臺下通過編寫相關(guān)程序進行。 數(shù)據(jù)分析的基本流程如下:
1.3.1 數(shù)據(jù)歸一化和降維
對采集到的Raman光譜數(shù)據(jù)首先進行歸一化處理和降維, 歸一化利用Matlab自帶mapminmax歸一化函數(shù), 將譜圖數(shù)據(jù)歸一化至[-1, 1]區(qū)間內(nèi); 降維采用主成分分析進行, 選取的成分累積方差貢獻率達到95%。
1.3.2 建立SVM回歸模型
建立以年份指數(shù)為因變量, Raman光譜譜圖為自變量的SVM回歸模型。 設(shè)有n個樣本點的數(shù)據(jù)集經(jīng)1.3.1歸一化和降維后的譜圖數(shù)據(jù)集D={xi,yi},i=1, …,n。
SVM回歸的思路與分類問題的思路十分相似, 其模型可以分為線性回歸和非線性回歸模型。 其中, 非線性回歸是在線性回歸的基礎(chǔ)上, 引入核函數(shù)得到的, 即將樣本空間映射到更高維的特征空間后進行線性回歸得到回歸結(jié)果。 文獻[9]中對SVM回歸模型進行了詳細論證, 因此, 本文謹(jǐn)對SVM回歸進行簡要介紹。
SVM回歸時需要引入損失函數(shù)的概念。 Vapnik提出了ε-不敏感損失函數(shù), 其表達式如下
式中,ε為不敏感系數(shù), 用于控制擬合精度。Lε(f(x),y)是損失函數(shù),f(x)=ωx+b是回歸函數(shù), 用于擬合數(shù)據(jù)D={xi,yi},ω,b為系數(shù)。
假設(shè)所有訓(xùn)練集數(shù)據(jù){xi,yi}都可以在精度ε下用線性函數(shù)來擬合, 根據(jù)結(jié)構(gòu)風(fēng)險最小化原則, 則該問題轉(zhuǎn)化為如下凸優(yōu)化問題
常數(shù)C>0用來平衡回歸函數(shù)f的平坦程度和偏差大于ε樣本點的個數(shù)。 求解上面的回歸問題一般采用對偶理論實現(xiàn), 將其轉(zhuǎn)化為二次規(guī)劃問題。 通過引入Lagrange乘數(shù), 最終回歸函數(shù)可以表示為
對于非線性回歸問題, 只需引入核函數(shù)K(x,xi)替換上式中的〈xi·x〉, 通過非線性映射將樣本空間映射到高維特征空間中進行線性回歸。 于是, 非線性情況下的回歸函數(shù)表達為
核函數(shù)有很多種, 本文使用的是較為常用的是RBF核函數(shù)。 其表達式為
在Matlab中, 通過參數(shù)-c和-g來控制懲罰因子C和RBF核函數(shù)的核參數(shù)γ。 二者的選擇現(xiàn)階段有多種方法, 采用網(wǎng)格搜索法對該參數(shù)進行優(yōu)化, 以取得最佳的C和γ來構(gòu)建分析模型。 網(wǎng)格遍歷法首先確定C和的變化范圍, 并在該范圍內(nèi)設(shè)置遍歷步長, 以此步長為間隔對范圍內(nèi)的每一組數(shù)值都進行試驗, 從其中挑選計算結(jié)果最好的一組作為最終參數(shù)[9]。
模型評價指標(biāo)主要考慮樣本預(yù)測的可決系數(shù)R2(squared correlation coefficient)與均方誤差(mean squared error, MSE)。 具體地說, 在分析過程中, 主要考慮如下幾個指標(biāo):
(1)訓(xùn)練集上和測試集上的可決系數(shù)和均方誤差: 該指標(biāo)反映了模型對訓(xùn)練樣本的擬合情況和對測試樣本的預(yù)測情況, 本文分別用R2_TRAIN,R2_TEST以及MSE_TRAIN, MSE_TEST表示。
(2)對原始預(yù)測結(jié)果的均方誤差: 本文中用MSE_RAW來表示。 與MSE_TEST類似, 不同之處在于MSE_TEST針對的是分析過程中歸一化后的數(shù)據(jù)。 MSE_RAW是將模型預(yù)測值反歸一化至原始數(shù)據(jù)集上后的均方誤差, 更直觀反映對年份的預(yù)測情況。
通過光譜采集后, 對樣品年份建立SVR模型。 分析過程中以樣品的80%作為訓(xùn)練樣本, 用以建立回歸模型; 余下20%作為測試樣本, 用以檢驗?zāi)P头治鲂Ч?實驗過程中, 為進行方法比對, 將SVM回歸方法與現(xiàn)階段較為常用的非線性回歸方法偏最小二乘回歸(PLS)方法進行方法比對, 檢驗二者的分析效果。
圖1和圖2給出了古井貢年份酒各樣本的Raman光譜原始譜圖。 由原始譜圖可以看出, 古井貢系列年份酒在組成上具有高度的相似性, 人工區(qū)分不同年份樣本及同一年份不同貯存時間樣本難度較大。
Fig.1 Raw Raman spectra of wine of different years
Fig.2 Raw Raman spectra of wine of different storing time of 8 years
2.1 不同年份白酒的SVM回歸分析
為研究SVM算法對不同年份白酒的鑒別區(qū)分能力, 現(xiàn)針對不同年份的古井貢酒作為研究對象, 以其聲明年份為年份基數(shù)進行回歸分析。 即選取5年, 8年, 16年, 26年樣本, 每個年份選取50個樣本, 分別定義其年份為5, 8, 16和26, 其中, 8年樣本從表2所示的第2到第6組樣本中, 隨機抽取50個作為分析樣本, 樣本中隨機選取40個作為訓(xùn)練樣本, 余下10個為測試樣本。
Table 2 Parameter value and analyzing performance of the SVR
表2給出了本次數(shù)據(jù)分析建立的SVR的具體參數(shù)取值及模型的評價指標(biāo)值, 可以看出, 無論從R2還是MSE的角度來評價, 模型均取得了較好的分析效果。 圖3和圖4是參數(shù)優(yōu)化過程示意圖。 圖5和圖6是此次分析的擬合與預(yù)測結(jié)果示意圖。 實驗結(jié)果表明, 在訓(xùn)練集上, 所有的樣本都能夠很好的進行擬合; 在測試集樣本上, 樣本也大多數(shù)可以進行準(zhǔn)確的預(yù)測。 對于不同年份的年份酒樣品, SVR模型均表現(xiàn)出了良好的擬合和預(yù)測效果。
2.2 針對數(shù)據(jù)庫庫內(nèi)樣本不同貯存時間的年份酒的回歸分析
眾所周知, 白酒的化學(xué)組分及含量會隨著貯存時間的變化而產(chǎn)生變化。 本文為驗證針對不同貯存時間年份酒的分類
Fig.3 Parameter optimization for SVR model(3D)
Fig.4 Parameter optimization for SVR model
效果, 現(xiàn)取同一年份, 不同貯存時間的白酒樣本進行試驗。 選取表2中所列舉不同貯存時間的8年年份原漿, 以其年份指數(shù)作為因變量進行SVR分析。
如實驗2.1, 表3給出了本次數(shù)據(jù)分析建立的SVR的具體參數(shù)取值及模型的評價指標(biāo)值, 可以看出, 模型同樣取得了較好的分析效果。 圖7和圖8是參數(shù)優(yōu)化過程示意圖。 圖9和圖10是此次分析的擬合與預(yù)測結(jié)果示意圖。 實驗結(jié)果表
Fig.5 Performance of SVR model on the train set
Fig.6 Performance of SVR model on the test set
明, 針對庫內(nèi)樣本的分析模型取得了與不同年份鑒定相一致的結(jié)果, 在訓(xùn)練集上, 所有的樣本都能夠很好的進行擬合; 在測試集樣本上, 樣本也大多數(shù)可以進行準(zhǔn)確的預(yù)測。 由此可以看出, 對于同一年份不同貯存時間的年份酒樣品, SVR依然可以有效地對樣本進行區(qū)分, 可見, SVR在白酒貯存時間鑒別上應(yīng)用效果明顯。
Table 3 Parameter value and analyzing performance of the SVR model for recognition
Fig.7 Parameter optimization for SVR model(3D)
Fig.8 Parameter optimization for SVR model
Fig.9 Performance of SVR model on train set
Fig.10 Performance of SVR model on test set
2.3 針對數(shù)據(jù)庫外樣本不同貯存時間年份酒的回歸預(yù)測
考慮到白酒的貯存時間是一個連續(xù)變量, 實際生產(chǎn)過程中, 采集到完整的不同貯存時間的白酒樣本也基本是不可能的。 采用回歸框架的最大優(yōu)勢就在于可以利用已有的樣本建立基準(zhǔn)模型, 對未知樣本進行預(yù)測, 以滿足對白酒年份鑒定的需求。 為驗證SVM模型的預(yù)測和推廣能力, 現(xiàn)在實驗2.2的基礎(chǔ)上, 刪除訓(xùn)練樣本數(shù)據(jù)集, 將其全部加入測試集。 為節(jié)約篇幅, 本文謹(jǐn)以將組3的樣本剔除訓(xùn)練集, 并全部加入測試集為例進行討論。 即, 采用組1, 2, 4, 5建立基礎(chǔ)數(shù)據(jù)庫, 以組3模擬未知樣本進行預(yù)測。 實驗過程中刪除其他組數(shù)據(jù)也取得了類似的效果。
Table 4 Parameter value and analyzing performance of the SVR model for recognition
Fig.11 Parameter optimization for SVR model
2.4 年份鑒定的方法對比
為分析SVM回歸模型在擬合和預(yù)測上是否具有優(yōu)越性, 本文選取在分析化學(xué)中常用的PLS分析方法進行對比, 圖15—圖18分別給出了實驗2.2和實驗2.3的PLS分析結(jié)果。
Fig.12 Parameter optimization for SVR model
圖15和圖16給出的是針對實驗2.2, PLS方法在訓(xùn)練集和測試集上的分析結(jié)果。 可見, PLS方法無論在訓(xùn)練集樣本的擬合上, 還是在測試集樣本的預(yù)測上, 其效果均與SVR模型具有較大的差距, 誤差較大。 圖17和圖18給出的是實驗2.3的平行分析, 可見, PLS模型在訓(xùn)練集上的擬合效果較好, 對與訓(xùn)練集相同年份指數(shù)的樣本的預(yù)測效果也較為理想, 但是, 在對樣本10~60的盲樣的預(yù)測中, 分析效果較差, 其分析誤差在2年以上, 與SVR模型的分析效果差距較大。 所以, 可以認為, SVR方法相對于傳統(tǒng)PLS方法, 無論在訓(xùn)練集的擬合效果上, 還是在測試集的預(yù)測效果上, 都表現(xiàn)出了較強的優(yōu)越性。
Fig.13 Performance of SVR model on train set
Fig.14 Performance of SVR model on test set
Fig.15 Performance of PLS model on train set of experiment 2.2
Fig.16 Performance of PLS model on test set of experiment 2.2
Fig.17 Performance of PLS model on train set of experiment 2.3
Fig.18 Performance of PLS model on test set of experiment 2.3
基于Raman光譜和SVM回歸框架建立白酒年份分析模型, 可以有效的用于不同年份白酒的鑒定工作, 同時可以有效用于預(yù)測白酒年份酒的貯存時間。 比較實驗2.2和實驗2.3可知, 本文所建立的方法, 無論是用來鑒別數(shù)據(jù)庫內(nèi)已經(jīng)包含的樣本的貯存時間, 還是利用已有數(shù)據(jù)庫來預(yù)測盲樣的貯存時間, 所建立的模型可決系數(shù)較高, 總體均方誤差較小, 均取得了較好的分析效果。 可以認為, 本文所建立的方法, 具有數(shù)據(jù)采集簡便, 分析快速的優(yōu)點, 相對于傳統(tǒng)的回歸分析方法具有明顯的優(yōu)越性, 在實際的白酒品質(zhì)和年份鑒定工作中可以起到一定的作用。
[1] Yu H, Lin H, Xu H, et al. Journal of Agricultural and Food Chemistry, 2008, 56(2): 307.
[2] Riu-Aumatell M, Bosch-Fusté J, López-Tamames E, et al. Food chemistry, 2006, 95(2): 237.
[3] Pinho O, Ferreira I M, Santos L H. Journal of Chromatography A, 2006, 1121(2): 145.
[4] Soufleros E H, Bouloumpasi E, Tsarchopoulos C, et al. Food Chemistry, 2003, 80(2): 261.
[5] ZHUANG Ming-yang(莊明揚). Sichuan Food and Fermentation(四川食品與發(fā)酵), 2008, 44(3): 28.
[6] XU Zhan-cheng(徐占成). Sichuan Food and Fermentation(四川食品與發(fā)酵), 2008, 44(2): 9.
[7] WANG Li, WANG Di-qiang, WANG Hua, et al(王 莉, 汪地強, 汪 華, 等). Liquor-making(釀酒), 2005, 32(4): 18.
[8] Vapnik V N. The Nature of Statistical Learning Theory. New York: Springer-Verlag, 1995.
[9] Hsu C W, Chang C C, Lin C J. Practical Guide to Support Rector Classification, 2003.
Study on the Recognition of Liquor Age of Gujing Based on Raman Spectra and Support Vector Regression
WANG Guo-xiang1, WANG Hai-yan2, WANG Hu1, ZHANG Zheng-yong2, LIU Jun1
1. School of Management Science & Engineering, Nanjing University of Finance & Economics, Nanjing 210046, China
2. Jiangsu Province Institute of Quality Safety & Engineering, Nanjing 210000, China
It is an important and difficult research point to recognize the age of Chinese liquor rapidly and exactly in the field of liquor analyzing, which is also of great significance to the healthy development of the liquor industry and protection of the legitimate rights and interests of consumers. Spectroscopy together with the pattern recognition technology is a preferred method of achieving rapid identification of wine quality, in which the Raman Spectroscopy is promising because of its little affection of water and little or free of sample pretreatment. So, in this paper, Raman spectra and support vector regression (SVR) are used to recognize different ages and different storing time of the liquor of the same age. The innovation of this paper is mainly reflected in the following three aspects. First, the application of Raman in the area of liquor analysis is rarely reported till now. Second, the concentration of studying the recognition of wine age, while most studies focus on studying specific components of liquor and studies together with the pattern recognition method focus more on the identification of brands or different types of base wine. The third one is the application of regression analysis framework, which cannot be only used to identify different years of liquor, but also can be used to analyze different storing time, which has theoretical and practical significance to the research and quality control of liquor. Three kinds of experiments are conducted in this paper. Firstly, SVR is used to recognize different ages of 5, 8, 16 and 26 years of the Gujing Liquor; secondly, SVR is also used to classify the storing time of the 8-years liquor; thirdly, certain group of train data is deleted form the train set and put into the test set to simulate the actual situation of liquor age recognition. Results show that the SVR model has good train and predict performance in these experiments, and it has better performance than other non-liner regression method such as the Partial Least Squares Regression (PLS) method, and can also be applied in the practice of liquor analysis.
Raman spectra; Support vector regression; Recognition of wine age; Recognition of wine storing time
Sep. 29, 2014; accepted Feb. 10, 2015)
2014-09-29,
2015-02-10
國家重大科學(xué)儀器開發(fā)專項(2013YQ090703), 國家自然科學(xué)基金重點項目(71433006), 國家自然科學(xué)基金面上項目(61373058, 71373117), 國家質(zhì)量監(jiān)督檢驗檢疫總局公益性行業(yè)科研專項(2012104009)資助
王國祥, 1989年生, 南京財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院碩士研究生 e-mail: wildcat0518@163.com; gxwang1989@163.com
O657.3
A
10.3964/j.issn.1000-0593(2016)03-0729-07