李 曉, 陳 勇, 梅武軍, 武小紅*, 馮亞杰, 武 斌
1. 江蘇大學(xué)卓越學(xué)院, 江蘇 鎮(zhèn)江 212013 2. 江蘇大學(xué)電氣信息工程學(xué)院, 江蘇 鎮(zhèn)江 212013 3. 浙江大學(xué)臺(tái)州研究院, 浙江 臺(tái)州 317700 4. 滁州職業(yè)技術(shù)學(xué)院信息工程學(xué)院, 安徽 滁州 239000
茶葉作為全球的最受歡迎飲品之一, 在人們生活中占有重要地位。 茶葉具有豐富的營(yíng)養(yǎng)成分, 如: 茶多酚、 茶色素、 茶多糖、 茶氨酸等, 應(yīng)用于食品、 醫(yī)學(xué)、 化工等多個(gè)領(lǐng)域。 從茶葉中提取的茶多酚具有良好的抗氧化性和抑菌活性, 利用這一特點(diǎn)可以用于食品保鮮領(lǐng)域, 滿足健康綠色的發(fā)展理念[1]。 綠茶加工產(chǎn)生的黃酮醇和多糖等副產(chǎn)品可以阻止輕微細(xì)胞的脂質(zhì)腸吸收和積累[2]; 普洱茶里的碳水化合物通過(guò)抑制葡糖糖苷酶有降低血糖的功效。 隨著茶葉市場(chǎng)的不斷擴(kuò)大, 出現(xiàn)了魚(yú)龍混雜的現(xiàn)象。 此外, 目前鑒別茶葉主要是感官鑒別和化學(xué)分析法。 感官鑒別的評(píng)價(jià)者是根據(jù)自己的經(jīng)驗(yàn)和判斷來(lái)辨別茶葉的質(zhì)量, 然而感覺(jué)器官容易受到外界的干擾, 主觀性較強(qiáng), 鑒別準(zhǔn)確率有一定的局限性。 化學(xué)分析方法會(huì)對(duì)檢測(cè)樣本造成破壞且費(fèi)時(shí)費(fèi)力。 因此為了維護(hù)消費(fèi)者的利益, 找到一種簡(jiǎn)單快速的鑒別方法尤為重要。
目前, 國(guó)內(nèi)外諸多學(xué)者在茶葉檢測(cè)方面取得了一定的研究成果。 Lin等提出利用多通道發(fā)光二極管誘導(dǎo)熒光系統(tǒng), 并結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的方法對(duì)茶葉品種進(jìn)行分類[3]; 通過(guò)電子鼻和電子舌收集的信息可以直接拼接融合進(jìn)行定性和定量分析茶葉質(zhì)量等級(jí)[4]; 利用高效液相色譜-二極管陣列檢測(cè)方法快速定量分析西湖龍井樣本的十個(gè)主要成分[5]; 王麗等利用高效液相色譜法建立不同種類的茶葉的指紋圖譜, 采用指紋圖譜的相似度軟件對(duì)數(shù)據(jù)進(jìn)行分析, 結(jié)果表明不同品種的茶葉樣本能夠有效的區(qū)分[6]; Li等采用熒光高光譜成像技術(shù), 結(jié)合優(yōu)化的支持向量機(jī)(support vector machines, SVM)模型進(jìn)行快速無(wú)損的茶葉鑒別[7]; 武小紅等采用模糊非相關(guān)鑒別C均值聚類算法, 并結(jié)合近紅外光譜技術(shù)實(shí)現(xiàn)快速有效的茶葉品種鑒別[8]。 Mishara等利用高光譜成像數(shù)據(jù)中的空間信息實(shí)現(xiàn)茶葉品種分類[9]; Bakhshipour等基于模糊決策樹(shù)的計(jì)算機(jī)視覺(jué)系統(tǒng), 將多種茶葉的圖像信息引入到分類器中用于實(shí)現(xiàn)茶葉分類, 準(zhǔn)確率高達(dá)95.0%[10]。
近些年來(lái), 紅外光譜技術(shù)因具有快速無(wú)損、 安全高效等特點(diǎn), 在食品檢測(cè)應(yīng)用較為廣泛[11-12]。 大多數(shù)化合物的基頻吸收帶出現(xiàn)在中紅外區(qū), 因此可以通過(guò)中紅外光譜的吸收強(qiáng)度、 吸收峰值信息進(jìn)行食品鑒別。 結(jié)合多種分類方法, 例如: K近鄰、 SVM、 人工神經(jīng)網(wǎng)絡(luò)、 決策樹(shù)等進(jìn)行食品的產(chǎn)地溯源、 真?zhèn)舞b定、 品種鑒定、 品質(zhì)檢測(cè)等。 Adenan等利用中紅外衰減全反射結(jié)合數(shù)據(jù)處理有效地篩選出食用燕窩的結(jié)構(gòu)摻雜物[13]。 Wei等提出氧化石墨烯的中紅外光譜與化學(xué)計(jì)量學(xué)相結(jié)合的分類方法, 對(duì)12種普洱茶的品種進(jìn)行鑒別, 可實(shí)現(xiàn)100%的品種分類準(zhǔn)確率[14]。 本文提出了一種模糊協(xié)方差學(xué)習(xí)矢量量化, 采用基于模糊協(xié)方差矩陣的自適應(yīng)距離測(cè)度, 對(duì)三類茶葉的中紅外光譜數(shù)據(jù)進(jìn)行分類, 并與模糊C均值聚類算法(fuzzy C-means clustering, FCM)[15], GK聚類[16], 模糊Kohonen聚類網(wǎng)絡(luò)(fuzzy Kohonen clustering, FKCN)[17]算法的分類結(jié)果進(jìn)行對(duì)比。
1.1.1 材料
試驗(yàn)樣本均在四川省樂(lè)山市當(dāng)?shù)夭枞~市場(chǎng)上購(gòu)買, 包括峨眉山茶葉、 優(yōu)質(zhì)竹葉青茶葉、 劣質(zhì)竹葉青茶葉, 每類樣本各32份, 共96份。
1.1.2 光譜儀器與分析軟件
采用配有高靈敏度DLATGS檢測(cè)器和多層鍍膜溴化鉀分束器的FTIR-7600型傅里葉紅外光譜分析儀。 開(kāi)機(jī)預(yù)熱1 h, 掃描32次, 掃描波數(shù)4 001~401 cm-1, 掃描間隔為1.928 cm-1, 分辨率為4 cm-1。 將購(gòu)買的茶葉經(jīng)研磨粉碎, 再用40目篩進(jìn)行過(guò)濾后, 各取0.5 g分別與溴化鉀1∶100均勻混合; 每個(gè)樣本取混合物1 g進(jìn)行壓膜, 然后用光譜儀掃描3次, 為減小誤差, 取3次的平均值作為樣本光譜數(shù)據(jù)。 采集光譜時(shí)環(huán)境溫度和相對(duì)濕度保持相對(duì)穩(wěn)定, 最終得到三類茶葉樣本, 每類含32個(gè)傅里葉中紅外光譜數(shù)據(jù), 共96個(gè)樣本。
1.1.3 光譜數(shù)據(jù)處理
由于樣本顆粒不均勻以及樣本大小、 儀器的噪聲等都會(huì)對(duì)采集到的光譜數(shù)據(jù)產(chǎn)生一定的影響, 因此利用多元散射校正(multiplicative scattering correction, MSC)對(duì)采集到的數(shù)據(jù)進(jìn)行相應(yīng)處理。 茶葉數(shù)據(jù)維數(shù)較高, 包含大量的冗余信息, 通過(guò)主成分分析(principal component analysis, PCA)提取其大量有效信息, 從而減小建模的難度。 在PCA處理之后, 為了提高數(shù)據(jù)之間的區(qū)分度, 使不同種類的數(shù)據(jù)投影點(diǎn)盡可能遠(yuǎn)離, 故采用線性判別分析(linear discriminant analysis, LDA)對(duì)數(shù)據(jù)進(jìn)一步處理。
在GK聚類和學(xué)習(xí)向量量化(learning vector quantization, LVQ)的基礎(chǔ)上設(shè)計(jì)了一種模糊協(xié)方差學(xué)習(xí)矢量量化, 該算法步驟描述如下:
(1) 初始化參數(shù): 設(shè)置品種數(shù)c=3; 初始權(quán)重指數(shù)m0=2; 最大迭代數(shù)rmax=100; 誤差上限值ε=0.005 ; 測(cè)試樣本數(shù)n2=66; 初始類中心設(shè)置為FCM算法運(yùn)行后的聚類中心VFCM, 并將樣本與該聚類中心的歐式距離進(jìn)行式(1)運(yùn)算, 求得初始模糊隸屬度矩陣U0
(1)
式(1)中,uik, 0表示算法開(kāi)始運(yùn)行時(shí)第k(k=1, 2, …,n2)個(gè)樣本xk對(duì)第i(i=1, 2, …,c)類的模糊隸屬度,Dik, 0表示樣本xk到第i類聚類中心的初始?xì)W氏距離。
(2) 計(jì)算第i類數(shù)據(jù)的模糊協(xié)方差矩陣Sfi, r
(2)
式(2)中,r為迭代次數(shù);mr-1為第r-1次迭代的權(quán)重指數(shù),uik, r-1表示算法第r-1次迭代時(shí)樣本xk對(duì)第i類的模糊隸屬度,vi, r-1表示第r-1次迭代時(shí)第i類的類中心。
(3) 計(jì)算第i個(gè)聚類中心的范數(shù)矩陣Ai, r
(3)
式(3)中,d為測(cè)試樣本的維數(shù)。
(4) 計(jì)算第r次迭代時(shí)的距離范數(shù)Dik, r
(4)
(5) 給定權(quán)重指數(shù)的變化量
(5)
(6) 更新第r次迭代時(shí)的權(quán)重指數(shù)mr
mr=m0-rΔm
(6)
(7) 更新模糊隸屬度值uik, r
(7)
(8) 計(jì)算學(xué)習(xí)速率αik, r
αik, r=(uik, r)mr
(8)
(9) 更新聚類中心vi, r
(9)
(10) 定義迭代誤差限Er
Er=‖vi, r-vi, r-1‖
(10)
(11) 當(dāng)Er<ε或r>rmax時(shí), 停止迭代, 并記錄最終模糊聚類中心Vf與模糊隸屬度矩陣Uf; 否則令Vr-1=Vr,Ur-1=Ur, 返回步驟(2)繼續(xù)迭代運(yùn)算。 當(dāng)?shù)V购螅?根據(jù)最終的模糊隸屬度uik, r, 若uik為uk中最大值, 則判定樣本xk屬于第i類。
將96個(gè)樣本分為訓(xùn)練集與測(cè)試集。 訓(xùn)練集共3類, 每類10個(gè)樣本; 測(cè)試集共3類, 每類22個(gè)樣本。 在采集茶葉樣本的光譜數(shù)據(jù)時(shí), 散射水平的差異以及周圍的環(huán)境因素將產(chǎn)生光譜噪聲、 基線漂移等。 為了有效地消除噪聲影響, 增強(qiáng)與組分含量相關(guān)的光譜吸收信息, 利用MSC對(duì)得到的初始中紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理。 由于不同類別光譜數(shù)據(jù)特征信息的區(qū)分度直接體現(xiàn)在光譜的吸收率上, 最終發(fā)現(xiàn)不同類別的茶葉光譜吸收率上存在明顯差異, 故有效利用該差異提取茶葉光譜數(shù)據(jù)的特征鑒別信息對(duì)于茶葉分類有重要意義。
2.1.1 中紅外光譜的主成分分析
由于中紅外光譜數(shù)據(jù)維數(shù)為1 868, 包含大量的冗余信息和噪聲, 大大增加了建模的難度, 因此采用主成分分析對(duì)數(shù)據(jù)進(jìn)行降維, 降維后數(shù)據(jù)的主成分得分圖如圖2。 根據(jù)主成分個(gè)數(shù)不同, 計(jì)算出其累計(jì)貢獻(xiàn)率大小, 圖1指出當(dāng)數(shù)據(jù)維數(shù)降至14維時(shí), 14個(gè)主成分的貢獻(xiàn)率達(dá)到了99.74%。
圖1 主成分的累計(jì)貢獻(xiàn)率Fig.1 Cumulative contribution rate of principal components
圖2 主成分得分圖Fig.2 Principal component score plot
由主成分得分圖可以看出三種茶葉重疊度較高, 難以僅根據(jù)圖像進(jìn)行分類, 因此采用線性判別分析對(duì)數(shù)據(jù)提取特征鑒別信息。
2.1.2 中紅外光譜的線性判別分析
由于測(cè)試集數(shù)據(jù)用于最終準(zhǔn)確率的計(jì)算, 故此處對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行LDA算法提取鑒別信息。 在使用LDA提取特征的過(guò)程中, 選取兩個(gè)特征鑒別向量, 使得各類樣本在特征空間中的投影滿足類間距離最大, 類內(nèi)距離最小, 以提高數(shù)據(jù)分類的準(zhǔn)確率。 將測(cè)試集數(shù)據(jù)投影到二維特征空間后樣本分布如圖3所示。 三類茶葉區(qū)分度較高, 為后續(xù)茶葉品種的識(shí)別奠定了良好的基礎(chǔ)。
圖3 線性判別分析后的數(shù)據(jù)Fig.3 Data processed by LDA
2.2.1 模糊聚類相關(guān)參數(shù)的初始化
通過(guò)主成分分析和線性判別分析對(duì)數(shù)據(jù)處理后, 分別采用FCM, GK, FKCN和FCLVQ算法對(duì)66個(gè)測(cè)試樣本進(jìn)行聚類, 比較其準(zhǔn)確率。 由于四種聚類算法均為迭代運(yùn)算, 故對(duì)參數(shù)進(jìn)行初始化: 設(shè)置類別數(shù)c=3; 初始權(quán)重指數(shù)m0=2; 最大迭代次數(shù)rmax=100; 誤差上限值ε=0.005。 首先運(yùn)行FCM算法得到其最優(yōu)聚類中心VFCM與模糊隸屬度矩陣UFCM, 將VFCM作為FKCN與FCLVQ的初始聚類中心, 同時(shí)將VFCM代入式(1)求得矩陣U0作為GK, FCLVQ算法的初始模糊隸屬度矩陣。
2.2.2 模糊隸屬度值的計(jì)算與分類結(jié)果
分別運(yùn)行FCM, GK, FKCN和FCLVQ算法, 在滿足迭代停止條件后終止計(jì)算, 得到模糊隸屬度矩陣UFCM,UGK,UFKCN,UFCLVQ。 根據(jù)模糊隸屬度判斷樣本所屬類別, 例如: 若uik, FCLVQ為uk, FCLVQ中最大值, 則FCLVQ算法將樣本xk歸屬于第i類。 FCM, GK與FKCN算法的分類準(zhǔn)確率分別為90.91%, 90.91%, 92.42%; 而FCLVQ算法的分類準(zhǔn)確率達(dá)到了95.45%。 模糊隸屬度值如圖4所示, 其中(a), (b), (c), (d)分別表示FKCN, GK, FCM和FCLVQ算法。
圖4 四種模糊聚類算法的模糊隸屬度值Fig.4 Fuzzy membership values of four fuzzy clustering algorithms
2.2.3 權(quán)重指數(shù)m對(duì)算法準(zhǔn)確率的影響
當(dāng)權(quán)重指數(shù)m發(fā)生變化時(shí)模糊聚類的準(zhǔn)確率也會(huì)發(fā)生變化。 對(duì)權(quán)重指數(shù)m進(jìn)行從2變到8時(shí)的變化, 從表1中可以發(fā)現(xiàn)當(dāng)m由2變?yōu)?時(shí), FCM、 GK聚類、 FKCN三種算法準(zhǔn)確率均得到了改善; 當(dāng)m由3變化到6時(shí), 四種聚類算法的準(zhǔn)確率均沒(méi)有發(fā)生變化, FCM和FKCN兩種算法的準(zhǔn)確率均保持92.42%, GK聚類和FCLVQ兩種算法準(zhǔn)確率保持在95.45%; 當(dāng)m繼續(xù)增大至8時(shí), 除了FKCN之外的三種算法的準(zhǔn)確率均有所下降。 特別地, 當(dāng)m從7增大到8時(shí), FCM和FCLVQ兩種算法的準(zhǔn)確率發(fā)生驟然下降, 說(shuō)明當(dāng)m值增大到一定值時(shí), 算法的誤差就會(huì)增大, 所以m的取值對(duì)于樣本種類的識(shí)別起著重要的作用。 當(dāng)m在2~7之間變化時(shí), 四種算法的準(zhǔn)確率均基本高于90%, 模糊協(xié)方差學(xué)習(xí)矢量量化的準(zhǔn)確率高達(dá)95.45%, 說(shuō)明主成分分析與線性判別分析結(jié)合四種聚類算法是一種比較好的鑒別茶葉種類的方法, 可以有效地實(shí)現(xiàn)茶葉品種的分類。
表1 不同m時(shí)各算法分類準(zhǔn)確率Table 1 Classification accuracy of each algorithm at different m-values
2.2.4ε值對(duì)算法準(zhǔn)確率的影響
在程序運(yùn)行的過(guò)程當(dāng)中, 隨著誤差上限ε約束的松弛程度不同, 算法的迭代次數(shù)也會(huì)相應(yīng)發(fā)生變化, 從而導(dǎo)致模糊隸屬度的變化。 研究了ε介于0.000 05~0.001 65之間, 步長(zhǎng)為0.000 1情況下FCM, GK, FKCN, FCLVQ算法的分類準(zhǔn)確率的變化, 其結(jié)果參見(jiàn)圖5。
圖5 不同ε時(shí)各算法分類準(zhǔn)確率Fig.5 Classification accuracy of each algorithm at different ε-values
獲取三類不同品種茶葉的光譜數(shù)據(jù)后, 先后使用MSC, PCA, LDA對(duì)數(shù)據(jù)進(jìn)行預(yù)處理, 較好地對(duì)數(shù)據(jù)進(jìn)行了降噪, 降維與特征鑒別信息提取。 最后選擇了合適的初始化參數(shù)后, 利用提出的FCLVQ聚類算法對(duì)數(shù)據(jù)進(jìn)行聚類分析, 并與FCM聚類, GK聚類, FKCN聚類算法的分類效果進(jìn)行對(duì)比。 結(jié)果表明: MSC, PCA, LDA結(jié)合FCLVQ算法有著更好的分類效果。 例如: 在權(quán)重指數(shù)m=2,ε=0.005的情況下對(duì)茶葉中紅外光譜數(shù)據(jù)的分類準(zhǔn)確率為95.45%, 故FCLVQ算法可以被用來(lái)進(jìn)行茶葉的品種鑒別。