郝 勇, 王起明, 張書(shū)敏
1. 華東交通大學(xué)機(jī)電與車(chē)輛工程學(xué)院, 江西 南昌 330013 2. 南昌海關(guān)技術(shù)中心, 江西 南昌 330038
鴨梨在儲(chǔ)藏過(guò)程中由于低溫、 低氧和高二氧化碳濃度會(huì)出現(xiàn)內(nèi)部褐變的現(xiàn)象[1]。 這與鴨梨組織內(nèi)的多種酶類(lèi)、 酚類(lèi)以及膜脂過(guò)氧化等因素有關(guān)[2], 主要是多酚氧化酶與酚類(lèi)物質(zhì)在有氧的條件下反應(yīng)生成復(fù)雜的醌類(lèi)化合物[3], 醌類(lèi)物質(zhì)會(huì)與氨基酸、 蛋白質(zhì)等發(fā)生反應(yīng)產(chǎn)生褐色的高分子絡(luò)合物。
可見(jiàn)-近紅外光譜應(yīng)用于鴨梨黑心病檢測(cè)的主要原因是果實(shí)褐變過(guò)程中, 果實(shí)內(nèi)部的C—H, N—H, O—H等含氫基團(tuán)振動(dòng)的倍頻和合頻在不同化學(xué)環(huán)境中對(duì)可見(jiàn)-近紅外光的吸收波長(zhǎng)都有明顯差別。 Gabri?ls[4]等將可見(jiàn)-近紅外光譜與芒果內(nèi)部顏色分析獲得的褐變指數(shù)值聯(lián)系起來(lái), 與人工神經(jīng)網(wǎng)絡(luò)結(jié)合可以對(duì)芒果內(nèi)部褐變進(jìn)行鑒別, 準(zhǔn)確度超過(guò) 80%。 Sun[5]等使用近紅外光譜結(jié)合偏最小二乘判別分析模型檢測(cè)蘋(píng)果內(nèi)部褐變, 有21%的健康蘋(píng)果被錯(cuò)誤分類(lèi)。 Mogollon[6]等針對(duì)蘋(píng)果在冷藏期間容易出現(xiàn)內(nèi)部褐變現(xiàn)象, 提出可見(jiàn)-近紅外光譜結(jié)合偏最小二乘判別分析模型來(lái)預(yù)測(cè)存儲(chǔ)開(kāi)始時(shí)損壞的水果, 達(dá)到約87%的正確識(shí)別率。 Khatiwada[7]采用可見(jiàn)-短波近紅外光譜法結(jié)合偏最小二乘對(duì)完整蘋(píng)果內(nèi)部果肉褐變進(jìn)行靜態(tài)評(píng)估, 并進(jìn)行線(xiàn)性判別分析和支持向量機(jī)分類(lèi), 正確識(shí)別率為95%以上。 由文獻(xiàn)報(bào)道分析可知, 在采用可見(jiàn)-近紅外光譜分析方法對(duì)果品缺陷進(jìn)行分析時(shí), 靜態(tài)分析效果較好, 而動(dòng)態(tài)在線(xiàn)分選由于采用開(kāi)放式的采集裝置和較高分級(jí)效率的要求, 導(dǎo)致分析模型的精度較低。
針對(duì)可見(jiàn)-近紅外光譜法在鴨梨黑心缺陷在線(xiàn)分選精度較低的不足, 提出了不同光譜預(yù)處理方法結(jié)合k近鄰法(k-nearest neighbor, kNN)、 樸素貝葉斯法(naive Bayes classifier, NBC)、 支持向量機(jī)法(support vector machines, SVM)以及基于A(yíng)daboost的集成學(xué)習(xí)等方法對(duì)鴨梨黑心病進(jìn)行在線(xiàn)判別, 以期得到一種高精度的果品病害在線(xiàn)判別模型的構(gòu)建方法, 提升我國(guó)新鮮果品的質(zhì)量分級(jí)水平。
樣品: 選用河北鴨梨作為實(shí)驗(yàn)樣品, 采用冷藏運(yùn)送, 到達(dá)實(shí)驗(yàn)室后將鴨梨樣品置于20 ℃恒溫條件下保存, 實(shí)驗(yàn)前擦除鴨梨表面的污漬與水分。 鴨梨樣品共計(jì)285個(gè), 采用KS(Kennard-Stone)方法[8]對(duì)樣品進(jìn)行2∶1劃分為訓(xùn)練集樣本與測(cè)試集樣本。 樣品集信息如表1所示, 訓(xùn)練集共190個(gè)鴨梨樣品, 包含正常鴨梨80個(gè), 黑心鴨梨110個(gè); 測(cè)試集共95個(gè)鴨梨樣品, 包含正常鴨梨40個(gè), 黑心鴨梨55個(gè)。
表1 樣品集信息Table 1 Sample set information
鴨梨可見(jiàn)-近紅外光譜在線(xiàn)分選裝置示意如圖1所示, 裝置包括輸送模塊、 光譜采集模塊和控制模塊。 輸送模塊是由變頻器和異步電動(dòng)機(jī)控制, 傳輸速度約為每秒過(guò)5個(gè)鴨梨(約0.2 s·個(gè)-1)。 光譜采集模塊是由鹵鎢燈和光纖探頭組成, 光纖探頭安裝在托盤(pán)的下方, 與輸送線(xiàn)的距離約為120 mm; 光源布置方式如圖2所示, 由20盞100 W鹵鎢燈組成, 每側(cè)10盞等距排列。 控制模塊由PLC控制電磁閥和光電接近傳感器來(lái)觸發(fā)光譜儀, 完成對(duì)鴨梨樣品的可見(jiàn)-近紅外光譜的采集。
圖1 鴨梨的可見(jiàn)-近紅外光譜在線(xiàn)分選裝置示意圖Fig.1 Schematic diagram of the vis-near infrared spectroscopyonline sorting device for ‘Yali’ pear
圖2 鹵鎢燈的排列俯視圖Fig.2 Arrangement top view of halogen lamp
光譜儀選用美國(guó)的QE65Pro型高精度光譜儀Ocean optics INC, 波長(zhǎng)范圍為372~1 154 nm。 開(kāi)機(jī)前預(yù)熱30 min, 以6.5 mm厚度的聚四氟乙烯白板作為標(biāo)準(zhǔn)參比, 校正光源能量譜; 鴨梨在輸送線(xiàn)上的托盤(pán)里的放置方式要求果柄(C)和果蒂(D)的連線(xiàn)方向保持與傳送帶運(yùn)行方向垂直。
采集可見(jiàn)-近紅外光譜后, 采用傳統(tǒng)的人工切開(kāi)識(shí)別法, 對(duì)黑心梨進(jìn)行破損判別。 切開(kāi)鴨梨時(shí), 注意切開(kāi)的部位是垂直于果柄與果蒂連線(xiàn)方向的中部, 即如圖2所示的AB連線(xiàn)方向。 切開(kāi)后觀(guān)察鴨梨果核部位有無(wú)黑心癥狀, 對(duì)于出現(xiàn)褐色麻點(diǎn)、 整個(gè)果核褐變及果肉褐變的情況是否被認(rèn)定為鴨梨患黑心病, 通過(guò)3位長(zhǎng)期從事鴨梨種植和銷(xiāo)售的從業(yè)者對(duì)鴨梨內(nèi)部的黑心標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià)并綜合得出結(jié)論。
kNN算法[9]是通過(guò)計(jì)算訓(xùn)練集中的每個(gè)樣本與測(cè)試集樣本的距離, 通過(guò)對(duì)距離的排序, 取距離最近的k個(gè)點(diǎn), 這k個(gè)樣本中具有最多的那個(gè)類(lèi)別就是測(cè)試集樣本的類(lèi)別。 kNN算法中k值的設(shè)定影響著模型的分類(lèi)精確度,k值選擇過(guò)大或過(guò)小, 都會(huì)降低分類(lèi)精度, 同時(shí)也會(huì)造成噪聲增加, 因此k值在選擇時(shí)一般遵從低于訓(xùn)練樣本數(shù)的平方根的原則。
NBC通過(guò)屬性條件獨(dú)立性假設(shè), 假設(shè)所有屬性相互獨(dú)立[10]。 基于貝葉斯判定準(zhǔn)則, 選擇每個(gè)樣本x中使后驗(yàn)概率P(c|x)最大的類(lèi)別標(biāo)記, 最優(yōu)分類(lèi)器為
式(1)中, c屬于類(lèi)別標(biāo)記, d為屬性值, xi為x在第i個(gè)屬性上的取值。
SVM主要是通過(guò)找到最大間隔的劃分超平面, 使得不同類(lèi)別之間的間隔最大化, 在處理小樣本、 非線(xiàn)性及高維數(shù)據(jù)等問(wèn)題中具有一定的優(yōu)勢(shì)[11]。 通過(guò)間隔的概念, 確定模型的約束參數(shù),SVM的優(yōu)化目標(biāo)為
式(2)中, n為訓(xùn)練樣本數(shù), xi為訓(xùn)練樣本的支持向量, yi表示對(duì)應(yīng)樣本的類(lèi)別, 取值為+1或-1, w為超平面的法向量, b為偏置向量, c為懲罰因子, ξi為松弛變量。
基于A(yíng)daBoost的集成學(xué)習(xí)可以通過(guò)訓(xùn)練多個(gè)獨(dú)立的弱學(xué)習(xí)器來(lái)得到泛化性能優(yōu)良的強(qiáng)學(xué)習(xí)器[12]。 集成學(xué)習(xí)不僅擁有更好的預(yù)測(cè)性能, 而且解決了單個(gè)學(xué)習(xí)器容易欠擬合及過(guò)擬合的問(wèn)題。 算法的中心思想是通過(guò)改變樣本的權(quán)值分布以得到更好的訓(xùn)練模型。
F-measue和Accuracy作為分類(lèi)模型的評(píng)價(jià)指標(biāo),F(xiàn)-measue和Accuracy的結(jié)果越接近1, 表明分類(lèi)模型越好。 其中F-measue是由P(查準(zhǔn)率或者準(zhǔn)確率,Precision)和R(查全率或者召回率,Recall)加權(quán)調(diào)和平均得出[13]。 混淆矩陣如表2所示。
表2 分類(lèi)結(jié)果混淆矩陣Table 2 confusion matrix for classification result
Precision與 Recall的計(jì)算公式如式(3)
對(duì)于鴨梨進(jìn)出口貿(mào)易, 希望既要將正常梨盡可能多的挑選出來(lái)又要使得挑選出來(lái)的鴨梨中正常梨的比例盡可能的高, 即查準(zhǔn)率和查全率都需要得到提高。F-measue公式如式(4)
Accuracy指的是正確預(yù)測(cè)的樣本數(shù)占總預(yù)測(cè)樣本數(shù)的比值, 公式如式(5)
鴨梨的可見(jiàn)-近紅外光譜如圖3所示, 從光譜的全波段來(lái)看, 正常梨與黑心梨的光譜在695和797 nm左右范圍內(nèi), 都存在明顯的吸收峰, 正常梨的能量譜總體上是高于黑心梨的光譜能量, 但也存在部分正常梨的光譜能量低于黑心梨, 而且光譜存在重疊, 沒(méi)有一個(gè)準(zhǔn)確的閾值分割線(xiàn), 因此不能直接從光譜圖中區(qū)分鴨梨是否黑心。 為了消除可見(jiàn)-近紅外光譜存在的光散射、 基線(xiàn)漂移等問(wèn)題, 實(shí)驗(yàn)分別采用平滑(Smoothing)、 標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate, SNV)、 多元散射校正(multiplicative scatter correction, MSC)、 SG一階導(dǎo)數(shù)(savitzky golay first-derivative, SG 1st-Der)和小波變換(wavelet transform, WT)等預(yù)處理方法增強(qiáng)光譜的特異性, 以便更好地建模分析。
圖3 正常梨與黑心梨的能量譜曲線(xiàn)Fig.3 Energy spectra curve of normal pearand black heart pear
采用主成分分析法(principal components analysis, PCA)對(duì)兩種鴨梨樣品光譜的空間分布情況進(jìn)行分析。 建模集含有120個(gè)正常梨, 165個(gè)黑心梨, 對(duì)其進(jìn)行主成分分析, 前三個(gè)主成分累計(jì)貢獻(xiàn)率占99.70%, 表示這3個(gè)主成分能夠解釋原始波長(zhǎng)變量的99.70%[14]。 圖4所示(PC1, PC2, PC3)為正常鴨梨與黑心鴨梨樣品的前三個(gè)主成分分布圖。 圖中黑心梨與正常梨的光譜點(diǎn)相互交叉在一起, 無(wú)法區(qū)分, 表明采用可見(jiàn)-近紅外光譜結(jié)合PCA方法對(duì)鴨梨是否黑心進(jìn)行定性鑒別具有一定難度, 需要進(jìn)一步探討區(qū)分黑心梨與正常梨的判別方法。
圖4 正常梨與黑心梨的前三主成分分布圖Fig.4 Distribution of the first three principal components of normal pears and black heart pears
2.3.1 獨(dú)立判別模型的構(gòu)建
采用kNN方法進(jìn)行建模時(shí), 其核心思想是利用訓(xùn)練集數(shù)據(jù)訓(xùn)練一個(gè)kNN分類(lèi)器, 其中k(預(yù)測(cè)變量中最近鄰的數(shù)量)為5。 計(jì)算訓(xùn)練集中的每個(gè)樣本與測(cè)試集的歐氏距離, 取距離最近的5個(gè)點(diǎn), 選擇這5個(gè)樣本中出現(xiàn)最多的類(lèi)別標(biāo)記作為預(yù)測(cè)結(jié)果。 從表3中可知, 經(jīng)過(guò)小波變換預(yù)處理的kNN模型訓(xùn)練集的F-measure和Accuracy最高, 分別為78.98%和82.62%。
表3 不同預(yù)處理方法的鴨梨定性識(shí)別kNN模型判別結(jié)果Table 3 kNN model results of qualitative identification of ‘Yali’ pears with different pretreatment methods
NBC分類(lèi)方法建模的主要原理是使用具有一定平均值和標(biāo)準(zhǔn)偏差的高斯分布對(duì)正常鴨梨與黑心鴨梨兩個(gè)類(lèi)別內(nèi)的預(yù)測(cè)變量分布進(jìn)行建模。 利用訓(xùn)練集的數(shù)據(jù), 估算出基于貝葉斯分布的概率分布參數(shù), 測(cè)試集數(shù)據(jù)根據(jù)NBC模型估計(jì)出的分布概率參數(shù), 計(jì)算出測(cè)試集樣本屬于正常梨或黑心梨的先驗(yàn)概率。 從表4中可知, 鴨梨光譜經(jīng)過(guò)SG一階導(dǎo)數(shù)預(yù)處理后的NBC模型可達(dá)到最好的識(shí)別效果, 訓(xùn)練集的F-measure為80.90%, Accuracy為82.11%。
SVM分類(lèi)是利用訓(xùn)練二進(jìn)制支持向量機(jī)分類(lèi)器建立二分類(lèi)SVM模型。 使用訓(xùn)練集和對(duì)應(yīng)的類(lèi)別標(biāo)簽訓(xùn)練的SVM分類(lèi)器進(jìn)行二分類(lèi), 使用徑向基核訓(xùn)練SVM分類(lèi)器, 找到內(nèi)核函數(shù)的比例值。 從表5中可知, 鴨梨光譜經(jīng)過(guò)小波變換預(yù)處理后的SVM模型可達(dá)到最好的識(shí)別效果, 訓(xùn)練集的F-measure為90.24%, Accuracy為91.58%。
表5 不同預(yù)處理方法的鴨梨定性識(shí)別SVM模型判別結(jié)果Table 5 SVM model results of qualitative identification of ‘Yali’ pears with different pretreatment methods
2.3.2 AdaBoost集成模型的構(gòu)建
AdaBoost分類(lèi)方法集成kNN、 NBC和SVM三種分類(lèi)方法, 設(shè)獨(dú)立學(xué)習(xí)器數(shù)目為3。 AdaBoost模型的原理如圖5所示, 通過(guò)訓(xùn)練集(黑心梨樣品集的2/3與正常梨樣品集的2/3組成)來(lái)訓(xùn)練kNN學(xué)習(xí)器, 根據(jù)kNN學(xué)習(xí)器對(duì)鴨梨黑心病的判別表現(xiàn)來(lái)調(diào)整樣本權(quán)重, kNN學(xué)習(xí)器錯(cuò)誤分類(lèi)的鴨梨樣本的權(quán)重得到提高, 正確分類(lèi)的鴨梨樣本的權(quán)值將被降低[15]; 同理, 基于調(diào)整后的鴨梨樣本分布來(lái)訓(xùn)練NBC學(xué)習(xí)器, 鴨梨樣本權(quán)值根據(jù)分類(lèi)結(jié)果再一次得到重新分布; 最后, 將調(diào)整后的鴨梨樣本作為SVM模型的訓(xùn)練集。 完成獨(dú)立學(xué)習(xí)器的模型建立后, 通過(guò)加權(quán)投票法(weighted voting)得到最終的強(qiáng)學(xué)習(xí)器。
圖5 AdaBoost算法原理Fig.5 AdaBoost algorithm principle
表6所示為不同預(yù)處理方法下的AdaBoost模型的訓(xùn)練集樣品的查準(zhǔn)率/查全率的調(diào)和平均和正確識(shí)別率結(jié)果。 從表中可知, 不同的處理方法其分類(lèi)結(jié)果不盡相同, 鴨梨光譜經(jīng)過(guò)小波變換預(yù)處理后的AdaBoost模型可達(dá)到最好的識(shí)別效果, 訓(xùn)練集的F-measure為91.46%, Accuracy為92.63%。
2.3.3 最優(yōu)分類(lèi)模型分析
通過(guò)模型查準(zhǔn)率/查全率的調(diào)和平均和正確識(shí)別率, 綜合比較kNN模型、 NBC模型、 SVM模型和AdaBoost模型。 表7可以得出, 鴨梨黑心病鑒別最優(yōu)模型是WT-AdaBoost模型, 其測(cè)試集分類(lèi)結(jié)果的F-measure為90.91%, Accuracy為92.63%, 模型對(duì)測(cè)試集樣品預(yù)測(cè)時(shí)的計(jì)算時(shí)間約為0.12 s, 滿(mǎn)足在線(xiàn)分選要求。 WT-AdaBoost的訓(xùn)練集(a)與測(cè)試集(b)的預(yù)測(cè)類(lèi)別(紅色三角形)與實(shí)際類(lèi)別(黑色三角形)比較如圖6 所示, 其中1代表正常梨, -1代表黑心梨, 紅色三角形與黑色三角形重合代表預(yù)測(cè)正確, 否則預(yù)測(cè)錯(cuò)誤(紅色三角形+垂線(xiàn))。
圖6 鴨梨樣品實(shí)際類(lèi)別與WT-AdaBoost模型 預(yù)測(cè)類(lèi)別比較圖Fig.6 Comparison of actual categories and predicted categories in WT-AdaBoost model for ‘Yali’ pear samples
表7 kNN, NBC, SVM和AdaBoost模型測(cè)試集預(yù)測(cè)結(jié)果Table 7 KNN, NBC, SVM and AdaBoost modeltest set prediction results
可見(jiàn)-近紅外光譜結(jié)合PCA, kNN, NBC, SVM和基于A(yíng)daboost的集成學(xué)習(xí)法建模對(duì)鴨梨黑心病進(jìn)行判別研究, 原始光譜和5 種預(yù)處理光譜結(jié)合kNN, NBC, SVM和Adaboost方法用于鴨梨黑心病判別模型的建立和優(yōu)化。 實(shí)驗(yàn)結(jié)果表明: PCA方法無(wú)法在主成分空間將黑心鴨梨與正常鴨梨區(qū)分開(kāi)來(lái); 小波變換預(yù)處理方法結(jié)合由kNN, NBC和SVM集成的AdaBoost分類(lèi)方法建立的分類(lèi)模型最優(yōu), 訓(xùn)練集與測(cè)試集的F-measure分別為91.46%和90.91%, Accuracy分別為92.63%和92.63%, 且模型對(duì)測(cè)試集樣品預(yù)測(cè)時(shí)間約為0.12 s, 滿(mǎn)足在線(xiàn)分選要求。 可見(jiàn)-近紅外光譜結(jié)合WT-AdaBoost分類(lèi)方法, 可以實(shí)現(xiàn)對(duì)鴨梨黑心病的在線(xiàn)檢測(cè)。