,*
(1.河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300130; 2.總裝機(jī)械技術(shù)研究所,河北石家莊 050003)
中國是梨樹的原產(chǎn)地之一,梨果產(chǎn)業(yè)也是中國水果產(chǎn)業(yè)中繼蘋果和柑橘之后的第三大果品產(chǎn)業(yè)[1]。河北省石家莊市盛產(chǎn)的皇冠梨是一種遠(yuǎn)銷海外的品種梨,其產(chǎn)量與需求日益增多。但在運(yùn)輸過程中,會(huì)因?yàn)楦鞣N外界因素,例如貯藏時(shí)間過長、運(yùn)輸過程中擠壓碰撞等原因,
表1 PEN3傳感器名稱及性能描述Table 1 Ten sensor names and performance descriptions of PEN3
導(dǎo)致其內(nèi)部發(fā)生腐敗變質(zhì),而外觀上卻無很大變化的現(xiàn)象[2-3]。專業(yè)的梨果專家也無法很好地分辨其內(nèi)部果實(shí)的好壞[4],這些已經(jīng)變質(zhì)的皇冠梨運(yùn)輸?shù)胶M馐袌龊?會(huì)出現(xiàn)拒收情況,造成巨大的經(jīng)濟(jì)損失。目前的解決方法是在裝箱運(yùn)輸前進(jìn)行人工抽樣檢測,該方法一方面抽檢的覆蓋率和效率較低,另一方面會(huì)浪費(fèi)大量的資源。
在過去的幾年里,各種先進(jìn)的檢測方法已在果蔬檢測中得到應(yīng)用[5-6]。傳統(tǒng)方法包括紅外光檢測和可見光圖像檢測,但只能檢測水果的外部品質(zhì),無法完成對(duì)水果內(nèi)部果實(shí)的檢測[7]。目前也有專業(yè)果實(shí)評(píng)級(jí)師根據(jù)香氣特征來檢測水果品質(zhì)好壞[8-9]。但檢測的方法主要是依據(jù)個(gè)人經(jīng)驗(yàn),具有主觀性,并且主要針對(duì)單一特定水果,沒有較廣的覆蓋面并且檢測的準(zhǔn)確性與高效性是無法保證的[10]。
目前的電子鼻技術(shù)還沒有應(yīng)用在皇冠梨的檢測中。效率低的人工抽檢方法不適用于大規(guī)模的出口檢測工作,另外一些紅外光和可見光檢測方法因其檢測設(shè)備過于復(fù)雜且造價(jià)昂貴,并且對(duì)檢測環(huán)境要求較高等原因,也達(dá)不到出口檢測的要求。所以本文提出一種基于電子鼻技術(shù)的無損檢測方法,完成對(duì)不同腐敗程度皇冠梨的等級(jí)分類,為皇冠梨品質(zhì)檢測提供新思路。
皇冠梨樣本 于2018年10月份在河北省石家莊市農(nóng)科院采集,樣本擁有大致相同的成熟度與重量。
PEN3便攜式電子鼻 德國Airsense公司,該電子鼻系統(tǒng)由金屬氧化物氣體傳感器陣列、氣體采樣裝置和信號(hào)處理單元組成[11]。使用10個(gè)不同金屬氧化物傳感器進(jìn)行采樣,不同的傳感器對(duì)不同的揮發(fā)性物質(zhì)有特殊反應(yīng)[12-13],PEN3十個(gè)傳感器陣列的主要性能如表1所示。
1.2.1 樣品的分級(jí) 由農(nóng)科院采集的880個(gè)皇冠梨樣本,由經(jīng)驗(yàn)豐富的梨果專家根據(jù)多年的鑒別經(jīng)驗(yàn)分為四類,無黑核梨、黑核梨1級(jí)、黑核梨2級(jí)和黑核梨3級(jí),每一類共220個(gè),總共880個(gè)皇冠梨樣本,采集完畢后使用圖像采集系統(tǒng)對(duì)梨樣本拍照留樣記錄,每一個(gè)皇冠梨樣本均由專家切開進(jìn)行驗(yàn)證。
1.2.2 電子鼻分析 將皇冠梨樣品放入500 mL燒杯內(nèi),采用保鮮膜進(jìn)行密封,密封后靜置于室溫環(huán)境,頂空時(shí)間為15 min,目的為樣品氣體能充分揮發(fā)在密閉燒杯中,待氣體達(dá)到飽和平衡狀態(tài)后進(jìn)行正式實(shí)驗(yàn),每個(gè)樣本的密封時(shí)間間隔為2.5 min(即檢測一個(gè)樣本的時(shí)間),目的為保證每個(gè)樣本有相同的實(shí)驗(yàn)條件,即每個(gè)樣本頂空時(shí)間相同。氣體采集前,以500 mL/min的速率吸取潔凈空氣對(duì)電子鼻的氣室和氣道進(jìn)行清洗,清洗時(shí)間為60 s;檢測時(shí),將進(jìn)氣針與補(bǔ)氣針同時(shí)插入保鮮膜封閉的燒杯內(nèi),電子鼻內(nèi)置氣泵開始工作,以300 mL/min的速率吸取樣品氣體,采集時(shí)間為90 s。即總實(shí)驗(yàn)時(shí)間為150 s(60 s氣體清洗時(shí)間,90 s氣體收集時(shí)間)。
對(duì)于實(shí)驗(yàn)過程中可能因人為操作而導(dǎo)致的偶然誤差問題,并且為保證樣本的準(zhǔn)確性與可靠性,本實(shí)驗(yàn)采取的措施是對(duì)同一個(gè)樣本進(jìn)行三次的重復(fù)實(shí)驗(yàn)采集,降低偶然誤差的風(fēng)險(xiǎn),每次實(shí)驗(yàn)后將采集好的數(shù)據(jù)保存在計(jì)算機(jī)內(nèi),為之后的數(shù)據(jù)分析做準(zhǔn)備。
使用電子鼻儀器收集相同產(chǎn)地、相似成熟度與質(zhì)量大致相同的皇冠梨樣本的氣味數(shù)據(jù),使用不同的機(jī)器學(xué)習(xí)算法對(duì)經(jīng)過專家鑒定過的四個(gè)等級(jí)共640個(gè)梨樣本數(shù)據(jù)做模型的訓(xùn)練,使用分層K折交叉驗(yàn)證的方法對(duì)模型進(jìn)行評(píng)估,選擇最佳的模型,最后使用未經(jīng)過訓(xùn)練的四個(gè)等級(jí)共160個(gè)獨(dú)立皇冠梨樣本對(duì)搭建的模型進(jìn)行驗(yàn)證。處理數(shù)據(jù)軟件為Spyder,處理語言為python3.6版本。
1.3.1 主成分分析 主成分分析(Principal Component Analysis,PCA)是一種無監(jiān)督的數(shù)據(jù)分析方法,它可以在保證數(shù)據(jù)最大差異的同時(shí)降低特征維數(shù)[14]。PCA通過正交變換將數(shù)據(jù)變換到新的特征空間中去,原始空間中的最大數(shù)據(jù)方差的方向是第一主成分(PC1),與PC1正交的第二大數(shù)據(jù)方差的方向是第二主成分(PC2),依次類推。
1.3.2 線性判別分析 線性判別分析(Linear Discriminant Analysis,LDA)的基本原理是將高維的模式樣本投影到最佳鑒別矢量空間,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果,它是一種有效的特征抽取方法[15]。它能夠保證投影后的樣本在新的空間中有最小的類內(nèi)距離和最大的類間距離,使樣本在新空間中達(dá)到最佳的可分離性[16]。
表2 皇冠梨樣本驗(yàn)證結(jié)果Table 2 The verfication result of Huangguan pear samples
1.3.3 支持向量機(jī)算法 支持向量機(jī)(Support Vector Machine,SVM)算法的基本原理是在數(shù)據(jù)平面上尋找并建立一個(gè)最優(yōu)決策超平面,使平面兩側(cè)距離平面最近的兩類樣本之間的距離最大化[17]。對(duì)非線性問題,支持向量機(jī)引入核函數(shù)概念,將低維空間不可分問題轉(zhuǎn)化為高維空間可分問題,主要的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)等[18]。
1.3.4 邏輯回歸算法 邏輯回歸(Logistic Regression,LR)算法的原理是使用輸入變量的系數(shù)加權(quán)線性組合來分類,能給出相應(yīng)的類分布估計(jì),并且在模型訓(xùn)練時(shí)間上也有很大優(yōu)勢[19]。邏輯回歸算法不需事先假設(shè)數(shù)據(jù)分布,避免了假設(shè)分布不準(zhǔn)確所帶來的問題,并且它是對(duì)近似概率的預(yù)測,對(duì)線性問題有很好的效果,但對(duì)于一些非線性的分類問題則表現(xiàn)較差[20]。
1.3.5 梯度提升樹 梯度提升樹(Gradient Boosting Decison Tree,GBDT)是一種以CART為基學(xué)習(xí)器的Boosting集成算法。其算法在每一輪迭代的目的都是使當(dāng)前學(xué)習(xí)器的損失函數(shù)最小,使損失函數(shù)總是沿著其梯度方向下降,通過不斷迭代使最終殘差趨近于0,將所有樹結(jié)果累加起來便可得到最終的預(yù)測結(jié)果[21]。
1.3.6 XGBoost算法 XGBoost算法是基于GBDT的改進(jìn)版[22-23],對(duì)輸入要求不敏感,在工業(yè)界應(yīng)用較為廣泛。與一般的GBDT算法相比,XGBoost利用了損失函數(shù)關(guān)于待求函數(shù)的二階導(dǎo)數(shù),添加了正則項(xiàng),防止過擬合,構(gòu)建每棵樹時(shí)對(duì)屬性進(jìn)行采樣,有訓(xùn)練速度快,精確度高,擬合效果好等優(yōu)點(diǎn)。
采集完畢后使用圖像采集系統(tǒng)對(duì)梨樣本拍照留樣記錄,梨果專家對(duì)每個(gè)樣本切開后進(jìn)行人工驗(yàn)證,驗(yàn)證結(jié)果如表2所示。
因部分樣本不符合專家鑒定的等級(jí)要求,該部分樣本不參與后續(xù)數(shù)據(jù)分析,在符合要求樣本中共取800個(gè)樣本,每一類各200個(gè)。其中640個(gè)樣本為訓(xùn)練集,每一類各160個(gè);剩余160個(gè)為獨(dú)立驗(yàn)證集不參與模型訓(xùn)練,每一類各40個(gè),圖1是四個(gè)等級(jí)梨的完整圖與剖面圖。
圖1 四個(gè)等級(jí)梨的完整圖與剖面圖Fig.1 Complete image and section image of four grades pears
樣本數(shù)據(jù)由電子鼻儀器獲得,對(duì)已有的電子鼻數(shù)據(jù)做各傳感器的響應(yīng)曲線,皇冠梨的典型電子鼻響應(yīng)曲線如圖2(a)所示,其中響應(yīng)值用相對(duì)電阻率表示,即樣本氣體與純空氣電阻率之比(G/G0)。
圖2 皇冠梨的電子鼻傳感器響應(yīng)圖Fig.2 Electronic nose sensor response diagram of Huangguan pears
從圖2(a)中可以觀察到電子鼻響應(yīng)值的變化趨勢表現(xiàn)出一定的規(guī)律。隨著時(shí)間的增加,各傳感器響應(yīng)值發(fā)生變化,大概在45 s后,各傳感器的響應(yīng)值達(dá)到穩(wěn)態(tài)。其中S2、S4、S6、S7、S8、S9、S10七個(gè)傳感器響應(yīng)值有較大的提升,而其余的傳感器響應(yīng)值基本沒有變化或變化較小。將四類皇冠梨樣本45 s后穩(wěn)態(tài)響應(yīng)值做均值處理,繪制雷達(dá)圖如圖2(b)所示,四類樣本的電子鼻響應(yīng)值呈現(xiàn)相似的輪廓,即10個(gè)不同傳感器的敏感度表現(xiàn)是相似的。由圖2綜合可知:對(duì)皇冠梨氣味響應(yīng)比較敏感的傳感器有S2、S4、S6、S7、S8、S9和S10;而隨著腐敗等級(jí)的增加,S6、S7、S8和S10的信號(hào)逐漸增大。該結(jié)果表明,皇冠梨腐敗程度的增加會(huì)產(chǎn)生更多的烷烴類化合物、萜烯或含硫有機(jī)化合物和乙醇類化合物等。
通過觀察響應(yīng)曲線和雷達(dá)圖,可將四類樣本進(jìn)行簡單區(qū)分。因此,皇冠梨腐敗等級(jí)可以基于電子鼻設(shè)備進(jìn)行簡單識(shí)別與分級(jí),但要得到更準(zhǔn)確的分析,需要對(duì)數(shù)據(jù)進(jìn)行更進(jìn)一步的處理,因此對(duì)十個(gè)傳感器的數(shù)據(jù)做進(jìn)一步信號(hào)處理和分析工作。提取45 s后的相對(duì)穩(wěn)定的響應(yīng)值作為后續(xù)分析處理的特征數(shù)據(jù)。
使用PCA方法對(duì)數(shù)據(jù)做降維處理。前三個(gè)主成分(PC)的累積方差貢獻(xiàn)率達(dá)到95.19%,充分保留了樣本的原始數(shù)據(jù)信息,PC1、PC2和PC3的貢獻(xiàn)率分別占74.30%、18.91%和1.98%。圖3為PC1、PC2和PC3繪制的標(biāo)準(zhǔn)分?jǐn)?shù)圖。
表3 分層5折交叉驗(yàn)證法對(duì)不同模型的測試集準(zhǔn)確率(%)Table 3 Stratified 5-fold cross-validation method for accuracy of different models in test set(%)
圖3 四個(gè)等級(jí)梨的PC分?jǐn)?shù)圖Fig.3 PC scores for four grades pears
從圖3中可以觀察到,無黑核梨與黑核梨可以大致區(qū)分開,但部分不同等級(jí)的黑核梨不能完全區(qū)分,其聚合程度也不夠緊湊,可能有以下兩方面原因:一方面因?yàn)闃颖緮?shù)據(jù)是不同的黑核梨構(gòu)成,可能因?yàn)槠涓瘮〕潭嚷杂胁煌鴮?dǎo)致某一傳感器收集的數(shù)據(jù)變化差異較大;另一方面PCA在皇冠梨腐敗等級(jí)分類中表現(xiàn)不佳也可能是因?yàn)槌叽鐪p小后的保留氣味信息不是非常有效,并且在分析中丟棄了包含有用信息的某些信息分布方向。
前三個(gè)線性判別函數(shù)(LD)的累積貢獻(xiàn)率達(dá)到99.73%。LD1、LD2和LD3描繪分?jǐn)?shù)圖如圖4所示,其LD1、LD2和LD3分別為62.12%、34.81%和2.80%。相比較于PCA保留95.19%的數(shù)據(jù)信息來比,LDA更好地保留了原始信息。從圖4可觀察到,無黑核梨與不同腐敗等級(jí)的黑核梨有較大的差異分布,由于差異的高分配率,可以觀察到樣本具有足夠的代表性,也說明該方法對(duì)皇冠梨腐敗等級(jí)分類是有效的,因此,LDA降維方法也是可用于梨樣本數(shù)據(jù)的。
圖4 四個(gè)等級(jí)梨的LD分?jǐn)?shù)圖Fig.4 LD scores for four grades pears
選用的降維方法為主成分分析(PCA)和線性判別分析(LDA),選用的分類方法為邏輯回歸(LR)、支持向量機(jī)(SVM)、梯度提升樹(GBDT)、XGBoost方法。在模型評(píng)估方面,采用分層5折交叉驗(yàn)證方法,該方法是將訓(xùn)練集640個(gè)皇冠梨樣本根據(jù)4個(gè)等級(jí)每次分層隨機(jī)取樣,分為互斥的5個(gè)子集,將5個(gè)子集隨機(jī)分為兩部分,4個(gè)子集作為訓(xùn)練集,1個(gè)子集作為測試集,訓(xùn)練后對(duì)每一次的測試集樣本準(zhǔn)確率做均值處理。分層5折交叉驗(yàn)證法對(duì)不同模型的測試集準(zhǔn)確率如下表3所示。
表4 不同模型在驗(yàn)證集準(zhǔn)確率Table 4 Accuracy of different models in validation set
表5 其他模型在驗(yàn)證集準(zhǔn)確率Table 5 Accuracy of other models in validation set
從上表中可以看出,作為GBDT方法的改進(jìn)版XGBoost方法與兩種降維方法的結(jié)合后模型的準(zhǔn)確率都要明顯高于其他幾種方法,分層5折交叉驗(yàn)證法相較于傳統(tǒng)的隨機(jī)劃分法其優(yōu)點(diǎn)是避免了偶然性與單一性,提高了模型可靠性與穩(wěn)定性。
模型訓(xùn)練好后,另取四個(gè)等級(jí)梨樣本各40個(gè),總共160個(gè)梨樣本用作模型的驗(yàn)證。驗(yàn)證結(jié)果如下表4所示。
其中PCA-LR、PCA-SVM、PCA-GBDT、PCA-XGBoost、LDA-LR、LDA-SVM、LDA-GBDT、LDA-XGBoost的驗(yàn)證集準(zhǔn)確率分別達(dá)到了75.0%、79.4%、84.4%、91.9%、73.1%、82.5%、87.5%、95.6%。對(duì)比測試集結(jié)果,LDA-XGBoost方法的在驗(yàn)證集的準(zhǔn)確率也是最高的,達(dá)到了95.6%。
此外,選取最近兩年文獻(xiàn)中表現(xiàn)較好的分類算法應(yīng)用于皇冠梨樣本,其中Liu等[24]對(duì)葡萄酒產(chǎn)地、年份和種類的分類中,反向傳播神經(jīng)網(wǎng)絡(luò)(BP)達(dá)到了最佳性能;高靜等[25]對(duì)黃山毛峰與其他綠茶的分類比較中,使用貝葉斯算法(NB),有較好的判別準(zhǔn)確率。因此對(duì)比以上兩種算法與LDA-XGBoost算法在驗(yàn)證集準(zhǔn)確率,驗(yàn)證結(jié)果如表5所示。
比較兩種分類算法針對(duì)皇冠梨樣本的分類效果,發(fā)現(xiàn)經(jīng)典的貝葉斯算法在驗(yàn)證集的效果并不是很好,大量的1級(jí)與2級(jí)的樣本被錯(cuò)誤分類;而反向神經(jīng)網(wǎng)絡(luò)的表現(xiàn)不錯(cuò),準(zhǔn)確率達(dá)到了91.9%,但低于LDA-XGBoost方法的95.6%。說明針對(duì)皇冠梨樣本,LDA-XGBoost算法是最合適的,準(zhǔn)確率也是最高的。
以上各個(gè)實(shí)驗(yàn)結(jié)果表明皇冠梨數(shù)據(jù)使用LDA降維方法較為完整地保留了原始數(shù)據(jù)信息,而XGBoost方法更好地對(duì)降維數(shù)據(jù)進(jìn)行分類區(qū)分,其LDA-XGBoost方法在測試集與驗(yàn)證集上都有較好的表現(xiàn),模型的準(zhǔn)確率分別達(dá)到96.6%和95.6%,取得最佳的分類效果。
本文提出的基于電子鼻技術(shù)的無損檢測方法是一種快速、準(zhǔn)確、非破壞性的對(duì)不同腐敗等級(jí)皇冠梨分類的實(shí)用方法,該方法能在保證樣本完整性的情況下克服人工檢測的主觀性和不準(zhǔn)確性。根據(jù)結(jié)果顯示,優(yōu)質(zhì)的皇冠梨的氣體數(shù)據(jù)是較為固定的,LDA-XGBoost方法在測試集與驗(yàn)證集上都有比較高的準(zhǔn)確率。
本文對(duì)不同腐敗等級(jí)皇冠梨分類問題提出新的檢測手段,解決之前因人工檢測方法主觀性強(qiáng)、準(zhǔn)確率低和覆蓋率低而導(dǎo)致的經(jīng)濟(jì)損失問題,為石家莊皇冠梨品質(zhì)檢測提供新思路新方法。