武 斌,沈嘉棋,汪 鑫,武小紅,侯曉蕾
1.滁州職業(yè)技術(shù)學(xué)院信息工程學(xué)院,安徽 滁州 239000 2.江蘇大學(xué)卓越學(xué)院,江蘇 鎮(zhèn)江 212013 3.江蘇大學(xué)電氣信息工程學(xué)院,江蘇 鎮(zhèn)江 212013
目前,冰箱可以用來保鮮生菜,但隨著貯藏時(shí)間的延長(zhǎng),生菜中亞硝酸鹽含量在不斷增加而損害人體健康。更重要的是,長(zhǎng)期貯存會(huì)導(dǎo)致其中的水和大多數(shù)營(yíng)養(yǎng)物質(zhì)的含量下降[1]。例如,董偉等人選取華南4種高葉酸含量作物作為實(shí)驗(yàn)材料,實(shí)驗(yàn)表明,因長(zhǎng)期貯存平均葉酸損失達(dá)到23%。因此,確定食物的貯存時(shí)間具有重要意義[2]。本工作以生菜為例,探討一種有效的蔬菜新鮮度檢測(cè)方法。
傳統(tǒng)的人工篩選是評(píng)估食物新鮮度最常見的方法。有經(jīng)驗(yàn)的人可通過觀察食物的外部特征(比如顏色、形狀和味道)快速做出判斷。然而,受一些內(nèi)部和外部因素的影響,人工篩選是主觀的,缺乏準(zhǔn)確性。因此,研究人員通過多種方法進(jìn)行實(shí)驗(yàn)以檢測(cè)食品的質(zhì)量和貯存時(shí)間。高婷婷等[3]結(jié)合時(shí)間-溫度指標(biāo)(time-temperature indicators,TTIS),借助一些常用的建模方法,如測(cè)定反應(yīng)速率常數(shù)(k)和活化能(Ea)以及Ea匹配來監(jiān)測(cè)新鮮食品質(zhì)量。為了快速準(zhǔn)確地評(píng)價(jià)羅非魚魚片的新鮮度,Han 等[4]利用電子舌結(jié)合線性和非線性多元算法檢測(cè)魚的新鮮度。
近紅外光譜技術(shù)具有快速、無損、操作簡(jiǎn)單、精度高、成本低等優(yōu)點(diǎn)。目前,環(huán)境分析、食品工程[5-6]、食品新鮮度檢測(cè)[7]等不同領(lǐng)域的許多研究人員都應(yīng)用了近紅外反射光譜(near infrared reflectance spectroscopy, NIRS)技術(shù)。
模糊線性判別分析(fuzzy linear discriminant analysis, FLDA)是一種有監(jiān)督的特征提取和降維方法,該算法也被廣泛應(yīng)用于分類及其他領(lǐng)域。例如Guidea等[8]借助FLDA算法對(duì)礦泉水中的礦物成分進(jìn)行分析分類,有效區(qū)分了來自羅馬尼亞和德國(guó)的礦泉水,正確分類率達(dá)到88%。Shen等[9]應(yīng)用FLDA對(duì)白菜的中紅外光譜進(jìn)行特征提取,并使用K-最近鄰法(K-nearest neighbor, KNN)進(jìn)行樣本分類,實(shí)現(xiàn)了無損檢測(cè)白菜是否有λ-三氯氟氰菊酯農(nóng)藥殘留。
K-最近鄰法(KNN)是一種有監(jiān)督的分類方法[10]。Chen等[11]為快速無損地檢測(cè)豬肉的儲(chǔ)存時(shí)間,分別使用線性判別分析(linear discriminant analysis,LDA)、K-最近鄰(KNN)、反向傳播人工神經(jīng)網(wǎng)絡(luò)(back propagation artificial neural network,BP-ANN)等算法建立了豬肉儲(chǔ)存時(shí)間判別模型,結(jié)果表明BP-ANN模型在訓(xùn)練集和預(yù)測(cè)集中的判別率分別為99.26%和96.21%。
在主成分分析算法(principal component analysis, PCA)的基礎(chǔ)上,采用新排序原則對(duì)特征向量進(jìn)行重組的principal component analysis sort(PCA Sort)算法,并建立生菜貯藏時(shí)間的判別模型。首先,利用Antatis Ⅱ型近紅外光譜儀采集生菜的近紅外光譜數(shù)據(jù),并利用多元散射校正(multiple scatter correction, MSC)消除光散射的影響,對(duì)預(yù)處理后的數(shù)據(jù)分別采用PCA,PCA+FLDA和PCA Sort+FLDA等方法進(jìn)行分析。最后利用KNN進(jìn)行分類,確定各組生菜的貯存時(shí)間,計(jì)算并比較這三種方法的鑒別結(jié)果。
從鎮(zhèn)江一家超市購(gòu)買生菜。為了減小誤差,實(shí)驗(yàn)材料應(yīng)符合一定的標(biāo)準(zhǔn)。所有的生菜樣品(60個(gè)樣品)保證是在同一時(shí)間(新鮮和成熟)采摘的,大小、顏色、重量和葉子的完整性沒有太大的差異。用水清洗和晾干后,生菜樣品被放入有標(biāo)簽的塑料袋中,并放入4 ℃保鮮柜中備用。
采用美國(guó)Thermo Antaris Ⅱ型近紅外光譜儀獲取生菜的近紅外反射光譜。在整個(gè)實(shí)驗(yàn)過程中,由于近紅外光譜對(duì)外界環(huán)境敏感,實(shí)驗(yàn)室保持溫度在20~25 ℃,空氣相對(duì)濕度在50%~60%。
所有計(jì)算均在Windows 10的MATLABR2020a(Math Works,Natick,MA,USA)運(yùn)行。
光譜儀需要提前開機(jī)預(yù)熱1 h。采用反射積分球模式采集樣品的近紅外光譜,對(duì)每個(gè)樣品掃描32次,得到漫反射光譜的平均值。光譜掃描的波數(shù)范圍為10 000~4 000 cm-1,掃描間隔為3.856 cm-1。實(shí)驗(yàn)開始后,每隔12 h取出生菜樣品進(jìn)行近紅外光譜檢測(cè),共檢測(cè)三次,取其平均值,每個(gè)樣品采集的近紅外光譜為1557維數(shù)據(jù)。
在生菜原始近紅外光譜中,受環(huán)境影響,易發(fā)生噪聲、樣本異質(zhì)性、基線漂移和偏移[12]。多元散射校正(MSC)可有效消除不同散射水平引起的光譜差異。故采用MSC對(duì)初始近紅外光譜進(jìn)行預(yù)處理。圖1為MSC預(yù)處理后的光譜圖。
圖1 MSC處理后的生菜樣本近紅外光譜
采集的生菜樣品近紅外光譜有1557維,屬于高維數(shù)據(jù),同時(shí)光譜中含有大量無用信息和噪聲數(shù)據(jù),增加了分析、建模和計(jì)算的難度,故需對(duì)近紅外光譜進(jìn)行降維以提取生菜近紅外光譜的主要特征信息。主成分分析(PCA)可對(duì)生菜近紅外光譜數(shù)據(jù)進(jìn)行降維,同時(shí)較好地保留主要特征信息。然而,PCA在降維過程中會(huì)丟失一些鑒別信息而導(dǎo)致分類準(zhǔn)確率降低。為提高分類的準(zhǔn)確率,對(duì)PCA算法進(jìn)行了改進(jìn),按照一定的規(guī)則改變其特征向量的順序。具體算法如下:
(1)設(shè)訓(xùn)練樣本組成的矩陣為A,A∈Rn×d(n為訓(xùn)練樣本數(shù),d為訓(xùn)練樣本維數(shù))。
(2)用訓(xùn)練樣本矩陣A組成協(xié)方差矩陣S
(1)
(3)根據(jù)式Sv=λv,對(duì)矩陣S進(jìn)行特征分解,得到一組特征向量v1,v2, …,vn,λ和v分別是特征值和對(duì)應(yīng)的特征向量。
(4)計(jì)算類內(nèi)散射矩陣Sw與類間散射矩陣Sb
(2)
(3)
(4)
(6)將第k個(gè)訓(xùn)練樣本xk和測(cè)試樣本yk根據(jù)式(5)和式(6)投影到特征向量w上,其中zk是訓(xùn)練樣本xk在特征向量w上的投影,tk是測(cè)試樣本yk在特征向量w上的投影。
zk=wTxk
(5)
tk=wTyk
(6)
模糊線性判別分析(FLDA)用式(5)中訓(xùn)練樣本zk的每類均值作為聚類中心,計(jì)算出類內(nèi)離散度矩陣Sfw和模糊類間離散度矩陣Sfb。計(jì)算矩陣[Sfw]-1Sfb的特征值和特征向量及投影空間,并將訓(xùn)練樣本和測(cè)試樣本投影到得到的特征向量上。FLDA具體算法描述見文獻(xiàn)[13],m為FLDA中的權(quán)重指數(shù)。
分別使用PCA和PCA Sort對(duì)生菜近紅外光譜降維。計(jì)算結(jié)果表明,前15個(gè)主成分充分反映了生菜近紅外光譜的大部分信息。分別使用PCA和PCA Sort算法得到它們的前6~15個(gè)特征向量,并用FLDA和KNN進(jìn)一步處理,得到各自的準(zhǔn)確率如表1所示。由表1可知PCA Sort的準(zhǔn)確率要高于PCA,當(dāng)取m=2,K=3時(shí),PCA Sort的準(zhǔn)確率達(dá)到98.33%,高于PCA算法(83.33%)。
表1 PCA和PCA Sort的前6~15個(gè)特征向量及其準(zhǔn)確率
為確定恰當(dāng)?shù)臋?quán)重系數(shù)m,首先計(jì)算出m在1~15范圍內(nèi)取值時(shí)的準(zhǔn)確率,當(dāng)m增加時(shí),總體準(zhǔn)確率下降。結(jié)果如圖2(a)所示,發(fā)現(xiàn)權(quán)重系數(shù)較小時(shí),PCA+FLDA+KNN和PCA Sort+FLDA+KNN的分類結(jié)果相對(duì)準(zhǔn)確。因此,將計(jì)算范圍縮小到m為1~5,尋找更為精確的m??s小范圍[如圖2(b)所示],當(dāng)權(quán)重系數(shù)取m=2時(shí),分類的準(zhǔn)確率最高。
圖2 改變權(quán)重系數(shù)時(shí)準(zhǔn)確率的變化
KNN參數(shù)K的取值也是影響分類結(jié)果的一個(gè)因素。計(jì)算K取1~20內(nèi)的奇數(shù)時(shí)對(duì)應(yīng)的各項(xiàng)準(zhǔn)確率,結(jié)果如圖3所示,由此可知,K=3時(shí)PCASort+FLDA+KNN的分類準(zhǔn)確率最高,此時(shí)PCA+KNN及PCA+FLDA+KNN兩種方法的分類準(zhǔn)確率也近似最優(yōu)結(jié)果,故K取3。
圖3 K改變時(shí)分類準(zhǔn)確率的變化
三種方法的最高準(zhǔn)確率如表2所示。分析表2可以看出,采用FLDA算法并結(jié)合PCA和KNN,準(zhǔn)確率近似為PCA和KNN算法的兩倍,達(dá)到83%。而用PCA Sort代替PCA,準(zhǔn)確率則進(jìn)一步提高,達(dá)到98%。因此,使用PCA Sort,并用FLDA進(jìn)行特征提取,再用KNN進(jìn)行分類,具有更好的優(yōu)越性。
表2 三種方法的最高準(zhǔn)確率
提出一種新的特征提取方法,即PCA Sort+FLDA,以降低數(shù)據(jù)的維數(shù),提取生菜近紅外光譜的特征信息,基于該方法及近紅外光譜技術(shù),建立了一種比傳統(tǒng)人工篩選方法具有更多優(yōu)勢(shì)的分類模型。通過比較PCA+KNN, PCA+FLDA+KNN和PCA Sort+FLDA+KNN三種方法的分類準(zhǔn)確率,發(fā)現(xiàn)當(dāng)使用PCA Sort得到新的特征向量空間,并用FLDA進(jìn)行特征提取,可以提高KNN分類的準(zhǔn)確率(達(dá)到最高的98%)。綜上所述,近紅外光譜結(jié)合PCA Sort,F(xiàn)LDA和KNN可大幅提高生菜貯藏時(shí)間的識(shí)別準(zhǔn)確率,也為其他食品貯藏時(shí)間的測(cè)定提供了可行的參考方法。