馮 潔劉云宏,2王慶慶于慧春,2石曉微
(1. 河南科技大學(xué)食品與生物工程學(xué)院,河南 洛陽 471023;2. 河南省食品原料工程技術(shù)研究中心,河南 洛陽 471023)
金銀花是中國傳統(tǒng)藥食同源食材及中藥材[1-2],有抗菌抗炎、清熱解毒等功效[3],具有極高的營養(yǎng)價(jià)值。金銀花在貯藏運(yùn)輸過程中,經(jīng)常由于包裝不嚴(yán)、吸潮而發(fā)生霉變變質(zhì)等現(xiàn)象,這不僅會(huì)嚴(yán)重影響金銀花的外觀與風(fēng)味,還會(huì)造成營養(yǎng)成分的大量流失以及有毒有害物質(zhì)的生成積累。一旦霉變金銀花被人畜誤食,將會(huì)嚴(yán)重威脅到人們的生命健康[4]。因此,及時(shí)檢測(cè)出霉變金銀花尤為重要。
目前,農(nóng)產(chǎn)品霉變的檢測(cè)主要依靠人工定性分析,通常是根據(jù)檢測(cè)人員對(duì)農(nóng)產(chǎn)品的色澤、氣味等感官指標(biāo)變異情況進(jìn)行判別[5],這種方式分選檢測(cè)范圍小、效率低、經(jīng)驗(yàn)依賴性強(qiáng),若應(yīng)用于金銀花霉變程度識(shí)別,極易產(chǎn)生人為誤差。現(xiàn)有的農(nóng)產(chǎn)品霉變理化檢測(cè)方法主要包括生物學(xué)方法、免疫學(xué)方法和化學(xué)儀器分析法[6-8]。這些方法雖然檢測(cè)精度高,但操作繁瑣、時(shí)間長(zhǎng)及成本高,難以及時(shí)、無損分析金銀花霉變程度。因此,亟需建立一種快速、準(zhǔn)確、實(shí)用的金銀花霉變程度的檢測(cè)方法。
近年來,高光譜成像技術(shù)由于操作簡(jiǎn)單、快速、無損等優(yōu)點(diǎn),在農(nóng)產(chǎn)品品質(zhì)鑒定與檢測(cè)中的應(yīng)用非常廣泛[9-11]。目前,國內(nèi)外學(xué)者在利用高光譜成像技術(shù)檢測(cè)不同農(nóng)產(chǎn)品病變程度、鑒別不同霉變菌種等方面已有一些研究[12-13]。如龔中良等[14]利用高光譜成像技術(shù)快速無損鑒別不同霉變程度的秈稻;Zhang等[15]利用高光譜成像技術(shù)鑒別小麥白粉病;Siripatrawan等[16]運(yùn)用高光譜圖像技術(shù)實(shí)時(shí)監(jiān)控貯藏大米中腐敗霉變真菌生長(zhǎng)狀況。上述研究均取得了較好的預(yù)測(cè)效果,說明高光譜成像技術(shù)能夠?qū)崿F(xiàn)農(nóng)產(chǎn)品霉變情況的快速、無損、準(zhǔn)確檢測(cè)。然而,目前尚無利用高光譜技術(shù)進(jìn)行金銀花霉變程度快速檢測(cè)方法構(gòu)建的研究報(bào)道。
本研究擬通過高光譜成像技術(shù)采集金銀花不同霉變程度的數(shù)據(jù)信息,結(jié)合化學(xué)計(jì)量學(xué)方法建立有效、準(zhǔn)確的檢測(cè)模型。首先,使用Savitzky-Golay(SG)卷積平滑、多元散射校正(Multiple Scatter Correct,MSC)和Savitzky-Golay卷積平滑-多元散射校正(SG-MSC)3種預(yù)處理方法建立全光譜偏最小二乘(Partial Least Square,PLS)模型,選擇最佳預(yù)處理方法后,運(yùn)用連續(xù)投影系數(shù)法(Successive Projection Algorithm,SPA)和競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(Competitive Adaptive Reweighted Sampling,CARS)提取經(jīng)預(yù)處理后得到光譜的特征波長(zhǎng),并分別建立偏最小二乘判別(Partial Least Square Discriminant Analysis,PLS-DA)和最小二乘支持向量機(jī)(Last Squares Support Vector Machine,LS-SVM)判別分析模型,最終實(shí)現(xiàn)對(duì)霉變金銀花的有效鑒別。以期為高光譜成像技術(shù)在金銀花農(nóng)產(chǎn)品的霉變檢測(cè)及品質(zhì)鑒定中的應(yīng)用提供參考。
金銀花:產(chǎn)地為河南封丘,河南洛陽同仁堂大藥房;
恒溫恒濕培養(yǎng)箱:HWHS-100HC型,深圳市澳德瑪電子科技有限公司;
高光譜攝像儀:Inno-Spec IST50-3810型,德國Inno-Spec GmbH公司;
光纖鹵素?zé)簦?0000420108型,德國ESYLUX公司;
控制箱:SC100型,北京光學(xué)儀器廠;
電控位移臺(tái):SC100型,北京光學(xué)儀器廠。
1.2.1 樣品的制備與劃分 將金銀花放置于溫度為25 ℃、濕度85%的恒溫恒濕培養(yǎng)箱中進(jìn)行培養(yǎng)。分別挑選無霉變、輕度霉變、中度霉變、重度霉變4個(gè)時(shí)期的金銀花為試驗(yàn)對(duì)象,對(duì)應(yīng)的貯藏時(shí)間分別為0,5,10,15 d。每組金銀花隨機(jī)選擇90個(gè)樣本,應(yīng)用高光譜成像技術(shù)進(jìn)行光譜數(shù)據(jù)采集。其中對(duì)照組金銀花為青綠色,沒有損害跡象;輕度霉變金銀花出現(xiàn)輕微變色與發(fā)潮現(xiàn)象,表面開始有微量菌絲出現(xiàn),但由于金銀花表面存在被毛與菌絲的顏色相近,肉眼很難直接觀察;中度霉變?yōu)槊咕采w面積約占金銀花表面10%~40%,并有輕微霉味和霉斑;重度霉變金銀花表面布滿白色菌落出現(xiàn)嚴(yán)重的霉味、酸味和異常,少量樣品產(chǎn)生黏連現(xiàn)象。
1.2.2 高光譜圖像采集與校正 在圖像采集前為了保證圖像的清晰度、避免失真現(xiàn)象的發(fā)生,首先應(yīng)確定物鏡距離、高光譜攝像機(jī)的曝光時(shí)間和輸送裝置的移動(dòng)速度。經(jīng)過反復(fù)調(diào)整,最終確定物鏡高度為250 mm,CCD相機(jī)的曝光時(shí)間為90 ms,輸送裝置的移動(dòng)速度為1.20 mm/s。4個(gè)光源分布在高光譜系統(tǒng)的前后兩邊,以保證花蕾表面形成足夠的光照強(qiáng)度,防止由于光照不足或不均勻而產(chǎn)生噪音[17-19]。
光譜測(cè)定條件為:光譜掃描范圍371~1 024 nm,在光譜范圍內(nèi)共1 288個(gè)波段,光譜分辨率2.8 nm。金銀花光譜采集時(shí),每次將一個(gè)金銀花與傳送帶垂直放置。每個(gè)金銀花及其對(duì)應(yīng)的光譜視為一個(gè)樣本,對(duì)照組(無霉變)、輕度霉變、中度霉變和重度霉變金銀花4組樣本各測(cè)量90個(gè)樣本,最終獲得360個(gè)樣本。
在進(jìn)行光譜處理前,需要進(jìn)行黑白校正,以清除由于傳感器暗電流等原因而在圖像信息中產(chǎn)生的較大噪音。因此,在同一樣本采集系統(tǒng)條件下,掃描標(biāo)準(zhǔn)白色校正板(99%反射率)與關(guān)閉攝像頭快門進(jìn)行圖像采集,分別得到全白和全黑的標(biāo)定圖像,根據(jù)式(1)進(jìn)行圖像標(biāo)定[20-21]。
(1)
式中:
I——原始的高光譜圖像;
B——全黑的標(biāo)定圖像;
W——全白的標(biāo)定圖像;
R——標(biāo)定后的高光譜圖像。
圖像校正后,采用ENVI 5.1軟件選取整個(gè)金銀花花蕾為感興趣區(qū)域(Region of Interest,ROI),將ROI內(nèi)所有光譜信息的平均值作為對(duì)應(yīng)樣本的光譜值進(jìn)行數(shù)據(jù)分析[22-23]。
1.2.3 化學(xué)計(jì)量學(xué)方法 利用MATLAB R2014a (The Math Works,Natick,USA)軟件,將采集到的樣本數(shù)據(jù)使用SG、MSC[24]和SG-MSC 3種方法進(jìn)行預(yù)處理。利用SPA[25]和CARS算法[26]選擇經(jīng)預(yù)處理光譜的特征波段,并使用所提取的特征波段分別建立偏最小二乘判別[27](PLS-DA)和最小二乘支持向量機(jī)[28-29](LS-SVM)判別分析模型,試驗(yàn)采用判別正確率來評(píng)價(jià)檢測(cè)分析模型的精度。經(jīng)過反復(fù)調(diào)試,試驗(yàn)中LS-SVM算法選用的核函數(shù)為RBF函數(shù),懲罰因子設(shè)置γ為500,RBF核函數(shù)參數(shù)σ2為620。
利用高光譜成像系統(tǒng)采集金銀花樣本的光譜數(shù)據(jù),由于光譜數(shù)據(jù)前端和后端波動(dòng)較大,明顯具有較大的噪聲影響,因此研究時(shí)去掉前端和后端中有明顯噪聲的波段。本研究采用第199~988波段,共計(jì)790個(gè)波段,即對(duì)波長(zhǎng)范圍在472.35~874.46 nm的光譜進(jìn)行分析。圖1為金銀花不同霉變程度的平均光譜曲線圖,可見4組不同霉變程度的金銀花具有相似的光譜曲線趨勢(shì),不同霉變程度金銀花的反射值在所選波段存在差異。隨著貯藏時(shí)間的延長(zhǎng),金銀花開始發(fā)生褐變反應(yīng),導(dǎo)致類黑素的生成,表面色澤逐漸變暗[30],其內(nèi)部化學(xué)組分發(fā)生一系列的反應(yīng),金銀花所含酚類、黃酮類物質(zhì)不斷降解[31],這可能是中度霉變與輕度霉變的光譜反射值之間存在很大差距的原因。由于重度霉變金銀花表面覆蓋一層菌絲,在可見光范圍內(nèi),重度霉變組的光譜反射值要大于中度霉變組。而樣本光譜曲線在650~700 nm,對(duì)照組與輕度霉變、中度霉變與重度霉變金銀花之間樣本的光譜反射值極為相近,難以將4組不同霉變程度金銀花利用光譜曲線辨別出來。因此,需要進(jìn)一步處理數(shù)據(jù),以提高檢測(cè)金銀花霉變程度的建模精度。
圖1 不同霉變程度的金銀花平均光譜圖Figure 1 Average spectrum of honeysuckle with different moldy degrees
為減少樣本數(shù)據(jù)噪聲,保留光譜曲線中的有用信息。本試驗(yàn)使用Kennard-Stone(KS)算法,每組隨機(jī)選擇60個(gè)樣本,共240個(gè)樣本數(shù)據(jù)組成訓(xùn)練集,取各組剩余30個(gè)樣本共120個(gè)樣本數(shù)據(jù)組成校正集,分別運(yùn)用SG、MSC和SG-MSC 3種算法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。
SG卷積平滑、MSC和SG-MSC 3種預(yù)處理結(jié)果如表1所示,3種預(yù)處理方法的R2和RMSE值相差很小,說明3種預(yù)處理方式均能很好地消除光譜數(shù)據(jù)噪聲。對(duì)比3種預(yù)處理結(jié)果可知,SG-MSC訓(xùn)練集與校正集的R2最大、RMSE最小,所得到的訓(xùn)練集與驗(yàn)證集的R2分別為0.987 3和0.969 7,RMSE值分別為0.536 9和1.024 1,說明SG-MSC預(yù)處理后光譜數(shù)據(jù)的擬合性最好。SG-MSC算法結(jié)合了其他2種預(yù)處理算法的優(yōu)點(diǎn),在減少隨機(jī)噪聲影響的同時(shí)增加光譜信噪比,可確定為試驗(yàn)最佳預(yù)處理方法。因此,本研究選用SG-MSC算法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。
表1 基于全波段的PLS判別分析結(jié)果Table 1 Discriminant results of PLS-DA models based on full wave band
對(duì)預(yù)處理后的數(shù)據(jù)使用SPA進(jìn)行波長(zhǎng)的優(yōu)選,然后利用優(yōu)選的波長(zhǎng)數(shù)據(jù)建立PLS-DA和LS-SVM校正模型,最小均方根誤差值對(duì)應(yīng)的波長(zhǎng)變量個(gè)數(shù)即為最終結(jié)果。圖2為SPA模型中均方根誤差的趨勢(shì)變化及光譜變量個(gè)數(shù)的選擇。由圖2可知,當(dāng)選擇變量小于10個(gè)波長(zhǎng)時(shí),模型的RMSE值隨著變量的增大而減少;當(dāng)選擇變量大于10個(gè)波長(zhǎng)時(shí),模型的均方根誤差隨著變量的增大呈不規(guī)則波動(dòng)。由于波長(zhǎng)過多容易增加模型的運(yùn)算量和復(fù)雜度,因此選擇10個(gè)波長(zhǎng)的變量進(jìn)行建模,此時(shí)RMSE為1.032,篩選的10個(gè)特征波長(zhǎng)分別為536.41,563.05,592.76,610.17,631.15,646.50,667.96,771.37,798.75,817.48 nm。
圖2 SPA模型中變量數(shù)量的選擇Figure 2 Selection of variables in SPA models
CARS算法的主成分個(gè)數(shù)A和算法進(jìn)化次數(shù)N分別設(shè)定為5個(gè)和40次。CARS算法是對(duì)試驗(yàn)中790個(gè)變量進(jìn)行逐一篩選淘汰的過程,利用指數(shù)衰減函數(shù)(EDP)和交叉驗(yàn)證確定試驗(yàn)最佳的變量個(gè)數(shù)。隨著采樣次數(shù)的增加,試驗(yàn)選擇采樣變量個(gè)數(shù)、RMSECV、各光譜變量回歸系數(shù)的變化趨勢(shì)以及最小RMSECV所對(duì)應(yīng)的采樣次數(shù)分別見圖3(a)~(c)。其中,圖3(c)中的一條曲線對(duì)應(yīng)著一個(gè)光譜變量回歸系數(shù)的變化趨勢(shì),“×”表示的是每一個(gè)光譜變量逐一經(jīng)過運(yùn)算得到的最小RMSECV所對(duì)應(yīng)的采樣次數(shù)。由圖3(b)、(c)可知,當(dāng)采樣次數(shù)為19次時(shí),得到最佳波長(zhǎng)變量子集,最終篩選出特征波長(zhǎng)變量21個(gè),分別為500.53,501.56,511.81,528.21,530.77,541.53,565.91,567.15,571.76,593.28,608.12,614.27,648.54,706.75,744.44,748.51,758.67,761.72,823.55,860.87,865.91 nm。
圖3 CARS算法運(yùn)行結(jié)果Figure 3 Results of CARS calculation
2.4.1 基于SPA的特征篩選和模型建立 基于SPA提取特征波長(zhǎng)后,共篩選出10個(gè)特征波段,利用優(yōu)選波段分別建立PLS-DA和LS-SVM判別模型,其模型結(jié)果分別見表2、3。由表2、3可以看出,2種建模方式的訓(xùn)練集和驗(yàn)證集結(jié)果均在90%以上。PLS-DA訓(xùn)練集平均判別正確率為90.4%,驗(yàn)證集的平均判別正確率為92.5%。LS-SVM訓(xùn)練集和驗(yàn)證集的平均判別正確率分別達(dá)到了94.6%和96.7%。本試驗(yàn)基于SPA算法提取的特征波長(zhǎng)所建立的判別模型LS-SVM算法優(yōu)于PLS-DA算法。
2.4.2 基于CARS的特征篩選和模型建立 表4為使用CARS提取特征波長(zhǎng)的PLS-DA判別分析結(jié)果,其訓(xùn)練集判別正確率為95.4%,驗(yàn)證集的判別正確率為97.5%。表5為基于CARS提取特征波長(zhǎng)的LS-SVM判別分析結(jié)果,其訓(xùn)練集和驗(yàn)證集的判別正確率均達(dá)到了100%。本試驗(yàn)基于CARS算法提取的特征波長(zhǎng)所建立的檢測(cè)模型LS-SVM算法優(yōu)于PLS-DA算法。
表2 基于SPA提取特征波長(zhǎng)的PLS-DA判別分析結(jié)果Table 2 Discriminant results of PLS-DA models based on the characteristic wavelengths of SPA extraction
表3 基于SPA提取特征波長(zhǎng)的LS-SVM判別分析結(jié)果Table 3 Discriminant results of LS-SVM models based on the characteristic wavelengths of SPA extraction
表4 基于CARS特征波長(zhǎng)的PLS-DA判別分析結(jié)果Table 4 Discriminant results of PLS-DA models based on the characteristic wavelengths of CARS extraction
表5 基于CARS特征波長(zhǎng)的LS-SVM判別分析結(jié)果Table 5 Discriminant results of LS-SVM models based on the characteristic wavelengths of CARS extraction
由表2~5可以看出,試驗(yàn)運(yùn)用SPA和CARS 2種算法分別建立的PLS-DA和LS-SVM檢測(cè)模型中,對(duì)照組和輕度霉變金銀花可以與中度霉變、重度霉變金銀花完全區(qū)分開來,其中前2組金銀花之間相互有樣本的錯(cuò)分,后2組樣本間同樣發(fā)現(xiàn)有相互錯(cuò)分的現(xiàn)象。這可能是金銀花在貯藏初期,樣本逐漸吸收外部環(huán)境中的水分子進(jìn)入樣本內(nèi)部,導(dǎo)致其內(nèi)部對(duì)水分敏感物質(zhì)如多酚氧化酶、過氧化物酶與霉菌等的活躍[31],致使褐變和霉變現(xiàn)象在很短的時(shí)間內(nèi)發(fā)生,又因?yàn)闀r(shí)間較短,霉菌的生長(zhǎng)需要一個(gè)適應(yīng)階段,樣本內(nèi)部成分并沒有很大變化,因此試驗(yàn)中對(duì)照組與輕度霉變組較易產(chǎn)生錯(cuò)分樣本;而隨著貯藏時(shí)間的延長(zhǎng),霉菌可能處于對(duì)數(shù)期和穩(wěn)定期,樣本逐漸被霉菌覆蓋,內(nèi)部組分被大量分解,其內(nèi)部組分較貯藏初期發(fā)生了很大程度的變化,因而前2組樣本與后2組樣本之間較難出現(xiàn)錯(cuò)分現(xiàn)象。
根據(jù)表2~5可知,經(jīng)過2種算法提取的特征波長(zhǎng),所建立的PLS-DA和LS-SVM檢測(cè)模型的訓(xùn)練集判別正確率均達(dá)到90.4%以上,驗(yàn)證集的判別正確率亦在92.5%以上,說明試驗(yàn)所建立的檢測(cè)模型均能很好地鑒別金銀花霉變程度。建模效果由次到優(yōu)依次為:SPA-PLS-DA、CARS-PLS-DA、SPA-LS-SVM、CARS-LS-SVM。由建模結(jié)果可知,LS-SVM判別識(shí)別率要優(yōu)于PLS-DA的,說明LS-SVM算法的執(zhí)行效率更好;經(jīng)SPA所建立的模型,其結(jié)果要低于經(jīng)CARS所建立的,說明CARS所選擇特征波長(zhǎng)更能體現(xiàn)不同霉變程度金銀花樣本之間的差異,進(jìn)而提高模型的鑒別效果。光譜經(jīng)SG-MSC聯(lián)合預(yù)處理后得到的光譜數(shù)據(jù),使用CARS提取特征波長(zhǎng)并建立LS-SVM判別分析模型為不同霉變程度金銀花最優(yōu)判別模型,該模型能夠較好地實(shí)現(xiàn)分類。
本試驗(yàn)以不同霉變程度金銀花為研究對(duì)象,采用高光譜成像技術(shù)獲取樣本的光譜信息,使用SG、MSC和SG-MSC 3種預(yù)處理方法,利用全波段光譜信息建立PLS判別模型,得到SG-MSC預(yù)處理的效果最佳。將經(jīng)SG-MSC預(yù)處理后得到的光譜使用SPA和CARS 2種算法進(jìn)行降維處理,并分別選取了10個(gè)和29個(gè)波段作為特征波段。分別建立了PLS-DA和LS-SVM判別分析模型,其判別模型結(jié)果均在90.4%以上。綜合分析判別分析模型結(jié)果,得到CARS優(yōu)于SPA,LS-SVM優(yōu)于PLS-DA。因此,光譜經(jīng)SG-MSC預(yù)處理后,使用SPA提取特征波長(zhǎng)并建立LS-SVM判別分析模型為不同霉變程度金銀花最優(yōu)判別模型,其訓(xùn)練集與驗(yàn)證集的判別正確率均達(dá)到100.0%。
上述研究證明高光譜成像技術(shù)能夠?qū)崿F(xiàn)不同霉變程度金銀花的快速、無損、有效識(shí)別,但本研究?jī)H使用光譜信息對(duì)不同霉變程度的金銀花進(jìn)行辨別,未涉及其圖像信息。因此,在后續(xù)研究中可通過圖像光譜信息融合來進(jìn)行金銀花霉變檢測(cè)模型構(gòu)建及分析。