張佐經(jīng),付新陽,陳柯銘,趙遵龍,張仲雄,2,3,趙娟,2,3
1(西北農(nóng)林科技大學(xué) 機(jī)械與電子工程學(xué)院,陜西 楊凌,712100)2(農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室,陜西 楊凌,712100) 3(陜西省農(nóng)業(yè)信息感知與智能服務(wù)重點(diǎn)實(shí)驗(yàn)室,陜西 楊凌,712100)
蘋果霉心病是導(dǎo)致蘋果品質(zhì)不佳的主要病害之一,患有霉心病的蘋果,其果心出現(xiàn)霉變,引起落果、果實(shí)腐爛等問題,不僅給蘋果種植者、營銷者和消費(fèi)者帶來損失,還對企業(yè)、蘋果產(chǎn)業(yè)以及國家聲譽(yù)造成巨大影響[1]。此外,由于霉心病發(fā)于果心,無法從表面識別。因此,利用先進(jìn)的無損檢測技術(shù)來提高對蘋果霉心病的檢測效率和準(zhǔn)確率,對于保障蘋果品質(zhì),提高蘋果商品價值具有重要意義。
目前已有生物阻抗特性檢測技術(shù)[2]、核磁共振檢測技術(shù)[3]、成像檢測技術(shù)[4]、機(jī)器智能感官仿生檢測技術(shù)[5-7]等方法應(yīng)用于蘋果霉心病無損檢測,但上述方法存在實(shí)驗(yàn)儀器昂貴、檢測成本較高、分析過程較為復(fù)雜、耗時等不足。近紅外光譜技術(shù)具有分析效率高和成本低等優(yōu)點(diǎn),在蘋果霉心病無損檢測領(lǐng)域得到了諸多應(yīng)用。采用透射光譜進(jìn)行霉心病檢測,準(zhǔn)確率均在90%以上[8-12],但透射方式的檢測結(jié)果受果徑大小的影響,需要進(jìn)行復(fù)雜的模型修正[9],此外由于透射檢測方式中檢測光源與信號接收器分布在蘋果兩側(cè)且檢測光源所需能量較高,根據(jù)其原理開發(fā)的檢測設(shè)備通常存在體積較大、能耗較高等問題。采用漫反射光譜可以實(shí)現(xiàn)蘋果霉心病的無損檢測,但相比于透射檢測方式判別準(zhǔn)確率較低[13-14]。此外,李芳等[2]研究發(fā)現(xiàn)霉心病蘋果密度和可溶性固形物含量較健康蘋果均有所下降;張衛(wèi)園[7]采用機(jī)器視覺結(jié)合圖像處理方法獲取蘋果密度數(shù)據(jù),并利用密度數(shù)據(jù)判別蘋果是否患霉心病,模型準(zhǔn)確率達(dá)88%;張建超[15]發(fā)現(xiàn)從健康蘋果到重度霉心病果平均密度依次減小且差異顯著,以上研究表明密度可以作為霉心病判斷依據(jù)之一。
針對上述情況,本文提出一種融合密度與漫反射光譜的霉心病多因子無損檢測方法,通過提取能夠反映霉心病蘋果與健康蘋果差異的漫反射特征光譜,將密度數(shù)據(jù)與特征光譜關(guān)聯(lián)作為模型因子,利用多種算法構(gòu)建霉心病判別模型,以期提高漫反射光譜對蘋果霉心病判別準(zhǔn)確率。
于2019年10月在陜西省寶雞市扶風(fēng)縣某果園內(nèi),挑選果徑75~90 mm、外觀無損傷的蘋果樣本195個,將其運(yùn)回西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院農(nóng)業(yè)物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室,并放置8 h使其恢復(fù)至室溫條件(23~25 ℃,濕度35%~45%),消除溫度對光譜產(chǎn)生的影響。
WLD-600型密度儀,萬利多(稱重范圍:0.01~600 g,儀器精度:0.001 g/cm3),圖1為本實(shí)驗(yàn)所用密度儀,通過分別獲取蘋果在空氣中和水中的質(zhì)量計(jì)算蘋果的密度值。利用光譜儀(Maya200 Pro型,Ocean Optics,美國),有效波長范圍200~1 100 nm,分辨率0.48 nm和光源(HL-2000型,Ocean Optics,美國),波長響應(yīng)范圍360~2 400 nm,額定功率28.8 W搭建漫反射光譜數(shù)據(jù)采集平臺。
a-空氣中;b-水中圖1 密度儀及密度數(shù)據(jù)獲取Fig.1 Density meter and histogram of density data distribution
搭建的漫反射光譜數(shù)據(jù)采集平臺如圖2所示,在光譜信息采集軟件上對光譜儀參數(shù)進(jìn)行設(shè)置:積分時間為10 ms,光譜平均次數(shù)為5次,并選擇啟用暗噪聲校正、非線性校正。樣本為沿軸向放置,使其赤道部位與檢測探頭方向垂直,并沿軸向轉(zhuǎn)動,每隔120°采集1次光譜信息,共采集3組光譜信息,以3組光譜的平均光譜作為該樣本的漫反射光譜。光源發(fā)出的光經(jīng)光纖傳輸至檢測探頭并垂直照射至樣品表面,反射光經(jīng)光纖傳回光譜儀,光譜儀對反射光進(jìn)行采樣并將采樣信息傳回至計(jì)算機(jī),計(jì)算機(jī)對采樣信息進(jìn)行保存和分析。
圖2 光譜數(shù)據(jù)采集平臺Fig.2 Spectral data acquisition platform
1.3.1 數(shù)據(jù)預(yù)處理與樣本集劃分
由于獲取的光譜數(shù)據(jù)不僅包含被測樣品的成分信息,還含有各種噪聲等無關(guān)信息,為減弱甚至消除各種噪聲對檢測信號的影響,需要在分析數(shù)據(jù)前對其進(jìn)行預(yù)處理[16]。本文采用標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variable transformation,SNV)方法來消除粒徑、表面散射和光程變化對光譜的影響,提高模型預(yù)測能力。
采用Kennard-Stone(KS)算法實(shí)現(xiàn)樣本集劃分。KS算法通過計(jì)算樣本之間的歐幾里得距離實(shí)現(xiàn)對樣本集的劃分[17],該方法可保證訓(xùn)練集中樣本按歐式距離均勻分布,從而保證訓(xùn)練模型更能代表整個數(shù)據(jù)集。
1.3.2 特征波長提取
利用競爭性自適應(yīng)重加權(quán)采樣法(competitive adaptive reweighted sampling,CARS)與連續(xù)投影算法(successive projection algorithm,SPA)相結(jié)合提取特征波長。CARS算法[18]根據(jù)進(jìn)化論適者生存理論,挑選出PLS回歸模型中權(quán)值較大的波長點(diǎn),再利用交互驗(yàn)證方式選出使均方根誤差達(dá)到最小的變量集作為提取出的特征波長集合。SPA算法[19]能夠去除數(shù)據(jù)集中的冗余變量,最小化變量之間的共線性,減少建模所用變量數(shù)量,從而提升建模的速度和效率。本文首先利用CARS算法對特征波長進(jìn)行粗略提取,再利用SPA算法對由CARS算法得到的特征波長進(jìn)行進(jìn)一步提取,使數(shù)據(jù)壓縮率達(dá)到最高。
1.3.3 建模方法
采用偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)、Fisher判別、支持向量機(jī)(support vector machine,SVM)和最小二乘支持向量機(jī)(least squares support vector machine,LS-SVM)4種方法建立霉心病判別模型。
PLS-DA是多元數(shù)據(jù)分析技術(shù)中的一種用于類別判別的分析方法,其通過適當(dāng)旋轉(zhuǎn)主成分,有效區(qū)分組間觀測值,找出導(dǎo)致組間差異的影響變量。
Fisher判別是一種基于方差分析思想的線性判斷法,它能將高維空間的點(diǎn)投影至低維空間,能更好地區(qū)分每一個總體。在進(jìn)行Fisher判別時需要計(jì)算在投影空間上的分割閾值y0,本文通過公式(1)求出Fisher模型的分割閾值:
(1)
SVM[20]是一種基于機(jī)器學(xué)習(xí)理論來最大限度地提高其預(yù)測精度,同時避免對數(shù)據(jù)的過度擬合的分類和回歸預(yù)測工具。SVM判別函數(shù)見公式(2):
(2)
LS-SVM[21]是對標(biāo)準(zhǔn)SVM的改進(jìn)。LS-SVM與SVM的不同之處在于:LS-SVM將SVM中的凸二次優(yōu)化問題轉(zhuǎn)變?yōu)榍蠼饩€性方程組問題,方便了拉格朗日乘子α的求解,提升了模型求解速度。
1.3.4 模型評價指標(biāo)
以健康蘋果正確判別率、霉心病蘋果正確判別率和總體正確判別率作為模型主要評價指標(biāo),對模型進(jìn)行綜合評價。
所有數(shù)據(jù)處理操作均基于MATLAB 2018b軟件,其中PLS-DA采用libPLS_1.98工具箱,F(xiàn)isher采用MATLAB軟件自帶的相關(guān)判別函數(shù),SVM采用libsvm-3.23工具箱,LS-SVM采用lssvm-labv1.8工具箱。
對獲得的密度數(shù)據(jù)進(jìn)行正態(tài)分布檢驗(yàn),以確定其可用于進(jìn)一步分析。檢驗(yàn)結(jié)果如圖3所示,本實(shí)驗(yàn)所采集的密度數(shù)據(jù)基本符合正態(tài)分布特性,具有統(tǒng)計(jì)分析意義。霉心病蘋果密度整體低于健康蘋果密度,說明密度可作為判別蘋果是否患霉心病的依據(jù)之一,這與前人研究結(jié)論一致[2,7,15]。
圖3 密度數(shù)據(jù)正太分布檢驗(yàn)Fig.3 Test for normal distribution of density data
原始光譜見圖4-a,采用SNV對光譜進(jìn)行預(yù)處理,結(jié)果如圖4-b所示。經(jīng)過處理后,光譜之間趨于緊密化,使樣本性質(zhì)相同的波長點(diǎn)更加趨于一致,性質(zhì)不同的光譜之間的差異增大。
a-原始光譜;b-經(jīng)過SNV算法預(yù)處理的光譜圖4 原始光譜和經(jīng)過SNV算法預(yù)處理的光譜Fig.4 Original spectra and spectra pretreated by SNV
首先將樣本劃分為健康樣本集和霉心病樣本集,其中健康樣本集共117個樣本,霉心病樣本集共78個樣本,比例為3∶2。之后對2個樣本集分別采用KS算法,為保證訓(xùn)練集和測試集的健康蘋果和霉心病蘋果比例與整體比例保持一致,在基本符合訓(xùn)練集和測試集樣本比例約為3∶1的前提下,取經(jīng)KS劃分后健康樣本集的前90個樣本和霉心病樣本集的前60個樣本合并作為訓(xùn)練集,共150個樣本,將剩余樣本合并作為測試集,其中健康樣本27個,霉心病樣本18個,共計(jì)45個。
通過對CARS算法設(shè)置交互驗(yàn)證次數(shù)10次、聚類數(shù)25次,提取到特征波長9個,考慮到CARS提取的部分波長點(diǎn)之間較為接近,依然存在冗余,因此利用SPA對其進(jìn)行二次特征提取,最終得到特征波長5個,僅占全光譜的0.3%,圖5為特征波長提取的結(jié)果,提取的特征光譜避開了譜線重疊嚴(yán)重的區(qū)域,有效地反映了霉心病果與健康果的差異信息,為之后建立穩(wěn)定可靠的霉心病判別模型奠定基礎(chǔ)。
圖5 特征波長分布及霉心病果與健康果特征光譜對比Fig.5 Distribution of feature wavelengths, comparison of feature spectra of moldy core apple and healthy apple
將提取到的特征波長(394、422、448、474、541 nm)處對應(yīng)的光譜數(shù)據(jù)與密度數(shù)據(jù)合并作為模型因子用于模型的建立,同時分別僅以密度、特征光譜數(shù)據(jù)作為模型因子建立模型與前者進(jìn)行對比,分析融合密度因子對模型的影響。
2.4.1 模型參數(shù)的選擇與設(shè)定
建模時需要對各模型參數(shù)進(jìn)行合理設(shè)定,以使模型效果達(dá)到最優(yōu)。利用PLS-DA進(jìn)行建模時,需要合理選擇主因子數(shù)量,防止模型“過擬合”或“欠擬合”的產(chǎn)生,本文通過交互驗(yàn)證方式求取最佳主因子數(shù);通過公式(1)求取Fisher模型的分割閾值y0;SVM模型類型選擇C-SVC型,并選擇高斯核作為SVM模型的核函數(shù),同時采用網(wǎng)格搜索法對SVM模型懲罰因子C、核函數(shù)參數(shù)g進(jìn)行尋優(yōu),圖6為SVM參數(shù)尋優(yōu)過程圖;同樣選取高斯核作為LS-SVM模型的核函數(shù),并采用工具箱自帶的優(yōu)化函數(shù)對模型參數(shù)(正則參數(shù)γ、平方帶寬σ2)進(jìn)行優(yōu)化。各模型求得的最優(yōu)參數(shù)如表1所示。
圖6 SVM參數(shù)尋優(yōu)過程Fig.6 SVM parameter optimization process
表1 各模型最優(yōu)參數(shù)Table 1 Optimal parameters for each model
2.4.2 模型驗(yàn)證
為檢驗(yàn)各模型的效果,將測試集的45個樣本數(shù)據(jù)代入各模型,各模型的判別結(jié)果如表2所示。以密度+光譜作為模型因子的模型判別率均高于分別以密度、光譜作為模型因子的模型判別率,且以密度+光譜作為因子的4個模型對健康蘋果的正確判別率均為100.00%,僅將個別霉心病蘋果錯誤分類,其中,SVM總體判別率和霉心病蘋果判別率均最高,分別為95.56%和88.89%,分類效果最好,對霉心病蘋果的識別效果也最佳,PLS-DA、Fisher與LS-SVM總體判別率與霉心病蘋果判別率均持平,分別為93.33%和83.33%。圖7為SVM分類效果及判錯樣本,模型僅將2個霉心病蘋果誤判為健康蘋果,分類效果良好。
表2 各模型判別結(jié)果Table 2 Discriminant result of each model
圖7 SVM分類效果及判錯樣本圖Fig.7 SVM classification effect and judgment error sample
2.4.3 討論
霉心病發(fā)病后,果實(shí)的化學(xué)成分及其含量可能發(fā)生變化,漫反射檢測到這種變化,進(jìn)而判別出蘋果是否患病。結(jié)合圖5可看出,霉心病蘋果與健康蘋果在波長394、422、448、474、541 nm處光譜差異較大,以上5個特征波長均在可見光范圍內(nèi),而可見光常用于顏色評估和色素分析[22]。隨著霉心病病害程度的增加,蘋果表皮中葉綠素a、葉綠素b和類胡蘿卜素含量逐漸降低[23],黃酮素和花青素含量逐漸升高,蘋果表皮顏色變黃,說明漫反射光譜可能通過獲取蘋果表皮顏色和色素信息進(jìn)行霉心病判別。
另外,發(fā)病程度不同的霉心病蘋果密度范圍不同,且密度從健康果到重度果依次減小[15],因此,將這種差異作為霉心病判別依據(jù)之一具有理論可行性,經(jīng)實(shí)驗(yàn)證明此方法對于提高漫反射光譜的霉心病判別率具有積極作用,但仍存在個別霉心病蘋果被誤判的現(xiàn)象。通過分析,認(rèn)為原因主要在以下兩點(diǎn):(1)樣本發(fā)病程度較為輕微,表皮色差、密度變化均不明顯;(2)密度測量原理為排水法,方法本身存在一定程度誤差,此誤差覆蓋了樣本的密度特征。由圖7中4個模型均判錯的85號樣本和96號樣本,兩樣本發(fā)病面積均不足10%,與健康蘋果的光譜和密度值沒有顯著性差異,從而導(dǎo)致模型出現(xiàn)誤判。
本文所建立的融合密度與光譜的模型判別準(zhǔn)確率較優(yōu)于文獻(xiàn)[13]中僅基于漫反射光譜的模型判別率,并可以達(dá)到部分基于透射光譜建立的霉心病判別模型效果,但與雷雨等[12]建立的模型判別率(96.7%)仍存在一定差距,說明融合密度因子對漫反射模型判別率有一定的提升作用但可能也受到蘋果內(nèi)部品質(zhì)如糖度、硬度、酸度等因素影響,后期要繼續(xù)提高漫反射模型判別率可以考慮如何消除這些因素的影響。
基于漫反射檢測原理建立了融合密度特征的蘋果霉心病理論判別模型,若基于此模型開發(fā)蘋果霉心病無損檢測設(shè)備,可有效避免透射無損檢測設(shè)備中檢測結(jié)果受果徑影響、設(shè)備體積較大、不易攜帶、檢測能耗高等問題,因此,此模型對實(shí)現(xiàn)蘋果霉心病無損、快速、便捷檢測具有重要意義,同時為實(shí)現(xiàn)蘋果內(nèi)部病害和品質(zhì)一體化無損檢測提供了可能。然而,本文采用排水法原理測定蘋果密度數(shù)據(jù),測定過程較為復(fù)雜耗時,后期欲開發(fā)基于此模型的無損檢測設(shè)備的學(xué)者可考慮利用近紅外光譜對物質(zhì)化學(xué)特性和物理特性的良好預(yù)測能力,探索光譜與蘋果密度之間的關(guān)系,建立光譜-密度預(yù)測模型,將預(yù)測出的密度值與特征光譜融合后用于蘋果患霉心病的判別。
針對漫反射光譜對蘋果霉心病判別率較低的問題,提出一種融合密度特征與漫反射光譜的無損檢測方法,運(yùn)用CARS與SPA組合提取到漫反射光譜中可以區(qū)分霉心病蘋果與健康蘋果的5個特征光譜,僅占全光譜的0.3%,有效減少建模變量的維度。融合密度與特征光譜分別建立PLS-DA、Fisher、SVM和LS-SVM判別模型,同時僅基于密度、特征光譜分別建立同種模型做對比。結(jié)果表明,融合密度與特征光譜的模型判別率普遍高于僅基于密度、特征光譜的模型判別率,說明融合密度特征可以提高漫反射光譜判別霉心病的準(zhǔn)確率。4個模型中,以密度+光譜作為因子的SVM模型分類效果最好,較僅基于密度特征的模型測試集判別率提高13.34%,較未融合密度特征的漫反射特征光譜模型測試集判別率提高4.45%。綜上,將密度特征與漫反射光譜融合用于判別霉心病的方法可行,相比于僅基于密度或漫反射光譜的霉心病判別效果有所提高,并為開發(fā)基于漫反射檢測原理的蘋果內(nèi)部病害與品質(zhì)一體化無損檢測設(shè)備提供了理論基礎(chǔ)。