孟慶龍,馮樹(shù)南,尚靜,黃人帥,張艷,曹森*
1(貴陽(yáng)學(xué)院 食品與制藥工程學(xué)院,貴州 貴陽(yáng),550005)2(貴陽(yáng)學(xué)院, 農(nóng)產(chǎn)品無(wú)損檢測(cè)工程研究中心,貴州 貴陽(yáng),550005)
枇杷的營(yíng)養(yǎng)價(jià)值較為豐富,果實(shí)皮薄多汁,酸甜可口。我國(guó)貴州開(kāi)陽(yáng)是枇杷種植地之一,且開(kāi)陽(yáng)土壤富硒,使得開(kāi)陽(yáng)富硒枇杷深受歡迎[1]。但是,枇杷果實(shí)較為嬌貴,在采摘和貯藏的過(guò)程中,果實(shí)的品質(zhì)就會(huì)下降,其中,糖含量的變化十分明顯。隨著枇杷果實(shí)呼吸作用的進(jìn)行,糖含量會(huì)逐漸上升,這就會(huì)導(dǎo)致果實(shí)的甜酸度不佳,影響到枇杷的口感和風(fēng)味,導(dǎo)致其經(jīng)濟(jì)價(jià)值降低。
我國(guó)水果糖度的傳統(tǒng)檢測(cè)方法雖然準(zhǔn)確性較高,但是具有破壞性,且效率低、耗時(shí)長(zhǎng)[2];而依靠經(jīng)驗(yàn)主觀判斷水果品質(zhì)又無(wú)統(tǒng)一標(biāo)準(zhǔn),導(dǎo)致結(jié)果存在隨意性,對(duì)品質(zhì)的分選不準(zhǔn)確。因此,在水果品質(zhì)的分選方面,無(wú)論是傳統(tǒng)的檢測(cè)方法還是個(gè)人經(jīng)驗(yàn)主觀判斷都造成了水果品質(zhì)參差不齊,難以體現(xiàn)我國(guó)水果的市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)。開(kāi)陽(yáng)枇杷是貴州的特色水果,對(duì)其果實(shí)進(jìn)行質(zhì)量分級(jí)能夠精準(zhǔn)定位其市場(chǎng)價(jià)格,同時(shí)維護(hù)好開(kāi)陽(yáng)枇杷的區(qū)域品牌地位。由此可見(jiàn),建立一套快速無(wú)損的枇杷果實(shí)的糖度檢測(cè)方法對(duì)于監(jiān)控其品質(zhì)、指導(dǎo)市場(chǎng)價(jià)格具有實(shí)際意義。
基于精密光譜檢測(cè)儀器的研發(fā)和化學(xué)計(jì)量學(xué)的飛速發(fā)展,以及光譜技術(shù)具有的可實(shí)現(xiàn)無(wú)損檢測(cè)的優(yōu)勢(shì),光譜技術(shù)在水果品質(zhì)的檢測(cè)中得到十分廣泛的應(yīng)用。國(guó)內(nèi)外研究學(xué)者利用光譜技術(shù)開(kāi)展了諸多水果品質(zhì)的研究[2-13]。其中,薄皮水果糖度或者可溶性固形物含量的無(wú)損檢測(cè)研究較多,比如獼猴桃[2-3]、蘋果[4-5]、荔枝[6]、藍(lán)莓[7-8]、梨[9]和李子[10]等。厚皮瓜果類水果因其尺寸大且不同部位果皮厚度不一,光譜技術(shù)獲取表皮下果肉的信息就會(huì)有差異,這必然影響模型的預(yù)測(cè)能力?;诠庾V技術(shù)檢測(cè)厚皮水果內(nèi)部品質(zhì)的研究較薄皮水果的少,但是也不乏很多優(yōu)秀的研究團(tuán)隊(duì)對(duì)網(wǎng)紋瓜的可溶性固形物[11]、小西瓜的糖度[12-13]、甜瓜的糖度[14]、河套蜜瓜的糖度[15]、麒麟西瓜的糖度[16-17]等進(jìn)行了研究。采用光譜技術(shù)對(duì)各類水果內(nèi)部品質(zhì)的研究已經(jīng)較為全面,但基于光纖光譜技術(shù)檢測(cè)枇杷糖度的研究鮮有報(bào)道。
本文通過(guò)光纖光譜儀采集開(kāi)陽(yáng)枇杷6個(gè)不同部位的反射光譜,對(duì)采集到的原始光譜進(jìn)行平均,得到原始平均光譜,并對(duì)其進(jìn)行預(yù)處理,探尋最優(yōu)的預(yù)處理方法;然后分別基于原始全光譜和預(yù)處理后的全光譜構(gòu)建枇杷糖度預(yù)測(cè)模型,并比較不同模型的優(yōu)劣;最后分別運(yùn)用連續(xù)投影算法(successive projection algorithm,SPA)以及競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)提取特征光譜,再基于特征光譜和測(cè)得的參考值構(gòu)建預(yù)測(cè)開(kāi)陽(yáng)枇杷糖度的多元線性回歸模型,依據(jù)預(yù)測(cè)效果得到最優(yōu)模型,以期為枇杷品質(zhì)的無(wú)損快檢和分選提供理論依據(jù)與技術(shù)基礎(chǔ)。
開(kāi)陽(yáng)富硒枇杷來(lái)自貴州省貴陽(yáng)市開(kāi)陽(yáng)縣禾豐鄉(xiāng)枇杷果園,于2021年5月23日采摘并挑選無(wú)病蟲(chóng)害且無(wú)機(jī)械損傷的枇杷果共120個(gè)。樣品采摘后立即帶回實(shí)驗(yàn)室,并在室溫[(22±2) ℃]條件下進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)前用軟紙輕輕地擦掉枇杷表面的雜物,對(duì)其依次編號(hào)后采集光譜以及測(cè)定糖度。
(ATAGO PAL-α)折射儀,日本Atago公司,檢測(cè)范圍:0.0~85 °Brix,檢測(cè)精度:±0.2 °Brix。光纖光譜儀,蔚海光學(xué)儀器(上海)有限公司,該系統(tǒng)主要由:QEPro光譜儀(分辨率:2.84~3 nm)、R600-7-VIS-125F光纖(直徑600 μm)、HL-2000鹵鎢燈光源(波長(zhǎng)范圍:360~2 400 nm)、反射探頭支架、適配器、標(biāo)準(zhǔn)反射白板以及計(jì)算機(jī)等構(gòu)成。系統(tǒng)結(jié)構(gòu)如圖1所示,其中系統(tǒng)的積分時(shí)間為110 ms,掃描平均次數(shù)是8,滑動(dòng)平均寬度是1,光譜采集范圍為360~1 006.4 nm,此光譜區(qū)間共有844個(gè)波段。
圖1 光纖光譜儀框圖Fig.1 The diagram of fiber-optic spectrometer
1.3.1 反射光譜采集
將待測(cè)枇杷樣品緊貼在反射探頭支架表面上(利用適配器將光纖探頭固定在反射探頭支架上,光纖探頭距離反射探頭支架表面約1 cm),光譜采集部位如圖2所示,分別在每個(gè)樣品正(①、②、③)反(④、⑤、⑥)兩面果實(shí)的花萼、赤道、果蒂附近,3個(gè)部位采集信息,每個(gè)果實(shí)采集到6個(gè)光譜,將這6個(gè)光譜進(jìn)行平均,以平均值作為該樣品的原始光譜數(shù)據(jù)。
圖2 枇杷光譜采集位置Fig.2 The reflectance spectra collected in the region of loquat
1.3.2 糖度的測(cè)定
在完成光譜采集后,枇杷糖度采用折射儀按照NT/T 2637—2014規(guī)定的方法測(cè)定。首先將枇杷以與赤道垂直的方向均勻地切成兩半,得到正反兩半的枇杷樣品。分別壓碎后經(jīng)紗布過(guò)濾擠汁,用一次性滴管滴到折射儀鏡面上,重復(fù)測(cè)量3次,讀數(shù)并記錄結(jié)果,取3次結(jié)果的平均值作為一半枇杷樣品的糖度值。同一個(gè)枇杷樣品正反兩半會(huì)得到2個(gè)糖度值,將這2個(gè)值進(jìn)行平均,得到的平均值即為該樣品的實(shí)測(cè)糖度值。
1.3.3 光譜預(yù)處理及特征波長(zhǎng)提取
1.3.3.1 光譜預(yù)處理
光譜儀獲取的枇杷樣本的原始光譜中除了含有有效的信息外,同時(shí)還含有背景信息和噪聲等,通過(guò)預(yù)處理可以校正后者對(duì)模型性能的影響。本實(shí)驗(yàn)對(duì)原始光譜的預(yù)處理是在MATLAB R2016b軟件中采用標(biāo)準(zhǔn)正態(tài)變換(standard normal variation,SNV)和多元散射校正(multi-scatter calibration,MSC)的方法[18-19]執(zhí)行的。
1.3.3.2 特征波長(zhǎng)提取
全光譜數(shù)據(jù)量非常龐大且數(shù)據(jù)之間存在嚴(yán)重的共線性問(wèn)題,這對(duì)模型的運(yùn)算速度有很大的影響。本實(shí)驗(yàn)采用SPA和CARS提取特征波長(zhǎng),提升模型的運(yùn)算效率[20-21]。SPA是一種前向變量選擇算法,通過(guò)在全光譜中找尋具有最低限度冗余的光譜信息變量集,使得矢量空間共線性最小化。本實(shí)驗(yàn)中預(yù)先設(shè)置選擇的變量數(shù)范圍為0~30,在該范圍內(nèi)根據(jù)預(yù)測(cè)集最低的均方根誤差確定了18個(gè)特征波長(zhǎng)。CARS是一種將回歸系數(shù)作為變量重要性指標(biāo)的特征變量選擇方法。該方法依靠指數(shù)衰減函數(shù)和自適應(yīng)重加權(quán)采樣技術(shù)優(yōu)選出每一次循環(huán)所構(gòu)建的偏最小二乘模型中回歸系數(shù)絕對(duì)值最大的變量點(diǎn),經(jīng)過(guò)多次重復(fù)選擇,交互驗(yàn)證偏最小二乘模型中均方根誤差最小的子集選為最優(yōu)變量子集。本實(shí)驗(yàn)中將其蒙特卡洛采樣次數(shù)設(shè)置為50次,篩選出的最優(yōu)波長(zhǎng)集中含有23個(gè)特征波長(zhǎng)。特征光譜的提取在MATLAB R2016b軟件中執(zhí)行。
1.3.4 建模方法及模型評(píng)價(jià)
本文分別基于原始全光譜、經(jīng)預(yù)處理后的全光譜和特征光譜數(shù)據(jù)構(gòu)建了預(yù)測(cè)枇杷糖度的主成分回歸(principal component regression,PCR)、偏最小二乘回歸(partial least square regression,PLSR)和多元線性回歸(multi linear regression,MLR)模型。PCR是一種僅對(duì)自變量進(jìn)行主成分分析,然后以主成分替換原自變量后再與因變量進(jìn)行多元線性回歸的方法。PLSR方法是光譜分析中應(yīng)用最普遍的化學(xué)計(jì)量方法,它是一種同時(shí)對(duì)自變量和因變量進(jìn)行主成分分析的多元線性回歸分析方法[22]。在MLR中,當(dāng)有m個(gè)自變量X(光譜數(shù)據(jù)),即X1,X2,X3,…,Xm,則自變量X和因變量Y(糖度實(shí)測(cè)值)之間的線性回歸方程為:
Y=β0+β1X1+...+βmXm+ε
設(shè)觀察值為{(Yi,Xi1,…,Xim),i=1,2,…,n},則多元線性回歸方程如下:
本文采用校正集的相關(guān)系數(shù)(RC)及其均方根誤差(root mean square error of calibration,RMSEC),預(yù)測(cè)集的相關(guān)系數(shù)(RP)及其均方根誤差(root mean square error of prediction,RMSEP),以及剩余預(yù)測(cè)偏差(residual predictive deviation,RPD)作為模型性能的評(píng)價(jià)指標(biāo)。若RPD<1.4,證明構(gòu)建的檢測(cè)模型無(wú)法完成預(yù)測(cè);1.4≤RPD<1.8,則模型僅可粗略地預(yù)測(cè);1.8≤RPD<2.0,證明模型可進(jìn)行相對(duì)較好的預(yù)測(cè);RPD≥2,證明模型可以完成非常好的預(yù)測(cè)[23]。數(shù)據(jù)處理在MATLAB R2016b軟件中執(zhí)行。
基于光纖光譜儀獲取的光譜數(shù)據(jù)和折射儀測(cè)定的實(shí)際糖度值,按照樣本集劃分的評(píng)判標(biāo)準(zhǔn)[24](校正樣本集中糖度值的范圍比預(yù)測(cè)樣本集的范圍寬)將120個(gè)枇杷樣本劃分為校正樣本集和預(yù)測(cè)樣本集。本實(shí)驗(yàn)根據(jù)光譜-理化值共生距離法[25]將120個(gè)枇杷樣本按照3∶1的比例劃分90個(gè)為校正集以及30個(gè)為預(yù)測(cè)集。由表1可以看出,校正集中的糖度值范圍大于預(yù)測(cè)集中糖度值的范圍,這樣劃分的樣本集有利于準(zhǔn)確、穩(wěn)健模型的構(gòu)建。
表1 校正集和預(yù)測(cè)集中枇杷糖度統(tǒng)計(jì)結(jié)果Table 1 Statistics results of the sugar content of loquat in calibration and prediction set
原始光譜中存在各種因素影響數(shù)據(jù)的準(zhǔn)確性,比如采集光譜時(shí)光源強(qiáng)度分布不均勻、枇杷樣本自身形狀不規(guī)則等,特別是在原始光譜的首末兩端會(huì)含有更多的噪聲,選擇400~1 000 nm波段作為有效原始光譜區(qū)域,本區(qū)域共包含785個(gè)波段。選定有效原始光譜區(qū)域后,為了進(jìn)一步消除目標(biāo)信息和噪聲帶來(lái)的干擾,本文在建立模型之前分別采用SNV和MSC對(duì)有效原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。圖3為枇杷樣本的原始反射光譜(圖3-a)以及經(jīng)過(guò)SNV(圖3-b)、MSC(圖3-c)預(yù)處理后的相對(duì)反射光譜。由圖3可以看出,所有光譜曲線的波形呈現(xiàn)出相同的趨勢(shì),在波長(zhǎng)675 nm附近有一個(gè)較為明顯的吸收峰,這可能是由葉綠素的吸收產(chǎn)生的;在980 nm附近也有一個(gè)吸收峰,這可能與枇杷果實(shí)中水的吸收有關(guān)系,體現(xiàn)出枇杷水分含量的信息。
為了定量分析枇杷的糖度,分別基于原始全光譜和預(yù)處理全光譜數(shù)據(jù)建立了PCR和PLSR預(yù)測(cè)枇杷糖度的模型,如表2所示。由表2可以看出,經(jīng)過(guò)SNV和MSC預(yù)處理后建立的PCR和PLSR模型的RC、RP和RPD均比未經(jīng)過(guò)預(yù)處理的原始光譜建模的RC、RP和RPD高,對(duì)于RMSEC和RMSEP來(lái)說(shuō),也是經(jīng)過(guò)預(yù)處理后建模的誤差小,這說(shuō)明原始光譜經(jīng)過(guò)預(yù)處理后模型效果和精度得到了提高;對(duì)比2種預(yù)處理方法,可以發(fā)現(xiàn)經(jīng)過(guò)SNV預(yù)處理后的建模效果要好于經(jīng)過(guò)MSC預(yù)處理的建模效果;比較PCR和PLSR 2種建模方法,得出PCR模型的性能要優(yōu)于PLSR模型。由此可見(jiàn),對(duì)原始光譜進(jìn)行預(yù)處理是尤為必要的。
a-原始光譜;b-SNV預(yù)處理后光譜;c-MSC預(yù)處理后光譜圖3 枇杷樣本的反射光譜Fig.3 Reflectance spectra of loquat
表2 PCR和PLSR模型對(duì)枇杷糖度的預(yù)測(cè)結(jié)果Table 2 Sugar content prediction results of loquat by PCR and PLSR model
原始光譜數(shù)據(jù)量龐繁,影響模型的運(yùn)算效率。本文采用SPA和CARS 2種方法提取特征變量來(lái)改善模型的性能,并且對(duì)2種特征波長(zhǎng)的提取方法進(jìn)行比較,進(jìn)而擇優(yōu)篩選特征波長(zhǎng)提取方法。
2.4.1 采用SPA提取特征波長(zhǎng)
采用SPA方法進(jìn)行特征變量的篩選時(shí),通常選取預(yù)測(cè)模型的均方根誤差的最小值來(lái)確定特征變量數(shù)。圖4給出了均方根誤差隨SPA中有效變量數(shù)的變化規(guī)律。由圖4可以看出,均方根誤差隨著有效變量數(shù)的增加而減小,但是當(dāng)有效變量數(shù)大于18以后,均方根誤差基本不再減小。因此本實(shí)驗(yàn)中選擇了18個(gè)波長(zhǎng)(占總波長(zhǎng)量的2.29%)作為特征變量,這18個(gè)變量分別為:400.0、402.4、407.2、409.6、427.8、441.3、480.8、553.7、642.1、676.7、689.8、700.5、704.3、709.6、712.7、758.4、907.3、978.4,單位均為nm。
圖4 均方根誤差隨SPA中有效波長(zhǎng)數(shù)的變化規(guī)律Fig.4 Variation regulation of RMSE with the number of effective wavelengths in SPA
2.4.2 采用CARS選取特征波長(zhǎng)
本實(shí)驗(yàn)采用CARS選取特征變量時(shí),設(shè)定其蒙特卡洛采樣次數(shù)為50次,根據(jù)五折交叉驗(yàn)證方法計(jì)算所構(gòu)建的偏最小二乘模型的交叉驗(yàn)證均方根誤差篩選出最優(yōu)變量子集。圖5給出了不同采樣次數(shù)下交叉驗(yàn)證均方根誤差的變化規(guī)律,可以發(fā)現(xiàn)在第30次采樣時(shí)獲得的交叉驗(yàn)證均方根誤差具有最小值,該最優(yōu)變量子集包含了23個(gè)特征波長(zhǎng)(占總波長(zhǎng)量的2.93%),這23個(gè)特征變量分別為:423.9、448.4、449.2、454.8、467.4、563.1、576.3、616.6、704.3、786.4、814.4、815.1、863.2、902.8、937、951.8、952.6、960、960.7、977、980.6、984.3、996.9,單位均為nm。
本文分別將基于SPA和CARS 2種特征波長(zhǎng)提取方法獲得的特征變量作為自變量,枇杷糖度的實(shí)測(cè)值作為因變量,構(gòu)建了預(yù)測(cè)開(kāi)陽(yáng)枇杷糖度的MLR檢測(cè)模型。通過(guò)特征變量構(gòu)建的MLR模型對(duì)枇杷糖度的預(yù)測(cè)結(jié)果如表3所示。由表3結(jié)果可以看出,CARS-MLR模型的RC(0.89)和RP(0.89)高于SPA-MLR模型的RC(0.79)和RP(0.88),并且CARS-MLR模型的RMSEC(0.62)和RMSEP(0.65)低于SPA-MLR模型的RMSEC(0.81)和RMSEP(0.74),這說(shuō)明CARS-MLR枇杷糖度預(yù)測(cè)模型的性能優(yōu)于SPA-MLR模型。對(duì)比表2中基于全光譜建立的PCR和PLSR模型預(yù)測(cè)枇杷糖度的結(jié)果,可以看出基于特征變量構(gòu)建的CARS-MLR模型的RC(0.89)和RP(0.89)均高于6種基于全光譜構(gòu)建模型的RC和RP,并且前者的RMSEC(0.62)和RMSEP(0.65)也低于后者的,這證明經(jīng)過(guò)CARS降維后,不僅模型的運(yùn)行效率大大提升,而且模型的校正性能和預(yù)測(cè)性能也都得到了改善。另外,CARS-MLR模型的RPD=2.29,進(jìn)一步證明模型可以完成非常好的預(yù)測(cè)。綜合以上表述,可以得出基于特征變量建立的CARS-MLR預(yù)測(cè)模型對(duì)開(kāi)陽(yáng)枇杷糖度具有非常好的預(yù)測(cè)能力。圖6為CARS-MLR模型對(duì)枇杷糖度的檢測(cè)結(jié)果,預(yù)測(cè)值與實(shí)際值具有比較好的線性關(guān)系,只有少數(shù)樣本偏離回歸線較遠(yuǎn),CARS-MLR模型能夠很好地預(yù)測(cè)枇杷的糖度。
a-CARS中變量數(shù)量的變化;b-不同采樣次數(shù)下的交叉驗(yàn)證均方根誤差;c-每次采樣中回歸系數(shù)的變化路徑圖5 CARS算法提取特征波長(zhǎng)的結(jié)果Fig.5 Characteristic wavelengths selection from full spectra by CARS algorithm
表3 基于特征光譜建立的多元線性回歸模型 對(duì)枇杷糖度的預(yù)測(cè)結(jié)果Table 3 Sugar content prediction results of loquat by MLR model based on the characteristic spectra
圖6 枇杷糖度的實(shí)測(cè)值與預(yù)測(cè)值的相關(guān)性Fig.6 The relativity of sugar content of loquat between the measured and predicted values
為實(shí)現(xiàn)快速無(wú)損檢測(cè)水果品質(zhì),對(duì)水果進(jìn)行分級(jí),進(jìn)而提升水果的經(jīng)濟(jì)價(jià)值,本文以開(kāi)陽(yáng)富硒枇杷為研究對(duì)象,提出了一種基于可見(jiàn)/近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)預(yù)測(cè)枇杷糖度的方法。首先,采用光纖光譜儀獲取枇杷樣本的光譜數(shù)據(jù),并測(cè)定枇杷的實(shí)際糖度值。然后,提取樣品的光譜數(shù)據(jù),采用SNV和MSC 2種方法對(duì)其進(jìn)行預(yù)處理,并基于原始光譜和經(jīng)預(yù)處理后的光譜建立預(yù)測(cè)枇杷糖度的PCR和PLSR模型。最后,利用SPA和CARS方法從全光譜中優(yōu)選出特征波長(zhǎng),并基于特征波長(zhǎng)建立預(yù)測(cè)枇杷糖度的SPA-MLR和CARS-MLR模型。分析結(jié)果可知,經(jīng)過(guò)預(yù)處理后建立的模型效果較基于原始光譜的模型好;基于特征變量建立的模型效率得到了很大的提升,且預(yù)測(cè)能力也優(yōu)于全光譜模型。本研究中CARS-MLR模型是最優(yōu)模型,其RPD=2.29,具有非常好的預(yù)測(cè)效果,表明采用可見(jiàn)/近紅外光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法建立枇杷糖度的預(yù)測(cè)模型是可行的。