程麗娟,劉貴珊,何建國(guó),*,楊曉玉,萬國(guó)玲,張 翀,馬 超
(1.寧夏大學(xué)農(nóng)學(xué)院,農(nóng)產(chǎn)品無損檢測(cè)實(shí)驗(yàn)室,寧夏 銀川 750021;2.寧夏大學(xué)物理與電子電氣工程學(xué)院,寧夏 銀川 750021)
靈武長(zhǎng)棗是寧夏獨(dú)有的鮮食棗品種,富含維生素、礦物質(zhì)[1]。棗果實(shí)具有食療作用,可當(dāng)作補(bǔ)血藥和保健補(bǔ)血?jiǎng)2-3]。糖度是評(píng)價(jià)棗品質(zhì)的首要指標(biāo)和長(zhǎng)棗中重要的風(fēng)味物質(zhì),影響著棗果實(shí)的成熟度。棗內(nèi)部的糖分主要為蔗糖、果糖和葡萄糖,而果實(shí)中糖累積的最主要形式是蔗糖,在酶的作用下可轉(zhuǎn)化成其他2種糖[4]。糖含量的傳統(tǒng)檢測(cè)方法有折射儀、糖度計(jì)、蒽酮法等[5-7],屬于有損檢測(cè)且費(fèi)時(shí)費(fèi)力。需尋找一種無損且快速測(cè)定果品糖含量的方法,對(duì)于完善長(zhǎng)棗品質(zhì)評(píng)價(jià)有重大的現(xiàn)實(shí)意義。
高光譜成像技術(shù)可將光譜和圖像相結(jié)合[8],呈現(xiàn)出無損、快捷靈敏、精確度高等優(yōu)點(diǎn)[9],是果品品質(zhì)無損檢測(cè)的發(fā)展趨勢(shì),對(duì)果品的研究集中在蟲害檢測(cè)、分類判別、農(nóng)藥殘留、揮發(fā)性成分、內(nèi)部品質(zhì)檢測(cè)等方面[10-14];Guo Ying等[15]使用4 種建模方法對(duì)棗內(nèi)部物質(zhì)建立預(yù)測(cè)模型,得到最佳模型為最小二乘支持向量機(jī),表明光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)是一種快速實(shí)用的技術(shù);Ma Te等[16]利用近紅外光譜對(duì)蘋果中的可溶性固形物含量進(jìn)行檢測(cè),建立偏最小二乘回歸分析,預(yù)測(cè)值的決定系數(shù)(R2)為0.89,交叉驗(yàn)證均方根誤差(root mean square error of cross-validation,RMSECV)為0.55%;Hu Weihong等[17]用1-MCP處理獼猴桃,使用可見-近紅外系統(tǒng)記錄1-MCP處理組和對(duì)照組的高光譜圖像,建立糖含量的穩(wěn)健模型,果實(shí)中葡萄糖、果糖和蔗糖的最佳預(yù)測(cè)精度分別為0.934、0.867和0.705;Gomes等[18]基于高光譜成像系統(tǒng)測(cè)試2012年和2013年葡萄中的糖含量,對(duì)于2012年采集的樣本,偏最小二乘回歸(partial least squares regression,PLSR)和神經(jīng)網(wǎng)絡(luò)的均方根誤差分別為0.94 °Brix和0.96 °Brix,決定系數(shù)(R2)分別為0.93和0.92,2013年樣本均方根誤差值分別為1.34 °Brix和1.35 °Brix,R2分別為0.95和0.92;于慧春等[19]利用光譜成像技術(shù)結(jié)合誤差反向傳播算法神經(jīng)網(wǎng)絡(luò)檢測(cè)不同波段的枸杞多糖和總糖含量,枸杞總糖含量預(yù)測(cè)正確率達(dá)到100%,相關(guān)系數(shù)為0.996 8; 管曉梅等[20]采集蘋果的高光譜數(shù)據(jù),引進(jìn)一種優(yōu)化偏最小二乘因子數(shù)的方法,果糖含量預(yù)測(cè)集均方根誤差(root mean square error of prediction,RMSEP)和相關(guān)系數(shù)(RP)分別由0.657、0.828改善至0.604、0.871;馮迪等[21]利用高光譜成像技術(shù)同時(shí)提取檢測(cè)蘋果糖度與硬度的最佳波長(zhǎng),結(jié)果顯示,糖度相關(guān)系數(shù)為0.847 6,均方根誤差為3.32;李瑞等[22]采用近紅外光譜儀(900~1 700 nm)測(cè)量藍(lán)莓果實(shí)的硬度和糖度,結(jié)果表明,糖度校正集相關(guān)系數(shù)RC和驗(yàn)證集相關(guān)系數(shù)RP達(dá)到0.891和0.774;劉燕德等[23]研究蘋果中的可溶性固形物和糖酸比,可溶性固形物預(yù)測(cè)模型的相關(guān)系數(shù)達(dá)到0.936,預(yù)測(cè)均方根誤差為0.476 °Brix。以上研究表明利用高光譜技術(shù)檢測(cè)靈武長(zhǎng)棗蔗糖含量理論上具有可行性。
本實(shí)驗(yàn)以靈武長(zhǎng)棗為研究對(duì)象,利用可見-近紅外高光譜采集長(zhǎng)棗圖像并建模分析,優(yōu)選最佳模型,為更深一步探討靈武長(zhǎng)棗的內(nèi)部品質(zhì)提供參考。
靈武長(zhǎng)棗購(gòu)于寧夏靈武果業(yè)開發(fā)有限責(zé)任公司,選取147 個(gè)長(zhǎng)棗樣本4 ℃冷藏。每隔5 d測(cè)試1 次,共計(jì)7 次,每次隨機(jī)取21 個(gè)長(zhǎng)棗作為實(shí)驗(yàn)樣本,將長(zhǎng)棗擦拭干凈,按照編號(hào)依次鋪在平板上,掃描樣本光譜圖像。
蔗糖標(biāo)品 四川省維克奇生物科技有限公司;水系膜(0.45 μm×50 mm)、濾頭(0.45 μm)、乙醇(色譜級(jí)) 天津市大茂化學(xué)試劑廠。
AGILENT型高效液相色譜(high performance liquid chromatography,HPLC)儀(配有示差檢測(cè)器和Aminex HPX-87H糖分析柱) 美國(guó)安捷倫科技公司;VIS/NIR高光譜成像系統(tǒng)(光譜范圍400~1 000 nm,共包含125 個(gè)波段) 北京卓立漢光儀器有限公司;高光譜成像光譜儀 芬蘭Spectral Imaging公司;CCD攝像機(jī)日本Hamamatsu公司;4 個(gè)150 W的光纖鹵素?zé)?美國(guó)Schott公司;電控位移平臺(tái) 北京Zolix公司。
1.3.1 高光譜信息采集
高光譜系統(tǒng)預(yù)熱0.5 h后方可進(jìn)行實(shí)驗(yàn)[24],由于傳感器內(nèi)部雜質(zhì)與CCD相機(jī)中的芯片會(huì)因熱激發(fā)生成電子,對(duì)圖像來說屬于噪聲,因此需要校正處理[25],其計(jì)算公式如下:
式中:R為黑白校正后的長(zhǎng)棗光譜;IR為長(zhǎng)棗原始光譜;ID為黑板光譜;IW為白板光譜。
為避免光譜圖像失真,需要對(duì)高光譜成像系統(tǒng)進(jìn)行參數(shù)設(shè)置[26],最終掃描參數(shù)設(shè)置為:CCD相機(jī)曝光時(shí)間20 ms;物鏡高度385 mm;掃描長(zhǎng)度70 mm;電控位移平臺(tái)速率200 μm/s。
1.3.2 HPLC測(cè)定長(zhǎng)棗蔗糖含量
標(biāo)準(zhǔn)溶液的配制:準(zhǔn)確稱取蔗糖標(biāo)準(zhǔn)品100 mg(精確至0.000 1 g),加少量超純水溶解,定容至5 mL容量瓶?jī)?nèi),制成質(zhì)量濃度為20 mg/mL溶液。準(zhǔn)確吸取蔗糖溶液2 mL于5 mL容量瓶中定容,制備成蔗糖質(zhì)量濃度為8 mg/mL溶液。同時(shí)按照對(duì)應(yīng)比例稀釋制備蔗糖質(zhì)量濃度均為0.5、1、2、4、8 mg/mL標(biāo)準(zhǔn)溶液。
提取液的制備:采集長(zhǎng)棗樣品光譜后,削去果皮,將10 mL無水乙醇加入研磨搗碎后的1 g果肉中先進(jìn)行均質(zhì),超聲提取0.5 h,11 000 r/min離心15 min后收集上清液,然后將5 mL無水乙醇加入殘?jiān)性俅翁崛 R陨咸幚淼玫降纳锨逡汉喜ⅲ?5 ℃真空旋干,加入超純水溶解并定容到25 mL容量瓶刻度線位置,充分搖勻,測(cè)試前用0.45 μm針式過濾器過濾。流動(dòng)相為超純水進(jìn)行反復(fù)測(cè)試,最終確定HPLC條件:進(jìn)樣量10 μL,流速0.4 mL/min,等度洗脫,柱溫30 ℃,示差折光檢測(cè)器溫度35 ℃。
1.3.3 光譜數(shù)據(jù)處理
利用ENVI4.8軟件分別從每張長(zhǎng)棗光譜圖像的赤道部位且呈相同暗紅顏色的部位提取30 pixel×30 pixel的感興趣區(qū)域(region of interest,ROI),計(jì)算每張ROI的平均光譜值并作為該長(zhǎng)棗的反射光譜。將光譜值和化學(xué)值建立模型,利用蒙特卡洛交叉驗(yàn)證法檢測(cè)、剔除異常值;光譜理化值共生距離法劃分樣本;在光譜采集過程中,由于存在儀器噪音、暗電流等影響因素,易使光譜曲線產(chǎn)生不重復(fù)和基線漂移等現(xiàn)象[27],故有必要在模型建立前對(duì)原始光譜進(jìn)行正交信號(hào)校正(orthogonal signal correction,OSC)法、多元散射校正(multiple scattering correction,MSC)、S-G卷積平滑(savitzkygolay,SG)、中值濾波(median-filter,MF)、高值濾波(Gaussian-filter,GF)、基線校準(zhǔn)、去趨勢(shì)7 種預(yù)處理;為減少數(shù)據(jù)量,提高運(yùn)算速度,采用競(jìng)爭(zhēng)性自適應(yīng)加權(quán)(competitive adaptive reweighted sampling,CARS)算法、連續(xù)投影算法(successive projection algorithm,SPA)和無信息消除變量(uninformative variable elimination,UVE)3 種數(shù)據(jù)降維方法提取特征變量,以期實(shí)現(xiàn)少數(shù)波段代替全波段;將全波段光譜(full spectrum,F(xiàn)S)以及CARS、UVE、SPA、CARS+SPA和CARS+UVE 5 種方法提取的特征波長(zhǎng)分別建立主成分回歸(principle component regression,PCR)、PLSR和多元線性回歸(multivariable linear regression,MLR)模型,對(duì)比分析不同方法對(duì)靈武長(zhǎng)棗蔗糖含量預(yù)測(cè)模型的影響,從而確定最優(yōu)的建模模型。
1.3.4 模型評(píng)價(jià)
由相關(guān)系數(shù)(correlation coefficient,R)、校正集均方根誤差(root mean square error of calibration set,RMSEC)、RMSECV以及預(yù)測(cè)集均方根誤差(root mean square error of prediction set,RMSEP)、RC+RP評(píng)價(jià)模型穩(wěn)定性[28]。實(shí)驗(yàn)流程見圖1。
圖1 實(shí)驗(yàn)流程圖Fig. 1 Flow chart of data processing
高光譜圖像分析軟件為ENVI 4.8(Research System Inc,USA),原始光譜預(yù)處理以及PLSR、PCR、MLR建模使用The Unscrambler X 10.4軟件,特征波長(zhǎng)提取使用Matlab R2014a軟件,繪圖軟件為Origin。
2.1.1 蔗糖標(biāo)準(zhǔn)曲線
圖2 蔗糖標(biāo)品(a)與長(zhǎng)棗提取液(b)的HPLLCC圖Fig. 2 HPLC peak of sucrose (a) and jujube (b)
由圖2可知,蔗糖出峰時(shí)間為11.37 min。蔗糖標(biāo)準(zhǔn)曲線方程為y=4.577 6×10-6x-2.48×10-2(y為蔗糖質(zhì)量濃度,x為峰面積),相關(guān)系數(shù)R2=0.999 9,表明兩者具有良好的線性相關(guān)性。
2.1.2 精密度測(cè)定結(jié)果
由表1可知,樣品的峰面積基本穩(wěn)定,通過計(jì)算得到相對(duì)標(biāo)準(zhǔn)偏差為0.27%小于1%,表明該方法精密度高。
表1 精密度結(jié)果Table 1 Precision of the HPLC method
2.1.3 加標(biāo)回收率測(cè)定結(jié)果
由表2可知,加標(biāo)回收率為93.09%~98.47%,平均回收率為95.18%,有較高的準(zhǔn)確性。
表2 加標(biāo)回收率結(jié)果Table 2 Recoveries of spiked samples
樣本圖像經(jīng)高光譜成像儀采集之后,選擇圖像中的平均光譜信息值作為原始反射光譜,如圖3所示。在675 nm波長(zhǎng)附近,光譜反射值達(dá)到最低,是由于長(zhǎng)棗樣本的C—H伸縮振動(dòng);900~1 000 nm之間的吸收峰主要由靈武長(zhǎng)棗內(nèi)部水分的吸收引起,該波段為水中O—H基團(tuán)的二倍頻特征吸收峰[29]。
圖3 原始光譜反射曲線Fig. 3 Ref l ectance curves of original spectra
異常值會(huì)影響數(shù)據(jù)的準(zhǔn)確度[30],因此本實(shí)驗(yàn)利用蒙特卡洛方法檢測(cè)異常數(shù)據(jù),預(yù)處理方法為Mean center;抽樣次數(shù)為2 000,建立147 個(gè)長(zhǎng)棗的PLSR模型,由RMSECV最小確定最佳主成分?jǐn)?shù)。如圖4所示,共檢測(cè)出4 個(gè)異常樣本,分別為:3號(hào)、16號(hào)、123號(hào)、138號(hào)樣本,剔除異常樣本后,相關(guān)系數(shù)RC由0.611增大到0.846,RMSECV由0.023 mg/g減小到0.021 mg/g。
圖4 基于蒙特卡洛方法檢測(cè)異常樣本Fig. 4 Detection of abnormal samples based on Monte Carlo method
采用Galvao等[31]提出的光譜理化值共生距離算法按照3∶1的比例將剔完異常值后的143 個(gè)樣本劃分成105 個(gè)校正集和38 個(gè)預(yù)測(cè)集,結(jié)果見表3,校正集的蔗糖質(zhì)量濃度范圍大于預(yù)測(cè)集質(zhì)量濃度范圍,表明樣本劃分合理。
表3 長(zhǎng)棗蔗糖含量數(shù)據(jù)統(tǒng)計(jì)Table 3 Statistics of sucrose content in jujubes
利用The Unscrambler X10.4軟件對(duì)原始光譜進(jìn)行預(yù)處理,由表4可以看出,使用不同預(yù)處理方法,模型的穩(wěn)健性和模型性能均發(fā)生不同程度上的改變,所用預(yù)處理方法建立的PLSR模型中,校正集的相關(guān)系數(shù)RC均在0.8~0.9范圍內(nèi)且基本接近,但是預(yù)測(cè)集的相關(guān)系數(shù)RP差異較大,其中,經(jīng)OSC預(yù)處理之后模型所建立的PLSR預(yù)測(cè)模型參數(shù)最優(yōu),校正集和原始光譜相差不大,預(yù)測(cè)集有著更高的相關(guān)系數(shù)和更低的均方根誤差,模型相關(guān)系數(shù)RC為0.853、RP為0.794,因此,后續(xù)模型的建立都采用OSC預(yù)處理方法。OSC預(yù)處理方法效果好的原因是利用數(shù)學(xué)上正交的辦法,將原始光譜矩陣X中與待測(cè)品質(zhì)Y不相關(guān)的部分信息濾除,能確保被濾除掉的信息與待測(cè)品質(zhì)無關(guān)[32]。
表4 不同預(yù)處理方法的PLSR模型Table 4 PLSR models with different spectral pretreatments
2.6.1 SPA選取特征波長(zhǎng)
SPA[33]是一種消除變量共線性的算法,可以在很大程度上精簡(jiǎn)模型。采用SPA從125 個(gè)波段中選出了5 個(gè)最優(yōu)波長(zhǎng)數(shù)。分別為401、410、425、439、723 nm,特征波長(zhǎng)占總波長(zhǎng)的4%。
2.6.2 UVE提取特征變量
圖5 UVE-PLSR穩(wěn)定性分布曲線Fig. 5 Stability distribution curve of UVE-PLSR model
使用UVE[34]提取長(zhǎng)棗光譜特征波長(zhǎng),在分組數(shù)定為10的情況下得到RMSECV最小值對(duì)應(yīng)的主成分?jǐn)?shù)為10,圖5為125 個(gè)輸入變量的穩(wěn)定性結(jié)果,兩條水平虛線為變量的選擇閾值(±4.26)。選擇特征波長(zhǎng)時(shí)內(nèi)部信息認(rèn)為是無用信息而被消除,外面的信息為有用信息,相對(duì)應(yīng)的波長(zhǎng)被選擇為特征波長(zhǎng)。用此方法共選取21 個(gè)特征波長(zhǎng),分別為401、415、607、612、617、622、627、641、646、651、694、795、843、847、895、900、915、919、939、963、972 nm,特征波長(zhǎng)占總波長(zhǎng)的24.8%。
2.6.3 CARS[35]提取特征波長(zhǎng)
圖6 CARS法選取波長(zhǎng)變量過程Fig. 6 Selection of characteristic wavelength variables by CARS method
如圖6所示,設(shè)定運(yùn)行次數(shù)為200。圖6a為篩選特征變量數(shù)的過程,隨著運(yùn)行次數(shù)的加大,變量數(shù)呈現(xiàn)由快到慢的遞減趨勢(shì),最后下降幅度趨于平緩;由圖6b可知,起初所建模型的RMSECV值不斷減小,說明采樣過程中,無用變量被消除,隨著運(yùn)行次數(shù)的增加,RMSECV值基本穩(wěn)定,表明變量變化不明顯,之后RMSECV隨著采樣次數(shù)的增加而持續(xù)上升,說明一些關(guān)鍵變量數(shù)被消除;圖6c中的每條線代表回歸系數(shù)的變化趨勢(shì),虛線A1、A2、A3、A4處的RMSECV值增大,是由于變量B1、B2、B3、B4的回歸系數(shù)值降低為0。CARS選出的17 個(gè)特征波長(zhǎng)分別為449、497、511、550、622、684、703、708、775、838、852、862、881、892、939、948、987 nm,特征變量數(shù)縮減為原來的13.6%。
使用PLSR、PCR、MLR建模方法,建立FS和特征波段的模型,見表5。FS-PLSR、FS-PCR和FS-MLR模型對(duì)應(yīng)的RMSECV最小值為0.025、0.027 mg/g和0.029 mg/g,遠(yuǎn)大于3 種特征波長(zhǎng)建模結(jié)果。表明篩選的特征波長(zhǎng)建模預(yù)測(cè)效果較好,原因可能是全波段光譜中包含了大量與長(zhǎng)棗蔗糖含量無關(guān)的信息,降低了建模效果。
3 種單一特征波長(zhǎng)的9 種建模中,校正集和預(yù)測(cè)集結(jié)果非常相近,說明以上3 種提取特征變量的方法是有效的,所建立的模型穩(wěn)定性也好,相比而言,采用CARS提取特征變量后建模結(jié)果優(yōu)于UVE和SPA。對(duì)于CARS+SPA、CARS+UVE特征波長(zhǎng)疊加的模型,雖然提取出的波長(zhǎng)數(shù)減少,但是3 種建模效果都不佳,因此,選取最優(yōu)模型為CARS-PCR,RC、RP為0.861和0.843。RC+RP表示模型穩(wěn)定性,大于其他模型穩(wěn)定性。
表5 不同波長(zhǎng)提取方法建立的PLS和PCR模型的結(jié)果Table 5 Figures of merit of PLS and PCR models based on different wavelength extraction methods
以147 個(gè)靈武長(zhǎng)棗為研究對(duì)象,利用可見-近紅外高光譜靈武長(zhǎng)棗光譜圖像,提取反射光譜;對(duì)剔除異常樣本后的光譜使用7 種預(yù)處理,采用OSC方法對(duì)光譜預(yù)處理得到模型的效果最好,RC和RP分別為0.853和0.794,說明預(yù)處理方法對(duì)原始光譜進(jìn)行正交信號(hào)校正處理可以降低噪音,獲取更多的有用信息信息,提高建模效果;利用SPA、UVE、CARS、CARS+SPA和CARS+UVE三種方法提取了5、21、17、10、18 個(gè)特征變量,占全波段的4%、24.8%、13.6%、8%、14.4%,對(duì)PLSR、PCR、MLR方法建立的18 種模型對(duì)比分析,結(jié)果發(fā)現(xiàn),全波段模型效果差,可能是全波段光譜中包含了大量與長(zhǎng)棗蔗糖含量無關(guān)的光譜信息;OSC-CARS-PCR方法建立的模型效果最好,RC、RP分別為0.861和0.843,RMSEC和RMSEP分別為0.013 mg/g和0.014 mg/g。綜上,利用高光譜圖像技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法實(shí)現(xiàn)長(zhǎng)棗蔗糖含量的無損檢測(cè)具有可行性,為進(jìn)一步完善長(zhǎng)棗品質(zhì)評(píng)價(jià)提供依據(jù)。