孫博康 劉貴珊
摘 要:本文基于可見(jiàn)—近紅外高光譜(Visible Near Infrared Reflectio,Vis-NIR)成像技術(shù)對(duì)150個(gè)香水梨進(jìn)行光譜數(shù)據(jù)采集。將樣本劃分后,采用卷積平滑(Savitzky-Golay,S-G)、歸一化(Normalize)和標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate,SNV)3種方法對(duì)原始光譜進(jìn)行預(yù)處理,利用競(jìng)爭(zhēng)性自適應(yīng)加權(quán)算法(Competitive Adaptive Reweighted Sampling,CARs)、區(qū)間變量迭代空間收縮法(Interval Variable Iterative Space Shrinkage Approach,iVISSA)和變量組合集群分析(Variable Combination Population Analysis,VCPA)對(duì)特征波長(zhǎng)提取進(jìn)行波段縮減和特征提取,建立特征波段下香水梨硬度的偏最小二乘(Partial Least Squares Regression,PLSR)預(yù)測(cè)模型,優(yōu)選最佳模型。結(jié)果表明,VCPA法建立的PLSR模型優(yōu)于初始模型R2=0.933。
關(guān)鍵詞:香水梨;高光譜;硬度;無(wú)損檢測(cè)
香水梨又名軟兒梨,屬于秋子梨的一個(gè)品種,主要分布于甘肅、寧夏境內(nèi)。在寧夏海原地區(qū),香水梨是當(dāng)?shù)剞r(nóng)民的主要收入來(lái)源,近年來(lái)種植面積不斷擴(kuò)大,然而目前仍存在很多技術(shù)上的問(wèn)題需要解決[1]。硬度作為梨果的一個(gè)重要參數(shù),與香水梨的成熟度,口感,食用性息息相關(guān)[2],傳統(tǒng)的檢測(cè)方法具有明顯的破壞性,不適用于大規(guī)模量產(chǎn)的地區(qū),因此利用光譜學(xué)技術(shù)建立一種香水梨的硬度檢測(cè)方法顯得尤為重要。高光譜技術(shù)作為一種高效、快速、無(wú)損的檢測(cè)技術(shù)[3],目前已廣泛應(yīng)用于水果內(nèi)部指標(biāo)的檢測(cè)[4-7]。因此,結(jié)合當(dāng)?shù)匦枨螅疚耐ㄟ^(guò)對(duì)光譜數(shù)據(jù)進(jìn)行4種預(yù)處理方法,3種特征波長(zhǎng)的提取方法處理后,選擇一種最優(yōu)模型來(lái)預(yù)測(cè)香水梨硬度。
1 材料與方法
1.1 樣品采集
實(shí)驗(yàn)樣品全部來(lái)自于寧夏回族自治區(qū)海原縣方堡村,樣品自采摘后于24 h內(nèi)運(yùn)輸至寧夏大學(xué),在寧夏大學(xué)冷庫(kù)內(nèi)進(jìn)行保存,貯藏溫度0~2 ℃。樣品測(cè)試前需將樣品從冷庫(kù)取出,放置在20 ℃恒溫條件下24 h,待樣品中心溫度恢復(fù)至20 ℃開始檢測(cè)。
1.2 數(shù)據(jù)采集
①光譜采集儀器。Hyper Spec VIS/NIR高光譜成像系統(tǒng),光譜范圍為400~1 000 nm和125波段的超高光譜影像可見(jiàn)/近紅外光譜儀系統(tǒng)。包括v10e-qe高光譜影像光譜儀、C8484-05G-CCD-相機(jī)、90-254vac線性光源、Dcrih鹵素?zé)?、傳輸裝置、計(jì)算機(jī)和數(shù)據(jù)采集軟件。②硬度檢測(cè)。硬度計(jì)HLY-YD5。③數(shù)據(jù)處理軟件。ENVI5.3,The Unscrambler X 10.4,MATLAB R2014a。以上軟、硬件由寧夏大學(xué)提供。
2 結(jié)果與分析
2.1 PLSR初模型的建立及評(píng)價(jià)方法
偏最小二乘回歸(PLSR)是一種多元回歸方法,用于建立分析樣品光譜響應(yīng)與參考值之間的驗(yàn)證模型。相對(duì)于其他模型直接考慮因變量和自變量而建立回歸模型的方法,PLSR則是重新過(guò)濾信息,選擇最佳變量,再對(duì)篩選出的變量進(jìn)行建模。因此,其篩選出的光譜值決定了建模成功率的高低。一般來(lái)說(shuō),評(píng)價(jià)PLSR模型成功率的指標(biāo)有3個(gè):預(yù)測(cè)樣本集的標(biāo)準(zhǔn)差(RMSEP)、校正集的均方根誤差(RMSEC)、決定系數(shù)(R2)。一般情況下,R2值越大,RMSEP和RMSEC越小,表明模型的預(yù)測(cè)能力越強(qiáng)[8]。
使用ENVI5.3提取香水梨樣本的感興趣區(qū)域(Region Of Interesting,ROI)[9]感興趣區(qū)域必需具有一定的代表性,可以代表香水梨樣品的硬度指標(biāo)。為了獲得具有代表性的光譜值,在選取ROI時(shí)要盡量避免過(guò)于灰暗的部分,選擇香水梨整體光量部分,記錄每個(gè)樣本ROI的平均光譜。
將每個(gè)樣品提取出的光譜值和硬度數(shù)據(jù)導(dǎo)入至The Unscrambler X 10.4,選擇PLSR進(jìn)行初步的模型建立。初始模型效果如圖1所示。
由圖1可知,樣品初始模型效果不佳,數(shù)據(jù)點(diǎn)不連續(xù),R2值為0.782。因此,需要對(duì)光譜進(jìn)行處理后,達(dá)到降噪均勻優(yōu)化光譜的目的,再進(jìn)行PLSR預(yù)測(cè)模型。
2.2 光譜預(yù)處理
采集到的光譜圖像由于光源強(qiáng)度不均勻及噪音等因素的影響,可能在某種程度上會(huì)存在基線漂移等現(xiàn)象,為了提取出有效的光譜信號(hào),消除光源強(qiáng)度不均勻的問(wèn)題,需要對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,為后續(xù)的光譜數(shù)據(jù)處理提供更加具有代表性的光譜區(qū)域[10]。本文采用以下幾種方法進(jìn)行預(yù)處理。
2.2.1 卷積平滑法。
卷積平滑(Savitzky-Golay ,S-G)是一種對(duì)光譜進(jìn)行平滑處理的方式,主要包括移動(dòng)平均法、高斯濾波法、中值濾波法和S-G卷積平滑法[11]。
2.2.2 歸一化法
歸一化(Normaliaze)是一種行式轉(zhuǎn)換算法,適用于光譜信號(hào)與樣品函數(shù)關(guān)系的分析,或者利用其他光譜值代替樣品檢測(cè)值的方法。通過(guò)計(jì)算機(jī)變換,最終使光譜數(shù)據(jù)在同一范圍內(nèi),變量和均值的分布更加均勻[12]。
2.2.3 標(biāo)準(zhǔn)正態(tài)變換法
標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate,SNV)是一種通過(guò)樣品的方差對(duì)光譜進(jìn)行校正的方法,SNV可以有效的消除光源強(qiáng)度不一、散射噪聲等檢測(cè)時(shí)出現(xiàn)的干擾,通過(guò)線性變換對(duì)初始光譜數(shù)據(jù)標(biāo)準(zhǔn)化進(jìn)行校正,減小樣本因?yàn)楸砻嫔⑸?、光譜遷移等因素帶來(lái)的誤差[13]。
經(jīng)過(guò)上述預(yù)處理后模型結(jié)果如表1所示,歸一化法擁有較小的CV值和較大的R2值,表明其對(duì)結(jié)果的預(yù)測(cè)效果較好,因此后續(xù)的特征光譜提取均采用歸一化法作為光譜的預(yù)處理方法。
2.3 特征波長(zhǎng)的提取
2.3.1 競(jìng)爭(zhēng)性自適應(yīng)加權(quán)算法
競(jìng)爭(zhēng)性自適應(yīng)加權(quán)算法(CARs)是模仿“適者生存”理論而提出的特征變量選擇算法。CARs算法的核心是首先采用自適應(yīng)重加權(quán)采樣技術(shù),優(yōu)選出PLSR模型中絕對(duì)值大的回歸系數(shù)所對(duì)應(yīng)的波長(zhǎng)變量點(diǎn),然后借助指數(shù)衰減函數(shù),最后將RMSECV最小的子集定義為最優(yōu)變量子集[14]。
使用Matlab運(yùn)行CARs程序多次后,選擇CV值最小的波長(zhǎng)組作為特征波長(zhǎng),一共12條,將12條特征波長(zhǎng)導(dǎo)入U(xiǎn)nscrambler后建模得到模型如圖2所示,其RMSEC值為0.659,R2為0.764。
2.3.2 區(qū)間變量迭代空間收縮法
區(qū)間變量迭代空間收縮法(iVISSA)的主旨思想是選擇最優(yōu)區(qū)間,然后根據(jù)最優(yōu)選區(qū)間再進(jìn)行建模,該算法來(lái)自于VISSA算法,之后結(jié)合全局和局部搜索,智能地優(yōu)化波長(zhǎng)的寬度、組合及間隔[15]。在局部搜索上,iVISSA算法使用光譜數(shù)據(jù)的連續(xù)性信息來(lái)確定波長(zhǎng)間隔的寬度,在全局搜索上,主要搜索信息波長(zhǎng)的組合和位置。最終用迭代的方式優(yōu)化光譜間的數(shù)據(jù)間隔,確定光譜的組合、位置以及寬度[16]。
使用Matlab運(yùn)行iVISSA程序多次后,選擇CV值最小的波長(zhǎng)組作為特征波長(zhǎng),一共66條,將66條特征波長(zhǎng)導(dǎo)入U(xiǎn)nscrambler后建模得到模型如圖3所示,其RMSEC值為0.666,R2為0.760。
2.3.3 變量組合集群分析法
變量組合集群分析(VCPA)是一種新興的特征變量識(shí)別算法,該方法的特點(diǎn)是充分考慮了變量集之間可能存在的影響。方法的計(jì)算原理是,首先通過(guò)利用二進(jìn)制矩陣采樣法對(duì)樣本空間進(jìn)行重采樣,之后將數(shù)據(jù)隨機(jī)劃分為若干子集,針對(duì)子集分別建立子模型,最后對(duì)子模型一一進(jìn)行評(píng)價(jià)[17]。一般情況下,VCPA算法計(jì)算過(guò)程如下:①先利用二進(jìn)制矩陣采樣法,對(duì)樣本變量進(jìn)行采樣,選取目標(biāo)函數(shù)CV值最小的變量子集;②計(jì)算每個(gè)波長(zhǎng)點(diǎn)對(duì)應(yīng)的化學(xué)值或者實(shí)測(cè)值,在本次迭代計(jì)算過(guò)程中出現(xiàn)的概率;③通過(guò)衰減函數(shù)篩選出概率較小的波長(zhǎng)范圍或者波長(zhǎng)點(diǎn),達(dá)到縮小變量集空間的目的;④最后將保留的變量重復(fù)上述過(guò)程將剩余變量進(jìn)行組合,最終得到特征波長(zhǎng)變量[17-19]。
使用Matlab運(yùn)行VCPA程序多次后,選擇CV值最小的波長(zhǎng)組作為特征波長(zhǎng),共10條,將10條特征波長(zhǎng)導(dǎo)入U(xiǎn)nscrambler后建模得到模型如圖4所示,其RMSEC值為0.351,R2為0.933。
3 結(jié)論
對(duì)香水梨硬度原始光譜進(jìn)行了3種預(yù)處理后,選擇歸一化法為最佳方法,以此作為基礎(chǔ)光譜,對(duì)比3個(gè)特征波長(zhǎng)建模后的PLSR模型效果,最終選擇VCPA法,其提取特征波長(zhǎng)10個(gè),建立的PLSR模型優(yōu)于初始模型,R2=0.933,可以用作一種快速檢測(cè)香水梨硬度的方法。
參考文獻(xiàn)
[1]徐璐娜,劉緡,龐婷婷.海原香水梨生長(zhǎng)氣象條件分析[J].南方農(nóng)業(yè),2020,14(30):182-183.
[2]王曉明,章海亮,羅微,等.近紅外光譜檢測(cè)梨果硬度研究[J].中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2015,36(6):120-123.
[3]張珮,王銀紅,江靖,等.便攜式近紅外光譜儀在果蔬品質(zhì)定性和定量分析中的應(yīng)用[J].食品科技,2020,45(5):
287-292.
[4]黎源鴻,王紅軍,鄧建猛,等.基于PCA-ELM和光譜技術(shù)預(yù)測(cè)香蕉成熟度[J].現(xiàn)代食品科技,2017,33(10):268-274.
[5]李夢(mèng)珠.基于高光譜技術(shù)的水果品質(zhì)無(wú)損檢測(cè)研究[D].西安:西安電子科技大學(xué),2019.
[6]岳林珊.基于圖像處理技術(shù)的冷凍冷藏果蔬品質(zhì)研究[D].天津:天津商業(yè)大學(xué),2019.
[7]張保華.基于機(jī)器視覺(jué)和光譜成像技術(shù)的蘋果外部品質(zhì)檢測(cè)方法研究[D].上海:上海交通大學(xué),2016.
[8]TAGHIZADEH M,GOWEN A,DONNELL C P O.Prediction of white button mushroom(Agaricus bisporus)moisture content using hyperspectral imaging[J].Sensing and Instrumentation for Food Quality and Safet,2009,3(4):219-226.
[9]程琳琳,陳昭炯,傅明建.基于感興趣區(qū)域的色彩傳遞算法[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(2):39-43.
[10]VIDAL M,AMIGO J M.Pre-processing of hyperspectral images.Essential steps before image analysis[J].Chemometrics and Intelligent Laboratory Systems,2012,117:138-148.
[11]成軍虎.基于高光譜成像魚肉新鮮度無(wú)損快速檢測(cè)方法研究[D].廣州:華南理工大學(xué),2016.
[12]郭志明.利用近紅外光譜分析技術(shù)檢測(cè)綠茶有效成分的研究[D].鎮(zhèn)江:江蘇大學(xué),2009.
[13]ZHAO N,WU Z S,CHENG Y Q,et al.MDL and RMSEP assessment of spectral pretreatments by adding different noises in calibration/validation datasets[J].Spectrochimica acta.Part A,Molecular and biomolecular spectroscopy,2016,163:20-27.
[14]YAN H,SONG X Z,TIAN K D,et al.A modification of the bootstrapping soft shrinkage approach for spectral variable selection in the issue of over-fitting,model accuracy and variable selection credibility[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2019,210:362-371.
[15]DENG B C,YUN Y H,LIANG Y Z L,et al.A novel
variable selection approach that iteratively optimizes variable space using weighted binary matrix sampling[J].The Analyst,2014,139(19):4836-4845.
[16]DENG B C,YUN Y H,MA P,et al.A new method for
wavelength interval selection that intelligently optimizes the locations,widths and combinations of the intervals[J].The Analyst,2015,140(6):1876-1885.
[17]YUN Y H,WANG W T,DENG B C,et al.Using variable combination population analysis for variable selection in multivariate calibration[J].Analytica Chimica Acta,2015,862:14-23.
[18]宋雨宸,宦克為,韓雪艷,等.基于蒙特卡洛變量組合集群分析法的小麥蛋白質(zhì)近紅外光譜變量選擇[J].長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,40(5):29-35.
[19]楊東,陸安祥,王紀(jì)華.高光譜成像技術(shù)定量可視化檢測(cè)熟牛肉中揮發(fā)性鹽基氮的含量[J].現(xiàn)代食品科技,2017,33(9):257-264.