康明月, 王 成, 孫鴻雁, 李作麟, 羅 斌*
1. 北京市農(nóng)林科學(xué)院信息技術(shù)研究中心, 北京 100097
2. 北京市農(nóng)林科學(xué)院智能裝備技術(shù)研究中心, 北京 100097
3. 中國地質(zhì)大學(xué)(北京)數(shù)理學(xué)院, 北京 100083
櫻桃番茄外形美觀、 口感鮮甜、 營養(yǎng)豐富, 深受廣大消費(fèi)者的歡迎。 隨著人們生活條件的提升, 對于果蔬的口感, 營養(yǎng)價值等內(nèi)部品質(zhì)有了更高的要求。 番茄中可溶性固形物(soluble solid content, SSC)是評價番茄風(fēng)味品質(zhì)的重要指標(biāo)之一[1]。 維生素C(vitamins C, VC)又名抗壞血酸, 是植物和大多數(shù)動物體內(nèi)合成的一類己糖內(nèi)酯化合物[2]。 具有水果蔬菜之稱的番茄含有豐富的人體所需營養(yǎng)物質(zhì), 尤其是VC含量極高[3]。 通過對不同類型番茄SSC和VC的測定, 來綜合評價櫻桃番茄的內(nèi)部品質(zhì), 旨在為櫻桃番茄品質(zhì)鑒定和優(yōu)良品種選育提供理論依據(jù)。
蔬果內(nèi)部品質(zhì)的傳統(tǒng)測量方法多采用化學(xué)方法, 檢測精度高, 但是會破壞樣品原有的狀態(tài), 為有損檢測, 而且所需化學(xué)試劑繁多, 樣品處理流程復(fù)雜, 檢測效率低。 近年來, 近紅外光譜技術(shù)因無損、 分析速度快、 操作簡單的特點(diǎn)在食品、 醫(yī)藥、 化工等行業(yè)得到了廣泛應(yīng)用[4-7]。 潘牧等[8]應(yīng)用偏最小二乘法建立預(yù)測紅薯淀粉及全粉粉絲中薯粉含量的定量模型, 2個模型相關(guān)系數(shù)分別為0.987 5和0.989 2, 交叉驗(yàn)證均方根誤差分別為1.23和1.13, 校正后預(yù)測相對分析偏差分別為6.83和7.42。 表明采用近紅外光譜技術(shù)對貴州紅薯粉絲中淀粉及薯粉含量的快速無損檢測可行。 楊寶華等[9]用光譜和機(jī)器學(xué)習(xí)算法結(jié)合測定鮮桃SSC含量, 提出了一種基于堆棧自動編碼器-粒子群優(yōu)化支持向量回歸模型, 該模型預(yù)測效果最好, 其R2為0.873 3, 均方根誤差為0.645 1。 因此, 將光譜技術(shù)和機(jī)器學(xué)習(xí)算法結(jié)合, 可提高鮮桃SSC含量的估計(jì)精度。 李鴻強(qiáng)等[10]基于可見/短波近紅外光譜檢測結(jié)球甘藍(lán)VC含量, 采用多元線性回歸進(jìn)行建模, 得到校正集R2平均為0.78, 內(nèi)部交叉驗(yàn)證均方差平均為3.760 9 mg·(100 g)-1, 驗(yàn)證集R2平均為0.73, 均方根誤差平均為2.879 2 mg·(100 g)-1。 李俊杰等[11]運(yùn)用近紅外光譜探究塔羅科血橙的內(nèi)在品質(zhì), 采用偏最小二乘法建立預(yù)測模型, 得到SSC、 可滴定酸及VC預(yù)測值與實(shí)測值的相關(guān)系數(shù)分別是0.833、 0.699、 0.925, 結(jié)果表明近紅外光譜技術(shù)有與化學(xué)法近似的準(zhǔn)確度, 可以應(yīng)用在果品內(nèi)部品質(zhì)檢測中。
隨著市場需求量的增大, 櫻桃番茄內(nèi)部品質(zhì)的無損快速檢測對提高其市場價值具有重要意義。 基于近紅外光譜分析技術(shù)提出了一種融合的特征波長提取方法, 篩選出有效的變量, 并改進(jìn)優(yōu)化建模方法, 使得模型預(yù)測結(jié)果更加準(zhǔn)確, 更有利于開展櫻桃番茄內(nèi)部品質(zhì)含量的檢測研究, 為櫻桃番茄內(nèi)部品質(zhì)含量的預(yù)測提供有力的技術(shù)支撐。
櫻桃番茄光譜測定使用型號為團(tuán)隊(duì)自主研發(fā)BIO-NIRONE-HEM的手持式近紅外光譜儀。 該光譜儀具有快速、 便攜、 精確和非破壞的優(yōu)點(diǎn), 還可以根據(jù)用戶的實(shí)際需要, 在前端可配置不同類型的傳感器, 系統(tǒng)具有智能散熱功能, 可保證檢測結(jié)果不受環(huán)境溫度影響。 該手持式近紅外光譜儀測量參數(shù)為吸光度, 使用MEMS-FPI-Shortcut軟件, 可以將BIO-NIRONE-HEM采集的光譜數(shù)據(jù)方便地導(dǎo)出。
試驗(yàn)所用櫻桃番茄為在超市選購, 有千禧果、 粉圓圣女果、 荷蘭小番茄和極星農(nóng)業(yè)紅色串裝小番茄四個櫻桃番茄品種, 每個品種選取了30個, 共計(jì)120個樣本。
櫻桃番茄的光譜采集時將手持式設(shè)備前端檢測區(qū)域?qū)?zhǔn)待測樣本, 保證完全接觸不漏光后, 點(diǎn)擊掃描樣本按鍵, 實(shí)現(xiàn)樣本掃描, 掃描時間預(yù)計(jì)9 s。 設(shè)置波長采集范圍為1 350~1 800 nm, 波長間隔為1.5 nm。 在室溫(25 ℃)下將編號完成的四個品種依次進(jìn)行光譜采集, 選擇底部和在赤道相對的兩個部位共3點(diǎn), 并對這3個點(diǎn)光譜曲線做平均, 作為該樣品的分析光譜。 測量過程及原始光譜如圖1(a, b)所示。
1.3.1 可溶性固形物測定
根據(jù)行標(biāo)NY/T 2637—2014—折射儀法[12]SSC的測定, 將光譜采集完成的樣品去掉不可食用部分后, 其余部分榨汁, 在棱鏡表面用柔軟絨布擦干后, 取2~3滴樣液在2WA-J阿貝折射儀中央, 閉合上下兩塊棱鏡, 調(diào)節(jié)旋鈕, 讀取示數(shù), 從而獲得樣品的SSC含量。 每個樣品測量3次, 取其平均值作為該樣品SSC含量實(shí)際測量值。
1.3.2 維生素C測定
根據(jù)國標(biāo)GB 5009.86—2016[13]食品中抗壞血酸的測定, 稱取櫻桃番茄樣品5 g, 配置1%草酸溶液、 2%草酸溶液、 0.01% 2,6-二氯酚靛酚溶液和標(biāo)準(zhǔn)抗壞血酸溶液, 利用2,6-二氯酚靛酚滴定法測定。 對每個樣品測量3次, 取其平均值作為該樣品VC含量實(shí)際測量值。
按照化學(xué)方法進(jìn)行測定后, 采用三倍標(biāo)準(zhǔn)差對異常值進(jìn)行剔除, 最后得到千禧果樣本24個、 粉圓圣女果樣本23個、 荷蘭小番茄樣本24個和極星農(nóng)業(yè)紅色串裝小番茄樣本29個。 建模過程中樣本集的劃分對模型性能有直接影響, 因此采用Kennard-Stone(K-S)分類算法[14]將櫻桃番茄樣本按3∶1的比例劃分為校正集和預(yù)測集。 該算法可使校正集樣品更具定代表性。 表1即是利用K-S算法劃分樣品的統(tǒng)計(jì)結(jié)果。
表1 樣本劃分統(tǒng)計(jì)結(jié)果
近紅外光譜存在人為操作誤差、 儀器產(chǎn)生的隨機(jī)噪聲或者光譜變化, 這些因素可能會導(dǎo)致結(jié)果出現(xiàn)偏差, 因此將光譜預(yù)處理應(yīng)用于樣本數(shù)據(jù)可以有效提高數(shù)據(jù)精度。 采用的光譜預(yù)處理方法包含多元散射校正(multiplicative scatter correction, MSC)[15]、 Savitzky-Golay卷積平滑(SG)[16]、 Savitzky-Golay卷積一階導(dǎo)數(shù)(SG 1st)[17]、 去趨勢化(De-trending)[18]和變量標(biāo)準(zhǔn)化(standard normal variate, SNV)[19]。
將原始光譜及多種方法預(yù)處理后的光譜數(shù)據(jù)作為輸入變量, 櫻桃番茄內(nèi)部品質(zhì)化學(xué)值作為目標(biāo)變量, 建立內(nèi)部品質(zhì)含量的偏最小二乘回歸(PLS)模型。 對輸入的光譜變量進(jìn)行主成分分析, 采用10折交叉驗(yàn)證法確定出最佳主成分?jǐn)?shù), 最后根據(jù)最佳主成分?jǐn)?shù)進(jìn)行模型的構(gòu)建, 具體結(jié)果如表2所示。
表2 預(yù)處理方法比較
每個近紅外光譜均由大量譜帶組成, 存在多重共線性, 選擇重要變量來構(gòu)建更簡明和穩(wěn)健的回歸模型是必要的。 將采用連續(xù)投影算法(successive projections algorithm, SPA)[20]、 穩(wěn)定性競爭性自適應(yīng)重加權(quán)算法(stability competitive adaptive reweighted sampling, SCARS)[21]、 遺傳算法(genetic algorithm, GA)[22]和改進(jìn)的遺傳算法(improved genetic algorithm, IGA)與機(jī)器學(xué)習(xí)算法相結(jié)合, 從而選擇最優(yōu)特征波長提取方法。 其中前三種特征波長提取方法都較為常見且有效, 最后的IGA是基于GA的改進(jìn)算法。 GA算法是依據(jù)遺傳學(xué)的有效搜索方法, 但在其運(yùn)行過程中, 輸入變量不宜超過200個, 因?yàn)檫@會增加過擬合的風(fēng)險。 這種風(fēng)險可通過“先驗(yàn)”去除變量來降低, 但該方法包含主觀判斷, 結(jié)果不精確。 因此, 在進(jìn)行變量輸入前, 先對變量進(jìn)行自動有序預(yù)測因子選擇(auto ordered predictors selection, Auto OPS)[23], Auto OPS是這種使用自動執(zhí)行變量選擇的方法, 通過信息向量及其組合, 提供最好的變量選擇結(jié)果。 再將輸出結(jié)果進(jìn)行GA選擇, 最終結(jié)果作為建模的輸入變量。
圖2和圖3分別為SSC和VC含量在Auto OPS方法下選擇的變量, 圖4和圖5分別為SSC和VC含量在Auto OPS和GA融合方法下選擇的變量情況。
圖2 SSC含量Auto OPS特征提取過程
圖4 SSC含量IGA特征提取過程
圖5 VC含量IGA特征提取過程
由圖4可知, 運(yùn)用IGA方法選擇的變量主要集中在1 350~1 440、 1 459~1 600和1 647~1 783 nm。 SSC含量主要基團(tuán)是由C—H和O—H組成, 1 430 nm為O—H的二倍頻, 1 720 nm為C—H的二倍頻。 因此該波段可以作為預(yù)測SSC含量的依據(jù)。 根據(jù)圖5所示, 改進(jìn)的方法選擇變量主要集中在1 422~1 535.5、 1 459.5~1 549.5和1 632~1 633 nm。 VC的分子式是C6H8O6, 1 430 nm為O—H的二倍頻。 由此, 該方法下選擇的近紅外光譜變量可以充分反映櫻桃番茄內(nèi)部品質(zhì)含量的結(jié)構(gòu)和組成信息。
基于SPA、 SCARS、 GA和IGA特征變量算法提取的特征變量建立的櫻桃番茄內(nèi)部品質(zhì)含量基于粒子群算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)方法(particle swarm optimization-BP neural network, PSO-BPNN)[24]預(yù)測模型如表3所示。 PSO-BPNN建模時, 隱含層神經(jīng)元個數(shù)由經(jīng)驗(yàn)公式[25]來確定, 迭代次數(shù)為100次。
表3 PSO-BPNN建模特征變量選取方法比較
鯨魚算法是一種模仿座頭鯨的狩獵行為而提出的一種新型啟發(fā)式優(yōu)化算法。 采用SPA算法、 SCARS算法、 GA算法和IGA算法選擇的特征變量作為自變量, 櫻桃番茄內(nèi)部品質(zhì)含量作為因變量, 分別建立鯨魚算法優(yōu)化的最小二乘支持向量機(jī)方法(whale optimization algorithm-least squares support vector machine, WOA-LSSVM)預(yù)測模型[26]。 在WOA-LSSVM建模中, 初始種群設(shè)為30, 迭代次數(shù)為100次,γ和σ2兩個參數(shù)的搜索范圍設(shè)置為0~1 000, 搜索后確立γ和σ2的最優(yōu)值。 基于不同特征變量選取方法建立的櫻桃番茄內(nèi)部品質(zhì)含量WOA-LSSVM 預(yù)測模型的結(jié)果如表4所示。
表4 WOA-LSSVM建模特征變量選取方法比較
由表4所示, 不同特征變量選擇方法建立的櫻桃番茄SSC含量預(yù)測模型效果不同。 綜合來看, 采用WOA-LSSVM建模時, IGA算法是櫻桃番茄SSC含量最佳特征變量選擇方法, 該算法將全波長變量由301個減少到45個, 變量個數(shù)減少了超過85%, 在決定系數(shù)R2上有明顯優(yōu)勢。
由于WOA算法有收斂速度慢和精度低等問題, 因此將馮諾依曼拓?fù)浣Y(jié)構(gòu)[27]、 輪盤賭選擇[28]、 錦標(biāo)賽選擇[29]和自適應(yīng)權(quán)重相結(jié)合引入WOA算法進(jìn)行改進(jìn)。 為加強(qiáng)算法的局部搜索能力, 加入馮諾依曼拓?fù)浣Y(jié)構(gòu), 增強(qiáng)鯨魚間信息交互。 為了選擇合適的算子, 引入了輪盤賭選擇和錦標(biāo)賽選擇來提高精度, 最后引入自適應(yīng)權(quán)重, 加快收斂速度。 該算法流程圖如圖6所示。
圖6 改進(jìn)鯨魚算法優(yōu)化最小二乘支持向量機(jī)流程圖
應(yīng)用特征波長選取方法后的數(shù)據(jù)作為改進(jìn)的鯨魚算法優(yōu)化最小二乘支持向量機(jī)方法(improved whale optimization algorithm, IWOA-LSSVM)的輸入, 櫻桃番茄的內(nèi)部品質(zhì)含量為目標(biāo)輸出。 預(yù)測模型結(jié)果如表5所示。 不同特征變量選擇方法建立的櫻桃番茄SSC含量預(yù)測模型效果不同。
表5 IWOA-LSSVM神經(jīng)網(wǎng)絡(luò)建模特征變量選取方法比較
圖7—圖9展示了基于特征變量建模過程中, 針對不同建模方式分別挑選的最優(yōu)方法所對應(yīng)的櫻桃番茄SSC含量預(yù)測結(jié)果。 其中紅色實(shí)線代表實(shí)際測量值, 黑色的點(diǎn)代表經(jīng)過模型擬合的預(yù)測值, 當(dāng)點(diǎn)與線越接近時, 預(yù)測效果越好。
圖7 基于PSO-BPNN模型SSC含量預(yù)測結(jié)果
圖8 基于WOA-LSSVM模型SSC含量預(yù)測結(jié)果
圖9 基于IWOA-LSSVM模型SSC含量預(yù)測結(jié)果
由圖9可知, IWOA-LSSVM模型, 在紅線周圍最密集, 效果即為最佳。 采用IGA算法選出的45個特征變變量建立的櫻桃番茄SSC含量De-trending-IGA-IWOA-LSSVM預(yù)測模型最優(yōu), 說明在識別和選擇有價值的信息變量時, 采用IGA所選出的特征變量結(jié)合LSSVM模型能夠替代全波長變量進(jìn)行櫻桃番茄SSC的無損檢測, 其預(yù)測集決定系數(shù)為0.866 7, 表明近紅外光譜技術(shù)對櫻桃番茄SSC含量的檢測是可行的。
真實(shí)值(true value)表示的是櫻桃番茄SSC含量的化學(xué)值, 預(yù)測值(predictive value)表示應(yīng)用最優(yōu)方法建模后的預(yù)測結(jié)果。 櫻桃番茄SSC含量最優(yōu)預(yù)測模型——De-trending-IGA-IWOA-LSSVM的校正集和預(yù)測集擬合情況如圖10和圖11所示。 可看出估計(jì)值和參考值之間擬合較好。
圖10 校正集擬合情況
圖11 預(yù)測集擬合情況
圖12列舉了基于全波長及特征變量建模過程中, 針對不同建模方式分別挑選的最優(yōu)方法所對應(yīng)的櫻桃番茄VC含量預(yù)測結(jié)果。
圖12 不同模型預(yù)測集效果對比
三種建模方法在不同特征波長提取方法下迭代變化曲線如圖13所示, 其中紫色, 綠色和藍(lán)色的線分別代表PSO-BPNN, WOA-LSSVM和IWOA-LSSM模型迭代情況, 適應(yīng)度函數(shù)均為均方差, 均方差越小, 則模型效果越好。 由圖13可知, 改進(jìn)的鯨魚算法的迭代具有穩(wěn)定性, 因此可以減小迭代次數(shù), 進(jìn)一步縮短運(yùn)行時間。
圖13 迭代曲線