王國(guó)梁,王文俊,成 鍇,劉 鑫,趙建貴,李 洪,郭二虎,李志偉,*
(1.山西農(nóng)業(yè)大學(xué)農(nóng)業(yè)工程學(xué)院,山西 太谷 030801;2.山西農(nóng)業(yè)大學(xué)谷子研究所,山西 長(zhǎng)治 046000)
山西省地域特點(diǎn)復(fù)雜,南北縱貫6 個(gè)緯度,屬典型溫帶氣候,獨(dú)特的地域生態(tài)環(huán)境孕育出豐富的雜糧種質(zhì)資源,同時(shí)也決定了谷子種植區(qū)覆蓋全山西省域的特點(diǎn)。小米中含有豐富的碳水化合物及多種維生素等營(yíng)養(yǎng)物質(zhì),隨著現(xiàn)代人生活品質(zhì)和對(duì)物質(zhì)生活需求的提高以及健康飲食相關(guān)產(chǎn)業(yè)的興起,小米因具有食藥性及營(yíng)養(yǎng)價(jià)值豐富的特點(diǎn),其深加工產(chǎn)品小米米粉逐漸成為備受喜愛的健康食品。小米米粉的主要營(yíng)養(yǎng)成分為淀粉,淀粉和水混合成懸浮液,在經(jīng)歷加熱、溶解、吸水膨脹過(guò)程后會(huì)出現(xiàn)淀粉糊化的現(xiàn)象,其糊化特征指標(biāo)能為評(píng)價(jià)小米米粉食味品質(zhì)、確定加工工藝提供重要數(shù)據(jù)支撐。目前,小米米粉糊化特征指標(biāo)測(cè)定主要采用快速黏度分析(rapid visco analysis,RVA),但在糊化特征指標(biāo)測(cè)定過(guò)程中,待測(cè)樣品的制備會(huì)破壞其理化特性,且樣品制備操作流程繁瑣,人工、時(shí)間成本較高,因此實(shí)現(xiàn)待測(cè)樣品批量、快速檢測(cè)存在一定困難。
高光譜成像技術(shù)是一種通過(guò)精確反映待測(cè)物感興趣區(qū)域(region of interest,ROI)內(nèi)部各像素點(diǎn)連續(xù)光譜信息,從而獲取待測(cè)物結(jié)構(gòu)組成和化合物分子結(jié)構(gòu)的無(wú)損檢測(cè)技術(shù),其具有檢測(cè)效率高、不破壞待測(cè)樣品理化特性、人工投入低等特點(diǎn)。當(dāng)前高光譜成像技術(shù)已成為國(guó)內(nèi)外學(xué)者研究熱點(diǎn),被廣泛應(yīng)用于農(nóng)產(chǎn)品分級(jí)、營(yíng)養(yǎng)成分反演、分類等農(nóng)業(yè)檢測(cè)相關(guān)研究工作中。高光譜數(shù)據(jù)維度大,而傳統(tǒng)特征波段篩選數(shù)量有限,且容易造成有效信息丟失,導(dǎo)致建立回歸模型精度低、泛化能力不強(qiáng)。因此,越來(lái)越多的學(xué)者將計(jì)算機(jī)深度學(xué)習(xí)結(jié)合高光譜成像技術(shù)應(yīng)用于農(nóng)業(yè)檢測(cè)相關(guān)工作中,其中,誤差反向傳播(error back propagation,BP)神經(jīng)網(wǎng)絡(luò)具有非線性映射、自學(xué)習(xí)及自適應(yīng)、泛化及容錯(cuò)能力,因此備受學(xué)者關(guān)注。王浩云等分別采用鳥群、免疫算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)建立調(diào)理雞肉菌落總述的預(yù)測(cè)模型,結(jié)果表明優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)調(diào)理雞肉菌落總數(shù)快速無(wú)損檢測(cè),且模型預(yù)測(cè)精確率、收斂速度明顯提高。Xue Jiankai等通過(guò)對(duì)灰狼優(yōu)化算法(grey wolf optimizer,GWO)、粒子群算法(particle swarm optimization,PSO)、引力搜索算法(gravitational search algorithm,GSA)、麻雀搜索算法(sparrow search algorithm,SSA)4 種優(yōu)化算法綜合評(píng)價(jià),發(fā)現(xiàn)SSA具有迭代時(shí)間短、預(yù)測(cè)精度高等特點(diǎn)。
目前,有關(guān)小米高光譜的研究仍主要集中于高光譜結(jié)合化學(xué)計(jì)量法進(jìn)行產(chǎn)地判別、分類及成分反演方面。為了簡(jiǎn)化原始光譜數(shù)據(jù)前處理過(guò)程及提升BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)性能,本實(shí)驗(yàn)設(shè)計(jì)一種高光譜數(shù)據(jù)提取、預(yù)處理分步運(yùn)算程序,并提出利用SSA優(yōu)化BP算法進(jìn)行待測(cè)樣品糊化特征指標(biāo)回歸、預(yù)測(cè),旨在尋求一種簡(jiǎn)化高光譜數(shù)據(jù)提取、預(yù)處理流程的方法,并探討SSA優(yōu)化BP算法在小米米粉糊化特征指標(biāo)回歸、預(yù)測(cè)方面的優(yōu)勢(shì),為高光譜成像結(jié)合計(jì)算機(jī)深度學(xué)習(xí)在小米米粉糊化特性預(yù)測(cè)方面應(yīng)用提供理論支撐。
小米樣本于2020年10月在山西省長(zhǎng)治市武鄉(xiāng)縣收獲。采用棋盤式采樣法取樣,取樣點(diǎn)1 800 個(gè),采樣面積2 m/點(diǎn),相鄰5 點(diǎn)取樣混勻,共得358 份實(shí)驗(yàn)原始樣本,按順序編號(hào)、記錄。待晾曬后,經(jīng)清選、礱研,過(guò)80 目篩網(wǎng),取得待測(cè)樣本,待測(cè)樣先經(jīng)高光譜數(shù)據(jù)采集,后進(jìn)行實(shí)驗(yàn)室糊化特征指標(biāo)測(cè)定。
高光譜成像儀 美國(guó)Headwall Photonics公司;RVA儀 澳大利亞Newport公司。
1.3.1 高光譜數(shù)據(jù)采集
采用高光譜成像儀(圖1)采集數(shù)據(jù)。近紅外波段采集參數(shù):波長(zhǎng)范圍900~1 700 nm、通道間隔4.715 nm、步數(shù)為172,近紅外波段中步數(shù)與波長(zhǎng)λ的關(guān)系如式(1)所示。
圖1 高光譜成像儀結(jié)構(gòu)Fig. 1 Photograph of hyperspectral imager
數(shù)據(jù)采集前,待測(cè)樣品裝入直徑3 cm、深1 cm實(shí)驗(yàn)器皿內(nèi),保證被測(cè)樣品表面平整、緊實(shí)。每份被測(cè)樣品采集光譜數(shù)據(jù)3 次,數(shù)據(jù)按順序編號(hào)、保存。
數(shù)據(jù)采集過(guò)程中,調(diào)整載物臺(tái)平移速率為7.5 mm/s,相機(jī)曝光時(shí)間為0.9 ms,樣品表面距離鏡頭25 mm,用于采集清晰圖像。數(shù)據(jù)采集前,進(jìn)行系統(tǒng)黑白校正,掃描暗背景圖像獲得全黑反射率標(biāo)定值,白背景圖像全白反射率標(biāo)定值,設(shè)備運(yùn)行后采集到被測(cè)樣品實(shí)驗(yàn)圖像反射率,根據(jù)式(2)計(jì)算得到相對(duì)圖像反射率。每采集3 張高光譜圖像,重復(fù)進(jìn)行上述校正過(guò)程。
1.3.2 小米米粉糊化特征指標(biāo)測(cè)定
采用RVA儀,根據(jù)GB/T 24852—2010《大米及米粉糊化特性測(cè)定 快速粘度儀法》測(cè)定小米米粉糊化特征指標(biāo)。稱量(3.00±0.01)g小米粉,與(25.0±0.1)mL水在容器中充分混勻,形成小米米粉糊狀液,將糊狀液放置于RVA內(nèi)進(jìn)行糊化特征指標(biāo)檢測(cè),重復(fù)3 次實(shí)驗(yàn),取平均值。糊化特征指標(biāo)為懸浮液在升溫、保溫和冷卻過(guò)程中攪拌器內(nèi)置扭力傳感器檢測(cè)值、懸浮液溫度變化值和測(cè)定時(shí)間值,具體指標(biāo)包括峰值黏度(peak viscosity,PV)、谷值黏度(trough viscosity,TV)、衰減值(breakdown,BD)、最終黏度(final viscosity,F(xiàn)V)、回生值(setback,SB)、峰值時(shí)間(peak time,PT)、糊化溫度(gelatinization temperature,GT)。其中,BD、SB分別為PV與TV、FV與TV的差值,GT為儀器運(yùn)行過(guò)程中樣品黏度達(dá)到PV一半時(shí)對(duì)應(yīng)的溫度。
1.4.1 麻雀搜索算法分析
本研究參考文獻(xiàn)[22,28-31],結(jié)合SSA具有的迭代次數(shù)少、預(yù)測(cè)模型精度高等特點(diǎn),選用其作為優(yōu)化算法。調(diào)用算法時(shí),使用虛擬麻雀進(jìn)行食物尋找,種群形式分為發(fā)現(xiàn)者、加入者和預(yù)警者,發(fā)現(xiàn)者與加入者之和為總種群數(shù),發(fā)現(xiàn)者與加入者按7∶3比例劃分,種群數(shù)可以式(3)的形式表示。
式中:表示待優(yōu)化變量維數(shù);為麻雀種群數(shù)量。
所有麻雀的適應(yīng)度值可以表示為式(4)。
式中:()為適應(yīng)度值。運(yùn)行SSA算法時(shí),具有較好適應(yīng)度值的發(fā)現(xiàn)者在搜索過(guò)程中會(huì)優(yōu)先獲取食物,并負(fù)責(zé)為種群尋覓食物以及為加入者指導(dǎo)覓食方向,相比其他麻雀,發(fā)現(xiàn)者可以獲得更大覓食范圍。根據(jù)式(3)、(4),在每次迭代時(shí),發(fā)現(xiàn)者位置按式(5)更新。
式中:代表當(dāng)前迭代數(shù);取值范圍為[1,];是最大迭代次數(shù),本實(shí)驗(yàn)中設(shè)置為20;X表示第只麻雀在第維中的位置信息;為取值范圍(0,1]的隨機(jī)數(shù);(取值范圍[0,1])和ST(取值范圍[0.5,1])分別表示預(yù)警值和安全值;為服從正態(tài)分布的隨機(jī)數(shù);表示一個(gè)內(nèi)部元素都為1的1×的矩陣。當(dāng)<ST時(shí),發(fā)現(xiàn)者可以執(zhí)行搜索操作;而當(dāng)≥ST,表示發(fā)現(xiàn)者種群發(fā)出預(yù)警,迅速飛離。
對(duì)于加入者執(zhí)行式(5),監(jiān)視發(fā)現(xiàn)者同時(shí)隨時(shí)準(zhǔn)備與之競(jìng)爭(zhēng),否則執(zhí)行式(6)。
式中:是發(fā)現(xiàn)者所占最優(yōu)位;是當(dāng)前種群所占極差位;為1和-1的1×矩陣,=(),當(dāng)>/2時(shí),適應(yīng)度值較低的第個(gè)加入者沒有獲得食物,即飛往別處覓食。
預(yù)警者一般占種群數(shù)量的10%~20%,按式(7)更新占位。
式中:為當(dāng)前種群極佳位;為步長(zhǎng)控制參數(shù);為取值范圍[-1,1]的隨機(jī)數(shù);f為當(dāng)前個(gè)體適應(yīng)度值;、分別為最佳和最差適應(yīng)度值;為常量,防止分母為零。
按上述運(yùn)算邏輯完成種群位置更新,迭代后,求得最優(yōu)適應(yīng)度值所需相應(yīng)參數(shù)。
1.4.2 小米米粉高光譜數(shù)據(jù)處理與分析
在設(shè)定樣本位置坐標(biāo)范圍內(nèi),對(duì)像素點(diǎn)逐一選擇并判定,篩選出符合設(shè)定ROI條件的光譜數(shù)據(jù),組成數(shù)據(jù)矩陣并進(jìn)行均值運(yùn)算。將光譜數(shù)據(jù)按照7∶3分為訓(xùn)練集和測(cè)試集,運(yùn)用BP及SSA優(yōu)化BP算法預(yù)測(cè)小米粉糊化特征指標(biāo)最優(yōu)迭代次數(shù)、最優(yōu)適應(yīng)度值,為更明顯觀察預(yù)測(cè)集與測(cè)試集關(guān)系,突出SSA優(yōu)化BP算法優(yōu)勢(shì),通過(guò)預(yù)測(cè)集均方誤差(mean squared error,MSE)評(píng)價(jià)兩種算法對(duì)小米米粉糊化特征指標(biāo)的預(yù)測(cè)精度。高光譜數(shù)據(jù)處理軟件主要有基于VB開發(fā)的圖像取點(diǎn)、光譜數(shù)據(jù)預(yù)處理程序和MATLAB 2020b軟件。
數(shù)據(jù)集統(tǒng)計(jì)結(jié)果如表1所示。小米米粉中淀粉含量占比不同會(huì)導(dǎo)致糊化特性不同,從表中糊化特征指標(biāo)數(shù)據(jù)統(tǒng)計(jì)結(jié)果可以看出樣本間糊化特性存在差異,而高光譜技術(shù)可以利用各樣本反射率變化反映樣本間成分含量的不同,因此通過(guò)運(yùn)用數(shù)據(jù)處理技術(shù)利用高光譜反演樣本糊化特征指標(biāo),可以實(shí)現(xiàn)小米米粉糊化特性的高光譜預(yù)測(cè)。
表1 小米米粉糊化特征指標(biāo)測(cè)定結(jié)果Table 1 Pasting viscosity properties of millet flour
2.2.1 小米米粉高光譜數(shù)據(jù)提取
樣品表面像素點(diǎn)間反射率存在差異,導(dǎo)致建模時(shí)若以少量點(diǎn)繪制成光譜特征曲線誤差較大,為提高模型精度,結(jié)合高光譜成像技術(shù)優(yōu)點(diǎn),本研究采用圖2所示采樣方式。
圖2 小米米粉高光譜數(shù)據(jù)提取Fig. 2 Hyperspectral data feature extraction of millet flour
在ROI內(nèi)提取大量像素點(diǎn)過(guò)程的選點(diǎn)規(guī)則如式(8)~(10)所示。
式中:(x,y)為當(dāng)前像素點(diǎn)坐標(biāo)信息;(,)為ROI中心位置的坐標(biāo);、為ROI二維坐標(biāo)軸的半軸長(zhǎng);Δ、Δ分別為坐標(biāo)軸方向上圖像像素點(diǎn)間隔參數(shù),在本實(shí)驗(yàn)中設(shè)置取點(diǎn)間隔為1;[]表示對(duì)、取整,保證選擇像素點(diǎn)在ROI內(nèi)。本實(shí)驗(yàn)中像素點(diǎn)選點(diǎn)規(guī)則為沿軸自上到下,沿軸自左到右依次選擇,根據(jù)式(10)限制選點(diǎn),選擇符合要求像素點(diǎn)2 000 個(gè),作為原始光譜數(shù)據(jù)。
2.2.2 小米米粉高光譜數(shù)據(jù)預(yù)處理
采用小米米粉高光譜數(shù)據(jù)各個(gè)波段下反射率的算術(shù)平均值集合成平均光譜曲線。算術(shù)平均值在數(shù)據(jù)統(tǒng)計(jì)與分析過(guò)程中具有反應(yīng)靈敏、確定嚴(yán)密、容易獲得和受抽樣變動(dòng)影響小等特點(diǎn),計(jì)算如式(11)所示。
式中:A為算數(shù)平均值;為ROI采樣點(diǎn)個(gè)數(shù),本實(shí)驗(yàn)中近紅外高光譜圖像采樣點(diǎn)個(gè)數(shù)設(shè)置為2 000 個(gè);A為采樣點(diǎn)集中第個(gè)采樣點(diǎn)、第步長(zhǎng)的平均光譜反射率。將每一步長(zhǎng)取值順序排列,便可獲得整個(gè)波段范圍內(nèi)樣品平均光譜曲線。
在實(shí)驗(yàn)中,靠近光譜量程兩端(≤900 nm和≥1 700 nm)的光譜曲線擾動(dòng)較大,因此截取光譜范圍為950~1 650 nm,波段數(shù)降為148 條。如圖3所示,光譜曲線吸收峰主要集中在980、1 200 nm以及1 450 nm波長(zhǎng)處,980 nm和1 200 nm波長(zhǎng)處吸收峰主要受小米米粉淀粉含量的影響,而1 450 nm波長(zhǎng)處為樣品中水分子敏感波段。
圖3 小米米粉平均光譜曲線Fig. 3 Average spectral curves of millet flour
設(shè)置發(fā)現(xiàn)者、加入者和預(yù)警者比例為0.7∶0.3∶0.2,運(yùn)行SSA優(yōu)化BP算法。根據(jù)式(12)可得出運(yùn)用SSA優(yōu)化BP算法預(yù)測(cè)小米米粉糊化特征指標(biāo)的最優(yōu)適應(yīng)度值。
式中:和分別為訓(xùn)練集和測(cè)試集的預(yù)測(cè)誤差;mse為均方誤差函數(shù),運(yùn)用適應(yīng)度函數(shù)求取具有較好結(jié)果的網(wǎng)絡(luò)模型。
圖4顯示出小米米粉糊化特征指標(biāo)隨SSA優(yōu)化BP算法迭代次數(shù)增加誤差變化趨勢(shì),即隨迭代次數(shù)的增加,7 條曲線均呈下降收斂態(tài),其中SB、PT預(yù)測(cè)結(jié)果誤差偏大,GT誤差變化率較大,PV、BD預(yù)測(cè)結(jié)果誤差較小。小米米粉糊化特征指標(biāo)的最優(yōu)迭代次數(shù)及適應(yīng)度值如表2所示。
圖4 基于SSA優(yōu)化BP算法對(duì)小米米粉糊化特征指標(biāo)預(yù)測(cè)的誤差變化曲線Fig. 4 Best score prediction of gelatinization characteristics of millet flour based on SSA-BP algorithm
表2 SSA優(yōu)化BP算法處理下小米米粉PV最優(yōu)迭代次數(shù)及適應(yīng)度值Table 2 Optimal iteration and fitness of sample sets based on SSA-BP algorithm
以PV為例,從表2中可以看出,最優(yōu)迭代次數(shù)為13,最優(yōu)適應(yīng)度值能達(dá)到0.050 8。為進(jìn)一步顯著觀察預(yù)測(cè)值與測(cè)試值的關(guān)系,突出SSA優(yōu)化BP算法優(yōu)勢(shì),分別在測(cè)試樣本集第1、10、20、30、40、50、60、70、80、90、100點(diǎn)設(shè)置觀察窗口,將測(cè)試集PV、BP算法預(yù)測(cè)PV及SSA優(yōu)化BP算法預(yù)測(cè)PV輸出對(duì)比,如圖5所示。
圖5 小米米粉PV值與BP算法及SSA優(yōu)化BP算法預(yù)測(cè)PV值擬合情況Fig. 5 Goodness of fit of experimental values of PV to BP and SSA-optimized BP algorithms
SSA優(yōu)化BP算法所得PV預(yù)測(cè)結(jié)果與測(cè)試結(jié)果的擬合效果明顯好于BP預(yù)測(cè)結(jié)果,如表3所示,SSA優(yōu)化BP算法預(yù)測(cè)值MSE為0.017 5,而BP算法預(yù)測(cè)值MSE為0.026 6,SSA優(yōu)化BP算法預(yù)測(cè)值MSE比BP算法明顯降低。由表3可知,相較于BP算法,運(yùn)用SSA優(yōu)化BP算法求得其他小米米粉糊化特征指標(biāo)預(yù)測(cè)值MSE均降低,表明SSA優(yōu)化BP算法在提高小米米粉糊化特征指標(biāo)預(yù)測(cè)精度、降低MSE方面具有普適性。綜上所述,運(yùn)用該優(yōu)化算法可為高光譜成像結(jié)合計(jì)算機(jī)深度學(xué)習(xí)在小米米粉糊化特征指標(biāo)預(yù)測(cè)方面提供理論支撐。
表3 BP及SSA優(yōu)化BP算法處理下小米米粉特征指標(biāo)預(yù)測(cè)值MSETable 3 MSE for sample prediction sets using BP and SSA-optimized BP algorithms
本實(shí)驗(yàn)以山西省長(zhǎng)治市武鄉(xiāng)縣所收獲小米研磨后的小米米粉為研究對(duì)象,獲取358 份小米米粉高光譜數(shù)據(jù)集,通過(guò)光譜數(shù)據(jù)提取、預(yù)處理,并以該數(shù)據(jù)矩陣為基礎(chǔ),分別運(yùn)用BP算法、SSA優(yōu)化BP算法進(jìn)行待測(cè)樣品糊化特征指標(biāo)預(yù)測(cè),得到以下主要結(jié)論:1)運(yùn)用光譜數(shù)據(jù)提取、預(yù)處理分布運(yùn)算程序,對(duì)樣本高光譜原始數(shù)據(jù)集進(jìn)行批處理,能夠標(biāo)準(zhǔn)化并簡(jiǎn)化光譜數(shù)據(jù)提取、預(yù)處理過(guò)程,從數(shù)據(jù)處理結(jié)果可以看出,該程序在粉末及小顆粒樣本光譜數(shù)據(jù)的提取、預(yù)處理過(guò)程中具有普遍適用性;2)分別運(yùn)用BP算法及SSA優(yōu)化BP算法對(duì)小米米粉糊化各特征指標(biāo)進(jìn)行預(yù)測(cè),從預(yù)測(cè)值與測(cè)試值間MSE可以看出,運(yùn)用SSA優(yōu)化BP算法能夠提高小米米粉糊化特征指標(biāo)預(yù)測(cè)精度,降低MSE,其中對(duì)PV的預(yù)測(cè)值MSE最低可以達(dá)到0.017 5。
本研究表明,運(yùn)用高光譜數(shù)據(jù)提取、預(yù)處理分步運(yùn)算程序可以簡(jiǎn)化提取小米米粉平均光譜數(shù)據(jù)過(guò)程,結(jié)合SSA優(yōu)化BP算法可以對(duì)待測(cè)樣品糊化特征指標(biāo)進(jìn)行預(yù)測(cè),能夠?yàn)楦吖庾V成像結(jié)合計(jì)算機(jī)深度學(xué)習(xí)在小米米粉糊化特性預(yù)測(cè)方面應(yīng)用提供理論支撐。