朱莉莉 ,傅茂潤,王新策,劉 欣,劉晶晶,孫 斐,*,程建峰*,崔 波
(1.齊魯工業(yè)大學(xué)食品科學(xué)與工程學(xué)院,山東濟(jì)南 250353;2.江西農(nóng)業(yè)大學(xué)農(nóng)學(xué)院,江西南昌 330045;3.生物基材料與綠色造紙國家重點(diǎn)實驗室,山東濟(jì)南 250353)
冬棗(Ziziphus jujubecv.Dongzao)是北方落葉果樹中的高檔鮮食水果,皮脆肉嫩,甘甜可口。隨著棗產(chǎn)業(yè)的發(fā)展,一種合理、快速、精確地將冬棗進(jìn)行分級的模型可以滿足許多企業(yè)的要求,市場需求迫切[1]。冬棗的鮮果質(zhì)量等級多以果實色澤、著色面積和大小為衡量標(biāo)準(zhǔn)[2]。色澤是評價果蔬質(zhì)量的一個重要因素,在一定程度上反映了果蔬的成熟度和品質(zhì)變化[3]。冬棗在成熟過程中,顏色由最初的綠色變?yōu)榧t色。有研究提出,棗皮的顏色變化是由類黃酮、類胡蘿卜素和花色苷水平的變化引起的[4],也與酚類物質(zhì)氧化有關(guān)[5-6]。也有研究者提出,棗皮的轉(zhuǎn)紅與malvidin 3-O-糖苷和delphinidin 3-O-糖苷的大量積累有很大關(guān)系[7]。時維康等[8]通過采集冬棗顏色特征,完成了生熟冬棗的快速檢測與分離,正確率高達(dá)90.23%。因此,色澤可作為冬棗品質(zhì)無損檢測的指標(biāo)??扇苄怨绦挝铮╯oluble solids content,SSC)是一種綜合參數(shù),主要包括糖、酸、維生素、礦物質(zhì)等成分,是確定果實成熟度和收獲后等級的重要質(zhì)量屬性[9]。研究發(fā)現(xiàn),多種水果的SSC與品質(zhì)有關(guān)。如草莓在發(fā)育過程中顏色的變化與SSC和總酸(total acid,TA)的比值存在相關(guān)性[10]。顏色特征也是葡萄的SSC值快速無損檢測的重要指標(biāo)[11-12]。王世芳等[13]通過采集西瓜5個點(diǎn)的近紅外光譜,預(yù)測了其SSC;Tian等[14]利用高光譜成像技術(shù)建立了基于蘋果皮顏色預(yù)測SSC的模型。也有研究顯示,顏色可作為芒果[15]、梨[16]、草莓[17]等的SSC預(yù)測指標(biāo)。因此,果實的色澤和SSC之間可以建立相關(guān)模型。MATLAB作為三大數(shù)學(xué)軟件之一,在科研及實際工程中具有非常重要的作用,尤其在大數(shù)據(jù)處理方面具有難以比擬的優(yōu)越性[18]。MATLAB可解決高光譜預(yù)處理中出現(xiàn)的問題[19],也可對采集的圖像進(jìn)行處理及表征[20]。回歸分析是把工程和科學(xué)實驗數(shù)據(jù)擬合為線性函數(shù),利用MATLAB軟件可以很好地建立回歸模型,并對模型進(jìn)行精細(xì)分析[21]。
本研究以市場購買的新鮮冬棗為樣本,利用精密色差儀和水果成熟度無損傷檢測儀測定了色差數(shù)據(jù)及DA值(the delta absorbance)。DA值是基于兩種波長下的吸光度差異并通過公式轉(zhuǎn)化而成的一個固定數(shù)值,試驗通過測量水果中的葉綠素含量來判定水果的成熟度或貨架期,利用所得數(shù)據(jù),使用MATLAB軟件建立冬棗色澤與甜度模型,找到一種利用色澤檢測甜度的快速檢測方法。本研究旨在建立一種無損、快速檢測甜度的機(jī)器學(xué)習(xí)模型,根據(jù)甜度將冬棗進(jìn)行分級,推動冬棗分揀智能化技術(shù)的發(fā)展。
沾化冬棗(Zizyphus jujubaMill var.inermis Dongzao),采購于濟(jì)南市長清區(qū)果蔬批發(fā)市場。
3nh精密色差儀,深圳市三恩馳科技有限公司;DA-Meter便攜式水果成熟度無損傷檢測儀,北京陽光億事達(dá)公司;PAL-1水果糖度計,ATAGO(愛拓)。
冬棗運(yùn)至實驗室后,將表面受損、有缺陷、個頭過大或過小的果挑出。然后根據(jù)果實表面的紅色面積,將冬棗分成4筐,每筐分別挑選4組,共16組。分級標(biāo)準(zhǔn)見下頁表1,根據(jù)冬棗果皮紅色和綠色的分布面積,第1~4組的紅色面積占比為0~25%,第5~8組的占比為26%~50%,第9~12組的占比為51%~75%,第13~16組的占比為76%~100%。每組隨機(jī)選取24個果進(jìn)行拍照并測定相關(guān)指標(biāo)。
表1 冬棗分級標(biāo)準(zhǔn)Table 1 The grading standard of jujube
1.3.1 果實色澤
采用3 nh精密色差儀進(jìn)行測定,先對儀器進(jìn)行校正,在冬棗赤道位置平均取4個點(diǎn),每個點(diǎn)重復(fù)測量3次,然后記錄果實顏色測定指標(biāo)L、a、b、c、h。最后以4個點(diǎn)所得值的平均值作為模型預(yù)測的數(shù)據(jù)。L代表明暗度,a代表紅綠色,b代表黃藍(lán)色,c代表彩度,h代表色調(diào)角。
1.3.2 葉綠素含量
使用DA-Meter便攜式水果成熟度無損傷檢測儀測定葉綠素含量。對儀器進(jìn)行校正后,在冬棗赤道位置平均取4個點(diǎn)測定該值,最后計算4個點(diǎn)的平均值作為模型預(yù)測的數(shù)據(jù),即為它的葉綠素含量值(the delta absorbance,DA值)。
1.3.3 SSC
每組冬棗選取24個,擠汁后用PAL-1水果糖度計測定SSC,取平均值。
用Excel 2019、SPSS 21.0進(jìn)行數(shù)據(jù)整理,運(yùn)用MATLAB 2018軟件進(jìn)行相關(guān)性分析,并對模型進(jìn)行擬合,建立回歸模型。
試驗共選取了16組冬棗(圖1所示A~Q組),每組冬棗數(shù)量為24個,測得數(shù)據(jù)共有384個,其中320個數(shù)據(jù)用于模型建立,64個數(shù)據(jù)用于模型預(yù)測,用于預(yù)測的數(shù)據(jù)平均選取于每個組。每組隨機(jī)選取24個棗用于試驗,因進(jìn)行模型建立時,色澤數(shù)據(jù)分布廣泛,提升模型的適用范圍。顏色的發(fā)育與成熟度息息相關(guān),從圖1可以看出,冬棗的色澤差異從全綠至全紅,且在表面的著色面積不均勻,成熟度從A組至Q組也是逐漸加深。冬棗在發(fā)育過程中,葉綠素、β-胡蘿卜素和花色苷的含量下降,而酚類物質(zhì)含量增加[4],從而使棗皮的顏色發(fā)生變化。用色差儀測得的b值均為正值,表示色澤偏黃;而測得的a值有正有負(fù),a值為負(fù)代表偏綠,為正代表偏紅。所測得數(shù)據(jù)中,第一組的a值均為負(fù)值,最后一組均為正值,且a值逐漸增大,與棗皮紅色面積逐漸增加相吻合。
圖1 冬棗色澤差異圖Fig.1 The color difference map of jujube
相關(guān)性分析的目的是為了檢測所測變量之間的密切程度。運(yùn)用MATLAB軟件,做了L、a、b、c、h、DA值、SSC之間的相關(guān)性分析,如圖1所示。從右側(cè)圖標(biāo)可知,黃色越深,兩指標(biāo)間的正相關(guān)性越大;藍(lán)色越深,兩指標(biāo)間的負(fù)相關(guān)性越大。由圖可以看出,所要預(yù)測的變量SSC與其余變量之間都存在一定的相關(guān)性,既有正相關(guān)也有負(fù)相關(guān)。DA值是利用近紅外光在果實表面測得的吸光值并通過一定的公式轉(zhuǎn)化得到,John等[22]在開發(fā)蘋果的最佳收獲成熟度模型時使用了DA值,Zhang等[23]預(yù)測了DA值與桃色差、硬度、SSC等之間的關(guān)系,發(fā)現(xiàn)桃的硬度與DA值存在最大相關(guān)性。
本試驗在建立冬棗甜度預(yù)測模型時發(fā)現(xiàn)DA值與SSC的相關(guān)性極小,不能用于模型建立。在本試驗選擇不同轉(zhuǎn)色程度的棗,可以作為棗的一個成熟過程,所得的數(shù)據(jù)中,DA值的范圍為0.3~0.9,有一定的跨度。色差數(shù)據(jù)L、a、b、c、h與SSC都存在較大的相關(guān)性,只有a值與SSC是正相關(guān)性,且相關(guān)性最高,為0.71。a代表紅綠色,冬棗在成熟過程中,色澤的明顯變化是由綠轉(zhuǎn)紅。
圖2 各指標(biāo)間的相關(guān)性分析Fig.2 Correlation analysis between various indicators
2.3.1 單變量曲線估計
根據(jù)圖1的相關(guān)性分析,冬棗所測的SSC與色差儀所測的L、a、b、c、h的相關(guān)性均大于0.5,故對其進(jìn)行單變量曲線估計,結(jié)果見表2。表2列舉了線性、對數(shù)、倒數(shù)、二次、三次、冪、增長及指數(shù)共8種函數(shù),由表知無論哪種函數(shù),R2均較低,最高為0.546,最低為0.001。DA值與SSC之間,R2極低,P值均大于0.05,結(jié)合圖2的相關(guān)性分析可以得出,冬棗的DA值與SSC之間不存在相關(guān)性,在構(gòu)建多元函數(shù)時將其排除。冬棗所測的SSC與色差儀所測的L、a、b、c、h之間,雖然P值均極顯著,可用來構(gòu)建函數(shù),但相關(guān)系數(shù)R2均較低,構(gòu)建一元函數(shù)效果不佳,構(gòu)建多元函數(shù)是更好的選擇。
表2 各變量與所測SSC之間的曲線估計Table 2 Curve estimation between each variable and the measured SSC
2.3.2 多元一次線性回歸
利用色差儀測得數(shù)據(jù)建立線性回歸模型,SSC~1+L+a+b+c+h,結(jié)果得出R2=0.596、P=9.74×10-60,方差分析表如表3。所得函數(shù)模型P值小于0.01,呈極顯著,但方差分析表中,a、b項的P值均大于0.05,一個好的函數(shù)模型要求函數(shù)P值以及各項的P值均小于0.05,且計算方差膨脹因子VIF,結(jié)果大于5,說明用來建立函數(shù)的自變量間存在多重共線性關(guān)系。根據(jù)所得結(jié)果,對所得函數(shù)模型進(jìn)行改進(jìn),去除不顯著項以及根據(jù)學(xué)生化殘差查找出的異常點(diǎn),最終得到改進(jìn)后的函數(shù)模型一:SSC=20.153 0+0.370 7×L+0.504 5×c-0.477 2×h,R2=0.76,P=9.88×10-82,其方差分見下頁表4,各項自變量的P值均小于0.01,呈極顯著。利用所得函數(shù)測得的SSC和實際測得SSC作圖,如圖3(見下頁)所示。
表3 模型一改進(jìn)前方差分析表Table 3 The variance analysis table of model 1 before improving
表4 模型一改進(jìn)后方差分析表Table 4 The variance analysis table of model 1 after improving
圖3 模型一預(yù)測SSC與實測SSC之間的散點(diǎn)圖Fig.3 Scatterplot between predicted SSC and measured SSC of model 1
2.3.3 多元一次線性逐步回歸
利用stepwiselm指令,對各項自變量與SSC之間做多元一次線性逐步回歸,函數(shù)模型為SSC~1+L+a+c+h,得到結(jié)果R2=0.595、P=1.22×10-60,方差分析見表5。
表5 模型二改進(jìn)前方差分析表Table 5 The variance analysis table of model 2 before improving
從表中可以看出,各項變量得P值均小于0.05,呈顯著。基于學(xué)生化殘差查找異常點(diǎn),進(jìn)行模型改進(jìn),進(jìn)而得到函數(shù)模型二:SSC=33.5983+0.2835×L-0.4930×a+0.7729×c-0.659 4×h,R2=0.737,P值為1.47×10-75,方差分析見表6,各項變量P值均小于0.01,呈極顯著。利用函數(shù)所得預(yù)測SSC與實測SSC之間所做的散點(diǎn)圖。見圖4,由圖可知,R2=0.737,RMSE=1.255。
表6 模型二改進(jìn)后方差分析表Table 6 The variance analysis table of model 2 after improving
圖4 模型二預(yù)測SSC與實測SSC之間的散點(diǎn)圖Fig.4 Scatterplot between predicted SSC and measured SSC of model 2
2.3.4 模型預(yù)測
利用函數(shù)模型一和二進(jìn)行預(yù)測,預(yù)測結(jié)果見表7、8。從每批棗數(shù)據(jù)中選取4組,共64組來進(jìn)行預(yù)測,計算相對誤差率。兩個表展示了10組相同色差數(shù)據(jù)的預(yù)測結(jié)果。從兩表的對比中可以看出,利用模型一進(jìn)行預(yù)測,誤差多呈現(xiàn)負(fù)值,而利用模型二進(jìn)行預(yù)測,誤差多呈現(xiàn)正值??梢?,無論用哪種模型預(yù)測,對于較高SSC數(shù)據(jù),預(yù)測效果均不好,相對誤差率較大,在建立模型時,查找出的異常值大部分是較高SSC的數(shù)據(jù),因此兩個函數(shù)模型均有一定的局限性,適用于SSC值范圍為17~28。模型一的平均相對誤差率為4.904%,模型二的平均相對誤差率為4.258%,模型二的預(yù)測效果較好,但模型一和二的R2分別為0.76、0.737,相比較而言,模型一的擬合效果較好。
依據(jù)所測數(shù)據(jù),統(tǒng)計了全部數(shù)據(jù)的平均值、中間值、標(biāo)準(zhǔn)誤差、分布范圍、最小值、最大值、標(biāo)準(zhǔn)偏差和樣本方差,結(jié)果見表9。由表可知,各項數(shù)據(jù)的平均值與中間值相差不大,說明數(shù)據(jù)符合對稱分布。SSC值最大為31.5,最小為14.9,分布范圍廣泛,而函數(shù)模型適用范圍為17~28,其值太大或太小,均較難預(yù)測。
表7 基于模型一預(yù)測SSCTable 7 SSC estimation using the model 1
表8 基于模型二預(yù)測SSCTable 8 SSC estimation using the model 2
表9 描述性統(tǒng)計(n=384)Table 9 Descriptive statistics(n=384)
本文利用測得的冬棗無損指標(biāo)——色差數(shù)據(jù)以及有損指標(biāo)——SSC,基于MATLAB軟件,共建立了兩種函數(shù)模型,模型一:SSC=20.1530+0.3707×L+0.5045×c-0.4772×h,R2=0.76,P=9.88×10-82;模型二:SSC=33.598 3+0.283 5×L-0.493 0×a+0.772 9×c-0.659 4×h,R2=0.737,P=1.47×10-75。從R2看,模型一的擬合效果較好。利用所建立的模型預(yù)測64組數(shù)據(jù),模型一、二的相對誤差率分別為4.904%、4.258%,模型二的預(yù)測效果較好。兩種模型間的差異在于a值,a代表紅綠色,本文選取的冬棗,色澤變化是從完全青色至完全紅色,a值存在更能代表其色澤,且模型二預(yù)測的相對誤差率小于模型一,綜合來看,運(yùn)用模型二來預(yù)測冬棗的甜度,效果更佳。
回歸分析是建立數(shù)學(xué)模型最重要的統(tǒng)計分析方法之一,現(xiàn)在越來越多的研究基于建立相關(guān)的預(yù)測模型,如Zhang等[24]建立了桃的SSC和質(zhì)量之間的回歸模型。Qiao等[11]建立的SSC預(yù)測模型的相關(guān)系數(shù)為0.695~0.727,從而得出圖像顏色特征提取可以應(yīng)用于葡萄SSC值的快速無損檢測。本試驗建立的兩種模型的相關(guān)系數(shù)分別為0.76、0.737,因此利用冬棗的色澤預(yù)測其SSC是可行的。陳沖等[25]利用近紅外光譜技術(shù)無損預(yù)測了冬棗的糖分。綜上,本試驗利用色差儀測得的L、a、b、c、h數(shù)據(jù)對冬棗甜度進(jìn)行預(yù)測是可行的,能為冬棗糖分的無損檢測提供新的思路。MATLAB作為三大數(shù)學(xué)軟件之一,在進(jìn)行模型擬合時具有較大優(yōu)勢。在進(jìn)行冬棗SSC預(yù)測模型擬合時,也做了多元二次、三次回歸分析,但擬合效果不如線性回歸??梢?,在做多元多次回歸分析時,MATLAB更加便捷、有效,掌握好這個軟件,有利于模型構(gòu)建中的數(shù)據(jù)處理與分析。