高升,徐建華
(1.青島理工大學(xué)信息與控制工程學(xué)院,山東青島 266520)(2.青島國際機場集團有限公司運行指揮中心,山東青島 266000)
紅提富含營養(yǎng)物質(zhì)、可口多汁,深受人們的喜愛[1]。成熟度是水果品質(zhì)的重要評價指標,直接影響著果實產(chǎn)量、營養(yǎng)和口感[2],也決定著后期果實的加工和貯藏方式[3]。如果紅提采收過早,會造成產(chǎn)量變低、品質(zhì)變差、營養(yǎng)價值不高等問題;如果采收過晚,則會因為過于成熟,出現(xiàn)水果營養(yǎng)流失、品相差、不耐貯藏、果肉易變質(zhì)等問題[4]。因此,建立紅提成熟度判別分類模型,對紅提成熟度進行精確判斷,有助于合理規(guī)劃紅提的采收和分類,也可提高紅提種植者的經(jīng)濟收入,促進產(chǎn)業(yè)發(fā)展。
以往紅提成熟度的判斷是依據(jù)果實的外觀、硬度、盛花期天數(shù)、尺寸等指標進行主觀判斷,或者結(jié)合生化方法檢測水果內(nèi)部成分含量進行果實成熟度分級[5,6]。但這些方法存在破壞性大、主觀性強、耗時長、準確度低等缺點,直接影響著果農(nóng)的收益[7]。光譜技術(shù)已被大量研究證實適合應(yīng)用于水果品質(zhì)參數(shù)及成熟度的無損檢測[8,9]。Pu等[10]利用光譜技術(shù)建立了荔枝成熟度檢測的分類模型,并證明了使用近紅外技術(shù)可實現(xiàn)荔枝成熟度的分類。Zhang等[11]利用高光譜技術(shù)采集了草莓的高光譜圖像,成功建立了支持向量機的草莓成熟度分類模型,并實現(xiàn)了對不同成熟度草莓的準確分類。Rungpichayapichet等[12]利用漫反射光譜檢測技術(shù),建立了芒果成熟度判別模型,所建立的芒果成熟度判別模型實現(xiàn)了對未熟芒果的準確判別,其準確率高達87.5%。上述研究也充分證明了對水果成熟度已成為近年來研究的熱點,對于紅提成熟度的研究同樣顯得非常重要。目前對紅提進行成熟度分類的研究還未見報道,市場迫切需要一種便捷無損的檢測方法實現(xiàn)對紅提成熟度的判別。
本文利用可見/近紅外光譜技術(shù),分別選取紅提生長過程的4個階段(未成熟、半成熟、成熟、過熟)的樣本并進行光譜信息采集。分別將經(jīng)過Savitzky-Golay(SG)卷積平滑處理法預(yù)處理的光譜利用競爭性自適應(yīng)加權(quán)算法(Competitive Adaptive Reweighted Sampling,CARS)、無信息變量消除算法(Uniformative Variable Elimination,UVE)和連續(xù)投影算法(Successive Projection Algorithm,SPA)進行特征波長提取,分別建立支持向量機(Support Vector Machines,SVM)、極限學(xué)習(xí)機(Extreme Learning Machine,ELM)和偏最小二乘法判別分析(Partial Least Squares Discriminant Analysis,PLS-DA)的分類模型并進行對比分析模型的優(yōu)劣,最終確定紅提成熟度的最佳預(yù)測模型,為紅提成熟度的檢測找到了一種無損快速的方法。
本實驗選取生長過程中的紅提作為研究樣本。選取的紅提植株開花的時間為2019年5月1日,實驗周期為兩個月。參考當(dāng)?shù)毓r(nóng)經(jīng)驗和水果生長的過程,將生長期紅提劃分為未成熟、半熟、成熟和過熟4個階段,未成熟:整個果實表面呈青色,顆粒較小;半熟:果實的綠色外觀逐漸改變,果實大小基本固定,一半果實呈現(xiàn)紅色;成熟:整個果實表面大都著色,顆粒飽滿且有彈性,香味濃郁;過熟:顆粒出現(xiàn)干癟,彈性下降。圖1為不同成熟度的樣本。
圖1 不同成熟度的樣本Fig.1 Samples at different levels of maturity
紅提果粒成熟周期約為兩個月,實驗每隔5 d進行1次樣本采集,每次于實驗當(dāng)天隨機采集5串葡萄,共進行12次采集,試樣樣本總數(shù)為60串。然后從每串葡萄上無差別摘取葡萄果粒進行實驗,建模樣本總數(shù)為360粒。為保證實驗精度,需要對樣本進行預(yù)處理,本實驗的預(yù)處理方法為將當(dāng)日采集的樣本放入溫度(22±1)℃,濕度65%的溫恒濕箱保存12 h。
為采集樣本的光譜數(shù)據(jù),本實驗特搭建了可見/近紅外光譜采集系統(tǒng),如圖2所示,該采集系統(tǒng)主要由Maya 2000 Pro型海洋光學(xué)光譜儀、聚光透鏡(定制直徑為15 mm,長度為45 mm)、LS-3000可調(diào)鹵鎢燈光源20 W、石英光纖(定制芯徑為8 mm,長度為1.5 m)及筆記本計算機組成。Maya 2000 Pro光譜儀的一端通過光纖與84 UV準直鏡連接,光譜儀的另一端通過 USB接口與計算機進行信息交互;鹵素?zé)簦↙S-3000)光源通過石英光纖連接到聚光透鏡上。樣本光譜采集時,首先將樣本放置到隔板上,然后可直接通過筆記本計算機安裝的Spectra Suite軟件采集樣本光譜數(shù)據(jù)。設(shè)置光譜采集時參數(shù):積分時間為100 ms,平均次數(shù)為4,平滑度為3。實驗時首先進行黑白校正:關(guān)閉光源并在暗箱中進行黑校正,然后中間隔板位置放置白板,調(diào)節(jié)鹵素?zé)艄庠吹牧炼?,?dāng)光照強度達到58 000時,進行白校正。將樣本放入已搭建的采集系統(tǒng)進行光譜采集,在紅提果粒的赤道位置進行光譜采集,每次采集的部位大約間隔60 °,每個紅提樣本采集3次光譜信息,采集到的信息進行平均化處理得到平均光譜作為該樣本實驗數(shù)據(jù)。
圖2 可見/近紅外光譜采集系統(tǒng)圖Fig.2 Red globe grapes visible / near infrared spectrum acquisition system
未成熟紅提、半熟紅提、成熟紅提、過熟紅提樣本各 90個,按照 2:1的比例利用隨機劃分算法(Random Selection,RS)將樣本集劃分為訓(xùn)練集和測試集,其中訓(xùn)練集樣本240個(未成熟紅提、半熟紅提、整個成熟紅提、過熟紅提樣本各60個);測試集樣本共120個(未成熟紅提、半熟紅提、整個成熟紅提、過熟紅提樣本各30個)。
受到實驗環(huán)境影響,采集的光譜數(shù)據(jù)存在大量無關(guān)信息,為提高模型的穩(wěn)定性和精度,需進行對對采集到的光譜進行預(yù)處理。采用SG卷積平滑處理法對原始光譜數(shù)據(jù)進行預(yù)處理以提升預(yù)測模型的精確度和穩(wěn)定性[13]。
特征提取算法可以剔除干擾信息,從而降低數(shù)據(jù)維數(shù),簡化模型,避免模型過擬合,提高模型的穩(wěn)定性和精度。CARS算法利用PLS模型篩選回歸系數(shù)絕對值大的波長點,然后利用十折交叉驗證挑選RMSECV最小的波長點。SPA算法是一種前向變量選擇法,從一個波長變量開始,每次循環(huán)計算它在剩余波長上的投影,并將最大投影所對應(yīng)的波長作為待選波長,直到達到設(shè)定的波長數(shù)為止。UVE算法是基于PLS模型的回歸系數(shù)b所建立的一種波長變量選擇方法。該方法在光譜矩陣中添加一定數(shù)目的隨機變量,建立偏最小二乘交互式驗證模型,通過分析回歸系數(shù)矢量均值及標準差的商的穩(wěn)定性,根據(jù)其絕對值挑選光譜變量。本文中添加與變量個數(shù)相同的隨機變量進行分析。本文利用CARS算法、SPA算法和UVE算法三種方法選取特征變量。
極限學(xué)習(xí)機作為一種單隱含層前饋神經(jīng)網(wǎng)絡(luò)的新算法,入層與隱含層的權(quán)值和隱含層神經(jīng)元的閾值在運算過程中隨機產(chǎn)生,只需設(shè)置隱含層的神經(jīng)元數(shù)目就可自動得到最優(yōu)解,本文中經(jīng)過實驗選擇隱含層神經(jīng)元數(shù)目為20 000個,激活函數(shù)選擇為hardlim函數(shù)。
偏最小二乘判別分析利用到統(tǒng)計學(xué)原理,偏最小二乘判別法是結(jié)合主成分分析和多元線性回歸的一種綜合判別分析方法,可通過投影分別將預(yù)測變量和觀測變量投影到一個新空間,并通過轉(zhuǎn)化后的新空間尋找一個線性回歸模型并進行分類。本文選擇留一法交叉驗證得到均方根誤差RMSECV,當(dāng)RMSECV較小時取得最優(yōu)解,本文最優(yōu)模型所選擇因子數(shù)LVs為20。
支持向量機分類模型是光譜分析中的常用分析方法,廣泛應(yīng)用于回歸、分類等問題[14-16]。本文 SVM模型參數(shù):選擇RBF核函數(shù),利用交叉驗證方法尋找最佳c、g參數(shù),本文最優(yōu)模型所選擇的c為84.449,g為0.002。
數(shù)據(jù)分析時去掉樣本光譜首尾噪聲部分,選擇波長范圍550 nm~1 000 nm共1 031個波長點進行光譜特征分析。由圖3可知,處在不同時期的紅提樣本的光譜曲線變化趨勢相同:676 nm附近光譜波谷是由紅提中類胡蘿卜素和葉綠素吸收光譜引起[17,18],956 nm附近吸收峰與紅提內(nèi)部水分有關(guān),分別為O-H三級和二級倍頻特征吸收峰[19,20]。
圖3 紅提樣本平均光譜曲線Fig.3 Average spectral profile of red globe grapes samples
從圖3中可知,在紅提在未成熟時,存在545 nm和725 nm兩個波峰,成熟期存在632 nm和725 nm兩個波峰,成熟后期存在642 nm和725 nm兩個波峰的。由此可知,紅提從未成熟到成熟的整個過程中,只有第一個波峰位置的位置慢慢的變大;第二個波峰的位置基本固定。第一個波峰的變化也證明了在成熟的過程中紅提中類胡蘿卜素和葉綠素發(fā)生了巨大的變化。不同成熟狀態(tài)下紅提果粒的光譜特性可以反映出紅提的生長狀態(tài),從而達到無損檢測成熟度的目的。
SG平滑濾波預(yù)處理可有效地消除干擾信息。在SG平滑濾波的原理是通過改變?yōu)V波器的窗口寬度及其多項式擬合階次來達到平滑及去噪的目的[21]。本文通過不斷調(diào)整濾波器窗口寬度和多項式擬合階次,最終選擇11和3分別作為SG預(yù)處理的最佳濾波器窗口寬度和多項式擬合階次。經(jīng)過SG預(yù)處理的光譜共有1 031個特征波長點,因特征波長點數(shù)目較多,建模的速度較慢、精度較低。使用CARS算法、UVE算法和SPA算法分別對預(yù)處理后的光譜數(shù)據(jù)進行特征選取,找出能夠判別紅提成熟度的特征變量組合,達到進一步優(yōu)化模型效果。特征波長提取過程如下:
(1)通過 CARS對預(yù)處理后的光譜提取特征波長的過程見圖4a~4c,設(shè)定蒙特卡羅采樣為50次,5折交叉驗證。當(dāng)RMSECV值最小值時,為所建PLSR模型的最優(yōu)結(jié)果,當(dāng)運行為圖中豎線的位置時,RMSECV值最小為0.265,采樣運行了22次。
圖4 提取特征波長過程Fig.4 The process of extracting characteristic wavelengths
(2)進行預(yù)處理后的光譜利用UVE提取特征波長的后選取的結(jié)果見圖4d,將剔除閾值設(shè)定為噪聲矩陣最大穩(wěn)定性絕對值的99%,將兩條虛線內(nèi)部的信息劃定為無效信息并剔除,虛線外側(cè)的為有用信息予以保留。
(3)預(yù)處理后的數(shù)據(jù)為例說明SPA算法進行特征波長提取的結(jié)果見圖4e,當(dāng)RMSE取得最小值時,此時RMSE取得最小值,選擇的波長數(shù)目為34個,所保留的信息建模效果最優(yōu)。
進行特征波長提取后,所建紅提果粒成熟度SG-SPA-ELM分類模型的最優(yōu)特征波長如表2所示。提取的671 nm附近波長是由紅提中類胡蘿卜素和葉綠素吸收光譜引起[17,18],956 nm附近吸收峰與紅提內(nèi)部水分有關(guān),分別為 O-H三級和二級倍頻特征吸收峰[19,20],表明紅提中類胡蘿卜素及水分在生長期發(fā)生了較大的變化,同樣證明了所提取特征波長的正確性。
表1 不同建模方法對紅提樣本的分類結(jié)果Table 1 Results of the classification of red globe grapes samples based on different modelling methods
表2 紅提成熟度SG-SPA-ELM分類模型的最優(yōu)特征波長列表Table 2 List of optimal characteristic wavelengths for the SG-SPA-ELM model for the maturity of red globe grapes
由表2可知,結(jié)合最佳預(yù)處理和特征波長提取算法建立的紅提成熟度最佳模型為SG-SPA-ELM模型,該最佳模型的訓(xùn)練集和測試集的分類結(jié)果的散點圖如圖5所示,圖中值分別為1、2、3、4時分別代表未成熟、半成熟、成熟和過成熟樣本。該模型的測試集準確率為97.500%,訓(xùn)練集中共60個未成熟樣本,其中有2個樣本被誤判為半成熟樣本;訓(xùn)練集中共60個半成熟樣本,其中有2個樣本被誤判為成熟樣本;訓(xùn)練集中共60個成熟樣本,其中有2個樣本被誤判為半成熟樣本。測試集中共30個未成熟樣本,其中有1個樣本被誤判為半成熟樣本;測試集中共30個半成熟樣本,其中有 2個樣本被誤判為成熟樣本;測試集中共 30個成熟樣本,其中有1個樣本被誤判為半成熟樣本。由最佳模型的訓(xùn)練集和測試集的預(yù)測結(jié)果可知,進行判斷時半成熟和成熟樣本容易相互判斷錯誤,未成熟和過熟的樣本相對容易判別,能夠?qū)崿F(xiàn)對紅提半成熟及成熟度的準確判別分類是實現(xiàn)紅提成熟度判別分類的關(guān)鍵。
圖5 基于SG-SPA-SVM的分類結(jié)果Fig.5 Classification results based on the SG-SPA-SVM
從圖1中看,未成熟與過熟的紅提顏色特征明顯相對比較明顯,可以用表面顏色特征進行判別,但是半成熟中的紅提顏色既有青色的又有紅色的,較難通過顏色判斷進行成熟度的判別。有些半成熟的紅提顏色與成熟紅提顏色相近,有些成熟紅提與過熟的紅提顏色相差不大,同樣很難進行準確判別。因紅提的成熟度與果實的硬度也同樣有密切相關(guān),硬度較軟的果實更加容易腐爛,本文參考當(dāng)?shù)毓r(nóng)經(jīng)驗和水果生長的過程,將生長期紅提劃分為未成熟、半熟、成熟和過熟4個階段的過程時,結(jié)合了顏色、大小、硬度等指標并結(jié)合果農(nóng)自身的經(jīng)驗,通過顏色進行成熟度的判別時,較多的半成熟(顏色呈青色的紅提)的紅提錯判為未成熟紅提,較多的成熟(顏色呈紫紅色的紅提)的紅提錯判為未成熟紅提。本文利用近紅外光譜技術(shù)可以有效的去除顏色特征帶來的干擾,從內(nèi)部物質(zhì)含量及變化的角度,利用近紅外光譜技術(shù)探尋紅提生長過程中光譜的變化規(guī)律及內(nèi)部含量的變化。從生長期內(nèi)部品質(zhì)變化的角度尋找到一種無損、判別更加準確的方法。但利用近紅外對紅提成熟度進行判別時,60個未成熟樣本判定為半成熟樣本,未成熟樣本的判別準確性低于利用圖像顏色信息(RGB,HSV、Lab)建立的模型。但整體利用近紅外光譜技術(shù)對紅提成熟度的判別準確率高于通過圖像所建模型結(jié)果。后期在本文的基礎(chǔ)上將深入研究融合圖像顏色、尺寸和光譜信息,建立紅提成熟度的判別分類方法,提高紅提成熟度的判別準確性。
本研究以紅提生長過程的4個階段(未成熟、半成熟、成熟、過熟)的紅提樣本為研究對象,探究基于光譜技術(shù)預(yù)測成熟度的可行性并建立最佳判別分類模型。主要結(jié)論如下:
(1)樣本原始光譜經(jīng)過 SG算法預(yù)處理后進行SPA算法提取特征波長所建立的ELM模型效果最佳,SVM模型次之,PLS-DA模型最差。紅提成熟度的最佳判別分類模型為SG-SPA-ELM,該模型的訓(xùn)練集和測試集的準確率分別為97.50%和96.67%。
(2)利用建立的紅提成熟度最佳判別分類模型進行預(yù)測時,半成熟和成熟樣本容易相互判斷錯誤,未成熟和過熟的樣本相對容易判別。實現(xiàn)對紅提半成熟及成熟度的判別分類是實現(xiàn)紅提成熟度判別分類的關(guān)鍵。
(3)研究結(jié)果表明利用可見/近紅外光譜技術(shù)對紅提成熟狀態(tài)進行判別分類是可行的,可以用可見/近紅外光譜技術(shù)來實現(xiàn)檢測紅提成熟度的無損檢測。