王秉聰
(南京理工大學自動化學院,江蘇 南京 210018)
紅棗自古被列為“五果”之一,富含維生素,具有補氣養(yǎng)血、健脾益胃等功效。紅棗的價值不僅限于作為鮮食食用,同時也是調味佳品和制藥的重要原料,此外,紅棗加工而成的棗片、酒棗、棗醋等在國內也具有廣闊的市場。然而由于加工工藝和產地的不同,不同品種的紅棗在營養(yǎng)價值以及價格上存在顯著差異,但其大小、形狀、顏色都非常相似,僅根據(jù)表面特征難以區(qū)分,因而市場上以次充好的現(xiàn)象屢見不鮮,購買者的利益受到了很大程度的損害。因此,對紅棗品種進行準確、快速、高效地鑒別,對規(guī)范紅棗銷售行業(yè)及提高紅棗相關產業(yè)經濟效益具有重要意義。
高光譜圖像技術(HSI,Hyperspectral imaging technology)是一項結合了光譜與圖像技術優(yōu)點的新興檢測技術,它通過獲取連續(xù)波段下樣本高精度圖像得到光譜立方體,進而得到樣本的光譜與圖像信息[1],應用高光譜圖像技術對紅棗進行品種鑒別具有獨特的優(yōu)勢和廣闊的應用前景。
實驗所用紅棗樣本分別為當年產灰棗、和田玉棗和新政大棗各80 顆,大小、形狀、顏色相近,無損傷和病蟲害,共240 顆作為實驗樣品。按3∶1 將不同品種的紅棗樣本劃分為訓練集和測試集,其中訓練集樣本個數(shù)為180 個,測試集樣本個數(shù)為60 個,然后立即進行高光譜圖像的采集。在紅棗樣品制備和高光譜圖像采集的過程中,實驗室的環(huán)境溫度保持在(20±1)℃,相對濕度保持在(40±5)%。
高光譜成像系統(tǒng)由光譜儀(V10E,SPECIM,芬蘭)、高光譜相機(Zyla 4.2,andor,UTKL)、鹵素光源(3900E,五鈴光學,臺灣)、電控位移平臺(MSI300,五鈴光學,臺灣)、暗箱(DC1300,五鈴光學,臺灣)和計算機組成[2]。高光譜成像系統(tǒng)的實物圖見圖1,可獲取的光譜范圍為400~1 000 nm(共400 個波段)。
圖1 高光譜成像系統(tǒng)的實物圖
競爭自適應重加權抽樣(CARS,Competitive Adaptive Reweighted Sampling) 是一種模仿“適者生存”原則的變量選擇方法。在這種方法中,每個波長的變量都是一個單獨的個體。在選擇過程中,適應性強的個體被保留,而適應性弱的個體被淘汰。在波長選擇過程中,通過去除偏最小二乘回歸模型中回歸系數(shù)較小的波長,得到了多個回歸系數(shù)絕對值較大的波長變量子集[3]。在獲得多個變量子集后,采用交叉驗證法得到交叉驗證均方根誤差最小的最優(yōu)變量子集,即最優(yōu)波長子集。
支持向量機(SVM,Support Vector Machine)是一種常用于分類問題的算法,它可以很好地解決小規(guī)模樣本的分類。SVM 是基于統(tǒng)計學原理且遵循結構風險最小化原則的一種方法,通過對樣本進行監(jiān)督學習從而達到模式識別的目的[4-5]。SVM 不僅計算簡單、訓練時間短,而且具有良好的泛化性與魯棒性。
根據(jù)自適應重加權采樣技術選擇偏最小二乘模型中回歸系數(shù)絕對值較大的波長,通過交叉驗證建模選擇最優(yōu)波長變量子集。在選擇較優(yōu)變量的過程中,蒙特卡羅采樣數(shù)設置為50 個,最大主成分為15個,采樣率為0.8,迭代次數(shù)為1 500。紅棗光譜波長的篩選過程見圖2。
從圖2(a)波長個數(shù)的趨勢圖可以看出,曲線的斜率逐漸變小,隨機抽樣變量的數(shù)量呈現(xiàn)先下降后放緩的趨勢。圖2(b)顯示了RMSECV 的趨勢圖,前20 次采樣呈下降趨勢,第21 次采樣呈上升趨勢。也就是說,第21 次抽樣是欠擬合和過擬合的交集,即最優(yōu)變量的子集,RMSECV 的最小值為0.180 3。圖2(c)為波長回歸系數(shù)的趨勢圖,藍線為RMSECV 最小值,此時為第21 次采樣,最后選取了21 個特征波長。
圖2 基于CARS 特征波長選擇結果
將SVM 的參數(shù)(c、g)設置為默認值,利用特征波長和全光譜(RAW)建立紅棗品種鑒別的SVM 模型,結果見表1 和圖3。可以看出,基于全光譜的模型的測試集檢測結果僅為72.5%,而基于特征光譜的SVM 模型準確率達到了91.2%,明顯優(yōu)于全光譜模型,說明CARS 提取的特征波段能很好地代表紅棗特征,同時特征波段的提取也可以極大地減少用于建模的波段數(shù)量,從而將建模復雜度降到最低,在保證建模精度的同時提高了效率。
圖3 SVM 檢測結果
表1 SVM 在不同特征提取方法下的建模結果
利用高光譜圖像技術獲取了3 個紅棗品種的光譜數(shù)據(jù),采用CARS 進行特征提取得到21 個特征變量,并建立SVM 鑒別模型,模型的識別精度達到了令人滿意的結果,訓練集的精度為100%,預測集的精度為91.2%。故利用高光譜技術結合CARS-SVM模型可以替代破壞性和費時費力的傳統(tǒng)方法來對紅棗品種進行鑒別,該結果也為其他農產品的品種鑒別提供有益的參考。