趙 凡,閆昭如,薛建新,徐 兵
山西農(nóng)業(yè)大學(xué)工學(xué)院,山西 太谷 030801
黑枸杞有 “花青素之王”美譽。它具有抗衰老、降血脂、防癌等功效[1-2]。野生黑枸杞生長在野外,生長周期長、光照充足、無重金屬和農(nóng)藥殘留等問題,而且產(chǎn)量遠(yuǎn)遠(yuǎn)低于種植黑枸杞,所以野生黑枸杞更加珍貴。野生黑枸杞市場價格遠(yuǎn)遠(yuǎn)高于種植黑枸杞,故一些不法商家用種植黑枸杞冒充野生黑枸杞來欺騙消費。識別野生黑枸杞已成為黑枸杞市場急需解決的關(guān)鍵問題。
高光譜圖像技術(shù)具有無損、高效、非接觸等優(yōu)勢[3]。它在農(nóng)產(chǎn)品檢測及識別方面具有非常廣泛的應(yīng)用前景[4]。Liu等[5]對帶真菌和瘀傷的草莓進行識別; Dong等[6]利用高光譜圖像對不同濃度的獼猴桃膨大果進行識別; 鮑一丹等[7]利用光譜圖像對國產(chǎn)咖啡豆品種識別。目前尚未見用高光譜圖像識別野生黑枸杞的報道。
為研究高光譜圖像識別野生黑枸杞,本研究以野生和種植黑枸杞為研究對象,建立支持向量機(support vector machine, SVM)、極限學(xué)習(xí)機(extreme learning machine, ELM)和隨機森林(random forest, RF)識別模型,并采用連續(xù)投影法(successive projections algorithm, SPA)提取特征波長,比較全光譜(FS)和連續(xù)投影算法對模型精度的影響。
實驗用野生和種植黑枸杞均由青海千拓貿(mào)易有限公司提供,原產(chǎn)地為青海。黑枸杞根據(jù)顆粒大小分為特級(0.6 cm以上)、高級(0.5~0.6 cm)、中級((0.4~0.5 cm)三級,選用顆粒在0.4~0.5 cm范圍的中級野生和種植黑枸杞作為實驗材料。野生黑枸杞如圖1(a)所示。為防止實驗受到影響,將所有黑枸杞去除果柄和雜質(zhì)。去除果柄野生黑枸杞如圖1(b)所示。每(5±0.1)g黑枸杞作為一份樣品。野生和種植黑枸杞樣品數(shù)分別均為128份,總樣品數(shù)為256份。
高光譜圖像系統(tǒng): GaiaSorter“蓋亞”高光譜分選儀北京漢光卓立公司; 4個35 W溴鎢燈、電控平臺; 物鏡以及計算機等部件。圖像光譜范圍: 900~1 700 nm; 光譜分辨率: 3.19 nm; 曝光時間: 10 ms; 物距: 20 cm; 圖像采集速率: 7.2 mm·s-1。
圖1(a) 野生黑枸杞Fig.1(a) Wild black Goji berries
圖1(b) 去除果柄后的野生黑枸杞Fig.1(b) Wild black Goji berries after removing the stalks
儀器箱體內(nèi)存在暗電流、光源分布不均勻,這些因素會使采集到的高光譜圖像含有較大噪音,故需對高光譜圖像進行黑白校正[8-9]。公式如式(1)
R/%=(R0-B)/(W-B)×100%
(1)
式(1)中:R0為反射光譜圖像;W為白板漫反射圖像;B為暗圖像;R為校正后漫反射光譜圖像。
利用ENVI4.8軟件建立掩膜提取高光譜圖像。選取第140波段處的圖像進行閾值分割,當(dāng)閾值為0.18時,能夠提取完整的黑枸杞圖像,因此設(shè)定閾值為0.18進行圖像提取。將黑枸杞圖像區(qū)域的平均光譜作為此黑枸杞單個樣品的反射光譜。
采用標(biāo)準(zhǔn)正態(tài)變換(standardized normal variate, SNV)進行光譜預(yù)處理。采用Kennard-Stone(K-S)法劃分樣品; K-S算法已經(jīng)被證明在選擇代表性樣品方面的具有很好的效果。采用SPA法對光譜降維從而簡化模型; SPA法可以在高光譜龐大復(fù)雜的數(shù)據(jù)中去除冗雜數(shù)據(jù)、提取特征波長數(shù)據(jù)[10]。
1.5.1 SVM模型
SVM是將向量映射到更高維空間,構(gòu)建最大間隔的超平面,剪力合適的分隔超平面,使兩個與之平行的超平面距離最大化,從而來解決復(fù)雜數(shù)據(jù)的分類和回歸問題[11]。
1.5.2 ELM模型
ELM是由南洋理工大學(xué)黃廣斌教授提出的一種有效單隱含層前饋神經(jīng)網(wǎng)絡(luò)算法,它學(xué)習(xí)速度快、泛化能力好[12]。
1.5.3 RF模型
RF是一種用多棵樹對樣品進行訓(xùn)練并預(yù)測的分類器。它包含多個決策樹算法,具有數(shù)據(jù)選擇隨機性。RF具有實現(xiàn)簡單、能處理高維數(shù)據(jù)、避免過擬合等優(yōu)勢[13]。
野生和種植黑枸杞樣品各128份。圖2所示是野生和種植黑枸杞樣品平均反射光譜,共254個波段。由圖2可知,2條平均反射光譜變化趨勢一致,其中,波長1 000~1 350 nm范圍內(nèi),野生黑枸杞光譜反射率明顯高于種植黑枸杞; 在波長1 500~1 650 nm范圍內(nèi),種植黑枸杞光譜反射率略高于野生黑枸杞。這兩條光譜反射曲線都有2個明顯的波谷,即在波長1 235和1 350~1 650 nm處均有明顯吸收峰。而雷建剛等在近紅外對不同產(chǎn)地枸杞優(yōu)化論文中也提到枸杞在1 235和1 535 nm處均有明顯吸收峰[14]。
圖2 野生和種植黑枸杞的原始平均光譜Fig.2 Average reflectance spectra of wild and cultivated black Goji berries
對所有樣品光譜進行SNV預(yù)處理。對經(jīng)SNV后的光譜樣品進行樣品劃分,按照校正集和預(yù)測集樣品數(shù)為2∶1的比例,用K∑S法劃分256份樣品,得到校正集170個(野生和種植黑枸杞各85份)。預(yù)測集86個(野生和種植黑枸杞各43份)。
設(shè)定SPA選擇最多波長數(shù)為50,用均方根誤差確定最佳特征波常數(shù),均方根誤差隨特征波長數(shù)變化曲線如圖3所示。選取最佳特征波長數(shù)為30。
分別將全光譜254個波段、經(jīng)SPA提取的30個特征波長作為輸入變量,建立SVM,ELM和RF野生黑枸杞和種植黑枸杞識別模型。圖4—圖6是三種模型對黑枸杞的識別結(jié)果; 每個圖縱坐標(biāo)中,1.0代表野生黑枸杞,2.0代表種植黑枸杞。 2.3.1 SVM模型
在SVM中,采用RBF(radial base function)作為核函數(shù),通過留一交叉驗證方法(cross validation, CV)尋找最佳懲罰因子(c)、核函數(shù)參數(shù) (g),基于FS和SPA不同模型確定的c和g見表1。SVM模型對野生黑枸杞和種植黑枸杞識別結(jié)果如圖4所示。
圖3 均方根誤差隨SPA中特征波長數(shù)變化曲線Fig.3 Changed RMSE with the number of characteristic wavelength in SPA
表1 SVM模型參數(shù)Table 1 Parameters of SVM
圖4 SVM黑枸杞識別結(jié)果Fig.4 Identification results of black Goji berries by SVM
由圖4可知,F(xiàn)S-SVM校正集和預(yù)測集平均識別率均為100%。SPA-SVM校正集中,有1份種植黑枸杞識別錯誤,野生、種植黑枸杞識別率分別為100%和98.8%; 所以SPA-SVM校正集平均識別率為99.4%。SPA-SVM預(yù)測集平均識別率為100%。FS-SVM模型識別率均整體略優(yōu)于SPA-SVM模型。 2.3.2 ELM模型
在ELM模型中,采用“sigmoidal”函數(shù)作為激活函數(shù),設(shè)置隱含層神經(jīng)元個數(shù)為1~100,步長為1,確定FS和SPA的隱含層神經(jīng)元個數(shù)為10和7。ELM模型對野生黑枸杞和種植黑枸杞識別結(jié)果如圖5所示。
圖5 ELM模型黑枸杞識別結(jié)果Fig.5 Identification results of black Goji berries by ELM
圖6 RF黑枸杞識別結(jié)果Fig.6 Identification results of black Goji berries by RF
由圖5可知,F(xiàn)S-ELM校正集中,有1份野生黑枸杞識別錯誤,野生和種植黑枸杞識別率分別為98.8%和100%; FS-ELM校正集平均識別率為99.4%。FS-ELM預(yù)測集識別率均為100%。SPA-ELM校正集中,有1份野生黑枸杞識別錯誤,野生、種植黑枸杞分別為98.8%和100%; SPA-ELM校正集平均識別率均為99.4%。SPA-ELM預(yù)測集中,有1份野生黑枸杞識別錯誤,野生、種植黑枸杞識別率分別為97.7%和100%; SPA-ELM預(yù)測集平均識別率為98.8%。整體來說,F(xiàn)S-ELM模型識別率略高于SPA-ELM模型。 2.3.3 RF模型
建立隨機森林識別模型,樹的數(shù)目為500。RF模型結(jié)果見圖6。由圖6可知,F(xiàn)S-RF和SPA-RF的校正集和預(yù)測集識別率全部達(dá)到了100%。這說明FS-RF和SPA-RF模型可完全識別野生和種植黑枸杞。
FS-SVM和FS-RF,SPA-RF模型對校正集和預(yù)測集識別率都達(dá)到了100%。SVM模型識別率整體優(yōu)于ELM模型,而RF模型識別率是三種模型中最高,達(dá)到100%。所以RF模型是最優(yōu)識別模型。
(1)識別野生黑枸杞模型中,基于FS和SPA建立的SVM,ELM和RF模型校正集識別率高于98.8%,基于全光譜和SPA建立的SVM,ELM和RF模型預(yù)測集識別率高于97.7%。
(2)基于FS建立的模型識別效果最好,基于SPA建立的模型識別效果略低于FS建立的模型。但從簡化模型方面,SPA提取的特征波常數(shù)僅為FS的11.8%,大大降低了模型運算量。
(3)RF識別模型最優(yōu),野生黑枸杞識別率均達(dá)到了100%。