張付杰,史 磊,李麗霞,趙浩然,朱銀龍
昆明理工大學現(xiàn)代農(nóng)業(yè)工程學院,云南 昆明 650500
三七為五加科植物三七Panaxnotoginseng(Burk.)F.H.Chen的干燥根和根莖,含有許多營養(yǎng)成分,如皂苷、 黃酮、 氨基酸、 多糖和許多其他微量元素[1]。 三七粉是三七的主要消費和商品形式,不同質(zhì)量等級的三七粉用肉眼很難分辨,外加市場上不同質(zhì)量等級的三七粉價格差異較大,因此對三七粉進行質(zhì)量等級鑒別具有十分重要的意義。
現(xiàn)在常用的三七粉質(zhì)量等級鑒別方法為人工檢測。 但人工檢測需要檢測人員有過硬的技術(shù)和豐富的經(jīng)驗,不具備普適性。 隨著檢測技術(shù)的進步,高效液相色譜、 近紅外光譜等技術(shù)能夠用于三七粉質(zhì)量等級鑒定。 Meng[2]等利用高效液相色譜與化學模式識別相結(jié)合的方法對三七進行分類,可以清晰地區(qū)分“春七”和“冬七”。 Li[3]等利用高效液相色譜法結(jié)合PCA-MD成功鑒別了三七粉的真?zhèn)涡浴?Yang[4]等將近紅外光譜和紅外光譜數(shù)據(jù)融合并建立PSO-SVM模型對摻假物比例不同的三七粉進行分類,分類正確率分別達到了96.65%和96.97%。 Zhou[5]等人利用多傳感器紅外光譜結(jié)合高層次多傳感器信息融合策略的RF-Bo模型對不同產(chǎn)地的三七進行分類,分類正確率達到了95.6%。 但高效液相色譜檢測試驗成本高、 周期長,而且具有破壞性。 近紅外光譜技術(shù)不能提供目標圖像上每個像素的光譜細節(jié),檢測精度不夠高。 因此需要尋找一種更高準確率、 更高效率的無損檢測方法來實現(xiàn)三七粉質(zhì)量等級的鑒別。
高光譜成像將光譜技術(shù)和成像技術(shù)相結(jié)合,不僅可以反映樣本的外部特征,還可以反映樣本內(nèi)部生化信息[6],已經(jīng)廣泛應用于農(nóng)產(chǎn)品檢測領(lǐng)域。 孫婷[7]等利用高光譜成像將光譜和圖像信息結(jié)合并構(gòu)建SVM模型對11類釀酒高粱進行分類,準確率達到了91.8%; 孫俊[8]等利用高光譜成像結(jié)合GA-PNN神經(jīng)網(wǎng)絡對江蘇、 安徽、 山東三個品種的紅豆進行鑒別,識別準確率達到了97.5%; Wang[9]利用高光譜圖像對不同成熟的玉米種子進行分類,從胚乳側(cè)選擇特征波長結(jié)合PLS-DA,準確率達到了100%; Weng[10]等利用高光譜成像結(jié)合主成分分析網(wǎng)絡對水稻品種進行分類,準確率達到了98.57%; Jennifer Dumont[11]利用高光譜圖像結(jié)合SVM模型成功鑒別了正常的挪威云杉種子、 被Megastigmussp侵染的挪威云杉種子和空殼的挪威云杉種子,準確率達到了93.8%。 但是目前利用高光譜圖像技術(shù)實現(xiàn)三七粉質(zhì)量等級鑒別的研究還鮮有報道。
三七作為中藥材,內(nèi)部藥用成分眾多,而不同成分在光譜中的吸收波段不同。 相關(guān)研究表明,多糖在可見光光譜范圍內(nèi)存在吸收波段,皂苷和水分在近紅外光譜范圍內(nèi)存在吸收波段。 不同質(zhì)量等級的三七粉內(nèi)在成分含量比例不同[12],在可見光光譜和近紅外光譜范圍內(nèi)具有不同的光譜特征,因此本研究基于高光譜成像技術(shù)對三七粉進行質(zhì)量等級鑒別研究。 本研究以四種不同質(zhì)量等級的三七粉作為研究對象,基于不同預處理算法、 特征選擇算法對三七粉的高光譜數(shù)據(jù)進行處理,并建立分類模型,以實現(xiàn)三七粉質(zhì)量等級的無損鑒別。
選擇來自云南文山的30頭、 40頭、 60頭、 80頭的三七,將不同頭數(shù)的三七主根研磨成粉,制備樣本,根據(jù)三七主根的頭數(shù)把三七粉分為4個質(zhì)量等級。 每個樣本稱量20 g,總共制備了384個三七粉試驗樣本(每個質(zhì)量等級96個)。 將所有樣本按2∶1的比例劃分訓練集和測試集,其中訓練集256個樣品,測試集有128樣品。 4個質(zhì)量等級的三七粉如圖1所示,不同質(zhì)量等級的三七粉存在一定的差異,但難以用肉眼判別。
圖1 四種質(zhì)量等級的三七粉Fig.1 Four quality grades of panax notoginseng powder
高光譜成像系統(tǒng)是由高光譜圖像攝影儀(VNIP-HIS-s MOS)、 鹵素燈光源(UBer LED100型,IT,USA)、 分光模具(V10E型,SPECIM,F(xiàn)inland)、 光纖和電控平移臺等組成。 高光譜圖像攝影儀是由CCD相機(Zyla4.2型,Andor,UTKL)、 光譜儀等組成,光譜范圍為400.68~1 001.61 nm,光譜分辨率為2.8 nm,圖像分辨率為1 024×478像素。 使用的高光譜圖像采集系統(tǒng)的主要結(jié)構(gòu)如圖2所示。
圖2 高光譜成像系統(tǒng)結(jié)構(gòu)圖Fig.2 Diagram of hyperspectral imaging system
在試驗前對高光譜成像系統(tǒng)進行20 min的預熱和黑白板標定。 黑白板標定可以減小暗電流噪聲和光源強度分布不均勻?qū)υ囼炘斐傻挠绊?,白板的反射?00%,蓋上CCD相機鏡頭獲得反射率為0%的黑板環(huán)境。 白板環(huán)境下,設(shè)定高光譜圖像相機的曝光時間為7 ms; 黑板環(huán)境下,設(shè)定高光譜圖像相機的曝光時間為17 ms; 設(shè)定平移臺的速度為1.99 mm·s-1。 依次采集四種不同質(zhì)量等級的三七粉樣本的高光譜圖像。
采用“矩形區(qū)域法”在每個高光譜圖像中手動選擇60×60像素的正方形作為感興趣區(qū)域(region of interest,ROI),然后將ROI中像素的平均值作為每個樣本的光譜值。
在客觀環(huán)境下難以避免噪聲的干擾,高光譜成像器械難以避免發(fā)生基線漂移[13]。 為了減少它們對試驗結(jié)果的影響,需要對高光譜數(shù)據(jù)進行預處理。 采用卷積平滑(savitzky-golay,SG)、 多元散射校正(multiplication scatter correction,MSC)和標準正態(tài)變量變換(standard normalized variable,SNV)[14]這3種方法分別對高光譜數(shù)據(jù)進行預處理,并對比其效果,選出最優(yōu)的預處理方法。
預處理后的光譜數(shù)據(jù)分布在高維空間,但有些維度與建模無關(guān)。 為了減少光譜數(shù)據(jù)中一些無用的維數(shù),采用特征選擇的方法對光譜數(shù)據(jù)進行降維。 采用迭代保留信息變量(iteratively retains informative variables,IRIV)[15]、 變量組合集群分析(variable combination population analysis,VCPA)[16]和變量組合集群分析混合迭代保留信息變量(variables combination population analysis and iterative retained information variable,VCPA-IRIV)[17]分別從全光譜數(shù)據(jù)中提取特征波長變量。
1.6.1 支持向量機
支持向量機(support vector machine,SVM)是一種高維信息處理的重要工具。 SVM以其良好的泛化能力在光譜數(shù)據(jù)的分類中得到了廣泛的應用。 相關(guān)研究表明,懲罰因子c和核參數(shù)g的選擇對SVM的性能起著至關(guān)重要的作用。 因此,有必要對SVM的參數(shù)進行優(yōu)化來提升分類效果[18]。
1.6.2 引力搜索算法優(yōu)化支持向量機
引力搜索算法(gravitational search algorithm,GSA)是一種種群優(yōu)化算法。 用GSA對SVM的參數(shù)c和g進行尋優(yōu),具體流程如下[19]:
(1)對參數(shù)進行初始化: 隨機產(chǎn)生質(zhì)點位置的數(shù)目(群體規(guī)模)和最大迭代次數(shù);
(2)設(shè)置質(zhì)點的移動范圍(參數(shù)c和g的搜索范圍);
(3)設(shè)置樣品訓練集的交叉驗證數(shù),并通過計算粒子的適應度值確定最優(yōu)質(zhì)點;
(4)計算質(zhì)點質(zhì)量、 質(zhì)點在各維數(shù)上的加速度,對質(zhì)點進行位置更新;
(5)重復步驟(3)—(4),當達到最大迭代次數(shù)時,迭代停止,獲得最佳的(c,g);
(6)將參數(shù)的最優(yōu)值代入SVM模型中進行預測。
使用五鈴光學公司高光譜成像系統(tǒng)HSI Analyzer軟件進行圖像校正和感興趣區(qū)域提取,使用The Unscrambler X 10.4軟件進行預處理,使用Matlab 2016a軟件進行特征選擇和數(shù)據(jù)建模。
高光譜數(shù)據(jù)容易受噪聲和儀器的干擾,可能會影響后續(xù)建模的精度,因此對高光譜數(shù)據(jù)進行預處理。 原始光譜與SG,MSC和SNV預處理后的光譜如圖3所示。 觀察圖3(a)可以發(fā)現(xiàn),在采集開始時樣本數(shù)據(jù)受噪聲的影響較大。 對比圖3(a)和圖3(b)可以發(fā)現(xiàn),SG預處理后的光譜曲線比原始光譜曲線更平滑。 對比圖3(a)和圖3(c)可以發(fā)現(xiàn),MSC預處理使各高光譜曲線間差距變小,表明MSC預處理對光譜采
圖3 (a)原始光譜; (b)SG預處理后光譜; (c)MSC預處理后光譜; (d)SNV預處理后光譜Fig.3 (a) Original spectra; (b) Spectra after SG pretreatment; (c) Spectra after MSC pretreatment;(d) Spectra after SNV pretreatment
集過程中因散射現(xiàn)象等引起的光譜誤差起到了校正作用。 觀察圖3(d)可以發(fā)現(xiàn),SNV預處理效果與MSC相似,對光譜采集過程中因散射現(xiàn)象等引起的光譜誤差起到了校正作用,但SNV預處理的實質(zhì)是對高光譜數(shù)據(jù)的標準正態(tài)化。
為了選擇最優(yōu)的預處理方法,采用SVM對預處理后的高光譜數(shù)據(jù)進行建模,核函數(shù)選擇徑向基核函數(shù),設(shè)置參數(shù)c和g為默認值,SVM建模結(jié)果如表1所示。 通過三種預處理方法對三七粉原始光譜的處理對比分析,發(fā)現(xiàn)SNV預處理后的光譜具有最優(yōu)的三七粉質(zhì)量等級的預測能力。
表1 不同預處理方法SVM建模結(jié)果Table 1 SVM modeling results of differentpretreatment methods
2.2.1 迭代保留信息變量
在IRIV特征選擇的過程中,采用5折交叉驗證的方法建立了偏最小二乘(PLS)模型。 然后以交互驗證均方根誤差(RMSECV)作為評價指標來選擇特征波長。 在每次迭代中,剔除一些不相關(guān)和干擾的波長變量,保留特征波長變量。 從圖4中可以看出,在第6次迭代之前,變量數(shù)量迅速減少,從478個減少到69個。 第10次迭代后,完全剔除了無信息變量和干擾信息變量。 最終,反向消除后保留了30個有效波長,分布在圖5的平均光譜上。
圖4 IRIV選擇的過程Fig.4 Process of IRIV selection
2.2.2 變量組合集群分析
在VCPA特征選擇的過程中,指數(shù)遞減函數(shù)(EDF)和二進制矩陣采樣(BMS)運行次數(shù)分別設(shè)置為50次和1 000次,BMS初始采樣權(quán)值設(shè)置為0.5,最優(yōu)子集的比例設(shè)置為10%,EDF運行后剩余變量數(shù)設(shè)置為14,采用5折交叉驗證的方法建立PLS模型,計算所有子集的RMSECV,以RMSECV作為評價指標篩選出最優(yōu)子集; 利用EDF剔除子集中貢獻率較低的變量。 迭代50次,剩余14個變量。 最后,計算這14個變量之間所有變量組合的RMSECV,提取RMSECV最小的變量組合。 最終選擇了11個特征波長,分布在圖6的平均光譜上。
圖5 IRIV所選擇的波長Fig.5 Wavelength selected by IRIV
圖6 VCPA所選擇的波長Fig.6 Wavelength selected by VCPA
2.2.3 變量組合集群分析混合迭代保留信息變量
VCPA-IRIV將VCPA與IRIV相結(jié)合,先通過VCPA縮小變量空間,再通過IRIV進一步優(yōu)化剩余的變量。 與VCPA和IRIV相比,VCPA-IRIV消除了VCPA中最差子集對特征選擇的不利影響; VCPA-IRIV通過EDF消除貢獻小的變量,剩余的變量相對集中且優(yōu)化,使得IRIV更容易、 更好的選擇最優(yōu)變量子集。 在VCPA-IRIV特征選擇過程中,設(shè)置EDF運行后剩余變量數(shù)為100,其余參數(shù)與2.2.2節(jié)中相同。 首先進行VCPA,利用PLS計算所有子集的RMSECV,篩選出100個最優(yōu)子集,再利用EDF剔除100個子集中貢獻較低的變量,迭代50次,剩下100個變量。 再對這100個變量進行IRIV,剔除不相關(guān)和干擾的波長變量,經(jīng)多次迭代直至完全剔除了無信息變量和干擾信息變量。 最終選擇了18個特征波長,分布在圖7的平均光譜上。
圖7 VCPA-IRIV所選擇的波長Fig.7 Wavelength selected by VCPA-IRIV
建模試驗由2個部分組成,第一,基于全光譜數(shù)據(jù)建立SVM模型。 第二,基于3種特征波長數(shù)據(jù)建立SVM模型。 SVM模型參數(shù)同2.1節(jié)中相同,試驗結(jié)果如表2所示。
表2 基于全光譜和特征光譜的SVM建模結(jié)果Table 2 SVM modeling results based on fullspectral data and feature wavelengths
觀察表2可以發(fā)現(xiàn),基于全光譜和特征光譜建立的SVM分類模型均取得了較好的效果,這3種特征選擇方法均保存了三七粉的有效信息。 對圖5、 圖6和圖7進行對比分析,IRIV提取的特征波長集中在415.985~986.13 nm范圍內(nèi),部分波長在受噪聲影響區(qū)域內(nèi); VCPA提取的特征波長集中在510.85~689.636 nm范圍內(nèi),忽視了近紅外光譜區(qū)域的有效信息; VCPA-IRIV提取的特征波長分布在476.838~995.163 nm范圍內(nèi),保存了三七粉在可見光光譜和近紅外光譜區(qū)域內(nèi)的有效信息,也沒有受到噪聲的影響,SVM模型的分類準確率最高。 因此認為VCPA-IRIV是最優(yōu)的特征選擇方法。 在模型復雜度方面,VCPA-IRIV算法簡化了模型,降低了計算復雜度。 在建模精度方面,VCPA-IRIV-SVM模型的測試集分類準確率與全光譜SVM模型測試集分類準確率相同。 由于參數(shù)c和g的選擇對SVM的分類精度起著重要的作用,因此引入智能優(yōu)化算法GSA對SVM中參數(shù)c和g進行尋優(yōu),并與網(wǎng)格搜索(grid search,GS)的結(jié)果進行比較。
在GSA中,參數(shù)c和g的搜索范圍分別設(shè)置為[0.01, 100]和[0. 1, 10],最大迭代次數(shù)設(shè)置為100,群體規(guī)模設(shè)置為20。 在GS中,參數(shù)c和g的搜索范圍均設(shè)置為[2-8, 28],兩種優(yōu)化算法均采用5折交叉驗證方式。 建模結(jié)果如表3所示。
表3 基于VCPA-IRIV特征選擇方法的GSA-SVM 和GS-SVM建模結(jié)果Table 3 GSA-SVM and GS-SVM modeling resultsbased on VCPA-IRIV
GS具有更快的收斂速度,但由于搜索點固定,也錯過了最優(yōu)解,因此分類準確率低于GSA。 相比之下,VCPA-IRIV-GSA-SVM模型性能最好,訓練集和測試集的分類準確率均達到了100%,最終選擇VCPA-IRIV-GSA-SVM模型作為三七粉質(zhì)量等級的分級模型。
市場上三七粉以次充好現(xiàn)象嚴重,為了保證三七粉質(zhì)量,基于高光譜成像技術(shù)對不同質(zhì)量等級的三七粉進行無損鑒別。 首先,采集樣本的高光譜圖像,通過選擇ROI得到60×60像素的光譜信息,然后分別用SG,MSC和SNV對光譜數(shù)據(jù)進行預處理,反映三七粉質(zhì)量等級有效信息的特征波長分別由IRIV,VCPA和VCPA-IRIV提取。 然后分別建立基于全光譜和特征光譜的SVM模型,并引入GSA和GS對SVM模型中的c和g進行優(yōu)化。 結(jié)果表明:
(1)分別建立基于SG,MSC和SNV的分類模型并進行比較。 結(jié)果表明,適當?shù)念A處理方法(SNV)可以使模型具有良好的性能。
(2)分別建立IRIV-SVM,VCPA-SVM,VCPA-IRIV-SVM和全光譜的SVM模型,并進行比較。 結(jié)果表明,適當?shù)奶卣鬟x擇方法(VCPA-IRIV)可以在降低模型復雜度的情況下保持模型的性能。
(3)引入GSA和GS對SVM模型中的c和g進行優(yōu)化,以模型的測試集分類準確率作為評價指標。 VCPA-IRIV-GSA-SVM分類模型性能最優(yōu),訓練集和測試集分類準確率均達到了100%,因此將GSA作為優(yōu)化原模型的智能算法。
綜上,利用可見近紅外高光譜成像技術(shù)對三七粉進行質(zhì)量等級鑒別是可行的,該方法為市場上三七粉的質(zhì)量等級鑒別提供了參考。