黃凌霞,金航峰,金佩華
(1.浙江大學動物科學學院,浙江杭州310058;2.浙江農林大學,浙江 杭州 ,311300)
基于可見—近紅外光譜的蠶繭含水率無損檢測研究
黃凌霞1,金航峰2,金佩華2
(1.浙江大學動物科學學院,浙江杭州310058;2.浙江農林大學,浙江 杭州 ,311300)
以蠶繭含水率為研究對象,研究了基于可見—近紅外光譜技術的蠶繭含水率無損檢測方法。采用最小二乘支持向量機(least square-support vector machine,LS-SVM)建立可見—近紅外光譜模型,采用連續(xù)投影算法(successive projections algorithm,SPA)選取光譜有效波長。結果表明,基于SPA方法進行變量選擇,最終將原始光譜的601個光譜變量減少到了11個(487,501,616,718,771,782,789,826,966,977和991nm)?;诖?1個變量建立的LS-SVM模型得到了預測集的確定系數(shù)(RP2)為0.8517,誤差均方根(RMSEP)為0.0504的預測結果。表明可見—近紅外光譜可以用于對蠶繭的含水率進行無損檢測,同時SPA是一種有效的光譜變量選擇方法。
近紅外光譜;無損檢測;模型分析;蠶繭含水率;連續(xù)投影算法(SPA)
蠶繭含水率(moisture content of cocoon)是蠶繭品質檢測分級最基本的指標。蠶繭含水率的高低,取決于蔟中環(huán)境條件、大氣相對濕度、溫度、鮮繭采摘時間、運送、包裝方式等多種因素,其中尤以蔟中環(huán)境條件為關鍵因素。蔟中高溫多濕或低溫多濕,都會使絲膠分子結構由無規(guī)卷曲向月化轉變,增加膠著點、膠著面及膠著力,導致繭絲離解困難、解舒惡化[1]。目前,中國在蠶繭收購中規(guī)定采用干殼量法檢驗鮮繭。但該方法復雜且耗時,并需要剖繭測量,而削口繭成為繅絲工業(yè)中的次下繭,造成很大浪費。而常用的手感目測法卻易受評定者的個人經驗影響,測試精度低。由于傳統(tǒng)的蠶繭質量檢測技術制約了中國蠶絲行業(yè)質量和效益的提高,因而迫切需要尋求一種快速、準確、無損檢測蠶繭含水率的方法。
可見—近紅外光譜(visible and near infrared spectroscopy,Vis-NIRS)分析技術,是一種低成本、無污染的分析技術,操作簡便,測定速度快[2],被廣泛應用于食品、農業(yè)等領域[3~6]。在農產品含水率檢測方面,李曉麗等曾用基于漫反射的可見—近紅外光譜技術檢測初制綠茶的含水率,結果表明該技術可以對加工過程中綠茶的含水率進行無損、快速的測量,為制茶生產線上茶葉水分的在線、實時檢測提供了理論依據(jù)[7]。劉潔等曾對基于近紅外光譜的板栗水分檢測方法進行了研究,研究顯示用近紅外光譜分析技術檢測栗仁和帶殼板栗含水率具有可行性[8]。在蠶業(yè)方面目前主要應用于家蠶品種和性別的鑒別[9~10],但是還未見將可見—近紅外光譜技術用于蠶繭含水率檢測的研究報道。
本研究采用可見—近紅外光譜技術對蠶繭含水率進行檢測。通過比較不同的光譜數(shù)據(jù)預處理方法,選擇出最優(yōu)的預處理方法。并進一步采用連續(xù)投影算法(successive projections algorithm,SPA)[11~12],提取有效波長(effective wavelength,EW)輸入最小二乘支持向量機(least square-support vector machine,LS-SVM)[13],建立光譜檢測模型。為實現(xiàn)蠶繭質量的快速、無損檢測和分級提供依據(jù)。
1.1 儀器設備和樣品來源
試驗使用美國ASD(Analytical Spectral Device)公司的Handheld FieldSpec光譜儀,其光譜測定范圍325~1075 nm,探頭視場角為20°。光源是與光譜儀配套的14.5 V鹵素燈。分析軟件為UnscrambleV9.6以及MATLAB7.6。
試驗選取2012年春季(5~6月)浙江省湖州市生產的明豐×春玉、秋豐×白玉、白玉×秋豐和廣西生產的7532·湘暉×932·芙蓉5個品種的鮮繭。在供試蠶五齡上蔟期間,按照不同的溫度和濕度進行處理,在上蔟后第5日采鮮繭。在光譜測量前,在實驗室25℃恒溫條件下先避光貯藏5 h。
1.2 光譜數(shù)據(jù)采集
將外觀正常的鮮繭剝去繭衣后,采用反射模式采集可見—近紅外光譜。光譜儀垂直放置于距離樣本表面9 cm處。光源與水平位置成45°。光譜掃描穩(wěn)定后進行光譜數(shù)據(jù)的采集,掃描20次取平均。每個品種采集120個樣本,共600個樣本。樣本隨機分成定標集和預測集,建模集包含400個樣本,每個品種80個,預測集包含200個樣本,每個品種40個。同時對蠶繭進行編號。
1.3 按國標法(GB/T19113-2003)測量蠶繭含水率(對照用)
完成光譜數(shù)據(jù)采集后,將鮮繭削開一個小口,倒出蠶蛹后稱重。用電子天平稱得每個鮮繭繭殼的質量G0,將稱量后的繭殼放入100℃烘箱內干燥,6 h后取出,迅速用電子天平測得烘干后繭殼的質量G1。
繭層含水率的定義為鮮繭繭層所含水分質量占鮮繭繭層質量的百分率,根據(jù)定義得到繭層含水率的計算公式為:1.4光譜數(shù)據(jù)預處理
由于光譜數(shù)據(jù)在采集范圍的首端與末端產生了部分噪音,于是取400~1000 nm波段共601個變量的光譜數(shù)據(jù)進行分析。為了去除來自高頻隨機噪音、基線漂移、樣本不均勻、光散射等影響,將光譜數(shù)據(jù)轉換成吸光度值后,需要對光譜進行預處理。本文采用的預處理方法包括Savitzky-Golay(SG)平滑法和變量標準化(standard normal variate,SNV)。
1.5 連續(xù)投影算法
SPA的算法簡要介紹如下[15]:
記xk(0)為初始迭代向量,N為需要提取的變量個數(shù)。光譜矩陣為j列:
(1)迭代開始前,任選光譜矩陣的1列j,把建模集的第j列賦值給xj,記為xk(0);
(2)把未選入的列向量位置的集合記為s,s={j,1≤j≤J,j?{k(0),…,k(n-1)}};
(3)分別計算xj對剩下列向量的投影:
最后,提取出的變量為{xk(n)=0,……,N-1}。對應于每一個k(0)和N,循環(huán)一次后進行多元線性回歸分析(MLR),得到驗證集的預測標準偏差(RMSEV),由最小的RMSEV值對應的k(0)和N就是最優(yōu)值。1.6建模方法及模型評估
最小二乘支持向量機(least square-support vectormachine,LS-SVM)是一種建模方法,以求解一組線性方程代替經典SVM中復雜的二次優(yōu)化問題,降低了計算的復雜性,加快了計算的速度,是解決“維數(shù)災”和“過學習”的有效工具之一,已在光譜分析領域得到應用。LS-SVM算法中的結構風險最小化能夠提高其泛化能力,從而能夠較好地解決小樣本、非線性、高維數(shù)、局部極小等問題,因此LS-SVM成為解決“維數(shù)災”和“過學習”等傳統(tǒng)難題的一種有力手段。其采用非線性映射函數(shù)φ(·),將輸入變量映射到高維特征空間,從而將優(yōu)化問題改成等式約束條件。利用拉格朗日乘子對各個變量求偏微分,得到最優(yōu)解。
在對模型的建模效果進行評價時,常用的評價指標主要有建模集的決定系數(shù)RC2和建模均方根誤差(rootmean square error for calibration,RMSEC)以及建模集交互驗證的決定系數(shù)RP2和預測均方根誤差(rootmean square error for prediction,RMSEP)。好的模型需要有較高的相關系數(shù)以及較低的均方根誤差。同時,RMSEC和RMSEP間的絕對值越小表示所建立的模型的穩(wěn)定性越好,魯棒性越強。
2.1 光譜數(shù)據(jù)預處理
采用不同光譜預處理方法對全波段光譜進行處理,并建立LS-SVM模型(表1)。從結果中可以看到平滑處理過后所建立的模型比不采用預處理的模型效果要差。同樣僅采用SNV進行預處理所建立的模型比將平滑和SNV相結合的預處理所建立的模型效果要好。同時經過SNV預處理后的模型效果比原始光譜所建立的模型效果要好。因此在下文均采用SNV進行光譜預處理。
2.2 基于SPA的全波段有效波長選取
從表1中可以看出采用全波段建立的模型得到了較好的預測結果。其中預測集的確定系數(shù)達到了0.9以上。說明可見—近紅外光譜技術能夠應用于蠶繭含水率的快速、無損檢測。然而采用全波段建立的LS-SVM模型有601個輸入變量。大量的輸入變量會增加計算量。為此采用SPA算法對全波段光譜共601個變量進行有效波長選擇。
圖1顯示了基于不同變量個數(shù)的驗證標準偏差(RMSEV)值的變化情況??梢钥吹阶兞總€數(shù)從2個到6個時RMSEV下降較快。當變量個數(shù)為11時,RMSEV值趨于穩(wěn)定,為0.0541。
通過SPA提取的11個波長分別為487,501,616,718,771,782,789,826,966,977和991 nm。SPA得到的波長分布情況如圖2所示。其中黑色的豎線表示選中的波長。可以看到選擇的有效波長在整個可見到近紅外光譜范圍內都有分布。說明在對蠶繭含水率進行檢測時不應僅僅考慮某個范圍的光譜信息。
2.3 基于有效波長的LS-SVM模型預測
將得到的11個變量作為輸入,建立LS-SVM模型,結果如表1所示。從預測結果可以看到,預測集的確定系數(shù)由全波段建模時的0.9043下降到采用SPA進行變量選擇后的0.8517,但降幅不大。同時可以看到,通過SPA進行有效變量選擇,LS-SVM模型所用到的輸入變量個數(shù)由原始光譜的601個減少到了11個,而通過該11個有效變量所建立的模型效果相比全波段光譜的601個變量所建立的模型下降不多。說明得到的這11個有效波長變量可以很好地代替全波段光譜來建立模型。圖3為由SPA得到的11個波長建立的LS-SVM對預測集樣本的預測結果散點分布圖??梢钥吹匠贁?shù)樣本的測量值和預測值發(fā)生一定的偏差外,主要的樣本點都基本分布在回歸線附近。
表1 基于不同光譜預處理方法處理全波段光譜后建立的LS-SVM模型建模和預測結果Table 1 Performance of LS-SVM model based on different preprocessing on all spectra ranges
圖1 連續(xù)投影算法選取的蠶繭含水率波長數(shù)對應的驗證集預測標準偏差Figure 1 RMSEV plot of selected number of the moisture of cocoon variables by SPA
圖2 SNV-SPA選擇的11個蠶繭含水率波長分布圖Figure 2 Plot of 11 selected wavelengths of the moisture of cocoon by SNV-SPA
圖3 SPA選擇的11個波長建立的LS-SVM模型對蠶繭含水率的預測散點分布圖Figure 3 Predicted vs reference values of the moisture of cocoon by LS-SVM model based on eleven effective wavelengths selected by SPA
本文應用可見—近紅外光譜技術對蠶繭含水率進行了檢測。采用連續(xù)投影算法(SPA)進行變量選擇,將原始光譜的601個光譜變量減少到了11個。由SPA選擇的11個變量建立最小二乘支持向量機(LS-SVM)模型,得到了預測集的確定系數(shù)(RP2)為0.8517,誤差均方根(RMSEP)為0.0504的預測結果。表明可見—近紅外光譜可以用于對蠶繭的含水率進行無損檢測,同時SPA是一種有效的光譜變量選擇方法。
[1]吳匡環(huán).鮮繭繭層含水率與解舒率的關系[J].蠶桑通報,1992,23(4):30-31.
[2]陸婉珍.現(xiàn)代近紅外光譜分析技術[M].北京:中國石化出版社,2007.
[3]吳桂芳,黃凌霞,何勇.葡萄漿果糖度可見/近紅外光譜檢測的研究[J].光譜學與光譜分析,2008,28(9):2090-2093.
[4]Antihus H G,Yong H,Annia G P.Non-destructive measurement of acidity,soluble solids and firmness of Satsumamandarin using Vis/NIR-spectroscopy techniques[J]. Journal of Food Engineering,2006,77(2):313-319.
[5]何勇,李曉麗,邵詠妮.基于主成分分析和神經網絡的近紅外光譜蘋果品種鑒別方法研究[J].光譜學與光譜分析,2006,26(5):850-853.
[6]祝詩平.基于PCA與GA的近紅外光譜建模樣品選擇方法[J].農業(yè)工程學報,2008,24(9):126-130.
[7]李曉麗,程術希,何勇.基于漫反射光譜的初制綠茶含水率無損檢測方法[J].農業(yè)工程學報,2010,26(5):195-201.
[8]劉潔,李小昱,李培武等.基于近紅外光譜的板栗水分檢測方法[J].農業(yè)工程學報,2010,26(2):338-341.
[9]黃敏,何勇,黃凌霞等.基于可見一近紅外光譜技術的家蠶蠶種鑒別方法的研究[J].紅外與毫米波學報,2006,25(5):342-344,359.
[10]潘沈元.蠶繭近紅外反射(NIR)光譜的模式識別:II.光譜識別中特征值選取方法的探討[J].生物物理學報,1998,14(2):252-256.
[11]Araújo M C U,Saldanha TC B,Galv?o R K H,et al.Thesuccessive projections algorithm for variable selection in spectroscopic multicomponent analysis[J].Chemometrics and Intelligent Laboratory Systems,2001,57(2):65-73.
[12]Galv?o R K H,Araújo M C U,F(xiàn)ragoso W D,et al.A variable elimination method to improve the parsimony of MLR models using the successive projections algorithm[J].Chemometrics and Intelligent Laboratory Systems,2008,92(1):83-91.
[13]吳迪,曹芳,馮水娟,等.基于支持向量機算法的紅外光譜技術在奶粉蛋白質含量快速檢測中的應用[J].光譜學與光譜分析,2008,28(5):1071-1075.
[14]Centner V,Massart D L,Noord O E,et al.Elim ination of Uninformative Variables for Multivariate Calibration[J]. Analytical Chemistry,1996,68(21):3851-3858.
[15]陳斌,孟祥龍,王豪.連續(xù)投影算法在近紅外光譜校正模型優(yōu)化中的應用[J].分析測試學報,2007,26(1):66-69.
Non-destructive Detection of M oisture Content of Cocoon Based on Visib le and Near Infrared Spectroscopy
HUANG Ling-xia1,JIN Hang-feng2,JIN Pei-hua2
(1.College ofAnimal Sciences,Zhejiang University,Hangzhou 310058,China; 2.Zhejiang A&F University,Hangzhou 311300,China)
Visible and near-infrared reflectance spectroscopy(Vis-NIRS)was applied tomeasuremoisture content of cocoon layer.Least square-support vectormachine(LS-SVM)was used to establish the Vis-NIR model.Successive projections algorithm was combined to select wavelength from Vis-NIR spectroscopy.Eleven wavelength variables,namely 487,501,616,718,771,782,789,826,966,977,and 991 nm,were selected.The SPA-LS-SVM model was established based on these eleven wavelength variables.The results showed that the determination coefficient for prediction set(RP2)was 0.8517,and the rootmean square error for prediction(RMSEP)was 0.0504.It is concluded that Vis-NIRS can be used in themoisture content of cocoon measurement,and SPA is a feasible and efficient algorithm for the spectral variable selection.
near infrared spectroscopy;nondestructive exam ination;model analysis;moisture content of cocoon;successive projections algorithm(SPA)
O657.3,S886.3
A
0258-4069[2013]04-031-05
浙江省自然科學基金資助項目(LY12C17001);高等學校博士學科點專項科研基金資助項目(20100101120084);浙江省公益技術研究農業(yè)項目(2011C22075);農業(yè)科技成果轉化資金項目(2011GB23600008)
黃凌霞(1979-),女,上海崇明人,副研究員,主要從事蠶桑數(shù)字化研究。Email:lxhuang@zju.edu.cn