吳 迪,寧紀鋒,*,劉 旭*,梁 曼,楊蜀秦,張振文
(1.西北農(nóng)林科技大學信息工程學院,陜西 楊凌 712100;2.西北農(nóng)林科技大學葡萄酒學院,陜西 楊凌 712100;3.陜西省葡萄與葡萄酒工程中心,陜西 楊凌 712100;4.西北農(nóng)林科技大學機械與電子工程學院,陜西 楊凌 712100)
花色苷是葡萄與葡萄酒酒中一類重要的酚類化合物,主要存在于葡萄漿果表皮下3~4 層細胞的液泡里[1]。是決定葡萄酒感官質(zhì)量的重要因素,也是紅葡萄酒耐儲存的基礎[2-3]。傳統(tǒng)的化學檢測法會破壞檢測對象,難以實現(xiàn)快速、大樣本量的檢測。而國內(nèi)外針對釀酒葡萄果實中花色苷含量的快速檢測的研究還較少。近年來,高光譜成像技術作為一種無損檢測方法引起了廣泛的關注,與傳統(tǒng)近紅外光譜技術相比,高光譜成像技術顯示出其獨特的優(yōu)越性。使用近紅外光譜技術時,每次僅可以得到某一個或幾個點的光譜信息,在選擇點的位置和數(shù)量方面會有較大的隨機性和片面性。而高光譜圖像技術可以獲取到被分析物的圖像,不僅提供了更加豐富的信息,在光譜數(shù)據(jù)處理方面也提供了更加合理和有效的分析方法[4]。在利用高光譜成像技術結合偏最小二乘(partial least squares,PLS)方法建模的過程中,隨著對PLS 方法研究的深入,發(fā)現(xiàn)通過特定方法篩選特征波長或波長區(qū)間可能會得到更好的定量校正模型[5]。
連續(xù)投影算法(successive projection algorithm,SPA)是一種前向循環(huán)的變量的選擇方法[6],它可以從嚴重重疊的光譜信息中提取有效信息,使光譜變量之間的共線性影響最小化,并改善多元線性回歸模型(multiple linear regression,MLR)的建模條件[7]。SPA-MLR模型比常規(guī)的全光譜偏最小二乘模型更易于解釋和說明,因為PLS模型是通過沒有物理意義的潛變量建立模型,而MLR模型更加依賴于光譜變量的優(yōu)選[6]。由于SPA能夠簡化校正模型和縮短校正時間,在各類樣品的光譜變量選擇中得到越來越多的應用[8-11]。在全波段進行SPA運算,會增加計算量,所以在進行SPA計算之前,可對全光譜波段進行波段預選擇[6,12]或?qū)庾V變量進行無信息變量消除[13-15],以便減少SPA的計算量。除了用于光譜變量的選擇,SPA亦用于確定由主成分分析所得到的主成分的最佳主成分組合[16]。
赤霞珠(Cabernet Sauvignon,CS)是一個廣泛用于釀造紅葡萄酒的葡萄品種。本實驗采用近紅外高光譜圖像獲得赤霞珠果皮的光譜數(shù)據(jù),利用pH示差法測量其花色苷含量,結合光譜預處理方法和現(xiàn)代化學計量學建模方法,建立葡萄果皮中花色苷含量的預測模型,并應用SPA對預測模型進行優(yōu)化,實現(xiàn)紅色釀酒葡萄果皮中花色苷含量的快速無損檢測。
赤霞珠果實,采樣日期為2012年9月上旬,采樣地點為陜西省涇陽縣口鎮(zhèn)。葡萄成熟時從4 個不同產(chǎn)量水平不同植株隨機取下1 500 粒葡萄,以保證樣本具有代表性。每25 粒葡萄作為一個樣本,共計60 個樣本。將樣本隨機分為校正集和檢驗集,其中校正集40 個樣本,檢驗集20 個樣本。
鹽酸、甲醇、氯化鈉、醋酸、醋酸鈉 國藥集團化學試劑有限公司。
ImSpector N17E成像光譜儀 芬蘭Spectral Imaging公司;XEVA2616面陣CCD相機(像素為320×256)比利時XenICs公司;Spectral SENS-V17E軟件 英國Gilden Photonics公司;UV2450紫外-可見分光光度計日本Shimadzu公司;數(shù)據(jù)分析軟件:ENVI4.7(Research system Inc,Boulder,Co.USA)和Matlab2009(The Math Works,Natick,USA)。
1.3.1 樣品高光譜圖像采集
高光譜圖像成像系統(tǒng)由成像光譜儀、面陣CCD相機、鹵鎢燈白光光源、高精度的電控平移臺裝置、計算機等一系列部件組成。其中成像光譜儀采集光譜范圍為900~1 700 nm,光譜分辨率2.8 nm,入射光狹縫寬度為30 μm。將高光譜圖像采集系統(tǒng)的曝光時間設置成10 ms,移動平臺移動速率20 mm/s。每次將25 粒葡萄作為一個樣本放置載物臺上,采集其高光譜圖像。
為了消除光源強度在各波段下分布不均以及攝像頭中暗電流噪聲的影響,需對獲得的圖像進行黑白標定[17]。具體方法為對反射率為99%標準白色校正板進行圖像采集,得到全白的標定圖像Rr,然后擰上鏡頭蓋,關閉光源,采集得到全黑標定圖像Rd。原始的高光譜圖像為Ri,根據(jù)式(1)計算校正后的圖像R[18]。
1.3.2 樣品花色苷含量測定
小心撕取每個樣本(25 粒漿果)的果皮,超純水沖洗干凈后用吸水紙吸干水分,稱質(zhì)量,然后用液氮研磨成粉。利用pH示差法[19]測定花色苷含量。
1.3.3 連續(xù)投影算法
連續(xù)投影算法SPA如下:設矩陣Xn×p,其中n為樣本容量,p為全譜波長數(shù)。N為需要提取的變量個數(shù),N的最大可能取值M=min(n,p)。xk(0)為初始迭代向量:
步驟0:迭代開始前,任選光譜矩陣的一列j,把建模集的第j列賦值給xj,記為xk(0);
步驟1:把未選入的列向量位置的集合記為S,S = {j,1 ≤j≤J,j?{k(0),…,k(n-1)}};
步驟3:記k(n) = argmax(|| Pxj||, j∈S);
步驟4:記xj=Pxj,j∈S;
步驟5:令n = n+1,如果n<N返回步驟1
最后,得到的波長是{xk(n); n = 0,…, N-1}。
對應于每一個k(0)和N,循環(huán)一次后進行多元線性回歸分析(MLR),得到校正集的內(nèi)部交叉驗證均方根誤差(RMSECV),由最小的RMSECV值對應的k(0)和N就是最優(yōu)值[16]。
1.3.4 預測模型的建立方法
SPA提取特征波段之后,將特征波段作為MLR、BPNN、PLS的輸入,建立起3 個預測模型SPA-MLR、SPA-BPNN和SPA-PLS來預測葡萄果皮中花色苷的含量。
偏最小二乘法是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它主要研究多因變量對多自變量的回歸建模[20]。當各變量內(nèi)部高度線性相關時,用PLS法更有效。多元線性回歸以最小二乘法識別因變量和多個自變量之間的線性關系。人工神經(jīng)網(wǎng)絡是目前常用的非線性模型,目前應用較廣的是基于誤差反向傳播算法的BP神經(jīng)網(wǎng)絡(back propagation neural network,BPNN)。由于具有顯著非線性處理信息的能力,已在各領域得到了廣泛應用[21]。
將總花色甘含量作為樣品的化學描述值,所有樣本的總花色苷含量的測定統(tǒng)計結果如表1所示。表1為樣本劃分結果,可以看出校正集與驗證集分布比較均勻合理,樣本具有良好的代表性。
表 1 花色苷含量統(tǒng)計Table 1 Descriptive statistics of total anthocyanin contents in samples
圖 1 原始高光譜圖像Fig.1 Original hyperspectral image of grapes
1 400 nm波段處原始高光譜圖像見圖1。根據(jù)葡萄果實和背景的不同光譜特性,選擇波長1 060 nm和1 400 nm的圖像進行波段比運算,得到一幅波段比圖像。通過分析發(fā)現(xiàn)波段比圖像中葡萄果實區(qū)域的值大于6,而背景噪聲的值在1左右,因此將閾值定為6。由此得到一幅背景區(qū)域為0、果實區(qū)域為1的二值圖像。把二值圖像作為掩膜,將高光譜圖像中的葡萄果實區(qū)域(圖2)作為感興趣區(qū)域(range of interest,ROI)提取出來,然后計算出所有ROI的平均光譜。
圖 2 葡萄果實區(qū)域的高光譜圖像Fig.2 Hyperspectral images of grape regions
60 條樣本高光譜圖像ROI的平均光譜曲線見圖3。由于在成像光譜區(qū)間的兩端噪聲較多,光譜在931 nm以下和1 700 nm以上存在較多噪聲,若將此部分也加入到模型中將降低整個模型的精度,因此在數(shù)據(jù)分析中只采用931~1 700 nm間的數(shù)據(jù),共236 個波長點。從圖3可以發(fā)現(xiàn),由于光照的影響,不同樣本光譜差異變大,光譜發(fā)生了基線偏移現(xiàn)象。因此需要對原始光譜進行預處理。
圖 3 高光譜圖像感興趣區(qū)域的平均光譜曲線Fig.3 Average spectral profile of hyperspectral images of ROI regions
因此采用多元散射校正(multiple scatter correct,MSC)對光譜曲線進行預處理[22]。如圖3所示,經(jīng)過MSC校正后得到的光譜數(shù)據(jù),有效地消除散射影響所導致的基線偏移現(xiàn)象[23],使樣本之間的反射比差異減小,增強與成分含量相關的光譜吸收信息,提高信噪比[24]。故后續(xù)分析都是基于此預處理后的光譜數(shù)據(jù)進行的。
利用連續(xù)投影算法對葡萄果皮花色苷校正模型進行光譜變量選擇,指定波長數(shù)N范圍選為2~39,根據(jù)校正集的內(nèi)部交叉驗證RMSECV值確定最佳的光譜變量總數(shù)。
整個計算過程通過Matlab實現(xiàn)。經(jīng)過分析,從236 個波長點中優(yōu)選出20 個光譜變量,分別是908、1 064、1 088、1 147、1 210、1 254、1 277、1 297、1 317、1 376、1 390、1 469、1 496、1 549、1 576、1 579、1 599、1 605、1 642、1 645 nm 波長處的光譜,如圖4所示。從所選光譜變量的波長點可知,特征波長大部分分布在1 200~1 610 nm。說明在葡萄果皮花色苷含量測定時1 200~1 610 nm波段起到了比較大的作用。
將SPA優(yōu)選的光譜變量,直接作為MLR模型和BPNN模型的變量,建立SPA-MLR線性模型和SPA-BPNN模型。其中神經(jīng)網(wǎng)絡為三層結構,各層的傳遞函數(shù)采用線性(purelin)函數(shù)。網(wǎng)絡輸入層節(jié)點數(shù)為20,隱層節(jié)點數(shù)由經(jīng)驗公式得出為15,輸出層節(jié)點數(shù)為1。訓練算法采用trainlm,設定目標誤差為0.005,網(wǎng)絡指定參數(shù)中學習速率為0.05,設定訓練迭代次數(shù)為1 000次。進一步提取所優(yōu)選出的光譜變量的主成分,建立SPA-PLS模型。并與全光譜變量所建的PLS模型進行比較,比較結果如表2所示。其中表2中的變量數(shù)具體是指MLR和BPNN模型中的光譜變量個數(shù)和PLS模型中的隱含變量個數(shù)。
為評估回歸模型的有效性,實驗以模型校正相關系數(shù)(Rc)、校正均方根誤差(root mean square error of calibration set,RMSEC)、預測相關系數(shù)(Rp)、預測均方根誤差(root mean square error of prediction set,RMSEP)等指標作為依據(jù),對所建模型進行比較分析,并對模型的預測結果進行評價。
圖 4 樣本模型最佳光譜變量總數(shù)和相應的波長點Fig.4 Selection of the optimal number of wavelengths and selected wavelength using SPA of the whole sample model
表 2 不同預測模型性的能評估Table 2 Comparative analyses of different prediction models
從表2可以看出,預測釀酒葡萄果皮中花色苷含量的最優(yōu)模型為SPA-PLS,其預測相關系數(shù)Rp和RMSEP分別為0.900 0和0.550 6,預測效果如圖5所示。SPA-MLR模型與SPA-BPNN模型的預測精度相當,但均高于全光譜變量PLS模型。因此SPA算法提高了釀酒葡萄果皮中花色苷含量預測模型的精度。
利用SPA選取的少數(shù)波長變量所建立的模型預測精度高于全光譜變量PLS模型的預測精度,說明SPA所優(yōu)選出的波長能夠正確反映待測組分信息,很好地消除了眾多波長變量之間的共線性影響。
圖 5 SPA-PLS建模方法下葡萄中花色苷預測值與實際值的比較Fig.5 Predicted vs. observed values of anthocyanin contents of grapes using SPA-PLS modeling method
本實驗基于931~1 700 nm近紅外波段高光譜成像系統(tǒng)獲取葡萄漿果的高光譜圖像,利用連續(xù)投影算法SPA進行波長變量選擇,最終從236個波長點中優(yōu)選出20個光譜變量,采用不同的建模方法建立葡萄果皮中花色苷含量的預測模型。結果表明:1)連續(xù)投影算法SPA不僅能夠有效選出特征光譜變量,簡化校正模型和縮短校正時間,且提高了模型的預測精度,是一種有效實用的光譜變量選擇方法。2)在PLS、SPA-MLR、SPA-BPNN和SPA-PLS這4 個預測模型中,以SPA-PLS模型的預測效果最好,其預測相關系數(shù)Rp和預測RMSEP分別為0.900 0和0.550 6,保持得了較好的預測結果。因此,釀酒葡萄漿果的光譜數(shù)據(jù)與果皮中花色苷的含量相關性高,利用近紅外高光譜成像技術能夠有效檢測釀酒葡萄果皮中花色苷含量。
[1]HARDIE W J, OBRIEN T P, JAUDZEMS V G. Morphology, anatomy and development of the pericarp after anthesis in grape, Vitis vinifera L.[J].Australian Journal of Grape and Wine Research, 1996, 2(2): 97-142.
[2]DOWNEY M O, DOKOOZLIAN N K, KRSTIC M P. Cultural practice and environmental impacts on the fl avonoid composition of grapes and wine: a review of recent research[J]. American Journal of Enology and Viticulture, 2006, 57(3): 257-268.
[3]RIBEREAU-GAYON P, GLORIES Y, MAUJEAN A, et al. Handbook of enology: th e chemistry of wine stabilization and treatments[M].Chichester: John Wiley & Sons Inc., 2006: 136-139.
[4]SUN D. Hyperspectralimaging for food quality analysis and control[M]. Massachusetts: Academic Press, 2010.
[5]褚小立, 袁洪福, 陸婉珍. 近紅外分析中光譜預處理及波長選擇方法進展與應用[J].化學進展, 2004, 16(4): 528-542.
[6]ARAúJO M C U, SALDANHA T C B, GALV?O R K H, et al. The successive projections algorithm for variable selection in spectroscopic multicomponent analysis[J]. Chemometrics and Intelligent Laboratory Systems, 2001, 57(2): 65-73.
[7]GALV?O R K H, ARAúJO M C U, SILVA E C, et al. Crossvalidation for the selection of spectral variables using the successive projections algorithm[J]. Journal of the Brazilian Chemical Society,2007, 18(8): 1580-1584.
[8]PONTES M J C, GALVá O R K H, ARAú JO M C U, et al. The successive projections algorithm for spectral variable selection in classification problems[J]. Chemometrics and Intelligent Laboratory Systems, 2005, 78(1): 11-18.
[9]高洪智, 盧啟鵬, 丁海泉, 等. 基于連續(xù)投影算法的土壤總氮近紅外特征波長的選取[J]. 光譜學與光譜分析, 2009, 29(11): 2951-2954.
[10]LIU Fei, HE Yong. Applicati on of successive projections algorithm for variable selection to determine organic acids of plum vinegar[J]. Food Chemistry, 2009, 115(4): 1430-1436.
[11]MOREIRA E D T, PONTES M J C, GALVá O R K H, et al. Near infrared ref l ectance spectrometry classif i cation of cigarettes using the successive projections algorithm for variable selection[J]. Talanta,2009, 79(5): 1260-1264.
[12]吳迪, 汪志平, 何勇, 等. iPLS-SPA 變量選擇方法在螺旋藻粉無損檢測中的應用[J]. 農(nóng)業(yè)工程學報, 2009, 25(2): 330-334.
[13]陳斌, 孟祥龍, 王豪. 連續(xù)投影算法在近紅外光譜校正模型優(yōu)化中的應用[J]. 分析測試學報, 2007, 26(1): 66-69.
[14]黃凌霞, 吳迪, 金航峰, 等. 基于變量選擇的蠶繭繭層量可見-近紅外光譜無損檢測[J]. 農(nóng)業(yè)工程學報, 2010, 26(2): 231-236.
[15]YE Shengfeng, WANG Dong, MIN Shungeng. Successive projections algorithm combined with uninformative variable elimination for spectral variable selection[J]. Chemometrics and Intelligent Laboratory Systems, 2008, 91(2): 194-199.
[16]吳迪, 金春華, 何勇.基于連續(xù)投影算法的光譜主成分組合優(yōu)化方法研究[J].光譜學與光譜分析, 2009, 29(10): 2734-2737.
[17]鄒小波, 陳正偉, 石吉勇, 等. 基于近紅外高光譜圖像的黃瓜葉片色素含量快速檢測[J]. 農(nóng)業(yè)機械學報, 2012, 43(5): 152-156.
[18]趙杰文, 劉劍華, 陳全勝, 等. 利用高光譜圖像技術檢測水果輕微損傷[J]. 農(nóng)業(yè)機械學報, 2008, 39(1): 106-109.
[19]唐琳, 李子江, 趙磊, 等. 兩種pH值法測定玫瑰花花色苷含量的比較[J].食品科學, 2009, 30(18): 310-313.
[20]WOLD S, RUHE A, WOLD H. The collinearity problem in linear regression. The partial least squares (PLS) approach to generalized inverses[J]. SIAM Journal on Scientific and Statistical Computing,1984, 5(3): 735-743.
[21]吳桂芳, 黃凌霞, 何勇. 葡萄漿果糖度可見/近紅外光譜檢測的研究[J].光譜學與光譜分析, 2008, 28(9): 2090-2093.
[22]蘆永軍, 曲艷玲, 宋敏. 近紅外相關光譜的多元散射校正處理研究[J].光譜學與光譜分析, 2007, 27(5): 877-880.
[23]張雷蕾, 李永玉, 彭彥昆, 等. 基于高光譜成像技術的豬肉新鮮度評價[J]. 農(nóng)業(yè)工程學報, 2012, 28(7): 254-259.
[24]趙強, 張工力, 陳星旦. 多元散射校正對近紅外光譜分析定標模型的影響[J]. 光學精密工程, 2005, 13(1): 53-58.