靳雪梅,劉麗華,劉玉嬌,郭月,毛迪銳
北華大學林學院(吉林 132013)
我國葡萄產量在世界上連續(xù)多年排名第一[1]。葡萄果實中的香氣物質是葡萄以及葡萄酒呈現特征風味的重要因子,也是影響葡萄果實內在品質的重要因素之一[2-4]。通過研究葡萄的香氣成分,可以確定葡萄的品質、適宜加工的產品及制品質量[5],甚至可以通過部分香氣化合物與葡萄的品種香氣直接聯系[4]。因此構建葡萄果實香氣成分和相關制品香氣質量的評價模型逐漸成為新的研究熱點。
高光譜成像技術(Hyperspectral imaging technology)因具有非破壞性、快速高效、無污染等優(yōu)點,被廣泛應用于遙感圖像、農業(yè)、食品、化工等領域。高光譜數據可以反映檢測對象內部物理空間結構和化學組成成分,因此在水果的無損檢測中具有獨特的優(yōu)勢。吳迪等[6]利用高光譜成像技術實現了紅色釀酒葡萄果皮中花色苷含量的無損檢測;蔡正云等[7]運用高光譜成像技術對寧夏赤霞珠葡萄含水量進行無損檢測,并證明該方法的可行性;Julio等[8-9]運用近紅外高光譜成像技術對紅色葡萄果皮中可提取的酚類物質進行了篩選。此外,該技術在獼猴桃[10-11]、番茄[12]、蘋果[13]、棗[14]、藍莓[15-16]、香蕉[17]等水果的檢測中被廣泛應用。
此次試驗以不同成熟期的貝達葡萄作為研究對象,運用高光譜圖像采集系統采集校正集樣本和預測集樣本的高光譜圖像,利用ENVI對圖像進行處理,選擇感興趣區(qū)域(ROI),提取其平均光譜反射率。采用連續(xù)投影(SPA)法選擇特征波長,利用偏最小二乘(PLS)法對全波段和特征波長光譜數據分別與香氣成分進行相關性分析,建立不同成熟期葡萄的香氣成分預測模型。
分別在2018年6月12日,6月25日,7月5日,7月20日,8月10日,8月17日,9月10日和10月1日吉林環(huán)宇環(huán)境檢測有限公司葡萄圃,采集8組不同成熟期的貝達葡萄作為試驗對象,每組包含采于葡萄架上不同位置或不同高度的5串葡萄,各組的葡萄顆粒大小基本相同,完整無病蟲害,生長良好。將樣本按3∶1隨機分成校正集和預測集。
乙醚(分析純,青島秀佰銳生物器材有限公司);無水硫酸鈉(分析純,濟南斌海商貿有限公司)。
GCMS-QP2010氣相色譜-質譜儀(島津公司);GaiaField-F-V10高光譜成像儀(四川雙利合譜科技有限公司)。
1.3.1 不同成熟期葡萄香氣成分的測定
采用水蒸氣蒸餾法提取葡萄中的揮發(fā)油成分,采用GC-MS檢測葡萄香氣成分的組成及含量。
GC-MS條件:色譜柱,名稱Rtx-SMS,長度30 m,膜厚0.25 μm,內徑0.25 mm;分流溫度250 ℃,柱溫箱50 ℃;載氣,高純He,柱壓120 kPa,總流量18.2 mL/min,柱流量2.04 mL/min;線速度51.9 cm/s,吹掃流量6.0 mL/min,分流比5.0。質譜條件:離子化方式EI,離子源溫度200 ℃,接口溫度250 ℃。
1.3.2 高光譜圖像采集
在戶外采集高光譜圖像,選擇日光能照射的平地,用三腳架固定高光譜相機,將標準白板置于相機下,連接高光譜相機與計算機,設置高光譜圖像采集系統采集條件,光譜范圍在400~1 000 nm之間,光譜分辨率為3.8 nm,像素為1 392×1 040。
高光譜相機采集的圖像數據質量會受到相機本身的影響,比如光源、鏡頭以及被測物體的反射率,也會受到外界環(huán)境的影響。所以要對高光譜原始數據進行黑白校正以得到拉伸后的反射率。校正公式為:
式中:Sampleci為原始樣品數據;Darkci為暗背景數據;Whiteci為白板數據。
1.3.3 光譜數據提取
運用高光譜圖像處理軟件ENVI 5.3提取光譜數據。先對圖像進行預處理,處理方法有主成分分析(PCA)法、最小噪聲分離(MNF)等,然后隨機選擇感興趣區(qū)域(ROI),提取其平均光譜反射率,得到不同時期葡萄的光譜數據。
1.3.4 特征波長提取
由于光譜數據具有連續(xù)性,相鄰波段包含的信息重復較多,因此利用連續(xù)投影算法選擇具有代表性的波段,可以剔除大部分冗余信息,減少后續(xù)計算量,提高模型的準確性。連續(xù)投影法原理[18]:記xk(0)為初始迭代向量,N為需要提取的變量個數,光譜矩陣為J列:
a:迭代開始前,任選光譜矩陣的1列j,把校正集的第j列賦值給xj,記為xk(0)。
b:把未選入的列向量位置的集合記為s,s={j, 1≤j≤J, j {k(0), …, k(n-1)}}。
c:分別計算xj對剩下列向量的投影:Pxj=xj-(xjTxk(n-1))xk(n-1)(xkT(n-1)xk(n-1))-1, j∈s。
e:令xj=Pxj, j∈s。
f:n=n+1,如果n<N,回到b循環(huán)計算。
最后,提取出的變量為{xk(n)=0, …, N-1},對應于每一個k(0)和N,循環(huán)一次后進行多元線性回歸分析(MLR),得到預測集的均方根誤差(RMSE),由最小的RMSE值對應的k(0)和N就是最優(yōu)值。
1.3.5 建立模型
平均后的光譜數據作為全波段-香氣成分模型的變量x,香氣成分作為變量y,輸入PLS分析相關性,建立全波段-PLS香氣成分模型,SPA選擇后的光譜數據作為變量X,香氣成分為變量Y,進行相關性分析,建立SPA-PLS香氣成分模型。
偏最小二乘法是一種多元統計數據分析方法[19],其原理是[20]:設A為n×m的光譜矩陣,n的值等于樣本個數,m的值等于波長數,C為n×l的濃度矩陣,l為組分個數,E、F均為殘差矩陣。T為n×d吸光度隱變量矩陣,P為d×m的載荷矩陣,其中d為最佳維數,U是n×d的濃度隱變量矩陣,Q為d×l載荷矩陣。
對矩陣U作線性回歸,用矩陣B關聯,B為d×d的對角矩陣:
設要預測的樣本的光譜矩陣為Ax,根據公式(5)求得Tx:
設要預測的樣本的濃度矩陣為Cx,根據公式(6)求出Cx:
不同成熟期葡萄的高光譜圖像數據處理運用軟件ENVI 5.3,光譜數據與香氣成分數據處理運用軟件Matlab 2016a。
GC-MS對預處理后的樣品進行分析,得到不同成熟期葡萄的香氣成分組成信息。根據葡萄的大小、顏色和成熟期將8組樣品分為三個階段:未成熟期(6月12日—7月20日)、轉色期(7月20日—9月10日)和成熟期(9月10日—10月1日)。對GC-MS定性定量分析得出的葡萄香氣成分信息進行分類整合,以便于對葡萄香氣成分進行整體分析,結果見圖1。
圖1 不同時期葡萄香氣成分
同一時期的葡萄光譜曲線基本相同,隨機選擇一個感興趣區(qū)域的光譜作為代表,結果如圖2所示。不同成熟期的葡萄光譜曲線變化趨勢類似,但由于系統受電流或外界環(huán)境因素的影響,以及在數據采集時存在一定程度的誤差,導致同一時期的樣本光譜存在差異,所以在同一時期隨機選擇32個感興趣區(qū)域,按3∶1分為校正集和預測集,再對平均光譜反射率進行平均,得到同一時期的校正集與預測集樣本數之比為6∶2,共8個時期,故最終校正集與預測集樣本數之比為48∶16。
圖2 不同時期葡萄的光譜信息曲線
通過軟件,運用連續(xù)投影法對樣本校正集進行訓練,對預測集進行預測,然后進行變量選擇。通常當選擇的波長數使均方根誤差值達到最小時,得到的波長即為該種成分對應的特征波長。酮類、酚類、烷烴類物質的特征波長選擇結果及均方根誤差見表1。2.3.1 酮類
表1 三種物質特征波長數及其均方根誤差
經過連續(xù)投影法選擇,酮類物質對應的特征波長有4個(如圖3和圖4所示),分別是401.89,693.79,938.00和951.09 nm,此時的均方根誤差值為0.705 68。當選擇的波長數為5時,RMSE值最小,但是在波長數由4到5的過程中,RMSE值變化不明顯,選擇更多的變量反而會增加模型的復雜程度,所以最終選擇4個變量為酮類物質的特征波長。
圖3 酮類RMSE隨波長數變化
圖4 酮類特征波長
2.3.2 酚類
通過連續(xù)投影法選擇特征波長,當選擇的波長數在1~25之間時,隨著波長數的增加,RMSE值越來越小,但波長數在17~25之間,RMSE值變化不明顯,選擇更多的變量會增加模型的復雜程度,所以最終選擇17個變量為酚類物質的特征波長。因此酚類物質對應的特征波長有17個(如圖5和圖6所示),其分別是388.29,422.50,686.40,696.20,930.09,938.00,934.20,945.79,951.09,956.29,972.09,980.00,988.00,990.59和993.29 nm,此時的均方根誤差值為1.839 2。
2.3.3 烷烴類
通過連續(xù)投影法選擇特征波長,當選擇的波長數在1~23之間時,隨著波長數的增加,RMSE值越來越小,但波長數在12~23之間,RMSE值變化不明顯,選擇更多的變量會增加模型的復雜程度,所以最終選擇12個變量為酚類物質的特征波長。酚類物質對應的特征波長有12個(如圖7和圖8所示),分別是388.29,422.50,494.29,591.50,686.40,934.20,951.09,988.00,990.59,993.29,1 003.90和1 017.20 nm,此時的均方根誤差值為0.648 88。
圖5 酚類RMSE隨波長數變化
圖6 酚類特征波長
圖7 烷烴類RMSE隨波長數變化
圖8 烷烴類特征波長
通過不同香氣成分與光譜進行相關性分析,建立預測模型。得到模型的相關系數和均方根誤差,結果見表2。各個香氣成分的全波段預測模型與SPA預測模型差別不大,酮類和烷烴類的全波段預測模型相關系數高,而酚類的SPA預測模型相關系數更高。因此,不同成熟期貝達葡萄的3個香氣成分均與光譜呈顯著相關性。
表2 不同模型評估結果
此次試驗將不同成熟期的貝達葡萄作為試驗樣本,重點研究了葡萄光譜曲線和葡萄香氣成分的相關性,其中酮類、酚類、烷烴類物質和光譜曲線具有顯著的相關性,同時建立了不同香氣成分酮類、酚類、烷烴類物質和光譜之間的全波段-PLS和SPA-PLS預測模型,實現了對不同成熟期葡萄香氣成分的無損高效檢測。研究表明高光譜成像技術在葡萄香氣成分檢測方面的應用是可行的,結論對實現無損檢測葡萄香氣成分具有重要意義。