楊寶華,高 遠,王夢玄,齊 麟,寧井銘
1. 安徽農業(yè)大學信息與計算機學院,安徽 合肥 230036 2. 安徽農業(yè)大學茶樹生物與利用國家重點實驗室,安徽 合肥 230036
黃茶是一種微發(fā)酵茶葉,因其獨特的風味和品質而受到消費者的喜愛。有研究表明香氣是影響茶葉風味和品質的重要因子[1],茶多酚(tea polyphenols,TP)又是決定茶葉香氣的主要成分。因此,檢測茶多酚含量是評價黃茶品質的關鍵。然而,傳統(tǒng)檢測茶多酚含量大部分通過化學方法,由于實驗繁瑣導致茶葉的功能難以深入挖掘,因此快速、準確估測茶多酚含量,對黃茶品質鑒定和定量分析具有重要意義。
目前,隨著光譜儀器和數(shù)據(jù)處理技術的發(fā)展,利用光譜檢測茶葉中茶多酚含量的相關研究較為廣泛。Ren等對不同產地的紅茶進行識別,結果表明近紅外光譜可以快速確定紅茶的茶多酚含量[2]。Dutta等對印度茶進行分析,結果表明光譜可以準確估測茶多酚含量[3]。Hazarika等對新鮮茶葉進行檢測,結果表明近紅外反射(NIR)光譜可以快速估算新鮮茶葉中的茶多酚含量[4]。然而,由于近紅外光譜缺乏空間信息,從而限制了茶多酚的深入研究。
高光譜成像技術因具有同時獲取被測物的空間信息和光譜信息的優(yōu)勢,已經成功被用于檢測茶葉的主要成分。Tu根據(jù)茶葉的高光譜圖像分析光譜特征,預測茶多酚含量[5]。Yang利用高光譜成像系統(tǒng)預測黃茶的氨基酸成分[6]。Sohara利用高光譜圖像估測綠茶中兒茶素濃度[7]。盡管高光譜圖像已經成功用于估測茶葉成分,由于缺乏有效的空間信息和光譜信息導致估測模型的精確度不高。蔡慶空等提出基于光譜信息和空間信息的模型用于茶葉分類[8],證明了融合特征的有效性。因此,有必要融合空間-光譜特征,提高茶多酚含量的檢測能力。
小波變換由于具有多分辨率分析的優(yōu)勢而被廣泛應用,在高光譜特征提取中,小波變換不僅表示多尺度多分辨率的輪廓信息,而且能夠提取更多的細節(jié)特征信息,Li等結合小波變換和灰度共生矩陣(gray level co-occurrence matrix,GLCM)從多光譜圖像中提取特征并估計茶葉色素,取得了良好的效果[9]。但是,很少有關于黃茶高光譜圖像的小波變換的相關研究報道。因此,本研究利用小波變換提出一種融合光譜和空間特征的茶多酚含量估測模型,克服光譜特征的易飽和性,為黃茶的品質檢測提供技術支持。
從當?shù)厥袌鲑徺I五種來自不同產地的黃茶作為實驗材料,包括平陽黃湯(浙江省平陽縣產)、莫干黃芽(浙江省德清縣產)、霍山黃芽(安徽省霍山縣產)、蒙頂黃芽(四川省蒙頂山產)、君山銀針(湖南岳陽產),這五種茶是中國著名的黃茶,用錫箔袋包裝成50 g·袋-1,避光低溫貯藏。
試驗用的高光譜圖像采集系統(tǒng)包括光譜成像儀(Imspector V17E,Spectral Imaging Ltd.,Oulu,Finland)、CCD相機(IPX-2M30,ImperxInc.,Boca Raton,FL,USA),2個150 W的鹵素燈(3900,Illumination Technologies Inc.,New York,USA),數(shù)據(jù)采集暗箱,反射式線性光道管和電控位移平臺(MTS120,北京光學儀器廠,中國)以及圖像采集和分析軟件(Spectral Image Software,Isuzu Optics Corp.,Taiwan,China)組成。反射光源的四個4個鹵鎢燈均勻分布在暗箱內的環(huán)形支架上,光源照射方向與豎直方向呈45°。
1.2.1 數(shù)據(jù)采集
實驗在暗室中進行,每個品種選取20個樣本,分別稱取(20±0.5) g黃茶樣品均勻平鋪在規(guī)格為φ9 cm×1 cm 黑色的培養(yǎng)皿中,共得到100組大小為636×814×508的高光譜數(shù)據(jù),波長范圍是908~1 735 nm。曝光時間和物鏡的高度為2 ms和28 cm,移動平臺的輸送速度為8.0 mm·s-1。其中光譜成像儀的光譜分辨率為5 nm。為了消除暗電流的影響,原始獲得的高光譜圖像進行校正。選擇高光譜圖像中間50×50像素范圍為感興趣區(qū)域(region of interest,ROI),提取ROI所有像素的光譜值,計算其平均值作為這個樣本的光譜值。茶多酚含量依據(jù)GB/T 31740.2—2015標準進行測定。
1.2.2 空間特征獲取
連續(xù)小波變換(continuous wavelet transform,CWT)是高光譜信息中弱特征提取的重要技術手段,它可以將光譜信號分解成不同頻率的子信號,有效利用光譜信息的整體結構特征,提取光譜信號中隱藏的弱信息。用高光譜系統(tǒng)掃描五種黃茶,獲取100個樣品的高光譜圖像,從感興趣的區(qū)域提取黃茶的反射率,并利用連續(xù)小波變換將其變換到不同尺度下的小波系數(shù)。同時,利用小波系數(shù)能量之和篩選敏感波長。
設Xi為CWT處理光譜后的小波系數(shù),i代表不同的尺度因子(i=21,22,23,…),則小波系數(shù)能量為各尺度下小波系數(shù)的平方,設Ei為小波系數(shù)能量,S代表小波系數(shù)能量之和[10]。
(1)
(2)
小波變換對圖像進行不同尺度的分解,從而獲得不同層次的輪廓信息和細節(jié)信息。通常,一幅圖像經過一次小波變換后產生3個高頻子帶圖像,包括HL、LH和HH,分別表示水平高頻分量、垂直高頻分量和對角線高頻分量,反映圖像信號水平方向、垂直方向與對角線方向邊緣、輪廓和紋理。按照式(3)—式(7),利用小波系數(shù)計算的統(tǒng)計值作為小波紋理特征,包括能量(energy)和熵(entropy)。
(3)
(4)
(5)
(6)
(7)
其中,∧=|LH,HL,HH|,l(i)(i=0,1,2,…,Nl-1),h(j)(j=0,1,2,…,Nh-1)分別為低通和高通濾波器的脈沖響應,x=0,2,4,…,M,y=0,1,2,…,N,Nl和Nh分別為低通和高通濾波器的長度。
灰度共生矩陣是一種有效的紋理分析的統(tǒng)計技術,本研究通過二階概率統(tǒng)計濾波的方式提取特征波長對應的高光譜圖像的紋理特征[11],包括平均值(mean)、方差(variance)、協(xié)同性(homogeneity)、對比度(contrast)、相異性(dissimilarity)、熵(entropy)、角二階矩(angular second moment)和相關性(correlation)。
1.2.3 回歸算法
偏最小二乘回歸(partial least squares regression,PLSR)已成為非常流行的預測方法[12],PLSR結合了主成分分析和多元回歸的功能,通過大量原始描述到少量潛在變量的線性過渡,從而提供了可預測性方面的最佳線性模型。支持向量回歸(support vector regression,SVR)的原理[13]是將原本復雜的低維非線性回歸問題利用映射關系轉化為高維空間的線性回歸。隨機森林(random forest,RF)是一種回歸樹技術,通過集成學習的思想將多棵樹集成的一種算法,它使用引導程序聚合和預測變量的隨機化來實現(xiàn)高度的預測準確性[14]。
1.2.4 模型評價
為了使建立的模型具有普適性,在試驗中將數(shù)據(jù)按照7∶3劃分為校正集和驗證集。使用決定系數(shù)(coefficient of determination,R2)和均方根誤差(root mean squared error,RMSE)作為模型精度的評價指標[6]。所有利用回歸技術構建模型、驗證和評估均使用基于Windows 10的MATLAB R2017b(The MathWorks Inc.,Natick,MA,USA)進行。
利用小波變換技術提高黃茶的茶多酚估測效果,具體數(shù)據(jù)處理流程如圖1所示。通過對黃茶高光譜圖像的多尺度小波系數(shù)特征的分析,進一步提取光譜特征和空間特征,包括小波系數(shù)特征、灰度共生矩陣和小波紋理,基于融合的光譜-空間特征構建黃茶多酚含量的偏最小二乘回歸(PLSR)、支持向量回歸(SVR)和隨機森林(RF)估測模型。
圖1 數(shù)據(jù)處理流程Fig.1 Data processing flow
2.2.1 光譜數(shù)據(jù)獲取
圖2所示為不同樣本的光譜曲線,由圖2看出不同品種的黃茶反映的光譜曲線趨勢是一致的,大部分反射率都在0.2~0.6之間。另外,在波長1 102和1 139 nm處反射率有較大幅度的增大; 在波長1 450~1 650 nm處各品種樣本的反射率相對平穩(wěn)。由于外界條件的影響,如光線強弱、氧氣濃度和儀器的誤差等,光譜曲線首尾兩端比較雜亂。因此,為了提高模型的穩(wěn)定性和精準性,刪除光譜數(shù)據(jù)中908~943和1 689~1 735 nm 的波段,保留943~1 689 nm作為后續(xù)分析。
圖2 黃茶樣本的光譜響應曲線Fig.2 Spectra of yellow tea sample
2.2.2 小波系數(shù)特征提取
為了揭示所收集的光譜與黃茶茶多酚含量的相關性,利用連續(xù)小波變換分析每個尺度光譜信息的潛在預測能力,選取Daubechies函數(shù)作為小波基函數(shù),對黃茶樣本的高光譜反射率進行小波分解,分解的尺度根據(jù)經驗值預先設置為8個尺度,分別為21,22,23,24,25,26,27和28。將變換后的8個尺度的小波系數(shù)與茶多酚含量進行相關性分析,相關系數(shù)的熱力圖如圖3所示,各尺度小波系數(shù)與黃茶茶多酚含量的相關系數(shù)具有較大的差異,總體變化趨勢是先增加后減小,尤其是,第6尺度的相關系數(shù)熱力圖表明整體相關性達到最大。分解尺度在7~8之間時,相關系數(shù)呈下降趨勢。因此,不同尺度的小波系數(shù)反映光譜信息的不同特征,低尺度系數(shù)反映小波變換可以平滑噪聲,高尺度系數(shù)反映原始光譜的特定基團的吸收特征和茶葉的空間結構變化。
圖3 不同尺度的相關系數(shù)圖(a): 小波系數(shù)與茶多酚的相關分析;(b): 小波系數(shù)能量與茶多酚的相關分析Fig.3 Correlation coefficients of different scales
(a): Correlation analysis between wavelet coefficient and tea polyphenols; (b): Correlation analysis between wavelet coefficient energy and tea polyphenols
為了突出小波系數(shù)特征,將小波系數(shù)能量與茶多酚進行相關分析,結果如圖3(b)所示,相關性較高的波段集中在第4尺度的959和1 561 nm,第5尺度的1 321,1 520和1 540 nm,以及第6尺度的1 202和1 228 nm,一共7個小波系數(shù)特征。
2.3.1 敏感波長優(yōu)選
由于小波變換后的能量仍然與原始光譜信號的能量保持一致,通過式(2)計算不同品種茶葉樣本不同尺度的小波系數(shù)能量之和,再取平均值作為該品種黃茶的小波能量特征,發(fā)現(xiàn)不同品種的黃茶對應的小波系數(shù)能量之和在947~1 696 nm范圍內變化規(guī)律一致,其小波系數(shù)能量之和按照從大到小依次為平陽黃湯、莫干黃芽、霍山黃芽、蒙頂和君山銀針。實際上,光譜反射率會隨著物質含量的變化而變化,并且茶多酚的光譜吸收特性主要由分子中的O—H和C—H等基本化學鍵的倍頻和合頻引起的[15]。在1 006~1 102 nm附近,茶多酚中O—H鍵拉伸,在二級倍頻區(qū)附近強烈振動,所以吸收能力逐漸增強。另外,由于CH2基團的影響,茶多酚在1 309 nm附近反射能力開始增加,因此,選取1 102和1 309 nm作為茶多酚含量的敏感波長。
2.3.2 灰度共生矩提取
利用ENVI從1 102和1 309 nm的灰度圖像,分別提取灰度共生矩陣作為紋理特征。利用灰度共生矩陣分別與茶多酚進行相關分析,結果如圖4(a)所示,由圖可知很多紋理特征之間的相關系數(shù)較高,為了避免特征間的共線性,針對16個灰度共生矩陣特征進行主成分分析,結果如圖4(b)所示,當提取前三個主成分時KMO (Kaiser-Meyer-Olkin)檢驗統(tǒng)計量為0.674,累計貢獻率達到97.52%,因此,選取共生矩陣特征的前三個主成分作為新的特征向量。
圖4 灰度共生矩陣的提取及優(yōu)選(a): 不同尺度的小波系數(shù)與茶多酚的相關系數(shù);(b): 灰度共生矩陣的主成分分析Fig.4 Extraction and optimization of gray levelco-occurrence matrix
2.3.3 小波紋理特征提取
通過對特征波長的高光譜圖像進行小波分解,獲取的結果作為黃茶樣本的小波紋理特征。針對1 102和1 309 nm對應的高光譜圖像進行二層小波分解,如圖5所示,HL1,LH1和HH1分別表示小波分解的水平方向、垂直方向和對角方向的第一層高頻子圖,HL2,LH2和HH2分別表示第二層高頻子圖。特征高光譜圖像的第一層小波子圖表示輪廓紋理,第二層表示細節(jié)紋理。同一種茶葉對應的不同特征高光譜圖,它們的小波紋理是有區(qū)別的,而且,不同品種茶葉的小波紋理也不相同,尤其第二層的高頻子圖的區(qū)別比較明顯,體現(xiàn)不同樣本之間茶多酚含量的區(qū)別。因此,通過小波分解獲得的多尺度信息表明黃茶光譜-空間的總體一致性和細節(jié)差異性。
圖5 高光譜圖像的小波分解結果Fig.5 Wavelet decomposition results of hyperspectral images
為了進一步評估小波變換對估測模型的影響,將小波系數(shù)特征、小波紋理、優(yōu)選的灰度共生矩陣及融合所有特征分別作為模型輸入的變量,模型的主要參數(shù)通過調試設置為最優(yōu)參數(shù),PLSR模型的主成分個數(shù)為5,SVR模型的核函數(shù)為RBF,懲罰參數(shù)C為15,隨機森林的子樹為1 000棵。構建偏最小二乘法回歸(PLSR)、支持向量回歸(SVR)和隨機森林(RF)模型,結果如圖6所示,從圖6中發(fā)現(xiàn)基于不同特征的三種回歸模型都取得良好的預測效果。SVR模型比PLSR模型和RF模型的結果都有所改善,其中,基于小波系數(shù)的SVR模型分別提高7.5%和11.5%,基于GLCM紋理的SVR模型分別提高3.2%和7.4%,基于小波紋理的SVR模型分別提高9.2%和6.2%,基于融合所有特征的SVR模型分別提高8.2%和17.3%??梢?,SVR的估測效果最好。另外,校正集模型是經過多次參數(shù)尋優(yōu)的結果,測試集模型的數(shù)據(jù)是隨機的,因此校正集模型的精度要高于驗證集模型,但二者的預測效果是一致的。
從圖6中還可以看出,同一個模型中基于不同特征的預測效果存在一定的差異,尤其是,基于融合特征比基于小波系數(shù)、GLCM和小波紋理的估測效果更出色。其中,基于融合特征的PLSR模型提高11.9%,14%和29.8%,基于融合特征的SVR模型提高12.5%,18.5%和29%,基于融合特征的RF模型提高6.4%,8.8%和19.6%。因此,融合小波系數(shù)特征、小波紋理和灰度共生矩陣可以有效提高估測模型的精度。
圖6 不同模型的估測結果對比Fig.6 Comparison of estimation results of different models
針對5個品種100個樣本的黃茶近紅外高光譜圖像,首先從感興趣區(qū)域提取黃茶的反射光譜,通過連續(xù)小波變換將其轉化為不同尺度的小波系數(shù)。然后,從小波系數(shù)能量獲得小波系數(shù)特征和特征波長,分別從特征波長對應的高光譜圖像中獲得GLCM和小波紋理。最后,基于小波系數(shù)特征、小波紋理、優(yōu)選的灰度共生矩陣及融合特征,分別構建PLSR,SVR及RF的茶多酚預測模型。主要結論如下:
(1)通過小波變換提取黃茶高光譜圖像的小波系數(shù)特征和小波紋理,說明小波變換具有提取和表達空間特征和光譜特征的能力。
(2)基于融合小波系數(shù)、GLCM及小波紋理的模型比基于單一特征的模型精度高,說明基于融合光譜-空間特征比單一的光譜特征或者空間特征的估測效果更有效。
(3)基于融合多特征的SVR模型估測效果在三種模型中表現(xiàn)最好,決定系數(shù)達到0.933,比PLSR和RF模型的精度提高8.2%和17.3%。
因此,基于光譜-空間特征的估算模型??梢钥焖?、準確地預測黃茶中茶多酚含量。下一步研究將利用其他品種的茶葉進行模型驗證,提高模型的普適性,為茶葉的無損檢測提供參考。