陸江明,范婷婷,穆青爽,康志龍
(河北工業(yè)大學電子信息工程學院,天津 300401)
龍井茶是中國十大傳統(tǒng)名茶之一,其中含有多種有益于人類健康的營養(yǎng)素和藥用成分,香氣濃郁,口感醇厚,受到各地消費者青睞[1]。然而龍井茶分級混亂,質(zhì)量價格不一,嚴重影響了消費者的購買熱情和龍井茶的市場競爭力。因此,研究一種無損、高效且準確的龍井茶等級鑒定方法具有重要意義。
目前,龍井茶等級鑒定主要基于專家的感官評價[2],感官評估容易受到主觀因素的影響。高效液相色譜法、氣相色譜法和質(zhì)譜法通常用于實驗室中分析茶葉的質(zhì)量[3,4],但測試具有破壞性,且操作復雜耗時。電子舌、電子鼻[5]等分析方法容易受到環(huán)境條件(如溫度和濕度)的影響,導致傳感器漂移[6]。近年來已經(jīng)報道了許多與光譜相關(guān)的無損檢測方法,其中高光譜成像技術(shù)引起了人們很大關(guān)注,它可以快速檢測樣品品質(zhì)與成分含量[7-11]。高光譜成像技術(shù)結(jié)合傳統(tǒng)成像和光譜技術(shù),能夠同時獲取圖像和光譜信息。到目前為止,高光譜成像技術(shù)在茶葉種類和等級識別上得到了一定發(fā)展[12],但研究大多是基于光譜信息,有關(guān)圖像信息(如紋理特征)利用的報道較少。如MISHRA[13]等人利用光譜信息實現(xiàn)了對六種不同商品茶分類;GE[14]等人研究了五種外觀相似的烏龍茶的識別;蔣帆[15]和LI[16]等研究了三個等級龍井茶和鐵觀音茶的識別,但是三個等級無法滿足實際的需求;于英杰[17]等人利用光譜信息實現(xiàn)了五個等級的鐵觀音茶的識別,但是由于沒有結(jié)合到圖像信息,故而準確率較低。
本研究旨在融合高光譜圖像的光譜、紋理特征,結(jié)合機器學習算法,建立多等級龍井茶判別模型,為提高龍井茶等級識別水平提供可靠的理論基礎和技術(shù)支持。
購買六個等級的龍井茶,均來自杭州茶廠有限公司,符合官方龍井分級標準(DSBB33X02-95)。如圖1 所示,分別為特級龍井、一級龍井、二級龍井、三級龍井、四級龍井、五級龍井。每個等級茶葉分為480個樣本,共2880 個樣本,每個樣本5 g。放在直徑為3.5 cm、深度為1 cm 的黑色圓形塑料容器中。各等級按照3:1 分為訓練集和預測集,最終訓練集包含2160個樣本,預測集包含720 個樣本。
圖1 龍井茶樣本Fig.1 Samples of Longjing tea
實驗采用的高光譜成像系統(tǒng)主要由光譜儀(Imspector N17,Spectral Imaging Ltd,Oulu,F(xiàn)inland),CCD 像機(Zelos-258GV,Kappa Optronics GmbH,Germany),聚光燈,移動平臺和計算機等部件組成。采用線掃描模式采集高光譜反射圖像。成像系統(tǒng)光譜分辨率為3.2 nm,光譜范圍為900~1700 nm,屬于近紅外光譜(Near Infrared,NIR)。與可見近紅外光譜(Visible Near Infrared,VNIR)相比,NIR 可以提供更豐富的化學信息(如OH、CH 及NH 等化學鍵組成的分子結(jié)構(gòu)信息)[18]。為獲得清晰且不失真圖像,將茶葉樣品放在高光譜成像系統(tǒng)移動平臺中間,鏡頭和樣本之間距離設為32 mm,平臺移動速率設為16.8 mm/s,曝光時間設為20 ms,最終得到256 個波段下的高維數(shù)據(jù)立方體。
圖像采集易受到照明強度、探測器靈敏度及光學器件投射特性等因素影響,因此本研究對采集的高光譜圖像進行黑白校正。在相同實驗條件下,分別采集接近全反射的白幀圖像和接近零反射的黑幀圖像。高光譜圖像的各個像素點反射率通過式(1)來校正:
式中,IR是校準的反射率,Iraw是原始圖像反射強度,Idark是黑幀圖像反射強度,Iwhite是白幀圖像反射強度,i 和j 是空間坐標,k 是圖像的波長。
圖2 龍井茶葉等級識別模型構(gòu)建流程圖Fig.2 Flow chart of Longjing tea class identification model construction
近距離高光譜圖像不僅有更高分辨率,還包含了更多有關(guān)樣本物理特征的紋理信息[19]。灰度共生矩陣(Gray-Level Co-Occurrence Matrix,GLCM)是紋理描述最簡單的方法之一,已經(jīng)被廣泛應用在近距離高光譜圖像領域[20,21]。相關(guān)文獻表明,GLCM 能夠很好地提取特征圖像中茶葉紋理特征[22]。每個樣本數(shù)據(jù)對應256 個波段的圖像,若對所有圖像進行紋理特征提取,計算復雜,且圖像之間的相關(guān)性會影響識別模型精度[23]。為獲取茶葉樣本最具代表性的數(shù)據(jù),減少不必要的運算,需要對高光譜數(shù)據(jù)降維。相關(guān)研究表明,T-SNE 算法對茶樣本數(shù)據(jù)降維優(yōu)于其他方法[13]。
1.5.1 支持向量機分類
在化學計量學領域,有多種方法可以對光譜特征進行分類,但是在圖像處理領域,支持向量機(support vector machine,SVM)在融合光譜和紋理信息的分類上有更好的性能[24]。支持向量機是一種基于統(tǒng)計學習維數(shù)理論和結(jié)構(gòu)風險最小化原理的監(jiān)督學習模型[25],可以進行分類和回歸分析。通過核函數(shù)將輸入空間映射到高維空間來構(gòu)造最優(yōu)分類平面,從而準確分離不同的類別。相關(guān)研究表明,使用徑向基函數(shù)(radial basis function,RBF)作為核函數(shù)可以將非線性樣本映射到更高維度的空間,以處理樣本數(shù)據(jù)和類別之間的非線性關(guān)系[26]。
1.5.2 參數(shù)優(yōu)化
為解決SVM 參數(shù)在尋優(yōu)過程中易陷入局部最優(yōu)解的問題,引入人工蜂群(Artificial Bee Colony,ABC)算法,通過ABC 算法可獲得SVM 模型懲罰因子C和核函數(shù)寬度g的最佳組合[27]。實驗中參數(shù)尋優(yōu)問題可轉(zhuǎn)化為蜜蜂尋找好的蜜源問題,將C和g作為蜜源位置,分類正確率作為適應度,利用ABC 算法尋找適應度最高的蜜源位置。優(yōu)化算法步驟如下[28]:
(1)初始化相關(guān)參數(shù)。設置最大迭代次數(shù),蜂群大小,蜜源數(shù)量,蜜源最大循環(huán)次數(shù)及C和g的范圍。
(2)隨機選擇一個初始蜜源,進行鄰域搜索,獲取新的蜜源,并更新當前蜜源的相關(guān)信息。
(3)計算每個蜜源的適應度值,根據(jù)適應度值計算更新蜜源的概率,并據(jù)此更新每個蜜源。
(4)如果達到蜜源最大循環(huán)次數(shù)后的蜜源尚未更新,則會隨機生成一個新的蜜源。
(5)迭代到最大次數(shù)后,操作終止,輸出最佳蜜源位置,即最佳C和g的組合。
(6)將ABC 算法獲得的最優(yōu)參數(shù)C和g代入SVM 模型進行訓練。
1.5.3 識別模型構(gòu)建
數(shù)據(jù)融合方法包括數(shù)據(jù)級融合、特征級融合及決策級融合。由于很難確定兩類數(shù)據(jù)對最終結(jié)果的影響權(quán)重,而兩類數(shù)據(jù)都來自于高光譜圖像,且原始數(shù)據(jù)保留所有信息,因此本研究采用數(shù)據(jù)級融合方法?;诠庾V特征、紋理特征及融合特征,分別建立龍井茶等級識別模型,識別模型流程如圖2 所示。光譜模型、圖像模型及混合模型中,SVM 均采用默認參數(shù),根據(jù)各模型的相對識別率來驗證數(shù)據(jù)融合的作用,并得到性能相對較好的混合模型。然后應用ABC 算法,迭代優(yōu)化混合模型SVM 參數(shù),得到最優(yōu)模型。
1.5.4 模型評估指標
模型的性能根據(jù)正確率和Kappa系數(shù)兩個參數(shù)評估。正確率計算如式(2)所示:
其中,n1是預測正確的測試集樣本數(shù),n2是測試集樣本總數(shù)。
Kappa系數(shù)計算基于混淆矩陣,如式(3)所示:
其中,p0是每一類正確分類樣本數(shù)量之和與樣本總數(shù)的比值,即總體樣本精度。
假設每一類真實樣本個數(shù)分別為a1,a2,…,ac,而預測結(jié)果每一類樣本個數(shù)為b1,b2,…,bc,總樣本個數(shù)為n,則有式(4):
圖3 原始光譜、SNV 預處理光譜和平均光譜Fig.3 Raw spectra, SNV preprocessed spectra and mean spectra
使用ENVI 5.3 分析軟件,選取龍井茶樣本感興趣區(qū)域(Region of Interest,ROI),然后將數(shù)據(jù)導入MATLAB R 2018b 軟件中進行處理與分析。
為了提高模型魯棒性,每個樣本選取100×100 像素區(qū)域作為ROI,以ROI 的平均反射光強作為茶葉等級分類的特征參數(shù),即原始光譜數(shù)據(jù),如圖3a 所示。通常輻射校正足以消除光譜數(shù)據(jù)中照明不均勻的影響,但是當茶葉樣品表面不均勻時,光散射會導致加和乘性效應[18]。本研究采用標準正態(tài)變量變換(Standard Normal Variate,SNV)對光譜進行歸一化處理[29],結(jié)果如圖3b 所示,減小了由光散射引起的基線偏移。六個等級龍井茶樣本的平均光譜如圖3c所示。根據(jù)相關(guān)研究,1093~1121 nm 處光譜反射率與茶黃素含量相關(guān)[30],1131、1654 和1666 nm 處光譜反射率與茶多酚含量相關(guān)[31],1361 nm 處光譜反射率與水分含量相關(guān)[30],1480、1690 nm 處光譜反射率分別與NH、CH 基團相關(guān)[32]。不同等級茶葉成分差異導致對光的吸收度不同,因而呈現(xiàn)不同的光譜特性。因此,可以依據(jù)光譜特性建立龍井茶等級識別模型。
紋理是圖像特征研究的重點,各特征圖像之間的相關(guān)性會導致較低的識別精度。本研究采用T-SNE 算法降維,相關(guān)程序由MATLAB 實現(xiàn)。前兩個特征波長處的高光譜數(shù)據(jù)如圖4 所示(特征波長由映射得到,并不代表具體某個波長),橫軸代表第一個維度光譜特性,縱軸代表第二個維度光譜特性。二級龍井和三級龍井在同一簇中,說明二者具有更相似的光譜特征,該結(jié)論可通過圖3 所示的光譜特性曲線驗證。這表明通過T-SNE 算法進行特征波長提取,可以保留從高維空間向低維空間轉(zhuǎn)換時的數(shù)據(jù)結(jié)構(gòu)。
圖4 T-SNE 降維結(jié)果可視化Fig.4 Visualization of T-SNE feature extraction
以特級龍井茶樣本數(shù)據(jù)為例,通過T-SNE 算法,將256 個波段下的高光譜數(shù)據(jù)映射為4 個特征波長下的數(shù)據(jù),并得到圖5 所示的四個特征圖像。選取11×11矩形像素區(qū)域為基準窗口,在四個方向(0°,45°,90°和135°)移動,分別構(gòu)建GLCM。每個方向上的GLCM 提取對比度、相關(guān)性、能量、均勻性、平均值、方差、熵、聚類突出度、聚類陰影、同質(zhì)性、總和平均值、總和方差及總和熵共13 個特征參數(shù),共提取208 個紋理特征(4 個采集方向×4 個特征圖像×13個特征參數(shù))。
圖5 特級龍井特征圖像Fig.5 Premium Longjing tea feature image
光譜特征數(shù)據(jù)、紋理特征數(shù)據(jù)、融合特征數(shù)據(jù)和對應等級標簽,分別用作SVM 輸入,預測等級標簽作為輸出,得到光譜模型、圖像模型和混合模型。各模型中SVM 的懲罰因子C 和核函數(shù)寬度g 為默認值,相關(guān)程序通過MATLAB 實現(xiàn)。
識別結(jié)果如圖6 所示,混淆矩陣對角線元素表示等級識別正確的樣本,非對角線元素表示分類錯誤的樣本?;煜仃噷蔷€元素值越高,表示正確預測的數(shù)量越多。由圖6a 可知,光譜模型預測集識別率為91.12%,錯誤主要集中在二、三級龍井茶識別,因為二者具有更為相似的光譜特性;由圖6b 可知,圖像模型預測集識別率為75.42%,錯誤更多集中在四、五級龍井茶識別;由圖6c 可知,混合模型預測集識別率為95.14%,優(yōu)于其他兩個模型,這表明通過結(jié)合光譜和紋理特征,可以提高龍井茶識別模型精度。為了進一步提高混合模型精度,引入ABC 算法優(yōu)化SVM 參數(shù),建立最優(yōu)模型。通過多次測試,按照如下設置初始化ABC 算法中參數(shù)時,該模型可實現(xiàn)較好的分類和泛化能力。蜂群大小為10,最大迭代次數(shù)為150,蜜源數(shù)量為5,蜜源最大循環(huán)次數(shù)為100,C 和的g 搜索范圍為[0.01,200]。經(jīng)過ABC 算法優(yōu)化后,得到的最佳C 和g 分別為52.36 和0.15,然后將其代入SVM 模型進行訓練。圖6d 為最優(yōu)模型識別結(jié)果,預測集識別率可達98.61%,對各級龍井茶基本識別準確。表1 為每個模型對各級龍井茶的識別率。
圖6 各模型識別結(jié)果Fig.6 Recognition results of each model
表1 各模型預測集識別率Table 1 The recognition rate of each model to the prediction set
應用ABC 算法優(yōu)化的SVM 混合模型(即最優(yōu)模型),對龍井茶高光譜圖像的每個像素點進行可視化識別,用不同的顏色表示每個像素不同的預測值,形成圖7 所示的識別預測圖。圖7a、7b 分別為來自杭州茶廠有限公司龍井茶的灰度圖像及識別結(jié)果,從上到下依次為,特級龍井、一級龍井、二級龍井、三級龍井、四級龍井、五級龍井。由圖可知,該模型基本完成了對每個樣本像素點的識別,樣本邊緣處的錯誤分類主要是實驗所用黑色塑料容器引起的。為了進一步驗證該模型的泛化能力,以來自杭州獅峰茶葉有限公司的6 個等級龍井茶為實驗對象,按照上述流程,進行實驗。圖7c、7d 分別為該品牌龍井茶的灰度圖像及可視化識別結(jié)果。由圖可知,該模型仍能夠基本實現(xiàn)對不同等級龍井茶像素點的識別,具有較好的泛化能力與應用價值。
圖7 龍井茶識別預測圖Fig.7 Prediction map of Longjing tea recognizing
本研究利用高光譜成像技術(shù),結(jié)合SNV、T-SNE、GLCM 等算法,基于光譜特征、紋理特征以及融合特征,分別建立龍井茶等級快速無損識別的SVM 模型。結(jié)果顯示,光譜模型預測集識別率為91.11%,其中對二、三級龍井茶識別錯誤較多,因為二者具有更相似的光譜曲線;圖像模型預測集識別率為75.42%,但對二、三級龍井茶的識別率優(yōu)于光譜模型;混合模型預測集識別率為95.14%,優(yōu)于其他兩個模型。結(jié)果表明,高光譜圖像的光譜和空間域生成互補信息,對該信息的協(xié)同處理可以提高分類模型的正確率。當前研究中龍井茶識別大多基于光譜信息,缺乏對高光譜圖像信息的應用。為了進一步提高識別精度,本研究引入ABC 算法,優(yōu)化SVM 混合模型參數(shù)。當C和g分別為52.36 和0.15 時,得到最優(yōu)模型,預測集識別率可達98.61%。最優(yōu)模型能夠基本實現(xiàn)對龍井茶樣本每個像素點的識別,且具有一定的泛化能力。本研究為改進龍井茶等級評估技術(shù)提供了一種可靠的方法和技術(shù)指導。