金山峰,王冬欣,黃俊仕,熊愛華,艾施榮,劉 鵬,4,吳京鵬,吳瑞梅,*
(1.江西農(nóng)業(yè)大學(xué)工學(xué)院,江西南昌 330045;2.婺源縣鄣公山茶葉實(shí)業(yè)有限公司,江西上饒 333200;3.江西農(nóng)業(yè)大學(xué)軟件學(xué)院,江西南昌 330045;4.江西機(jī)電職業(yè)技術(shù)學(xué)院,江西南昌 330013)
茶葉是中國的主要經(jīng)濟(jì)作物,在農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整、農(nóng)民增收等方面起著重要作用。而目前茶葉品質(zhì)主要由評茶師進(jìn)行感官審評[1],其受到時(shí)間、空間等因素限制,難以全面監(jiān)控茶葉市場秩序,從而導(dǎo)致茶葉行業(yè)存在以次充好、魚目混珠等混亂現(xiàn)象[2]。因此,提高茶葉品質(zhì)檢測技術(shù)水平、強(qiáng)化科學(xué)檢測手段,是當(dāng)前亟待解決的關(guān)鍵問題。
目前,國內(nèi)外采用計(jì)算機(jī)視覺技術(shù)對茶葉品質(zhì)進(jìn)行了大量的研究[3?5],Wang 等[6]利用計(jì)算機(jī)視覺技術(shù)建立了茶葉品種支持向量機(jī)鑒別模型,識(shí)別率達(dá)到97.7%。Laddi 等[7]運(yùn)用計(jì)算機(jī)視覺技術(shù)獲取茶葉圖像的顏色特征和紋理特征,實(shí)現(xiàn)茶葉品質(zhì)的快速無損評價(jià)。這些研究主要針對茶葉品質(zhì)計(jì)算機(jī)視覺評價(jià)模型進(jìn)行,對茶葉分級機(jī)構(gòu)的設(shè)計(jì)研究還有所欠缺,除了利用計(jì)算機(jī)視覺技術(shù)對茶葉品質(zhì)進(jìn)行檢測外,還有許多研究者利用近紅外光譜技術(shù)進(jìn)行茶葉品質(zhì)檢測。董春旺等[8]基于紅外光譜技術(shù)建立紅茶的感官品質(zhì)評分和理化品質(zhì)指標(biāo)的定量分析模型。Ouyang 等[9]采用近紅外光譜技術(shù)對紅茶感官品質(zhì)的檢測,并建立BP 神經(jīng)網(wǎng)絡(luò)評價(jià)模型。理化檢測方法過程復(fù)雜、用時(shí)長、成本較高,并且紅外光譜獲得的數(shù)據(jù)量大,參雜著許多冗余信息,需要對提取到的茶葉特征降維處理。而國內(nèi)外對于其他農(nóng)作物品質(zhì)檢測及分級機(jī)構(gòu)的研究是比較成熟[10?12],魏文松等[13]利用計(jì)算機(jī)視覺對菜葉品質(zhì)進(jìn)行在線檢測,設(shè)計(jì)了一套吹氣機(jī)構(gòu),將所分級的菜葉吹到相應(yīng)等級槽中,其分級效果與人工分級吻合度達(dá)到94%。Baneh 等[14]基于計(jì)算機(jī)視覺技術(shù)搭建了滾筒輸送帶式蘋果自動(dòng)分揀機(jī),提高了蘋果分級效率。計(jì)算機(jī)視覺技術(shù)在農(nóng)產(chǎn)品品質(zhì)在線評價(jià)中廣泛運(yùn)用,如何將計(jì)算機(jī)視覺技術(shù)應(yīng)用于茶葉品質(zhì)的實(shí)時(shí)在線評價(jià),還有待進(jìn)一步研究。
課題組成員利用計(jì)算機(jī)視覺技術(shù)快速無損評價(jià)茶葉品質(zhì)也進(jìn)行了大量研究,基于茶葉品質(zhì)感官審評結(jié)果,建立了茶葉品質(zhì)分級模型[15?16]?;谇捌谘芯炕A(chǔ),本文研發(fā)一套基于計(jì)算機(jī)視覺技術(shù)的茶葉品質(zhì)在線評價(jià)系統(tǒng),實(shí)現(xiàn)茶葉品質(zhì)的自動(dòng)分級,降低勞動(dòng)強(qiáng)度,提高工作效率。
綠茶 婺源仙芝綠茶(400 個(gè)不同品種)、蘇州洞庭山碧螺春(100 個(gè)不同品種),市售。
課題組研發(fā)試驗(yàn)裝置結(jié)構(gòu)圖如圖1a 所示,裝置實(shí)物圖如圖1b 所示,由自動(dòng)上料裝置、傳輸帶平臺(tái)以及自動(dòng)分級與收集裝置、CCD 工業(yè)相機(jī)、拍照暗箱、LED 燈和光電開關(guān)等組成。傳輸帶的對稱中心畫有定位線,定位待檢茶葉置于相機(jī)中心點(diǎn)位置拍照;自動(dòng)進(jìn)料裝置置于傳送裝置前端,將盛有待檢茶樣容器推出樣品箱,輸送到傳輸裝置輸送帶的中心定位線位置;光電開關(guān)接受到樣品容器進(jìn)入暗箱信息后,觸發(fā)相機(jī)對樣品進(jìn)行圖像采集與數(shù)據(jù)處理;自動(dòng)分級與收集模塊集成一起,置于傳輸裝置的后端,裝置滑臺(tái)上連有4 個(gè)收集箱(Ⅰ、Ⅱ、Ⅲ、Ⅳ),每個(gè)收集箱代表一個(gè)等級,控制系統(tǒng)根據(jù)光學(xué)成像系統(tǒng)識(shí)別結(jié)果,控制橫臂滑臺(tái)左右移動(dòng)及立柱滑臺(tái)上下移動(dòng),使容器位置對應(yīng)相應(yīng)等級收集箱的一個(gè)箱位,將容器推進(jìn)收集箱,達(dá)到收集和分級目的。
圖1 茶葉品質(zhì)在線檢測分級裝置Fig.1 Tea quality online detection and classification device
該分級系統(tǒng)采用計(jì)算機(jī)視覺技術(shù)依據(jù)不同等級的茶葉特征不同進(jìn)行分級。首先,在計(jì)算機(jī)系統(tǒng)中建立茶葉品質(zhì)專家評價(jià)模型,將盛有待檢茶葉的樣品盤由自動(dòng)進(jìn)料裝置推到輸送帶定位中心線,隨輸送帶進(jìn)入拍照暗箱,光電開關(guān)觸發(fā)CCD 相機(jī),采集待檢測茶葉圖像。圖像處理系統(tǒng)對采集圖像進(jìn)行預(yù)處理、感興趣區(qū)域提取及圖像特征提取,由事先建立的茶葉品質(zhì)專家評價(jià)模型完成茶葉品質(zhì)的實(shí)時(shí)評價(jià),確定待檢茶葉等級,將檢測結(jié)果傳送到控制系統(tǒng)。當(dāng)樣品盤繼續(xù)輸送到末端時(shí),控制系統(tǒng)根據(jù)識(shí)別結(jié)果,觸發(fā)光電開關(guān),控制橫臂滑臺(tái)橫向移動(dòng)與立柱滑臺(tái)向上移動(dòng)至相應(yīng)等級收集箱位置,后連桿推塊機(jī)構(gòu)將樣品盤推進(jìn)收集箱,完成分級和收集工作。具體工作過程見圖2所示。
圖2 茶葉品質(zhì)自動(dòng)分級裝置工作流程圖Fig.2 Working flow chart of tea quality automatic grading device
茶葉品質(zhì)包括茶葉外形、湯色、香氣、滋味和葉底5 個(gè)評價(jià)指標(biāo)[17],其中茶葉外形包括茶葉形狀和色澤,反映了茶葉內(nèi)部成分品質(zhì)狀況。因此,可利用計(jì)算機(jī)視覺技術(shù)獲取茶葉外形圖像,提取茶葉圖像的紋理特征和顏色特征,建立判別模型,以此判別模型鑒別待檢茶樣品質(zhì)。按照茶葉品質(zhì)感官審評標(biāo)準(zhǔn)(GB/T 23776-2018),采用集體評分和密碼審評形式,各評茶師對茶樣的外形形狀、外形顏色、湯色、香氣、滋味和葉底按百分制分別給出評分,取所有評茶師的得分平均值。將感官審評得分位于90~99、80~89、70~79 和60~69 分?jǐn)?shù)段的茶樣分別定為一級、二級、三級和四級[18]。
選取400 個(gè)不同品質(zhì)的婺源仙芝綠茶茶樣,由評茶師對每種茶進(jìn)行人工感官審評,分成4 個(gè)等級,其中一級99 個(gè),二級101 個(gè)、三級100 個(gè)、四級100個(gè),建立茶葉品質(zhì)評價(jià)模型。隨機(jī)選取320 個(gè)樣本組成校正集,用于模型建立,剩余80 個(gè)樣本組成預(yù)測集,用于預(yù)測所建模型精度。
另選取蘇州100 個(gè)不同品質(zhì)的洞庭山碧螺春綠茶茶樣,由評茶師對每種茶進(jìn)行人工感官審評,將每種茶葉按照審評標(biāo)準(zhǔn)分成4 個(gè)等級,在軟件系統(tǒng)中建立碧螺春綠茶評價(jià)模型。所有茶樣置于5 ℃左右的冰柜中。
將每個(gè)樣本均勻混合后,稱?。?5±0.5)g 茶葉,均勻平鋪于φ60×10 mm 規(guī)格的容器中,在系統(tǒng)暗箱中在線采集茶葉樣本圖像,然后在茶樣圖像的正中心位置截取400×400 像素感興趣區(qū)域,如圖3a,用3×3窗口大小的中值濾波對截取的區(qū)域圖像進(jìn)行平滑處理,去除原始圖像噪音信息,如圖3b。為了讓圖像更加的清晰,采用拉普拉斯算法將圖像進(jìn)一步銳化,如圖3c,預(yù)處理圖像的顏色和紋理特征被清晰凸顯。
圖3 圖像預(yù)處理Fig.3 Image preprocessing
顏色特征和紋理特征的差異可用來區(qū)分茶葉品質(zhì)好壞。采用RGB 和HSI 色彩模型提取茶葉圖像的顏色特征(共12 個(gè):紅體均值、綠體均值、藍(lán)體均值、紅體標(biāo)準(zhǔn)差、綠體標(biāo)準(zhǔn)差、藍(lán)體標(biāo)準(zhǔn)差、色調(diào)均值、飽和度均值、亮度均值、色調(diào)標(biāo)準(zhǔn)差、飽和度標(biāo)準(zhǔn)差、亮度標(biāo)準(zhǔn)差),以表達(dá)茶葉色澤特征。采用基于灰度差分統(tǒng)計(jì)矩陣和灰度共生矩陣方法提取茶葉樣本的紋理特征(共20 個(gè)紋理特征:熵、各向異性、灰度均值、灰度標(biāo)準(zhǔn)差、0°能量、0°相關(guān)性、0°同質(zhì)性、0°對比度、45°能量、45°相關(guān)性、45°同質(zhì)性、45°對比度、90°能量、90°相關(guān)性、90°同質(zhì)性、90°對比度、135°能量、135°相關(guān)性、135°同質(zhì)性、135°對比度),以表達(dá)茶葉外形的形狀特征。
1.6.1 特征變量降維方法 特征變量之間的多重共線性和冗余性會(huì)導(dǎo)致模型計(jì)算量大,影響模型預(yù)測性能,采用特征變量降維方法可消除變量之間的共線性和冗余性。主成分分析(principal component analysis,PCA)[18]是一種線性無監(jiān)督降維方法,利用正交變換方法,得到彼此互不相關(guān)的新變量,盡可能地代表原始變量信息。核主成分分析(Kernel Principal Component Analysis,KPCA)[19]是一種非線性降維方法,可處理線性不可分的數(shù)據(jù)集,該方法采用一個(gè)非線性映射把原始變量映射到一個(gè)高維空間,在高維空間進(jìn)行PCA 降維,但該方法無法保持?jǐn)?shù)據(jù)高維空間中的拓?fù)湫畔?。局部保持投影(locality preserving projections,LPP)[20?21]是一種經(jīng)典的流形學(xué)習(xí)降維方法,該方法能保持原始變量在高維空間局部拓?fù)潢P(guān)系,既能考慮到樣本的流形結(jié)構(gòu),也保持了樣本的局部性,但沒有考慮原始變量的類別標(biāo)簽信息,另外由LPP 構(gòu)造的新低維特征是非正交的,會(huì)影響多重共線性特征變量的重構(gòu)。監(jiān)督正交局部投影(supervised orthogonal locality preserving projections,SOLPP)[22]是在LPP 基礎(chǔ)上進(jìn)行改進(jìn)的監(jiān)督流形學(xué)習(xí)降維方法,該方法在尋找最優(yōu)鄰域結(jié)構(gòu)時(shí),既考慮原始變量類別標(biāo)記信息,又考慮局部流形結(jié)構(gòu)信息,采用正交變換消除變量之間的統(tǒng)計(jì)相關(guān)性。
1.6.2 模型建立算法 本文分別采用反向傳播神經(jīng)網(wǎng)絡(luò)、相關(guān)向量機(jī)和隨機(jī)森林建立茶葉品質(zhì)等級評價(jià)模型,并進(jìn)行模型對比。BP-ANN 模擬生物神經(jīng)行為,通常由輸入層、若干隱含層和輸出層的若干節(jié)點(diǎn)組成,相鄰層的每一對節(jié)點(diǎn)之間通過權(quán)值和偏差進(jìn)行連接,通過多層鏈接將輸入特征轉(zhuǎn)投影到潛在變量空間,采用反向傳播訓(xùn)練算法對模型進(jìn)行訓(xùn)練和優(yōu)化。RVM 是一種典型的基于核的監(jiān)督學(xué)習(xí)模型,在期望最大化學(xué)習(xí)方法和稀疏貝葉斯框架下利用核函數(shù)將訓(xùn)練樣本原始特征空間映射到高維空間,構(gòu)建最優(yōu)超平面實(shí)現(xiàn)樣本線性可分。
RF 基于并行運(yùn)算原理,獲得較快的學(xué)習(xí)過程,有利于減少數(shù)據(jù)噪聲的魯棒性,對多元數(shù)據(jù)的共線性也不敏感[23]。算法具體操作過程如下:①采用自主抽樣方法從所有原始n 個(gè)樣本中抽取一定數(shù)量有差異的m 個(gè)樣本,組成新的訓(xùn)練集,用于創(chuàng)建單棵分類樹,以構(gòu)建多棵不同的決策樹,剩余樣本構(gòu)成袋外(out-of-bag,OOB)樣本數(shù)據(jù)集,用于計(jì)算每棵樹的無偏誤差估計(jì),評價(jià)模型性能;②反復(fù)訓(xùn)練步驟①,產(chǎn)生Z 個(gè)訓(xùn)練集,構(gòu)建Z 棵分類樹,類似一片“森林”,分類樹生長過程中,在每個(gè)非葉子節(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn))分支前,從全部屬性中選擇p 個(gè)作為當(dāng)前節(jié)點(diǎn)的分裂候選屬性,同時(shí)采用基尼指數(shù)最小的屬性進(jìn)行分支;③在上述反復(fù)訓(xùn)練過程中,每棵決策樹進(jìn)行生長,直到葉子節(jié)點(diǎn)進(jìn)行分支;④采用每棵決策樹對袋外測試樣本進(jìn)行測試,得到對應(yīng)的T 個(gè)分類結(jié)果,由投票表決方法將所有分類結(jié)果中最多的類別,作為該測試樣本的最終類別歸屬。
本文首先利用婺源仙枝綠茶建立在線評價(jià)系統(tǒng)的判別模型。分別采用主成分分析(PCA)、核主成分分析(KPCA)、局部保持投影(LPP)和監(jiān)督正交局部保持投影(SOLLPP)方法對圖像特征變量進(jìn)行降維處理,得到前三維特征變量可視化圖,圖4a~圖4d分別是PCA、KPC、LPP、SOLLPP 降維結(jié)果,其中SOLPP 降維方法將不同等級樣本點(diǎn)聚集在一起,且不同等級樣本能很好地區(qū)分開,而由其他三種降維方法處理的不同等級樣本點(diǎn)相互交錯(cuò)在一起,說明監(jiān)督流行學(xué)習(xí)降維方法(SOLPP)能很好地區(qū)分不同等級樣本。這是因?yàn)镾OLPP 既考慮了樣本間局部拓?fù)浣Y(jié)構(gòu)信息,還保留了樣本的先驗(yàn)類別信息,可有效挖掘樣本點(diǎn)在高維空間的結(jié)構(gòu)信息,使得高維空間同類別近鄰樣本點(diǎn)投影到低維空間仍保持近鄰[24]。本文采用SOLPP 降維后的低維特征作為判別模型的輸入變量。
圖4 基于不同降維方法的茶葉等級三維可視化圖Fig.4 3-D visualized of test samples based on different reduction methods
研究采用隨機(jī)森林算法建立茶葉感官品質(zhì)評價(jià)模型,Kappa 系數(shù)可用來度量所建模型的穩(wěn)定性和分類結(jié)果的一致性,系數(shù)取值范圍為0~1,Kappa 值越大,表明結(jié)果一致性越好,模型穩(wěn)定性能越好[25]。模型建立過程中,決策樹棵數(shù)(ntree)和節(jié)點(diǎn)分裂候選屬性數(shù)(mtry)會(huì)直接影響RF 模型的判別精度,本文用網(wǎng)絡(luò)搜索方法對兩參數(shù)進(jìn)行優(yōu)選,將不同參數(shù)條件下的特征維數(shù)建立判別模型,由模型對預(yù)測集樣本的正確識(shí)別率得到最優(yōu)參數(shù),見圖5所示。由圖5a 可知,采用前4 維特征維數(shù)建立的判別模型識(shí)別率最高,為93.75%,其最優(yōu)參數(shù)ntree 為100,mtry 為3;由圖5b 可知,80 個(gè)預(yù)測樣本中有5 個(gè)被誤判,其中1 個(gè)一級樣本被誤判為二級;3 個(gè)三級樣本誤判為二級,1 個(gè)三級樣本誤判為四級,模型對預(yù)測集樣本的Kappa 系數(shù)為0.9167,說明所建模型穩(wěn)定性好。
圖5 RF 模型對預(yù)測集樣本預(yù)測結(jié)果Fig.5 Results of RF models for prediction sets
對茶葉品質(zhì)的4 個(gè)等級進(jìn)行重編碼,等級一、二、三、四分別采用(1,0,0,0)、(0,1,0,0),(0,0,1,0)和(0,0,0,1)4 個(gè)0-1 模式作為模型輸出,BP-ANN 模型選擇tansig 函數(shù)作為激活函數(shù),學(xué)習(xí)率設(shè)置為0.1,最大訓(xùn)練迭代次數(shù)為1000,隱含層神經(jīng)元節(jié)點(diǎn)數(shù)M 與輸入節(jié)點(diǎn)N 的關(guān)系為M=2 N+1,選擇SOLPP 降維處理后的6 個(gè)特征變量進(jìn)行建模。以高斯函數(shù)作為核函數(shù)建立茶葉感官品質(zhì)評價(jià)RVM 模型,利用逐步搜索法選擇最優(yōu)的特征維數(shù),并同時(shí)采用試錯(cuò)法優(yōu)選最佳的核參數(shù),以構(gòu)建最優(yōu)的RVM 模型。對BPANN、RVM、RF 建立的茶葉圖像與感官品質(zhì)之間的評價(jià)算法模型性能進(jìn)行比較,見表1。由表1可看出,RF 模型的識(shí)別率及Kappa 系數(shù)均高于BP-ANN、RVM 模型,說明RF 模型預(yù)測精度更高、性能更穩(wěn)定,故本系統(tǒng)最終采用SOLPP 降維方法結(jié)合RF 模型算法建立茶葉感官品質(zhì)快速評價(jià)模型。
表1 模型對預(yù)測集樣本進(jìn)行預(yù)測結(jié)果Table 1 Results of the model for prediction set
選取市售婺源仙枝綠茶60 個(gè)未知茶樣,驗(yàn)證樣機(jī)的可行性。由評茶師進(jìn)行感官審評,評出茶葉等級,將未知茶樣進(jìn)行在線評價(jià),人工感官審評與在線評價(jià)結(jié)果見表2,系統(tǒng)對婺源仙枝綠茶一級、二級各誤判1 個(gè)茶樣,三級誤判2 個(gè)茶樣,總體識(shí)別率為93.30%。
表2 人工感官審評與在線檢測分級結(jié)果Table 2 Grading results of artificial sensory evaluation and online check
另選取100 個(gè)不同品質(zhì)市售碧螺春綠茶,由評茶師審評結(jié)果,分成4 個(gè)等級,在軟件系統(tǒng)中建立碧螺春綠茶品質(zhì)評價(jià)模型。同樣選取60 個(gè)未知品質(zhì)碧螺春茶樣對樣機(jī)進(jìn)行驗(yàn)證,其中1 個(gè)二級茶樣誤判為一級,總體識(shí)別率為98.30%(見表2)。
從表2可看出,樣機(jī)對不同品種茶葉的在線評價(jià)結(jié)果略有不同。這可能是因?yàn)椴煌贩N茶葉的形狀特征不同,且模型建立是基于人工感官審評結(jié)果,會(huì)導(dǎo)致所建評價(jià)模型精度有差異。后續(xù)進(jìn)一步在特征提取算法上進(jìn)行研究,以提高所提取特征的信息量,從而提高模型精度。人工感官審評方面,采用不同組別的審評專家對同一種類茶葉進(jìn)行審評,以提高模型的代表性。后續(xù)研究將繼續(xù)加入其他種類茶葉進(jìn)行在線檢測,針對檢測結(jié)果分析其他種類茶葉分級結(jié)果的差異性,找出差異性原因,對評價(jià)系統(tǒng)進(jìn)一步優(yōu)化,提高系統(tǒng)的整體鑒別率。
為規(guī)范茶葉市場秩序,提高茶葉品質(zhì)檢測技術(shù)手段,本文設(shè)計(jì)了茶葉品質(zhì)在線檢測及自動(dòng)分級和收集裝置,采用機(jī)器視覺技術(shù)結(jié)合Open CV、Visual C++軟件,開發(fā)了茶葉品質(zhì)在線評價(jià)系統(tǒng)。以婺源仙枝綠茶為對象,對比了四種降維方法的降維效果,得到監(jiān)督正交局部保持投影方法對茶葉圖像特征降維效果最好,采用隨機(jī)森林算法建立茶葉感官品質(zhì)評價(jià)模型,在線評價(jià)系統(tǒng)對婺源仙枝綠茶的總體判別率達(dá)到93.30%;另選擇市售碧螺春綠茶驗(yàn)證在線評價(jià)系統(tǒng)性能,總體判別率達(dá)到98.30%。該系統(tǒng)利用機(jī)器視覺技術(shù)將標(biāo)準(zhǔn)茶樣以圖像形式保存在計(jì)算機(jī)中,實(shí)現(xiàn)茶葉品質(zhì)特征的量化和標(biāo)準(zhǔn)化,摒除人工感官審評的主觀性,為茶葉品質(zhì)評價(jià)作參考。自動(dòng)分級及收集裝置將已檢茶樣按等級分類,便于茶樣復(fù)檢,減少人力成本。