吳正敏,曹成茂,王二銳,羅 坤,張金炎,孫 燕
?
基于形態(tài)特征參數(shù)的茶葉精選方法
吳正敏,曹成茂※,王二銳,羅 坤,張金炎,孫 燕
(安徽農(nóng)業(yè)大學(xué)工學(xué)院,合肥 230036)
夏秋季節(jié)的梗與葉片的色澤差異小,采用傳統(tǒng)色選機(jī)難以實(shí)現(xiàn)精選。該文提出依據(jù)茶葉形態(tài)特征的多特征向量分選法,以期實(shí)現(xiàn)茶葉精選算法快速建模,提高分選精度。采集動(dòng)態(tài)下落過(guò)程中的茶葉圖像,開(kāi)發(fā)基于圖像處理的特征提取程序自動(dòng)提取多組茶葉樣本形態(tài)特征參數(shù),采用隨機(jī)森林算法判定特征權(quán)重并進(jìn)行特征選擇,建立邏輯回歸、決策樹(shù)和支持向量機(jī)3種不同分類(lèi)算法對(duì)樣本進(jìn)行分類(lèi),驗(yàn)證特征的可分性,并分析不同分類(lèi)算法對(duì)復(fù)雜茶葉樣本分類(lèi)效果的影響。試驗(yàn)結(jié)果表明:1)形態(tài)特征參數(shù)圓形度的重要性權(quán)重最大,為0.467,最終將重要性閾值設(shè)定為0.05,選擇圓形度、矩形度、線性度Len、周長(zhǎng)和緊湊度5種形態(tài)特征向量建立數(shù)據(jù)集;2)在測(cè)試數(shù)據(jù)集中,邏輯回歸(logistic regression, LR)、決策樹(shù)(decision tree, DT)和支持向量機(jī)(support vector machine, SVM)3種分類(lèi)算法的平均準(zhǔn)確率為0.924,說(shuō)明所選特征具有明顯的可分性;3)根據(jù)輸出的混淆矩陣,3種分類(lèi)算法中支持向量機(jī)算法識(shí)別效果最好,準(zhǔn)確率和調(diào)和平均數(shù)(1)得分分別為93.8%和94.7%。該方法可快速應(yīng)用于其他類(lèi)型茶葉精選和茶葉實(shí)際生產(chǎn)過(guò)程,有效提高茶葉品質(zhì)。
形態(tài)特征;決策樹(shù);支持向量機(jī);邏輯回歸;隨機(jī)森林;茶葉
茶葉隨著生長(zhǎng)季節(jié)的變化,其成品茶色澤也在改變,春茶茶葉偏綠,梗、葉色澤差異性較大,色選分離效果較好,夏秋茶毛茶偏墨綠,梗、葉色澤差異較小[1],色選機(jī)基于茶葉良品與不良品光學(xué)特性分選難度很大;茶葉有六大品種,多種加工工藝,其成品茶形態(tài)特征復(fù)雜,如何快速建立不同類(lèi)型茶葉形選模型,有效提高良品與不良品的分離率,依然是茶葉精加工的關(guān)鍵問(wèn)題。本文研究對(duì)象大紅袍是烏龍茶,加工過(guò)程中進(jìn)行了輕發(fā)酵,其梗葉色澤差異更小,分離難度更大;此外,夏秋茶在加工過(guò)程中多經(jīng)過(guò)揉捻環(huán)節(jié),毛茶含梗率較高,必須有效分離,以提高茶葉品質(zhì)。
近年來(lái)機(jī)器視覺(jué)廣泛應(yīng)用于農(nóng)產(chǎn)品分選[2-5],在茶葉識(shí)別、品質(zhì)鑒定和分選領(lǐng)域,楊福增等[6]針對(duì)清明期“午子仙毫”,提取茶葉G分量,綜合茶葉嫩芽形狀特征,最終的識(shí)別準(zhǔn)確率為94%,董春旺等[7]基于機(jī)器視覺(jué)和工藝參數(shù)對(duì)針芽形綠茶外形進(jìn)行評(píng)價(jià),宋彥團(tuán)隊(duì)[8]針對(duì)7個(gè)等級(jí)祁門(mén)紅茶,建立了數(shù)字化等級(jí)鑒定方法,Borah等[9-11]研究了基于紋理特征的茶葉分類(lèi)方法,Cimpoiu等[12]采用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)茶葉分類(lèi)。在茶葉精選環(huán)節(jié),張春燕等[13]提出基于最小風(fēng)險(xiǎn)貝葉斯分類(lèi)器的茶葉茶梗分類(lèi)方法,高達(dá)睿等[14]建立了基于茶葉顏色和形狀特征的茶葉分選系統(tǒng),但并不適用于顏色差異小、形態(tài)特征復(fù)雜的茶葉樣本。本文基于茶葉形態(tài)特征提出了一種多特征向量下茶葉良品與不良品分選快速建模的方法,建立多個(gè)復(fù)雜形態(tài)特征描繪子,自動(dòng)判別特征向量權(quán)重,快速選擇有效特征;在Python3環(huán)境中開(kāi)發(fā)邏輯回歸、決策樹(shù)和支持向量機(jī)3種算法實(shí)現(xiàn)茶葉精選,采用網(wǎng)格搜索和K折交叉驗(yàn)證方法優(yōu)化算法模型,進(jìn)行特征向量和分選算法評(píng)估。
試驗(yàn)中選擇武夷山大紅袍作為樣本,在單通道茶葉色選機(jī)中采集大紅袍下落過(guò)程中的樣本圖像如圖1所示,其中葉樣本即良品如圖1a所示,梗樣本即不良品如圖1b所示,梗樣本由單梗、梗葉纏繞、一梗一葉及多葉等組成,其形態(tài)極不規(guī)律,部分梗與葉的形態(tài)相似度較高,梗葉分離難度非常大,為更好地建立特征描繪子,本文先對(duì)圖像進(jìn)行預(yù)處理,再提取特征參數(shù)。
批量加載樣本圖像,提取藍(lán)色平面,再進(jìn)行二值化,由于樣本圖像目標(biāo)與背景區(qū)分度較大,選擇4種較為簡(jiǎn)單的閾值分割方法對(duì)做過(guò)同樣處理的樣本圖像進(jìn)行閾值分割,全局閾值Otsu法閾值分割和雙峰法分割圖像的效果更好,細(xì)節(jié)保留更為完整;迭代法全閾值分割后的圖像和局部閾值分割后的圖像細(xì)節(jié)丟失較多,為保證后期提取特征參數(shù)的準(zhǔn)確性,迭代法全閾值分割和局部閾值分割圖像的方法不宜采用,考慮到全局閾值Otsu法閾值分割較雙峰法分割圖像更為簡(jiǎn)單,處理更快,后期樣本圖像均采用全局閾值Otsu法閾值分割進(jìn)行圖像閾值分割。
圖1 樣本圖片
樣本形態(tài)特征描繪子周長(zhǎng)、圓形度、線性度等參數(shù)的提取需要圖像的邊緣信息,本文選擇Roberts、Sobel、Prewitt、LOG、Canny這5種常用的邊緣算子進(jìn)行邊緣提取,總體來(lái)看,Canny算子提取的邊緣細(xì)節(jié)最完整,不容易受噪聲干擾,能夠檢測(cè)到真正的弱邊緣。故后期樣本圖像邊緣信息采用Canny算子提取。
根據(jù)預(yù)處理后的圖像信息提取基本形態(tài)特征面積、周長(zhǎng)、長(zhǎng)軸、短軸[15]。其中:面積表示茶葉圖像邊界線內(nèi)包含的所有像素個(gè)數(shù);周長(zhǎng)由茶葉樣本圖像邊界像素點(diǎn)的總和來(lái)計(jì)算;長(zhǎng)軸為區(qū)域最小外接矩形的長(zhǎng);短軸為區(qū)域最小外接矩形的寬。
大紅袍樣本基本形態(tài)特征向量受樣本成像過(guò)程各因素影響較大,因此由基本形態(tài)特征建立復(fù)雜特征描繪子圓形度、直徑、緊湊度、矩形度、細(xì)長(zhǎng)度、對(duì)角線長(zhǎng)度和線性度如表1所示。
表1 復(fù)雜特征描繪子
注:公式中、、DiaLen、、、、分別為代表圓形度、直徑、緊湊度、矩形度、細(xì)長(zhǎng)度、對(duì)角線長(zhǎng)度、線性度、面積、周長(zhǎng)、長(zhǎng)軸和短軸。
Note:,,DiaLen,,,andrepresent the circularity,diameter, compactness, rectangularity, diagonal length, slightness, linearity,area, perimeter, long and short axis length
根據(jù)描繪子基本特性,開(kāi)發(fā)特征提取算法,從樣本圖像中提取出周長(zhǎng)、長(zhǎng)軸、短軸、圓形度、直徑、緊湊度、矩形度、細(xì)長(zhǎng)度、對(duì)角線長(zhǎng)度Dia、線性度Len 10個(gè)特征描繪子的參數(shù)值。
根據(jù)圖像預(yù)處理流程和特征描繪子描述方法,開(kāi)發(fā)茶葉形態(tài)特征自動(dòng)提取算法得到茶葉形態(tài)特征的原始數(shù)據(jù)集?;静襟E如下:
1)批量讀取待處理圖片×numm(圖片總數(shù));
2)定義全局變量Sum_num(樣本總數(shù))、Data(數(shù)據(jù)集)
3)對(duì)于每一幅讀取的RGB圖像,均提取圖像藍(lán)色平面,采用最大類(lèi)間方差法分割圖像,得到二值化圖像,濾除干擾對(duì)象,基于Canny算子提取邊緣,確定邊緣連通域和區(qū)域連通域,統(tǒng)計(jì)每張圖片上的樣本總數(shù)num;
4)計(jì)算每個(gè)樣本的形態(tài)特征參數(shù)Data=[LenDig]和樣本質(zhì)心;
5)經(jīng)過(guò)num×numm次循環(huán),得到所有樣本的特征數(shù)據(jù)。
為實(shí)現(xiàn)茶葉分類(lèi)算法的快速開(kāi)發(fā)和優(yōu)化,本文采用隨機(jī)森林算法判斷特征向量的重要性[16-18],通過(guò)隨機(jī)森林中所有決策樹(shù)得到的平均不純度衰減來(lái)度量特征的重要性[19],基本計(jì)算方法如式(1)所示。
式中erroob1為袋外數(shù)據(jù)未加入干擾的數(shù)據(jù)誤差,erroob2為袋外數(shù)據(jù)所有樣本的特征加入噪聲干擾后的誤差,為隨機(jī)森林中樹(shù)的棵數(shù)。
計(jì)算出每個(gè)特征的重要性,設(shè)定一定的閾值,進(jìn)行數(shù)據(jù)壓縮,將提取的大紅袍原始樣本形態(tài)特征數(shù)據(jù)集進(jìn)行歸一化處理,基于Python3.0和scikit-learn庫(kù)編寫(xiě)基于隨機(jī)森林算法的特征重要性獲取算法[20],得出各特征數(shù)據(jù)重要性如圖2所示。
圖2 特征重要性
如圖2所示,圓形度權(quán)重最大,為0.467,細(xì)長(zhǎng)度最小,為0.029,可以看出圓形度這一特征在大紅袍梗、葉分離中貢獻(xiàn)率較大,該特征是有面積與周長(zhǎng)的比值得到,從一定程度上消除了環(huán)境變化、光學(xué)等因素的影響,有較強(qiáng)的適應(yīng)性,在其他類(lèi)型茶葉梗、葉分離中可參考,在一些茶葉分級(jí)、分類(lèi)的文獻(xiàn)中也有所運(yùn)用,如高睿達(dá)[14]在六安瓜片的分級(jí)中便使用了該特征。為減少分類(lèi)時(shí)的運(yùn)算量,將權(quán)重閾值設(shè)為0.05,最終選擇圓形度、矩形度、線性度Len、周長(zhǎng)和緊湊度5種特征向量,用于驗(yàn)證邏輯回歸、決策樹(shù)和支持向量機(jī)3種算法實(shí)現(xiàn)大紅袍良品、不良品分離的效果。
大紅袍良品與不良品分類(lèi)是典型的二分類(lèi)問(wèn)題,考慮到算法的易用性和準(zhǔn)確率,文中選擇了邏輯回歸、決策樹(shù)和支持向量機(jī)3種算法,邏輯回歸是一種簡(jiǎn)單卻又快速而強(qiáng)大的算法;決策樹(shù)的優(yōu)勢(shì)在于它的模型可見(jiàn)性,能夠清晰地看到它每一步是如何判定和執(zhí)行;支持向量機(jī)一直在傳統(tǒng)機(jī)器學(xué)習(xí)算法中占據(jù)重要地位,也是在目前眾多實(shí)際運(yùn)用如茶葉色選機(jī)優(yōu)先選擇的算法。為更貼近實(shí)際運(yùn)用,本文最終選擇這3種算法進(jìn)行分類(lèi)結(jié)果的驗(yàn)證。根據(jù)特征選擇獲得的特征向量,建立數(shù)據(jù)集,用于分類(lèi)算法的訓(xùn)練、驗(yàn)證和測(cè)試。機(jī)器學(xué)習(xí)系統(tǒng)基本結(jié)構(gòu)如圖3所示。
圖3 機(jī)器學(xué)習(xí)系統(tǒng)基本結(jié)構(gòu)
選擇480個(gè)大紅袍樣本,采集樣本動(dòng)態(tài)下落過(guò)程中的圖片,批量輸入到茶葉形態(tài)特征自動(dòng)提取算法程序中,建立樣本形態(tài)特征數(shù)據(jù)集,首先將原始數(shù)據(jù)進(jìn)行歸一化處理,預(yù)處理后的特征向量進(jìn)行隨機(jī)分割,80%用于訓(xùn)練,20%用于測(cè)試,采用10折交叉驗(yàn)證選擇分類(lèi)模型最優(yōu)參數(shù),隨機(jī)將訓(xùn)練數(shù)據(jù)集劃分為10份,其中9份用于訓(xùn)練,剩下的1份用于驗(yàn)證。根據(jù)上述機(jī)器學(xué)習(xí)系統(tǒng)參數(shù)優(yōu)化過(guò)程獲得邏輯回歸、決策樹(shù)和支持向量機(jī)最優(yōu)模型統(tǒng)計(jì)訓(xùn)練和測(cè)試數(shù)據(jù)集最終的評(píng)價(jià)結(jié)果。根據(jù)分類(lèi)器輸出的混淆矩陣真正(TP)、真負(fù)(TN)、假正(FP)及假負(fù)(FN)的樣本數(shù)量,利用式(2)公式計(jì)算準(zhǔn)確率Accuracy、真正率Precision、召回率Recall和調(diào)和平均數(shù)F1作為分類(lèi)算法的評(píng)價(jià)指標(biāo)[21]。
邏輯回歸是經(jīng)典的二分類(lèi)算法,也可以實(shí)現(xiàn)多分類(lèi)[22-23]。本文主要針對(duì)大紅袍的梗葉進(jìn)行分離,屬于二分類(lèi)問(wèn)題,建立式(3)預(yù)測(cè)函數(shù)。
對(duì)于二分類(lèi)任務(wù)(0,1),整合兩種情況下的預(yù)測(cè)結(jié)果,得到(4)式
(5)
參數(shù)更新
式中?表示學(xué)習(xí)率,為樣本個(gè)數(shù),表示第個(gè)樣本,表示第個(gè)樣本的第個(gè)特征值。
文中采用網(wǎng)格搜索調(diào)優(yōu)超參的方法確定最佳正則化懲罰系數(shù),如圖4輸出學(xué)習(xí)曲線和驗(yàn)證曲線對(duì)優(yōu)化過(guò)程進(jìn)行觀察。
圖4 學(xué)習(xí)曲線和驗(yàn)證曲線
從圖4a可以看出訓(xùn)練數(shù)據(jù)準(zhǔn)確率與驗(yàn)證集偏差較小,說(shuō)明模型泛化能力較強(qiáng),輸入樣本數(shù)據(jù)集,執(zhí)行網(wǎng)格搜索程序后,從圖4b驗(yàn)證曲線也可以看出懲罰系數(shù)的最優(yōu)值在10左右,設(shè)置過(guò)低時(shí),會(huì)導(dǎo)致分類(lèi)準(zhǔn)確率下降,而大于10以后,模型基本穩(wěn)定。
決策樹(shù)是一種樹(shù)型結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉節(jié)點(diǎn)代表一種類(lèi)別[24-25]。建立決策樹(shù)的關(guān)鍵是選擇哪個(gè)屬性作為分類(lèi)依據(jù),根據(jù)不同的目標(biāo)函數(shù),建立決策樹(shù)主要有信息增益、信息增益率、Gini系數(shù)3種算法[26],其中:
信息增益:表示得知特征的信息而使得類(lèi)的信息的不確定性減少的程度,定義為訓(xùn)練數(shù)據(jù)集的經(jīng)驗(yàn)熵()與特征給定條件下的經(jīng)驗(yàn)條件熵()之差,即
信息增益率
Gini系數(shù)
式中為類(lèi)別,||表示樣本個(gè)數(shù),|C|為屬于類(lèi)C的樣本個(gè)數(shù)。
上述3種分類(lèi)依據(jù),信息增益受數(shù)據(jù)樣本自身熵影響很大;信息增益率考慮了自身熵的影響;Gini系數(shù)在特征數(shù)據(jù)越純時(shí),值越低,應(yīng)用更為廣泛。
采用決策樹(shù)算法對(duì)大紅袍梗、葉樣本進(jìn)行分類(lèi)試驗(yàn),選擇Gini系數(shù)作為分類(lèi)依據(jù),優(yōu)化后的樹(shù)模型參數(shù)最小葉子節(jié)點(diǎn)個(gè)數(shù)設(shè)為4,最大深度設(shè)為5。
SVM作為傳統(tǒng)機(jī)器學(xué)習(xí)的一個(gè)非常重要的分類(lèi)算法,它是一種通用的前饋網(wǎng)絡(luò)類(lèi)型。根據(jù)核函數(shù)的不同可分為線性支持向量機(jī)和非線性支持向量機(jī),支持向量機(jī)算法的主要影響因素是核函數(shù)的選擇和相應(yīng)參數(shù)的設(shè)置[26-30]。文中采用網(wǎng)格搜索調(diào)優(yōu)超參的方法確定最佳正則化懲罰系數(shù)和核函數(shù)類(lèi)型及相應(yīng)參數(shù),基本算法實(shí)現(xiàn)步驟如下:
文中采用網(wǎng)格搜索調(diào)優(yōu)超參的方法確定最佳正則化懲罰系數(shù)和核函數(shù)類(lèi)型及相應(yīng)參數(shù),基本算法實(shí)現(xiàn)步驟如下:
入樣本數(shù)據(jù)
Data={(11,12,13,14,15,1),(21,22,23,24,25,2),...,
(x1,x2,x3,x4,x5,y)} (10)
其中特征向量個(gè)數(shù)為5,樣本數(shù)量,y∈{+1,?1},x為第個(gè)茶葉樣本實(shí)例,y為x的類(lèi)標(biāo)記:當(dāng)y=+1,稱(chēng)x為良品;當(dāng)y=?1,稱(chēng)x為不良品。
2)首先將原始數(shù)據(jù)進(jìn)行歸一化處理,預(yù)處理后的特征向量進(jìn)行隨機(jī)分割,80%用于訓(xùn)練,20%用于測(cè)試,采用10折交叉驗(yàn)證,隨機(jī)將訓(xùn)練數(shù)據(jù)集劃分為10份,其中9份用于訓(xùn)練,剩下的1份用于驗(yàn)證。以準(zhǔn)確率作為參數(shù)優(yōu)化的評(píng)價(jià)參數(shù),根據(jù)這些獨(dú)立且不同的數(shù)據(jù)子集得到的模型性能評(píng)價(jià)結(jié)果,計(jì)算出平均性能,這樣可以降低對(duì)數(shù)據(jù)的敏感性,提高模型的泛化能力,結(jié)果如圖5所示。
圖5 學(xué)習(xí)曲線和驗(yàn)證曲線
從圖5a學(xué)習(xí)曲線可以看出訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的準(zhǔn)確率之間有較小差距,存在輕微過(guò)擬合現(xiàn)象,輸入樣本數(shù)據(jù)集,執(zhí)行網(wǎng)格搜索程序后,最終輸出的最佳參數(shù)組合是:懲罰系數(shù)=10,核函數(shù)kernel=徑向基函數(shù)(radial basis function,rbf),核參數(shù)gamma=0.1,從圖5b驗(yàn)證曲線也可以看出懲罰系數(shù)的最優(yōu)值在10左右,設(shè)置過(guò)低時(shí),會(huì)導(dǎo)致分類(lèi)準(zhǔn)確率下降,設(shè)置過(guò)高會(huì)導(dǎo)致過(guò)擬合現(xiàn)象更加嚴(yán)重。
選擇圓形度、矩形度、線性度Len、周長(zhǎng)和緊湊度,5種特征向量建立了樣本特征數(shù)據(jù)集,在3種最優(yōu)模型條件下得到完整訓(xùn)練集和測(cè)試集的評(píng)價(jià)指標(biāo)得分如表2所示,3種不同分類(lèi)算法在訓(xùn)練集與測(cè)試集上分類(lèi)結(jié)果偏差如圖7所示。
表2 3種不同分類(lèi)算法不同評(píng)價(jià)指標(biāo)的得分表
圖7 3種不同分類(lèi)算法在訓(xùn)練集與測(cè)試集上分類(lèi)結(jié)果偏差
試驗(yàn)結(jié)果表明:1)如表2所示3種不同分類(lèi)算法的訓(xùn)練數(shù)據(jù)集準(zhǔn)確率、真正率、召回率和調(diào)和平均數(shù)1平均得分都達(dá)到了0.95左右,測(cè)試數(shù)據(jù)集準(zhǔn)確率、真正率、召回率和1平均得分都超過(guò)了0.92,說(shuō)明建立的大紅袍形態(tài)特征描繪子具有一定的可分性,效果較佳,從圖6、圖7也可以看出,所選5種特征用于分類(lèi)時(shí)最高準(zhǔn)確率比單一特征向量分類(lèi)時(shí)最高正確率、最低正確率分別提高了1%和36.2%,說(shuō)明特征描繪子的數(shù)量及重要性會(huì)對(duì)分類(lèi)結(jié)果產(chǎn)生重要影響,多特征向量條件下進(jìn)行特征選擇和模型比較可以實(shí)現(xiàn)模型快速篩選,有效減少算法開(kāi)發(fā)時(shí)間;
2)從3種不同類(lèi)型分類(lèi)算法在樣本形態(tài)特征數(shù)據(jù)集上的分類(lèi)結(jié)果看,支持向量機(jī)算法的效果最好,測(cè)試試驗(yàn)結(jié)果中準(zhǔn)確率和1達(dá)到了93.8%和94.7%,而且其在訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集準(zhǔn)確率、真正率、召回率和1得分均超過(guò)了0.965和0.93,但支持向量機(jī)算法在訓(xùn)練集和測(cè)試集上的4種評(píng)價(jià)指標(biāo)得分偏差均大于2%,準(zhǔn)確率提高的過(guò)程也伴隨著過(guò)擬合風(fēng)險(xiǎn)的增大;
3)從準(zhǔn)確率和召回率這2個(gè)評(píng)價(jià)指標(biāo)上看,邏輯回歸和決策樹(shù)在測(cè)試集得分均相同,但其他2個(gè)指標(biāo)決策樹(shù)算法都略高于邏輯回歸算法,從這一結(jié)果我們可以看出多個(gè)評(píng)價(jià)指標(biāo)更有利于我們選出最佳的分類(lèi)算法。
4)從圖7中3種不同分類(lèi)算法不同評(píng)價(jià)指標(biāo)訓(xùn)練集與測(cè)試集分類(lèi)得分偏差我們可以看出,邏輯回歸算法的泛化能力更強(qiáng),決策樹(shù)算法產(chǎn)生過(guò)擬合的風(fēng)險(xiǎn)更大,而從表2我們得出邏輯回歸算法的得分最低,支持向量機(jī)的得分最高,所以在評(píng)價(jià)特征向量可分性時(shí),可以選擇多個(gè)多種算法評(píng)價(jià)結(jié)果均值作為最終的評(píng)判依據(jù)。
為更好地分析分類(lèi)算法的效果,以及分析茶葉形態(tài)特征描繪子對(duì)分類(lèi)的影響,算法開(kāi)發(fā)過(guò)程中對(duì)樣本圖像做了可視化處理,對(duì)判定為不良品的樣本進(jìn)行形心點(diǎn)標(biāo)記,這也是模擬動(dòng)態(tài)檢測(cè)過(guò)程,通過(guò)給定的形心點(diǎn)位置,可以有效剔除不良品。如圖8所示,圖8a葉樣本有1個(gè)樣本被標(biāo)記,即被誤識(shí)別為梗;圖8b梗樣本有2處未被標(biāo)記的,即梗未被識(shí)別出來(lái),由于樣本形態(tài)太過(guò)復(fù)雜多樣,在分類(lèi)過(guò)程中還是存在少數(shù)樣本被誤分的情況。
圖8 測(cè)試結(jié)果
本文基于茶葉形態(tài)特征建立了一種多特征向量下茶葉良品與不良品分選快速建模的方法,驗(yàn)證了邏輯回歸、決策樹(shù)和支持向量機(jī)3種分類(lèi)算法在大紅袍樣本數(shù)據(jù)集上準(zhǔn)確率、真正率、召回率和1,4種評(píng)價(jià)指標(biāo)的評(píng)價(jià)效果,最終的試驗(yàn)結(jié)果表明:
1)采用隨機(jī)森林算法進(jìn)行特征重要性判定,在多特征向量下選擇圓形度、矩形度、線性度Len、周長(zhǎng)和緊湊度,5種形態(tài)特征向量進(jìn)行大紅袍良品與不良品分選,效果明顯;
2)在特征選擇過(guò)程中,利用多種分類(lèi)算法疊加驗(yàn)證結(jié)果更準(zhǔn)確;
3)3種算法中支持向量機(jī)算法分類(lèi)效果最佳,但在試驗(yàn)中也發(fā)現(xiàn),分類(lèi)算法模型的參數(shù)選擇對(duì)最終結(jié)果影響較大,采用交叉驗(yàn)證等參數(shù)優(yōu)化方式可以有效提高模型的泛化能力和分類(lèi)準(zhǔn)確率;
4)該方法也可快速開(kāi)發(fā)其他類(lèi)型的茶葉精選算法模型,試驗(yàn)中選擇的是大紅袍動(dòng)態(tài)下落過(guò)程中的圖片,符合茶葉精選過(guò)程的實(shí)際工況,可推廣到茶葉實(shí)際生產(chǎn)的精加工過(guò)程中。
[1] 劉躍云. 夏秋綠茶色澤提升技術(shù)研究[D]. 重慶:西南大學(xué),2011.
[2] 彭江南,謝宗銘,楊麗明,等. 基于Seed Identification軟件的棉籽機(jī)器視覺(jué)快速精選[J]. 農(nóng)業(yè)工程學(xué)報(bào),2013,29(23):147-152.
Peng Jiangnan, Xie Zongming, Yang Liming, et al. Rapid selection of cottonseed machine vision based on seed identification software[J].Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2013, 29(23): 147-152. (in Chinese with English abstract)
[3] Kurtulmus F, Alibas I, Kavdir I. Classification of pepper seeds using machine vision based on neural network[J]. International Journal of Agricultural & Biological Engineering, 2016, 9(1): 51-62.
[4] Wang Weilin, Li Changying. A multimodal machine vision system for quality inspection of onions[J]. Journal of Food Engineering, 2015, 166: 291-301.
[5] 王紅軍,熊俊濤,黎鄒鄒,等. 基于機(jī)器視覺(jué)圖像特征參數(shù)的馬鈴薯質(zhì)量和形狀分級(jí)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2016,32(8):272-277.
Wang Hongjun, Xiong Juntao, Li Zouzou, et al. Potato grading method of weight and shape based on imaging characteristics parameters in machine vision system[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(8): 272-277. (in Chinese with English abstract)
[6] 楊福增,楊亮亮,田艷娜,等. 基于顏色和形狀特征的茶葉嫩芽識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2009,40(增刊1):119-123.
Yang Fuzeng, Yang Liangliang, Tian Yanna, et al, Recognition of the tea sprout based on color and shape features[J]. Transactions of the Chinese Society for Agricultural Machinery, 2009, 40(Supp.1): 119-123. (in Chinese with English abstract)
[7] 董春旺,朱宏凱,周小芬,等. 基于機(jī)器視覺(jué)和工藝參數(shù)的針芽形綠茶外形品質(zhì)評(píng)價(jià)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(9):38-45.
Dong Chunwang, Zhu Hongkai, Zhou Xiaofen, et al. Quality evaluation for appearance of needle green tea based on machine vision and process parameters[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(9): 38-45. (in Chinese with English abstract)
[8] 宋彥,謝漢壘,寧井銘,等. 基于機(jī)器視覺(jué)形狀特征參數(shù)的祁門(mén)紅茶等級(jí)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(23):279-286.
Song Yan, Xie Hanlei, Ning Jingming, et al. Grading Keemun black tea based on shape feature parameters of machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(23): 279-286. (in Chinese with English abstract)
[9] Borah S, Hines E L, Bhuyan M. Wavelet transform based image texture analysis for size estimation applied to the sorting of tea granules[J]. Journal of Food Engineering, 2007, 79(2): 629-639.
[10] Laddi A, Sharma S, Kumar A, et al. Classification of tea grains based upon image texture feature analysis under different illumination conditions[J]. Journal of Food Engineering, 2013, 115(2): 226-231.
[11] Tang Zhe, Su Yuancheng, Er M J, et al. A local binary pattern based texture descriptors for classification of tea leaves[J]. Neurocomputing, 2015, 168(30): 1011-1023.
[12] Cimpoiu C, Cristea V M ,Hosu A, et al. Antioxidant activity prediction and classification of some teas using artificial neural networks[J]. Food Chemistry, 2011, 127(3): 1323-1328.
[13] 張春燕,陳筍,張俊峰,等. 基于最小風(fēng)險(xiǎn)貝葉斯分類(lèi)器的茶葉茶梗分類(lèi)[J]. 計(jì)算機(jī)工程與應(yīng)用,2012,48(28):187-192,239.
Zhang Chunyan, Chen Sun, Zhang Junfeng, et al. Classification of tea and stalk based on minimum risk Bayesian classifier[J]. Computer Engineering and Applications, 2012, 48(28): 187-192, 239. (in Chinese with English abstract)
[14] 高達(dá)睿. 基于顏色和形狀特征的茶葉分選研究[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué),2016.
Gao Darui. Rsearch on the Tea Sorting Based on Characteristic of Color and Shape[D]. Hefei: University of Science and Technology of China, 2016. (in Chinese with English abstract)
[15] 劉希. 基于彩色線陣CCD的茶葉分選控制系統(tǒng)設(shè)計(jì)[D].南京:南京林業(yè)大學(xué),2014.
Liu Xi. The Design of Tea Sorter Control System Based on Color Linear CCD[D]. Nanjing: Nanjing Forestry University, 2014. (in Chinese with English abstract)
[16] Sebastion Rasch. Python Machine Learning[M]. 高明等譯.北京:機(jī)械工業(yè)出版社,2017.
[17] Breimen L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32.
[18] 徐少成,李東喜. 基于隨機(jī)森林的加權(quán)特征選擇算法[J].統(tǒng)計(jì)與決策,2018,34(18):25-28.
Xu Shaocheng, Li Dongxi. Weighted feature selection algorithm based on random forest [J]. Statistics & Decision, 2018, 34(18): 25-28. (in Chinese with English abstract)
[19] Strobl C, Boulesteix A L, Kneib T, et al. Conditional variable importance for random forests[J]. BMC Bioinformatics, 2008, 9(1): 1-11.
[20] Verikas A, Gelzinis A, Bacauskiene M. Mining data with random forests: A survey and results of newtests[J]. Pattern Recognition, 2014, 44(2): 330-349.
[21] Powers, David M W. Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. Journal of Machine Learning Technologies, 2011, 2(1): 37-63.
[22] 金志剛,蘇菲. 基于FSVM與多類(lèi)邏輯回歸的兩級(jí)入侵檢測(cè)模型[J]. 南開(kāi)大學(xué)學(xué)報(bào):自然科學(xué)版,2018,51(3):1-6.
Jin Zhigang, Su Fei. A two-stage model intrusion detection system based on SVM and multi-class logistic regression[J]. Acta Scientiarum Naturalium Universitatis Nankaiensis, 2018, 51(3): 1-6. (in Chinese with English abstract)
[23] 劉敏潔,許昍,王建華,等. 基于人工神經(jīng)網(wǎng)絡(luò)和二元邏輯回歸的甜玉米種子生活力檢測(cè)模型研究[J]. 中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào),2018,23(7):1-10.
Liu Minjie, Xu Xuan, Wang Jianhua, et al. Seed viability testing model of sweet corn based on artificial neural network and binary logisitic regression[J]. Journal of China Agricultural University, 2018, 23(7): 1-10. (in Chinese with English abstract)
[24] Chandra B, Kothari R, Paul P. A new node splitting measure for decision tree construction[J]. Pattern Recognition, 2010, 43(8): 2725-2731.
[25] Liu W, Chawla S, Cieslak D A, et al. A Robust decision tree algorithm for imbalanced data sets[C]//Proceedings of the SIAM International Conference on Data Mining. America: SIAM, 2010, 766-777.
[26] Umano M, Okamolo H, Hatono I, et al. Fuzzy decision trees by fuzzy ID3 algorithm and its application to diagnosis system[C]//Proceedings of the 3 IEEE International Conference on Fuzzy Systems. New York: IEEE Press, 1994, 3: 2113-2118.
[27] Ju Hongyun, Zhang Junben, Li Chaofeng et al. Remote sensing image based on-means and SVM automatic classification method[J]. Application Research of computers, 2007, 24(11): 318-320.
[28] Ma Jiajun, Zhou Shuisheng, Li Chen, et al. A sparse robust model for large scale multi-class classification based on K-SVCR[J]. Pattern Recognition Letters, 2019, 117: 16-23.
[29] Zhang J, Zhang P, Li Z. Fuzzy support vector machine based on color modeling for facial complexion recognition in traditional chinese medicine[J]. Chinese Journal of Electronics, 2016, 25(3): 474-480.
[30] Nasiri J A, Charkari N M, Jalili S. Least squares twin multi-class classification support vector machine [J]. Pattern Recognition, 2015, 48(3): 984-992.
Tea selection method based on morphology feature parameters
Wu Zhengmin, Cao Chengmao※, Wang Errui, Luo Kun, Zhang Jinyan, Sun Yan
(,230036,)
The color between stalks and leaves of tea in summer and autumn is similar, which means the traditional color sorter is difficult to sort based on optical characteristics. To realize the rapid modeling of tea selection algorithm and improve the sorting accuracy, a method for sorting the fine and bad products of tea by multi-feature vectors based on the morphological characteristics was introduced in this paper. First, Wuyishan Dahongpao tea was selected as a test sample to collect images during the dynamic drop process. The blue element image was extracted, and single sample’s binary image and edge were obtained by analysis of whole image connection area. Then, feature extraction program was developed based on image processing algorithm to extract morphological feature parameters of the tea samples automatically. Four simple shape descriptors-the sample perimeter, area, the length and width of minimum bounding rectangle were extracted. On this basis, eight complex shape descriptors-circularity, rectangularity, linearity, slightness, diameter, diagonal of minimum bounding rectangle, compactness and centroid were calculated. In addition, the random forest algorithm was used to determine the above features weight, the feature was selected according to weight threshold. Finally, logistic regression (LR), decision tree (DT) and support vector machine (SVM) that three different classification algorithms were established to classify the samples, verify the validity of the features and analyze the effects of different classification algorithms on the classification of tea. The original data were normalized and randomly segmented 80% used for training, 20% for testing. 10-fold cross-validation was used to select the optimal parameters of the classification model, and the training dataset was randomly divided into 10 parts, of which 9 parts were used for training, and the remaining 1 part was used for verification. According to the above machine learning system parameter optimization process to obtain the logical regression, decision tree and support vector machine optimal model, and statistical the final evaluation results on test dataset. The test results showed that: 1) The circularity weight was the highest, at 0.467, and five eigenvectors of circularity, rectangularity, linearity, perimeter and compactness were finally selected with the weight threshold value which was 0.05; 2) In the test dataset, the average accuracy1 of the three classification algorithms was 0.924, suggesting that the established tea morphological feature descriptors has certain separability and better effect; 3)When testing test-dataset, the accuracy score was 91.7% and1 score of logistic regression (LR) was 92.9%, the accuracy score was 91.7% and1 score of support vector machine (SVM) was 94.7%.Support vector machine (SVM) algorithm was the best recognition effect in three classification algorithms; 4) From three different classification algorithms assessment score deviation, we can see that the generalization ability of the logic regression algorithm was stronger, the decision tree algorithm has a greater risk of over fitting. We get the lowest accuracy and1 score of the logistic regression algorithm, while the support vector machine accuracy and1 score were the highest, so in the evaluation of eigenvector comparability, multiple algorithms can be selected to evaluate the results of the average as the final basis for evaluation. In the experiment, we acquired dynamic image, which stay in line with the actual working conditions of the tea selection process, and can be extended to the actual processing of tea production.
morphology; decision tree; support vector machine; logistic regression; random forest; tea
2018-12-14
2019-04-18
安徽省科技重大專(zhuān)項(xiàng)(18030701195)和安徽省高校自然科學(xué)研究項(xiàng)目(KJ2016A233)聯(lián)合資助
吳正敏,博士研究生,研究方向?yàn)椴枞~智能化精加工。Email:wuzhengmin@ahau.edu.com
曹成茂,教授,博士生導(dǎo)師,主要從事智能檢測(cè)與控制技術(shù)、農(nóng)業(yè)機(jī)械化工程研究。Email:caochengmao@sina.com
10.11975/j.issn.1002-6819.2019.11.036
TP391.4
A
1002-6819(2019)-11-0315-07
吳正敏,曹成茂,王二銳,羅 坤,張金炎,孫 燕. 基于形態(tài)特征參數(shù)的茶葉精選方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(11):315-321. doi:10.11975/j.issn.1002-6819.2019.11.036 http://www.tcsae.org
Wu Zhengmin, Cao Chengmao, Wang Errui, Luo Kun, Zhang Jinyan, Sun Yan. Tea selection method based on morphology feature parameters[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(11): 315-321. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.11.036 http://www.tcsae.org