楊述斌,董春林,王 鋒,周敏瑞
(1.武漢工程大學(xué) 電氣信息學(xué)院,武漢 430205;2.智能機器人湖北省重點實驗室,武漢 430205)
煙葉是卷煙的主要原料,為保持卷煙品質(zhì)的穩(wěn)定,需要將不同質(zhì)量的煙葉區(qū)分開來[1]。我國現(xiàn)行的烤煙國家標(biāo)準(zhǔn),通過對烤煙的外觀特征的標(biāo)準(zhǔn)定量將煙葉分為42 個等級[2]。傳統(tǒng)煙葉分級由人工通過視覺和觸覺對煙葉進行分級,這種感官檢測分級方法的不確定性很大,且存在分選效率低、選后合格率不穩(wěn)定等缺點[3]。
近些年,機器視覺技術(shù)在農(nóng)產(chǎn)品質(zhì)量檢測領(lǐng)域的迅速發(fā)展為煙葉自動分級提供了新思路,利用成像設(shè)備采集煙葉圖像,對煙葉圖像進行形態(tài)特征的提取[4-5];對煙葉圖像進行顏色空間轉(zhuǎn)換,提取煙葉圖像反射或透射條件下的顏色特征[6-8];采用灰度共生矩陣法、小波分析法等對煙葉進行分析,提取煙葉圖像的紋理特征[9-10]。在圖像特征提取后,利用聚類分析[11]、支持向量機[12]、神經(jīng)網(wǎng)絡(luò)[13]等方法對煙葉進行分級。
對上述研究總結(jié),通過提取多維圖像特征信息進行煙葉分級會增加模型計算量,另外不同的分級方法的分級識別率和分級穩(wěn)定性有所差別。針對煙葉圖像需提取多維特征這一特點,采用具有柔性的網(wǎng)絡(luò)結(jié)構(gòu)和強大的多維函數(shù)映射能力的BP(back propagation)神經(jīng)網(wǎng)絡(luò)作為煙葉分級模型,其可以設(shè)定隱藏層的神經(jīng)元個數(shù)和網(wǎng)絡(luò)中間層層數(shù),適用于多個煙葉圖像特征與煙葉等級映射關(guān)系的構(gòu)建。但是BP 神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu),且存在學(xué)習(xí)速度慢等問題。為解決此問題,利用局部搜索能力強、收斂速度快的麻雀搜索算法對BP 神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值進行優(yōu)化[14];當(dāng)提取的圖像特征維數(shù)過大時會產(chǎn)生模型復(fù)雜度高、分級實時性降低等問題,為此使用PCA 進行冗余信息的消除。
因此,提出一種基于PCA-SSA-BP 優(yōu)化網(wǎng)絡(luò)模型的煙葉分級方法,在保證煙葉識別準(zhǔn)確率的同時提高煙葉分級實時性。
將煙葉圖像進行分析處理,提取其形狀特征、顏色特征、紋理特征組成原始特征矩陣,使用PCA 對其進行處理,得到新的特征矩陣作為BP 網(wǎng)絡(luò)模型的輸入。針對BP 網(wǎng)絡(luò)容易陷入局部最優(yōu)的情況,引入麻雀搜索算法對BP 神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進行優(yōu)化,提高模型的尋優(yōu)能力和收斂速度,PCASSA-BP 神經(jīng)網(wǎng)絡(luò)煙葉分級算法的流程如圖1所示。
圖1 PCA-SSA-BP 神經(jīng)網(wǎng)絡(luò)煙葉分級算法流程Fig.1 Flow chart of PCA-SSA-BP neural network based tobacco leaf grading algorithm
主成分分析(principal component analysis,PCA)依據(jù)方差最大化原理,將p 維空間特征映射到k 維空間(p>k),構(gòu)建樣本原始特征數(shù)據(jù)矩陣Xn×p為
式中:p 表示樣本特征維數(shù);n 表示樣本數(shù)量。將Xn×p=(X1,X2,…,Xp)表示為矩陣的p 個特征列向量,則矩陣Xn×p中第j 個特征的均值為
式中:xij為第j 個特征的第i 個樣本。
假設(shè)向量X 與向量Y,那么協(xié)方差定義為
協(xié)方差矩陣為
奇異值(SVD)分解后可以得到其特征值與特征向量,將特征值按照降序排列λ1≥λ2≥…≥λp,選取與特征值對應(yīng)的前k 個特征向量μ1,μ2,…,μk(k<p)組成新的線性變換矩陣Wp×k,將原始特征數(shù)據(jù)矩陣與之相乘得到為
麻雀搜索算法(sparrow search algorithm,SSA)是一種模仿麻雀種群社會生存行為的群體智能尋優(yōu)算法,其根據(jù)麻雀種群的生存機制原理,將麻雀劃分為生產(chǎn)者、尾隨者和預(yù)警者[15]。
生產(chǎn)者擁有較高的搜索能力,可以搜索到食物充足的領(lǐng)地,為麻雀種群中的尾隨者指明覓食的方向。
尾隨者會尾隨能量儲備高的生產(chǎn)者來進行覓食。在種群中生產(chǎn)者和尾隨者的身份會因能量儲備的高低互相轉(zhuǎn)變。
預(yù)警者占整個麻雀種群的20%左右,當(dāng)有追捕者出現(xiàn)在種群附近時,預(yù)警者會根據(jù)預(yù)警值大小做出反捕食行為。
在麻雀搜索算法中麻雀的每一次位置改變都會使整個種群隨之發(fā)生變化。
每一次生產(chǎn)者位置的更新公式為
當(dāng)R2<ST 時,表示種群未受到追捕者的威脅,生產(chǎn)者可以在領(lǐng)地進行食物搜索;當(dāng)R2≥ST 時,預(yù)警者發(fā)出警報,使種群轉(zhuǎn)移到安全領(lǐng)地再次進行食物搜索。
每一次尾隨者的位置更新公式為
每一次預(yù)警者位置更新公式為
式中:β 為步長控制參數(shù);K 是步長控制參數(shù);fi為第i 個個體的適應(yīng)度值;fw為當(dāng)前種群的最差適應(yīng)度值;fg為當(dāng)前種群的全局最優(yōu)適應(yīng)度值;ε 為常數(shù)項。
當(dāng)fi≠fg時,表示該麻雀位于種群的邊緣,需通過飛往其他領(lǐng)地使自身的適應(yīng)度提高;當(dāng)fi=fg時,表示該麻雀位于種群中心位置且接收到預(yù)警信號,需飛往其他安全領(lǐng)地來降低被獵捕的可能性。
本文采集自襄陽南漳地區(qū)的5 個等級烤煙煙葉樣本共45 份,由煙葉分級專家評定等級為B2F,B3F,C3F,X2F,X3F。煙葉圖像采集過程在黑色密閉箱體內(nèi)完成,箱體規(guī)格(長×寬×高)為1.5 m×0.9 m×0.9 m,烤煙煙葉圖像采集選用Canon EOS 77D APSC 相機,鏡頭采用Canon EF-S IS STM 型,箱體頂部為4 只色溫為5500 K 的LED 燈管,箱體底部為白色磨砂玻璃載物臺,相機與計算機通過HDMI 接口連接起來,采集裝置如圖2所示。使用MATLAB2018a平臺控制實現(xiàn)烤煙煙葉圖像的實時采集。
圖2 煙葉圖像采集裝置Fig.2 Acquisition device of tobacco leaf images
如圖3所示,通過圖像采集裝置得到煙葉圖像,如圖3(a)。對煙葉圖像進行預(yù)處理得到煙葉二值分割圖像,如圖3(b),對二值分割圖像使用最小外接矩形法可以提取到煙葉的形狀特征;將RGB 顏色空間模型的煙葉圖像轉(zhuǎn)換到HSV 顏色空間模型來提取煙葉的顏色特征,如圖3(c)為HSV 顏色空間模型下的煙葉圖像; 對煙葉圖像進行Gabor 小波變換,如圖3(d)為π/10 濾波方向的煙葉圖像。
圖3 煙葉圖像預(yù)處理Fig.3 Pre-processing of tobacco leaf image
根據(jù)烤煙分級國家標(biāo)準(zhǔn)對煙葉品質(zhì)等級的規(guī)定,分別提取煙葉圖像的3 個葉態(tài)特征:長度、寬度、長寬比;5 個體態(tài)特征:周長、理想面積、實際面積、破損率、密質(zhì)度;6 個顏色特征:R,G,B,H,S,V;3 個紋理特征:均值能量、對比度、熵,用x1,x2,…,x17來表示實際面積、理想面積、破損率、周長、長、寬、密質(zhì)度、RGB 分量、HSV 分量、均值能量、對比度、熵共17 個特征。
(1)主成分分析
構(gòu)建煙葉樣本原始特征數(shù)據(jù)矩陣X45×17。利用式(2)~式(5)求得協(xié)方差矩陣,計算所有PC 的累計貢獻率,取不同PC 維數(shù)情況下的累計貢獻率曲線,如圖4所示。顯示主成分大于7 后的累計貢獻率趨于穩(wěn)定,取前7 個主成分(累計貢獻率98.2%)為降維后新的七維特征矩陣作為BP 網(wǎng)絡(luò)的輸入。
圖4 主成分累計貢獻率曲線Fig.4 Cumulative contribution curves for different numbers of principal components
(2)確定BP 網(wǎng)絡(luò)隱藏層節(jié)點數(shù)
使用3 層網(wǎng)絡(luò)結(jié)構(gòu),采用經(jīng)驗公式來確定隱藏層節(jié)點數(shù),計算公式為
式中:l 為隱含層節(jié)點數(shù);a 為(1,10)內(nèi)的常數(shù);m 為輸出層節(jié)點數(shù);n 為輸入層節(jié)點數(shù)。
通過式(9)計算得隱藏層節(jié)點數(shù)的取值范圍,如表1所示,最佳隱藏層節(jié)點數(shù)為7,此時網(wǎng)絡(luò)訓(xùn)練集的準(zhǔn)確率為89.9%。
表1 不同隱藏層節(jié)點的識別準(zhǔn)確率Tab.1 Recognition accuracy of nodes in different hidden layers
(3)計算優(yōu)化維度
待優(yōu)化的麻雀種群的維度d。計算種群維度公式為
式中:E 為BP 網(wǎng)絡(luò)的輸入?yún)?shù)個數(shù);F 為BP 網(wǎng)絡(luò)的隱藏層節(jié)點個數(shù);G 為BP 網(wǎng)絡(luò)的輸出參數(shù)個數(shù),由公式計算得到需要優(yōu)化的維度為96 維。
(4)適應(yīng)度函數(shù)
將訓(xùn)練集與測試集總體的平均絕對誤差值作為適應(yīng)度值,適應(yīng)度值越小,模型的分類精度更高,其表達式為
本文使用收斂速度快,魯棒性強的遺傳算法(GA)對BP 網(wǎng)絡(luò)進行優(yōu)化對比,將所有對比網(wǎng)絡(luò)模型的相同參數(shù)均保持一致設(shè)置,PS 為種群大小,PD為生產(chǎn)者比例,PC 為交叉概率,PM 為變異概率,ST為預(yù)警值,SD 為預(yù)警者比例,參數(shù)設(shè)置如表2所示。
表2 對比算法參數(shù)設(shè)定Tab.2 Parameter setting of comparison algorithm
將圖像分析提取到的特征值向量導(dǎo)入到對比算法網(wǎng)絡(luò)模型中,進行對比分析。
各模型的適應(yīng)度進化收斂曲線,如圖5所示。分析可以得到PCA-SSA 優(yōu)化模型、SSA 優(yōu)化模型收斂曲線的整體收斂速度優(yōu)于PCA-GA 優(yōu)化的網(wǎng)絡(luò)模型,而PCA-GA 優(yōu)化模型的最終適應(yīng)度值要低于SSA 優(yōu)化模型。經(jīng)PCA-SSA 優(yōu)化后的模型的收斂曲線速度要快于SSA 優(yōu)化模型,PCA-SSA 優(yōu)化模型在進化代數(shù)為4 代的時候其平均絕對誤差達到0.06579,而SSA 優(yōu)化模型在進化代數(shù)為7 代的時候才到達相同水平,因此PCA-SSA 優(yōu)化網(wǎng)絡(luò)模型的適應(yīng)度較為優(yōu)秀。
圖5 適應(yīng)度收斂曲線對比Fig.5 Comparison of adaptation convergence curves
將采集到的45 個煙葉圖像樣本隨機選擇其中38 個樣本作為訓(xùn)練集,7 個樣本作為測試集,使用PCA 對提取到17 個煙葉外觀特征矩陣進行降維。將降維后的七維特征矩陣作為SSA-BP 優(yōu)化網(wǎng)絡(luò)模型的輸入,對煙葉樣本進行等級識別。以PCA 的處理時長和網(wǎng)絡(luò)模型的訓(xùn)練識別時長之和作為判別網(wǎng)絡(luò)模型的高效性指標(biāo),并與未降維的網(wǎng)絡(luò)模型進行對比。如表3所示,可以得知PCA-SSA-BP 優(yōu)化網(wǎng)絡(luò)模型的煙葉等級平均識別率達到96.5%,運行總時間為97.99 s,與BP 網(wǎng)絡(luò)模型相比識別率提高了24%;與PCA-GA-BP 優(yōu)化網(wǎng)絡(luò)模型相比識別率提高了3.8%,分級效率提高了9.9%;與SSA-BP 優(yōu)化網(wǎng)絡(luò)模型識別率提高了1.8%,分級效率提高了54.5%。
表3 不同模型煙葉識別結(jié)果對比Tab.3 Comparison of tobacco leaf recognition results of different models
通過分析煙葉圖像,提取到煙葉的17 個特征進行PCA 降維,消除冗余信息,簡化模型的復(fù)雜程度,提升了模型的分級效率;選取全局搜索能力強、穩(wěn)定性優(yōu)秀的麻雀搜索算法對BP 網(wǎng)絡(luò)模型的閾值、權(quán)重參數(shù)進行優(yōu)化,提高了模型的識別率。
建立PCA-SSA-BP 優(yōu)化網(wǎng)絡(luò)模型的煙葉分級實驗結(jié)果表明:PCA-SSA-BP 優(yōu)化網(wǎng)絡(luò)模型的煙葉分級識別結(jié)果準(zhǔn)確率高、實時性好,可以基本滿足實際生產(chǎn)需求,并為小樣本高維多特征的烤煙煙葉的等級識別提供了一種有效快速的鑒別方法。