李嘉康,陶智麟 ,徐 波 ,徐大勇 ,堵勁松 ,李華杰
(1.中國煙草總公司鄭州煙草研究院,鄭州 450001;2.鄭州益盛煙草工程設(shè)計咨詢有限公司,鄭州 450001;3.福建中煙工業(yè)有限責(zé)任公司,福建 廈門 361021)
煙葉分級中,煙葉紋理特征是較少被研究和應(yīng)用的一個關(guān)鍵指標(biāo)。煙葉表面的油分含量、褶皺度、組織緊密程度、含梗率、油分等指標(biāo)是煙葉分級的重要因素,同時也與煙葉紋理特征相關(guān)。因此,研究不同煙葉下的紋理特征提取算法為煙葉智能分級提供依據(jù)具有重要意義。
煙葉的紋理特征相關(guān)研究較少,但是紋理作為數(shù)字圖像的特質(zhì)屬性,能夠真實反映物體表面的粗糙度、方向等屬性,其作用在紋理描述中體現(xiàn)得尤為明顯。為取得大多數(shù)自然景物的更多信息,通過分析其組成結(jié)構(gòu)的細(xì)微紋理而獲得[1]。在目標(biāo)識別與自動檢測領(lǐng)域,Kumar 等[2]、Chan 等[3]采用紋理分析方法檢測原木中不合格的部分;在圖像檢索領(lǐng)域,施智平等[4]提出了一種新的紋理譜描述,并應(yīng)用于圖像檢索中?;诩y理特征的視覺檢測技術(shù)也被應(yīng)用于煙葉分級中,張帆等[5]研究在標(biāo)準(zhǔn)煙葉數(shù)據(jù)庫的圖像檢索中使用了紋理計算方法來分析煙葉;杜東亮等[6]使用小波分析煙葉紋理,提出基于灰色系統(tǒng)理論通過煙葉的其他外觀特征來綜合描述煙葉的成熟度和油分。
在煙葉分級研究中,較多通過紋理提取算法得到紋理特征值后直接作為評價指標(biāo),而本研究利用兩種紋理提取方法,以不同梯度參數(shù)提取煙葉紋理參數(shù)進行降維和重要度分析,以得出能夠表征煙葉紋理的參數(shù),作為評價煙葉紋理的特征值。
樣本集:貴州遵義地區(qū)種植品種為中煙100 的鮮煙葉,其中有效煙葉數(shù)字圖像136 張,無效煙葉數(shù)字圖像 116 張。研究平臺:python3.7.0;opencv4.4.0;scikit-learn0.23.2。
圖1 中煙100 樣本
將鮮煙葉置于恒溫恒濕(溫度:21 ℃,相對濕度:70%)環(huán)境下平衡1~2 d;以Canon EOS 5D Mark IV 數(shù)字相機為主體的圖像采集器,在暗箱內(nèi)標(biāo)準(zhǔn)光源下,調(diào)整圖像采集器的白平衡和18°灰板的測光,確保符合采集過程中的光照環(huán)境參數(shù)。將平衡后的鮮煙葉放置圖像采集系統(tǒng)黑色背景下依次拍照獲取鮮煙葉數(shù)字圖像。
1.3.1 灰度共生矩陣 灰度共生矩陣(GLCM)的統(tǒng)計方法由Haralick 等[7]提出,是基于圖像中像素的空間分布包含圖像紋理信息的假設(shè),提出了一種綜合的紋理分析方法。共生矩陣由兩個像素的聯(lián)合概率密度定義,不僅反映了亮度的分布特性,而且還反映了亮度相同或接近亮度的像素之間的分布特性,是圖像亮度變化的二階統(tǒng)計特征,其是定義一組紋理特征的基礎(chǔ)。由于紋理是由灰度在空間位置上的重復(fù)出現(xiàn)而形成的,因此圖像空間中一定距離的兩個像素之間會存在一定的灰度關(guān)系,即圖像中灰度的空間相關(guān)性特征?;叶裙采仃囀峭ㄟ^研究灰度的空間相關(guān)性來描述紋理的一種常用方法[7]。
歸一化后的灰度共生矩陣如下:
圖2 灰度共生矩陣紋理特征圖
通過基于灰度共生矩陣的紋理特征提取可知,能量(ASM,energy)是灰度共生矩陣元素值的平方和,也稱能量,反映了圖像灰度分布均勻程度和紋理粗細(xì)度。對比度(contrast)反映了某個像素值及其領(lǐng)域像素值的亮度的對比情況。如果偏離對角線的元素有較大值,即圖像亮度值變化很快,會有較大取值,反映了圖像的清晰度和紋理溝紋深淺的程度。紋理溝紋越深,其對比度越大,視覺效果越清晰。熵(entropy)是圖像所具有的信息量的度量,紋理信息也屬于圖像的信息,是一個隨機性的度量,當(dāng)共生矩陣中所有元素有最大的隨機性、空間共生矩陣中所有值幾乎相等時,共生矩陣中元素分散分布時,熵較大。它表示了圖像中紋理的非均勻程度或復(fù)雜程度。自相關(guān)(correlation)反映了圖像紋理的一致性,度量空間灰度共生矩陣元素在行或列方向上的相似程度,因此,相關(guān)值大小反映了圖像中局部灰度相關(guān)性[8]。
1.3.2 Gabor 小波變換 Gabor 小波核類似于哺乳動物視皮層細(xì)胞的感受野,具有良好的空間局部性、空間頻率和方向選擇性,能夠提取圖像局部區(qū)域的多尺度、多方向的顯著特征[9]。因此,Gabor 小波變換對光照等外部環(huán)境的變化具有很強的魯棒性。
二維 Gabor 小波函數(shù)定義為[10,11]:
其中,實數(shù)部分與虛數(shù)部分為:
x,y分別表示像素坐標(biāo)位置;λ表示濾波的波長;θ表示Gabor核函數(shù)圖像的傾斜角度;ψ表示相位偏移量,范圍是-180°~180°;σ表示高斯函數(shù)的標(biāo)準(zhǔn)差;γ表示長寬比,決定Gabor核函數(shù)圖像的橢圓率。
圖3 波長為8 的八個角度Gabor 濾波器
圖4 由8 個Gabor 濾波器提取的紋理特征圖
采取灰度共生矩陣算法中4 個不同距離梯度,4個不同方向梯度下的6 個紋理值、對比度、相異性、同次性、相關(guān)性、能量和ASM 能量共96 個維度特征;采取Gabor 小波算法中8 個不同角度下的兩個紋理值,均值和方差共16 個維度。綜上每張煙葉圖共有112 維度特征,為確定能表征此煙葉的紋理特征,運用主元降維的方式確定區(qū)分度最大的主元來確定數(shù)據(jù)是否可區(qū)分,同時通過各個高維向量的主元荷載圖來確定最具貢獻維度。
隨機森林是一種有監(jiān)督的學(xué)習(xí)算法,也是一種基于決策樹的集成學(xué)習(xí)算法。隨機森林簡單,易實現(xiàn),計算開銷小,它在分類和回歸方面具有良好的性能。由于采用集成算法,其精度優(yōu)于大多數(shù)單一算法,因此具有較高的精度。隨機森林在測試集中表現(xiàn)良好,由于兩種隨機性的引入,隨機森林不易陷入過擬合,可以處理高維數(shù)據(jù),無需特征選擇,對數(shù)據(jù)集的適應(yīng)性強,具有一定的參考意義。通過隨機森林算法對共252 個樣品112 維度特征進行分類識別。
通過可視化有效鮮煙葉和無效鮮煙葉在主元分析中結(jié)果,將兩種煙葉的相同維度的數(shù)據(jù)貼標(biāo)簽后融合進行主元分析。在前5 個主元中,主元的分布如圖5 所示,前5 個主元總貢獻率為99.92%,其解釋了大多數(shù)維度紋理特征。由于其分布在主元1 和主元2 下具有聚類特征,如圖5 所示,藍點代表無效煙葉的分布,紅點代表有效煙葉的分布,主元分布圖通常能夠展示數(shù)據(jù)集的內(nèi)部信息。由圖5a 所示,其具有可區(qū)分性。
圖5 2D PCA 點圖主元 1 與主元 2(a)、主元 2 與主元 3(b)
雖然數(shù)據(jù)集具有聚類特性,但是由于數(shù)據(jù)維度過高,冗余信息過多,因此通過主元荷載圖可以選擇最有效的特征信息與后續(xù)建立分類模型具有對比性。由于其只在PC1 和PC2(圖5a)中具有明顯特征,圖6 僅展示PC1 和PC2 的荷載圖,通過荷載圖可以得知,其在第52 維度至第63 維度下具有顯著的有效性?;叶裙采仃囁惴ǖ牟介L為4、8、16 下的0°、45°、90°和 135°共 12 維度,因此,初步認(rèn)為此參數(shù)下的紋理值能夠表征此數(shù)據(jù)集煙葉。
圖6 PCA 荷載圖 PC1(a)、PC2(b)
基于全維度的隨機森林判別模型,選擇20%的樣本集作為測試集,80%的樣本集作為訓(xùn)練集,到88%的分類精度,通過10 次交叉驗證得到其分類精度在86%左右,具有較好的分類表現(xiàn)(圖7)。
圖7 10 次交叉驗證結(jié)果
在隨機森林判別模型中,確定最具重要性的紋理特征維度,作為評估煙葉紋理的定量分析指標(biāo),圖8 為選擇重要性大于0.03 的維度特征分別為灰度共生矩陣下距離4,角度45°的能量值;距離8,角度45°的能量值;距離8,角度90°的能量值;距離16,角度90°的能量值;距離 16,角度 90°的相關(guān)性值;Gabor小波紋理下波長5,角度122.5°的標(biāo)準(zhǔn)差。樣品集中的煙葉擺放方式為煙梗朝上,葉尖朝下。
圖8 紋理維度重要度
選用貴州遵義中煙100 的鮮煙葉,經(jīng)專家挑選識別后,分為有效煙葉和無效煙葉兩類,其中無效煙葉包含過熟煙葉、帶病煙葉、殘損煙葉等。通過自主搭建的圖像采集系統(tǒng),在規(guī)范的色溫色差曝光等參數(shù)設(shè)定條件下,通過分析有效煙葉和無效煙葉的數(shù)字圖像,經(jīng)過預(yù)處理背景掩膜,提取無背景數(shù)值的鮮煙葉圖像,采用灰度共生矩陣法和Gabor 小波下的不同參數(shù)提取紋理特征值,通過主元分析得出最具區(qū)分度的紋理特征,同時采用隨機森林判別模型對樣本集分類,獲取能夠表征煙葉紋理值的定性指標(biāo)。
在灰度共生矩陣算法下,步長參數(shù)為4、8、16 和提取角度為 0°、45°、90°和 135°共 12 維度的紋理值在第一主成分下有較好的聚類效果,分別對應(yīng)的方向為以煙梗到煙葉尖為垂直方向,順時針0°、45°、90°和135°下的紋理方向有較好的表征。在隨機森林判別算法下,同時包含以上參數(shù)且分類結(jié)果交叉驗證為86%,得到較好的驗證。因此,紋理參數(shù)下的紋理值能夠表征此數(shù)據(jù)集煙葉。本研究選用的參數(shù)為紋理數(shù)值,采用灰度共生矩陣算法和Gabor 小波變換得到的紋理圖,通過卷積網(wǎng)絡(luò)進行紋理圖全局特征提取,再連接全連接層進行分類研究。