王承琨,趙 鵬,李祥華
1. 廣西科技大學(xué)電氣電子與計算機科學(xué)學(xué)院,廣西 柳州 545006 2. 東北林業(yè)大學(xué)信息與計算機工程學(xué)院,黑龍江 哈爾濱 150040 3. 黑龍江科技大學(xué)電子與電信工程學(xué)院,黑龍江 哈爾濱 150022
紫檀屬約有30種木材,分布于東南亞熱帶及非洲熱帶地區(qū),其屬內(nèi)稀有樹種數(shù)量較多,流通在市場上的木材價格較高。 同屬木材具有相似的特征,不法商販經(jīng)?!耙约賮y真”,使消費者的合法權(quán)益受到侵害,因此使用有效、 快捷的方法對紫檀屬木材樹種進行識別具有重要的意義。
在樹種識別的過程中,找到能夠描述樹種信息的特征向量尤為重要。 目前能夠獲得特征向量的途徑主要包括木材的DNA(deoxyribonucleic acid)信息、 木材解剖學(xué)信息、 宏觀切面信息以及光譜信息。 使用木材的DNA信息和木材解剖學(xué)信息的樹種識別方法具有較高的識別正確率,但是這些方法識別步驟較為繁瑣且需要非常專業(yè)的設(shè)備,對于非專業(yè)人員來說是一類門檻很高的識別方法。
與木材的DNA信息和解剖學(xué)信息相比,木材的宏觀信息和光譜信息更容易獲取,已經(jīng)有大量學(xué)者通過上述信息找到了描述木材樹種的有效特征向量[1]。 Zamri等[2]使用I-BGLAM(improved-basic gray level aura matrix)對52種木材橫切面的紋理特征進行了提取,該方法與傳統(tǒng)的GLCM(gray level co-occurrence matrix)相比具有更高的識別正確率。 Rosli等[3]利用GLCM特征和BP(back propagation)神經(jīng)網(wǎng)絡(luò)實現(xiàn)了不到一秒的時間內(nèi)快速識別熱帶樹種。 Oktaria等[4]使用CNN(convolutional neural networks)卷積神經(jīng)網(wǎng)絡(luò)對30個樹種的木材橫切面進行了樹種識別。 Ibrahim等[5]使用木材橫切面的管孔統(tǒng)計特征和I-BGLAM特征對木材樹種進行了模糊分類識別。 Yusof等[6]使用GA (genetic algorithm)對木材橫切面的管孔特征做了特征提取,然后使用KDA(kernel discriminant analysis)和GSVD(generalized singular value decomposition)分解對GA提取到的特征向量做了非線性特征提取,進一步提高了識別正確率。 上述方法均是在單一信息源情況下對樹種進行識別,復(fù)現(xiàn)上述方法應(yīng)用于紫檀屬木材后發(fā)現(xiàn),上述方法均不能得到較高的識別正確率。 這主要是由于紫檀屬木材樹種的圖像信息和光譜信息較為相似,無法通過單一特征向量對這些木材樹種進行區(qū)分。
因此采集了5種紫檀屬木材的橫切面、 弦切面和縱切面的宏觀圖像信息和光譜信息,考慮將木材切面的紋理特征和光譜特征進行融合,使用融合后的特征對紫檀屬的樹種進行識別,以期使用木材的多種特征向量加強對木材樹種的描述,從而提高紫檀屬木材樹種的識別正確率。
紫檀屬屬于蝶形花科,按照GB/T 18107—2000《紅木》可以將該屬木材分為紫檀木類、 花梨木類以及亞花梨木類。 本工作以紫檀屬中5種木材為研究對象,這些木材主要來自國內(nèi)的紅木商家,其詳細(xì)信息詳見表1。 為了防止同質(zhì)化的出現(xiàn),在不同商家購買了同種木材樣本,這樣就可以保證同種木材樣本不來自于同一棵樹木或全部來自于同一區(qū)域。
表1 樣本資料Table 1 Sample data
為了方便數(shù)據(jù)的采集,使用圓臺鋸將所有木材樣本的尺寸統(tǒng)一為長寬高分別為2 cm×2 cm×3 cm的木塊,其中長寬對應(yīng)木材的橫切面,其面積為2 cm×2 cm,徑切面或弦切面的面積為2 cm×3 cm,鋸片尺寸規(guī)格為110×0.8×20×108T。 每一塊原始木料的形態(tài)是不規(guī)則的,切割出的樣本數(shù)量也并不統(tǒng)一,在這些切割后的樣本中隨機選擇2個樣本作為原始木料所代表的標(biāo)準(zhǔn)樣本,挑選過程中要選擇不開裂、 沒有蟲蛀的樣本,最后每個樹種產(chǎn)生了50個樣本,實驗樣本集中包含了250個樣本。 為了獲得較為清晰的木材切面圖像,需要使用1 000目的砂紙對木材的各個切面進行打磨。
數(shù)據(jù)采集平臺主要包括光譜采集平臺和圖像采集平臺,圖1中分別給出了它們的示意圖。 光譜采集平臺由美國Ocean公司生產(chǎn)的Optics USB2000-VIS-NIR微型光纖光譜儀、 光源以及采集軟件3個部分組成; 圖像采集平臺主要由支架、 相機鏡頭、 光學(xué)顯微鏡、 LED(light-emitting diode)光源以及采集軟件5個部分組成,該平臺可以小倍率放大物體,放大倍率約為10~100倍,光學(xué)顯微鏡可以手動調(diào)焦,LED光源為白光,亮度可調(diào)節(jié),相機鏡頭最高支持分辨率為1 920×1 080像素。
圖1 木材特征采集設(shè)備(a): 光譜采集平臺; (b): RGB圖像采集平臺Fig.1 Wood feature acquisition platforms(a): Spectrum acquisition; (b): RGB image acquisition
采集木材切面上5個不同位置的光譜,并取這些光譜的平均光譜反射率作為樣本的光譜反射率曲線。 為了防止光譜失真,每測量5個樣本的木材光譜反射率后需要使用白板對其進行校正。
Optics USB2000-VIS-NIR微型光纖光譜儀的波長范圍為339.8~1 026.63 nm。 光譜儀采集到的光譜波段信息包括可見光波段,該波段的光譜信息對木材切面的顏色、 光源以及木材的含水率十分敏感。 因此在采集光譜數(shù)據(jù)時一定要確保木材切面的顏色、 光源以及木材含水率的穩(wěn)定,降低外界環(huán)境對上述因素的干擾,為此,所使用的木材樣本均在切割前進行了烘干,其含水率保證在10%以下,室內(nèi)溫度濕度環(huán)境保持穩(wěn)定。
圖2中的第一行、 第二行、 第三行圖像分別代表紫檀屬木材的橫切面、 弦切面以及徑切面。 圖2中的所有RGB(red-green-blue)圖像都是在相同比例尺下進行放大的,圖2(a)中給出了比例尺。 從圖2可以看出紫檀屬木材三個切面的RGB圖像具有較強的相似性。 在使用紋理特征對木材樹種進行識別時,需要消除顏色特征對圖像特征的影響,因此在提取圖像紋理特征之前必須要將RGB圖像進行灰度化。
1.2.1 紋理特征提取方法
紋理特征描述了木材切面上的灰度變化; 影響木材紋理特征的因素有很多,主要包括木材的管孔分布、 木射線走勢、 顏色變化等因素。 本工作考慮了多種木材紋理特征描述方法,主要包括GLCM,LBP(local binary pattern)[7],
圖2 紫檀屬木材切面示意圖(a): 大果紫檀; (b): 刺猬紫檀; (c): 安氏紫檀; (d): 非洲紫檀; (e): 贊比亞紫檀Fig.2 Images of Pterocarpus section(a): Pterocarpus macrocarpus; (b): Pterocarpus erinaceus; (c): Pterocarpus antunesii;(d): Pterocarpus soyauxii; (e): Pterocarpus tinctorius
I-BGLAM[8],MFS(multi fractal spectrum)[9],這些算法將分別與光譜特征進行融合,以考慮不同紋理特征在融合光譜特征后的識別正確率。
為了加快識別速度,在提取木材切面紋理特征值前需要將木材切面的圖像尺寸壓縮到像素。
1.2.2 光譜特征提取方法
使用光譜儀采集到的光譜數(shù)據(jù)波長范圍在339.8~1 026.63 nm之間,其光譜分辨率為0.335 3 nm,光譜數(shù)據(jù)的維度多達2 048。 由于光譜儀器設(shè)備自身的問題,光譜數(shù)據(jù)在低波長端反射率極易受到干擾,失真程度較大,因此只保留了376.64~1 026.63 nm的光譜數(shù)據(jù),其維度為1 950。 為了增強光譜數(shù)據(jù)的可分性還需要對數(shù)據(jù)進行SNV(standard normal variate)變換。
圖3(a)中給出了原始光譜反射率曲線、 圖3(b)中給出了SNV變換后的光譜曲線。 SNV變換后的光譜曲線的維度為1 950,如果直接對這些光譜進行分類處理,不僅容易出現(xiàn)“維數(shù)災(zāi)難”現(xiàn)象,而且數(shù)據(jù)處理速度也受到一定影響,因此對光譜數(shù)據(jù)進行降維處理十分有必要。
對比了多種降維方法的光譜分類效果,這些方法主要包括線性降維方法中的PCA(principal component analysis),非線性降維方法中的KPCA(kernel principal component analysis)和Laplacian,以及波段選擇方法SPA(successive projections algorithm)[10]。 PCA, KPCA和Laplacian降維方法是針對整個光譜數(shù)據(jù)進行的,主要是通過數(shù)學(xué)變換提取出光譜中最有意義的信息。 SPA的主要思想是消除特征變量間的多重線性關(guān)系,從而選擇出信息量大的特征波長。
基于典型相關(guān)分析CCA(canonical correlation analysis)的特征融合方法可以讓兩種不同的特征向量融合為一個全新的向量,該向量能夠更加有效的描述待識別對象[11],算法具體描述如下:
圖3 原始光譜數(shù)據(jù)與SNV校正結(jié)果(a): 原始光譜; (b): SNV校正后光譜曲線Fig.3 Original spectra and SNV corrected spectra(a): Original spectra; (b): SNV corrected spectra
(1)
(2)
根據(jù)Sun的定義,融合后的特征為典型相關(guān)判別特征,其特征融合策略有兩種,這兩種融合策略分別為式(3)和式(4),式(3)的融合方法被叫做“concat”,融合后的特征向量記為Z1,式(4)的融合方法被叫做“sum”,融合后的特征向量記為Z2。
(3)
(4)
本文利用支持向量機SVM(support vector machine)作為木材樹種的分類器。 為了防止過擬合的現(xiàn)象出現(xiàn),下面的識別正確率均采用的是交叉驗證中的“留一法”,該方法的基本思想是將樣本集中的每一個樣本單獨拿出作為測試集,其余的所有樣本作為訓(xùn)練集對其進行訓(xùn)練,從而判斷樣本集中每一個樣本的識別正確率,最后將判斷正確的樣本數(shù)量除以總數(shù)量便得到了識別正確率[13]。
單獨使用光譜特征對紫檀屬樹種進行識別時,影響識別正確率的因素主要包括降維方法和降維維數(shù),圖4中給出了使用PCA,KPCA和Laplacian三種降維方法的紫檀屬木材識別正確率與特征維數(shù)之間的關(guān)系,從圖4中可以看出,隨著特征維度的增加分類正確率逐步上升,當(dāng)維度超過10維后識別正確率逐漸趨于穩(wěn)定,PCA降維方法所對應(yīng)的識別正確率高于KPCA和Laplacian,其識別正確率高于94.00%。 以木材橫切面的光譜特征為識別對象時的識別正確率略高于其余兩個切面的識別正確率。
圖4 特征維數(shù)與識別正確率的關(guān)系Fig.4 Feature dimension and accuracy
表2中給出了不同降維方法的最高識別正確率所對應(yīng)的特征維數(shù),同時也給出了SPA選擇的最佳波段和識別正確率。 從表2中可以看出在木材橫切面上SPA波段選擇方法的識別正確率高于Laplacian和KPCA,但低于PCA降維方法的識別正確率。 木材弦切面和徑切面上SPA波段選擇方法的識別正確率高于其他降維方法。
單獨使用紋理特征對紫檀屬樹種進行識別時需要將紫檀屬木材切面的圖像進行灰度化以消除顏色對紋理特征的影響。 表3中給出了使用不同紋理特征對紫檀屬木材進行識別時的識別正確率。 通過表3可以發(fā)現(xiàn)4種紋理特征中正確率較高的是LBP和I-BGLAM兩種紋理特征。 GLCM,LBP和I-BGLAM三種紋理特征提取方法均在橫切面上取得了較高的識別正確率,MFS紋理特征提取方法在弦切面上取得了較高的識別正確率。
表2 不同降維方法下的最高正確率Table 2 The highest accuracies under different dimension reduction methods
表3 使用紋理特征的木材樹種識別率(%)Table 3 Accuracies of wood species usingtextures features (%)
另一方面通過表2和表3還可以發(fā)現(xiàn),使用光譜特征的識別正確率高于使用紋理特征的識別正確率,這是因為同屬木材的切面具有相似的紋理特征,由此可見單獨使用紋理特征對紫檀屬樹種進行精準(zhǔn)識別是不可行的。
表4分別考慮了使用“concat”融合策略和“sum”融合策略的木材識別正確率。 其中表的橫向代表光譜特征提取方法,縱向代表的是紋理特征提取方法,表中所列出的正確率是其橫坐標(biāo)的光譜特征提取方法和縱坐標(biāo)的紋理特征方法相融合的識別正確率。
表4 “concat”和“sum”融合策略下的正確率(%)Table 4 Accuracies of “concat” and “sum” fusion schemes (%)
從表4可以看出使用“concat”和“sum”兩種融合策略的最高分類正確率具有一定的差異,在弦切面和徑切面下,兩個融合策略所得到的最高分類正確率是相同的。 三個切面上的木材識別正確率最高均為99.20%,與單獨使用紋理特征或光譜特征相比,使用融合后的特征對紫檀屬木材進行識別時具有更高的識別正確率。
為了能夠進一步體現(xiàn)出光譜特征和紋理特征的互補作用,將數(shù)據(jù)集進行劃分,每個樹種隨機選擇40個樣本作為訓(xùn)練集,其余10個樣本作為測試集。 選擇木材橫截面上的光譜使用PCA進行降維,使用I-BGLAM提取紋理特征,并采用“concat”融合方法對測試集木材樹種進行識別,其識別結(jié)果如圖5所示。 將數(shù)據(jù)集按照上述方法進行分類時其正確率只體現(xiàn)在測試集中的50個樣本上,訓(xùn)練集數(shù)量也會減少,此時得到的測試集正確率與之前的交叉驗證率“留一法”會有一定的差異。 前面提到的交叉驗證中的“留一法”是每次測試時,每個樹種隨機選擇49個樣本作為訓(xùn)練集,剩下的1個樣本作為測試集。 這樣,全部5個樹種的訓(xùn)練集有245個樣本,測試集有5個樣本。 該測試過程重復(fù)執(zhí)行,直到對所有樣本都測試一次后結(jié)束。
從圖5中可以看出,單獨使用紋理特征對紫檀屬樹種進行識別時其錯誤的樣本較多,單獨使用光譜特征對紫檀屬樹種進行識別的錯誤樣本數(shù)量明顯少于單獨使用紋理特征的樣本數(shù)量。 融合后的特征可以大幅度降低錯誤樣本數(shù)量,圖5中的測試集樣本中只有2個樣本被誤分到了其他樹種中,其分類正確率為96.00%。 因此可以發(fā)現(xiàn)融合的特征可以彌補單獨使用光譜特征和紋理特征的不足,從而更加準(zhǔn)確的描述樣本個體。
圖5 測試集樣本的識別情況Fig.5 Identification of test set samples
對比方法主要包括GLCM算法、 I-BGLAM算法、 CNN算法、 管孔統(tǒng)計特征算法、 核遺傳算法以及顏色特征的分類方法。 各種算法得到的最高識別正確率如表5所示。 因在表3中已經(jīng)列出了GLCM和I-BGLAM兩種算法的識別正確率,所以表5中沒有重復(fù)列出。
表5 其他木材識別方法與本方法的正確率對比
通過表5可以發(fā)現(xiàn),目前較為傳統(tǒng)的木材樹種識別方法并未得到較高的識別結(jié)果。 這主要是因為上述這些方法均是以木材切面的宏觀圖像特征為研究對象,同屬的木材在切面上具有較為相似的紋理特征和管孔特征,出現(xiàn)樣本錯分的情況是在所難免的。
本實驗所使用的計算機配置為: CPU: Intel I7-6700,內(nèi)存: 8G,顯卡: AMD Radeon R7 200 機械硬盤容量為1TB。 表6中給出了一個樣本光譜特征、 紋理特征以及融合算法所需要的計算時間,這里的計算時間均是重復(fù)計算50次所得到的平均時間。
表6 提取單一樣本特征的時間Table 6 Extraction time of single sample features
從表6可以看出單一樣本的光譜特征和紋理特征提取速度是十分迅速的,如果將PCA方法和I-BGLAM相結(jié)合整體時間大約在0.033 s左右,不僅可以得到較好的識別正確率也可以滿足識別速度的需求。
將5種紫檀屬木材與30種其他木材進行混合,從而試證本方法是否適合其他木材樹種。 這30種木材中既包含了闊
圖6 30種木材橫切面的平均光譜曲線(a): 表7中前15個樹種; (b): 表7中后15個樹種Fig.6 Average spectral curves of cross sections of 30 wood species(a): The first 15 tree species in Table 7;(b): The last 15 tree species in Table 7
表7 30種木材樣本的詳細(xì)信息Table 7 Details of 30 wood species samples
續(xù)表7
葉木材也包含了針葉木材,也包含了一些同屬木材。 表7中給出了這30種木材的詳細(xì)信息,圖6和圖7中分別給出了這30種木材的光譜信息和圖像信息。 每種木材樣本數(shù)量與每種紫檀屬木材樣本數(shù)量50相一致,30種木材樣本的總數(shù)量為1 500。
表8中給出了單獨使用光譜特征、 紋理特征以及特征融合后的識別正確率,融合策略使用的是“concat”。 從表8可以看出,使用融合后的特征的識別正確率高于使用單一特征的識別正確率。 使用SPA+LBP的正確率是最高的,正確率可達98.29%。
值得強調(diào)的是表8中的識別正確率為35種木材的混合識別率,即對35種木材進行綜合識別的正確率,這也間接的證明了本算法不僅適用于紫檀屬木材的樹種識別,對于其他木材也可以有效識別。
圖7 30種木材橫切面示意圖(序號含義參見表7)Fig.7 Transverse section of 30 wood species (the number of each illustrations corresponding to Table 7)
表8 35個樹種數(shù)據(jù)的正確識別率Table 8 Classification accuracy of 35 tree species data
使用兩種成本較低的設(shè)備儀器采集了木材三個切面上的光譜信息和圖像信息,提取木材切面上的光譜特征和紋理特征后,將光譜特征和紋理特征使用典型相關(guān)性分析進行融合,通過SVM分類器對紫檀屬的樹種進行了識別,并得出了以下的幾個結(jié)論: (1) 在單獨使用木材的光譜特征或紋理特征對紫檀屬樹種進行識別時,使用木材橫切面的信息可以得到較高的識別正確率。 在使用融合特征對紫檀屬樹種進行識別時,木材的三個切面均可以得到較高的識別正確率,其正確率最高可達99.20%。 (2) 本方法的識別速度較快,PCA+I-BGLAM的方法提取樣本特征,適用于對速度和精度有一定要求的木材樹種識別情形。 (3) 從識別方法上講,使用PCA+I-BGLAM的方法在木材橫切面和徑切面上具有較高的識別正確率,使用PCA+LBP的方法在木材徑切面上具有較高的識別正確率。 (4) 實驗驗證了本方法不僅適用于紫檀屬木材,而且也適用于其他屬的木材樹種識別。 (5) 通過與其他木材識別方法比較發(fā)現(xiàn),本方法在識別紫檀屬木材的樹種時具有更大的優(yōu)勢。