戴天虹, 謝千程, 黃建平, 孫春雪,叢士杰, 黃新望, 李克新
1. 東北林業(yè)大學(xué) 機電工程學(xué)院, 哈爾濱 150040; 2. 無錫科技職業(yè)學(xué)院 人工智能學(xué)院, 江蘇 無錫 214000
木材是一種堅硬的纖維結(jié)構(gòu)組織, 它構(gòu)成了森林樹木的莖和根. 木材物種分類是一個重要的研究領(lǐng)域, 可以幫助打擊非法采伐、 提供木材證書、 征收木材稅等. 然而, 由于木材組成復(fù)雜, 現(xiàn)有樹種多樣性高, 很難對木材進行正確的分類. 目前木材樹種分類識別主要可以分為宏觀和微觀兩種分類方法. 北羅卡萊納州立大學(xué)維護著一個用于硬木鑒定的在線數(shù)據(jù)庫, 該數(shù)據(jù)庫使用國際木材解剖學(xué)家協(xié)會(IAWA)鑒定的硬木顯微特征列表[1]來描述5700多種標本的木材, 使用這些特征通常可以在屬級區(qū)分物種, 但是, 在種級進行鑒定卻很困難, 并且由于木材生長環(huán)境復(fù)雜, 極易造成顏色、 紋理等特征被改變或破壞, 使得木材錯分率增加. 另一種方法是使用木材的微觀結(jié)構(gòu)對木材樹種進行識別分類, 即根據(jù)木材解剖特征(即組成木材的細胞與組織的形態(tài)和排列方式)進行分析、 檢索并做出判斷. 盡管宏觀上(指用肉眼包括使用放大鏡)觀察木材判定或區(qū)分樹種的方法在生產(chǎn)實踐上應(yīng)用價值很大, 但準確性較差, 所以, 具有較高的分類正確率的微觀識別方法極具研究價值.
木材的顯微三維結(jié)構(gòu)需要從3個不同的角度以不同的顯微鏡放大倍數(shù)進行觀察, 如圖1. 首先, 觀察橫截面: 沿縱軸切片, 觀察導(dǎo)管的布局、 年輪和軸向薄壁組織的模式、 放大后細胞壁的厚度. 其次, 觀察弦切面: 通過平行與主軸且與年輪相切的方向進行切片獲得, 弦切面主要用于研究木射線. 最后, 觀察徑切面: 通過沿半徑切割獲得, 徑切面有助于我們了解木射線. 為了確定木材的種類, 從3個角度以不同放大倍數(shù)觀察來分析樹種的解剖特征, 觀察到的特征與來自專家文獻或數(shù)據(jù)庫的數(shù)據(jù)進行比較[2].
圖1 木材的3種切面
在計算機領(lǐng)域中實現(xiàn)樹種歸類的方法主要有兩種: 木材微觀細胞結(jié)構(gòu)分類和木材表面的宏觀特性分類. 宏觀特征識別技術(shù)是通過木材的紋理、 顏色和光譜等特征來識別. 微觀細胞結(jié)構(gòu)識別技術(shù)是通過顯微鏡得到木材的細胞結(jié)構(gòu)圖像, 然后對得到的圖像進行識別分類. 近些年, 基于微觀的木材自動分類顯示出了一定的潛力. Mallik等[3]提出一種基于圖像分割的木材顯微分類方法, 在放大1 500倍掃描電鏡顯微圖像分割得到的一些特征的基礎(chǔ)上, 通過SVM和神經(jīng)網(wǎng)絡(luò)監(jiān)督分類方法進行木材分類. Chen等[4]提出一種基于測地線活動輪廓和主成分分析的方法進行木材細胞識別, 該方法識別精度高, 能夠有效區(qū)分種內(nèi)細胞形狀變化和種間細胞形狀變化. 但這些方法卻依賴于分割, 而分割效果的不同可能導(dǎo)致不同的分類結(jié)果. Iora等[5]基于醫(yī)學(xué)顯微鏡圖像處理程序Image J, 提出了一種基于圖像分析的方法, 并將其應(yīng)用于3件需要修復(fù)的家具物品的物種識別中, 但實驗物種較少, 具有局限性. Silva等[2]使用局部向位量化和局部二進制模式提取紋理特征向量, 應(yīng)用線性判別分析和主要成分分析進行降維, 最后使用監(jiān)督分類來預(yù)測樣本, 獲得了較高的分類精度, 由于其研究方法嚴格來說屬于半自動分類系統(tǒng), 雖然平均分類準確率高, 但工作量大, 鑒定耗時. 吳嘯天[6]利用支持向量機結(jié)合圖像的圖像梯度方向直方圖和局部二值模式特征, 對小規(guī)模的木材細胞圖像的識別分類進行了實驗, 但訓(xùn)練樣本較少, 可能會導(dǎo)致分類模型訓(xùn)練不足, 結(jié)果不夠準確. Geus等[7]研究了從預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中遷移學(xué)習(xí)用于木材物種分類的方法, 并將其結(jié)果與預(yù)先設(shè)計的特征方法進行比較, 結(jié)果證明了使用橫截面圖像分類的準確率優(yōu)于預(yù)先設(shè)計的分類準確率. 針對以上問題, 本文提出一種基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的自動分類技術(shù), 用于識別木材橫截面顯微圖像的種類.
由于各種木材顯微圖像特征的相似度高, 木材自動分類問題屬于細粒度圖像分類問題, 這就要求分類模型能找到更加細微的局部特征以進行更好的分類[8]. 導(dǎo)航—教師—審查網(wǎng)絡(luò)(Navigator Teacher Scrutinizer Network, NTS-Net)[9]是一種弱監(jiān)督卷積神經(jīng)網(wǎng)絡(luò), 其在經(jīng)典的CUB-200-2011鳥類數(shù)據(jù)集上實現(xiàn)了87.5%的識別準確率(在弱監(jiān)督分類網(wǎng)絡(luò)中最佳), 但是在木材分類領(lǐng)域還沒有此算法的應(yīng)用, 故本研究將基于NTS-Net的弱監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)對木材進行橫截面顯微圖像分類.
本研究所采用的算法為NTS-Net, 該算法專用于細粒度圖像識別, 模型由3部分組成: 一個導(dǎo)航員代理、 一個教師代理和一個審查員代理. 該算法設(shè)計了一種新的訓(xùn)練范式, 使導(dǎo)航員能夠在教師的指導(dǎo)下檢測出信息量最大的區(qū)域, 之后審查員仔細檢查導(dǎo)航員中建議的區(qū)域并進行預(yù)測. 該算法在各細粒度圖像如飛機和斯坦福汽車等數(shù)據(jù)集上均展現(xiàn)了良好的計算性能. 圖2為算法模型描述示意圖. Navigator為導(dǎo)航員模型, 將重點放在信息最豐富的區(qū)域(用矩形框表示), 而教師則評估Navigator提出的區(qū)域并提供反饋, 然后審查員網(wǎng)絡(luò)仔細檢查這些區(qū)域以做出預(yù)測.
圖2 NTS-Net網(wǎng)絡(luò)模型描述圖(特征由可視化CNN網(wǎng)絡(luò)Grad-CAM解釋得出)
該算法主體采用殘差網(wǎng)絡(luò)(Resnet-50)基線, Resnet-50是深度為50層的卷積神經(jīng)網(wǎng)絡(luò), 網(wǎng)絡(luò)本身具有先進的特征提取能力, 并設(shè)計了一個學(xué)習(xí)排序模塊. 網(wǎng)絡(luò)的主要目標是定位對象(圖片)信息最豐富的區(qū)域. 假設(shè)所有區(qū)域都是矩形, 將A表示為給定圖像中所有區(qū)域的集合. 定義了計算區(qū)域R和A的信息量的信息函數(shù)I, 并定義了置信函數(shù)C作為分類器來評估該區(qū)域R屬于標注真值類的置信度, 信息量較大的區(qū)域應(yīng)具有較高的置信度, 因此應(yīng)滿足以下條件:
R1,R2∈A
C(R1)>C(R2),I(R1)>I(R2)
(1)
該網(wǎng)絡(luò)使用導(dǎo)航員網(wǎng)絡(luò)來近似信息函數(shù)I, 教師網(wǎng)絡(luò)近似置信度函數(shù)C. 為了簡單起見, 在區(qū)域空間A中選擇M個區(qū)域, 對于每個區(qū)域AM, 導(dǎo)航員網(wǎng)絡(luò)評估其信息量I(RI), 教師網(wǎng)絡(luò)評估其置信度C(RI). 為滿足條件, 本文采用優(yōu)化Navigator network以使得信息量{I(R1),I(R2), …,I(RM)}和置信度{C(R1),C(R2), …,C(RM)}具有同樣的順序.
綜上所述, 該網(wǎng)絡(luò)將Navigator網(wǎng)絡(luò)預(yù)測的M個信息最豐富的區(qū)域表示為R={(R1), (R2), …, (RM)}, 區(qū)域的信息量為I={(I1), (I2), …, (IM)}, 并由教師網(wǎng)絡(luò)預(yù)測其置信度為C={(C1), (C2), …, (CM)}. 算法最核心的思想便是使置信度C與信息量I具有相同的順序從而優(yōu)化信息區(qū)域, 如圖3所示. 以下為導(dǎo)航員損失和教師損失函數(shù).
圖3 算法原理結(jié)構(gòu)圖
導(dǎo)航損失函數(shù):
(2)
教師損失函數(shù):
LC=-∑logC(Ri)-logC(X)
(3)
其中f函數(shù)是非增加函數(shù), 如果Cs>Ci, 則鼓勵I(lǐng)s>Ii. 導(dǎo)航損失函數(shù)懲罰I和C之間的反向?qū)Γ?并鼓勵I(lǐng)和C處于相同的順序.
當導(dǎo)航員網(wǎng)絡(luò)導(dǎo)航到信息最豐富的區(qū)域{(R1), (R2), …, (RK)}時, 審查網(wǎng)絡(luò)產(chǎn)生細粒度識別結(jié)果P=S{X, (R1), (R2), …, (RK)}, 最后使用交叉熵損失作為分類損失:
LS=-logS(X,R1,R2, …,RK)
(4)
從簡單的閾值函數(shù)開始, 最初開發(fā)激活函數(shù)時的重點是逼近函數(shù), 如Sigmoid和Tanh. 萬能逼近定理[10]中所述, 若激活函數(shù)是連續(xù)、 有界且單調(diào)遞增的, 則任何連續(xù)實值函數(shù)都可以由具有一個隱層的前饋網(wǎng)絡(luò)很好地逼近, 然而, 當網(wǎng)絡(luò)越來越深時, 這類函數(shù)都存在梯度消失的問題.
為了克服這個問題, 人們引入了各種非逼近函數(shù), 其中ReLU函數(shù)為深度學(xué)習(xí)的成功奠定了基礎(chǔ), 當ReLU的正輸入導(dǎo)數(shù)為1時, 梯度不會消失, 同時, 所有的負值都會被映射到零, 由此會產(chǎn)生兩個問題:
1) 存在沒有負值的信息流, 也就是所謂的“死亡ReLU”;
2) 激活值的統(tǒng)計平均值將會大于零, 所有負值都被同等對待.
表1為目前廣泛使用的激活函數(shù).
表1 激活函數(shù)
為了更有效地捕捉相似的類之間微小細微的差異, 我們提出一種改進的NTS-Net算法, 以適合復(fù)雜的細粒度圖像分類任務(wù).
在神經(jīng)網(wǎng)絡(luò)中, 單個神經(jīng)元j的輸出aj由下式計算:
(5)
其中a是n個相連神經(jīng)元(來自前一層)的輸出,ωi,j是相關(guān)權(quán)重,f(x)稱為激活函數(shù)的非線性函數(shù). 在f(x)的編碼輸入中, 某個特征存在或不存在的狀態(tài)表示為: 如果f(x)>0, 則該特征存在, 如果f(x)≤0, 則該特征不存在.
對于現(xiàn)有的大多數(shù)激活函數(shù)來說, 其存在度的定義有很多且表現(xiàn)良好. 圖4表示了表1所示目前廣泛使用的激活函數(shù).
圖4 函數(shù)的激活功能
在ReLU函數(shù)的情況下, 通過函數(shù)的正部分(即x>0)實現(xiàn)的, 但卻不能夠很好地捕捉特征缺失程度. 例如, ReLU函數(shù)定義了一個明確的“關(guān)斷狀態(tài)”或“去激活狀態(tài)”, 即對于所有負值,f(x)=0, 通過這種方式, 神經(jīng)元不會模擬任何可以傳播到下一層的缺失程度信息. 對于包括粗粒度視覺分類在內(nèi)的許多應(yīng)用來說, 只考慮存在的特征. 然而, 對于細粒度視覺分類來說, 僅僅對存在的特征進行建模是不夠的, 在細粒度視覺分類中, 不同的類通常具有相似的外觀, 并且通常在細微的視覺差異上有所不同.
由于特征的存在, 缺失程度與R的正域和負域有關(guān), 我們采取分段函數(shù)對正值x>0和負值x≤0進行建模, 如式(6):
(6)
其中α≥0定義了負部分線性函數(shù)的斜率. 對α參數(shù)設(shè)置為:α=0.01, 便得到了LReLU激活函數(shù). 實驗表明, 這種小斜率對于粗粒度視覺分類來說效果顯著, 對于細粒度視覺分類來說表現(xiàn)不佳, 主要因其缺少特征的存在缺失程度, 不能夠準確地建模分類. 公式(6)同樣適用于隨機選擇斜率的RReLU函數(shù), 至于PReLU函數(shù), 其斜率參數(shù)是依據(jù)數(shù)據(jù)估計的, 因為優(yōu)化器經(jīng)常陷入局部極小值, 所以該函數(shù)在實踐中不夠靈活, 推廣較難.
從以上分析可知, 參數(shù)α的合理設(shè)置是解決特征存在、 缺失程度問題的關(guān)鍵所在. 根據(jù)文獻[11]可知, 不同的問題沒有唯一的解決方案. 文獻[11]還表明, 對于不同復(fù)雜性的分類任務(wù), 不同的激活函數(shù)計算效果顯著, 不同的數(shù)據(jù)集可能具有不同的可分性, 需要學(xué)習(xí)具有不同屬性的激活函數(shù), 可根據(jù)選擇合適的斜率(參數(shù)α)來實現(xiàn), 如圖5所示.
圖5 合適的激活函數(shù)所得決策邊界(預(yù)想)
通常在Resnet-50的最后一個卷積層和分類層之間使用全局平均池化層(GAP)[12], 這些池化操作允許分解最終卷積層的空間維度并獲得描述圖像的單個向量. 對于細粒度視覺分類而言, 已表明基于部分的方法(例如文獻[13])可以提高分類性能. 為此, 本文使用全局K-max池化層(GKMP)[14], 使得NTS-Net網(wǎng)絡(luò)可以在圖像最重要的K個激活特征進行學(xué)習(xí)(在反向傳播期間, 誤差通過K個最重要的部分進行傳播, 不同于全局最大池化層的一個部分, 也不同于全局平均池化層的全部), 其可視為一種簡單的注意力機制.
如圖6所示, 全局K-max池化層定義如下: 給定一個輸入圖像x, 設(shè)y∈RD×I×J為Resnet-50最后一個卷積層的輸出, 其中y的空間分辨率為I×J(在本文中為14×14), 包含D個特征映射. 此外, 給定一個特定的d∈{1, …,D}, 其排序向量Sd包含以降序排序的yd值:
圖6 全局K-max池化層模型概述
Sd=sorted_desc({yd, i,j|i∈{1, …,I},j∈{1, …,J}})
(7)
然后, 針對指定K的全局K-max池化操作可定義為
(8)
該定義源于文獻[15]中所使用的池化操作, 但其中還包括K個最小激活定義, 而本文實驗表明, 當包括最小激活時, 此定義不會有助于識別性能的改善. 因此, 我們使用式(8)中定義的全局K-max池, 若選擇K=1, 則式(8)為標準全局最大池化層, 若選擇K=i×j, 則為全局平均池化層, 本文選取K=4進行最優(yōu)試驗.
2.3.1 數(shù)據(jù)獲取
本研究針對中非70種商業(yè)木材的橫截面顯微圖像[2]進行木材分類, 木材顯微圖像數(shù)據(jù)庫由25科58屬77種剛果木材的1 221張圖片組成. 根據(jù)這份清單, 在光學(xué)顯微鏡下檢查了中非皇家博物館(Tervuren Xylarium)所有可用解剖切片的橫截面顯微圖像, 僅選擇無裂紋和偽影(如封閉氣泡)、 質(zhì)地均勻、 足夠薄且無染色劑的切片, 橫切面用滑動切片機切割, 分級乙醇系列(50%,75%,96%和100%)脫水, 并用優(yōu)巴拉爾(Euparal)固定.
2.3.2 數(shù)據(jù)增強
深度學(xué)習(xí)是一種標準的數(shù)據(jù)驅(qū)動模型方法, 深度網(wǎng)絡(luò)作為黑箱依賴于大量數(shù)據(jù)解決問題, 本研究中采集的數(shù)據(jù)集數(shù)量略小, 所以本文對實驗的數(shù)據(jù)集進行了擴展.
分類網(wǎng)絡(luò)的數(shù)據(jù)集擴展的方法通常有平移旋轉(zhuǎn)等仿射變換法、 鏡像法、 彈性形變法等, 本研究中利用旋轉(zhuǎn)、 加噪聲等方法對數(shù)據(jù)集進行擴展, 將實驗數(shù)據(jù)集擴展為10倍, 共計12 210張, 圖7是數(shù)據(jù)增強方法和效果展示.
圖7 樣本擴展方法及效果展示
2.3.3 環(huán)境搭建及參數(shù)設(shè)置
本研究中分類精度為種級, 對于樣本的標注, 根據(jù)數(shù)據(jù)集原本種屬標簽逐一進行標注, 確保樣本標簽的準確性.
實驗在搭建的深度學(xué)習(xí)工作站中進行, 系統(tǒng)環(huán)境為ubuntu14.04, 使用的深度學(xué)習(xí)框架為pytorch, 并且使用CUDA工具包建立開發(fā)環(huán)境, 利用GPU加速深度學(xué)習(xí), 使用的GPU型號為NVIDIA TITAN XP, 顯存為24G. 實驗中, 預(yù)先處理圖像大小為448×448. 算法使用完全卷積網(wǎng)絡(luò)ResNet-50作為特征提取器, 并使用批量標準化作為正則化器. 算法使用Momentum SGD作為優(yōu)化方法, 學(xué)習(xí)率設(shè)置為0.001, 模型訓(xùn)練共用時4 h.
2.4.1 卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)
改進的卷積神經(jīng)網(wǎng)絡(luò)算法各層級信息如表2所示, 我們使用全卷積網(wǎng)絡(luò)作為特征提取器, 沒有全連接層. 具體來說, 卷積層逐層計算特征層次, 經(jīng)過分段線性激活函數(shù)和K-max池化, 得到一系列不同分辨率的特征圖.
輸入448×448尺寸的圖像, 經(jīng)過第一個7×7大小,s=2的卷積核卷積運算, 再由3×3窗口,s=2的池化層降采樣操作, 輸出224×224尺寸的特征圖; 之后的4個組塊(各組塊中各有3個bottleneck殘差結(jié)構(gòu))共12個bottleneck殘差結(jié)構(gòu)的計算, 輸出特征圖縮小到14×14. 再將特征圖輸入導(dǎo)航網(wǎng)絡(luò). 由表2可以看到隨著特征提取過程的進行, 特征圖的尺寸不斷減小, 算法逐步提取出更多且更高級的圖像特征信息, 以更好地勝任分類識別任務(wù).
表2 卷積神經(jīng)網(wǎng)絡(luò)各層級信息
2.4.2 基于NTS-Net網(wǎng)絡(luò)的木材識別流程
基于以上構(gòu)建的改進NTS-Net工作流程如圖8所示, 主要包含以下幾部分: 圖像數(shù)據(jù)輸入預(yù)處理模塊、 卷積網(wǎng)絡(luò)特征模塊和NTS-Net弱監(jiān)督網(wǎng)絡(luò)分類模塊.
圖8 基于改進NTS-Net算法分類流程圖
輸入數(shù)據(jù)預(yù)處理模塊: 對原始圖像數(shù)據(jù)進行預(yù)處理的操作主要包括刪除掉模糊重復(fù)的無效數(shù)據(jù), 對圖像進行加噪、 旋轉(zhuǎn)等操作, 以擴充圖像數(shù)據(jù), 并將木材圖像增強后的共12210張木材顯微圖像按訓(xùn)練集和測試集8∶2的比例劃分, 輸入卷積網(wǎng)絡(luò); 卷積網(wǎng)絡(luò)特征提取模塊: 將輸入圖像數(shù)據(jù), 分別輸入到構(gòu)建的基于優(yōu)化ResNet50模型進行特征提??; NTS網(wǎng)絡(luò)分類模塊: 導(dǎo)航網(wǎng)絡(luò)將模型導(dǎo)航到信息最豐富的特征區(qū)域, 而教師網(wǎng)絡(luò)評估建議的區(qū)域提供反饋, 之后, 審查網(wǎng)絡(luò)審查這些區(qū)域以做出預(yù)測.
為了驗證本文所提算法的分類性能, 我們在木材橫截面顯微圖像數(shù)據(jù)集上進行以下實驗, 80%的樣本用于訓(xùn)練, 20%的樣本用于測試. 準確率(P)計算方式如表3所示[16].
表3 分類準確率計算方法
1) 在原始NTS算法上進行改進ReLU函數(shù)算法試驗, 驗證當測試10種木材樣本時最適合分段線性激活函數(shù)斜率α的值;
2) 在最優(yōu)斜率α的改進算法上, 在Resnet中加入全局K-max池化層, 測試10種木材樣本下,K分別等于1, 2, 4, 8, 16, 32, 196時算法的準確率.
3) 改進的NTS-Net與其他網(wǎng)絡(luò)分類準確率的實驗對比.
基于不同斜率α的測試函數(shù)實驗測試結(jié)果如圖9所示. 由仿真實驗數(shù)據(jù)可知: 該算法具有良好的收斂效果與較高的求解精度, 即增加斜率會降低算法的分類精度. 然而, 實驗證明0.05至0.2范圍內(nèi)的輕微斜率(峰值在0.15)與原始算法相比較, 明顯優(yōu)于ReLU函數(shù), 由此得出結(jié)論, 由于細粒度視覺分類種類間更加相似, 任務(wù)更加復(fù)雜, 因此, 模擬特征缺失程度變得越來越重要.
圖9 不同斜率下的分類準確率
圖10顯示了在全局K-max池化層選擇不同K值的效果, 特別當K=1時, 相當于全局最大池化層. 我們可以觀察到,K=4左右的值似乎是最佳的, 與原始算法相比, 改進了1.07%的絕對值.
圖10 數(shù)據(jù)集上K-max池化層上不同K值的準確率
此外, 為更好地分析本文網(wǎng)絡(luò)獲得圖像特征表達的過程, 分別將各模塊中卷積層的輸出特征圖可視化, 如圖11所示, 可以看出隨著網(wǎng)絡(luò)層數(shù)的提高, 所提取的圖像特征越來越抽象, 特征的紋理性逐漸被更高級的語義性所取代. 而本文提出的網(wǎng)絡(luò)從過程上看獲得了較為豐富的邊緣信息, 從結(jié)果上看又取得了較高的識別精度, 適用于木材顯微圖像的識別.
圖11 可視化卷積特征圖
作為比較, 本研究還與Alexnet,Inception v3,Mobilenet等經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)進行了木材分類預(yù)測對比實驗, 在對比實驗中, 3個卷積神經(jīng)網(wǎng)絡(luò)均在tensorflow深度學(xué)習(xí)框架下運行, 系統(tǒng)環(huán)境與參數(shù)設(shè)置均與本研究網(wǎng)絡(luò)NTS-Net相同. 實驗結(jié)果如表5所示.
表5 測試結(jié)果對比
本實驗最終達到了88.36%的準確率, 這在同類的識別算法中實現(xiàn)了最佳的性能, 說明了本網(wǎng)絡(luò)在NTS-Net中加入分段線性激活函數(shù)和全局K-max池化層的有效性. 訓(xùn)練過程中的訓(xùn)練集損失變化情況如圖12所示, 測試集損失變化如圖13所示, 測試集準確率變化如圖14所示. 從圖中可以看出, 本文提出的改進算法收斂速度快, 識別準確率高, 訓(xùn)練集的損失值在11輪左右便下降到接近于0的數(shù)值, 測試準確率在5輪左右就已經(jīng)達到80%.
圖12 訓(xùn)練集損失值變化情況圖
圖13 測試集損失值變化情況
圖14 測試集準確率變化情況
雖然目前沒有公認的標準來比較木材解剖鑒定分類獲得的結(jié)果, 但上述實驗的高準確率清楚地說明了本研究算法自動分類的潛力. 對分類準確率最高和最低的木材種類進行分析, 狄氏黃膽、 黑駝峰楝、 西非鐵青木3個樹種的分類準確率較低, 分別為77%,75%,81%, 實驗準確率較低的原因可能是這些物種都有較大的導(dǎo)管、 較低的導(dǎo)管密度和較大的木射線. 非洲肉豆蔻和古夷蘇木兩個物種的分類準確率為100%, 或是因為這些物種有特定的導(dǎo)管排列順序和網(wǎng)狀軸向薄壁細胞, 最有可能導(dǎo)致分類結(jié)果的原因是有無軸向薄壁細胞, 這也是本文提出算法的優(yōu)點, 將每個提出的區(qū)域擴大到相同大小, 再從中提取特征, 將區(qū)域特征與整幅圖像的特征聯(lián)合處理, 進行細粒度分類, 信息區(qū)域有助于更好地表征物體, 因此, 將信息區(qū)域的特征與全圖像融合能獲得更好的性能.
由以上分析可知, 應(yīng)用本文方法僅用木材橫截面顯微圖像就可以區(qū)分物種. 但是, 非洲肉豆蔻有一些非常特殊的木材解剖特征, 在橫截面顯微圖像上沒有顯現(xiàn), 因此, 在后續(xù)研究中會將木材弦切面顯微圖像和徑切面顯微圖像加入到實驗中, 再分析算法分類的準確性.
本文利用一種基于細粒度圖像識別的深度卷積網(wǎng)絡(luò)的改進算法進行木材分類, 該算法自動提取木材顯微圖像局部特征并結(jié)合整個木材橫截面顯微圖像特征進行木材分類. 顯微圖像經(jīng)簡單處理后實現(xiàn)端到端的木材分類過程, 通過多個仿真實驗驗證了所提方法的性能. 通過與原始NTS-Net算法進行對比, 結(jié)果表明, 在改進ReLU激活函數(shù)與加入全局K-max池化層的樣本數(shù)據(jù)中, 所提改進算法能夠有效提升分類準確率, 并且實現(xiàn)端到端的木材分類, 算法收斂速度快, 評估準確度高, 節(jié)省了大量的時間. 從應(yīng)用的角度看, 如果將本研究成果應(yīng)用于木材分類實際操作中, 該算法可以快速大量給出分類結(jié)果, 其分類結(jié)果可以作為木材專家進行木材分類的一個參考依據(jù).