王月,金映谷,李陽(yáng),楊亞寧
(1.大連民族大學(xué)信息與通信工程學(xué)院,大連116605;2.大連民族大學(xué)機(jī)電工程學(xué)院,大連116605)
森林資源匱乏日趨嚴(yán)重,對(duì)樹木進(jìn)行準(zhǔn)確分類識(shí)別是保護(hù)樹木資源及研究樹種多樣性的基礎(chǔ),在加強(qiáng)生態(tài)文明建設(shè)方面具有重要意義。但是在識(shí)別樹木種類過(guò)程中由于不同樹種的特征信息較多,通過(guò)人工提取特征信息的方式效率低且很難提取關(guān)鍵信息。識(shí)別的樹木在不同季節(jié)也會(huì)呈現(xiàn)差異性,增大樹種識(shí)別難度,影響樹種識(shí)別準(zhǔn)確性。
隨著圖像處理技術(shù)的快速發(fā)展,國(guó)內(nèi)外科研工作者在識(shí)別樹種問(wèn)題上已進(jìn)行了許多研究。例如,李可心等人[1]通過(guò)使用灰度共生矩陣提取樹皮紋理特征,利用數(shù)據(jù)特征統(tǒng)計(jì)分析進(jìn)一步選取特征值,應(yīng)用SOM神經(jīng)網(wǎng)絡(luò)對(duì)樹皮圖像進(jìn)行特征參數(shù)識(shí)別,識(shí)別精度83.33%。扈華等人[2]首先利用SAS方法得到描述木片和樹皮紋理的最佳參數(shù),隨后將最優(yōu)參數(shù)計(jì)算獲得的數(shù)據(jù)用作樣本數(shù)據(jù),調(diào)用SAS中LOGISTIC過(guò)程得出預(yù)測(cè)方程,再將該方程用于邏輯回歸模型,最后利用該模型實(shí)現(xiàn)木片和樹皮的圖像識(shí)別,正確率達(dá)到97.4%。Carpentier等人[3]公開了一組數(shù)據(jù)集,并使用ResNet網(wǎng)絡(luò)對(duì)其進(jìn)行樹種識(shí)別,單科植物識(shí)別準(zhǔn)確率達(dá)93.88%;結(jié)合多數(shù)投票法,單科植物識(shí)別準(zhǔn)確率可達(dá)97.81%。M.Robert等人[4]提出了DeepBark和SqueezeBark局部描述符結(jié)合神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別樹木表面,其中DeepBark方法具有明顯優(yōu)勢(shì)可達(dá)87.2%的mAP。以上研究取得了較好的分類識(shí)別成果,但在檢測(cè)準(zhǔn)確度方面仍有待提高。
為進(jìn)一步提高樹皮圖像識(shí)別的準(zhǔn)確度,本文提出基于GoogLeNet的樹皮識(shí)別方法,在對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理后,設(shè)置樹皮圖像識(shí)別模型各參數(shù),訓(xùn)練樹皮模型分類器,通過(guò)訓(xùn)練結(jié)果完成對(duì)樹皮種類的識(shí)別并標(biāo)注樹木類型。實(shí)驗(yàn)結(jié)果表明,該方法能自動(dòng)判別樹皮種類且識(shí)別準(zhǔn)確率可達(dá)98.1%,極大程度上提高了樹種識(shí)別準(zhǔn)確率。
本文使用公開數(shù)據(jù)集Trunk12[5]進(jìn)行分類。此數(shù)據(jù)集包含393張3000×4000像素的樹皮圖像,共有12種不同的樹木(全稱-縮寫:alder-ald、beech-bee、birchbir、chestnut-che、ginkgo biloba-gin bil、hornbeam-hor、horse chestnut-hor che、linden-lin、oak-oak、oriental planeori pla、pine-pin、spruce-spr)如圖1所示,每類樹木的圖像數(shù)量在30到45之間變化。本文隨機(jī)選取數(shù)據(jù)集的70%作為訓(xùn)練集,15%作為驗(yàn)證集,15%作為測(cè)試集。
圖1 12個(gè)樹種樹皮圖像示例
為進(jìn)一步驗(yàn)證本文方法穩(wěn)定性,通過(guò)圖像鏡像、圖像旋轉(zhuǎn)、圖像亮度變化及高斯濾波處理[6]等方法對(duì)Trunk12數(shù)據(jù)集中的每個(gè)樹種擴(kuò)增7倍,并繼續(xù)利用本文模型訓(xùn)練識(shí)別,在訓(xùn)練識(shí)別過(guò)程中仍隨機(jī)選取擴(kuò)增數(shù)據(jù)集的70%作為訓(xùn)練集,15%作為驗(yàn)證集,15%作為測(cè)試集。
由于數(shù)據(jù)集具有高分辨率,直接處理樣本會(huì)使任務(wù)變慢,耗時(shí)較長(zhǎng),因此本文對(duì)圖像進(jìn)行縮放[7]操作,采用大小為300×400的輸入圖片訓(xùn)練模型。GoogLeNet[8]的進(jìn)步主要是引入一種新的結(jié)構(gòu)Inception module,可構(gòu)造更加稀疏的CNN結(jié)構(gòu)。Inception module由1×1卷積,3×3卷積,5×5卷積和3×3最大池化組成,增加網(wǎng)絡(luò)對(duì)不同尺度的適應(yīng)性。卷積的計(jì)算公式如式(1)所示:
當(dāng)卷積層輸入的特征數(shù)很多,對(duì)這個(gè)輸入進(jìn)行卷積運(yùn)算將會(huì)產(chǎn)生巨大的計(jì)算量;因此本文使用降維版Inception模塊,其基本結(jié)構(gòu)如圖2所示,即在3×3卷積,5×5卷積前加入1×1卷積,在3×3最大池化后加入1×1卷積,從而降低了計(jì)算復(fù)雜度,實(shí)現(xiàn)降維功能。
圖2 Inception Module結(jié)構(gòu)
本文網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示,輸入圖像為300×400×3,每個(gè)卷積都應(yīng)用一個(gè)線性整流函數(shù),改進(jìn)網(wǎng)絡(luò)模型的非線性特征;利用局部響應(yīng)歸一化(Local Response Normalization,LRN)提高模型訓(xùn)練精確度,其具體公式如式(3)所示:
圖3 模型結(jié)構(gòu)
本實(shí)驗(yàn)基于Windows 10操作系統(tǒng),Intel Xeon E5-2623 v4@2.60GHz CPU,NVIDIA Quadro P4000顯卡,64.0G內(nèi)存運(yùn)行,CUDA-9.1、CUDNN-7.1深度學(xué)習(xí)庫(kù)以及機(jī)器視覺(jué)軟件HALCON。
在數(shù)據(jù)集訓(xùn)練之前需要設(shè)置模型超參數(shù),參數(shù)的選取對(duì)分類器的訓(xùn)練過(guò)程有很大的影響。本文根據(jù)訓(xùn)練的樹皮類型數(shù)據(jù)集設(shè)置如表1所示參數(shù)。初始學(xué)習(xí)率確定訓(xùn)練過(guò)程中梯度影響因素的初始值,本文將學(xué)習(xí)率每40個(gè)周期縮小0.1;動(dòng)量規(guī)定先前的梯度對(duì)權(quán)重更新的影響程度;正則化參數(shù)有助于應(yīng)對(duì)訓(xùn)練中存在的過(guò)擬合現(xiàn)象。
表1 網(wǎng)絡(luò)模型超參數(shù)
將訓(xùn)練集中的樣本輸入至網(wǎng)絡(luò)進(jìn)行前向傳播,經(jīng)過(guò)逐層神經(jīng)元變換組合處理,得出最終的輸出結(jié)果。前向傳播過(guò)程中,網(wǎng)絡(luò)上層的輸出值將作為當(dāng)前層的輸入值。將前向傳播獲得的輸出結(jié)果與真實(shí)結(jié)果間的損失值由后往前進(jìn)行反向傳播[11],模型中的參數(shù)利用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)[12]進(jìn)行優(yōu)化,通過(guò)此方式對(duì)各個(gè)層的權(quán)值進(jìn)行更新,更新的過(guò)程中使其達(dá)到損失的極小化便可結(jié)束訓(xùn)練。在實(shí)驗(yàn)過(guò)程中,本文在訓(xùn)練和驗(yàn)證集上評(píng)估當(dāng)前分類器,并在訓(xùn)練過(guò)程中繪制訓(xùn)練和驗(yàn)證期間的top1錯(cuò)誤率曲線[13],如圖4所示,曲線1是學(xué)習(xí)率曲線,曲線2是驗(yàn)證過(guò)程中的誤差曲線,曲線3是訓(xùn)練過(guò)程中的誤差曲線。從圖4可以看出,該模型的錯(cuò)誤率隨著迭代周期的增加不斷減小,在迭代39次之后,誤差曲線趨于穩(wěn)定。
圖4 可視化訓(xùn)練
本文選用15%的樣本集數(shù)據(jù)進(jìn)行評(píng)分,模型的混淆矩陣如表2所示,表中每行表示模型的預(yù)測(cè)類別,每列表示樣本的真實(shí)類別。實(shí)驗(yàn)檢測(cè)識(shí)別結(jié)果如圖5所示,其中樹皮圖像預(yù)測(cè)類別在右上角標(biāo)出,(x.xx)表示該樹皮是其對(duì)應(yīng)樹種的置信度。
表2 模型的混淆矩陣
從圖5分類結(jié)果可以看出本文模型能夠準(zhǔn)確識(shí)別各個(gè)樹種。利用表2的混淆矩陣計(jì)算模型分類的精確率(Precision)、召回率(Recall)、F1值(F1-score)[14]和準(zhǔn)確率(Accuracy)綜合評(píng)價(jià)模型的性能,其分類結(jié)果如表3所示。
圖5 識(shí)別結(jié)果
表3 模型的分類性能
由表3可知,本文網(wǎng)絡(luò)模型各個(gè)性能度量值均在97%以上,且對(duì)樹種識(shí)別準(zhǔn)確率達(dá)到98.1%,對(duì)樹種分類效果較好,準(zhǔn)確率對(duì)比現(xiàn)有方法有很大提高,如表4所示。
表4 不同方法準(zhǔn)確率比較結(jié)果
由表4可知,本文方法的準(zhǔn)確率較文獻(xiàn)[5]提高了13.5%,較文獻(xiàn)[15]提高了5.2%,較文獻(xiàn)[16]提高了35.3%,樹種識(shí)別準(zhǔn)確率較高。實(shí)驗(yàn)同時(shí),為驗(yàn)證本文模型的可靠性與穩(wěn)定性,在Trunk12擴(kuò)充數(shù)據(jù)集2751張圖像上訓(xùn)練學(xué)習(xí)的準(zhǔn)確率仍高達(dá)98%以上,分類效果較好。
準(zhǔn)確分類樹種是保護(hù)研究樹木資源的基礎(chǔ),針對(duì)在分類樹種過(guò)程中效率不高和準(zhǔn)確率低的問(wèn)題,考慮到樹皮的非季節(jié)特性,本文提出了基于GoogLeNet的樹皮圖像識(shí)別方法。本文通過(guò)構(gòu)建樹皮圖像識(shí)別模型,對(duì)Trunk12數(shù)據(jù)集中12種樹木的樹皮進(jìn)行學(xué)習(xí)訓(xùn)練,取得了較好的分類識(shí)別效果。通過(guò)實(shí)驗(yàn)對(duì)比,本文方法準(zhǔn)確率最高,為樹木智能化分類提供更準(zhǔn)確的方法。本文模型不僅能夠分類識(shí)別文章提及的12種樹木,也可以應(yīng)用于其他樹種,具有很大的發(fā)展空間。