劉忠偉,戚大偉
(東北林業(yè)大學(xué) 理學(xué)院,哈爾濱 150040)
森林資源,特別是天然林資源,是地球陸地生態(tài)系統(tǒng)的主體和生態(tài)環(huán)境建設(shè)的基礎(chǔ),具有不可替代性[1]。準(zhǔn)確識別森林植被是森林資源被科學(xué)經(jīng)營和管理的前提[2]。自動分類識別樹種,在植物學(xué)研究和多樣性保護方面意義深遠。具體來說,樹種識別可分為花卉識別、葉片識別、木材紋理識別和樹皮紋理識別等[3]。準(zhǔn)確識別樹種是利用和研究森林資源的基礎(chǔ),并為林業(yè)資源的可持續(xù)發(fā)展提供有力保障。
在深度學(xué)習(xí)未被提出之前,圖像特征提取的方法主要有尺度不變特征(scale invariant feature transform, SIFT)[4]、局部二值特征(local binary pattern, LBP)[5]、梯度直方圖特征(histogram of gradient, HOG)[6]和灰度共生矩陣(gray-level co-occurrence matrix, GLCM)等[7]。以上這些方法要通過手動的方式進行特征提取,通常設(shè)計者經(jīng)驗的豐富程度和設(shè)計特征合理性等是影響特征算子識別性能的關(guān)鍵因素。此類方法存在操作繁瑣、精度不能較好地滿足要求等問題。
基于深度學(xué)習(xí)典型的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks, CNNs)模型,是20世紀(jì)80年代Fukushima等[8]基于感受野的概念,提出的神經(jīng)認(rèn)知機,可看作CNNs計算模型的第一次實現(xiàn)。而后Lecun等[9]將梯度反向傳播算法應(yīng)用到CNNs模型中,在手寫數(shù)字識別問題中,表現(xiàn)出優(yōu)異性能。近年來,隨著機器學(xué)習(xí)的發(fā)展,CNNs為樹種分類識別帶來新機遇,該網(wǎng)絡(luò)模型有效地解決了自適應(yīng)特征提取以及自動化提取的難題[10]。CNNs在對數(shù)據(jù)集進行訓(xùn)練后,可自動獲取圖像中的紋理特征[11],與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,具有更強的特征表達和學(xué)習(xí)能力,并且魯棒性高、適應(yīng)能力更強。因此,基于CNNs構(gòu)建的網(wǎng)絡(luò)模型可免去人工定義圖像紋理特征的成本并且識別準(zhǔn)確率較高[12]。
本研究設(shè)計了基于Lenet5模型框架的卷積神經(jīng)網(wǎng)絡(luò),以水曲柳(Fraxinusmandshurica)、家榆(Ulmuspumila)、白樺(Betulaplatyphylla)、紅皮云杉(Piceakoraiensis)和蒙古櫟(Quercusmongolica)樹皮紋理圖像作為輸入,對5種樹木進行自動識別分類研究。
實驗采集了東北地區(qū)幾種典型林木的樹皮紋理圖像,圖像采集地點位于東經(jīng)126°45′~126°43′,北緯45°30′~45°40′的黑龍江省哈爾濱市東北林業(yè)大學(xué)校內(nèi)林場。該地區(qū)屬中溫帶大陸性季風(fēng)氣候,四季分明,年平均氣溫3.5 ℃。實驗采集水曲柳、家榆、白樺、紅皮云杉和蒙古櫟的RGB樹皮紋理圖像各1 000幅,共計5 000幅作為輸入,具體樹種信息見表1。
表1 樹種信息
獲取圖像分辨率大小為3 024×3 024,由于獲取圖像的分辨率較大,考慮到計算機可承受的數(shù)據(jù)量和計算速度[12],需要對所有樣本圖像的感興趣區(qū)域(Region of Interest, ROI)進行截取操作。選取100×100的窗口,截取含有2個及以上完整紋理基元的部分,該操作可對輸入卷積神經(jīng)網(wǎng)絡(luò)的圖像準(zhǔn)確定位,并有效緩解數(shù)據(jù)計算量的壓力。
從客觀存在的林木樹皮,到通過拍攝設(shè)備進行獲取,再經(jīng)由電子設(shè)備顯示后進行ROI區(qū)域截取。其過程中,可能由于自然光照因素、人為因素以及ROI截取操作等,造成紋理特征模糊等不同程度上的圖像失真,灰度偏黑或者偏白,會影響自動提取樹皮紋理特征的準(zhǔn)確率,不利于識別。所以對ROI操作后的圖像進行增強處理是極其必要的。直方圖均衡化是通過修正直方圖,使其灰度變換為均勻分布的形式,從而拉伸圖像灰度的動態(tài)范圍,它是增強圖像對比度的有效方法[13]。圖1(a)和圖1(b)分別是樹皮紋理原始圖像及其直方圖;圖1(c)和圖1(d)分別是經(jīng)過直方圖均衡化處理后的圖像及其直方圖信息。
沒有經(jīng)過直方圖均衡化處理的圖像灰度較為集中,紋理特征不夠明顯;而經(jīng)過直方圖均衡化處理后的圖像,灰度層次比較適中,圖像質(zhì)量得以改善,比原始圖像更加清晰、明朗,有利于卷積神經(jīng)網(wǎng)絡(luò)對圖像紋理特征的提取和分析。經(jīng)過以上ROI截取操作和直方圖均衡化處理后的樹皮紋理圖像,如圖2所示。
深度學(xué)習(xí)以組合低層特征的形式,形成如屬性類別和特征等更抽象更本質(zhì)的高層表達,進而發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[14]。CNNs的網(wǎng)絡(luò)結(jié)構(gòu)與生物神經(jīng)網(wǎng)絡(luò)更相近,在圖像識別和語音識別方面獨具優(yōu)越性,尤其在視覺圖像處理相關(guān)領(lǐng)域,取得了很好的研究成果[15-16]。本文采用卷積神經(jīng)網(wǎng)絡(luò)方法,實現(xiàn)對5種基于樹皮紋理的樹種圖像進行分類識別。
圖1 直方圖均衡化
圖2 預(yù)處理后的樹皮圖像
常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)通常由多個卷積層和池化層以及全連接層組成[17]。其中卷積層(Convolutional layer)是通過卷積核在原圖像上滑動,進行以提取輸入圖像不同特征為目的的卷積運算;組成卷積層的若干卷積單元,其參數(shù)是通過反向傳播算法最佳化而得到的。第一層卷積層只能提取一些低級的,如角、邊緣和線條等特征,更多層的網(wǎng)絡(luò)能從低級特征中迭代提取更復(fù)雜的特征。其中,池化(Pooling)是由于圖像的“靜態(tài)性”屬性,即某圖像在局部區(qū)域A的特征,很可能在局部區(qū)域B也同樣適用,因此聚合統(tǒng)計圖像的某局部區(qū)域中,不同位置特征的操作,被稱作池化[12]。常見的池化方法有最大池化(Max pooling)和平均池化(Average pooling)。其中,通過最大池化過濾器在某局部區(qū)域內(nèi)提取的某個特征,將保留其最大元素值到池化輸出里。最大池化的超參數(shù)為過濾器尺寸f和滑動步長s,如圖3所示。
池化操作可對上一層網(wǎng)絡(luò)的輸出進行壓縮,與不做池化操作而直接使用卷積后的特征相比較,池化操作可極大降低特征向量的維度,進而提高計算速度,同時可提高所提取特征的魯棒性。
經(jīng)一系列卷積和池化操作后,提取生成了該圖像的深層抽象特征,將這些特征矩陣?yán)綖橐痪S向量作為全連接層的輸入,由全連接層完成分類任務(wù),
圖3 池化層:最大池化層
最后經(jīng)Softmax層可以得到不同種類的識別概率分布情況,從而得到分類結(jié)果。
本文參考Lenet 5網(wǎng)絡(luò)結(jié)構(gòu)框架[18],該結(jié)構(gòu)框架對數(shù)量相對較少的訓(xùn)練數(shù)據(jù)集處理能力較好[19]。針對實驗樣本圖像沒有干擾背景影響且樹皮紋理特征并不復(fù)雜等特點,在Lenet 5結(jié)構(gòu)的基礎(chǔ)上,對CNNs使用反向傳播算法和隨機梯度下降算法訓(xùn)練,結(jié)合樹皮紋理圖像特征的特點,對網(wǎng)絡(luò)的結(jié)構(gòu)、參數(shù)進行了相應(yīng)的調(diào)整和優(yōu)化,具有實現(xiàn)較易和識別效率較高等優(yōu)點。
本研究的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含3層卷積、2個全連接層,其中輸出層為softmax回歸單元識別5種不同類別對象,如圖4所示。
調(diào)整和優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練的流程如圖5所示。
圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖5 卷積神經(jīng)網(wǎng)絡(luò)流程圖Fig.5 Convolution neural network flow chart
(1)輸入層 Input
卷積神經(jīng)網(wǎng)絡(luò)以5種尺寸為(100×100)×3個通道的RGB樹皮紋理圖像、Batch norm歸一化參數(shù)50為輸入,即每次輸入50張(100×100)×3個通道的RGB樹皮紋理圖像。
(2)卷積層Conv1
輸入樣本圖像后,對其進行卷積操作,每層卷積核為3×3,卷積核個數(shù)為100,對輸入數(shù)據(jù)提取特征。由于線性模型表達能力的不足,而Relu函數(shù)具有縮減模型訓(xùn)練時間、加快收斂速度和可以有效緩解梯度消失等問題的優(yōu)勢[20]。因此,在卷積操作后使用Relu激活函數(shù),使之具有分層的非線性映射學(xué)習(xí)能力。
(3)池化層Pool 1
池化是對上層輸入數(shù)據(jù)進行采樣以縮減模型尺寸,提高效率的操作。本層采用最大池化的方法,選用滑動步長為3,尺寸為5×5的池化窗口。即將Conv 1層提取的特征最大值,保留5×5窗口區(qū)域里。
(4)卷積層Conv 2
Conv2每次輸入50張樣本圖像,卷積核尺寸設(shè)置為3×3,卷積核數(shù)目設(shè)置為150個,卷積操作提取紋理特征后,使用Relu激活函數(shù)對數(shù)據(jù)進行非線性映射。
(5)池化層Pool 2
對上一層的輸出,使用池化尺寸為3×3,滑動步長為2的最大池化方法,保留上一層特征輸出的最大值,縮減模型尺寸。
(6)卷積層Conv 3
Conv3的卷積核尺寸設(shè)置為3×3,卷積核數(shù)目設(shè)置為150個,每次仍輸入50張樣本圖像,并使用Relu激活函數(shù)非線性映射。
(7)池化層Pool 3
對Conv3輸出的數(shù)據(jù),使用2×2尺寸、步長為2的池化窗口進行最大池化操作。
(8)全連接層FC 1
將Pool 3層輸出的所有特征矩陣轉(zhuǎn)換為一維向量,輸入至第一個全連接層,本層的神經(jīng)元個數(shù)為450個,其后使用Relu激活函數(shù)觀察高級特征并進行分類。
(9)全連接層FC 2
將上一層的輸出進行全連接,本層神經(jīng)元個數(shù)為進行分類識別的樹種數(shù)量“5”,在FC 2后使用softmax分類器輸出不同迭代次數(shù)的分類識別率。
實驗基于Windows 10 (1903)操作系統(tǒng),Intel(R) Core(TM) i7-8700 CPU @ 3.20 GHz 處理器,16 G運行內(nèi)存,在Jupyter編輯器中,使用python語言,引入MXNet庫進行深度學(xué)習(xí)訓(xùn)練。
在本實驗的樣本庫內(nèi),水曲柳、家榆、白樺、紅皮云杉和蒙古櫟圖像共5 000張,選取4 000張圖像用作訓(xùn)練集,500張圖像用作驗證集,500張圖像用作測試集。即,訓(xùn)練集、驗證集和測試集的比例為8∶1∶1。實驗采用隨機梯度下降的方法優(yōu)化網(wǎng)絡(luò)中的學(xué)習(xí)參數(shù),學(xué)習(xí)率為0.000 1,Batch norm歸一化參數(shù)為50,經(jīng)過977 min 52 s ,80個Batch的訓(xùn)練,完成了20次的迭代任務(wù),訓(xùn)練集的準(zhǔn)確率為98%,如圖6所示,此時測試集圖像的識別率為95.8%。
圖6訓(xùn)練結(jié)果
Fig.6 Training results
李可心等[7]提出的應(yīng)用灰度共生矩陣與SOM神經(jīng)網(wǎng)絡(luò)結(jié)合,得到由角二階矩、熵、方差、相關(guān)性、熵和聚類陰影構(gòu)成的一組參數(shù)集的傳統(tǒng)識別方法,對黃檗、水曲柳和胡桃楸3種林木樹皮紋理圖像識別正確率為83.88%。本文提出的基于調(diào)整和優(yōu)化的Lenet 5卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),對水曲柳、家榆和白樺等5種典型東北林木的RGB樹皮紋理圖像自動提取特征的方法,識別準(zhǔn)確率明顯高于傳統(tǒng)的圖像分類系統(tǒng)。并且本方法能夠自動提取圖像的高層特征,從而無需依賴手動提取特征。
本文對水曲柳、家榆等具有不同紋理特征的樹皮圖像,提出基于數(shù)字圖像處理技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)模型的樹種識別方法。與傳統(tǒng)的人工識別方法以及需要特征提取的神經(jīng)網(wǎng)絡(luò)模型相比,本方法可達到更高的識別效率,并得到以下結(jié)論。
(1)應(yīng)用數(shù)字圖像處理技術(shù),經(jīng)ROI截取操作后,樹皮紋理圖像目標(biāo)區(qū)域更加明確。直方圖均衡化處理后,其動態(tài)范圍得以拉伸,圖像特征更清晰,有利于圖像的分析和識別。
(2)針對樹皮紋理的特征,選用基于Lenet 5結(jié)構(gòu)優(yōu)化后的網(wǎng)絡(luò)模型及參數(shù),通過深度卷積可自動識別其高級特征,經(jīng)softmax分類器輸出不同樹種分類結(jié)果,實驗精度可達到95.8%,可為林木資源管理提供更有效的管理策略。