亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進的卷積神經(jīng)網(wǎng)絡在樹種識別中的應用

2021-09-30 01:18:12李濱敬啟超

森林工程 2021年5期

關鍵詞：特征實驗模型

李濱, 敬啟超

(東北林業(yè)大學機電工程學院，哈爾濱 150040)

0 引言

樹種識別與分類是森林資源調(diào)查與保護中的一項重要工作[1]，但由于樹木種類繁多,人工識別工作量大且效率低，樹種識別技術也就應運而生。因此研究樹種識別分類，提高識別的準確率具有非常重要的意義。

目前關于樹木種類識別的研究主要分為2種方法：①人工提取圖像特征，再運用傳統(tǒng)機器學習的方法，利用樹葉和樹皮的顯著特征[2-3]，如顏色、形狀、紋理和大小的傳統(tǒng)計算機視覺系統(tǒng)，但該方法在特征提取時效率低。唐欽[4]提出的利用k近鄰(k-Nearest Neighbor，KNN)算法和支持向量機(SVM)算法在樹葉樣本上取得了89.64%的識別率。趙鵬超等[5-6]在卷積神經(jīng)網(wǎng)絡中對BP神經(jīng)網(wǎng)絡反向傳播算法和梯度下降算法優(yōu)化訓練，取得了95%以上的正確率。楊蒙蒙[7]采用Hu矩和灰度共生矩陣與BP神經(jīng)網(wǎng)絡，在對15種樹葉圖像分類中取得了80.97%的識別率。樹木識別技術也在不斷改進。②基于深度學習的識別方法，其中卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks，CNN)是深度學習模型中最重要的一種結(jié)構(gòu)，可自動提取目標特征，已基本滿足目標分類。陳明建[8]提出了一種預處理算法，消除樹葉圖像陰影，再結(jié)合樹葉輪廓，最終在32種葉片上取得了98.26%的準確率。Yang等[9]采用多個CNN分類器分別對葉片及顯著特征區(qū)域圖像自主提取特征，準確率達到97.1%。Liu等[10]采用VGG16作為模型預訓練網(wǎng)絡，再利用UNET網(wǎng)絡對樹種圖像進行語義分割，最終取得96.03%的準確率，但是網(wǎng)格模型較大效率不高。Mubin等[11]、業(yè)巧林等[12]提出了一種遙感圖像分類模型，采用圖像增強后利用深度學習訓練模型，結(jié)果可以從衛(wèi)星圖像中取得的識別正確率分別為95.11%和92.26%，但是需要大量的森林衛(wèi)星圖像。Guan等[13]通過歸一化分割每個樹木的數(shù)據(jù)，使得特征提取十分精確，并在城市中的樹木分類取得了86.1%的準確率，但是數(shù)據(jù)標記耗時較多，且需要專業(yè)人員進行操作。劉忠偉等[14-15]采用感興趣區(qū)域機制裁剪直方圖，并進行均勻化圖像增強處理，基于Lenet5網(wǎng)絡對5種典型東北林木進行識別，取得了95.8%的準確率。

為了進一步提高樹木圖像識別精度和速度，本文提出了基于卷積神經(jīng)網(wǎng)絡的并行注意力再提取算法，并采用消融實驗證明該方法的有效性，再利用遷移學習的方法在BarkVN-50數(shù)據(jù)集(Kaggle發(fā)布的公開數(shù)據(jù)集)上進行實驗，驗證此方法的訓練效率和識別率。

1 數(shù)據(jù)集

BarkVN-50數(shù)據(jù)集包括柚木、花梨木、鐵刀木、榕樹、桉樹、雪松和千層樹等50種樹木，每種約100張，共計5 000多張樹木圖像。部分樹木樣本如圖1所示。

圖1 樹木種類實例

由圖1可知，由于每種樹木的圖像較少，且有一些具有相似外觀的不同類別樹木，放入神經(jīng)網(wǎng)絡模型中訓練時，極易發(fā)生過擬合現(xiàn)象，為了提高神經(jīng)網(wǎng)絡的泛化能力，本次研究需要先進行數(shù)據(jù)增強，把圖片進行隨機上下和左右翻轉(zhuǎn)，然后應用注意力再提取算法。通過數(shù)據(jù)增強后每一種樹木的數(shù)據(jù)量都得到擴充，該方法有效地防止了過擬合現(xiàn)象的發(fā)生。

2 改進的卷積神經(jīng)網(wǎng)絡

2.1 卷積神經(jīng)網(wǎng)絡的原理

卷積神經(jīng)網(wǎng)絡的框架主要由3個層級組成：卷積層、池化層和全連接層。卷積層是對輸入的樹木圖像特征的提取；池化層將卷積層輸出的高維度信息處理后得到低維度信息，避免過擬合；全連接層用向量化參數(shù)，從而獲得準確率較高的輸出。

2.2 注意力模塊

卷積神經(jīng)網(wǎng)絡中的注意力機制目前有2種：一種是神經(jīng)網(wǎng)絡搭載了注意力機制能夠自主運用；另一種是預制的注意力機制嵌入到卷積神經(jīng)網(wǎng)絡中，幫助卷積神經(jīng)網(wǎng)絡高效提取圖片中的特征。嵌入式的注意力機制分為軟注意力(Soft attention)和強注意力(Reinforcement learning)。本文研究所采用的是可微分的軟注意力，可以通過梯度方向反向傳播權(quán)重。軟注意力中又分為空間注意力(Spatial attention)、通道注意力(Channel attention)和混合注意力(Mixed concentration)?？臻g注意力并不重視各個通道中非重要的信息，而是由提取的特征決定了分類結(jié)果。通道注意力是將特征通道中的信息與圖像關聯(lián)從而決定分類的方法?；旌献⒁饬t是將2種注意力機制組合，把特征圖先經(jīng)過通道注意力，再通過空間注意力后經(jīng)過2次加權(quán)結(jié)果，得到輸出特征。但是先通過的注意力模塊權(quán)重會傳給后通過的注意力模塊，學習到的特征不全面，影響了注意力模塊學習的特征，嵌入了混合注意力模塊的CNN模型的學習效果不穩(wěn)定、正確率難以保證，因此提出并行注意力再提取算法解決注意力模塊內(nèi)部干擾，減緩過擬合發(fā)生。

2.2.1 非局部空間注意力和通道注意力

非局部空間的注意力機制(I-SAM)與傳統(tǒng)空間注意力(Spatial attention)機制[16-17]相比，在信道壓縮的基礎上再進一步利用全局特征映射的平均池，從而降低嵌入在卷積神經(jīng)網(wǎng)絡中的空間注意力機制對超參數(shù)的依懶性，增強必要特征和抑制不必要特征，計算成本是由特征圖的寬度(W)和高度(H)決定，減少內(nèi)存使用量和計算成本。I-SAM的結(jié)構(gòu)由3部分組成：全局特征，將所有位置的特征采集并整合，再通過加權(quán)計算獲得全局特征；特征轉(zhuǎn)換，采用非線性特征轉(zhuǎn)換的方法；特征分配，將全局特征分配到每個位置的注意力分布函數(shù)。非局部空間的注意力算法的輸出為：

(1)

式中：X∈Rc×w×h；i為空間的所有取值；j為通道的所有索引，取值范圍1≤j≤C；θk為在信道壓縮的基礎上，再進一步利用特征圖的全局特征映射的平均池化；δr為瓶頸轉(zhuǎn)換的像素捕捉的映射；函數(shù)F適用于特征融合的矩陣乘法，由公式(5)計算。

最終聚合的特征圖θk函數(shù)表示：

(2)

(3)

瓶頸轉(zhuǎn)換的像素捕捉δr函數(shù)表示：

(4)

特征融合函數(shù)F表示為：

(5)

通道注意力(Channel attention)模塊則采用最基本的形式，將特征圖作為輸入特征圖，如圖2所示。

圖2 通道注意力模塊

2.2.2 并行注意力再提取算法

樹木由于外觀具有相似性，在具體識別時注意力機制和數(shù)據(jù)庫容量就尤為重要，注意力機制可以對輸入圖像的顯著特征區(qū)域重點關注，混合注意力模塊在這方面廣泛應用，但其內(nèi)部權(quán)重干擾的局限性又限制其難以取得較高的準確率。

混合注意力模塊是單行連接先經(jīng)過通道注意力，再經(jīng)過空間注意力，此注意力模塊雖然能將空間信息和通道信息都利用起來，但是始終無法解決單行連接通道模塊的權(quán)重對于空間模塊的影響。因此，為消除這2個模塊間的相互干擾，都可由特征圖直接獲取權(quán)重，將混合通道改為I-SAM與通道注意并行。

為進一步提高注意力在樹木圖像的特征定位與提取，消除數(shù)據(jù)庫容量不足，以減緩過擬合的發(fā)生，提出并行注意力再提取算法(I-attention)，如圖3所示。

圖3 并行注意力再提取算法

在I-attention中通過裁剪再提取出的隨機特征圖可以有效地增加訓練數(shù)據(jù)庫容量，并減緩模型過擬合現(xiàn)象的發(fā)生。其中對于隨機特征圖的裁剪至關重要，因此訓練階段在特種圖中隨機抽取一張Ak特征圖進行裁剪，首先對其進行規(guī)范化處理：

(6)

注意力裁剪方法為：

(6)

式中：θc為一個小于1隨機參數(shù)；Ck為尋找具有最小值的矩形，將此矩形放大后就是裁剪圖片。

2.3 遷移學習

遷移學習的基礎預訓練網(wǎng)絡是一個保存的卷積神經(jīng)網(wǎng)絡，以前已在大型數(shù)據(jù)集(ImageNet)上對其進行訓練，提取出的特征信息可用于其他數(shù)據(jù)集。目前遷移學習模型架構(gòu)有很多，如VGG16、VGG19、inception v3、Xception和ResNet50等。但對于遷移學習的使用來說，不同條件下的遷移學習使用方法不同，為了減少網(wǎng)絡架構(gòu)導致的磁盤消耗和加快訓練速度。在該系統(tǒng)中，由于網(wǎng)絡中數(shù)據(jù)集較小，采用Xception模型作為遷移本體。使用Xception模型搭建卷積神經(jīng)網(wǎng)絡，為滿足本文實驗要求，故將模型中輸出層刪除，添加新的全連接層和輸出層，將預訓練網(wǎng)絡權(quán)重凍結(jié)，添加I-attention修改用來識別樹木的IM-Xception。見表1。

表1 IM-Xception模型參數(shù)

在IM-Xception網(wǎng)絡結(jié)構(gòu)中，輸入的樹木圖像像素為299×299×3,共有14個混合卷積層,且卷積層的步長都為3×3,前8個卷積皆為首尾相連,上一層的輸出直接傳遞給下一層,從第8個到第10個卷積按順序執(zhí)行一次,并且循環(huán)8次，最后經(jīng)過2個卷積層和1個池化層后輸出1×1×2 048,經(jīng)過全連接層和softmax進行輸出。

采用IM-Xception模型的卷積神經(jīng)網(wǎng)絡算法對樹木進行識別，選擇合理的卷積層、池化層和全連接層對該系統(tǒng)框架進行搭建。對于小數(shù)據(jù)集的系統(tǒng)，使用遷移學習能夠更加有效地避免過擬合現(xiàn)象，提高準確率，使整個系統(tǒng)更加穩(wěn)定有效。樹木識別模型如圖4所示。

圖4 樹木圖像識別模型

本研究中輸入層和隱含層的激活函數(shù)選用relu-softsign組合激活函數(shù)[18-19]，其函數(shù)表達式為:

(8)

由公式(8)可知,該激活函數(shù)在x>0時,與rule函數(shù)一致是導數(shù)為1的直線,保證了在前向傳播時模型的訓練速度;當x≤0時,relu-softsign函數(shù)的導數(shù)緩慢減小，且能夠為零附近的非正數(shù)提供非零導數(shù)，這樣既增強了relu-softsign 函數(shù)對非正值處理的魯棒性，又加快了模型的收斂速度，從而獲得比其他激活函數(shù)更好的分類效果[20-21]。

在框架的設計中，對于輸入層和隱含層的激活函數(shù)選用relu-softsign，在全連接層與輸出層之間加入非局部空間的注意力機制,對于輸出層采用softmax作為激活函數(shù)。因此該系統(tǒng)中損失函數(shù)是針對softmax函數(shù)而言。設softmax函數(shù)為hθ(x)，輸出為y，樣本數(shù)為m，則有損失函數(shù)為：

(9)

3 實驗驗證和結(jié)果分析

本實驗平臺的硬件為1臺CPU為Intel(R)Core(TM)i7-9750H,GPU為GeForce GTX 1660Ti 6 GB顯存,內(nèi)存為16 GB,操作環(huán)境為Windows 10,軟件平臺為基于Python語言以keras為前端和TensorFlow為后端的編程構(gòu)架。

3.1 實驗評價標準

采用全部輸入的樹木圖像層面和正確識別層面的正確分類作為分類評價標準:

(10)

式中:Ra為識別率;Nal為全部輸入的樹木圖片數(shù)量;Nc為正確分類的圖片數(shù)量。

采用算法識別圖像總時間層面和算法迭代次數(shù)層面的平均時間作為時間評價標準:

(11)

式中:t為平均時間;tal為算法識別消耗的總時間;te為算法的迭代次數(shù)。

3.2 實驗結(jié)果

本實驗將隨機選取樹木圖像的65%作為訓練集,剩下的35%作為測試集。為了減少硬件設備對實驗的影響以及確保實驗結(jié)果的有效性,每次實驗重復3次。為了排除學習率對識別結(jié)果的影響,分別對Xception和IM-Xception進行3組對照實驗,學習率分別設置為0.1、0.01、0.001,共進行6組實驗，迭代次數(shù)為50。

由表2可知，學習率對深度卷積網(wǎng)絡有較大影響。遷移學習采用的都是預訓練網(wǎng)絡，可以將學習到的特征用在不同的模型架構(gòu)中，使得深度學習對小數(shù)據(jù)問題非常有效，這也是深度學習的一個重要優(yōu)勢。深度卷積神經(jīng)網(wǎng)絡中沒新建的卷積層，采用的都是遷移學習的卷積層[22]，因此采用較大的學習率可以加速模型收斂。如實驗6采用0.1的學習率，在訓練集和測試集的準確率分別為99.20%、98.90%，在相同條件下較其他學習率為最佳。如實驗1和實驗4采用0.001的學習率損失上下波動，收斂速度慢，對硬件消耗大，故IM-Xception模型采用0.1的學習率進行實驗，具體如圖5和圖6所示。

表2 實驗結(jié)果

圖5 實驗正確率

圖6 實驗損失值

3.3 實驗結(jié)果對比

為驗證實驗結(jié)果的有效性，采用文獻[7]和文獻[11]中的結(jié)果與本文中的實驗結(jié)果進行對比，見表3。

表3 實驗結(jié)果對比

由表3可知，在算法的正確率方面，IM-Xception模型的識別率最高，相比于VGG16和Lnet5模型的識別速度變快、消耗時間減少，正確率約增長1%～3%，不僅模型的規(guī)模大大減小，識別效率上提升了25%～50%。

3.4 消融實驗

為了驗證不同注意力模塊在卷積神經(jīng)網(wǎng)絡中的有效性，在BarkVN-50數(shù)據(jù)集上進行消融實驗，由于本文所提算法是由Xception改進而來，所以這里以Xception為基準進行實驗。相比于Xception，本文所提算法主要改進了2點：添加了非局部空間注意力并行連接通道注意力，注意力特征圖再提取。因此，為了觀測其性能對上述2點進行消融實驗，見表4。

由表4可知，在Xception架構(gòu)設置了I-Attention和I-SAM不同情況下的性能測試，加入的非局部空間注意力和通道注意力模塊的測試性能有所提高，相比于Xception性能提升1.35%；同樣采用了注意力再提取模塊對特征圖進行裁剪，能基于數(shù)據(jù)集提升模型性能0.66%。

表4 消融實驗

4 結(jié)論

樹木識別技術是人工智能領域中一個重要的研究方向。針對采用傳統(tǒng)神經(jīng)網(wǎng)絡的樹木識別方法中存在的識別正確率低、效率低和易產(chǎn)生過擬合現(xiàn)象，本文研究了一種基于改進CNN的樹木識別方法，經(jīng)實驗證明該方法的有效性。結(jié)果證明如下：

(1)針對樹木種類識別正確率、效率低的問題，對空間注意力模塊進行改進，提出了一種改進的空間注意力模塊I-SAM并與通道注意力模塊采用并行連接，解決了注意力模塊內(nèi)部的特征圖權(quán)重干擾。

(2)針對不同品種且具有相似外觀特征的樹木，識別中易產(chǎn)生過擬合現(xiàn)象，影響識別準確率，提出一種注意力再提取算法I-Attention，減緩了因數(shù)據(jù)庫不足發(fā)生的過擬合現(xiàn)象。

(3)對添加了I-Attention的IM-Xception模型與VGG16、Lnet5模型進行對比，識別正確率約增長1%～3%，模型規(guī)?？s小24%，達到133.9 MB，且耗時僅有458 ms，識別效率上提升20%～50%。再通過消融實驗，證明了I-SAM和I-Attention分別能對Xception模型提升1.35%和0.66%。

由于卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu)復雜和參數(shù)多樣性,未來將繼續(xù)研究更適合于樹木識別的卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu)和方法，并進行更深的研究討論和實驗分析,得出其規(guī)律和特征。