鮑文霞,吳德釗,胡根生,梁 棟,王 年,楊先軍
基于輕量型殘差網(wǎng)絡(luò)的自然場(chǎng)景水稻害蟲(chóng)識(shí)別
鮑文霞1,吳德釗1,胡根生1,梁 棟1,王 年1※,楊先軍2
(1. 安徽大學(xué)農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國(guó)家地方聯(lián)合工程研究中心,合肥 230601;2. 中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院,合肥 230031)
準(zhǔn)確識(shí)別水稻害蟲(chóng)對(duì)水稻及時(shí)采取防護(hù)和治理具有重要意義。該研究以自然場(chǎng)景中水稻害蟲(chóng)圖像為研究對(duì)象,針對(duì)水稻害蟲(chóng)圖像的顏色紋理與背景相近以及同類害蟲(chóng)個(gè)體間形態(tài)差異較大等特點(diǎn),設(shè)計(jì)了一個(gè)由特征提取、全局優(yōu)化以及局部?jī)?yōu)化模塊構(gòu)成的輕量型殘差網(wǎng)絡(luò)(Light Weight Residual Network,LW-ResNet)用于水稻害蟲(chóng)識(shí)別。在特征提取模塊通過(guò)增加卷積層數(shù)以及分支數(shù)對(duì)殘差塊進(jìn)行改進(jìn),有效提取自然場(chǎng)景中水稻害蟲(chóng)圖像的深層全局特征并使用全局優(yōu)化模塊進(jìn)行優(yōu)化;局部?jī)?yōu)化模塊通過(guò)設(shè)計(jì)輕量型注意力子模塊關(guān)注害蟲(chóng)的局部判別性特征。LW-ResNet網(wǎng)絡(luò)在特征提取模塊減少了殘差塊的數(shù)量,在注意力子模塊中采用深度可分離卷積減少了浮點(diǎn)運(yùn)算量,從而實(shí)現(xiàn)了模型的輕量化。試驗(yàn)結(jié)果表明,所設(shè)計(jì)的LW-ResNet網(wǎng)絡(luò)在13類水稻害蟲(chóng)圖像的測(cè)試數(shù)據(jù)集上達(dá)到了92.5%的識(shí)別準(zhǔn)確率,高于VGG16、ResNet、AlexNet等經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型,并且LW-ResNet網(wǎng)絡(luò)的參數(shù)量?jī)H為1.62×106個(gè),浮點(diǎn)運(yùn)算量?jī)H為0.34×109次,低于MobileNetV3輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型。該研究成果可用于移動(dòng)端水稻害蟲(chóng)的自動(dòng)識(shí)別。
農(nóng)作物;模型;圖像識(shí)別;水稻害蟲(chóng);注意力機(jī)制;深度可分離卷積
害蟲(chóng)的準(zhǔn)確識(shí)別對(duì)于農(nóng)作物的保護(hù)和管理至關(guān)重要[1],一旦農(nóng)作物被害蟲(chóng)感染,必須采取及時(shí)有效的措施防止害蟲(chóng)傳播[2],自然場(chǎng)景中害蟲(chóng)不同生長(zhǎng)時(shí)期形態(tài)紋理等變化較大[3],借助于專家的專業(yè)知識(shí)或農(nóng)民的經(jīng)驗(yàn)等傳統(tǒng)識(shí)別方法存在效率低、成本大、易受視覺(jué)主觀性影響等問(wèn)題,無(wú)法滿足現(xiàn)代農(nóng)業(yè)生產(chǎn)中實(shí)際需求[4-6]。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,研究人員開(kāi)始使用機(jī)器學(xué)習(xí)和圖像處理的方法識(shí)別作物病蟲(chóng)害。Liu 等[7]通過(guò)提取小麥蚜蟲(chóng)的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征并送入支持向量機(jī)中去訓(xùn)練,在簡(jiǎn)單背景下實(shí)現(xiàn)了小麥蚜蟲(chóng)的自動(dòng)識(shí)別和計(jì)數(shù),平均精度可達(dá)到75.8%。Hafiz等[8]提取害蟲(chóng)的顏色直方圖和形狀特征送入貝葉斯網(wǎng)絡(luò)中去分類,在簡(jiǎn)單背景下實(shí)現(xiàn)了4 類小樣本害蟲(chóng)的有效識(shí)別。這些基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法通過(guò)人工的方式設(shè)計(jì)病蟲(chóng)害圖像的顏色、紋理、邊緣梯度等特征,然而在水稻害蟲(chóng)圖像中,害蟲(chóng)的顏色和紋理與水稻莖、稈、葉片等背景的顏色和紋理相似,因此這些方法在對(duì)于自然場(chǎng)景中的害蟲(chóng)容易產(chǎn)生誤識(shí)別。
近年來(lái),隨著AlexNet[9]、VGG[10]以及ResNet[11]等深度卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural network,CNN)模型的提出,目標(biāo)識(shí)別效果取得明顯改善[12],借助深度學(xué)習(xí)技術(shù)對(duì)病蟲(chóng)害識(shí)別可以更好地滿足農(nóng)業(yè)發(fā)展需要。鮑文霞等[13]利用多路卷積神經(jīng)網(wǎng)絡(luò)識(shí)別小麥赤霉病,精度可達(dá)98%以上。孔建磊等[14]基于多流融合網(wǎng)絡(luò)(Multi-stream Gaussian Probability Fusion Network,MPFN)對(duì)181類水稻害蟲(chóng)圖像進(jìn)行細(xì)粒度識(shí)別,既有效區(qū)分了類間微小差異,又可容忍類內(nèi)差異干擾,取得了93.18%的準(zhǔn)確率。Li等[15]結(jié)合多種預(yù)處理方法去除害蟲(chóng)的自然背景,利用微調(diào)的GoogleNet網(wǎng)絡(luò)模型識(shí)別10類農(nóng)作物害蟲(chóng),相比ResNet-101模型準(zhǔn)確率提高6.22%。Liu 等[16]通過(guò)全局區(qū)域?qū)Ρ确椒ㄓ?jì)算顯著性圖,進(jìn)而定位到稻田環(huán)境下的害蟲(chóng)目標(biāo),通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)對(duì)12類稻田害蟲(chóng)進(jìn)行識(shí)別,取得了95.1%的平均準(zhǔn)確率。Nanni 等[17]提出一種基于顯著性方法和卷積神經(jīng)網(wǎng)絡(luò)融合的自動(dòng)分類器對(duì)10類害蟲(chóng)進(jìn)行識(shí)別,取得了92.43%的識(shí)別精度?;贑NN的方法通過(guò)提取農(nóng)作物病蟲(chóng)害圖像的深層特征,在一定程度上提高了病蟲(chóng)害的識(shí)別準(zhǔn)確率,但水稻害蟲(chóng)在不同的生長(zhǎng)時(shí)期形態(tài)差異較大,并且不同類害蟲(chóng)形態(tài)紋理等相近,因此,為了能夠準(zhǔn)確識(shí)別水稻害蟲(chóng),需要在深層特征基礎(chǔ)上進(jìn)一步利用視覺(jué)注意力機(jī)制選擇對(duì)識(shí)別目標(biāo)更關(guān)鍵的信息。深度學(xué)習(xí)中的注意力機(jī)制從本質(zhì)上和人類的選擇性視覺(jué)注意力機(jī)制類似,能夠以無(wú)監(jiān)督的方式來(lái)自動(dòng)定位目標(biāo)判別性區(qū)域[18-20],例如,SE-Net[18]中使用多層感知機(jī)(Multi Layer Perceptron,MLP),通過(guò)壓縮和激勵(lì)操作對(duì)特征圖進(jìn)行全局信息集成和自適應(yīng)校準(zhǔn)。卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[19]利用空間和通道的特征相關(guān)性來(lái)提高CNN的性能。Non-local[20]是一種自注意力機(jī)制的泛化形式,利用其對(duì)長(zhǎng)范圍的依賴,提升視頻識(shí)別的性能。Zeng等[21]把Non-local模塊插入到CNN中獲取局部區(qū)域信息來(lái)提升模型識(shí)別農(nóng)作物葉片病害的性能,但是通過(guò)引入額外的網(wǎng)絡(luò)結(jié)構(gòu),模型在訓(xùn)練和推理階段需要較高的計(jì)算量和參數(shù)量。王美華等[22]把改進(jìn)的CBAM注意力機(jī)制嵌入到MoblieNet-V2、LeNet等CNN中對(duì)病蟲(chóng)害進(jìn)行細(xì)粒度識(shí)別,使得CNN的準(zhǔn)確率都有一定的提升。
針對(duì)自然場(chǎng)景中水稻害蟲(chóng)圖像在顏色紋理上與背景相近、同類害蟲(chóng)受生長(zhǎng)時(shí)期以及拍攝角度等影響形態(tài)差異較大、以及現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)量大等問(wèn)題,本研究提出一種輕量型殘差網(wǎng)絡(luò)用于自然場(chǎng)景水稻害蟲(chóng)的識(shí)別,以期提高自然場(chǎng)景中水稻害蟲(chóng)識(shí)別準(zhǔn)確率的同時(shí)減小模型的參數(shù)量和浮點(diǎn)運(yùn)算量,以滿足現(xiàn)代農(nóng)業(yè)生產(chǎn)中實(shí)際需求。
本研究收集的水稻害蟲(chóng)數(shù)據(jù)主要從佐治亞州大學(xué)等機(jī)構(gòu)設(shè)立的網(wǎng)址(https://www.insectimages.org/index.cfm)下載,經(jīng)過(guò)對(duì)害蟲(chóng)數(shù)據(jù)的整理,該原始數(shù)據(jù)集包含常見(jiàn)的13種水稻害蟲(chóng),總共1 413幅圖像,其中部分害蟲(chóng)圖像存在顏色紋理與背景較相近以及同類害蟲(chóng)在形態(tài)、視角等方面差異較大等特點(diǎn)。由于該數(shù)據(jù)集水稻害蟲(chóng)圖像尺寸不統(tǒng)一,為方便之后的試驗(yàn),對(duì)圖像進(jìn)行統(tǒng)一裁剪并調(diào)整為224像素×224像素×3通道。
自然場(chǎng)景中水稻害蟲(chóng)識(shí)別的算法流程包括:1)數(shù)據(jù)光照預(yù)處理。將水稻害蟲(chóng)圖像變換到HSV空間,對(duì)分量進(jìn)行Gamma變換[23]增強(qiáng)圖像的對(duì)比度;2)數(shù)據(jù)擴(kuò)充并按約9∶1比例劃分為訓(xùn)練集和測(cè)試集;3)LW-ResNet模型構(gòu)建。LW-ResNet模型由特征提取、全局優(yōu)化以及局部?jī)?yōu)化模塊構(gòu)成,在特征提取模塊通過(guò)疊加5個(gè)改進(jìn)殘差塊獲取水稻害蟲(chóng)圖像的深層全局特征,全局優(yōu)化模塊中通過(guò)1個(gè)卷積層對(duì)深層全局特征進(jìn)一步進(jìn)行優(yōu)化,局部?jī)?yōu)化模塊中引入輕量型注意力子模塊,輕量型注意力子模塊中主要由深度可分離卷積、全局平均池化和全局最大池化構(gòu)成,突出水稻害蟲(chóng)的局部關(guān)鍵特征;4)在訓(xùn)練階段,利用水稻害蟲(chóng)訓(xùn)練集數(shù)據(jù)聯(lián)合全局優(yōu)化模塊和局部?jī)?yōu)化模塊的損失函數(shù)共同優(yōu)化網(wǎng)絡(luò)模型;5)在測(cè)試階段,為了降低浮點(diǎn)運(yùn)算量,將去除LW-ResNet中全局優(yōu)化模塊的模型輸出作為水稻害蟲(chóng)識(shí)別結(jié)果。
1.2.1 數(shù)據(jù)光照預(yù)處理
由于光照強(qiáng)度的變化,圖像中水稻害蟲(chóng)特征與害蟲(chóng)原有的特征呈現(xiàn)出差異,進(jìn)而影響卷積神經(jīng)網(wǎng)絡(luò)對(duì)水稻害蟲(chóng)特征提取效果。為了緩解光照變化造成的負(fù)面影響,對(duì)水稻害蟲(chóng)圖像使用Gamma變換進(jìn)行預(yù)處理。Gamma變換定義為
V=Vgamma(1)
式中V、V以及gamma分別表示已轉(zhuǎn)換的灰度數(shù)據(jù)、原始灰度數(shù)據(jù)以及校正系數(shù)。
Gamma變換只能實(shí)現(xiàn)灰度圖像增強(qiáng),但在RGB顏色空間圖像中,每個(gè)像素樣本是一個(gè)包含、和這3個(gè)通道的特征向量。因0≤V≤1,0≤V≤1,直接把RGB顏色空間圖像作為Gamma變換的輸入將會(huì)改變圖像原有的像素特征,故先把RGB顏色空間圖像轉(zhuǎn)換到HSV顏色空間中,因其分量表示色彩明亮程度,范圍從0到1,歸一化后作為原始數(shù)據(jù)V;然后進(jìn)行Gamma變換得到V,作為已轉(zhuǎn)換的分量;最后再把HSV空間圖像映射回RGB空間圖像。V的均值和方差反映了圖像的亮暗程度[24],gamma根據(jù)圖像亮暗程度在0.2~2.2范圍內(nèi)取值對(duì)圖像進(jìn)行變換。
1.2.2 數(shù)據(jù)擴(kuò)充
為了保證數(shù)據(jù)樣本的均衡性,本研究采用不同比例對(duì)不同類別水稻害蟲(chóng)圖像進(jìn)行擴(kuò)充,對(duì)于水稻害蟲(chóng)圖像差異大的類別擴(kuò)充的數(shù)量多一些,而對(duì)于害蟲(chóng)圖像差異小一些的類別擴(kuò)充的數(shù)量少一些。最終訓(xùn)練集圖像數(shù)據(jù)總共有4 380幅圖像,測(cè)試集有492幅圖像,擴(kuò)充后的害蟲(chóng)種類和數(shù)目如表1所示。
表1 水稻害蟲(chóng)數(shù)據(jù)分布
1.2.3 基于LW-ResNet的水稻害蟲(chóng)識(shí)別模型
在深度學(xué)習(xí)中,深度CNN是很難訓(xùn)練的,因?yàn)榇嬖谔荻认Ш捅ǖ膯?wèn)題,于是He等[11]提出了殘差塊結(jié)構(gòu),通過(guò)跳躍連接的方式可以從網(wǎng)絡(luò)中某一層獲取激活,然后迅速反饋給另外一層,甚至是神經(jīng)網(wǎng)絡(luò)的更深層。利用殘差塊搭建的經(jīng)典殘差網(wǎng)絡(luò)有ResNet-18、ResNet-34等。但是原始?xì)埐顗K分支數(shù)少,特征提取和表達(dá)能力有限,需要多個(gè)殘差塊疊加才能提取圖像的深層信息。Ren等[25]驗(yàn)證了在殘差塊的基礎(chǔ)上通過(guò)增加分支數(shù)和卷積層數(shù)可以增強(qiáng)特征的提取和表達(dá)能力。因此,為了準(zhǔn)確識(shí)別自然場(chǎng)景中水稻害蟲(chóng)并且減小模型的參數(shù),本研究通過(guò)改進(jìn)殘差網(wǎng)絡(luò)和引入注意力機(jī)制設(shè)計(jì)了一個(gè)輕量型殘差網(wǎng)絡(luò)模型LW-ResNet,其結(jié)構(gòu)如圖2所示。該模型包含特征提取模塊、全局優(yōu)化模塊和局部?jī)?yōu)化模塊3部分。特征提取模塊主要由改進(jìn)殘差塊搭建,改進(jìn)殘差塊采用多分支結(jié)構(gòu)用于獲取自然場(chǎng)景中水稻害蟲(chóng)圖像的深層全局特征,同時(shí)降低網(wǎng)絡(luò)的深度;全局優(yōu)化模塊中通過(guò)卷積層優(yōu)化深層全局特征,然后經(jīng)過(guò)全局平均池化層、全連接層以及損失函數(shù)優(yōu)化;局部?jī)?yōu)化模塊中使用輕量型注意力子模塊以無(wú)監(jiān)督的形式學(xué)習(xí)目標(biāo)的局部判別性特征,輕量型注意力子模塊中對(duì)特征進(jìn)行聚集和擴(kuò)張操作,有助于保留特征的空間位置信息,然后經(jīng)過(guò)全局平均池化層、全連接層,損失函數(shù)后輸出類別概率。
1)特征提取模塊
為了提升水稻害蟲(chóng)圖像特征提取的能力,本研究通過(guò)添加分支和卷積層的方式對(duì)原始?xì)埐顗K進(jìn)行改進(jìn),如圖3所示,改進(jìn)后的殘差塊有3個(gè)分支,并且每個(gè)分支特征提取能力不同。特征圖首先經(jīng)過(guò)1×1的卷積層進(jìn)行升維操作,特征通道數(shù)增大2倍,隨后被劃分為2組相同通道的特征,其中1組特征被送入卷積核大小為3×3的3個(gè)卷積層捕捉特征的長(zhǎng)距離關(guān)系依賴,增強(qiáng)了特征提取能力,同時(shí)相比于感受野更大的卷積核,降低了卷積層參數(shù)量,與另1組特征融合增強(qiáng)了特征的多尺度表達(dá)能力,因逐像素相加操作傾向于改變特征,為了不破壞特征表達(dá),對(duì)最左邊分支中使用了卷積核大小為3×3的卷積層。因此改進(jìn)殘差塊相比原始?xì)埐顗K特征學(xué)習(xí)能力更強(qiáng)。
注:Conv代表卷積操作;2個(gè)整數(shù)的乘積代表卷積核大小,BN代表批處理歸一化,ReLu代表激活函數(shù),并在分支內(nèi)部使用BN-ReLu-Conv的卷積順序以減少梯度消失[25]。U表示逐像素相乘,⊕表示逐像素相加,?表示特征融合。
為了提取自然場(chǎng)中水稻害蟲(chóng)深層全局特征的同時(shí)讓模型盡可能的輕量,本研究主要使用5個(gè)改進(jìn)殘差塊搭建特征提取模塊,結(jié)構(gòu)如圖4所示。224×224(像素)尺寸的輸入圖像進(jìn)入第一個(gè)卷積層后,尺寸變?yōu)?12×112,通道變?yōu)?,然后依次進(jìn)入改進(jìn)殘差塊和最大池化層,特征通道數(shù)依次增大2倍,尺寸依次縮小二分之一,最后輸出的深層全局特征圖尺寸為7×7,通道數(shù)為256。
2)局部?jī)?yōu)化模塊
由于水稻害蟲(chóng)圖像的顏色紋理與背景相近,獲取的深層全局特征存在一定的特征冗余,并且同類害蟲(chóng)不同個(gè)體間形態(tài)差異大,會(huì)影響模型識(shí)別性能。注意力機(jī)制是一種能夠強(qiáng)化重要信息和抑制不重要信息的方法,故在局部?jī)?yōu)化模塊中采用了輕量型注意力子模塊獲取局部判別性特征。本研究設(shè)計(jì)的輕量型注意力子模塊如圖5所示。
為了讓輕量型注意力子模塊在訓(xùn)練和推理階段以較小的計(jì)算量和參數(shù)量獲取到自然場(chǎng)景中水稻害蟲(chóng)的局部判別性特征。注意力子模塊中使用深度可分離卷積,其由深度卷積和點(diǎn)卷積兩部分組成。深度卷積減少了通道范圍內(nèi)的冗余度,打破了輸入與輸出特征之間的完全連接模式,深層全局特征圖首先經(jīng)過(guò)卷積核大小為1×1的深度卷積,生成了特征圖,如公式(2 )所示。
式中1×1表示卷積核大小為1×1的深度卷積,深層全局特征圖經(jīng)過(guò)深度卷積后,生成優(yōu)化后的深層全局特征圖特征圖的不同通道特征之間缺少通信,會(huì)降低網(wǎng)絡(luò)的特征提取能力,點(diǎn)卷積有效利用了不同通道在相同空間位置上信息的相關(guān)性,如公式(3)所示。
注:Softmax和Expand分別代表激活函數(shù)和擴(kuò)張函數(shù)。代表輸出的局部判別性特征。
3)損失函數(shù)
全局優(yōu)化模塊和局部?jī)?yōu)化模塊使用的都是交叉熵?fù)p失函數(shù),如下所示:
模型最終聯(lián)合全局優(yōu)化模塊的L值和局部?jī)?yōu)化模塊的L值優(yōu)化網(wǎng)絡(luò)模型,實(shí)現(xiàn)網(wǎng)絡(luò)模型的快速收斂。
本研究采用準(zhǔn)確率(Accuracy)、精度(Precision)以及召回率(Recall)[27]指標(biāo)來(lái)衡量LW-ResNet模型的識(shí)別性能,為了更好地評(píng)價(jià)本研究LW-ResNet模型和使用的輕量型注意力機(jī)制模型的開(kāi)銷,通過(guò)參數(shù)量和浮點(diǎn)運(yùn)算量[27]指標(biāo)與其他注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比,參數(shù)量和浮點(diǎn)運(yùn)算量常用來(lái)衡量算法和模型的復(fù)雜度[28]。
為了驗(yàn)證特征提取模塊中改進(jìn)殘差塊數(shù)量和輕量型注意力子模塊對(duì)LW-ResNet模型識(shí)別性能的影響,在不添加和添加輕量型注意力子模塊兩種條件下,分別采用不同數(shù)量的改進(jìn)殘差塊進(jìn)行水稻害蟲(chóng)識(shí)別試驗(yàn),對(duì)比識(shí)別結(jié)果如表2所示。
表2 不同殘差塊數(shù)量驗(yàn)證試驗(yàn)結(jié)果
通過(guò)表2可以得出,在相同試驗(yàn)條件下,5個(gè)改進(jìn)殘差塊搭建特征提取模塊取得的識(shí)別結(jié)果優(yōu)于4個(gè)和6個(gè)的情形,因此為了保證模型識(shí)別性能的同時(shí),模型更輕量,選取具有5個(gè)改進(jìn)殘差塊的殘差網(wǎng)絡(luò)。并且當(dāng)嵌入輕量型注意力子模塊后,模型的識(shí)別結(jié)果在準(zhǔn)確度、精度以及召回率上都有明顯提升。
Grad-Cam[29]技術(shù)能夠以熱力圖的方式呈現(xiàn)圖像中每個(gè)位置與所屬類別的相似程度,熱力圖色條值越大越相似。圖6給出了大稻緣蝽、稻棘緣蝽以及稻縱卷葉螟中的3幅圖像及其類激活特征熱力圖。由于特征提取模塊是由改進(jìn)殘差塊搭建的,其特征提取和表達(dá)能力更強(qiáng),可以看出,第一個(gè)殘差塊更關(guān)注于背景區(qū)域特征,隨著改進(jìn)殘差塊的疊加逐漸關(guān)注害蟲(chóng)目標(biāo)區(qū)域。從深層全局特征可以看出,由于特征提取模塊越深層的特征越與全局信息相關(guān),所以深層全局特征經(jīng)過(guò)輕量型注意力子模塊后可以更好地學(xué)習(xí)全局信息,以便于定位到局部判別性特征,但對(duì)于自然場(chǎng)景中的水稻害蟲(chóng),深層全局特征可能缺少目標(biāo)的整體結(jié)構(gòu)特征,經(jīng)過(guò)輕量型注意力模塊后,不能很好地生成的局部判別性特征,將需要后續(xù)全局優(yōu)化模塊進(jìn)行優(yōu)化。
為了進(jìn)一步驗(yàn)證本研究設(shè)計(jì)的輕量型注意力機(jī)制子模塊的優(yōu)勢(shì),在相同的試驗(yàn)條件下,在設(shè)計(jì)的網(wǎng)絡(luò)模型LW-ResNet中,將所設(shè)計(jì)的輕量型注意力機(jī)制子模塊替換成超輕量型注意力機(jī)制模型ULSAM[28]以及CBAM、BAM[30]、Non-local 這3種經(jīng)典的注意力機(jī)制模型進(jìn)行對(duì)比試驗(yàn)。得到網(wǎng)絡(luò)模型的識(shí)別結(jié)果和各注意力機(jī)制的參數(shù)數(shù)量和浮點(diǎn)運(yùn)算量,如表3所示。
從表3可以看出,與其他注意力機(jī)制對(duì)比,本研究的注意力機(jī)制和ULSAM的參數(shù)量和浮點(diǎn)運(yùn)算量最低,性能最好。其中ULSAM是超輕量級(jí)注意力機(jī)制,當(dāng)分支數(shù)=4時(shí),使用ULSAM性能反而降低,是因?yàn)閷?duì)于自然場(chǎng)景中水稻害蟲(chóng)數(shù)據(jù),其多尺度、多頻率特點(diǎn)會(huì)讓網(wǎng)絡(luò)關(guān)注到自然場(chǎng)景,對(duì)識(shí)別結(jié)果會(huì)產(chǎn)生消極影響。本研究使用的輕量型注意力機(jī)制與ULSAM(=1)相比,通過(guò)基于通道的平均池化和最大池化融合操作,在保證性能的同時(shí),比ULSAM的開(kāi)銷更低。
為了驗(yàn)證全局優(yōu)化模塊對(duì)LW-ResNet模型性能的影響,在不添加和添加全局優(yōu)化模塊兩種條件下,分別對(duì) LW-ResNet模型進(jìn)行水稻害蟲(chóng)識(shí)別試驗(yàn),對(duì)比識(shí)別結(jié)果如表4所示。
表3 不同注意力機(jī)制性能驗(yàn)證試驗(yàn)結(jié)果
注:代表ULSAM注意力機(jī)制的分支數(shù)。FLOPs代表浮點(diǎn)運(yùn)算數(shù)。
Note:represents the branch number of ULSAM attention mechanism. FLOPs represents floating point operations.
表4 全局優(yōu)化模塊性能驗(yàn)證試驗(yàn)結(jié)果
從表4可知,本研究LW-ResNet模型利用全局優(yōu)化模塊和局部?jī)?yōu)化模塊的損失函數(shù)共同優(yōu)化網(wǎng)絡(luò)模型時(shí)的識(shí)別結(jié)果優(yōu)于去除全局優(yōu)化模塊的識(shí)別結(jié)果。引入全局優(yōu)化模塊后,深層全局特征和局部判別性特征的熱力圖如圖7所示,圖7a為黑尾葉蟬、稻棘緣春以及大稻緣蝽3類水稻害蟲(chóng)的圖像,圖7b和圖7c分別是對(duì)應(yīng)的深層全局特征和局部判別性特征,從圖可以看出對(duì)于不同場(chǎng)景中的水稻害蟲(chóng),深層全局特征都有一定全局結(jié)構(gòu)特征,有助于局部?jī)?yōu)化模塊學(xué)習(xí)到水稻害蟲(chóng)的局部判別性特征,緩解因同類害蟲(chóng)之間的形態(tài)差異導(dǎo)致的誤判,進(jìn)一步提升了模型識(shí)別性能。
為進(jìn)一步驗(yàn)證所設(shè)計(jì)的模型識(shí)別自然場(chǎng)景中水稻害蟲(chóng)的效果,在相同的試驗(yàn)條件下,利用本研究構(gòu)建的水稻害蟲(chóng)圖像數(shù)據(jù)集,將所設(shè)計(jì)的LW-ResNet模型與VGG-16、ResNet-34、ResNet-18、AlexNet這4種經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)以及輕量型網(wǎng)絡(luò)MobileNetV3(small)[31]進(jìn)行對(duì)比識(shí)別試驗(yàn),識(shí)別結(jié)果和模型的復(fù)雜度分別如表5所示。
表5 不同CNN參數(shù)量和浮點(diǎn)運(yùn)算數(shù)對(duì)比
從表5可以看出,不同層數(shù)、不同結(jié)構(gòu)的CNN對(duì)水稻害蟲(chóng)的識(shí)別效果不一樣,本研究LW-ResNet的識(shí)別準(zhǔn)確率要高于其他模型的準(zhǔn)確率。VGG-16模型識(shí)別準(zhǔn)確率僅次于本研究的模型,但因其全連接層存在大量的參數(shù),浮點(diǎn)運(yùn)算量過(guò)大,從表中可以看出,該模型參數(shù)量和浮點(diǎn)運(yùn)算量是最大的,不利于移動(dòng)端的應(yīng)用。MobileNetV3(small)輕量型卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)量和浮點(diǎn)運(yùn)算量不僅略多于本研究的LW-ResNet模型,而且因其網(wǎng)絡(luò)結(jié)構(gòu)是通過(guò)逆殘差結(jié)構(gòu)搭建,相比于本研究的改進(jìn)殘差塊特征提取和表達(dá)能力有限,使得準(zhǔn)確率相比與LW-ResNet模型低了4.8個(gè)百分點(diǎn)??偟膩?lái)說(shuō),本研究LW-ResNet模型在保證模型性能的同時(shí),參數(shù)量和浮點(diǎn)運(yùn)算量不僅低于其他常用CNN,也低于輕量型卷積神經(jīng)網(wǎng)絡(luò),因此該模型可應(yīng)用于移動(dòng)端的水稻害蟲(chóng)識(shí)別。
為了分析LW-ResNet模型對(duì)不同類別水稻害蟲(chóng)識(shí)別的效果,圖8給了LW-ResNet模型在測(cè)試集上識(shí)別結(jié)果的混淆矩陣,采用標(biāo)準(zhǔn)化矩陣和非標(biāo)準(zhǔn)化矩陣來(lái)表示。標(biāo)準(zhǔn)化混淆矩陣對(duì)角線代表著每類的準(zhǔn)確率,如圖8a所示;非標(biāo)準(zhǔn)化混淆矩陣對(duì)角線代表著每類被正確分類的數(shù)量,如圖8b所示。標(biāo)簽0到12分別代表著13類水稻害蟲(chóng),它們具體是:0(稻赤斑沫蟬)、1(二化螟)、2(大稻緣蝽)、3(稻縱卷葉螟)、4(稻鐵甲)、5(二星蝽)、6(灰飛虱)、7(稻棘緣蝽)、8(黑尾葉蟬)、9(稻綠蝽)、10(稻黑蝽)、11(大螟)、12(白背飛虱)。
試驗(yàn)結(jié)果表明,LW-ResNet模型在大部分水稻害蟲(chóng)上都取得了比較好的識(shí)別結(jié)果(例如白背飛虱、稻縱卷葉螟、稻黑蝽等),而標(biāo)簽2(大稻緣蝽)、標(biāo)簽8(黑尾葉蟬)以及標(biāo)簽7(稻棘緣春)的識(shí)別準(zhǔn)確率稍低,是因?yàn)檫@3類害蟲(chóng)在圖像背景、形態(tài)以及拍攝視覺(jué)等方面差異都較大,相對(duì)其他類別害蟲(chóng)圖像更難識(shí)別并且大稻緣蝽與稻棘緣蝽在紋理和形態(tài)上非常相近,因此易互相被誤識(shí)別。黑尾葉蟬除了形態(tài)上差異較大并且顏色和紋理與背景很相似,因此較其他類別圖像識(shí)別率稍低。
本研究根據(jù)自然場(chǎng)景中水稻害蟲(chóng)圖像的特點(diǎn),設(shè)計(jì)了一個(gè)LW-ResNet模型用于水稻害蟲(chóng)的識(shí)別。該模型通過(guò)對(duì)殘差塊進(jìn)行改進(jìn)并設(shè)計(jì)輕量型注意力子模塊,從而獲取水稻害蟲(chóng)圖像深層全局特征和局部判別性特征,提高模型的識(shí)別性能同時(shí)減少參數(shù)量。通過(guò)對(duì)13類水稻害蟲(chóng)圖像進(jìn)行對(duì)比試驗(yàn),LW-ResNet模型取得了92.5%的識(shí)別準(zhǔn)確度,優(yōu)于VGG-16、ResNet-34以及AlexNet等經(jīng)典卷積神經(jīng)網(wǎng)絡(luò);模型參數(shù)量為1.62×106、浮點(diǎn)運(yùn)算量為0.34×109,低于輕量型卷積神經(jīng)網(wǎng)絡(luò)MobileNetV3(small)。研究結(jié)果可以應(yīng)用到水稻害蟲(chóng)智能識(shí)別系統(tǒng)中。在今后的研究中,將針對(duì)水稻害蟲(chóng)擴(kuò)大其種類,以及水稻害蟲(chóng)的類間相似性、類內(nèi)差異性等問(wèn)題,進(jìn)一步優(yōu)化模型,以提高對(duì)自然場(chǎng)景中水稻害蟲(chóng)識(shí)別的適用性。
[1] Bao W X, Qiu X, Liang D, et al. Recognition insect images at the order level based on elliptic metric learning[J]. American Society of Agricultural and Biological Engineers, 2021, 37(1): 163-170.
[2] 鮑文霞,邱翔,胡根生,等. 基于橢圓型度量學(xué)習(xí)空間變換的水稻蟲(chóng)害識(shí)別[J]. 華南理工大學(xué)學(xué)報(bào),2020,48(10):136-144.
Bao Wenxia, Qiu Xiang, Hu Gensheng, et al. Rice pest identification based on elliptic metric learning space transformation[J]. Journal of South China University of Technology, 2020, 48(10): 136-144. (in Chinese with English abstract)
[3] Jensen H G, Jacobsen L B, Pedersen S M, et al. Socioecomomic impact of widespread adoption of precision farming and controlled traffic in Denmark[J]. Precision Agriculture, 2012, 13(6): 661-677.
[4] Lim S, Kim S, Park S, et al. Development of Application for Forest Insect Classification using CNN[C]. //2018 15thInternational Conference on Control, Automation, Robotics and Vision (ICARCV). Singapore: IEEE, 2018.
[5] 邊柯橙,楊海軍,路永華,等. 深度學(xué)習(xí)在農(nóng)業(yè)病蟲(chóng)害檢測(cè)識(shí)別中的應(yīng)用綜述[J]. 軟件導(dǎo)刊. 2021,20(3):26-33.
Bian Kecheng, Yang Haijun, Lu Yonghua, et al. Overview of the application of deep learning in the detection and identification of pests and diseases in agriculture[J]. Software Guide. 2021, 20(3): 26-33. (in Chinese with English abstract)
[6] 田杰,韓冬,胡秋霞,等. 基于PCA和高斯混合模型的小麥病害彩色圖像分割[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2014,45(7):267-271.
Tian Jie, Han Dong, Hu Qiuxia, et al. Color image segmentation of wheat diseases based on PCA and Gaussian mixture model[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(7): 267-271. (in Chinese with English abstract)
[7] Liu T, Chen W, Wu W, et al. Detection of aphids in wheat fields using a computer vision technique[J]. Biosystems Engineering, 2016, 141(2): 82-93.
[8] Hafiz G A U, Qaisar A, Fatima G. Insect classfication using image processing and bayesian network[J]. Journal of Entomology and Zoology Studies, 2017, 5(6): 1079-1082.
[9] Krizhevsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25(2): 84-90.
[10] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014, 18(2): 1409-1556.
[11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE Computer Society, 2016.
[12] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(1): 436-444.
[13] 鮑文霞,孫慶,胡根生,等. 基于多路卷積神經(jīng)網(wǎng)絡(luò)的大田小麥赤霉病圖像識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(11):174-181.
Bao Wenxia, Sun Qing, Hu Gensheng, et al. Field wheat head blight image recognition based on multi-channel convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transaction of the CSAE), 2020, 36(11): 174-181. (in Chinese with English abstract)
[14] 孔建磊,金學(xué)波,陶治,等. 基于多流高斯概率融合網(wǎng)絡(luò)的病蟲(chóng)害細(xì)粒度識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(13):148-157.
Kong Jianlei, Jin Xuebo, Tao Zhi, et al. Fine-grained recognition of pests and diseases based on multi-stream Gaussian probability fusion network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transaction of the CSAE), 2020, 36(13): 148-157. (in Chinese with English abstract)
[15] Li Y, Wang H, Dang L M, et al. Crop pest recognition in natural scenes using convolutional neural networks[J]. Computers and Electronics in Agriculture, 2020, 169(1): 302-310.
[16] Liu Z, Gao J, Yang G, et al. Localization and classification of paddy field pests using a saliency map and deep convolutional neural network[J]. Scientific Reports(Sci Rep), 2016, 6(1): 1-9.
[17] Nanni L, Maguolo G, Pancino F. Insect pest image detection and recognition based on bio-inspired methods[J]. Ecological Informatics, 2020, 57(1): 2-14.
[18] Jie H, Li S, Gang S, et al. Squeeze-and-Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 42(8): 2011-2023.
[19] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module[C]. European Conference on Computer Vision, Munich, Germany: Springer, 2018.
[20] Wang X, Girshick R, Gupta A, et al. Non-local neural networks[J]. Computer Science, 2017, 1711(2): 7794-7803.
[21] Zeng W, Li M. Crop leaf disease recognition based on Self-Attention convolutional neural network[J]. Computers and Electronics in Agriculture, 2020, 172(1): 4-14.
[22] 王美華,吳振鑫,周祖光. 基于注意力改進(jìn)CBAM的農(nóng)作物病蟲(chóng)害細(xì)粒度識(shí)別研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(4):239-247.
Wang Meihua, Wu Zhenxin, Zhou Zuguang. Research on fine-grained recognition of agricultural diseases and insect pests based on improved CBAM of attention[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 239-247. (in Chinese with English abstract)
[23] Gonzalez, R C, Woods. Digital image processing[J]. Beijing: Electronic Industry Press, 2005: 175-207.
[24] 陸濤. 基于統(tǒng)計(jì)特征分類耦合自適應(yīng)Gamma校正的圖像增強(qiáng)算法[J]. 電子測(cè)量與儀器學(xué)報(bào),2020,34(6):154-162.
Lu Tao. Image enhancement algorithm based on statistical feature classification coupled with adaptive Gamma correction[J]. Journal of Electronic Measurement and Instrument, 2020, 34(6): 154-162. (in Chinese with English abstract)
[25] Ren F, Liu W, Wu G. Feature reuse residual networks for insect pest recognition[J]. IEEE Access, 2019, 7(1): 122758-122768.
[26] Loshchilov I, Hutter F. SGDR: Stochastic gradient descent with warm restarts[C]. Toulon, France: OpenReview.net, 2016.
[27] 周志華. 機(jī)器學(xué)習(xí)[M],北京:清華大學(xué)出版社,2016:230-245.
[28] Saini R, Jha N K, Das B, et al. ULSAM: Ultra-lightweight subspace attention module for compact convolutional neural networks[C]. IEEE Winter Conference on Applications of Computer Vision (WACV). Snowmass. CO. USA, IEEE, 2020, 12(4): 1616-1625.
[29] Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual Explanations from deep networks via gradient-based localization[J]. International Journal of Computer Vision, 2020, 128(2): 336-359.
[30] Park J, Woo S, Lee J Y, et al. BAM: Bottleneck attention module[C]. Newcastle, UK:British Machine Vision Conference (BMVA). 2018.
[31] Howard A, Sandler M, Chen B, et al. Searching for MobileNetV3[C]. Seoul, Korea (South): IEEE. 2019.
Rice pest identification in natural scene based on lightweight residual network
Bao Wenxia1, Wu Dezhao1, Hu Gensheng1, Liang Dong1,Wang Nian1※, Yang Xianjun2
(1.-,,230601,; 2.,,230031,)
Accurate identification of rice pests is of great significance for timely protection and management of rice. However, the rice pests are similar with the background in the color and texture, and the morphology of the pests varies greatly during different growth stages. Therefore, it is difficult to accurately identify the rice pests in natural scenes. In this paper, the Light Weight Residual Network (LW-ResNet) composed of feature extraction, global optimization and local optimization modules was designed to improve the ability to identify rice pests in natural scene images. Firstly, in order to reduce the influence of complex background and enhance the feature extraction and expression capabilities of the residual network, the residual block is improved to constitute the feature extraction module. The improved residual block increases the number of convolutional layers and branches of the original residual block, which can effectively extract the deep global features of rice pest images. Secondly, the deep global features are further optimized through the convolutional layers in the global optimization module. Finally, in order to obtain the local discriminative characteristics of rice pest images to distinguish the morphological differences between similar pests, the lightweight attention sub-module constitutes the local optimization module. The light weight attention sub-module uses depth separable convolution to reduce the redundancy of channel features and realize the aggregation of different channel characteristics, so it can highlight the local key features of rice pests. Because the improvement of the residual block in the feature extraction module reduces the number of residual blocks, and the use of deep separable convolution in the attention sub-module and the channel-based global average pooling and global maximum pooling encoding operations reduce floating point operations, the LW-ResNet network has achieved lighter weight. In the HSV space, Gamma transform is used to preprocess the v component of rice pest images and then proceed to the data expansion. After the expansion, there are 4 380 images in the training set and 492 images in the test set. In order to verify the rationality and effectiveness of the method in this paper, in the training phase, the cosine learning rate decay strategy was used to train the network model. By analyzing the number of the improved residual blocks in the feature extraction module, the lightweight attention sub-module in the local optimization module, and the global optimization module, the rationality of the method in this paper was verified. In the testing phase, the LW-ResNet network model achieves a identification accuracy of 92.5% on the test data set of 13 types of rice pest images. The identification accuracy of the LW-ResNet network model is higher than that of classic convolutional neural network models such as VGG16, ResNet, and AlexNet. The parameter amount of the LW-ResNet model is 1.62×106, and the amount of floating-point operations is 0.34×109. The number of parameters and floating-point operations of the LW-ResNet model are both lower than those of MobileNetV3, which verified the effectiveness of the method in this paper. The LW-ResNet network model has achieved light weight and a good identification effect, so it can be used for rice pest identification on the mobile terminal.
crops; models; image identification; rice pest; attention mechanism; deep separable convolution
鮑文霞,吳德釗,胡根生,等. 基于輕量型殘差網(wǎng)絡(luò)的自然場(chǎng)景水稻害蟲(chóng)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(16):145-152.doi:10.11975/j.issn.1002-6819.2021.16.018 http://www.tcsae.org
Bao Wenxia, Wu Dezhao, Hu Gensheng, et al. Rice pest identification in natural scene based on lightweight residual network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 145-152. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.16.018 http://www.tcsae.org
2021-06-19
2021-08-13
國(guó)家自然科學(xué)基金(41771463;61672032)
鮑文霞,副教授,碩士生導(dǎo)師,研究方向?yàn)檗r(nóng)業(yè)與生態(tài)視覺(jué)分析與模式識(shí)別。Email:bwxia@ahu.edu.cn
王年,教授,博士生導(dǎo)師,研究方向?yàn)檗r(nóng)業(yè)大數(shù)據(jù)分析。Email:wn_xlb@ahu.edu.cn
10.11975/j.issn.1002-6819.2021.16.018
TP;S24
A
1002-6819(2021)-16-0145-08