于雪瑩,高繼勇,王首程,李慶盛,王志強(qiáng)
(山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東淄博,255049)
蘋(píng)果是我國(guó)栽培面積最廣、消費(fèi)量最大的水果[1],其生長(zhǎng)過(guò)程中常受到多種病害的侵襲,準(zhǔn)確識(shí)別其病害種類(lèi)并及時(shí)防治,對(duì)于提高蘋(píng)果的產(chǎn)量和質(zhì)量至關(guān)重要[2]。當(dāng)前植物病害識(shí)別已成為圖像識(shí)別以及智慧農(nóng)業(yè)領(lǐng)域內(nèi)的重要研究方向[3]。傳統(tǒng)的機(jī)器學(xué)習(xí)算法需要對(duì)圖像經(jīng)提取特征后進(jìn)行分類(lèi),其特征提取過(guò)程耗時(shí)耗力,分類(lèi)模型泛化能力弱、識(shí)別效果差[4]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)能夠自動(dòng)提取圖像特征,實(shí)現(xiàn)端到端的分類(lèi)識(shí)別,目前已在植物病害識(shí)別領(lǐng)域得到廣泛應(yīng)用[5-10]。但隨著網(wǎng)絡(luò)深度的增加,CNN在訓(xùn)練過(guò)程中易出現(xiàn)梯度消失、梯度爆炸,導(dǎo)致網(wǎng)絡(luò)收斂速度變慢、網(wǎng)絡(luò)退化等問(wèn)題。He等提出殘差網(wǎng)絡(luò)(Residual Network, ResNet),在殘差塊中引入捷徑連接(shortcut)能有效防止特征提取過(guò)程中信息的丟失,解決深層網(wǎng)絡(luò)的退化問(wèn)題。但由于植物病斑多存在于葉片局部范圍,模型在訓(xùn)練時(shí)會(huì)受到葉脈、輪廓等無(wú)關(guān)因素的干擾,使識(shí)別難度加大[11]。在網(wǎng)絡(luò)中添加注意力機(jī)制能夠使其更關(guān)注與病害特征相關(guān)的細(xì)節(jié)信息,有效提高模型的辨識(shí)能力[12-13]。陸雅諾等[14]在ResNet上添加通道注意力模塊,實(shí)現(xiàn)對(duì)啤酒花的識(shí)別任務(wù)。但通道注意力機(jī)制只在圖像的通道維度提取特征,而忽略了同一通道不同位置的特征?;旌献⒁饬C(jī)制(Convolutional block attention module,CBAM)通過(guò)將通道注意力模塊和空間注意力模塊融合,使模型訓(xùn)練時(shí)能同時(shí)兼顧特征圖的空間和位置因素,從而更全面地對(duì)病斑特征進(jìn)行處理。王粉花等[15]提出將I3D網(wǎng)絡(luò)和CBAM融合用于識(shí)別動(dòng)態(tài)手勢(shì)。李海豐等[16]在DetMSPNet中加入CBAM用于機(jī)場(chǎng)路面的識(shí)別。
深度學(xué)習(xí)網(wǎng)絡(luò)在病害識(shí)別過(guò)程中需要大量訓(xùn)練樣本圖像,以防止模型在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合現(xiàn)象。將數(shù)據(jù)集通過(guò)隨機(jī)翻轉(zhuǎn)、提高對(duì)比度、添加噪聲等方法進(jìn)行擴(kuò)充,能減少過(guò)擬合現(xiàn)象的出現(xiàn)[17],但這些方法生成的樣本數(shù)據(jù)不夠豐富且圖像特征與原始數(shù)據(jù)集區(qū)分度較低[18]。Goodfellow等[19]提出生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN),通過(guò)生成器和判別器相互對(duì)抗生成豐富的樣本圖像用于模型的訓(xùn)練。熊方康等[20]將GAN生成的訓(xùn)練集輸入改進(jìn)后的VGG-16模型,對(duì)土豆、番茄等農(nóng)作物病害進(jìn)行識(shí)別。但傳統(tǒng)GAN在訓(xùn)練過(guò)程中采用的損失函數(shù)會(huì)導(dǎo)致模型出現(xiàn)梯度消失,以及對(duì)多樣性和準(zhǔn)確性懲罰不平衡造成的模型崩潰[21]?;赪asserstein距離的生成對(duì)抗網(wǎng)絡(luò)(Wasserstein GAN, WGAN)采用Wasserstein距離來(lái)度量真實(shí)樣本分布和生成樣本分布之間的差異,使模型具有更好的穩(wěn)定性和收斂速度,提高生成圖像的質(zhì)量和多樣性[22]。
針對(duì)上述問(wèn)題,本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)和混合注意力機(jī)制殘差網(wǎng)絡(luò)的方法。采用WGAN對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),生成更多的樣本數(shù)據(jù)。對(duì)殘差網(wǎng)絡(luò)的原始?xì)埐顗K進(jìn)行改進(jìn),并嵌入混合注意力機(jī)制,使模型在訓(xùn)練過(guò)程中將注意力更集中于病斑區(qū)域,對(duì)病害細(xì)節(jié)的分辨力更高。
試驗(yàn)以蘋(píng)果健康葉片以及黑腐病、雪松銹病、斑點(diǎn)落葉病和黑星病4種常見(jiàn)蘋(píng)果病害葉片圖像作為研究對(duì)象,圖像分辨率統(tǒng)一設(shè)置為100×100。樣本數(shù)據(jù)來(lái)自Plant Village公共數(shù)據(jù)集,原始圖像3 207張,包括健康葉片980張,黑腐病621張,雪松銹病275張,斑點(diǎn)落葉病701張,黑星病630張,典型樣本如圖1所示。
(a) 黑腐病葉片 (b) 雪松銹病葉片 (c) 斑點(diǎn)落葉病葉片
(d) 黑星病葉片 (e) 健康葉片
其中,圖1(a)為黑腐病葉片,病斑中部凹陷呈深褐色;圖1(b)為雪松銹病葉片,表面接近枯萎,有大量淺褐色斑點(diǎn);圖1(c)為斑點(diǎn)落葉病葉片,病斑為橘紅色小圓點(diǎn);圖1(d)為黑星病葉片,表面有大量黑色斑點(diǎn);圖1(e)為健康葉片。
GAN由生成器G和判別器D兩個(gè)部分構(gòu)成,其結(jié)構(gòu)如圖2所示。生成器根據(jù)輸入的隨機(jī)噪聲z得到生成樣本G(z),然后由判別器負(fù)責(zé)判斷接受的數(shù)據(jù)是真實(shí)樣本還是生成樣本。二者不斷進(jìn)行迭代優(yōu)化,在相互對(duì)抗訓(xùn)練中使模型最終達(dá)到納什平衡。
圖2 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)
GAN的目標(biāo)函數(shù)用于保證判別器能夠判斷樣本的真假,生成器能夠不斷優(yōu)化網(wǎng)絡(luò)從而生成更多真實(shí)樣本,使圖像越來(lái)越逼真。目標(biāo)函數(shù)如式(1)所示。
Ez~Pg[log(1-D(G(z)))]
(1)
式中:V(D,G)——損失函數(shù);
Pd——真實(shí)樣本分布;
Pg——生成樣本分布。
當(dāng)GAN的真實(shí)樣本分布和生成樣本分布之間不重疊時(shí)或重疊部分較少時(shí),其等價(jià)于JS散度的目標(biāo)函數(shù)會(huì)轉(zhuǎn)化為固定常數(shù),此時(shí)生成樣本分布無(wú)法向真實(shí)樣本分布靠攏[23],導(dǎo)致訓(xùn)練過(guò)程中出現(xiàn)模式崩塌、梯度消失等問(wèn)題。采用Wasserstein距離代替JS散度對(duì)GAN進(jìn)行優(yōu)化,將目標(biāo)函數(shù)約束到一個(gè)二次函數(shù)的范圍內(nèi),可以有效緩解梯度消失問(wèn)題,其優(yōu)化公式如式(2)所示。
(2)
其中,判別器在訓(xùn)練過(guò)程中需要符合1-Lipschitz函數(shù)給定的約束范圍。
Wasserstein距離定義如式(3)所示。
(3)
其中,γ~∏(Pd,Pg)表示Pd和Pg任意組合的集合,從(x,y)~γ中采樣分別得到一個(gè)真實(shí)樣本x和生成樣本y,通過(guò)分布γ對(duì)樣本距離‖x-y‖的期望值E(x,y)~γ[‖x-y‖]取下界得到的即為Wasserstein距離。
WGAN模型及參數(shù)設(shè)置如圖3所示。其中,生成器由5個(gè)反卷積層(Conv2DTranspose)和4個(gè)批歸一化層(BatchNormalization,BN)構(gòu)成,激活函數(shù)采用Leaky Relu;判別器由5個(gè)卷積層(Conv2D)和4個(gè)批歸一化層構(gòu)成,激活函數(shù)采用Leaky Relu,由Flatten層將數(shù)據(jù)進(jìn)行一維化,最后由Dense層輸出判別結(jié)果。
(a) 生成器
(b) 判別器
ResNet通過(guò)恒等映射結(jié)構(gòu),采用shortcut將多個(gè)淺層網(wǎng)絡(luò)連接起來(lái),有效解決了深層網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)的模型退化問(wèn)題[24]。通過(guò)對(duì)ResNet的原始?xì)埐顗K進(jìn)行改進(jìn),設(shè)計(jì)殘差塊結(jié)構(gòu)如圖4所示。該殘差塊由卷積核大小分別為1×1、3×3、1×1的卷積層交替構(gòu)成,并在卷積層之間分別插入3個(gè)批歸一化層。
圖4 殘差塊結(jié)構(gòu)
殘差塊的目標(biāo)函數(shù)H(x)定義如式(4)所示。
H(x)=F(x)+x
(4)
式中:x——輸入;
F(x)——?dú)埐詈瘮?shù)。
ResNet通過(guò)shortcut將擬合恒等映射函數(shù)轉(zhuǎn)化為學(xué)習(xí)一個(gè)殘差函數(shù),即當(dāng)F(x)趨向?yàn)?時(shí),就構(gòu)成了恒等映射H(x)=x。shortcut不僅解決了模型訓(xùn)練的梯度消失、梯度爆炸問(wèn)題,而且可以在不增加運(yùn)算量的同時(shí)加快訓(xùn)練速度。
CBAM由通道注意力模塊(Channel Attention Module, CAM)和空間注意力模塊(Spartial Attention Module, SAM)組成,二者通過(guò)串聯(lián)的方式從通道維度和空間維度依次推斷注意力權(quán)重,再分別與殘差網(wǎng)絡(luò)的卷積結(jié)果相乘實(shí)現(xiàn)對(duì)特征的調(diào)整,突出特征圖中的目標(biāo)特征,提高模型的識(shí)別性能和準(zhǔn)確率。
1.4.1 通道注意力模塊
CAM根據(jù)特征圖中不同通道對(duì)識(shí)別目標(biāo)的響應(yīng)程度的依賴(lài)關(guān)系進(jìn)行建模,根據(jù)響應(yīng)程度的不同對(duì)特征圖進(jìn)行調(diào)整,并采用多層感知器計(jì)算各通道權(quán)重[25]。響應(yīng)程度高的通道表示與識(shí)別目標(biāo)相似,分配給較高權(quán)重;響應(yīng)程度低的通道表示與識(shí)別目標(biāo)差距較大,則分配給較低權(quán)重。CAM結(jié)構(gòu)如圖5所示,實(shí)現(xiàn)步驟如下:(1)將輸入特征圖分別進(jìn)行最大池化和平均池化,平均池化實(shí)現(xiàn)對(duì)通道特征的壓縮,最大池化可以收集到目標(biāo)的特征信息;(2)池化后的特征圖送入由全連接層、平均池化層和最大池化層構(gòu)成的多層感知器中進(jìn)行參數(shù)共享;(3)對(duì)多層感知器輸出結(jié)果進(jìn)行對(duì)位相乘并求和,然后通過(guò)sigmoid激活函數(shù)輸出通道注意力特征圖。
圖5 通道注意力模塊結(jié)構(gòu)圖
通道注意力特征圖MC(F)的計(jì)算公式如式(5)所示。
MC(F)=σ{MLP[AvgPool(F)]+
MLP[MaxPool(F)]}
(5)
式中:F——輸入特征圖;
σ——sigmoid激活函數(shù);
MLP()——多層感知器;
AvgPool()——平均池化;
MaxPool()——最大池化。
1.4.2 空間注意力模塊
SAM通過(guò)對(duì)特征圖的空間維度信息進(jìn)行特征提取,加強(qiáng)網(wǎng)絡(luò)對(duì)特征圖像細(xì)節(jié)部分的關(guān)注和學(xué)習(xí),從而實(shí)現(xiàn)對(duì)CAM的補(bǔ)充,其結(jié)構(gòu)如圖6所示。實(shí)現(xiàn)步驟如下:(1)首先對(duì)輸入特征圖依次進(jìn)行最大池化和平均池化,并將得到的兩個(gè)特征圖基于通道進(jìn)行拼接;(2)將拼接后的特征圖送入卷積層中進(jìn)行特征提取,再通過(guò)sigmoid激活函數(shù)最終輸出空間注意力特征圖。
圖6 空間注意力模塊結(jié)構(gòu)圖
空間注意力特征圖MS(F′)的計(jì)算公式如式(6)所示。
MS(F′)=σ{f{[AvgPool(F′);MaxPool(F′)]}}
(6)
式中:F′——SAM的輸入特征圖;
f——卷積層運(yùn)算。
CBAM-ResNet由1個(gè)卷積層、1個(gè)批歸一化層、3個(gè)conv block、1個(gè)全局平均池化層和1個(gè)全連接層構(gòu)成,其結(jié)構(gòu)如圖7所示。其中,每個(gè)conv block均由3個(gè)卷積層、3個(gè)批歸一化層組成的殘差塊和CBAM組成。輸入圖像首先經(jīng)過(guò)卷積層進(jìn)行特征提取,得到的特征圖依次經(jīng)過(guò)三個(gè)conv block,然后經(jīng)CAM操作后,與ResNet的卷積輸出相乘,并將得到的結(jié)果作為SAM的輸入,然后將輸入特征圖再與下一次ResNet的卷積輸出相乘得到輸出特征圖,最終經(jīng)過(guò)全局平均池化和全連接層輸出病害分類(lèi)結(jié)果。CBAM的輸出特征圖F″的計(jì)算公式如式(7)和式(8)所示。
F′=MC(F)?F
(7)
F″=MS(F′)?F′
(8)
式中:F″——CBAM的輸出特征圖;
?——元素乘法。
圖7 CBAM-ResNet網(wǎng)絡(luò)結(jié)構(gòu)圖
試驗(yàn)在64位的Windows10操作系統(tǒng)上進(jìn)行,使用Python語(yǔ)言調(diào)用keras框架實(shí)現(xiàn)網(wǎng)絡(luò)的構(gòu)建、訓(xùn)練和測(cè)試。服務(wù)器配置16 GB ram AMD Ryzen 5 3600 6核處理器和16 GB ram Nvidia GeForce GTX 1660 Ti GPU。
殘差塊結(jié)構(gòu)由多個(gè)不同尺寸卷積核的卷積層和批歸一化層組合構(gòu)成,不同的組合結(jié)構(gòu)會(huì)對(duì)殘差網(wǎng)絡(luò)的收斂能力、訓(xùn)練速度和識(shí)別準(zhǔn)確率產(chǎn)生影響。為確定最優(yōu)結(jié)構(gòu),構(gòu)建了如圖8所示四種不同的殘差塊結(jié)構(gòu)。
采用上述四種不同的殘差塊并結(jié)合CBAM搭建模型,分別對(duì)病害圖像進(jìn)行訓(xùn)練,采用驗(yàn)證集的平均準(zhǔn)確率作為評(píng)價(jià)指標(biāo),結(jié)果如表1所示。殘差塊d相較于其他三種殘差塊對(duì)病害的準(zhǔn)確率最高,因此采用殘差塊d。在殘差塊d后嵌入CBAM的模型準(zhǔn)確率達(dá)到93.77%,效果較其他模型更好。因此,conv block在殘差塊d的基礎(chǔ)上嵌入CBAM。
(a) 1×1卷積層+ 3×3卷積層+2個(gè)批歸一化層 (b) 3個(gè)1×1卷積層+3個(gè)批歸一化層
(c) 4個(gè)3×3卷積層+4個(gè)批歸一化層 (d) 1×1卷積層+3×3卷積層+1×1卷積層+3個(gè)批歸一化層
不同超參數(shù)的設(shè)置會(huì)對(duì)模型的訓(xùn)練速度和泛化能力產(chǎn)生影響,采用單一因素法對(duì)CBAM-ResNet學(xué)習(xí)率、迭代次數(shù)和批量大小分別進(jìn)行優(yōu)化,并采用驗(yàn)證集準(zhǔn)確率作為評(píng)價(jià)指標(biāo),結(jié)果如圖9所示。
學(xué)習(xí)率表示模型權(quán)重更新的速率,設(shè)置學(xué)習(xí)率在0.000 1~0.000 001的范圍內(nèi),得到模型準(zhǔn)確率如圖9(a)所示。結(jié)果表明,當(dāng)學(xué)習(xí)率設(shè)置過(guò)大時(shí),代價(jià)函數(shù)波動(dòng)太大,試驗(yàn)結(jié)果不夠準(zhǔn)確,設(shè)置過(guò)小則網(wǎng)絡(luò)模型收斂效果不理想,導(dǎo)致訓(xùn)練時(shí)間增加。當(dāng)選取學(xué)習(xí)率為0.000 05時(shí),準(zhǔn)確率達(dá)到最高值為93.94%。迭代次數(shù)指模型進(jìn)行完整訓(xùn)練的次數(shù),模型的權(quán)重隨著迭代次數(shù)的增加而逐次更新迭代,設(shè)置迭代次數(shù)分別為5、10、15、20、25,得到模型準(zhǔn)確率如圖9(b)所示。當(dāng)選取迭代次數(shù)為15時(shí),模型訓(xùn)練已逐漸穩(wěn)定且此時(shí)準(zhǔn)確率達(dá)到93.1%。批量大小影響模型的優(yōu)化程度和速度,試驗(yàn)分別設(shè)置批量大小為5、10、15、20、25,得到模型準(zhǔn)確率如圖9(c)所示。當(dāng)選取批量大小為10時(shí),模型在內(nèi)存效率和容量之間尋找到最佳平衡點(diǎn),此時(shí)準(zhǔn)確率達(dá)到最高為94.3%。通過(guò)試驗(yàn)證明,CBAM-ResNet的學(xué)習(xí)率、迭代次數(shù)和批量大小分別設(shè)置為0.000 05、15和10時(shí),模型性能最優(yōu)。
表1 不同殘差塊結(jié)構(gòu)對(duì)模型的準(zhǔn)確率對(duì)比Tab. 1 Comparison of the accuracy of different residual block structure models
(a) 學(xué)習(xí)率的設(shè)置對(duì)試驗(yàn)結(jié)果的影響 (b) 迭代次數(shù)的設(shè)置對(duì)試驗(yàn)結(jié)果的影響 (c) 批量大小的設(shè)置對(duì)試驗(yàn)結(jié)果的影響
生成的圖像效果及訓(xùn)練的loss曲線(xiàn)如圖10所示。
(a) 黑腐葉片WGAN后的loss曲線(xiàn)
(b) 雪松葉片WGAN后的loss曲線(xiàn)
(c) 班點(diǎn)落葉病葉片WGAN后的loss曲線(xiàn)
(d) 黑星葉片WGAN后的loss曲線(xiàn)
(e) 健康葉片WGAN后的loss曲線(xiàn)
采用WGAN對(duì)模型訓(xùn)練樣本進(jìn)行擴(kuò)充,進(jìn)行50 000次迭代訓(xùn)練,將每類(lèi)蘋(píng)果病害圖像均擴(kuò)充到2 000張,將生成圖像與原始數(shù)據(jù)集混合得到模型數(shù)據(jù)集,共10 000張樣本圖像。從圖中可以看出,生成的蘋(píng)果葉片圖像病斑特征明顯,且不同病害之間有明顯區(qū)別。由loss曲線(xiàn)的變化趨勢(shì)可以看出,WGAN訓(xùn)練前期生成圖像較不穩(wěn)定,存在噪聲。當(dāng)訓(xùn)練次數(shù)達(dá)到50 000次左右,loss曲線(xiàn)已趨于穩(wěn)定,生成的樣本圖像接近真實(shí)葉片圖像。
為驗(yàn)證數(shù)據(jù)增強(qiáng)對(duì)模型性能的影響,分別采用原始數(shù)據(jù)集和經(jīng)過(guò)WGAN增強(qiáng)后的數(shù)據(jù)集對(duì)CBAM-ResNet進(jìn)行訓(xùn)練,采用測(cè)試集的準(zhǔn)確率作為評(píng)價(jià)指標(biāo),結(jié)果如圖11所示。圖11(a)表示采用原始數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,隨著迭代次數(shù)的增多,訓(xùn)練集和測(cè)試集準(zhǔn)確率逐漸上升,在8次迭代之后曲線(xiàn)趨于平穩(wěn),最終測(cè)試集準(zhǔn)確率穩(wěn)定在92%左右;圖11(b)表示采用WGAN增強(qiáng)后的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,隨著迭代次數(shù)的增多,模型的訓(xùn)練集和測(cè)試集準(zhǔn)確率迅速上升,3次迭代之后曲線(xiàn)已趨于穩(wěn)定,最終測(cè)試集準(zhǔn)確率達(dá)到95.50%。試驗(yàn)表明,采用WGAN進(jìn)行數(shù)據(jù)增強(qiáng)能夠提高CBAM-ResNet的泛化能力和魯棒性,使模型更快地學(xué)習(xí)到病害特征,提高識(shí)別準(zhǔn)確率。
(a) 采用原始數(shù)據(jù)集對(duì)模型訓(xùn)練影響的準(zhǔn)確率曲線(xiàn)
(b) 采用WGAN增強(qiáng)后的數(shù)據(jù)集對(duì)模型訓(xùn)練影響的準(zhǔn)確率曲線(xiàn)
為驗(yàn)證CBAM-ResNet的有效性,將其與4種傳統(tǒng)深度學(xué)習(xí)模型CNN、VGG-16、ResNet-50、Inception-V3進(jìn)行對(duì)比,采用隨機(jī)梯度下降法,使用WGAN數(shù)據(jù)增強(qiáng)后的樣本圖像作為數(shù)據(jù)集分別進(jìn)行15次迭代的訓(xùn)練,建立測(cè)試集混淆矩陣如圖12所示,其中顏色較深的對(duì)角線(xiàn)值代表模型對(duì)每類(lèi)病害的正確分類(lèi)數(shù)量。CBAM-ResNet對(duì)各類(lèi)病害的平均正確分類(lèi)樣本數(shù)高于其他四種模型。以雪松銹病為例,CBAM-ResNet對(duì)雪松銹病的誤分個(gè)數(shù)為4,誤分率為2%,而其他四種傳統(tǒng)模型誤分率分別為5%、7.5%、24%、3.5%,均高于CBAM-ResNet的誤分率。試驗(yàn)結(jié)果表明,相較于其它深度學(xué)習(xí)模型,CBAM-ResNet對(duì)蘋(píng)果葉片各類(lèi)病害的分類(lèi)效果更好。
為進(jìn)一步驗(yàn)證CBAM-ResNet的識(shí)別性能,采用準(zhǔn)確率(Accuracy)、精準(zhǔn)率(Precision)、召回率(Recall)和F1-Score參數(shù)作為評(píng)價(jià)標(biāo)準(zhǔn)對(duì)五種模型進(jìn)行性能對(duì)比,公式如下。
(9)
(10)
(11)
(12)
式中:ncorrect——測(cè)試集中預(yù)測(cè)正確的樣本數(shù)量;
ntotal——測(cè)試集總樣本數(shù)量;
TP——真實(shí)的正樣本數(shù)量;
FP——真實(shí)的負(fù)樣本數(shù)量;
FN——虛假的負(fù)樣本數(shù)量。
五種網(wǎng)絡(luò)模型對(duì)蘋(píng)果葉片病害的識(shí)別性能結(jié)果如表2所示。由表2可以看出,CBAM-ResNet相比于其他四種網(wǎng)絡(luò)模型,準(zhǔn)確率分別提高了4.45%~7.78%,精確率分別提高了3.9%~7.37%,召回率分別提高了4.32%~7.3%,F(xiàn)1-Score參數(shù)分別提高了0.04~0.07,單次訓(xùn)練識(shí)別時(shí)間分別加快了19~75 s。因此,CBAM-ResNet更適合對(duì)蘋(píng)果葉片病害的識(shí)別。
表2 不同網(wǎng)絡(luò)模型分類(lèi)識(shí)別性能對(duì)比Tab. 2 Performance comparison of different network models
(a) CNN
(b) VGG-16
(c) ResNet-50
(d) Inception-V3
(e) CBAM-ResNet
為直觀地了解CBAM-ResNet對(duì)蘋(píng)果病害的識(shí)別機(jī)制,分別采用特征圖和熱力圖對(duì)模型進(jìn)行可視化分析,結(jié)果如圖13所示。選取模型的第一層卷積層輸出特征圖,并采用Grad-CAM輸出熱力圖。由圖13可以看出,在特征圖中病斑區(qū)域呈現(xiàn)黑色或深綠色,未患病區(qū)域呈現(xiàn)黃色或淺綠色,熱力圖中病斑區(qū)域相較于未患病區(qū)域呈現(xiàn)高亮特征,說(shuō)明CBAM-ResNet對(duì)葉片圖像中不相關(guān)的背景信息關(guān)注更少,模型更聚焦于葉片的病斑區(qū)域,能有效提取患病葉片中的病斑區(qū)域作為識(shí)別特征,從而獲得更高的識(shí)別準(zhǔn)確率。健康葉片無(wú)病斑特征,模型識(shí)別時(shí)則以其輪廓作為分類(lèi)依據(jù)。試驗(yàn)結(jié)果表明,CBAM-ResNet可以更好地發(fā)現(xiàn)葉片圖像中的病斑區(qū)域,從而對(duì)蘋(píng)果葉片病害進(jìn)行準(zhǔn)確識(shí)別。
圖13 可視化分析結(jié)果
針對(duì)蘋(píng)果病害的識(shí)別問(wèn)題,本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)和混合注意力機(jī)制殘差網(wǎng)絡(luò)的方法,并通過(guò)試驗(yàn)得出以下結(jié)論。
1) 對(duì)ResNet原始?xì)埐顗K進(jìn)行改進(jìn),并依次嵌入CAM和SAM,提出一種基于混合注意力機(jī)制CBAM的改進(jìn)模型CBAM-ResNet,使模型更關(guān)注葉片中的病斑區(qū)域,防止葉脈、輪廓等背景產(chǎn)生干擾,解決了傳統(tǒng)網(wǎng)絡(luò)對(duì)蘋(píng)果葉片病害識(shí)別時(shí)準(zhǔn)確率不高的問(wèn)題。
2) CBAM-ResNet相較于CNN、VGG-16、ResNet-50、Inception-V3四種傳統(tǒng)模型,準(zhǔn)確率分別提高了4.45%~7.78%,精確率分別提高了3.9%~7.37%,召回率分別提高了4.32%~7.3%,F(xiàn)1-Score參數(shù)分別提高了0.04~0.07,單次訓(xùn)練識(shí)別時(shí)間分別加快了19~75 s,因此更適合進(jìn)行蘋(píng)果葉片病害的識(shí)別。
3) 采用WGAN進(jìn)行數(shù)據(jù)增強(qiáng)有效地?cái)U(kuò)充了原始數(shù)據(jù)集,解決了訓(xùn)練樣本數(shù)據(jù)量不足和不均衡的問(wèn)題,使模型準(zhǔn)確率從92.43%提升至95.50%。因此,采用WGAN進(jìn)行數(shù)據(jù)增強(qiáng)能夠提高模型的泛化能力和魯棒性,從而提升模型的識(shí)別準(zhǔn)確率。
4) 由于WGAN訓(xùn)練過(guò)程有一定不穩(wěn)定性,在生成的樣本圖像中存在少數(shù)不符合葉片特征的圖像。因此,如何進(jìn)一步優(yōu)化WGAN生成的樣本圖像,減少含有噪聲的葉片圖像數(shù)量成為接下來(lái)的研究方向。
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2022年6期