張 凈,李 進(jìn),劉曉梅
(1.江蘇大學(xué) 電氣信息工程學(xué)院,江蘇 鎮(zhèn)江 212013;2.江蘇科茂信息技術(shù)有限公司,江蘇 鎮(zhèn)江 212001)
在傳統(tǒng)農(nóng)業(yè)中,農(nóng)作物病害主要依靠人工進(jìn)行識(shí)別、判斷,但此方式存在諸多缺陷。人工識(shí)別過(guò)于依賴主觀經(jīng)驗(yàn),容易誤判且耗時(shí)耗力,往往導(dǎo)致農(nóng)作物病害救治不及時(shí)或者沒(méi)有對(duì)癥下藥,農(nóng)作物產(chǎn)量也會(huì)因此而減少,所以對(duì)農(nóng)作物病害進(jìn)行準(zhǔn)確識(shí)別顯得尤為重要。
隨著計(jì)算機(jī)和圖像處理技術(shù)的發(fā)展,傳統(tǒng)機(jī)器學(xué)習(xí)逐漸被應(yīng)用于農(nóng)作物病害識(shí)別領(lǐng)域。鄒永杰等[1]選擇番茄作為研究對(duì)象,提取番茄的HOG 和LBP 特征,將其輸入到支持向量機(jī)分類器中進(jìn)行訓(xùn)練,最終得到番茄病害識(shí)別模型;王佳[2]構(gòu)建香芋病害數(shù)據(jù)庫(kù),主要包含病害葉片顏色和紋理特征,并以支持向量機(jī)作為分類器,準(zhǔn)確率達(dá)到93.00%;夏永泉等[3]結(jié)合高斯混合模型和EM 算法對(duì)小麥葉片病害進(jìn)行提取,分類器為隨機(jī)森林,分類特征為HSV和Tamura 紋理特征,最終結(jié)果表明,該方法的準(zhǔn)確率高于相同環(huán)境下的支持向量機(jī)方法;Nettleton 等[4]通過(guò)對(duì)水稻稻瘟病的研究,提出M5Rules 和遞歸神經(jīng)網(wǎng)絡(luò)兩種識(shí)別方法,分別與Yoshino 和水文模型兩種預(yù)測(cè)模型進(jìn)行對(duì)比,結(jié)果表明,在樣本數(shù)據(jù)足夠的情況下,基于機(jī)器學(xué)習(xí)的水稻稻瘟病識(shí)別方法可實(shí)現(xiàn)更高的準(zhǔn)確率和更強(qiáng)的泛化性;Duarte-carvajalino 等[5]將多層感知器、支持向量機(jī)、隨機(jī)森林等機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,自行構(gòu)建馬鈴薯晚疫病數(shù)據(jù)集,均由無(wú)人機(jī)搭載相機(jī)所拍攝的高光譜圖像組成,實(shí)驗(yàn)結(jié)果表明,該方式可精準(zhǔn)識(shí)別馬鈴薯晚疫病的嚴(yán)重程度?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的病害識(shí)別方法可以識(shí)別某一種農(nóng)作物的特定圖像特征,然后進(jìn)一步判斷農(nóng)作物病害種類。雖然最終實(shí)現(xiàn)了農(nóng)作物病害識(shí)別,但需人工手動(dòng)提取特征,因此依舊依賴主觀經(jīng)驗(yàn)。而且傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)分類器較為依賴,若分類器不同,最后的識(shí)別結(jié)果可能差別較大,因此需要有經(jīng)驗(yàn)的專業(yè)人員針對(duì)不同情況選擇不同的分類器[6]。
之后深度學(xué)習(xí)技術(shù)得到了飛速發(fā)展,其中卷積神經(jīng)網(wǎng)絡(luò)(Convloution Neural Network,CNN)[7-8]在圖像分類和檢測(cè)上大放異彩,其能夠自動(dòng)提取特征,彌補(bǔ)了傳統(tǒng)機(jī)器學(xué)習(xí)算法在人工提取特征過(guò)程中導(dǎo)致特征丟失的問(wèn)題,越來(lái)越多研究人員采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)農(nóng)作物病害識(shí)別進(jìn)行研究。葉中華等[9]采用AlexNet、DenseNet121、ResNet18、VGG16 模型在具有復(fù)雜背景的農(nóng)作物數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),平均識(shí)別準(zhǔn)確率達(dá)到90%左右;王美華等[10]對(duì)注意力模塊進(jìn)行改進(jìn),將通道注意力與空間注意力并行連接,并將其添加到MobileNetV2,在病蟲(chóng)害細(xì)粒度分類上,模型準(zhǔn)確率達(dá)到86.50%;Fujita 等[11]基于深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)7 520 張黃瓜葉片圖像進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到82.3%;孫俊等[12]將結(jié)合批歸一化和全局池化的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行3 次迭代,病害識(shí)別準(zhǔn)確率可達(dá)到90%;Zhang 等[13]使用AlexNet 網(wǎng)絡(luò)模型對(duì)柑橘潰瘍病進(jìn)行識(shí)別,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,在減少網(wǎng)絡(luò)參數(shù)數(shù)量的同時(shí),識(shí)別率基本不變;張善文等[14]使用11 層LeNet 對(duì)1 200 張黃瓜病害圖片進(jìn)行訓(xùn)練,可達(dá)到90%以上的識(shí)別準(zhǔn)確率。
上述研究證明了將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于病害識(shí)別領(lǐng)域的可行性,本文提出一種基于多尺度注意力殘差網(wǎng)絡(luò)MSA-ResNet 的多種類農(nóng)作物葉片病害識(shí)別方法,針對(duì)現(xiàn)有方法識(shí)別準(zhǔn)確率低、網(wǎng)絡(luò)模型規(guī)模大等問(wèn)題,在保證較高準(zhǔn)確率的同時(shí),減小模型的內(nèi)存占用,將原始網(wǎng)絡(luò)結(jié)構(gòu)中的單尺度卷積核改進(jìn)為多尺度卷積核,以提取農(nóng)作物葉片病害的不同尺度特征,將部分標(biāo)準(zhǔn)卷積替換為深度可分離卷積,以減小模型規(guī)模,通過(guò)加入注意力機(jī)制,使網(wǎng)絡(luò)訓(xùn)練中更關(guān)注病害的有效特征,從而提升模型識(shí)別準(zhǔn)確率。
為解決模型規(guī)模大、病害識(shí)別準(zhǔn)確率低的問(wèn)題,本文提出的MSA-ResNet 包含輸入分支、輕量化多尺度殘差注意力模塊兩部分。輸入分支以小卷積核堆疊代替大卷積核,以增加網(wǎng)絡(luò)的非線性表達(dá),降低計(jì)算參數(shù)量;輕量化多尺度殘差注意力模塊采用多尺度卷積核提取多尺度特征,每個(gè)通道通過(guò)嵌入注意力機(jī)制模塊減少冗余特征,利用深度可分離卷積減小模型規(guī)模,從而使模型的整體性能得到提升。
在卷積神經(jīng)網(wǎng)絡(luò)中,淺層網(wǎng)絡(luò)只能提取圖像的淺層特征,如邊緣、顏色、紋理等。因此,為了提高分類的精確度,需要加深網(wǎng)絡(luò)層數(shù),提取圖像的深層抽象特征。但一味地增加網(wǎng)絡(luò)深度會(huì)導(dǎo)致梯度爆炸或梯度消失[15],而ResNet網(wǎng)絡(luò)[16]中殘差塊的設(shè)計(jì)就是為了解決網(wǎng)絡(luò)退化和梯度問(wèn)題,在增加網(wǎng)絡(luò)深度的同時(shí),提高網(wǎng)絡(luò)性能。圖1 是兩種不同的殘差塊,圖1(a)為普通的殘差塊,大多應(yīng)用于層數(shù)較淺的網(wǎng)絡(luò),圖1(b)的殘差塊大多應(yīng)用于更深層次的網(wǎng)絡(luò)。普通殘差塊分為兩層,輸入經(jīng)過(guò)兩個(gè)大小為3×3 的卷積層進(jìn)行輸出,右邊為一個(gè)跳躍連接[17],從輸入連接到輸出。主干上的輸出通過(guò)跳躍連接與輸入相加,通過(guò)ReLu激活函數(shù)進(jìn)行輸出。應(yīng)用于更深層網(wǎng)絡(luò)的殘差塊包含3個(gè)卷積層,因而大大減少了參數(shù)數(shù)量和計(jì)算量。
Fig.1 Residual block structure圖1 殘差塊結(jié)構(gòu)
注意力機(jī)制用于模仿人類的視覺(jué)機(jī)制,當(dāng)人類在瀏覽一張圖片時(shí)會(huì)有選擇地專注于自己感興趣的部分,而不會(huì)在每個(gè)部分都集中注意力去閱覽。
農(nóng)作物病害病斑的大小、顏色和形狀在不同時(shí)期均有不同,通常局部分布在葉片上。為了更好地關(guān)注葉片病害部分的位置信息和病斑的細(xì)節(jié)表現(xiàn)特征,在模型中增加了CBAM(Convolutional Block Attention Module)注意力 模塊[18]。該模塊由通道注意力模塊和空間注意力模塊組成,通過(guò)這兩個(gè)模塊可以同時(shí)關(guān)注通道信息和空間信息,能更好地捕獲到病害圖像中的病害特征,從而提升農(nóng)作物病害識(shí)別的準(zhǔn)確率,減少背景等無(wú)關(guān)特征對(duì)結(jié)果的影響。
CBAM 模塊結(jié)構(gòu)如圖2所示。
Fig.2 CBAM module圖2 CBAM模塊
該模塊首先將通道注意力模塊計(jì)算得出的通道特征圖與輸入特征圖相乘得到新的特征圖,過(guò)程表達(dá)式如式(1)所示,然后將新的特征圖輸入到空間注意力模塊得出的空間特征圖與輸入特征圖相乘,得到具有兩個(gè)維度注意力的特征圖,過(guò)程表達(dá)式如式(2)所示。
式中,F(xiàn)為輸入特征圖,Mc(F)為通道注意力生成的通道注意力特征圖,F(xiàn)′為輸入特征圖與通道注意力特征圖相乘之后生成的新特征,Ms(F′)為空間注意力生成的空間注意力特征圖,?為同位元素對(duì)應(yīng)相乘,F(xiàn)′′為CBAM 模塊的輸出特征圖。
通道注意力模塊結(jié)構(gòu)如圖3 所示,該模塊作用于特征圖之間,對(duì)通道維度的信息更加關(guān)注,把特征圖的每個(gè)通道都作為特征提取器。
Fig.3 Channel attention module圖3 通道注意力模塊
該模塊分別使用平均池化與最大池化生成平均池化特征和最大池化特征,壓縮輸入特征圖的空間維度,從而提高網(wǎng)絡(luò)計(jì)算效率,之后兩個(gè)池化特征再分別輸入多層感知機(jī)(Multilayer Perceptron,MLP),將得出的結(jié)果進(jìn)行加和,經(jīng)過(guò)非線性激活函數(shù)生成最后的通道注意力特征圖。具體計(jì)算過(guò)程如下:
式中,σ為Sigmoid 激活函數(shù),AvgPool()為平均池化,MaxPool()為最大池化,為輸入特征圖經(jīng)過(guò)平均池化后的特征圖,為輸入特征圖經(jīng)過(guò)最大池化后的特征圖,和為兩個(gè)池化特征輸入到多層感知機(jī)所學(xué)習(xí)到的權(quán)重。
空間注意力模塊結(jié)構(gòu)如圖4 所示,對(duì)通道注意力作進(jìn)一步補(bǔ)充,更側(cè)重于關(guān)注任務(wù)中重要特征的空間信息。
Fig.4 Spatial attention module圖4 空間注意力模塊
該模塊將基于通道注意力模塊得到的輸入特征圖F′分別經(jīng)過(guò)最大池化和平均池化,然后進(jìn)行通道拼接后得到一個(gè)高效的特征描述器。將其輸入到卷積核大小為7×7和激活函數(shù)為Sigmoid 的卷積層中,得到空間注意力特征圖Ms(F′)。最后F′與Ms(F′)進(jìn)行對(duì)應(yīng)相乘,獲取最終的具有通道空間兩個(gè)維度的注意力特征圖。計(jì)算公式如下:
式中,f7×7為7×7卷積核的卷積運(yùn)算。
在ResNet 網(wǎng)絡(luò)中的卷積層都只使用了一個(gè)大小為3×3 的卷積核對(duì)圖像進(jìn)行特征提取,而兩個(gè)大小為1×1 的卷積核僅起到了升維或降維的作用,所以提取的特征較為單一,導(dǎo)致圖像信息不能準(zhǔn)確表達(dá)。農(nóng)作物病害的癥狀多樣且較為復(fù)雜,不同病斑的顏色、大小差異較大,且在葉片上的位置也不同,采用單一卷積核對(duì)農(nóng)作物葉片病害特征的提取不夠準(zhǔn)確,因此采用多尺度卷積核替代原網(wǎng)絡(luò)中3×3 的卷積核。不同大小的卷積核具有不同的感受野,尺度相對(duì)較大的卷積核能更好地提取全局特征,而較小的卷積核能提取更為局部的特征。在同一卷積層中,使用1×1、3×3和5×5共3種大小的卷積核代替原網(wǎng)絡(luò)中單一的卷積核,可通過(guò)設(shè)定合適的步長(zhǎng)以保證特征維度相同。通過(guò)3 個(gè)大小不同的卷積核以不同感受野提取到不同尺度特征,同時(shí)拓寬了網(wǎng)絡(luò)寬度,以避免網(wǎng)絡(luò)深度過(guò)深而造成的過(guò)擬合現(xiàn)象。改進(jìn)后的殘差模塊結(jié)構(gòu)如圖5(a)所示。
在改進(jìn)后的殘差模塊中,通過(guò)濾波器連接進(jìn)行通道的堆疊,在每個(gè)卷積層后都有BN(Btach Normalization)層和ReLu 激活函數(shù)。BN 層可以通過(guò)歸一化每一批次的數(shù)據(jù),從而緩解深層網(wǎng)絡(luò)中會(huì)出現(xiàn)的梯度消失問(wèn)題,增強(qiáng)模型的非線性表達(dá)。ReLu 激活函數(shù)可以在加快網(wǎng)絡(luò)收斂的同時(shí),緩解梯度彌散問(wèn)題。考慮到5×5 的卷積核在訓(xùn)練過(guò)程中所需的計(jì)算量相對(duì)較大,所以采用兩個(gè)3×3 的卷積核代替[19],以達(dá)到降低參數(shù)量的目的。同時(shí),網(wǎng)絡(luò)的層數(shù)越深,卷積核數(shù)量隨之增加,也必然會(huì)導(dǎo)致需要更多參數(shù)。
Fig.5 Improved multi-scale residual block圖5 改進(jìn)的多尺度殘差塊
受MobileNet[20]啟發(fā),將多尺度殘差塊中的部分標(biāo)準(zhǔn)卷積替換為深度可分離卷積,從而進(jìn)一步減少網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)體積進(jìn)一步減小。深度可分離卷積由點(diǎn)卷積(Pointwise Convolution)和深度卷積(Depthwise Convolution)組成,深度卷積是對(duì)特征圖的每個(gè)通道進(jìn)行卷積,點(diǎn)卷積是對(duì)每個(gè)通道的特征進(jìn)行組合。假設(shè)輸入特征圖大小為Df×Df×M,卷積核大小為Dk×Dk,輸出通道為N,則標(biāo)準(zhǔn)卷積與深度可分離卷積計(jì)算量分別為Df×Df×M×N×Dk×Dk、Df×Df×M×Dk×Dk+Df×Df×M×N。
深度可分離卷積與標(biāo)準(zhǔn)卷積計(jì)算量比為:
在輕量化多尺度殘差塊的每個(gè)通道后面添加CBAM注意力機(jī)制模塊,并對(duì)不同通道進(jìn)行多尺度特征融合,最后通過(guò)跳躍連接恒等映射緩解在網(wǎng)絡(luò)深層會(huì)出現(xiàn)的梯度彌散和梯度爆炸問(wèn)題。輕量化多尺度殘差注意力模塊結(jié)構(gòu)如圖5(c)所示。
本文提出的基于輕量化多尺度特征融合與注意力機(jī)制的農(nóng)作物病害識(shí)別卷積神經(jīng)網(wǎng)絡(luò)模型MSA-ResNet 結(jié)構(gòu)如圖6 所示,模型由3 個(gè)3×3 卷積核堆疊的輸入主干、4 個(gè)Block、平均池化層、Dropout[21]和全連接層組成。其中,輸入主干沒(méi)有采用如ResNet 輸入主干中7×7 的大尺度卷積核,而是采用3 個(gè)3×3 卷積核的堆疊卷積層對(duì)7×7 卷積層進(jìn)行替換。3 個(gè)堆疊卷積層使用了更多非線性激活函數(shù),相比于只有一個(gè)7×7 卷積核的卷積層,網(wǎng)絡(luò)獲得了更多非線性表達(dá)。另一方面,在感受野不變的情況下,減少了第一層原始信息的損失,使特征提取更加穩(wěn)定,有效降低了計(jì)算的參數(shù)量,使模型具有更好的性能。Dropout 可以使某個(gè)神經(jīng)元的激活值在前向傳播過(guò)程中以一定概率停止工作,從而不會(huì)過(guò)分依賴于某些局部特征,使模型更具有泛化性。每個(gè)Block 由兩個(gè)輕量化多尺度殘差注意力模塊構(gòu)成。
網(wǎng)絡(luò)的損失函數(shù)采用交叉熵?fù)p失(Crossentropy loss)函數(shù),公式如下:
式中,N為樣本總數(shù),g(xi)為預(yù)測(cè)的輸出值,yi為輸入的真實(shí)值。
模型參數(shù)如表1所示。
本實(shí)驗(yàn)采用由AI Challenger 提供的農(nóng)作物病害公開(kāi)數(shù)據(jù)集,其中訓(xùn)練集包含32 768 幅圖像,驗(yàn)證集包含4 992幅圖像。整個(gè)數(shù)據(jù)集共有10 個(gè)物種、27 種病害。按照物種病害種類的嚴(yán)重程度劃分,共分為61 類。各類別圖片數(shù)量統(tǒng)計(jì)如圖7所示。部分病害葉片示例如圖8所示。
Fig.6 Network structure圖 6 網(wǎng)絡(luò)結(jié)構(gòu)
Table 1 Model parameters表1 模型參數(shù)
Fig.7 Crop disease image statistical chart圖7 農(nóng)作物病害圖像統(tǒng)計(jì)
Fig.8 Example of some diseased leaves圖8 部分病害葉片示例
為測(cè)試模型在真實(shí)農(nóng)業(yè)環(huán)境下的病害識(shí)別性能,采用PlantDoc[22]數(shù)據(jù)集,該數(shù)據(jù)集包含13 種植物和17 類病害,共2 598 幅圖像。由圖9 可以看出,在真實(shí)農(nóng)業(yè)環(huán)境下,病害圖片的背景更復(fù)雜,相比于實(shí)驗(yàn)室環(huán)境下的圖片樣本能更好地還原實(shí)際應(yīng)用場(chǎng)景。按 8:2 的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。
Fig.9 Comparison of real agricultural environment dataset and experimental dataset圖9 真實(shí)農(nóng)業(yè)環(huán)境數(shù)據(jù)集與實(shí)驗(yàn)數(shù)據(jù)集對(duì)比
通過(guò)圖7 發(fā)現(xiàn),44、45 類樣本圖片數(shù)量較少,因此刪除第44 類、第45 類。由于數(shù)據(jù)集圖像尺寸大小不一,將圖像尺寸歸一化為224×224 像素,以便于模型可以更好地訓(xùn)練,并基于此,使用數(shù)據(jù)增強(qiáng)的方法擴(kuò)充樣本數(shù)量,以防止模型過(guò)擬合,提高模型的魯棒性。本文在網(wǎng)絡(luò)模型訓(xùn)練中使用以下方法:①亮度變化,隨機(jī)提高亮度或隨機(jī)降低亮度;②隨機(jī)翻轉(zhuǎn),圖像可以任何方式從左到右或上下翻轉(zhuǎn);③對(duì)比度變化,隨機(jī)提高對(duì)比度或降低對(duì)比度;④隨機(jī)旋轉(zhuǎn),以圖像為中心順時(shí)針旋轉(zhuǎn)隨機(jī)角度。圖像預(yù)處理示例如圖10所示。
本文的實(shí)驗(yàn)環(huán)境為Ubuntu18.04 系統(tǒng),硬件配置為:處理器為Intel Xeon E5-2680 v2,計(jì)算機(jī)內(nèi)存為32GB,顯卡為 NVIDIA GeForce RTX 2080Ti(11GB 顯存),并使用Python 3.8 編程語(yǔ)言,CUDA11.0,基于深度學(xué)習(xí)框架Py-Toch1.8.0進(jìn)行模型的實(shí)現(xiàn)。
模型訓(xùn)練超參數(shù)如下:批大小設(shè)置為64,采用Adam 優(yōu)化算法[23],Dropout rate 設(shè)置為0.5,初始學(xué)習(xí)率為0.001,權(quán)重衰減參數(shù)為1e-4,采用余弦學(xué)習(xí)率衰減策略,學(xué)習(xí)率變化過(guò)程最小值為1e-5,迭代輪次為60次。
Fig.10 Image pre-processing example圖10 圖像預(yù)處理示例
2.4.1 消融實(shí)驗(yàn)
為驗(yàn)證本文改進(jìn)方法的有效性,設(shè)置4 組消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2 所示,可以看出,改進(jìn)后的輸入主干使模型準(zhǔn)確率提升了0.72%,同時(shí)并沒(méi)有對(duì)模型參數(shù)量有很大影響;在加入輕量化多尺度殘差塊后,模型準(zhǔn)確率提升了1.17%,實(shí)驗(yàn)結(jié)果表明,多尺度卷積可有效提升模型準(zhǔn)確率,同時(shí)深度可分離卷積減少了網(wǎng)絡(luò)參數(shù),網(wǎng)絡(luò)模型占用的內(nèi)存大大減??;在多尺度殘差塊中的各通道加入CBAM注意力機(jī)制模塊,準(zhǔn)確率提升了1.34%,表明該模塊可有效減小冗余特征權(quán)重,進(jìn)一步提升網(wǎng)絡(luò)模型的準(zhǔn)確率。雖然加入CBAM 后模型要稍大,但改進(jìn)后模型的準(zhǔn)確率有較大提升,與改進(jìn)前相比,模型規(guī)模約為ResNet50的1/3。
Table 2 Ablation experiment表2 消融實(shí)驗(yàn)
2.4.2 不同模型對(duì)比實(shí)驗(yàn)
為驗(yàn)證MSA-ResNet 網(wǎng)絡(luò)性能,與其他深度網(wǎng)絡(luò)模型進(jìn)行比較,結(jié)果如表3所示。
Table 3 Comparison experiments of different models表3 不同模型對(duì)比實(shí)驗(yàn)
通過(guò)表3 可以看出,改進(jìn)后網(wǎng)絡(luò)模型的準(zhǔn)確率達(dá)到89.93%,明顯高 于VGG16[24]、InceptionV3[25]、Mobile-NetV2[26]、ResNet50 和DenseNet121[27],準(zhǔn)確率分別提升了5.77%、4.12%、4.5%、3.23%和3.75%,表明MSA-ResNet 在病害識(shí)別上具有更高的準(zhǔn)確率。
采用不同模型對(duì)單張病害圖像進(jìn)行多次識(shí)別測(cè)試,最后取平均識(shí)別時(shí)間作為實(shí)驗(yàn)結(jié)果,如表4 所示。從實(shí)驗(yàn)結(jié)果看,MSA-ResNet 模型大小為30.5MB,遠(yuǎn)小于除MobileNet V2 外的網(wǎng)絡(luò)模型,比MobileNet V2 大13.4MB;識(shí)別單張病害圖像的平均時(shí)間為0.935s,優(yōu)于其他模型,分別比 VGG16、InceptionV3、ResNet50 與 DenseNet121 快0.736s、0.307s、0.363s 和0.342s,僅比MobileNet V2 稍慢。MobileNet V2 得益于其本身架構(gòu)規(guī)模小,但其準(zhǔn)確率比MSA-ResNet 低4.5%。
因此,本文提出的MSA-ResNet 模型在識(shí)別準(zhǔn)確率上有較大提升,同時(shí)模型占用空間較小,平均識(shí)別時(shí)間較短,取得了更好的平衡,體現(xiàn)了模型的優(yōu)異性能。
2.4.3 真實(shí)農(nóng)業(yè)環(huán)境數(shù)據(jù)集對(duì)比實(shí)驗(yàn)
在真實(shí)農(nóng)業(yè)環(huán)境的對(duì)比實(shí)驗(yàn)中,各模型訓(xùn)練集先選用AI Challenger,測(cè)試集則選取PlantDoc 中與AI Challenger 有相同病害類別的圖片樣本。不同模型在PlantDoc 數(shù)據(jù)集下對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。
Table 5 Comparative experiment results of different models in the PlantDoc dataset表5 不同模型在PlantDoc數(shù)據(jù)集下對(duì)比實(shí)驗(yàn)結(jié)果
從表5 可以看出,各個(gè)網(wǎng)絡(luò)模型的準(zhǔn)確率都很低,其中本文提出的MSA-ResNet 的準(zhǔn)確率僅為18.31%,表現(xiàn)最好。將訓(xùn)練集更換為PlantDoc 數(shù)據(jù)集,整體準(zhǔn)確率有較大提升,但相比于實(shí)驗(yàn)環(huán)境下的數(shù)據(jù)集,準(zhǔn)確率依然很低。由此可知,相比于實(shí)驗(yàn)環(huán)境下圖片樣本的單一背景,在真實(shí)農(nóng)業(yè)環(huán)境下圖片的背景更為復(fù)雜,從而造成識(shí)別準(zhǔn)確率低。當(dāng)網(wǎng)絡(luò)模型在AI Challenger 數(shù)據(jù)集上訓(xùn)練完成后,將其作為預(yù)訓(xùn)練權(quán)重,再采用PlantDoc 數(shù)據(jù)集進(jìn)行訓(xùn)練,整體準(zhǔn)確率得到大幅提升。MSA-ResNet 的準(zhǔn)確率達(dá)到52.83%,性能表現(xiàn)最優(yōu),表明相比于其他模型,本文模型在真實(shí)環(huán)境下更具有實(shí)用性。
將采用AI Challenger 與真實(shí)農(nóng)業(yè)環(huán)境下PlantDoc 數(shù)據(jù)集的模型表現(xiàn)進(jìn)行對(duì)比,結(jié)果如表6所示。
Table 6 Model performance on different datasets表6 不同數(shù)據(jù)集下的模型性能表現(xiàn)
由表6 可以看出,模型大小和對(duì)單張圖像的識(shí)別時(shí)間都相同,但因?yàn)閮蓚€(gè)數(shù)據(jù)集的圖像樣本背景不同,所以在準(zhǔn)確率上相差較大。兩個(gè)數(shù)據(jù)集的測(cè)試集在模型上的準(zhǔn)確率曲線如圖11所示。
Fig.11 Accuracy curves of different datasets圖11 不同數(shù)據(jù)集準(zhǔn)確率曲線
觀察圖11 可以發(fā)現(xiàn),得益于PlantDoc 數(shù)據(jù)集訓(xùn)練時(shí)采用預(yù)訓(xùn)練權(quán)重策略,因此相較于AI Challenger 數(shù)據(jù)集,其準(zhǔn)確率能更快達(dá)到峰值,大約在第45 次迭代輪次達(dá)到峰值,而AI Challenger 數(shù)據(jù)集約在第58 次迭代輪次才達(dá)到峰值。但AI Challenger 數(shù)據(jù)集的準(zhǔn)確率曲線波動(dòng)幅度小,更為平緩,這是因其樣本數(shù)量多,且病害特征在圖像中較為明顯,因而易于訓(xùn)練。而真實(shí)農(nóng)業(yè)環(huán)境下的PlantDoc 數(shù)據(jù)集樣本量比AI Challenger 數(shù)據(jù)集要少得多,并且其樣本背景復(fù)雜,病害特征不明顯,不利于模型訓(xùn)練,所以其準(zhǔn)確率曲線波動(dòng)相對(duì)較大。
為了提高病害識(shí)別率,同時(shí)實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化,本文提出一種基于多尺度注意力殘差網(wǎng)絡(luò)MSA-ResNet 的農(nóng)作物葉片病害識(shí)別方法。通過(guò)多尺度卷積核代替單一尺度卷積核,拓寬了網(wǎng)絡(luò)寬度,并提取農(nóng)作物葉片病害不同尺度的細(xì)節(jié)特征信息。同時(shí),通過(guò)使用多個(gè)小卷積核的疊加代替大卷積核,深度可分離卷積代替部分標(biāo)準(zhǔn)卷積,減少了網(wǎng)絡(luò)訓(xùn)練參數(shù),使網(wǎng)絡(luò)模型更加輕量化。此外,采用注意力機(jī)制模塊,讓網(wǎng)絡(luò)在訓(xùn)練中更加關(guān)注有效特征,提升網(wǎng)絡(luò)模型的魯棒性。本文模型在農(nóng)作物病害數(shù)據(jù)集AI Challenger 上最高達(dá)到89.93%的準(zhǔn)確率,且模型大小僅為30.5MB。在真實(shí)環(huán)境的PlantDoc 數(shù)據(jù)集下,本文模型的性能表現(xiàn)最優(yōu),準(zhǔn)確率達(dá)到52.83%。實(shí)驗(yàn)結(jié)果表明,與其他卷積神經(jīng)網(wǎng)絡(luò)模型相比,本文構(gòu)建的農(nóng)作物病害識(shí)別網(wǎng)絡(luò)模型在準(zhǔn)確分類農(nóng)作物病害方面效果提升較為明顯,具有較強(qiáng)的泛化性。
由于本文采用的自然環(huán)境數(shù)據(jù)集樣本量較少,且種類涵蓋范圍有限,無(wú)法包含各個(gè)種類的農(nóng)作物病害,因此在下一步研究中,將進(jìn)一步完善數(shù)據(jù)集,通過(guò)實(shí)地拍攝、網(wǎng)絡(luò)搜集等方法擴(kuò)大數(shù)據(jù)集規(guī)模,提升數(shù)據(jù)集質(zhì)量。同時(shí),本文模型尚有不足之處,仍具有改進(jìn)空間,后續(xù)將繼續(xù)研究縮減網(wǎng)絡(luò)模型大小及加快識(shí)別速度的方法,進(jìn)一步提升模型性能,并且將網(wǎng)絡(luò)模型部署于移動(dòng)端和嵌入式設(shè)備中,以實(shí)現(xiàn)對(duì)農(nóng)作物病害的實(shí)時(shí)識(shí)別。