張會敏 吉秉彧 謝澤奇
摘要:玉米是我國主要的農業(yè)糧食作物,害蟲嚴重影響其產量和質量。為快速、準確地識別玉米害蟲,針對現有卷積神經網絡識別方法需要大量數據集和關鍵特征易丟失等問題,提出一種基于多尺度注意力機制網絡(MCANet)的玉米害蟲識別方法。首先,該方法采用空間金字塔循環(huán)(SPR)模塊提取不同害蟲圖像的類型和位置信息;其次,在特征融合模塊中引入多級通道注意力機制模塊,以保障高維語義信息與低維特征的有效融合;同時將多尺度空洞卷積模塊引入多級通道注意力網絡模型,構建多尺度多通道注意力網絡模型,來提取多尺度判別特征,提高模型的識別效率;最后,在1個較小的玉米害蟲圖像數據集上進行試驗,實現對玉米紅緣燈蛾、葉夜蛾、玉米黏蟲、玉米螟害蟲的識別,當訓練樣本與測試樣本之比為90 ∶10時,玉米害蟲識別準確率高達91.60%,與多尺度殘差神經網絡(MSRNN)、改進卷積神經網絡(ICNN)、VGG-ICNN、輕量級CNN(LWCNN)相比,識別率分別提高24.40、18.77、8.00、4.40百分比。結果表明,該方法在小訓練樣本集中具有較強的魯棒性和較高的識別率,為農作物病蟲害智能化防治提供技術支持。
關鍵詞:玉米害蟲;多尺度空洞模塊;空間金字塔循環(huán)模塊;多尺度注意力機制網絡
中圖分類號:TP391.41文獻標志碼:A
文章編號:1002-1302(2024)09-0241-07
我國是農業(yè)大國,玉米是我國典型的農作物之一,穩(wěn)定玉米產量對糧食安全、農民增收和國民經濟具有重要意義,但玉米害蟲是降低玉米質量和產量的直接因素[1]。基于人工智能技術的農作物害蟲自動識別具有快速、精確、實時等優(yōu)點,能夠協助農耕人員及時采取有效的防治措施[2-4]。因大田中的害蟲具有各種形狀、姿態(tài)和背景干擾等因素,農作物害蟲的檢測和識別是一項意義重大且具有挑戰(zhàn)性的課題。
深度學習在復雜圖像的分割和特征提取方面有著明顯的優(yōu)勢,在圖像檢測和識別等方面均優(yōu)于目前最有效的傳統(tǒng)模式識別算法。卷積神經網絡(convolutional neural networks,簡稱CNN)通過訓練來學習圖像的多層次特征,比如圖案、顏色、紋理等。農作物害蟲具有這些特征,CNN適用于害蟲的檢測和識別[5]。因此,CNN是作物害蟲檢測的一種有效方法。Patel等比較了3種廣泛使用的深度學習模型應用于飛行昆蟲識別的性能[6]。Nanni等提出一種將顯著性方法和CNN相結合的自動分類器,其中采用顯著性方法對圖像進行預處理,訓練4種不同的CNN模型[7]。程曦等分別使用GoogLeNet和AlexNet模型對儲糧害蟲圖像進行識別,準確率均達到95%以上[8]。趙輝等提出將注意力機制與 YOLO v7 模型相結合的害蟲識別方法,該方法可抑制復雜背景,更好地獲得害蟲目標位置信息,并在實際農田中驗證算法的有效性[9]。Liu等提出一種基于深度學習的端到端的大規(guī)模多類害蟲檢測分類方法,該方法可以生成各種尺度的高質量融合特征用于目標檢測,顯著提高了傳統(tǒng)檢測框架的準確性,但在該方法中,小對象容易在深層丟失,同時上下文線索也會被削弱[10]。作物害蟲的檢測與識別一直面臨著困難,因為田間的小害蟲會降低害蟲檢測的準確性。熊夢園等提出一種基于改進遷移學習模型的玉米葉片病害檢測與識別方法,該方法將CBAM注意力機制和FPN特征金字塔網絡融入到ResNet模型,取得較好的識別效果[11]。李靜等提出一種基于改進GoogLeNet模型的玉米螟害蟲識別方法,該方法通過遷移學習將GoogLeNet的Inception-v4
網絡結構知識轉移到玉米螟害蟲識別的任務上,同時利用Inception模塊擁有多尺度卷積核提取多尺度玉米螟害蟲分布特征的能力構建網絡模型,引入批標準化(batch normalization,簡稱BN)操作加速優(yōu)化模型網絡訓練,該方法在玉米螟害蟲識別中獲得較好的識別效果[12]。汪健等提出一種基于深度殘差網絡與遷移學習的水稻害蟲圖像識別方法,該方法主要將遷移學習方法應用到ResNet34網絡,并進行算法改進,提升網絡性能,對水稻病害蟲圖像具有較高的識別結果[13]。
基于前人的研究,在多尺度卷積起始模塊和注意力機制的啟發(fā)下,本研究構建了基于多尺度注意力機制卷積神經網絡模型的玉米害蟲識別方法,旨在降低對模型訓練樣本量的依賴,實現在有限訓練樣本條件下獲取多類別樣本間的共同特征。
1 材料與方法
1.1 圖像數據采集
本算法使用的數據集主要通過佳能D7100、華為Mate50等圖像采集設備獲取。在陜西楊凌農業(yè)示范園,采集紅緣燈蛾、葉夜蛾、玉米黏蟲、玉米螟等4種常見的玉米害蟲圖像進行試驗,在田間采集每種害蟲圖像各250幅,共1 000幅,每幅害蟲圖像的分辨率都統(tǒng)一設置為1 024像素×768像素,玉米害蟲圖像如圖1-a所示。
由圖1可知,每種害蟲的大小、顏色、姿態(tài)、背景圖像、位置等各有差異。為增加圖像集數量,便于加快網絡訓練,本研究將采集到的每幅圖像的分辨率都統(tǒng)一調整為416像素×416像素,轉換成RGB 3通道圖作為網絡的數據輸入。為擴大數據集,利用Python圖像增強技術將每幅圖像分別旋轉90°、180°,然后再將圖像進行模糊、增加噪聲、變亮、變暗、翻轉等形式的預處理,將每幅原始圖像擴增為18幅,如圖1-b所示;最后構建1個包含18 000幅圖像的擴展數據集。
1.2 多級通道注意力機制網絡模型
1.2.1 通道注意力機制
在CNN學習過程中,不同深度的卷積層獲取的特征圖不同,其中淺層卷積層能夠獲取圖像的局部特征,隨著卷積層的增加,卷積核的局部感受野增大,從而獲取圖像的全局特征。由于淺層卷積學習的特征對局部特征信息敏感,而深層卷積層對局部信息變化不敏感,因此很可能產生特征丟失現象。為防止網絡學習出現特征丟失,采用通道注意力機制,將特征信息的全局分布響應在特征通道中,使淺層卷積能夠獲取全局感受野,同時深層卷積也可提取到有用的特征信息,且抑制無用的特征。通道注意力機制結構如圖2所示,其中H、W和C分別表示卷積核的長度、寬度和通道中的特征圖數量,Ftr表示卷積操作,Ftr輸出用U來表示,U=U1,U2,…,Uc,Fsq表示特征權重提取操作,F表示特征通道權重更新,Fscale為特征圖權重映射,X[DD(-*2]~表示特征映射Uc和標量Sc之間的對應通道乘積。
在具體的通道注意力機制操作過程中,首先使用全局平均池化操作獲取每個通道的權重值,然后使用全連接層、ReLU激活函數和Sigmoid激活函數獲取不同的特征權重, 最后使用點乘操作獲取具有通道注意力機制的特征圖。通道注意力機制的計算過程如下。
(1)特征權重提?。?/p>
式中:H、W、C分別表示卷積核長度、寬度和通道中的特征圖數量;i和j表示特征圖中的每個像素點。
(2)權重更新操作:
式中:δ表示ReLU激活函數;σ表示Sigmoid激活函數;Fex表示特征通道權重更新;W1表示降維層參數;W2表示升維層參數;W1∈R(c[]r)×c,W2∈Rc×(c[]r),z∈Rc。
式中:Sc表示通道C中的權重參數;Uc表示特征映射,Uc∈RH×W。
1.2.2 空間金字塔循環(huán)結構
在作物害蟲圖像檢測過程中,不同的害蟲類型對檢測算法的精度有很大影響。因此,在MCANet構建過程中,使用空間金字塔循環(huán)(spatial pyramid recirculating,簡稱SPR)模塊提取不同害蟲圖像的類型和位置信息。使用空間金字塔結構提取多尺度信息,并使用循環(huán)神經網絡(recurrent neural network,簡稱RNN)實現不同尺度的信息傳遞,能夠顯著增強SPR模塊的特征提取能力,空間金字塔循環(huán)模塊的結構如圖3所示。
為了獲取不同尺度的特征信息,首先使用雙線性插值對輸入特征進行尺度調整,然后對每個特征圖執(zhí)行卷積操作,其中所有的卷積核尺寸為3×3,輸出通道為256。在構建SPR模塊時,需要考慮特征下采樣的數量和尺度,當下采樣尺度較小時,網絡參數將增加,從而導致計算參數的數量增加;如果下采樣倍數較大,將造成網絡性能下降,因此,在MCANet中使用2次下采樣操作來構建SPR模塊。由于不同的卷積核可以提取不同的圖像特征信息,而不同的特征信息之間存在相互關系,例如類別信息和位置信息等,因此,SPR模塊使用RNN建立不同特征信息之間的相互關系,從而增強網絡模型的特征提取能力。
1.2.3 卷積特征融合
卷積特征融合模塊主要用于不同卷積層的特征融合,其輸入為不同卷積層的特征圖,而輸出為融合后的特征圖。卷積特征融合模塊的結構如圖4所示。在該模塊中,使用雙線性插值算法對輸入的特征圖進行4倍上采樣,然后將插值結果作為1×1卷積層的輸入。為使特征融合模塊更好地指導網絡檢測結果,將淺層低維特征融入高維特征。在特征融合過程中,常用的方法是直接在通道維度上連接具有相同特征尺寸的高維特征和低維特征,然后使用多次卷積運算增加網絡的復雜度,其結構如圖4-a所示。但是簡單的連接方法無法充分使用多個卷積網絡層,導致無法有效地組合低維特征和高維特征,為更好地執(zhí)行特征融合操作,在特征融合模塊中引入多級通道注意力機制模塊,以保障高維語義信息與低維特征的有效融合,其結構如圖4-b所示。
在卷積特征融合模塊中,通過連接操作將圖像中的高維特征和低維特征進行融合,利用多次卷積操作得到特征F1,然后在特征F1的通道維度上引入注意力機制。卷積特征融合計算公式為
式中:W1表示每個通道的權重值;σ表示Sigmoid函數;F1和F2分別表示卷積層特征和融合后的特征。
1.2.4 多尺度空洞模塊Inception
Inception是一個多尺度卷積網絡模塊,能夠并行組合不同的卷積層,由不同卷積層提取的特征在深度、維度上拼接以形成更深的矩陣,提取不同尺度特征,其結構如圖5所示。
1.2.5 多級通道注意力網絡模型
多級通道注意力網絡模型MCANet是基于編碼-解碼結構(encoder-decoder,簡稱ED)的端到端的作物害蟲檢測模型,其中輸入為任意尺寸大小的圖像,輸出為檢測結果。MCANet的整體結構如圖6所示,包括3組并行的編碼-解碼結構,用于處理RGB圖像
的3個不同通道。在ED中使用卷積(Conv)和反卷積(Deconv)操作,其中卷積階段使用VGGNet模型作為特征提取網絡,隨著卷積層的增加,特征圖的大小逐漸減小,這可以解釋為下采樣過程。下采樣有利于提取圖像的高級特征,但可能導致圖像檢測過程中特征信息的丟失,因此在反卷積階段重構得到特征圖,并逐漸增大特征圖尺寸,直到輸出結果為輸入大小為止,這可解釋為上采樣過程。
為提高網絡對小目標區(qū)域的特征提取能力,在每個池化層的操作前引入通道注意力機制,能夠為每個像素點提供全局特征信息,并增強有用特征表達。在每個ED之間使用SRP增強不同大小特征的信息交換。為提高網絡提取多尺度目標的能力,尤其是小尺度目標和邊緣信息,采用多層次通道注意力機制形成特征融合塊,提供更豐富的特征信息,用于融合全局語義信息和局部細節(jié)信息,從而獲得更好的識別效果。
2 試驗
為表明MCANet進行作物害蟲識別的有效性,進行試驗驗證。將MCANet訓練的批處理大小設為25,迭代次數設為3 000,學習率設為1.5×10-4,Adam作為模型的優(yōu)化器。為驗證本算法的有效性,試驗于2023年9—10月在IBM服務器上進行,試驗環(huán)境為Ubuntu 14.04操作系統(tǒng)、內存32 G、核心硬件運算平臺為Intel i7 CPU Ti GPU1080,深度學習架構為tersonflow 2.0,編程語言為Python 3.9。
對4種網絡VGG16[14]、SCapsNet[15]、ACapsNet[16]和本算法進行5折交差驗證對比試驗,識別率隨迭代次數變化結果如圖7所示。由圖7可以看出,當迭代次數達到1 000次后,本算法趨于收斂,其收斂效果和準確率明顯高于其他3種模型。表明空洞Inception收斂速度最快、害蟲識別效果更好,引入特征融合模塊的卷積層使用空洞Inception可以提高害蟲識別的準確率。
從圖7可以看出,本算法和SCapsNet的收斂效果明顯優(yōu)于VGG16。主要原因是本算法和SCapsNet引入了多尺度卷積Inception模塊,使Inception模塊替代了SCNN中的卷積層,解決了CNN中最大池化導致重要信息丟失的問題;本算法與SCapsNet的主要區(qū)別在于本算法的卷積層為空洞多尺度卷積Inception,減少了網絡訓練參數,加速了網絡收斂。
為了說明本算法能夠在訓練樣本有限情況下的有效性,將本算法與4種近期的作物害蟲識別方法,即多尺度殘差神經網絡(MSRNN)[17]、改進卷積神經網絡(ICNN)[18]、VGG-ICNN[19]和輕量級CNN(LWCNN)[20]在原始圖像數據集上進行驗證試驗,訓練樣本數與測試樣本數之比為m ∶n, 其中m為每類害蟲的訓練樣本數,n為每類害蟲的測試樣本數。選擇迭代次數為3 000次,重復試驗5次,平均識別率見表1。
由表1可以看出,當訓練樣本數越來越少時,基于所有模型的害蟲識別方法的識別率越來越低,但輕量級CNN和本算法的識別率比其他3種算法降低幅度小,且本研究算法的降低幅度最小,當m ∶n= 10 ∶90,即訓練樣本為10幅、測試樣本為90幅圖像時,本算法識別率達到了83.18%,盡管識別率降低了8.42百分點,但比MSRNN、ICNN、VGG-ICNN、LWCNN分別高42.39、32.80、35.30、34.22百分點,主要原因是本算法可有效提高網絡提取多尺度目標的能力,尤其是小尺度目標和邊緣信息,采用多層次的通道注意力機制形成特征融合塊,提供更豐富的特征,用于融合全局語義信息和局部細節(jié)信息,從而獲得更好的識別效果。試驗結果表明,本算法能夠在訓練樣本比較少的情況下達到較高的識別率。
可視化本算法卷積模塊的部分輸出如圖8所示,可以看出,本算法能夠捕獲害蟲的細節(jié)信息,隨著網絡的加深,網絡層提取的特征越來越抽象,低級卷積特征圖包含了害蟲的基本輪廓特征,即網絡的較淺層提取物體的空間特征;而高級卷積特征圖包含害蟲的細節(jié)特征,采用不同卷積核能夠學習圖像中的不同特征,充分提取關注部分圖像的顯著區(qū)域。同時,特征圖分辨率越來越低,表明提取的特征不僅抽象,還具有精細的特點。
3 結論
針對實際大田作物害蟲葉片圖像較少,包含遮擋和復雜背景,且不同時期害蟲的大小、形狀和顏色差異較大等特點,本研究提出一種基于多級通道注意力機制網絡的玉米害蟲識別方法,該方法采用空間金字塔循環(huán)模塊提取不同害蟲圖像的類型和位置信息,在特征融合模塊中引入多級通道注意力機制模塊,以保障高維語義信息與低維特征的有效融合,同時將多尺度空洞卷積模塊Inception引入多級通道注意力網絡模型,構建多尺度多通道注意力網絡模型,提取多尺度判別特征,提高模型的識別效率。結果表明, 本算法具有良好的害蟲檢測識別率和泛化性,可為其他農作物害蟲檢測與識別的進一步研究提供參考。
參考文獻:
[1]王大慶,祿 琳,于興龍,等. 基于深度遷移學習的EfficientNet玉米葉部病害識別[J]. 東北農業(yè)大學學報,2023,54(5):66-76.
[2]翟肇裕,曹益飛,徐煥良,等. 農作物病蟲害識別關鍵技術研究綜述[J]. 農業(yè)機械學報,2021,52(7):1-18.
[3]Si M M,Deng M H,Han Y. Using deep learning for soybean pest and disease classification in farmland[J]. Journal of Northeast Agricultural University(English Edition),2019,26(1):64-72.
[4]徐 聰,王旭啟,劉 裕. 一種改進可形變FCN的農作物害蟲檢測方法[J]. 江蘇農業(yè)科學,2022,50(9):211-219.
[5]Türkogˇlu M,Hanbay D. Plant disease and pest detection using deep learning-based features[J]. Turkish Journal of Electrical Engineering & Computer Sciences,2019,27(3):1636-1651.
[6]Patel D J,Bhatt N. Insect identification among deep learnings meta-
architectures using TensorFlow[J]. International Journal of Engineering and Advanced Technology,2019,9(1):1910-1914.
[7]Nanni L,Maguolo G,Pancino F. Insect pest image detection and recognition based on bio-inspired methods[J]. Ecological Informatics,2020,57:101089.
[8]程 曦,吳云志,張友華,等. 基于深度卷積神經網絡的儲糧害蟲圖像識別[J]. 中國農學通報,2018,34(1):154-158.
[9]趙 輝,黃 鏢,王紅君,等. 基于改進YOLO v7的農田復雜環(huán)境下害蟲識別算法研究[J]. 農業(yè)機械學報,2023,54(10):246-254.
[10]Liu L,Wang R J,Xie C J,et al. PestNet:an end-to-end deep learning approach for large-scale multi-class pest detection and classification[J]. IEEE Access,2019,7:45301-45312.
[11]熊夢園,詹 煒,桂連友,等. 基于ResNet模型的玉米葉片病害檢測與識別[J]. 江蘇農業(yè)科學,2023,51(8):164-170.
[12]李 靜,陳桂芬,安 宇. 基于優(yōu)化卷積神經網絡的玉米螟蟲害圖像識別[J]. 華南農業(yè)大學學報,2020,41(3):110-116.
[13]汪 健,梁興建,雷 剛. 基于深度殘差網絡與遷移學習的水稻蟲害圖像識別[J]. 中國農機化學報,2023,44(9):198-204.
[14]Paoletti M E,Haut J M,Fernandez-Beltran R,et al. Capsule networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing,2019,57(4):2145-2160.[HJ2mm]
[15]Chicco D. Siamese neural networks:an overview[J]. Artificial Neural Networks,2021,2190:73-94.
[16]張會敏,謝澤奇,張善文. 基于注意力膠囊網絡的作物病害識別方法[J]. 江蘇農業(yè)科學,2022,50(6):101-106.
[17]何 欣,李書琴,劉 斌. 基于多尺度殘差神經網絡的葡萄葉片病害識別[J]. 計算機工程,2021,47(5):285-291,300.
[18]鮑文霞,黃雪峰,胡根生,等. 基于改進卷積神經網絡模型的玉米葉部病害識別[J]. 農業(yè)工程學報,2021,37(6):160-167.
[19]Thakur P S,Sheorey T,Ojha A. VGG-ICNN:a Lightweight CNN model for crop disease identification[J]. Multimedia Tools and Applications,2023,82(1):497-520.
[20]孟 亮,郭小燕,杜佳舉,等. 一種輕量級CNN農作物病害圖像識別模型[J]. 江蘇農業(yè)學報,2021,37(5):1143-1150.
收稿日期:2023-10-19
基金項目:國家自然科學基金(編號:62072378);河南省教育廳高等學校重點科研項目(編號:20A520045);信陽農林學院2022年校青年基金(編號:QN2022031)。
作者簡介:張會敏(1981—),女,河南漯河人,碩士,副教授,研究方向為計算機應用與圖像處理。E-mail:513102773@qq.com。
通信作者:謝澤奇,碩士,教授,研究方向為計算機應用。E-mail:xzq0413@163.com。