摘要:針對(duì)現(xiàn)有農(nóng)作物病害葉片檢測(cè)方法利用圖像特征定位葉片病害區(qū)域精度不高的問題,提出一種基于多模態(tài)特征對(duì)齊的作物病害葉片檢測(cè)新方法。在訓(xùn)練階段,利用視覺編碼器和文本編碼器將農(nóng)作物葉片集中的圖片和文本進(jìn)行編碼,并根據(jù)視覺編碼特征定位給定圖片中的病害區(qū)域,利用視覺和文本編碼融合特征實(shí)現(xiàn)病害區(qū)域病害類型的細(xì)粒度分類。在推理階段,利用預(yù)訓(xùn)練的病害區(qū)域定位模塊定位給定測(cè)試圖片中的病害區(qū)域,并將其提取的病害區(qū)域作為預(yù)訓(xùn)練分類模型的輸入;通過計(jì)算預(yù)測(cè)文本值與文本集中原始標(biāo)簽之間的相似度值,快速給出病害區(qū)域的細(xì)粒度分類結(jié)果。在多個(gè)開源的農(nóng)作物病害數(shù)據(jù)集上進(jìn)行測(cè)試,所提出方法在馬鈴薯、番茄、蘋果和草莓四種類型的病害葉片數(shù)據(jù)集上精準(zhǔn)率分別為0.957 4、0.961 1、0.958 0和0.950 2,綜合性能更優(yōu),具有較好實(shí)用價(jià)值。
關(guān)鍵詞:病害葉片檢測(cè);多模態(tài)特征;視覺編碼特征;文本編碼特征;細(xì)粒度分類
中圖分類號(hào):S5; TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):20955553 (2024) 070180
08
Detection of crop disease leaf based on multi-modal feature alignment
Zhou Yifan1, 2, Liu Dongyang3, Zhou Yuping4
(1. School of Information Engineering, Zhumadian Vocational and Technical College, Zhumadian, 463000, China;
2. Henan Rural Smart Agriculture Engineering Research Center, Zhumadian Vocational and Technical College, Zhumadian,
463000, China; 3. College of Information and Electrical Engineering, China Agricultural University, Beijing,
100083, China; 4. State Key Laboratory of Crop Biology, Shandong Agricultural University, Tai’an, 271018, China)
Abstract:
Aiming at the problem that the existing methods of crop disease leaf detection were not accurate enough to locate the leaf disease region by using image features," a new method of crop disease leaf detection based on multi-modal feature alignment was proposed. During the training phase, image and text from a collection of crop leaves were first encoded using visual and text encoders. The diseased areas in a given image were located according to the visual encoding features, and the integration of visual and text encoding features was used to achieve fine-grained classification of the type of disease in the diseased area. In the inference phase, the pretrained disease area localization module was used to locate the diseased areas in a given test image, and the extracted diseased areas were used as input for a pretrained classification model. Finally, by calculating the similarity between the predicted text values and the original labels in the text set, a rapid fine-grained classification result for the diseased area was obtained. Tests on several open-source crop disease datasets show that the proposed method can achieve high precision rates of 0.957 4, 0.961 1, 0.958 0, and 0.950 2 on potato, tomato, apple, and strawberry datasets, respectively. It has better comprehensive perfor mance and good paratical application value.
Keywords:
disease leaf detection; multi-modal feature; visual encoding features; text encoding features; fine-grained classification
0 引言
農(nóng)作物病害是農(nóng)業(yè)產(chǎn)量損失和生產(chǎn)成本增加的主要因素之一。隨著科技的不斷進(jìn)步,農(nóng)業(yè)領(lǐng)域也開始探索各種新技術(shù)的應(yīng)用,旨在提高生產(chǎn)效率的同時(shí)降低生產(chǎn)成本[1, 2]。計(jì)算機(jī)視覺技術(shù)已被廣泛用于農(nóng)業(yè)領(lǐng)域,利用計(jì)算機(jī)視覺技術(shù)檢測(cè)農(nóng)作物病害,可以及時(shí)評(píng)估作物病害程度。有助提高農(nóng)業(yè)生產(chǎn)的經(jīng)濟(jì)性和社會(huì)效益,對(duì)推動(dòng)農(nóng)業(yè)領(lǐng)域的可持續(xù)發(fā)展具有重要意義[3]。
傳統(tǒng)的農(nóng)作物葉片病害檢測(cè)方法主要依賴專家經(jīng)驗(yàn),通過分析病害葉片的顏色深淺、葉片卷曲程度和紋理信息給出病害類型[4, 5]。然而,受光照亮度、觀察視角和主觀因素的影響,僅利用專家經(jīng)驗(yàn)的分類方法存在很大的不確定性。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,研究者們嘗試?yán)糜?jì)算機(jī)視覺領(lǐng)域中的新型技術(shù)解決農(nóng)作物病害葉片的定位與分類任務(wù)[6]。劉敏等[7]提出了一種基于深度學(xué)習(xí)蘋果葉片病害的檢測(cè)方法,通過提取視覺編碼的局部和全局特征構(gòu)造了多尺度特征集。公徐路等[8]針對(duì)蘋果早期葉片病害區(qū)域定位精度不高的問題,提出了一種改進(jìn)YOLOv5的蘋果葉片病害檢測(cè)方法,通過引入空間通道注意力機(jī)制強(qiáng)化模型聚焦病害區(qū)域,提高模型對(duì)病害葉片區(qū)域的定位精度。類似的方法還包括曾晏林等[9]利用Transformer網(wǎng)絡(luò)設(shè)計(jì)的蘋果葉部病害檢測(cè)方法,趙嘉威等[10]利用YOLOv4設(shè)計(jì)的蘋果葉片病害檢測(cè)方法,孫長(zhǎng)蘭等[11]利用多種機(jī)器學(xué)習(xí)算法集成模型的蘋果葉片病害檢測(cè)方法。
在馬鈴薯葉片病害檢測(cè)任務(wù)中,邢鵬康等[12]提出了一種任務(wù)感知網(wǎng)絡(luò)的馬鈴薯葉片病害區(qū)域定位與分類方法,通過設(shè)計(jì)動(dòng)態(tài)卷積來增強(qiáng)卷積核的建模能力。趙越等[13]借助Faster R-CNN網(wǎng)絡(luò)提出了一種馬鈴薯葉片病害檢測(cè)方法,并與YOLOv3和YOLOv4等經(jīng)典的目標(biāo)檢測(cè)方法進(jìn)行對(duì)比。此外,章廣傳等[14]利用參數(shù)遷移的方法微調(diào)所設(shè)計(jì)的馬鈴薯葉片病害模型,并在自建的馬鈴薯葉片病害數(shù)據(jù)集上進(jìn)行了驗(yàn)證。
在番茄葉片病害檢測(cè)任務(wù)中,儲(chǔ)鑫等[15]提出了一種輕量化的番茄葉片病害定位與分類方法,通過利用K均值聚類算法改進(jìn)先驗(yàn)框,并利用深度可分離卷積減少了網(wǎng)絡(luò)參數(shù),降低了系統(tǒng)運(yùn)行時(shí)間。類似的工作還包括蔣清健等[16]提出的多尺度特征融合網(wǎng)絡(luò)的番茄葉片病害檢測(cè)方法,劉擁民等[17]提出的基于Swin Transformer網(wǎng)絡(luò)的番茄葉片病害區(qū)域定位與識(shí)別方法。
除上述的蘋果葉片、馬鈴薯葉片和番茄葉片病害檢測(cè)任務(wù)外,利用當(dāng)前主流的計(jì)算機(jī)視覺技術(shù)或相關(guān)技術(shù)的改進(jìn)方法在玉米、水稻和葡萄葉片病害檢測(cè)任務(wù)上也取得了突破性的進(jìn)展,并且在實(shí)際場(chǎng)景中也得到了驗(yàn)證。然而不難發(fā)現(xiàn),上述方法存在共性,即所有模型均采用單一的視覺特征;此外,模型的性能過度依賴已標(biāo)注的訓(xùn)練集,當(dāng)已訓(xùn)練過的模型定位與分類新病害葉片時(shí),模型的泛化性能難以獲得預(yù)期的結(jié)果。
針對(duì)上述問題,本文在現(xiàn)有視覺編碼特征的基礎(chǔ)上,引入文本編碼特征,構(gòu)造一種基于多模態(tài)特征對(duì)齊的作物病害葉片檢測(cè)新方法。在訓(xùn)練階段,分別訓(xùn)練模型對(duì)病害區(qū)域的定位能力和分類能力;在推理階段,集成定位與分類模塊,并利用交叉注意力機(jī)制實(shí)現(xiàn)視覺編碼特征與文本編碼特征的對(duì)齊。
1 多模態(tài)特征對(duì)齊網(wǎng)絡(luò)
1.1 模型結(jié)構(gòu)
所提出基于多模態(tài)特征對(duì)齊的作物病害葉片檢測(cè)模型主要由訓(xùn)練階段和推理階段兩部分組成。在訓(xùn)練階段,首先在粗粒度的農(nóng)作物葉片病害數(shù)據(jù)集上利用視覺編碼器將輸入的農(nóng)作物圖片映射到深度特征空間,并利用自注意力捕獲視覺空間中目標(biāo)區(qū)域的特征表示,增強(qiáng)模型對(duì)病害區(qū)域的定位能力;然后,在細(xì)粒度病害區(qū)域數(shù)據(jù)集上利用視覺編碼器編碼壓縮病害區(qū)域在空間中的視覺表達(dá),并利用文本編碼器編碼文本標(biāo)簽庫;最后,利用交叉注意力實(shí)現(xiàn)文本和視覺語義的特征對(duì)齊,并借助多層感知機(jī)細(xì)粒度的分類病害。在推理階段,集成預(yù)訓(xùn)練的目標(biāo)區(qū)域定位模塊和病害細(xì)粒度分類模塊,通過計(jì)算預(yù)測(cè)病害的文本標(biāo)簽值與真實(shí)標(biāo)簽值間的相似度值,快速給出預(yù)測(cè)的最終病害類型。模型整體框架如圖1所示。
1.2 視覺編碼
利用特征編碼網(wǎng)絡(luò)提取輸入圖片在視覺空間中的編碼特征已成為計(jì)算機(jī)視覺任務(wù)中基礎(chǔ)的步驟[18]。具體地,在訓(xùn)練階段,首先利用深度自編碼網(wǎng)絡(luò)對(duì)輸入的圖片進(jìn)行編碼壓縮,提取中間編碼層的特征表示;然后,為了強(qiáng)化模型對(duì)編碼特征圖中目標(biāo)信息的聚焦能力,在編碼特征圖上構(gòu)造注意力機(jī)制;最后,將強(qiáng)化后的特征圖作為全連接層和多層感知機(jī)的輸入,得到目標(biāo)區(qū)域的位置信息,視覺編碼流程如圖2所示。
圖2所述的視覺編碼主要采用深度自編碼網(wǎng)絡(luò)和注意力機(jī)制捕獲輸入圖片中的目標(biāo)區(qū)域信息。此處考慮到農(nóng)作物葉片病害圖片標(biāo)注成本高、數(shù)量少的特點(diǎn)[19],為此采用自監(jiān)督的深度自編碼網(wǎng)絡(luò)作為特征提取器,將原始病害葉片映射到深度視覺特征空間。具體地,利用深度自編碼網(wǎng)絡(luò)的編解碼過程壓縮感知輸入圖片中間層的目標(biāo)區(qū)域信息,編解碼流程如式(1)和式(2)所示。
Fse=∑Is∈Dtτ(Is)→λ(Fse)=Is′
(1)
lsed=↓(Is,Is′)
(2)
式中:
Fse——中間層的編碼特征;
Is——原始圖片;
Is′——利用編碼特征恢復(fù)后的圖片;
τ(·)——編碼器;
λ(·)——解碼器;
Dt——訓(xùn)練集;
lsed——
原始圖片與恢復(fù)圖片間的損失值;
↓(·)——損失函數(shù)。
其次,為了增強(qiáng)深度自編碼網(wǎng)絡(luò)編碼壓縮特征的表達(dá)能力,在壓縮特征圖上生成自注意力特征圖,自注意力特征圖如式(3)所示。
Fsa=softmaxFseFseTdFse+Fse
(3)
式中:
Fsa——自注意力特征圖;
d——特征難度。
利用自注意力機(jī)制強(qiáng)化后的特征圖更聚焦病害區(qū)域,這有助于減少無關(guān)背景信息的干擾。
然后,將自注意力特征圖Fsa輸入至多層感知機(jī)和全連接層中進(jìn)行分類和回歸,其中多層感知機(jī)的輸出為每個(gè)候選框中是否包含感興趣的目標(biāo)區(qū)域,全連接層的輸出表示候選框的位置信息和大小。最后,在Plant Village葉片病害分類數(shù)據(jù)集上進(jìn)行訓(xùn)練,優(yōu)化網(wǎng)絡(luò)模型對(duì)于目標(biāo)區(qū)域的定位能力。
1.3 文本編碼
現(xiàn)有的農(nóng)作物病害葉片檢測(cè)方法主要借助視覺編碼特征,對(duì)數(shù)據(jù)集提供的文本標(biāo)簽使用不充分。近年來,融合視覺編碼特征與文本語義來強(qiáng)化目標(biāo)特征集的表達(dá)能力已成為計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)研究[20]。具體地,本文首先根據(jù)文本標(biāo)簽庫建立文本詞典,為每個(gè)病害類型建立對(duì)應(yīng)的詞典編號(hào);其次,采用預(yù)訓(xùn)練的BERT作為詞嵌入編碼器,將文本標(biāo)簽映射為對(duì)應(yīng)的詞向量表示。文本編碼流程如圖3所示。
在文本特征編碼階段,首先將農(nóng)作物病害葉片文本標(biāo)簽集Dt={d1,d2,…,dk}按照葉片所屬類別進(jìn)行編號(hào),并根據(jù)預(yù)定義的葉片病害種類總數(shù)進(jìn)行歸一化,生成標(biāo)簽數(shù)字序列。然后,借助詞向量映射編碼器BERT提取所有標(biāo)簽文本集的詞向量特征表示,如式(4)所示。
{l1,l2,…,lk}=
β
s11,s12,…,s1m
s21,s22,…,s2m
…
sn1,sn2,…,snm
,…,
s11,s12,…,s1m
s21,s22,…,s2m
…
sn1,sn2,…,snm
=∑ki=1Vsi
(4)
式中:
{l1,l2,…,lk}——
多個(gè)農(nóng)作物葉片病害數(shù)據(jù)集的文本標(biāo)簽數(shù)字序列;
β(·)——BERT文本編碼器;
Vsi——
經(jīng)過編碼后的第i個(gè)數(shù)據(jù)集文本標(biāo)簽的詞向量表示,i∈k。
1.4 多模態(tài)特征對(duì)齊
為了實(shí)現(xiàn)文本與視覺多模態(tài)編碼特征的對(duì)齊,此處采用交叉注意力機(jī)制融合視覺編碼特征Fsa和文本編碼特征Vsi。首先使用式(5)所示的交叉注意力機(jī)制融合視覺模態(tài)和文本模態(tài)的編碼特征。主要是因?yàn)橐曈X和文本表示雖為不同模態(tài),但均表示相同的目標(biāo)類,因此模態(tài)間的交叉注意力機(jī)制有助于強(qiáng)化不同模態(tài)特征攜帶目標(biāo)信息的表達(dá)能力。
Fv|t=softmaxFsaVsiTdFsa
(5)
式中:
Fv|t——
視覺與文本不同模態(tài)的融合特征。
其次,為了獲得目標(biāo)區(qū)域?qū)?yīng)的文本標(biāo)簽,將模態(tài)融合特征作為長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[21]的輸入,并利用多層感知機(jī)預(yù)測(cè)對(duì)應(yīng)目標(biāo)區(qū)域的具體病害類型。最后,根據(jù)所預(yù)測(cè)的文本標(biāo)簽值與真實(shí)標(biāo)簽值間的交叉熵?fù)p失,端到端優(yōu)化分類模型的參數(shù)。交叉熵?fù)p失函數(shù)計(jì)算如式(6)所示。
Ls(y′,y)=-∑ni=1p(y)log(y′)
(6)
式中:
Ls(y,y′)——交叉損失值;
y′——預(yù)測(cè)的文本標(biāo)簽;
y——真實(shí)的文本標(biāo)簽。
2 農(nóng)作物病害葉片檢測(cè)
在訓(xùn)練階段,首先以粗粒度的目標(biāo)定位和細(xì)粒度的分類為子任務(wù)進(jìn)行單一模塊化訓(xùn)練,然而單一優(yōu)化的模塊并非整體最優(yōu)。為了優(yōu)化定位與分類集成模型的參數(shù),利用訓(xùn)練集對(duì)集成模型進(jìn)行微調(diào)。集成模型的整體流程如圖4所示。
在推理階段,首先將待測(cè)試的農(nóng)作物病害圖片送入到預(yù)訓(xùn)練的視覺編碼特征提取網(wǎng)絡(luò)中,捕獲整張圖片中的目標(biāo)區(qū)域位置信息,并在原始輸入圖片中提取所捕獲的目標(biāo)區(qū)域子圖。其次,將提取的子圖重新送入到預(yù)訓(xùn)練的目標(biāo)區(qū)域定位網(wǎng)絡(luò)中,編碼壓縮得到目標(biāo)區(qū)域?qū)?yīng)的目標(biāo)視覺特征。
為了實(shí)現(xiàn)視覺語義與文本標(biāo)簽語義的對(duì)齊,分別計(jì)算文本編碼特征與目標(biāo)區(qū)域的視覺編碼特征的交叉注意力,計(jì)算如式(5)所示。將融合的視覺模態(tài)和文本模態(tài)的交叉注意力特征作為長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)的輸入,預(yù)測(cè)對(duì)應(yīng)目標(biāo)區(qū)域的文本標(biāo)簽特征。
由于光照、溫度和其他外界或人為因素的影響,農(nóng)作物葉片的病害類型不斷增加,這給傳統(tǒng)基于深度學(xué)習(xí)的方法增加了難度,因?yàn)樵擃愋略黾拥娜~片病害圖片并不存在于訓(xùn)練集。然而,在所設(shè)計(jì)的方法中,采用了文本和視覺多模態(tài)融合的方法可以有效解決上述傳統(tǒng)模型所面對(duì)的瓶頸問題。一方面,所設(shè)計(jì)方法通過計(jì)算所預(yù)測(cè)目標(biāo)區(qū)域?qū)?yīng)的文本標(biāo)簽是否存在文本集詞典中,即可完成預(yù)測(cè)正確與否的判定;另一方面,當(dāng)新增加葉片病害類型時(shí),所提出方法還可以實(shí)時(shí)添加新增加葉片病害類型的文本表示而無需再次訓(xùn)練視覺與文本編碼器,有效緩解了傳統(tǒng)模型泛化性不強(qiáng)的問題。
3 試驗(yàn)與分析
3.1 試驗(yàn)環(huán)境與數(shù)據(jù)集介紹
所設(shè)計(jì)方法的所有變體模型均在Windows 10平臺(tái)上進(jìn)行試驗(yàn),硬件資源選擇3060Ti GPU 8GB。軟件資源選擇Python編程語言,PyCharm編輯器,并選擇Pytorch深度學(xué)習(xí)框架搭建模型結(jié)構(gòu)。設(shè)定初始學(xué)習(xí)率為0.000 1,batch大小設(shè)為8,優(yōu)化器選擇Adam。不同模態(tài)環(huán)境下模型訓(xùn)練階段的損失曲線如圖5所示。
為驗(yàn)證所設(shè)計(jì)方法對(duì)多種農(nóng)作物病害葉片的檢測(cè)性能,分別在Plant Village數(shù)據(jù)集上收集與整理番茄、馬鈴薯、蘋果和草莓四種作物葉片的病害數(shù)據(jù)集,總共包含10 360張健康葉片和4 086張病害葉片,并按照8∶2的比例劃分為訓(xùn)練集和測(cè)試集。具體地,所選取的馬鈴薯、番茄、蘋果和草莓葉片健康數(shù)據(jù)分別為3 680張、3 190張、2 136張和1 354張;病害葉片分別為920張、1 060張、1 558張和548張。其中,馬鈴薯病害葉片類型包括炭疽病、黑斑病、灰霉病、黃葉病和健康葉片;番茄病害葉片類型包括葉霉病、灰葉斑病、黃葉病、白粉病、黃曲葉病和健康葉片;蘋果病害葉片類型包括花葉病、銹病、褐斑病、灰斑病和健康葉片;草莓病害葉片類型包括葉斑病、灰霉病、白粉病、黃萎病和健康葉片。
3.2 評(píng)價(jià)指標(biāo)
為評(píng)估所設(shè)計(jì)方法的優(yōu)越性,選擇當(dāng)前主流的目標(biāo)分類評(píng)價(jià)指標(biāo):精準(zhǔn)率、召回率和F1分?jǐn)?shù)。計(jì)算如式(7)所示。
精準(zhǔn)率=tt+f
召回率=tt+g
F1分?jǐn)?shù)=2×精準(zhǔn)率×召回率精準(zhǔn)率+召回率
(7)
式中:
t——模型正確預(yù)測(cè)的樣本總數(shù);
f——誤報(bào)的樣本總數(shù);
g——漏報(bào)的樣本總數(shù)。
3.3 試驗(yàn)結(jié)果與分析
選擇當(dāng)前經(jīng)典的目標(biāo)檢測(cè)模型:YOLOv4、Faster R-CNN、ResNet-50、Inception v3、AlexNet、CNN+Attention,并按照馬鈴薯、番茄、蘋果和草莓等作物類型進(jìn)行粗粒度的分類。所有模型的對(duì)比結(jié)果如表1所示。
可以看出,在馬鈴薯葉片、番茄葉片、蘋果葉片和草莓葉片數(shù)據(jù)集上,所提出方法在精準(zhǔn)率、召回率和F1分?jǐn)?shù)方面均取得了最高的檢測(cè)結(jié)果,表明所設(shè)計(jì)方法具有較好的魯棒性和泛化性。主要原因是所設(shè)計(jì)方法采用了文本編碼和視覺編碼的混合特征作為分類和定位的依據(jù),試驗(yàn)結(jié)果驗(yàn)證了結(jié)合文本和視覺模態(tài)可以顯著提升模型對(duì)于病害區(qū)域的定位和分類能力。其次,所設(shè)計(jì)方法在訓(xùn)練階段,采用單一優(yōu)化原則,即在定位和分類子模塊上進(jìn)行局部最優(yōu),然后利用訓(xùn)練數(shù)據(jù)集再次微調(diào)集成模型,有效提高了模型對(duì)目標(biāo)區(qū)域特征的捕獲能力和分類能力。
此外,在測(cè)試速率方面,在原始測(cè)試集上隨機(jī)選擇100張圖片,并包含四種作物的健康葉片和病害葉片,所提出方法的測(cè)試時(shí)間開銷為95 s,雖然相比其余對(duì)比模型有所增加,但增加時(shí)間的幅度僅為10 s,這在實(shí)際應(yīng)用中也是可以接受的。
為了進(jìn)一步驗(yàn)證所設(shè)計(jì)模型的細(xì)粒度分類能力,分別在馬鈴薯病害葉片、番茄病害葉片、蘋果病害葉片和草莓病害葉片數(shù)據(jù)集中包含的17種病害類型和4種健康葉片上進(jìn)行細(xì)粒度分類,評(píng)價(jià)指標(biāo)選擇精準(zhǔn)率,不同方法的細(xì)粒度分類結(jié)果如表2和表3所示。在21種作物葉片細(xì)粒度的分類結(jié)果中,所設(shè)計(jì)方法均取得了最佳精準(zhǔn)率,整體優(yōu)勢(shì)明顯。這進(jìn)一步表明所設(shè)計(jì)方法具有較強(qiáng)的泛化性,可以用于實(shí)際農(nóng)田作物葉片病害的檢測(cè)任務(wù)中。為了直觀展示所設(shè)計(jì)方法的優(yōu)越性,圖6為本文方法和所有對(duì)比方法在馬鈴薯、番茄、蘋果也草莓四種葉片病害類型上的檢測(cè)可視化結(jié)果。圖6中僅選擇部分檢測(cè)結(jié)果進(jìn)行展示,并選擇置信度最高的三個(gè)候選框作為最終的目標(biāo)區(qū)域,可視化結(jié)果為三個(gè)候選框的平均值??梢钥闯觯O(shè)計(jì)方法能夠更多地捕獲病害區(qū)域,并且誤報(bào)或漏報(bào)的情況較少。
3.4 消融試驗(yàn)
所提出基于多模態(tài)特征對(duì)齊的作物病害葉片檢測(cè)模型主要包括視覺編碼和文本編碼兩部分,為了驗(yàn)證視覺模態(tài)和文本模態(tài)在所提出模型性能提升中的作用,設(shè)計(jì)了以下3組消融試驗(yàn),具體結(jié)果如表4所示。
相比文本模態(tài),視覺模態(tài)攜帶的信息更有助提升分類的性能。然而,最好的檢測(cè)結(jié)果是融合視覺模態(tài)和文本模態(tài)后的集成模型。所設(shè)計(jì)方法融合視覺模態(tài)和文本模態(tài)后的集成模型可以實(shí)現(xiàn)0.966 8的精準(zhǔn)率、0.953 6的召回率和0.952 9的F1分?jǐn)?shù)。
此外,為了驗(yàn)證融合視覺模態(tài)和文本模態(tài)的集成模型對(duì)整張圖片中病害區(qū)域的定位能力,分別選擇部分病害圖片進(jìn)行測(cè)試,具體測(cè)試結(jié)果如圖7所示??梢钥闯觯岢龇椒梢跃珳?zhǔn)定位整張圖片中的病害區(qū)域,并且可以判斷出病害圖片顏色的深淺。因?yàn)轭伾缴?,病害區(qū)域越明顯,攜帶的有價(jià)值信息越多。
4 結(jié)論
針對(duì)現(xiàn)有單一使用視覺特征的作物病害葉片檢測(cè)方法泛化性不強(qiáng),特征信息利用不充分的問題,提出一種基于多模態(tài)特征對(duì)齊的作物病害葉片檢測(cè)新方法。通過建立視覺模態(tài)和文本模態(tài)間的信息交互,增強(qiáng)模型對(duì)整張圖片中病害區(qū)域的定位能力。在馬鈴薯、番茄、蘋果和草莓四種類型的病害葉片數(shù)據(jù)集上進(jìn)行測(cè)試。
1) 所提出方法在馬鈴薯、番茄、蘋果和草莓四種類型的病害葉片數(shù)據(jù)集上分別可以實(shí)現(xiàn)0.957 4、0.961 1、0.958 0和0.950 2的精準(zhǔn)率,綜合性能更優(yōu)。
2) 分別建立目標(biāo)區(qū)域定位模塊和病害類型細(xì)粒度分類模塊,有助于在測(cè)試階段實(shí)時(shí)添加新增加的病害類型而無需訓(xùn)練視覺與文本編碼器,有效降低測(cè)試成本。
3) 提出一種融合視覺與文本特征的交叉注意力,建立視覺模態(tài)和文本模態(tài)間的語義對(duì)齊,強(qiáng)化模型對(duì)病害區(qū)域的定位能力。
在未來的工作中,嘗試?yán)脤?duì)比學(xué)習(xí)的方法實(shí)現(xiàn)文本模態(tài)和視覺模態(tài)間的語義對(duì)齊,挖掘模態(tài)間的共有語義信息,進(jìn)一步提升模型對(duì)病害區(qū)域的定位能力。
參 考 文 獻(xiàn)
[1]Huang Xibei, Chen Aibin, Zhou Guoxiong, et al. Tomato leaf disease detection system based on FC-SNDPN [J]. Multimedia Tools and Applications, 2023, 82(2): 2121-2144.
[2]劉闐宇, 馮全, 楊森. 基于卷積神經(jīng)網(wǎng)絡(luò)的葡萄葉片病害檢測(cè)方法[J]. 東北農(nóng)業(yè)大學(xué)學(xué)報(bào), 2018, 49(3): 73-83.
Liu Tianyu, Feng Quan, Yang Sen. Detecting grape diseases based on convolutional neural network [J]. Journal of Northeast Agricultural University, 2018, 49(3): 73-83.
[3]Amritha Haridasan, Jeena Thomas, Ebin Deniraj. Deep learning system for paddy plant disease detection and classification [J]. Environmental Monitoring and Assessment, 2023, 195(1): 120.
[4]Prabhjot Kaur, Shilpi Harnal, Vinay Gautam, et al. A novel transfer deep learning method for detection and classification of plant leaf disease [J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(9): 12407-12424.
[5]張梓婷, 韓金玉, 張東輝, 等. 基于顏色矩的土豆、玉米、蘋果葉片病害異常檢測(cè)[J]. 浙江農(nóng)業(yè)學(xué)報(bào), 2022, 34(10): 2230-2239.
Zhang Ziting, Han Jinyu, Zhang Donghui, et al. Anomaly detection of potato, maize and apple leaf diseases based on color moments [J]. Acta Agriculturae Zhejiangensis, 2022, 34(10): 2230-2239.
[6]Chen Junde, Zhang Defu, Nanehkaran Yaser, et al. Detection of rice plant diseases based on deep transfer learning [J]. Journal of the Science of Food and Agriculture, 2020, 100(7): 3246-3256.
[7]劉敏, 周麗. 基于多尺度特征融合網(wǎng)絡(luò)的蘋果病害葉片檢測(cè)[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2023, 44(8): 184-190.
Liu Min, Zhou Li. Apple disease leaf detection based on multi-scale feature fusion network [J]. Journal of Chinese Agricultural Mechanization, 2023, 44(8): 184-190.
[8]公徐路, 張淑娟. 基于改進(jìn)YOLOv5s的蘋果葉片小目標(biāo)病害輕量化檢測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(19): 175-184.
Gong Xulu, Zhang Shujuan. Lightweight detection on small target diseases in apple leaf using improved YOLOv5s [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(19): 175-184.
[9]曾晏林, 賀壹婷, 藺瑤, 等. 基于BCE-YOLOv5的蘋果葉部病害檢測(cè)方法[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(15): 155-163.
Zeng Yanlin, He Yiting, Lin Yao, et al. Apple leaf disease detection method based on BCE-YOLOv5 [J]. Jiangsu Agricultural Sciences, 2023, 51(15): 155-163.
[10]趙嘉威, 田光兆, 邱暢, 等. 基于改進(jìn)YOLOv4算法的蘋果葉片病害檢測(cè)方法[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(9): 193-199.
Zhao Jiawei, Tian Guangzhao, Qiu Chang, et al. Apple leaf disease detection method based on improved YOLOv4 algorithm [J]. Jiangsu Agricultural Sciences, 2023, 51(9): 193-199.
[11]孫長(zhǎng)蘭, 林海峰. 一種基于集成學(xué)習(xí)的蘋果葉片病害檢測(cè)方法[J]. 江蘇農(nóng)業(yè)科學(xué), 2022, 50(20): 41-47.
Sun Changlan, Lin Haifeng. An apple leaf disease detection method based on ensemble learning [J]. Jiangsu Agricultural Sciences, 2022, 50(20): 41-47.
[12]邢鵬康, 李久朋. 基于小樣本學(xué)習(xí)的馬鈴薯葉片病害檢[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(15): 203-210.
Xing Pengkang, Li Jiupeng. Potato leaf disease detection based on few-shot learning [J]. Jiangsu Agricultural Sciences, 2023, 51(15): 203-210.
[13]趙越, 趙輝, 姜永成, 等. 基于深度學(xué)習(xí)的馬鈴薯葉片病害檢測(cè)方法[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2022, 43(10): 183-189.
Zhao Yue, Zhao Hui, Jiang Yongcheng, et al. Detection method of potato leaf diseases based on deep learning [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(10): 183-189.
[14]章廣傳, 李彤, 何云, 等. 基于遷移模型集成的馬鈴薯葉片病害識(shí)別方法[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(15): 216-224.
Zhang Guangchuan, Li Tong, He Yun, et al. Potato leaf disease recognition method based on ensemble of transfer learning models [J]. Jiangsu Agricultural Sciences, 2023, 51(15): 216-224.
[15]儲(chǔ)鑫, 李祥, 羅斌, 等. 基于改進(jìn)YOLOv4算法的番茄葉部病害識(shí)別方法[J]. 江蘇農(nóng)業(yè)學(xué)報(bào), 2023, 39(5): 1199-1208.
Chu Xin, Li Xiang, Luo Bin, et al. Tomato leaf disease recognition method based on improved YOLOv4 algorithm [J]. Jiangsu Agricultural Sciences, 2023, 39(5): 1199-1208.
[16]蔣清健, 姚勇, 王亞玲, 等. 基于多尺度卷積神經(jīng)網(wǎng)絡(luò)算法的番茄葉片病害識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(15): 211-216.
Jiang Qingjian, Yao Yong, Wang Yaling, et al. Tomato leaf disease recognition based on multi-scale convolutional neural network algorithm [J]. Jiangsu Agricultural Sciences, 2023, 51(15): 211-216.
[17]劉擁民, 劉翰林, 石婷婷, 等. 一種優(yōu)化的Swin Transformer番茄葉片病害識(shí)別方法[J]. 中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào), 2023, 28(4): 80-90.
Liu Yongmin, Liu Hanlin, Shi Tingting, et al. Tomato leaf disease recognition based on an optimized Swin Transformer [J]. Journal of China Agricultural University, 2023, 28(4): 80-90.
[18]Tiago Domingues, Brandao, Joao Ferreira. Machine learning for detection and prediction of crop diseases and pests: A comprehensive survey [J]. Agriculture, 2022, 12(9): 1350.
[19]Shahi Tejbahadur, Xu Chengyuan, Neupane Arjun, et al. Recent advances in crop disease detection using UAV and deep learning techniques [J]. Remote Sensing, 2023, 15(9): 2450.
[20]Chai Wenhao, Wang Gaoang. Deep vision multimodal learning: Methodology, benchmark, and trend [J]. Applied Sciences, 2022, 12(13): 6588.
[21]陳智超, 汪國(guó)強(qiáng), 李飛, 等. 基于Bi-LSTM與多尺度神經(jīng)網(wǎng)絡(luò)模型的番茄病害識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué), 2023, 51(15): 194-203.
Chen Zhichao, Wang Guoqiang, Li Fei, et al. Tomato disease recognition based on Bi-LSTM and multi-scale neural network models [J]. Jiangsu Agricultural Sciences, 2023, 51(15): 194-203.
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2024年7期