"
摘要:在實際的辣椒種植環(huán)境中,由于其復(fù)雜背景,辣椒葉片病害的識別難度較大。目前,關(guān)于受害程度分級檢測和辣椒病害分級缺乏公開的數(shù)據(jù)集。以成都市農(nóng)林科學(xué)院辣椒種植基地的葉片為研究對象,采用U2-Net對葉片進行分割,生成具有不同復(fù)雜背景的合成圖像,從而豐富數(shù)據(jù)集。針對常見的辣椒細(xì)菌性斑點、白粉病和病毒病3種病害以及健康葉片,提出一種SE-MultiResNet50檢測模型。該模型在全由復(fù)雜背景圖像組成的測試集上表現(xiàn)出色:辣椒病害種類的識別準(zhǔn)確率達(dá)到91.05%,受害嚴(yán)重程度分級的準(zhǔn)確率為92.08%。結(jié)果表明,該檢測模型在復(fù)雜背景下具有較高的識別精度,成功實現(xiàn)對辣椒病害種類分類和受害嚴(yán)重程度分級的智能識別。同時,提供一種新的數(shù)據(jù)集擴充方法,為相關(guān)領(lǐng)域的研究提供新的思路和途徑。
關(guān)鍵詞:辣椒;病蟲害;分級檢測;注意力機制;ResNet50
中圖分類號:S436.418
文獻(xiàn)標(biāo)識碼:A
文章編號:2095-5553(2024)12-0259-09收稿日期:2024年3月15日
修回日期:2024年6月12日
*基金項目:四川省科技計劃項目(2021YFN0117)
第一作者:唐源,男,1980年生,成都人,博士,副教授;研究方向為智慧農(nóng)業(yè)、計算機視覺。E-mail:tangyuan2012@cdut.edu.cn
Grading detection of chili pepper diseases species and degree based on the SE-MultiResNet50 algorithm
Tang Yuan1, Lu Maoyue1, Li Liping2, Tang Youwan2, Chen Yangyang1, Li Yujin1
(1. College of Computer Science and Cyber Security, Chengdu University of Technology, Chengdu, 610059, China;2. Chengdu Academy of Agriculture and Forestry Sciences, Chengdu, 611130, China)
Abstract: In the actual pepper planting environment, due to its complex background, the identification of pepper leaf diseases has always been a challenging problem. Currently, there is a lack of publicly available datasets for severity grading detection and classification of chili pepper leaf diseases. This study focuses on leaf samples from the chili pepper plantation base of the Chengdu Academy of Agriculture and Forestry Sciences, by utilizing U2-Net for leaf segmentation to generate synthetic images with diverse complex backgrounds, thereby enriching the dataset. Addressing common chili pepper diseases such as bacterial spot, powdery mildew, viral diseases, and healthy leaves, a SE-MultiResNet50 detection model is proposed. This model performs remarkably well on a test set comprised entirely of images with complex backgrounds: achieving a recognition accuracy of 91.05% for chili pepper disease types and 92.08% for severity grading. Experimental results of this study demonstrate that the detection model exhibits high recognition accuracy under complex backgrounds, successfully achieving intelligent identification of chili pepper disease types and severity grading. Additionally, a novel dataset augmentation method is provided, offering new insights and avenues for research in related fields.
Keywords: chili; diseases and pests; hierarchical detection; attention mechanism; ResNet50
0 引言
辣椒是我國農(nóng)戶普遍種植的蔬菜種類之一,隨著辣椒種植規(guī)模的不斷擴大,在其生長發(fā)育的過程中可能受不良環(huán)境的影響或病原微生物等有害生物的侵染,導(dǎo)致辣椒在組織結(jié)構(gòu)或形態(tài)上發(fā)生一系列變化[1]。這些病蟲害傳播快、范圍廣、難防治,對辣椒生產(chǎn)造成重大損失。早期發(fā)現(xiàn)并有效防治病蟲害,不僅能預(yù)防損失擴大,還能避免過度用藥帶來的環(huán)境污染,提升辣椒產(chǎn)量與品質(zhì)。
為解決農(nóng)作物病蟲害種類多、傳播速度快、人工識別病蟲害延誤最佳防治時期等問題,已經(jīng)出現(xiàn)了一系列分類方法,但也存在著一定的缺陷。對于傳統(tǒng)農(nóng)作物病蟲害識別的人工識別和機器學(xué)習(xí)方法,數(shù)據(jù)預(yù)處理過程復(fù)雜,需要耗費大量的人力和時間。梁棟等[2]針對小麥病害圖像使用高光譜成像技術(shù),并利用支持向量機和主成分分析法降維建模,最終對小麥白粉病和條銹病分類任務(wù)的識別準(zhǔn)確率達(dá)92%。馬超等[3]使用灰度直方圖特征結(jié)合SVM對水稻葉片病害進行識別,準(zhǔn)確率達(dá)到了98.4%。Aziz等[4]提出了一個基于計算機的系統(tǒng)框架,實現(xiàn)了對番茄病害圖像的快速準(zhǔn)確分類,采用局部二進制模式和局部三向模式,提取圖像表面的紋理特征,并結(jié)合SVM算法實現(xiàn)對圖像病害的快速分類,該方法在對PlantVillage中的5種簡單番茄病害圖像進行分類時,取得了94%的高精度識別率。
隨著時代的發(fā)展、科技的進步,越來越多的新技術(shù)被應(yīng)用到農(nóng)業(yè)生產(chǎn)中。深度學(xué)習(xí)憑借其自主學(xué)習(xí)有效特征的能力被廣泛應(yīng)用在農(nóng)作物病蟲害識別領(lǐng)域中,并取得不錯的識別效果。Jiang等[5]提出了帶有初始模塊和rainbow連接的SSD(INAR-SSD),與Faster R-CNN和SSD網(wǎng)絡(luò)(mAP分別為73.78%和75.82%)相比,最終實現(xiàn)了78.8%的mAP。Zhang等[6]提出了一種三通道卷積神經(jīng)網(wǎng)絡(luò)(TCCNN)來對蔬菜葉病進行識別,實現(xiàn)了三個全卷積的特征提取網(wǎng)絡(luò)和一個融合的密集網(wǎng)絡(luò),其中每個全卷積網(wǎng)絡(luò)只接收RGB三個顏色通道中的一個。Arsenovic等[7]使用生成對抗網(wǎng)絡(luò)(GANs)來生成新的葉片圖像,試驗測試了DCGAN、ProGAN和StyleGAN,其中StyleGAN在256像素×256像素范圍內(nèi)能成功地生成葉片圖像,但這些GAN網(wǎng)絡(luò)在復(fù)雜背景下的圖像上的訓(xùn)練并沒有成功。Singh等[8]提出了一種19個卷積層的卷積神經(jīng)網(wǎng)絡(luò)模型,用于識別蘋果葉片的兩種病害,并與支持向量機、k近鄰、隨機森林和邏輯回歸模型等標(biāo)準(zhǔn)機器學(xué)習(xí)分類器進行了比較,試驗結(jié)果表明,該模型的準(zhǔn)確率達(dá)到了99.2%,優(yōu)于其他基于CNN的模型和機器學(xué)習(xí)模型。Liang等[9]提出了一種名為PD2SE-Net的神經(jīng)網(wǎng)絡(luò)模型,該模型采用了殘差結(jié)構(gòu)和shuffle單元,并將病害程度分為健康、一般和嚴(yán)重三個等級,可同時進行植物病害診斷和嚴(yán)重程度估計,該模型在PlantVillage數(shù)據(jù)集上的平均分級精度達(dá)到了91%。萬軍杰等[10]應(yīng)用遷移學(xué)習(xí)技術(shù)和GoogleNet模型,對6個不同類型的作物的25個不同類型的病蟲害進行了分類分析,結(jié)果表明,該模型的識別準(zhǔn)確率達(dá)到了99.35%,
危害程度分級精度可達(dá)92.78%。Pratap等[11]利用定制化的EffecentNetB4對辣椒葉片病害進行高精度多類分類,準(zhǔn)確率達(dá)到92%。李西興等[12]提出一種基于MaxViT改進的MaxViT-DF模型,將MaxViT模型中的普通卷積替換為可變形卷積,使模型在提取特征時能更貼近復(fù)雜環(huán)境下的識別目標(biāo);同時在MaxViT模型施加注意力時引入特征融合模塊,提高模型的全局感知能力。結(jié)果顯示,改進的MaxViT-DF模型識別分類準(zhǔn)確率達(dá)到98.10%,對6種辣椒病害的分類精度均高于95%。
上述研究大多是基于實驗室單一背景下的圖像數(shù)據(jù),但應(yīng)用于實際田間復(fù)雜背景環(huán)境時,表現(xiàn)并不理想,比如在單一背景下檢測效果好的模型在復(fù)雜背景下的平均病害檢測準(zhǔn)確率甚至達(dá)不到50%[13]。因此,以實際復(fù)雜農(nóng)田背景下的辣椒葉片為研究對象,提出一種基于SE注意力機制改進ResNet50的雙任務(wù)辣椒病害程度分級檢測模型SE-MultiResNet50。采用共享主干網(wǎng)提取兩個任務(wù)的聯(lián)合特征,通過兩個并行的全連接層分別輸出各任務(wù)的判別結(jié)果;并將改進后的網(wǎng)絡(luò)模型與傳統(tǒng)的ResNet50網(wǎng)絡(luò)進行對比,以期能夠在復(fù)雜背景環(huán)境下快速、準(zhǔn)確地自動識別辣椒葉片病害種類及受害程度,為辣椒作物的智能化管理提供有力支持。
1 材料與方法
1.1 數(shù)據(jù)集準(zhǔn)備
1)數(shù)據(jù)來源。主要以4種不同類別的辣椒葉片圖像作為研究對象。由于目前公開可供研究的辣椒病害數(shù)據(jù)集較少,所以自建一個辣椒葉片數(shù)據(jù)集。所使用的數(shù)據(jù)集通過兩種途徑獲取,首先,從PlantVillage官網(wǎng)收集了一部分辣椒健康和細(xì)菌性斑點病的樣本圖像,這些圖像均為實驗室單一背景下拍攝,大小統(tǒng)一為256像素×256像素。另外,在成都市農(nóng)林科學(xué)院辣椒大棚中拍攝了一部分辣椒葉片圖像,在全部辣椒樣本圖像中,共計細(xì)菌性斑點病、白粉病和病毒病三種病害以及4種嚴(yán)重程度分級,見表1。
2)病害種類及嚴(yán)重程度分級。具體分級標(biāo)準(zhǔn)參考GB/T 17980.34—2000《農(nóng)藥田間藥效試驗準(zhǔn)則(一)殺菌劑防治梨黑星病》[14]中葉片病情分級標(biāo)準(zhǔn),按照病斑占整個葉片面積比例劃分6個等級:無病斑(0級);0lt;病斑≤10%(1級);10%≤病斑≤25%(3級);25%之病斑≤40%(5級);40%≤病斑≤65%(7級);病斑≥65%(9級)。由農(nóng)業(yè)專家人工對采集到的樣本圖像進行病害分類以及嚴(yán)重程度分級,嚴(yán)重程度共分為4級:0級為健康、Ⅰ級為輕度、Ⅱ級為中度、Ⅲ級為重度。其中分級標(biāo)準(zhǔn)按病斑占整片葉子面積的比例劃分:0級無病斑;Ⅰ級病斑≤20%;20%<Ⅱ級病斑≤50%;Ⅲ級病斑>50%。由于各類別數(shù)據(jù)量存在巨大差異,最終挑選辣椒葉健康、細(xì)菌性斑點病、白粉病和病毒病,辣椒樣本葉片如圖1所示。
在實際復(fù)雜背景下拍攝的數(shù)據(jù)集按7∶2∶1的比例劃分為訓(xùn)練集、驗證集和測試集(原始訓(xùn)練集、原始驗證集、原始測試集),各類別具體數(shù)量分布見表1。由于本研究是解決田間復(fù)雜背景下的病害識別問題,所以測試集里的樣本應(yīng)該均為復(fù)雜背景下的葉片圖像,但是鑒于在實地拍攝的樣本數(shù)量有限,為了防止因訓(xùn)練樣本數(shù)量過少而導(dǎo)致模型發(fā)生過擬合現(xiàn)象,在訓(xùn)練集中加入合成圖像之后再對圖片進行傳統(tǒng)圖像增強,圖2為辣椒葉片樣本圖像里的復(fù)雜背景辣椒葉片圖像。
3)U2-Net合成圖像及圖像增強。傳統(tǒng)的圖像增強方式有水平和垂直鏡像、旋轉(zhuǎn)、平移、縮放、亮度以及對比度調(diào)整等,圖3展示了部分傳統(tǒng)圖像處理操作。
除了采用這些基礎(chǔ)增強方式外,還使用顯著性目標(biāo)檢測模型U2-Net[15]對樣本進行前背景分割,U2-Net[15]是基于U-Net[16]提出的一種新的深度網(wǎng)絡(luò)架構(gòu),簡單卻功能強大,常被用于顯著目標(biāo)檢測,能夠?qū)D像中最具視覺吸引力的目標(biāo)分割出[17]。U2-Net在現(xiàn)有的圖像分類任務(wù)中,多數(shù)情況下被使用在數(shù)據(jù)集的前背景分割過程,其目的是簡化數(shù)據(jù)集圖像,本文決定不用U2-Net簡化數(shù)據(jù)集,而是利用其來增加數(shù)據(jù)集的多樣性。為了模擬在不同復(fù)雜背景下拍攝的辣椒圖像,采用不同背景對已有辣椒葉片圖像做背景更換的方式來達(dá)到數(shù)據(jù)增強的目的。直接使用設(shè)計者在DUTS-TR[18]上預(yù)訓(xùn)練好的模型參數(shù),不再對U2-Net進行重新訓(xùn)練。首先,在網(wǎng)上搜集幾張供后續(xù)替換背景所用的真實田間背景圖像;然后,在已有的訓(xùn)練數(shù)據(jù)集的每個類別中隨機選取部分葉片圖像利用U2-Net生成合成圖像,確保病害特征的真實及完整性,從而有效提升數(shù)據(jù)集的多樣性,避免了在實際辣椒種植基地切換不同場景進行拍攝的低效費力工程,流程圖如圖4所示。
1.2 網(wǎng)絡(luò)模型
1.2.1 ResNet模型
深度學(xué)習(xí)中由于網(wǎng)絡(luò)深度的增加而帶來的學(xué)習(xí)效率變低以及準(zhǔn)確率無法有效提升的問題,隨著深度殘差網(wǎng)絡(luò)的出現(xiàn)得到了有效解決。由He等[19]提出的ResNet有兩種殘差塊結(jié)構(gòu),50層以下使用的雙層BasicBlock和50層及以上使用的三層Bottleneck。
這種快捷連接方式能在不增加參數(shù)量和計算量的前提下,將殘差塊的輸入和輸出做簡單的元素級疊加,不僅能避免深層網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)準(zhǔn)確率退化的問題,同時還可以提升模型的訓(xùn)練速度。假設(shè)輸入為x,非線性的疊加層操作表示為F(x),擬合的目標(biāo)函數(shù)為H(x),則殘差塊通過一個快捷連接得到恒等映射,如式(1)所示。卷積過程如式(2)所示。
H(x)=F(x)+x
(1)
yn=g(∑wn×xn-1+b)
(2)
式中:n——網(wǎng)絡(luò)層數(shù);
w——權(quán)重;
b——偏置項;
y——輸出特征;
g(·)——激活函數(shù)。
隨著網(wǎng)絡(luò)深度的增加,每層的特征值分布會朝著激活函數(shù)輸出區(qū)間的上下兩端逼近,從而導(dǎo)致梯度的消失。批量歸一化將輸入特征重新拉回標(biāo)準(zhǔn)正態(tài)分布,能有效緩解深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中性能不穩(wěn)定和收斂困難的問題,并引入兩個學(xué)習(xí)參數(shù)γ、β,通過網(wǎng)絡(luò)訓(xùn)練自主學(xué)習(xí)[20],表示如式(3)和式(4)所示。
其中,輸入特征向量x={x1,x2,…,xn};x-和σx2分別表示x的均值和方差。
1.2.2 多任務(wù)網(wǎng)絡(luò)
采取深度學(xué)習(xí)的方法對病害程度進行分級評估,將不同的受害嚴(yán)重程度視為不同的類別給神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練學(xué)習(xí)。由于研究中有病害種類識別和嚴(yán)重程度分級兩個任務(wù),但這兩個任務(wù)具有很強的相關(guān)性,為了簡化網(wǎng)絡(luò)模型,使兩個任務(wù)共享一個主干網(wǎng)絡(luò),讓網(wǎng)絡(luò)學(xué)習(xí)對兩個任務(wù)有用的聯(lián)合特性,通過兩個并行的全連接層分別完成對辣椒病害種類的識別以及受害嚴(yán)重程度的分級任務(wù)。這種共享網(wǎng)絡(luò)的方式提高了數(shù)據(jù)效率,為相關(guān)任務(wù)提供了更快的學(xué)習(xí)速度,有助于緩解深度學(xué)習(xí)大規(guī)模計算需求等問題。其中共享的模型權(quán)重被訓(xùn)練以聯(lián)合最小化兩個任務(wù)損失函數(shù)。具體做法是使用ResNet50作為提取兩個任務(wù)的聯(lián)合特征的主干網(wǎng)絡(luò),在原網(wǎng)絡(luò)最后一個全連接層處并行添加一個全連接層并分別設(shè)置為對應(yīng)任務(wù)的輸出,比如本文病害種類的識別任務(wù)和嚴(yán)重程度分級任務(wù)中都有4類輸出,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
1.2.3 注意力機制
注意力機制是深度學(xué)習(xí)技術(shù)中備受關(guān)注的核心技術(shù)之一,從本質(zhì)上看,深度學(xué)習(xí)中的注意力機制是為了從大量信息中關(guān)注到對當(dāng)前任務(wù)目標(biāo)更有意義的關(guān)鍵信息上,就類似人類的選擇性視覺注意力機制[21]。
常見的注意力機制有通道注意力(如SE模塊[22])、空間注意力(如STN網(wǎng)絡(luò)[23])以及通道和空間混合注意力(如CBAM模塊[24])這三種。由于注意力機制可以定位到網(wǎng)絡(luò)感興趣的信息,提高網(wǎng)絡(luò)對關(guān)鍵特征的提取能力,故能有效提升模型的識別精度。如圖6所示,在ResNet50的Block中最后一個卷積層后添加SE模塊,測試其對病害識別及嚴(yán)重程度分級多任務(wù)網(wǎng)絡(luò)的識別準(zhǔn)確率的影響。
1.2.4 模型整體架構(gòu)
ResNet50有Conv Block和Identity Block兩種塊結(jié)構(gòu),其中Conv Block的輸入輸出維度不同,所以需要使用1×1卷積對殘差邊進行通道調(diào)整,然后才能讓主分支與捷徑分支進行矩陣相加;而Identity Block輸入維度和輸出維度相同,可以連續(xù)串聯(lián),用于加深網(wǎng)絡(luò)。為了方便描述,將添加了SE注意力后的兩種Block分別命名為SE_Conv Block和SE_Identity Block,則本文的辣椒病害程度分級檢測模型SE-MultiResNet50的整體結(jié)構(gòu)如圖7所示。
其中,輸入辣椒葉片圖像的shape為(224,224,3),即表示image通道數(shù)為3、尺寸為224像素×224像素。模型最后由兩個FC全連接層將通道2 048與num_class(兩個任務(wù)的輸出num_class均為4)連接輸出。
2 試驗結(jié)果與分析
2.1 模型準(zhǔn)備與超參數(shù)設(shè)置
為提高模型的訓(xùn)練效率,引入遷移學(xué)習(xí)技術(shù)。在本地試驗平臺上搭建好ResNet等所需網(wǎng)絡(luò)模型,分別載入各網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練好的模型權(quán)重文件。這些模型是端到端的訓(xùn)練,沒有凍結(jié)任何層的訓(xùn)練。在訓(xùn)練之前,需要手動設(shè)置一些超參數(shù),比如學(xué)習(xí)率一般設(shè)置為0.01、0.001、0.000 1,動量一般設(shè)為0.3、0.6、0.9三個動量梯度。經(jīng)多次試驗之后,確定0.01作為模型的初始學(xué)習(xí)率,權(quán)重衰減值為0.000 5,并采用帶動量的隨機梯度下降法優(yōu)化器更新模型參數(shù),動量因子設(shè)置為0.9,批量大小設(shè)置為24,訓(xùn)練epoch為100。
2.2 評價指標(biāo)
準(zhǔn)確率Acc、精確率P、召回率R、F1值和損失值(Loss)是評估分類模型性能的五個重要指標(biāo)。在訓(xùn)練過程中,會記錄每一輪訓(xùn)練的這些指標(biāo),并據(jù)此調(diào)整模型的參數(shù),以獲得更好的性能。
1)準(zhǔn)確率是模型預(yù)測正確的樣本數(shù)量與總樣本數(shù)的比值,計算如式(5)所示。
Acc=TP+TN/TP+TN+FP+FN
(5)
式中:TP——被正確預(yù)測為正類的樣本數(shù)量;
TN——被正確預(yù)測為負(fù)類的樣本數(shù)量;
FP——被錯誤預(yù)測為正類的樣本數(shù)量;
FN——被錯誤預(yù)測為負(fù)類的樣本數(shù)量。
2)精確率是在所有被模型預(yù)測為正類的樣本中,實際為正類的樣本數(shù)量與預(yù)測為正類的總樣本數(shù)量的比值,計算如式(6)所示。
P=TP/TP+FP×100%
(6)
3)召回率指在所有實際為正類的樣本中,被模型正確預(yù)測為正類的比例,計算如式(7)所示。
R=TP/TP+FN×100%
(7)
4)F1值是分類模型性能的綜合評價指標(biāo),將精確率和召回率結(jié)合起來,提供了這兩個指標(biāo)的調(diào)和平均數(shù),計算如式(8)所示。
F1=2×P×R/P+R
(8)
5)Loss是模型預(yù)測結(jié)果與實際結(jié)果之間的差異,本文采用交叉熵?fù)p失函數(shù)來衡量多分類模型學(xué)習(xí)到的分布與真實分布間的差異,計算如式(9)所示。
L=1/N∑iLi1/N∑i∑M/j=1yijlog(pij)
(9)
式中:N——樣本數(shù);
M——類別數(shù);
yij——第i個樣本屬于第j個類別的真實標(biāo)簽;
pij——模型預(yù)測第i個樣本屬于第j個類別的概率。
由于本文是雙任務(wù)網(wǎng)絡(luò)模型,需要對兩個分類任務(wù)分別計算出交叉熵?fù)p失,再對兩個損失值取平均值作為本文模型的最終損失,用該損失值給網(wǎng)絡(luò)提供反饋,指導(dǎo)下一步訓(xùn)練優(yōu)化方向,計算如式(10)所示。
Loss=Ldis+Lsev/2
(10)
式中:Ldis——辣椒病害類別分類的交叉熵?fù)p失值;
Lsev——辣椒受害嚴(yán)重程度分級的交叉熵?fù)p失值。
2.3 不同模型的識別性能對比
在相同訓(xùn)練參數(shù)設(shè)置條件下,將常見的分類模型作為雙任務(wù)聯(lián)合特征提取的共享主干網(wǎng)絡(luò),各模型在本文原始數(shù)據(jù)集病害種類識別嚴(yán)重程度分級結(jié)果對比如表2所示。
從表2可以看出,7種常用分類模型在訓(xùn)練集上的表現(xiàn)都還不錯,均獲得了較高的識別準(zhǔn)確率、召回率和F1值。但其中AlexNet網(wǎng)絡(luò)對本文數(shù)據(jù)集的適用性最差,由于其在訓(xùn)練時采用分組卷積,導(dǎo)致卷積核只對部分特征圖起作用,模型泛化能力弱。ResNet34網(wǎng)絡(luò)以較少的參數(shù)量在本文的測試集上獲得了較高的準(zhǔn)確率,但還有上升的空間。ResNet101網(wǎng)絡(luò)雖然在測試集上獲得了嚴(yán)重程度分級檢測的最高準(zhǔn)確率,達(dá)到了78.12%,但是所提取特征對病害種類的識別效果卻不佳,并且網(wǎng)絡(luò)結(jié)構(gòu)較深訓(xùn)練時間長。在各項評估指標(biāo)中,相較GoogleNet、VGG16和MobileNet_V2,ResNet50表現(xiàn)更優(yōu)秀,所以本文采用ResNet50作為辣椒病害分類及嚴(yán)重程度分級模型的共享主干網(wǎng)絡(luò)。
2.4 U2-Net合成圖像擴充數(shù)據(jù)集對模型識別的影響
從辣椒葉片數(shù)據(jù)集的訓(xùn)練集中隨機挑選了556張圖像用于生成復(fù)雜背景下的合成圖像,并且這556張圖像比較平均的分布于各個類別中。訓(xùn)練集中加入合成圖像的數(shù)量也會對模型的訓(xùn)練效果產(chǎn)生極大的影響,試驗將這556張圖像分別更換1種、2種、3種和4種實際種植環(huán)境中常見的背景圖作對比,四種背景圖如圖8(a)所示,更換四種不同背景后的合成圖像如圖8(b)所示。并將合成圖像放入原訓(xùn)練集中,以測試合成圖像的數(shù)量對模型識別準(zhǔn)確率的影響。每使用一張背景圖處理就能得到556張新的合成圖像,訓(xùn)練集中添加不同數(shù)量的合成圖像后ResNet50模型的識別結(jié)果如表3所示。
通過對原始圖像與生成圖像之間的相似度進行量化評估,發(fā)現(xiàn)U2-Net在圖像合成方面展現(xiàn)出了出色的效果。首先,使用結(jié)構(gòu)相似性指數(shù)(SSIM)來評估生成圖像和原始圖像之間的相似度,結(jié)果顯示,生成圖像的平均SSIM值接近0.857 4,表明U2-Net能夠比較準(zhǔn)確地保留原始圖像的細(xì)節(jié)和結(jié)構(gòu),生成的圖像在視覺上與原始圖像高度相似。其次,利用峰值信噪比(PSNR)來評估圖像的質(zhì)量,結(jié)果顯示,生成圖像的平均PSNR值接近為28 dB,表明U2-Net生成的圖像在減少失真和噪聲方面表現(xiàn)比較優(yōu)秀。最后,進行人眼觀察和主觀評價,以全面評估U2-Net在圖像合成任務(wù)中的效果。通過人肉眼觀察,發(fā)現(xiàn)生成的圖像具有高度的清晰度和真實感。能夠準(zhǔn)確地保留圖像的細(xì)節(jié)和紋理,生成的圖像在視覺上與原始圖像非常接近,能夠滿足實際應(yīng)用的需求。
由表3可知,加入合成圖像后模型對于病害種類分類和嚴(yán)重程度分級的準(zhǔn)確率比沒有添加合成圖像時都有所提升,說明擴充一定量的訓(xùn)練集數(shù)據(jù)對于模型的準(zhǔn)確率提升顯著,證明使用U2-Net能夠提升整體識別算法性能。在加入1 668張合成圖像訓(xùn)練時,對測試集中兩個任務(wù)的識別準(zhǔn)確率分別達(dá)到了84.12%和83.22%,比原始數(shù)據(jù)集提高了6.37%和6.0%,召回率提高了7.47%和5.32%,F(xiàn)1值提高了7.18%和5.64%,但當(dāng)加入2 224張合成圖像后反而出現(xiàn)下降趨勢,訓(xùn)練集中加入1 668張合成圖像時模型已經(jīng)達(dá)到了飽和狀態(tài),此時在四種模型上的表現(xiàn)都為最佳,再繼續(xù)增加合成圖像的意義已經(jīng)不大,所以選擇用3種背景圖處理后的1 668張合成圖像來增強訓(xùn)練數(shù)據(jù)集。
2.5 注意力機制對模型識別的影響
為驗證注意力機制對模型識別效果的影響,試驗基于原始測試集分別在ResNet50的Block中添加SE注意力和CBAM注意力后對識別結(jié)果做對比。分別添加兩種注意力機制識別結(jié)果對比如表4所示。
由表4可知,ResNet50添加SE注意力后在測試集上的病害種類分類和嚴(yán)重程度分級的識別準(zhǔn)確率較原網(wǎng)絡(luò)分別提高3.14%和4.72%,而添加CBAM注意力后對病害種類分類的識別準(zhǔn)確率較原網(wǎng)絡(luò)反而下降了0.52%,對受害程度分級的準(zhǔn)確率只提升了0.79%。因為辣椒葉片的受害區(qū)域很隨機,且人工拍攝照片時的角度不固定,所以CBAM的空間維度的注意力并不能為模型提供幫助,甚至可能會因為錯誤的空間注意力特征圖擾亂模型對最終特征的提取判斷,從而產(chǎn)生錯誤的識別結(jié)果。而通過對比圖9中的熱力圖結(jié)果可以發(fā)現(xiàn),添加SE注意力機制后,模型能夠更加準(zhǔn)確地定位到辣椒葉片受害的病斑區(qū)域,使模型更關(guān)注到病害特征上,提升病害分類的整體效果和實用性。
2.6 復(fù)雜背景下的病害分類及嚴(yán)重程度分級結(jié)果
為驗證SE-MultiResNet50模型的可靠性,將原始訓(xùn)練集替換為增強后數(shù)據(jù)集,測試集使用原始測試集,原始測試集中的圖像均為實際拍攝圖像,驗證了添加SE注意力機制后的最終辣椒病害程度分級檢測模型的識別效果。如圖10所示,病害分類及嚴(yán)重程度分級主要依賴紋理特征(圖10(b))和顏色特征(圖10(c))進行識別。隨著epoch的增加,最終模型在辣椒病害類別分類和嚴(yán)重程度分級兩個任務(wù)上的訓(xùn)練準(zhǔn)確率及損失變化曲線如圖11所示,兩個任務(wù)的訓(xùn)練準(zhǔn)確率都逐漸趨近于100%,并且模型的收斂速度較快,在第45個epoch時模型基本達(dá)到收斂狀態(tài)。本研究模型在測試集上病害分類結(jié)果如表5所示,嚴(yán)重程度分級結(jié)果如表6所示,辣椒病害種類分類任務(wù)的平均準(zhǔn)確率為91.05%,除了辣椒白粉病外對其他三類的識別準(zhǔn)確率均達(dá)到了95%以上。
受害嚴(yán)重程度分級任務(wù)的平均準(zhǔn)確率為92.08%,盡管有28個樣本被錯誤分級,但是大部分錯誤都在真實值的臨近級別上,這是由于辣椒白粉病的數(shù)據(jù)集是通過多次拍攝完成,場景和葉片生長時期差異較大,受光照和拍攝角度的影響,同時樣本標(biāo)簽由人工標(biāo)注,嚴(yán)格而標(biāo)準(zhǔn)的分級工作比較復(fù)雜,因此難免會發(fā)生個別樣本標(biāo)記錯誤,比如處于中度和重度臨界點位置的樣本很難判別為具體哪一個級別,所以導(dǎo)致最終的識別效果不佳。在后續(xù)研究中會采用會進一步提高模型對于臨界點位置的樣本的識別能力,進而提高整體識別準(zhǔn)確率。
3 結(jié)論
1)為克服數(shù)據(jù)集不足的問題,在傳統(tǒng)圖像增強處理的基礎(chǔ)上,使用U2-Net分割算法對辣椒葉片進行分割,并與搜集的背景圖拼接融合生成新的不同復(fù)雜背景下的合成圖像來豐富數(shù)據(jù)集。
2)通過在ResNet50的Block中添加SE注意力機制的方式提高模型對病害區(qū)域的關(guān)注度,并使用合成圖像擴充且平衡各類別數(shù)據(jù)量后的數(shù)據(jù)集完成最終模型的訓(xùn)練。最終辣椒病害程度分級檢測模型在全為復(fù)雜背景圖像的測試集上的病害種類識別平均準(zhǔn)確率為91.05%,受害嚴(yán)重程度分級的平均準(zhǔn)確率為92.08%,識別精度高于原始ResNet50模型以及常見的AlexNet、GoogLeNet、VGG16、MobileNet_V2等經(jīng)典深度學(xué)習(xí)網(wǎng)絡(luò)。
參 考 文 獻(xiàn)
[1] 賈童童. 植物病蟲草害防治中生物技術(shù)的應(yīng)用分析[J]. 科教導(dǎo)刊(電子版), 2018(4): 253-254.
[2] 梁棟, 劉娜, 張東彥, 等. 利用成像高光譜區(qū)分冬小麥白粉病與條銹?。跩]. 紅外與激光工程, 2017, 46(1): 42-50.
Liang Dong, Liu Na, Zhang Dongyan, et al. Discrimination of powdery mildew and yellow rust of winter wheat using high-resolution hyperspectra and imageries [J]. Infrared and Laser Engineering, 2017, 46(1): 42-50.
[3] 馬超, 袁濤, 姚鑫鋒, 等. 基于HOG+SVM的田間水稻病害圖像識別方法研究[J]. 上海農(nóng)業(yè)學(xué)報, 2019, 35(5): 131-136.
Ma Chao, Yuan Tao, Yao Xinfeng, et al. Study on image recognition method of rice disease in field based on HOG+SVM [J]. Acta Agriculturae Shanghai, 2019, 35(5): 131-136.
[4] Aziz S, Bashir M, Mughal O, et al. Image pattem classification for plant disease identification using local tri-directional features [C]. 2019 IEEE 10th Annual Information Technology, Electronics and Mobile Communication Conference (IEMCON).IEEE, 2019.
[5] Jiang P, Chen Y, Liu B, et al. Real-time detection of apple leaf diseases using deep learning approach based on improved convolutional neural networks [J]. Ieee Access, 2019, 7: 59069-59080.
[6] Zhang S, Huang W, Zhang C. Three-channel convolutionalneural networks for vegetable leaf disease recognition [J]. Cognitive Systems Research, 2019, 53: 31-41.
[7] Arsenovic M, Karanovic M, Sladojevic S, et al. Solving current limitations of deep learning based approaches for plant disease detection [J]. Symmetry, 2019, 11(7): 939.
[8] Singh S, Gupta I, Gupta S, et al. Deep learning based automated detection of diseases from apple leaf images [J]. Computers, Materials amp; Continua, 2022, 71(1): 1849-1866.
[9] Liang Q, Xiang S, Hu Y, et al. PD2SE-Net: Computer-assisted plant disease diagnosis and severity estimation network [J]. Computers and Electronics in Agriculture, 2019, 157: 518-529.
[10] 萬軍杰, 祁力鈞, 盧中奧, 等. 基于遷移學(xué)習(xí)的 GoogLeNet 果園病蟲害識別與分級[J]. 中國農(nóng)業(yè)大學(xué)學(xué)報, 2021, 26(11): 209-221.
Wan Junjie, Qi Lijun, Lu Zhong’ao, et al. Recognition and grading of diseases and pests in orchard by GoogLeNet based on transfer learning [J]. Journal of China Agricultural University, 2021, 26(11): 219-221.
[11] Pratap V K, Kumar N S. High-precision multiclass classification of chili leaf disease through customized EffecientNetB4 from chili leaf images [J]. Smart Agricultural Technology, 2023, 5: 100295.
[12] 李西興, 陳佳豪, 吳銳, 等. 基于改進MaxViT的辣椒病害識別分類方法[J]. 華中農(nóng)業(yè)大學(xué)學(xué)報, 2024, 43(2): 123-133.
Li Xixing, Chen Jiahao, Wu Rui, et al. A method for identifying and classifying pepper diseases based on improved MaxViT [J]. Journal of Huazhong Agricultural University, 2024, 43(2): 123-133.
[13] Uzhinskiy A V, Ososkov G A, Goncharov P V, et al. One-shot learning with triplet loss for vegetation classification tasks [J]. Компьютерная оптика, 2021, 45(4): 608-614.
[14] GB/T 17980.34—2000, 農(nóng)藥田間藥效試驗準(zhǔn)則(一)殺菌劑防治梨黑星?。跾].
[15] Qin X, Zhang Z, Huang C, et al. U2-Net: Going deeper with nested U-structure for salient object detection [J]. Pattern recognition, 2020, 106: 107404.
[16] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation [C]. Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015: 18th International Conference, Munich, 2015: 234-241.
[17] Zhang L, Shen Z, Lin W, et al. U2 Net-based single-pixel imaging salient object detection [J]. Current Optics and Photonics, 2022, 6(5): 463-472.
[18] Wang L, Lu H, Wang Y, et al. Learning to detect salient objects with image-level supervision [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 136-145.
[19] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[20] Ioffe S. Batch normalization: Accelerating deep network training by reducing internal covariate shift [J]. arxiv preprint arxiv: 1502.03167, 2015.
[21] Olshausen B A, Anderson C H, Van Essen D C. A neurobiological model of visual attention and invariant pattern recognition based on dynamic routing of information [J]. Journal of Neuroscience, 1993, 13(11): 4700-4719.
[22] Hu J, Shen L, Sun G. Squeeze-and-excitation networks [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 7132-7141.
[23] Jaderberg M, Simonyan K, Zisserman A.Spatial transformer networks [J]. Advances in Neural Information Processing Systems, 2015, 28.
[24] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.