王晶 崔艷榮
doi:10.15889/j.issn.1002-1302.2024.10.031
摘要:為了對(duì)草莓病害進(jìn)行及時(shí)的診斷與治療而提升草莓產(chǎn)量,將深度學(xué)習(xí)與農(nóng)業(yè)生產(chǎn)結(jié)合以快速高效地進(jìn)行病害檢測(cè)。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)進(jìn)行病害識(shí)別時(shí)間較長(zhǎng),參數(shù)量較大,難以遷移到移動(dòng)端設(shè)備上,基于此提出一種改進(jìn)MobileNet v3-Small模型的識(shí)別方法。首先收集了7類常見草莓病害圖像樣本(如角斑病、葉斑病等),通過旋轉(zhuǎn)、鏡像等多種數(shù)據(jù)增強(qiáng)方式對(duì)圖像進(jìn)行處理以增加圖片數(shù)量,提高模型泛化能力。接著以MobileNet v3-Small模型為基礎(chǔ),基于原始Inception_A提出部分卷積權(quán)值共享的多尺度卷積結(jié)構(gòu),以更高效地提取草莓病害不同尺度特征。隨后,在網(wǎng)絡(luò)深層引入了ULSAM輕量級(jí)子注意力機(jī)制,形成草莓病害更高層次的抽象表示。同時(shí),將深度可分離卷積中的第2個(gè)PW卷積替換為CondConv卷積形成PDC結(jié)構(gòu),克服了PW卷積只擁有局部感受野的缺陷,同時(shí)也降低了模型參數(shù)量。試驗(yàn)結(jié)果表明,改進(jìn)后的MobileNet v3-Small模型準(zhǔn)確率達(dá)到98.62%,較原模型94.91%的準(zhǔn)確率提高了3.71百分點(diǎn),并且參數(shù)量減少了0.04 M,遠(yuǎn)優(yōu)于同級(jí)輕量化模型,且以遠(yuǎn)低于ResNet18的參數(shù)量取得更好的特征提取效果。綜上所述,本研究所提出的改進(jìn)后的MobileNet v3_Small模型能更好地在真實(shí)場(chǎng)景下進(jìn)行草莓病害識(shí)別,為草莓生產(chǎn)貢獻(xiàn)了一份力量,助力智慧農(nóng)業(yè)發(fā)展。
關(guān)鍵詞:草莓病害;圖像分類;MobileNet v3-Small;Inception_A;ULSAM輕量級(jí)子注意力機(jī)制;CondConv
中圖分類號(hào):S126;TP391.41? 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)10-0225-09
收稿日期:2023-11-22
基金項(xiàng)目:國(guó)家自然科學(xué)基金面上項(xiàng)目(編號(hào):62077018)。
作者簡(jiǎn)介:王? 晶(2000—),女,湖北鄂州人,碩士研究生,從事機(jī)器學(xué)習(xí)與人工智能研究。E-mail:410885413@qq.com。
通信作者:崔艷榮,博士,教授,從事網(wǎng)絡(luò)安全、信息處理研究。E-mail:cyanr@yangtzeu.edu.cn。
我國(guó)是世界上最大的草莓生產(chǎn)國(guó),同時(shí)也是第一大草莓消費(fèi)國(guó),草莓種植面積居全球第1位[1]。然而,草莓在種植過程中容易受到各種病害的影響,造成草莓的質(zhì)量和產(chǎn)量降低,故病害防治是防止草莓降產(chǎn)的重要途徑。
現(xiàn)有的草莓病害防治方法主要依賴于人工識(shí)別,通過研究人員的經(jīng)驗(yàn)對(duì)病害進(jìn)行檢測(cè),進(jìn)而采取有效措施。但這種檢測(cè)方法存在較大的弊端,會(huì)耗費(fèi)大量人力、物力資源且效率低下。隨著人工智能技術(shù)的迅速發(fā)展,將計(jì)算機(jī)技術(shù)應(yīng)用在農(nóng)作物病害識(shí)別領(lǐng)域已經(jīng)成為了研究熱點(diǎn)。學(xué)者們通過使用支持向量機(jī)(SVM)、K近鄰算法(KNN)、BP神經(jīng)網(wǎng)絡(luò)(BNN)等方法提高了對(duì)農(nóng)作物病害識(shí)別的準(zhǔn)確率與識(shí)別速率[2]。Liu等將主成分分析法(PCA)與支持向量機(jī)(SVM)相結(jié)合,在4類玉米葉片病害數(shù)據(jù)集上識(shí)別準(zhǔn)確率最高能達(dá)到95.78%[3]。Chaudhary等針對(duì)多類花生病害分類問題,提出了一種改進(jìn)的隨機(jī)森林分類器方法,分類準(zhǔn)確率達(dá)到了97.80%[4]。張開興等利用圖像處理技術(shù)和BP神經(jīng)網(wǎng)絡(luò)識(shí)別玉米葉部病害,平均識(shí)別率達(dá)到了93.4%[5]。雖然這些方法相比于人工檢測(cè)有了較大的改善,但實(shí)現(xiàn)往往需要經(jīng)過復(fù)雜的圖像預(yù)處理過程,且容易受到環(huán)境因素的影響,導(dǎo)致模型不能進(jìn)行很好的訓(xùn)練,模型泛化性較低[6]。
近年來,隨著人工智能技術(shù)的迅速發(fā)展,基于深度學(xué)習(xí)的農(nóng)作物病害識(shí)別方法得到了越來越多國(guó)內(nèi)外研究學(xué)者們的關(guān)注和青睞[7]。相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法,它能夠自動(dòng)提取病害特征,可以避免繁雜的圖像預(yù)處理過程。姚建斌等使用VGG16網(wǎng)絡(luò)通過遷移學(xué)習(xí)方式訓(xùn)練,最終在小麥病蟲害數(shù)據(jù)集上識(shí)別準(zhǔn)確率達(dá)到95%[8]。劉敏等利用深度可分離卷積對(duì)VGG16網(wǎng)絡(luò)進(jìn)行改進(jìn),與Swin Transformer網(wǎng)絡(luò)相結(jié)合,提出了一種多尺度特征融合網(wǎng)絡(luò),實(shí)現(xiàn)了蘋果葉片病害檢測(cè)93.98%的準(zhǔn)確率[9]。陳偉文等采用數(shù)據(jù)增強(qiáng)與隨機(jī)失活部分神經(jīng)元的方法對(duì)AlexNet網(wǎng)絡(luò)進(jìn)行改進(jìn),在Plant Village數(shù)據(jù)庫(kù)中選取10類番茄病害,識(shí)別準(zhǔn)確率達(dá)到95.8%[10]。熊夢(mèng)園等在ResNet50模型基礎(chǔ)上添加CBAM注意力機(jī)制與FPN特征金字塔網(wǎng)絡(luò),對(duì)玉米葉片病害的識(shí)別準(zhǔn)確率達(dá)到97.5%[11]。黃鋁文等將金字塔卷積與深度超參數(shù)化卷積相結(jié)合,提出一種深度超參數(shù)化金字塔卷積殘差網(wǎng)絡(luò),對(duì)7類草莓病害的識(shí)別準(zhǔn)確率達(dá)到97.867%[12]。Yu等提出一種基于殘差網(wǎng)絡(luò)的MSO-ResNet蘋果葉部病害識(shí)別模型,對(duì)5種葉部病害的平均識(shí)別精度達(dá)到了95.7%[13]。Ma等使用遷移學(xué)習(xí)方法訓(xùn)練一種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN),對(duì)6類草莓病害識(shí)別準(zhǔn)確率達(dá)到93.16%[14]。
雖然基于深度學(xué)習(xí)方法的農(nóng)作物病害識(shí)別解決了人工檢測(cè)和傳統(tǒng)機(jī)器學(xué)習(xí)方法的不足,能達(dá)到較高的識(shí)別準(zhǔn)確率和識(shí)別速度,但現(xiàn)有的針對(duì)草莓病害識(shí)別的深度學(xué)習(xí)方法也存在著一些不足之處:基于深度學(xué)習(xí)的方法大部分都采用的是傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別草莓病害,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)雖然識(shí)別準(zhǔn)確率高,但模型參數(shù)量較大,實(shí)用性差,難以在移動(dòng)端上部署;現(xiàn)有的草莓病害圖像數(shù)據(jù)較少,導(dǎo)致大模型沒有充足的數(shù)據(jù)訓(xùn)練;并且由于草莓病害具有多尺度的特點(diǎn),現(xiàn)有的草莓病害識(shí)別模型仍然有提升空間。
針對(duì)目前研究中存在的問題,本研究在MobileNet v3模型基礎(chǔ)上進(jìn)行改進(jìn),改進(jìn)后的模型能夠準(zhǔn)確識(shí)別草莓葉片及果實(shí)病害,并且改進(jìn)后的輕量化網(wǎng)絡(luò)容易部署在移動(dòng)端,及時(shí)準(zhǔn)確地檢測(cè)草莓病害,以期為農(nóng)業(yè)生產(chǎn)與發(fā)展提供智能化的解決方案。
1? 數(shù)據(jù)集來源及預(yù)處理
1.1? 數(shù)據(jù)集來源
本次試驗(yàn)所用數(shù)據(jù)來自Afzaal公開提供的草莓病害圖像[15]。該數(shù)據(jù)集是在真實(shí)的農(nóng)田與自然光照條件下多個(gè)溫室中采集到的圖像,以確保環(huán)境因素的多樣性。相比在實(shí)驗(yàn)室中采集的圖像,此數(shù)據(jù)集的背景更加復(fù)雜,包括背景改變、復(fù)雜的現(xiàn)場(chǎng)條件、不同的光照設(shè)置等,這些變化可以使得模型具有更高的容量、更強(qiáng)的魯棒性和可推廣性,且草莓病害經(jīng)過了領(lǐng)域?qū)<业尿?yàn)證,可靠性更強(qiáng)。選取該數(shù)據(jù)集中草莓葉片上的角斑病、葉斑病、白粉病、草莓花朵枯萎病以及草莓果實(shí)上的白粉病、灰霉病、炭疽病等7種草莓常見病害類別圖像共2 500張。部分草莓病害示例見圖1。
1.2? 數(shù)據(jù)預(yù)處理
圖像增強(qiáng)對(duì)克服數(shù)據(jù)樣本,尤其是針對(duì)數(shù)據(jù)集的局限性十分重要。通過圖像增強(qiáng)技術(shù)能夠擴(kuò)大現(xiàn)有小樣本數(shù)據(jù)集的規(guī)模,有助于提高模型的性能和泛化能力,增強(qiáng)模型的魯棒性,使模型更好地學(xué)習(xí)到數(shù)據(jù)的特征和變化模式,以提高模型在實(shí)際應(yīng)用中的表現(xiàn)。草莓病害原始數(shù)據(jù)集樣本過少,且各類別樣本數(shù)量極度不平衡,容易導(dǎo)致模型在訓(xùn)練時(shí)出現(xiàn)過擬合現(xiàn)象。為了提高模型的泛化能力,防止模型訓(xùn)練時(shí)過擬合,本研究對(duì)原始草莓病害數(shù)據(jù)集通過鏡像翻轉(zhuǎn)、高低對(duì)比度、高低亮度等多種常見數(shù)據(jù)增強(qiáng)方法進(jìn)行擴(kuò)增。經(jīng)過增強(qiáng)后的部分?jǐn)?shù)據(jù)見圖2。擴(kuò)增后的草莓病害共有22 500張圖像,將擴(kuò)增之后的數(shù)據(jù)集按照6 ∶2 ∶2劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,擴(kuò)增后數(shù)據(jù)集見表1。
2? 草莓病害識(shí)別模型構(gòu)建
2.1? MobileNet v3-Small模型
MobileNet是一系列輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)模型,主要用于在移動(dòng)端和嵌入式設(shè)備上進(jìn)行實(shí)時(shí)圖像識(shí)別和分類任務(wù)。MobileNet系列模型比起傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是參數(shù)量少、計(jì)算量較低、識(shí)別速度快,能夠更好地在移動(dòng)設(shè)備上實(shí)現(xiàn)高效的推理。MobileNet是輕量化網(wǎng)絡(luò)的開端,為后續(xù)輕量化網(wǎng)絡(luò)發(fā)展奠定了基礎(chǔ)。MobileNet共分為3個(gè)系列,MobileNet v3[16]是在MobileNet v1[17]和MobileNet v2[18]基礎(chǔ)上的進(jìn)一步改進(jìn)。
相比于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò),MobileNet v3主要有以下幾點(diǎn)貢獻(xiàn):(1)使用深度可分離卷積代替普通卷積,它由2個(gè)部分組成:深度卷積(depthwise,簡(jiǎn)稱DW)和逐點(diǎn)卷積(pointwise,簡(jiǎn)稱PW),深度卷積輸入的每個(gè)通道分別對(duì)應(yīng)1個(gè)卷積核,即每個(gè)輸入通道都有自己的1組卷積核,用于提取特征;逐點(diǎn)卷積使用1×1的卷積核對(duì)深度卷積的輸出進(jìn)行卷積,用于改變特征圖的深度以實(shí)現(xiàn)特征融合和維度變換。深度可分離卷積大大減少了模型的參數(shù)數(shù)量和計(jì)算量,使得模型比標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)更加小巧,內(nèi)存占用率更低。(2)在bneck中引入了SE注意力機(jī)制,通過顯式的建模特征通道之間的依賴關(guān)系來提高網(wǎng)絡(luò)的表示能力,核心思想是對(duì)卷積層特征通道進(jìn)行動(dòng)態(tài)性的加權(quán),強(qiáng)化特征圖中有用的特征并抑制不重要的特征。(3)對(duì)激活函數(shù)進(jìn)行了更新,將bneck中的swish激活函數(shù)換成h-swish,sigmoid激活函數(shù)換成h-sigmoid,提高了模型的非線性能力,更適合在移動(dòng)設(shè)備上高效運(yùn)算。(4)使用網(wǎng)絡(luò)架構(gòu)搜索NAS技術(shù)找到最優(yōu)的網(wǎng)絡(luò)層配置,以提高模型效率和性能。MobileNet v3模型的網(wǎng)絡(luò)單元結(jié)構(gòu)見圖3。
根據(jù)參數(shù)量和模型大小的不同,MobileNet v3分為Small和Large版本,為了更適合嵌入移動(dòng)端設(shè)備,本研究選用模型參數(shù)量和網(wǎng)絡(luò)層數(shù)更少的Small版本,網(wǎng)絡(luò)結(jié)構(gòu)見表2,草莓病害識(shí)別流程見圖4。
2.2? 多尺度特征提取模塊
Inception是由Google在GoogleNet中提出的一種神經(jīng)網(wǎng)絡(luò)架構(gòu)單元,是GoogleNet最核心的模塊[19]。原始的Inception模塊結(jié)構(gòu)見圖5。Inception模塊的主要思想是讓網(wǎng)絡(luò)自適應(yīng)地選擇不同尺寸的卷積核,能在同一卷積層內(nèi)捕獲不同尺寸信息,增加網(wǎng)絡(luò)的深度和寬度,從而增強(qiáng)模型對(duì)草莓病害圖像的多尺度特征提取能力。它是一種復(fù)合結(jié)構(gòu),在同一層內(nèi)并行地應(yīng)用不同尺寸的卷積核和池化操作。Inception模塊共包含4個(gè)并行組件:3×3卷積用于捕獲中等尺度的空間相關(guān)性;5×5卷積用于捕捉更大范圍內(nèi)的空間相關(guān)性;3×3最大池化用于提供另一種形式的空間抽象。最終,通過concat操作將卷積與池化之后得到的所有特征圖形成模塊地最終輸出,能夠捕捉到不同尺度的特征,但不同尺寸的卷積核和池化層同時(shí)也增加了網(wǎng)絡(luò)的復(fù)雜性。
Inception v4是Google對(duì)Inception v1至v3系列的改進(jìn)[20]。Inception_A模塊與原始的Inception模塊相比在降低了計(jì)算量的同時(shí)也增強(qiáng)了特征捕獲能力。如圖6所示,Inception_A模塊借鑒了ResNet的設(shè)計(jì),通過添加殘差連接來促進(jìn)更深的網(wǎng)絡(luò)訓(xùn)練,有助于解決深層網(wǎng)絡(luò)中梯度消失和爆炸問題[21]。Inception_A模塊將Inception模塊中的5×5卷積分解為2個(gè)連續(xù)的3×3卷積,在卷積之前使用1×1卷積降維的同時(shí)也能捕捉特征圖通道之間的局部相關(guān)性,在減少參數(shù)量和計(jì)算量的同時(shí)保持了相同的感受野,能夠有效處理草莓病害的多尺度問題。
2.3? ULSAM注意力機(jī)制
注意力機(jī)制模仿人類視覺系統(tǒng),能在復(fù)雜場(chǎng)景中找到顯著區(qū)域,并根據(jù)信息的重要程度分配有限的信息處理資源[22]。在深度學(xué)習(xí)領(lǐng)域,注意力機(jī)制被廣泛運(yùn)用在圖像檢測(cè)與識(shí)別領(lǐng)域。然而, 在處理大型輸入或模型時(shí),現(xiàn)有的注意力機(jī)制如SE[23]、ECA[24]、 CBAM[25]等通常會(huì)增加網(wǎng)絡(luò)的參數(shù)數(shù)量,
增加模型的復(fù)雜性而導(dǎo)致模型更難訓(xùn)練和優(yōu)化,同時(shí)也需要更精細(xì)的調(diào)參和更長(zhǎng)的訓(xùn)練時(shí)間。因此,本研究引入了一種ULSAM超輕量級(jí)子空間注意力機(jī)制,在不顯著增加模型參數(shù)的同時(shí)提高模型識(shí)別精度[26]。與傳統(tǒng)的注意力機(jī)制為所有通道生成單一的注意力圖不同,ULSAM為每個(gè)特征圖子空間單獨(dú)推斷注意力圖,通過學(xué)習(xí)對(duì)應(yīng)特征圖的每個(gè)子空間注意力圖來減少特征圖中的空間冗余與通道冗余,從而促進(jìn)模型的多尺度與多頻率特征學(xué)習(xí),使得模型更好地把草莓病害特征與復(fù)雜背景區(qū)分開來,對(duì)于細(xì)粒度圖像分類任務(wù)十分有效,ULSAM結(jié)構(gòu)見圖7。
具體的實(shí)現(xiàn)步驟如下:若輸入的特征圖為F∈Rm×h×w,其中m為特征圖的通道數(shù),h與w分別為特征圖的空間維度,ULSAM將F分成g個(gè)互斥的組,分別是[F1,F(xiàn)2,…,F(xiàn),…,F(xiàn)g],其中每個(gè)組有G個(gè)特征圖,定義F為中間一組特征圖, 每個(gè)子空間中的注意力圖A是由F推斷得出的注意力圖,A通過學(xué)習(xí)收集跨通道信息來捕捉特征之間的非線性依賴關(guān)系。經(jīng)過ULSAM處理之后的結(jié)果如下:
A=softmax〔PW1{maxpool3×3,1[DW1×1(F)]}〕;(1)
F⌒(AF)F;(2)
F⌒=concat([F⌒1,F(xiàn)⌒2,…,F(xiàn)⌒,…,F(xiàn)⌒g(shù)])。(3)
式中,表示逐點(diǎn)相乘;表示逐點(diǎn)相加;F⌒表示將各特征圖相連接之后的最終輸出。
2.4? 模塊
CondConv(conditional convolution)是一種條件卷積模塊,相比于傳統(tǒng)卷積能更好地提升模型尺寸和容量,提取草莓病害特征[27]。在傳統(tǒng)的卷積操作中,所有位置都共享相同的卷積核權(quán)重,故無論輸入數(shù)據(jù)的具體特征如何,在不同位置上學(xué)習(xí)到的特征表示都是相同的。CondConv通過引入條件參數(shù),使得卷積核的權(quán)重可以根據(jù)輸入數(shù)據(jù)的條件進(jìn)行自適應(yīng)調(diào)整,即每個(gè)卷積核都有一個(gè)對(duì)應(yīng)的條件參數(shù)向量,通過條件參數(shù)向量與輸入數(shù)據(jù)進(jìn)行運(yùn)算,生成動(dòng)態(tài)的卷積核權(quán)重,這樣模型就可以在不同位置和不同條件下學(xué)習(xí)到病害的不同特征表示。
CondConv結(jié)構(gòu)采用更細(xì)粒度的集成方式(圖8)。CondConv引入了1個(gè)條件參數(shù)生成器,用于根據(jù)輸入條件動(dòng)態(tài)生成卷積核的權(quán)重,針對(duì)不同條件輸入生成卷積核的權(quán)重,再將這些權(quán)重進(jìn)行加權(quán)減少卷積次數(shù),從而得到特定條件的特征表示。
具體步驟如下:將CondConv中的卷積核參數(shù)化為n個(gè)專家的線性組合,(α1W1+…+αnWn)×x可將卷積過程公式化為
Output(x)=σ[(α1W1+…+αnWn)×x]。(4)
式中,x為輸入;σ為激活函數(shù);α1,…,αn是x通過路由函數(shù)得到的權(quán)重標(biāo)量。其中路由函數(shù)定義為
r(x)=Sigmoid[GlobalAveragePool(x)R]。(5)
其中,R為x映射到n個(gè)權(quán)重標(biāo)量的權(quán)重矩陣,根據(jù)輸入的不同得到相應(yīng)的路由權(quán)重向量, 通過增加專家的數(shù)量可以擴(kuò)大CondConv的容量。
2.5? 改進(jìn)的MobileNet v3-Small模型
為了提高M(jìn)obileNet v3-Small模型對(duì)草莓病害的多尺度特征提取能力以及模型泛化性,本研究在MobileNet v3-Small模型基礎(chǔ)上進(jìn)行了改進(jìn)。
針對(duì)草莓病害圖像具有多尺度特征導(dǎo)致病癥難以準(zhǔn)確識(shí)別問題,在原有模型基礎(chǔ)上引入了Inception_A模塊,并且對(duì)Inception_A模塊進(jìn)行改進(jìn):本研究將Inception_A模塊第4個(gè)分支中的2個(gè)3×3卷積修改為1個(gè)3×3卷積,且其輸入來自于第3個(gè)分支的輸出,使得第4個(gè)分支與第3個(gè)分支共享同一個(gè)卷積,實(shí)現(xiàn)權(quán)重共享,同時(shí)在特征拼接完成后添加1×1卷積使得輸出通道數(shù)與下一層的輸入一致。由于局部特征具有平移不變性,相同的特征可以共享相同的權(quán)重,通過共享卷積層,能使模型在一定程度上避免重復(fù)學(xué)習(xí)類似的特征,在減少模型參數(shù)的同時(shí)也能提高泛化能力,改進(jìn)后的Inception_A結(jié)構(gòu)見圖9。將改進(jìn)后的Inception_A模塊添加到模型主干網(wǎng)絡(luò)第3個(gè)bneck后,第3個(gè)bneck的輸出特征圖尺寸為28×28×24,包含了更多的局部細(xì)節(jié)信息,如病害邊緣、紋理等,經(jīng)過改進(jìn)后的Inception_A模塊能更好地提取到草莓病害的不同尺度特征。
此外,由于MobileNet v3模型bneck中的SE注意力機(jī)制只關(guān)注到了通道間的信息,本研究在模型主干網(wǎng)絡(luò)的第8個(gè)和第9個(gè)bneck之間、最后1個(gè)bneck后引入U(xiǎn)LSAM注意力機(jī)制。在網(wǎng)絡(luò)深層引入U(xiǎn)LSAM注意力機(jī)制, 使模型整合低層次的特征,
形成更高層次的抽象表示。
為了提升MobileNet v3-Small模型容量的同時(shí)也不增加模型的復(fù)雜度,本研究在深度可分離卷積中引入了條件卷積模塊,改進(jìn)后的深度可分離條件卷積模塊相比傳統(tǒng)卷積利用動(dòng)態(tài)的方式更好地覆蓋病害樣本之間的關(guān)系,克服了常規(guī)卷積只擁有局部感受野的缺陷。本研究將深度可分離卷積倒殘差結(jié)構(gòu)中的第2個(gè)PW卷積替換為CondConv卷積形成PDC(PW-DW-CondConv)結(jié)構(gòu),改進(jìn)后的深度可分離條件卷積模塊見圖10。改進(jìn)后的MobileNet v3-Small結(jié)構(gòu)見圖11。
3? 結(jié)果與分析
3.1? 試驗(yàn)環(huán)境和參數(shù)設(shè)置
本研究使用的Python版本為3.6, 深度學(xué)習(xí)框
架為Pytorch1.10.2,CPU型號(hào)為12th Gen_Intel CoreTM i5-12500H,GPU型號(hào)為NVIDIA GeForce RTX 3050,操作系統(tǒng)為Windows11。
本試驗(yàn)采用SGD優(yōu)化器訓(xùn)練所有模型,訓(xùn)練輪數(shù)設(shè)置為100輪,批次大小為128,初始學(xué)習(xí)率設(shè)置為0.01,動(dòng)量值設(shè)置為0.7,采用余弦退火學(xué)習(xí)率更新策略。
3.2? 評(píng)價(jià)指標(biāo)
本研究采用Top-1準(zhǔn)確率(Accuracy)、平均精確率(Precision)、平均召回率(Recall)、平均F1得分(F1)、模型參數(shù)量用于評(píng)估改進(jìn)后的模型性能,以這些指標(biāo)為基準(zhǔn),列出模型混淆矩陣,展示分類模型在不同類別上的預(yù)測(cè)結(jié)果。TP表示模型將正樣本預(yù)測(cè)為正樣本的數(shù)量,F(xiàn)P表示模型錯(cuò)誤地將負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量,TN表示模型將負(fù)樣本預(yù)測(cè)為負(fù)樣本的數(shù)量,F(xiàn)N表示模型錯(cuò)誤地將正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量。其中Top-1準(zhǔn)確率表示模型正確預(yù)測(cè)的樣本比例,計(jì)算公式為Accuracy=TP+FNTP+TN+FP+FN;精確率表示預(yù)測(cè)為正例的樣本中被正確預(yù)測(cè)為正例的比例,計(jì)算公式為Precision=TPTP+FP,平均精確率是每個(gè)類別上精確率的平均值;召回率表示實(shí)際為正例的樣本中被正確預(yù)測(cè)為正例的比例,計(jì)算公式為Recall=TPTP+FN,平均召回率是每個(gè)類別上召回率的平均值;F1得分用于平衡精確率和召回率之間的權(quán)衡關(guān)系,計(jì)算公式為F1=2×precision×recallprecision+recall,平均F1得分是每個(gè)類別上F1得分的平均值。
3.3? 試驗(yàn)結(jié)果
3.3.1? 基于改進(jìn)MobileNet v3-Small的草莓病害識(shí)別
本研究模型是在MobileNet v3-Small的基礎(chǔ)上改進(jìn)得到的,由圖12和圖13可知,在訓(xùn)練輪數(shù)均為100輪的條件下,本研究改進(jìn)后的模型在驗(yàn)證集的準(zhǔn)確率更高,可達(dá)到98.29%,相比于改進(jìn)之前的95.06%提高了3.23百分點(diǎn),訓(xùn)練損失值由原來的0.005 8下降到0.000 9。由此可知,改進(jìn)后模型的訓(xùn)練曲線更加平穩(wěn),損失值下降更快。
3.3.2? 不同模型對(duì)識(shí)別效果的影響
為更好地驗(yàn)證本研究模型的識(shí)別效果,本研究對(duì)比了包括傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)和輕量化網(wǎng)絡(luò)在內(nèi)的各網(wǎng)絡(luò)模型,使得對(duì)比結(jié)果更具說服力。對(duì)比的模型有:MobileNet v3-Small模型、SqueezeNet1_1模型、ShuffleNet v2模型、ResNet18模型、AlexNet模型,對(duì)比結(jié)果見表3。
改進(jìn)后的MobileNet v3-Small模型在Top-1準(zhǔn)確率、平均精確率、平均召回率、平均F1得分4個(gè)評(píng)價(jià)指標(biāo)上都達(dá)到了最優(yōu),Top-1準(zhǔn)確率為98.62%,
平均精確率為98.16%,平均召回率為96.84%,平均F1得分為97.45%;與此同時(shí)參數(shù)量從1.53 M下降至1.49 M,各模型驗(yàn)證集準(zhǔn)確率見圖14。
3.3.3? 消融試驗(yàn)
本研究針對(duì)草莓病害識(shí)別,在MobileNet v3-Small模型基礎(chǔ)上進(jìn)行了3個(gè)方面的創(chuàng)新。為了驗(yàn)證這3個(gè)創(chuàng)新點(diǎn)對(duì)模型整體性能的影響,在控制變量的前提條件下進(jìn)行消融試驗(yàn),重新訓(xùn)練模型并導(dǎo)入最優(yōu)權(quán)重,消融試驗(yàn)結(jié)果見表4,改進(jìn)后模型的混淆矩陣見圖15。
從試驗(yàn)結(jié)果可以看出,與原模型相比,在分別添加改進(jìn)后Inception_A、ULSAM、CondConv替換PW后模型性能有所上升,當(dāng)其中2個(gè)創(chuàng)新點(diǎn)一起作用時(shí)模型效果變得更好,但當(dāng)3個(gè)創(chuàng)新點(diǎn)結(jié)合在一起作用時(shí),模型的識(shí)別效果才能達(dá)到最好。
4? 結(jié)論
針對(duì)真實(shí)種植場(chǎng)景下草莓病害圖像背景復(fù)雜的情況,本研究提出了一種改進(jìn)的MobileNet v3-Small輕量化模型,首先將改進(jìn)后的多特征提取模塊Inception_A添加到MobileNet v3-Small主干網(wǎng)絡(luò)的第3個(gè)bneck后,能夠較好地提取草莓病害不同尺度的特征;其次,在網(wǎng)絡(luò)深層引入了ULSAM輕量級(jí)子注意力機(jī)制,能夠形成草莓病害更高層次的抽象表示;最后,本研究將深度可分離卷積中的第2個(gè)PW卷積替換為CondConv卷積形成PDC結(jié)構(gòu),克服了PW卷積只擁有局部感受野的缺陷,與此同時(shí)也降低了模型參數(shù)量。試驗(yàn)結(jié)果表明,改進(jìn)后的MobileNet v3-Small模型能更好地識(shí)別草莓各類病害,與原模型相比,Top-1準(zhǔn)確率提高了3.71百分點(diǎn),平均精確率提高了5.96百分點(diǎn),平均召回率提高了6.43百分點(diǎn),平均F1得分提高了6.23百分點(diǎn),同時(shí)參數(shù)量減少了0.04 M。雖然改進(jìn)后模型相比原模型總體性能得到了提升,但仍有一些需要提升的地方,如進(jìn)一步優(yōu)化模型減少參數(shù)量,改進(jìn)主干網(wǎng)絡(luò)結(jié)構(gòu)提升準(zhǔn)確率等,以期更便捷高效地實(shí)現(xiàn)草莓病害檢測(cè)。
參考文獻(xiàn):
[1]劉? 暢,王? 曉,李憲松,等. 我國(guó)草莓生產(chǎn)態(tài)勢(shì)及國(guó)內(nèi)外比較分析[J]. 中國(guó)果樹,2023(7):136-140.
[2]麻劍鈞,劉曉慈,金龍新,等. 基于機(jī)器視覺的農(nóng)作物病害識(shí)別研究進(jìn)展[J]. 湖南農(nóng)業(yè)科學(xué),2023(9):97-100.
[3]Liu Z X,Du Z X,Peng Y,et al. Study on corn disease identification based on PCA and SVM[C]//2020 IEEE 4th Information Technology,Networking,Electronic and Automation Control Conference (ITNEC).Chongqing:IEEE,2020:661-664.
[4]Chaudhary A,Kolhe S,Kamal R. An improved random forest classifier for multi-class classification[J]. Information Processing in Agriculture,2016,3(4):215-222.
[5]張開興,呂高龍,賈? 浩,等. 基于圖像處理和BP神經(jīng)網(wǎng)絡(luò)的玉米葉部病害識(shí)別[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2019,40(8):122-126.
[6]蘇仕芳,喬? 焰,饒? 元. 基于遷移學(xué)習(xí)的葡萄葉片病害識(shí)別及移動(dòng)端應(yīng)用[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(10):127-134.
[7]何雨霜,王? 琢,王湘平,等. 深度學(xué)習(xí)在農(nóng)作物病害圖像識(shí)別中的研究進(jìn)展[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2023,44(2):148-155.
[8]姚建斌,張英娜,劉建華.基于卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的小麥病蟲害識(shí)別[J]. 華北水利水電大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,43(2):102-108.
[9]劉? 敏,周? 麗. 基于多尺度特征融合網(wǎng)絡(luò)的蘋果病害葉片檢測(cè)[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2023,44(8):184-190.
[10]陳偉文,鄺祝芳,王忠偉. 基于卷積神經(jīng)網(wǎng)絡(luò)的種苗病害識(shí)別方法[J]. 中南林業(yè)科技大學(xué)學(xué)報(bào),2022,42(7):35-43.
[11]熊夢(mèng)園,詹? 煒,桂連友,等. 基于ResNet模型的玉米葉片病害檢測(cè)與識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(8):164-170.
[12]黃鋁文,鄭? 梁,黃? 煜,等. 基于多尺度卷積與通道域增強(qiáng)的草莓病害識(shí)別方法[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(10):202-210.
[13]Yu H L,Cheng X H,Chen C C,et al. Apple leaf disease recognition method with improved residual network[J]. Multimedia Tools and Applications,2022,81(6):7759-7782.
[14]Ma L,Guo X L,Zhao S K,et al. Algorithm of strawberry disease recognition based on deep convolutional neural network[J]. Complexity,2021,2021:6683255.
[15]Afzaal U,Bhattarai B,Pandeya Y R,et al. An instance segmentation model for strawberry diseases based on mask R-CNN[J]. Sensors,2021,21(19):6565.
[16]Howard A,Sandler M,Chen B,et al. Searching for MobileNet v3[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019:1314-1324.
[17]Howard A G,Zhu M L,Chen B,et al. MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17)[2023-09-10].http://arxiv.org/abs/1704.04861.pdf.
[18]Sandler M,Howard A,Zhu M L,et al. MobileNet v2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4510-4520.
[19]Szegedy C,Liu W,Jia Y Q,et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:1-9.
[20]Szegedy C,Ioffe S,Vanhoucke V,et al. Inception-v4,inception-ResNet and the impact of residual connections on learning[C]. Proceedings of the? Thirty-First AAAI Conference on Artificial Intelligence.San Francisco:ACM,2017:4278-4284.
[21]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:770-778.
[22]皇甫曉瑛,錢惠敏,黃? 敏. 結(jié)合注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)綜述[J]. 計(jì)算機(jī)與現(xiàn)代化,2023(2):40-49,57.
[23]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7132-7141.
[24]Wang Q L,Wu B G,Zhu P F,et al. ECA-net:efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Seattle:IEEE,2020:11531-11539.
[25]Woo S,Park J,Lee J Y,et al. CBAM:convolutional block attention module[C]//European Conference on Computer Vision.Cham:Springer,2018:3-19.
[26]Saini R,Jha N K,Das B,et al. ULSAM:ultra-lightweight subspace attention module for compact convolutional neural networks[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV).Snowmass:IEEE,2020:1616-1625.
[27]Yang B,Bender G,Le Q V,et al. CondConv:conditionally parameterized convolutions for efficient inference[EB/OL]. (2019-04-10)[2023-09-11]. http://arxiv.org/abs/1904.04971.pdf.