亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)輕量化網(wǎng)絡(luò)MobileViT的蘋果葉片病蟲害識別方法

2024-08-23 00:00:00梁倩倩陳勇崔艷榮

江蘇農(nóng)業(yè)科學(xué) 2024年14期

摘要：針對蘋果葉片病害識別準(zhǔn)確率低以及現(xiàn)有模型難以適應(yīng)真實(shí)復(fù)雜場景等問題，提出一種改進(jìn)的輕量化網(wǎng)絡(luò)——MobileViT_filter_FCN，以提高對蘋果葉片病害的識別準(zhǔn)確率，并使得模型可以適應(yīng)戶外的復(fù)雜光照及遮擋環(huán)境。首先收集5類常見蘋果葉片病害（如落葉病、褐斑病等）的圖像樣本，并利用多種數(shù)據(jù)增強(qiáng)技術(shù)對樣本數(shù)據(jù)進(jìn)行預(yù)處理（如水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)等），以增加樣本數(shù)據(jù)的多樣性并提高模型的泛化能力；接著利用傅里葉變換技術(shù)設(shè)計(jì)一個可學(xué)習(xí)的濾波器層Filter layer，替換原始MobileViT模型中的多頭注意力結(jié)構(gòu)，以降低圖片中的噪聲影響并提高模型性能；最后，在修改后的MobileViT 模型基礎(chǔ)上，利用深度卷積層和殘差結(jié)構(gòu)設(shè)計(jì)一種FCN結(jié)構(gòu)，結(jié)合該結(jié)構(gòu)增強(qiáng)模型對病害圖像的特征學(xué)習(xí)能力，進(jìn)一步提高模型性能。試驗(yàn)結(jié)果表明，改進(jìn)后的MobileViT_filter模型對蘋果葉片病害的平均識別準(zhǔn)確率達(dá)到97.73%，較原模型提高0.95百分點(diǎn)；在該基礎(chǔ)上加入FCN結(jié)構(gòu)后，平均識別準(zhǔn)確率達(dá)到98.03%，較原模型提高1.25百分點(diǎn)，同時參數(shù)量減少2.6 M。

關(guān)鍵詞：多頭注意力機(jī)制；圖像分類；輕量化網(wǎng)絡(luò)；蘋果葉片病害識別；Filter Layer

中圖分類號：TP391.41" 文獻(xiàn)標(biāo)志碼：A

文章編號：1002-1302（2024）14-0222-07

收稿日期：2023-08-27

基金項(xiàng)目：國家自然科學(xué)基金（編號：62077018）。

作者簡介：梁倩倩（2000—），女，湖北隨州人，碩士研究生，主要從事機(jī)器學(xué)習(xí)與人工智能研究。E-mail：1915812040@qq.com。

通信作者：陳勇，高級工程師，碩士生導(dǎo)師，主要從事WEB信息處理、人工智能應(yīng)用研究。E-mail：285527563@qq.com。

蘋果是一種常見的水果，是薔薇科蘋果屬植物的果實(shí)。中醫(yī)認(rèn)為蘋果具有生津止渴、潤肺除煩、健脾益胃、養(yǎng)心益氣等功效，并且酸甜適口，營養(yǎng)豐富，是老幼皆宜的水果之一［1］。我國是世界上蘋果種植面積最大，也是總產(chǎn)量最高的國家，蘋果產(chǎn)量約占世界總產(chǎn)量的55%。2015年我國蘋果種植總面積約為233.33萬hm2，蘋果總產(chǎn)量在4 000萬t以上，同比增產(chǎn)8%～10%［2］。蘋果病蟲害種類較多，嚴(yán)重危害蘋果種植的各個環(huán)節(jié)，影響蘋果的外觀、形態(tài)、口感和種植者的經(jīng)濟(jì)收入。長期以來，我國蘋果病蟲害防控以化學(xué)防控為主，而大量施用農(nóng)藥會導(dǎo)致環(huán)境質(zhì)量下降，土壤貧瘠，嚴(yán)重時還會危害人體健康［3］。

傳統(tǒng)的病害診斷主要依靠人眼觀察判斷，需要工作人員具備一定的病害知識儲備和經(jīng)驗(yàn)，具有主觀性強(qiáng)、準(zhǔn)確率低等缺點(diǎn)，容易導(dǎo)致誤診，進(jìn)而影響病害的及時防治，造成農(nóng)作物的產(chǎn)量損失［4］。近年來，隨著人工智能和計(jì)算機(jī)視覺技術(shù)的發(fā)展，深度學(xué)習(xí)在多領(lǐng)域都得到廣泛應(yīng)用，例如農(nóng)業(yè)［5］、醫(yī)學(xué)［6］、教育［7］等領(lǐng)域。深度學(xué)習(xí)和農(nóng)業(yè)結(jié)合，使得我國進(jìn)入智慧農(nóng)業(yè)［8］時代，農(nóng)作物病蟲害識別的效率也得到較大提升，人工智能技術(shù)逐漸取代傳統(tǒng)方法。然而，由于存儲空間和算力資源限制，神經(jīng)網(wǎng)絡(luò)模型在移動設(shè)備和嵌入式設(shè)備上的存儲與計(jì)算仍然面臨巨大的挑戰(zhàn)。目前提出的各種輕量級卷積神經(jīng)網(wǎng)絡(luò)模型，主要有SqueezeNet［9］系列、ShuffleNet［9-10］系列、MobileNet［11-12］系列。熊夢園等通過遷移學(xué)習(xí)方法，將預(yù)訓(xùn)練權(quán)重遷移到ResNet50中，并結(jié)合CBAM注意力機(jī)制，識別準(zhǔn)確率達(dá)到97.5%，相比ResNet50模型提升4.2百分點(diǎn)［13］。劉擁民等結(jié)合Mixup混合增強(qiáng)算法，在預(yù)處理階段對圖像特征信息進(jìn)行增強(qiáng)，并采用遷移學(xué)習(xí)在番茄葉片病害數(shù)據(jù)集上訓(xùn)練和優(yōu)化Swin Transformer模型，識別準(zhǔn)確率達(dá)到98.4%［14］。雷建云等在YOLO v4的基礎(chǔ)上引入PSA模塊取代原網(wǎng)絡(luò)中的卷積，并將CA模塊嵌入頸部網(wǎng)絡(luò)，在4種常見葡萄葉片病害數(shù)據(jù)集上的識別準(zhǔn)確率均值達(dá)到84.07%，較原YOLO v4算法提升4百分點(diǎn)［15］。

本研究基于PyTorch框架及MobileViT［16］網(wǎng)絡(luò)，對蘋果葉片病害數(shù)據(jù)集進(jìn)行分類，并對模型進(jìn)行相應(yīng)改進(jìn)，以更好地適應(yīng)真實(shí)環(huán)境。訓(xùn)練好的模型不僅可以部署在移動設(shè)備上，還可以在戶外場景下實(shí)時識別蘋果葉片病害，使果農(nóng)能夠及時采取措施，減少經(jīng)濟(jì)損失。

1 試驗(yàn)材料

1.1 數(shù)據(jù)來源

本試驗(yàn)采用的蘋果葉片病害數(shù)據(jù)集由西北農(nóng)林科技大學(xué)創(chuàng)建。該數(shù)據(jù)集的采集地點(diǎn)包括西北農(nóng)林科技大學(xué)白水蘋果試驗(yàn)站、洛川蘋果試驗(yàn)站、慶城蘋果試驗(yàn)站。數(shù)據(jù)集主要是在晴天條件下進(jìn)行采集的圖像，在陰雨天氣下采集的圖像占少部分，以增加數(shù)據(jù)集的多樣性。數(shù)據(jù)集涵蓋了5類常見蘋果葉片病害圖像數(shù)據(jù)，包括斑點(diǎn)落葉病、褐斑病、灰斑病、花葉病、銹斑病，樣例如圖1所示。

1.2 數(shù)據(jù)預(yù)處理

為了避免因樣本數(shù)據(jù)不足而導(dǎo)致網(wǎng)絡(luò)訓(xùn)練出現(xiàn)過擬合的情況，在開始訓(xùn)練之前，對蘋果葉片病蟲害圖像進(jìn)行數(shù)據(jù)增強(qiáng)。通過水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、亮度調(diào)整、對比度調(diào)整、飽和度調(diào)整等數(shù)據(jù)增強(qiáng)方式，對數(shù)據(jù)集進(jìn)行預(yù)處理，得到了包含蘋果葉片病理信息的數(shù)據(jù)集（表1）。數(shù)據(jù)增強(qiáng)不僅擴(kuò)充了數(shù)據(jù)集，還增加了訓(xùn)練樣本的多樣性。將該數(shù)據(jù)集按照9 ∶1的比例劃分為訓(xùn)練集和測試集。

2 試驗(yàn)方法

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

本研究基于輕量化網(wǎng)絡(luò)MobileViT進(jìn)行研究。MobileViT于2021年由蘋果公司提出，其初衷是為了設(shè)計(jì)出一款適合移動設(shè)備的網(wǎng)絡(luò)架構(gòu)，并兼顧輕量及通用的特點(diǎn)，MobileViT的結(jié)構(gòu)如圖2所示，整體由3個部分組成，分別為卷積層、MV2、MobileViT block。其中MV2是MobileNet v2中的逆殘差結(jié)構(gòu)模塊（部分含有向下箭頭表示使用了下采樣操作），而MobileViT block則是對傳統(tǒng)ViT［17］（Vision Transformer）模型的改進(jìn)，提出了將特征圖中的patch進(jìn)行拆分，再由Transformer［18］進(jìn)行處理并重新組合的思想。這樣能夠減少在多頭注意力中的計(jì)算量，使得模型更加高效及輕量化。圖3展示了蘋果葉片病害的識別流程。為進(jìn)一步降低模型的復(fù)雜性，提高其在實(shí)際應(yīng)用場景下的性能，本研究對MobileViT模型進(jìn)行了相應(yīng)改進(jìn)。

2.2 MV2結(jié)構(gòu)

MV2 （MobileNet v2）由Google公司于2018年提出，是專注于移動端或者嵌入式設(shè)備中的輕量級CNN網(wǎng)絡(luò)。相比于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)，在準(zhǔn)確率基本不變的前提下，能夠極大減少模型的參數(shù)與運(yùn)算量。圖4展示了其核心結(jié)構(gòu)，該模型的關(guān)鍵在于使

用深度可分離卷積［19］減少運(yùn)算量，并使用逆殘差操作提取圖片特征。

深度可分離卷積與普通卷積有很大不同。其流程可分為2個步驟：深度卷積與逐點(diǎn)卷積。在第1步深度卷積運(yùn)算中，每個卷積核只對應(yīng)輸入圖片的1個通道，即1個通道僅由1個卷積核進(jìn)行卷積。接著，為了保證生成的特征圖數(shù)量與輸入層通道數(shù)不同，并有效利用不同通道在相同空間位置上的特征信息，需要進(jìn)行逐點(diǎn)卷積來將這些特征圖組合生成新的特征圖。逐點(diǎn)卷積的運(yùn)算與普通卷積很相似，其卷積核大小為1×1×M，M為上一層的通道數(shù)，卷積核的數(shù)量與輸出特征圖的數(shù)量一致。圖5展示了常規(guī)卷積與深度可分離卷積的過程，假設(shè)輸入矩陣、輸出矩陣的深度分別為M、N，輸入矩陣、卷積核的大小分別為DF、Dk，那么普通卷積的計(jì)算量Cstd可表示為：

Cstd=Dk×Dk×M×N×DF×DF。

深度可分離卷積的計(jì)算量Csep可表示為：

Csep=Dk×Dk×M×DF×DF＋M×N×DF×DF。

兩者相除可得：Cstd/Csep=N+D2k。

如果卷積核大小為3×3，那么理論上普通卷積的計(jì)算量大概是深度可分離卷積的8～9倍。因此，使用深度可分離卷積能夠極大減少模型運(yùn)算量，加快模型的訓(xùn)練速度。

逆殘差結(jié)構(gòu)是殘差結(jié)構(gòu)［20］的變體，由圖6可見，左側(cè)為普通的殘差結(jié)構(gòu)，右側(cè)為MobileNet v2中的逆殘差結(jié)構(gòu)。殘差結(jié)構(gòu)中的順序是1×1卷積降維到3×3卷積再到1×1卷積升維，而倒殘差結(jié)構(gòu)中的順序正好相反，是1×1卷積升維到3×3 DW卷積再到1×1卷積降維。逆殘差結(jié)構(gòu)中基本上使用的都是ReLU6激活函數(shù)，但最后一個1×1的卷積層使用的是線性激活函數(shù)，這樣做不僅能夠降低高維信息在經(jīng)過激活函數(shù)之后的信息損失，還能使得模型在移動端的表現(xiàn)更優(yōu)秀。

2.3 MobileViT block結(jié)構(gòu)

由圖2可以發(fā)現(xiàn)，MobileViT block是MobileViT模型的核心組件，通過修改標(biāo)準(zhǔn)的ViT架構(gòu)，使得模型減少在計(jì)算Self-Attention時的運(yùn)算量，并降低圖像數(shù)據(jù)本身存在的大量數(shù)據(jù)冗余，使得模型更加輕量及高效。由圖7-a可知，標(biāo)準(zhǔn)的ViT模型首先將輸入圖片劃分成多個小塊（Patch），然后通過線性變換，將每個小塊映射成1個一維向量（視為1個Token）。接下來，模型會為每個Token添加位置編碼（可學(xué)習(xí)的參數(shù)），然后輸入到一系列的Transformer模塊中。在Transformer模塊內(nèi)，Token之間的關(guān)系會通過自注意力機(jī)制建模。最后一個全連接層會根據(jù)這些Token的表示，得到最終的預(yù)測輸出。

圖7-b為MobileVIT block的大致結(jié)構(gòu)。首先會使用1個卷積核大小為n×n（代碼中是3×3）的卷積層對特征圖進(jìn)行局部特征建模，然后使用1個1×1卷積層調(diào)整通道數(shù)。接下來通過展開操作將特征圖轉(zhuǎn)為序列結(jié)構(gòu)，輸入到Transformer模塊中進(jìn)行全局特征建模，Transformer處理后的特征圖通過折疊操作將其轉(zhuǎn)回原始形狀。之后使用1個1×1卷積層將通道數(shù)調(diào)回原始大小，然后通過捷徑分支，將這些特征與輸入特征圖按通道方向拼接。最后使用1個n×n（代碼中是3×3）卷積層對特征進(jìn)行融合，得到該模塊的最終輸出?？梢园l(fā)現(xiàn)，它是CNN與Transformer的混合架構(gòu)，而其與標(biāo)準(zhǔn)VIT結(jié)構(gòu)最大的不同是使用了展開與折疊操作。以通道數(shù)為1的特征圖為例，圖8展示了這一操作的具體步驟：首先將相同顏色的Token（圖中每個小方塊）展平在一個序列中，接著使用普通的自注意力模塊并行計(jì)算每個序列的注意力大小，最后折疊回原特征圖。假設(shè)每個塊的大小為2×2，在進(jìn)行自注意力計(jì)算的時候，每個token（即每個塊中的小顏色塊）只和自己顏色相同的token進(jìn)行注意力計(jì)算，這樣就達(dá)到減少計(jì)算量的目的。而原始的自注意力模塊是每個token與所有的token進(jìn)行注意力計(jì)算，如果設(shè)特征圖大小為H×W×C，其計(jì)算成本為O（HWC），而上述經(jīng)過拆分后的token只需與自身顏色相同的token進(jìn)行注意力計(jì)算，其計(jì)算成本為O（HWC/4），即理論上計(jì)算成本僅為原始的1/4，極大減少了模型的計(jì)算開銷。

2.4 傅里葉變換

研究人員已提出了各種不同的方法和技術(shù)以緩解卷積神經(jīng)網(wǎng)絡(luò)中的計(jì)算復(fù)雜性問題。在這些方法中，使用傅里葉變換成為一種加速網(wǎng)絡(luò)的新范式［21-22］。傅里葉變換在數(shù)字信號處理領(lǐng)域非常重要，也是本研究方法中的一個關(guān)鍵組成部分。本研究只考慮一維的離散傅里葉變換。假設(shè)有1個token序列{xn}，其中n∈［0，N-1），那么離散傅里葉變換將通過下面的公式把這個序列轉(zhuǎn)換到頻域：

xk=∑N-1k=0Xne-2πiNnk，0≤k≤N-1。

快速傅里葉變換是用于加速離散傅里葉變換計(jì)算的算法，最初由研究員庫利和圖基提出。它通過遞歸的方法重新表示原始序列中每個token的頻域信息，使得計(jì)算時間的復(fù)雜度降低到O（Nlog2N）。逆離散傅里葉變換同樣可以通過逆向快速傅里葉變換進(jìn)行加速。由于快速傅里葉變換可以將輸入信號轉(zhuǎn)換到頻域，更容易捕捉序列的周期性特征，所以它在數(shù)字信號處理領(lǐng)域被廣泛用于濾除噪聲信號。本研究將使用快速傅里葉變換來降低圖片序列中存在的噪聲特征影響，以提取出更有利的圖片特征。

2.5 可學(xué)習(xí)的濾波器模塊

由于Transformer中多頭自注意力機(jī)制在數(shù)據(jù)量較大時計(jì)算效率低下，嚴(yán)重影響模型性能，已有工作嘗試使用傅里葉變換進(jìn)行代替，并取得了不錯的效果。受前人的工作啟發(fā)［21-22］，本研究移除了MobileVIT block中Transformer部分的多頭自注意力模塊，并以快速傅里葉變換為基礎(chǔ)，設(shè)計(jì)了一組可學(xué)習(xí)的濾波器模塊。試驗(yàn)表明，該模塊不僅能使模型整體參數(shù)量減低，而且能夠提升模型的性能。圖9為改進(jìn)后的Transformer Encoder模塊及其包含的濾波器模塊的結(jié)構(gòu)示意，假設(shè)用E表示token序列經(jīng)過先前網(wǎng)絡(luò)得到的輸出，那么經(jīng)過 Embedding Layer之后的輸出可以表示為：

EI=Dropout（E+P）。

式中：P表示token序列對應(yīng)的位置編碼信息。在經(jīng)過Embedding Layer之后，模型會堆疊多個可學(xué)習(xí)的濾波器模塊進(jìn)一步提取序列特征。單個可學(xué)習(xí)的濾波器模塊一般包含2個部分，分別是濾波器層、前饋神經(jīng)網(wǎng)絡(luò)層。

在濾波器層中，模型會對頻域中每個維度的特征執(zhí)行濾波操作，接著使用殘差連接和層歸一化保證網(wǎng)絡(luò)的穩(wěn)定性。假設(shè)第l層得到的序列表征矩陣為Fl∈Rn×d（當(dāng)l=0時，F(xiàn)l=EI），首先使用快速傅里葉變換（FFT）將序列特征轉(zhuǎn)換為頻域：

Xl=FFT（Fl）∈Cn×d。

需要注意的是，得到的Xl是由復(fù)數(shù)所表示的矩陣，它表示了Fl的譜。然后可以通過乘以一個可學(xué)習(xí)的濾波器W∈Cn×d來調(diào)制譜線：

X～l=W·Xl。

式中：·表示元素點(diǎn)乘操作。W濾波器之所以是可學(xué)習(xí)的是因?yàn)樗梢酝ㄟ^Adam優(yōu)化器自適應(yīng)表示頻域中的任意濾波器，因此可以學(xué)到一組最優(yōu)的濾波參數(shù)。最后，采用逆快速傅里葉變換將調(diào)制后的譜線X～l轉(zhuǎn)換回時域并更新序列表示：

F～l←FFT-1（X～l）∈Rn×d

經(jīng)過快速傅里葉變換以及逆快速傅里葉變換之后，能夠有效減少原始數(shù)據(jù)中的噪聲，提取到更加精確的圖片特征。為避免梯度消失以及網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定問題，模型會執(zhí)行殘差連接和層歸一化操作：

F～l=LayerNorm［Fl+Dropout（F～l）］

在前饋神經(jīng)網(wǎng)絡(luò)層中，使用全連接層和ReLU激活函數(shù)進(jìn)一步使得提取到的特征具有非線性性質(zhì)，這一步計(jì)算可以定義為：

FFN（F～l）=［ReLU（F～lW1+b1）］W2+b2。

式中：W1、b1、W2、b2都是可訓(xùn)練的參數(shù)。接著，同樣添加殘差連接和層歸一化操作得到第l層可學(xué)習(xí)濾波器層的輸出。

2.6 MobileViT block_FNC結(jié)構(gòu)

針對MobileViT block結(jié)構(gòu)，除上述對Transformer部分進(jìn)行改進(jìn)外，本研究還提出一些其他措施用以提升模型性能并降低模型復(fù)雜度。圖10為修改后的MobileViT block示意圖。首先，在融合部分，得到的全局特征在經(jīng)過1×1卷積層之后，不再與輸入特征進(jìn)行融合，而是與經(jīng)過局部表示部分之后的特征進(jìn)行融合。此外，還將融合部分的3×3卷積層替換為1×1卷積層，這樣做的目的是簡化融合模塊。其次，在局部表示部分，不再使用普通3×3卷積，而是使用深度3×3卷積。關(guān)于深度卷積，在“2.2”節(jié)已經(jīng)詳細(xì)介紹，其目的就是為了降低模型的計(jì)算量。最后，為了解決網(wǎng)絡(luò)訓(xùn)練時出現(xiàn)的梯度消失或梯度爆炸問題，本研究同樣使用殘差連接方法，輸入特征會與融合部分得到的特征進(jìn)行相加，得到該模塊最后的輸出特征，以保證網(wǎng)絡(luò)的穩(wěn)定性。

3 結(jié)果與分析

3.1 試驗(yàn)環(huán)境

本研究所有試驗(yàn)均使用同一算力平臺Autodl，CPU型號為Intel Xeon Platinum 8255C @ 2.50 GHz，GPU型號為RTX 3090，顯存為24 G。使用的開發(fā)環(huán)境為Win 11，深度學(xué)習(xí)框架為PyTorch 1.11.0，Python環(huán)境3.8，Cuda 11.3。

本試驗(yàn)數(shù)據(jù)集的圖像尺寸為224×224，batchsize設(shè)置為32，模型一共迭代訓(xùn)練100次，模型訓(xùn)練過程中使用Adam優(yōu)化器。

3.2 評估指標(biāo)

本試驗(yàn)使用的評估指標(biāo)主要是平均準(zhǔn)確率、平均精確率、平均召回率、平均F1分?jǐn)?shù)。混淆矩陣是表示精度評價(jià)的一種標(biāo)準(zhǔn)格式，用n行n列的矩陣形式來表示。其中TP代表一個實(shí)例是正類并且也被判定為正類，F(xiàn)N代表一個實(shí)例本為正類但判定為假類。FP代表一個實(shí)例本為假類但被判定為正類，TN表示一個實(shí)例是假類并且也被判定成假類。準(zhǔn)確率是指所有的預(yù)測正確的樣本占總樣本的比重，Accuracy=（TP+TN）（TP+TN+FP+FN）；精確率也叫查準(zhǔn)率，即正確預(yù)測為正的樣本占全部預(yù)測為正的樣本的比例，Precision=TPTP+FP；召回率即正確預(yù)測為正的樣本占全部實(shí)際為正的樣本的比例，Recall=TPTP+FN；F1分?jǐn)?shù)權(quán)衡精確率和召回率，F(xiàn)1=2×Precision×RecallP+R。

損失函數(shù)會計(jì)算出預(yù)測值、真實(shí)值之間的差異值，也就是損失值。損失值越小，模型的魯棒性就越好。本試驗(yàn)使用的是分類問題中常見的交叉熵?fù)p失函數(shù)H（p，q）=-∑ni=1p（xi）ln［q（xi）］，其中概率分布p為期望輸出，概率分布q為實(shí)際輸出，H（p，q）為交叉熵。

對于輕量級模型來說，模型參數(shù)量也是評估模型的一個指標(biāo)，本研究借助thop方法來完成模型參數(shù)量與浮點(diǎn)運(yùn)算量的計(jì)算。為了能夠在移動端上部署應(yīng)用，本研究針對輕量化卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)，遵循盡量減少參數(shù)增加量的原則，以避免存儲和效率問題。

3.3 試驗(yàn)結(jié)果與分析

本研究對多個輕量化網(wǎng)絡(luò)模型進(jìn)行對比試驗(yàn)，以此驗(yàn)證MobileViT模型在蘋果葉片病害數(shù)據(jù)集上的性能。為了公平，所有網(wǎng)絡(luò)模型都在相同的超參數(shù)下進(jìn)行試驗(yàn)。由表2可知，MobileViT模型在 Top-1 準(zhǔn)確率上要優(yōu)于其他模型，其他指標(biāo)相差不大。

為了進(jìn)一步提高M(jìn)obileViT模型在真實(shí)場景下對蘋果葉片病害識別的準(zhǔn)確率，本研究提出了2個創(chuàng)新點(diǎn)，在控制變量的情況下進(jìn)行了消融試驗(yàn)，結(jié)果如表3所示。與原模型MobileViT相比，MobileViT_FCN各指標(biāo)數(shù)據(jù)都有所增長，平均準(zhǔn)確率達(dá)到了97.54%，精確率達(dá)到了97.57%；MobileViT_filter各指標(biāo)數(shù)據(jù)較原模型也有所增長，平均準(zhǔn)確率達(dá)到了97.73%；2個創(chuàng)新點(diǎn)合在一起之后總體的平均準(zhǔn)確率達(dá)到了98.03%，平均精確率達(dá)到了98.02%，并且參數(shù)量還有明顯下降，從 4.94 M 下降到2.34 M，減少了2.6 M。訓(xùn)練過程中的準(zhǔn)確率、損失值變化、混淆矩陣如圖11所示。

4 結(jié)論

為了提高蘋果葉片病害識別模型在真實(shí)場景中應(yīng)對復(fù)雜環(huán)境的能力，增強(qiáng)其泛化能力和魯棒性，提高識別準(zhǔn)確率，本研究對輕量化網(wǎng)絡(luò)MobileViT進(jìn)行改進(jìn)，引入Filter Layer層，并完成對

5類常見蘋果葉片病害的識別研究。試驗(yàn)結(jié)果顯示，改進(jìn)后的模型MobileViT_filter_FCN在適應(yīng)真實(shí)環(huán)境方面表現(xiàn)更出色，其特征學(xué)習(xí)能力得到了提升。相較于原始的MobileViT模型，改進(jìn)后的模型參數(shù)量減少了2.6 M，平均準(zhǔn)確率提高1.25百分點(diǎn)，平均精確率提高1.25百分點(diǎn)，平均召回率提高1.27百分點(diǎn)，平均F1分?jǐn)?shù)提高1.27百分點(diǎn)，驗(yàn)證了所進(jìn)行的改進(jìn)是有效的。

模型還存在一些不足，例如選取的病害種類較少、實(shí)時性不高等。后續(xù)真正投入使用時還將不斷完善模型，以達(dá)到更好的效果，為智慧農(nóng)業(yè)發(fā)展貢獻(xiàn)一份力量。

參考文獻(xiàn)：

［1］張立欣，張楠楠，張曉. 基于機(jī)器學(xué)習(xí)算法對蘋果產(chǎn)地的判別分析［J］. 激光與光電子學(xué)進(jìn)展，2022，59（4）：451-457.

［2］齊林艷. 淺析我國蘋果發(fā)展現(xiàn)狀及存在的問題［J］. 現(xiàn)代農(nóng)村科技，2016（22）：31-32.

［3］張文欣. 蘋果病蟲害綠色防控技術(shù)研究與應(yīng)用［J］. 種子科技，2023，41（11）：110-112.

［4］杜英杰，宗哲英，王禎，等. 農(nóng)作物病害診斷方法現(xiàn)狀和展望［J］. 江蘇農(nóng)業(yè)科學(xué)，2023，51（6）：16-23.

［5］封雨欣，梁少華，童浩. 基于對比學(xué)習(xí)的多肉植物分類識別方法研究［J］. 河南農(nóng)業(yè)科學(xué)，2023，52（7）：154-162.

［6］龔黎，李霞，方晗，等. 基于優(yōu)化卷積網(wǎng)絡(luò)Faster R-CNN自動檢測甲狀腺結(jié)節(jié)超聲圖像的研究［J］. 中國超聲醫(yī)學(xué)雜志，2023，39（2）：209-213.

［7］于書娟，盧小雪，趙磊磊. 教育人工智能變革的基本邏輯與發(fā)展進(jìn)路［J］. 當(dāng)代教育科學(xué)，2023（5）：40-49.

［8］皮衛(wèi). 人工智能技術(shù)與智慧農(nóng)業(yè)發(fā)展的全方位融合［J］. 棉花學(xué)報(bào)，2023，35（3）：251.

［9］Iandola F N，Han S，Moskewicz M W，et al. SqueezeNet：AlexNet-level accuracy with 50x fewer parameters and lt;0.5 MB model size［EB/OL］. ［2023-05-07］. https：//arxiv.org/abs/1602.07360.

［10］Zhang X Y，Zhou X Y，Lin M X，et al. ShuffleNet：an extremely efficient convolutional neural network for mobile devices［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City，UT，USA.IEEE，2018：6848-6856.

［11］Sandler M，Howard A，Zhu M L，et al. MobileNetV2：inverted residuals and linear bottlenecks［C］//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City，UT，USA.IEEE，2018：4510-4520.

［12］Howard A，Sandler M，Chu G，et al. Searching for MobileNetV3［EB/OL］. ［2023-05-07］. https：//arxiv.org/abs/1905.02244.

［13］熊夢園，詹煒，桂連友，等. 基于ResNet模型的玉米葉片病害檢測與識別［J］. 江蘇農(nóng)業(yè)科學(xué)，2023，51（8）：164-170.

［14］劉擁民，劉翰林，石婷婷，等. 一種優(yōu)化的Swin Transformer番茄葉片病害識別方法［J］. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào)，2023，28（4）：80-90.

［15］雷建云，葉莎，夏夢，等. 基于改進(jìn)YOLO v4的葡萄葉片病害檢測［J］. 中南民族大學(xué)學(xué)報(bào)（自然科學(xué)版），2022，41（6）：712-719.

［16］Mehta S，Rastegari M. MobileViT：light-weight，general-purpose，and mobile-friendly vision transformer［EB/OL］. ［2023-05-07］. https：//arxiv.org/abs/2110.02178.

［17］Dosovitskiy A，Beyer L，Kolesnikov A，et al. An image is worth 16x16 words：transformers for image recognition at scale［EB/OL］. ［2023-05-07］. https：//arxiv.org/abs/2010.11929.

［18］Vaswani A，Shazeer N，Parmar N，et al. Attention is all you need［EB/OL］. ［2023-05-07］. https：//arxiv.org/abs/1706.03762.

［19］Howard A G，Zhu M L，Chen B，et al. MobileNets：efficient convolutional neural networks for mobile vision applications［EB/OL］. ［2023-05-07］. https：arxiv.org/1704.04861.

［20］He K M，Zhang X Y，Ren S Q，et al. Deep residual learning for image recognition［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas，NV，USA.IEEE，2016：770-778.

［21］Chitsaz K，Hajabdollahi M，Karimi N，et al. Acceleration of convolutional neural network using FFT-based split convolutions［EB/OL］. ［2023-05-07］. https：//arxiv.org/abs/2003.12621.

［22］Lee-Thorp J，Ainslie J，Eckstein I，et al. FNet：mixing tokens with Fourier transforms［EB/OL］. ［2023-05-07］. https：//arxiv.org/abs/2105.03824.

江蘇農(nóng)業(yè)科學(xué)2024年14期

江蘇農(nóng)業(yè)科學(xué)的其它文章: 高效解磷菌RL-7的鑒定、解磷能力及促生效應(yīng); 川東丘陵區(qū)農(nóng)田土壤重金屬污染分析及生態(tài)風(fēng)險(xiǎn)評價(jià); 不同綠肥翻壓還田對土壤物理性狀的影響; 糖蜜與加密種植對水稻吸附Cd、Cu及對土壤微生物的影響; 高海拔牛糞的堆肥發(fā)酵對其營養(yǎng)成分、微生物組成及耐藥性基因ARG豐度的影響; 模擬干旱脅迫對4種油松根系真菌生長及生理特性的影響