馬維娣 吳欽木
摘要:針對(duì)傳統(tǒng)的蘋果樹葉病害識(shí)別模型準(zhǔn)確率低,參數(shù)數(shù)量多和移動(dòng)端部署困難的問題,提出了一種基于改進(jìn)輕量化網(wǎng)絡(luò)MobileViT的的蘋果樹葉病害識(shí)別方法。該網(wǎng)絡(luò)模型以MobileViT作為主干網(wǎng)絡(luò),高效編碼全局信息,同時(shí)引入MV2模塊編碼局部信息,將原MobileViT網(wǎng)絡(luò)結(jié)構(gòu)中的Swish激活函數(shù)替換為SMU激活函數(shù)提高網(wǎng)絡(luò)性能,并在全連接層后添加Dropout層防止數(shù)據(jù)過擬合。針對(duì)常見的多病癥葉片、銹病葉片等蘋果樹葉病害進(jìn)行識(shí)別。試驗(yàn)結(jié)果表明,改進(jìn)后的MobileViT相對(duì)于其他輕量級(jí)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率高,相對(duì)于重量級(jí)網(wǎng)絡(luò)更輕量、反應(yīng)更迅速,測(cè)試集識(shí)別的準(zhǔn)確率達(dá)到95.73%,參數(shù)數(shù)量所占顯存空間僅為5.6 MB,單張?zhí)O果樹葉病害圖片的響應(yīng)時(shí)間為4.32 ms。最終將模型部署在在移動(dòng)設(shè)備,落地實(shí)現(xiàn)成為可能。
關(guān)鍵詞:蘋果樹;病害識(shí)別;SMU;輕量級(jí);MV2;MobileViT
中圖分類號(hào):S126;TP391.41? 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)03-0229-08
中國是全球蘋果最大產(chǎn)區(qū),種植面積和產(chǎn)量超過世界的50%。蘋果的產(chǎn)量每年都會(huì)因?yàn)椴∠x的危害大大降低[1]?!笆奈濉蓖七M(jìn)農(nóng)業(yè)農(nóng)村現(xiàn)代化規(guī)劃的通知中提到聚焦智慧農(nóng)業(yè)、農(nóng)業(yè)綠色投入品等關(guān)鍵領(lǐng)域,加快研發(fā)與創(chuàng)新一批關(guān)鍵核心技術(shù)及產(chǎn)品。近年來,隨著大數(shù)據(jù)、深度學(xué)習(xí)的發(fā)展,蘋果種植人員利用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別病害,針對(duì)病害種類對(duì)癥下藥,提高產(chǎn)量和質(zhì)量[2]。Zhong等基于DenseNet-121深度卷積網(wǎng)絡(luò),提出利用回歸、多標(biāo)簽分類和焦點(diǎn)損失函數(shù)3種方法來識(shí)別蘋果葉片病害,準(zhǔn)確率達(dá)到92.29%[3];Chao等將DCNN模型結(jié)合DenseNet和Xception,使用平均池代替全連接層來提取特征,最后使用支持向量機(jī)對(duì)蘋果樹葉病害進(jìn)行分類,達(dá)到了98.82%的準(zhǔn)確率[4]。
以上研究雖然對(duì)于蘋果病害識(shí)別的準(zhǔn)確率達(dá)到90%以上,但是隨著準(zhǔn)確率的提高,模型的參數(shù)量和復(fù)雜度也在提高,對(duì)將模型部署到移動(dòng)設(shè)備造成困難,因此提高精度的同時(shí)對(duì)模型進(jìn)行壓縮,減少參數(shù)數(shù)量成為研究的趨勢(shì)。Wang等將注意力機(jī)制集成到EfficiencyNet-B4網(wǎng)絡(luò)中,使用深度可分離模塊進(jìn)行卷積運(yùn)算以減少參數(shù)數(shù)量,并引入 h-swish 激活函數(shù)實(shí)現(xiàn)快速識(shí)別,準(zhǔn)確率達(dá)到98.92%[5];Li等提出了一種新的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)RegNet,在學(xué)習(xí)率設(shè)置為0.0001時(shí),測(cè)試集的準(zhǔn)確率達(dá)到99.23%[6];Yu等在深度殘差網(wǎng)絡(luò)ResNet18的基礎(chǔ)上,通過分組卷積構(gòu)建多尺度特征提取層,實(shí)現(xiàn)壓縮模型,并通過引入通道注意力模塊(ECANet)來抑制復(fù)雜背景的噪聲,準(zhǔn)確率達(dá)到97.80%[7];以上研究模型大小雖然在一定程度上進(jìn)行了壓縮,但是單純的卷積神經(jīng)網(wǎng)絡(luò)因?yàn)楦惺芤坝邢藓茈y捕獲全局信息且網(wǎng)絡(luò)性能不穩(wěn)定,因此,研究一種模型更小、泛化能力更強(qiáng)且更益部署、網(wǎng)絡(luò)性能更穩(wěn)定的模型成為研究趨勢(shì)。
MobileViT是2022年發(fā)表在ICLR會(huì)議中的一種網(wǎng)絡(luò)模型[8],該網(wǎng)絡(luò)模型利用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)CNN與Vision Transformer[9]的優(yōu)勢(shì),將兩者進(jìn)行結(jié)合,是一種輕量級(jí)、通用的、響應(yīng)快以及針對(duì)移動(dòng)端更加友好的網(wǎng)絡(luò)模型。本研究以MobileViT網(wǎng)絡(luò)模型作為主干網(wǎng)絡(luò),提出基于改進(jìn)MobileViT的蘋果樹葉病害識(shí)別模型,讓深度學(xué)習(xí)技術(shù)更好地服務(wù)于智慧農(nóng)業(yè)的發(fā)展。
1 數(shù)據(jù)集構(gòu)建
1.1 數(shù)據(jù)集介紹
試驗(yàn)采用的蘋果葉片數(shù)據(jù)來自于Plant Pathology[10]提供的數(shù)據(jù)集。樹葉的采集是在康奈爾大學(xué)數(shù)字農(nóng)業(yè)研究中心的贊助支持下完成的,在樹葉不同成熟階段和一天中不同時(shí)間以及不同焦距相機(jī)設(shè)置下拍攝的葉片圖像,均可以用來反映真實(shí)的現(xiàn)場(chǎng)場(chǎng)景。數(shù)據(jù)集由行業(yè)專家標(biāo)注,本研究針對(duì)我國蘋果樹葉較為常見的病害:多病癥(complex)、銹?。╮ust)、黑星?。╯cab)、灰斑?。╢rogeye leaf spot)、白粉?。╬owdery mildew)以及健康葉片(healthy)進(jìn)行分類識(shí)別,各蘋果樹葉病害種類如圖1所示。其中健康葉片4 624張,銹病葉片 1 860 張,黑星病葉片4 824張,多病癥葉片1 602張,灰斑病葉片3 181張,白粉病葉片1 184張。
1.2 數(shù)據(jù)預(yù)處理
由于蘋果樹病害葉片的數(shù)量分布是不均勻的,為了得到具有泛化能力的模型,進(jìn)行數(shù)據(jù)增強(qiáng)處理。常見的數(shù)據(jù)增強(qiáng)技術(shù)有:翻轉(zhuǎn)(水平和垂直)、旋轉(zhuǎn)、縮放、裁剪、平移、亮度變換和添加高斯噪聲等。本試驗(yàn)通過垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、高斯模糊和亮度變換方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,數(shù)據(jù)增強(qiáng)后的效果如圖2所示。通過數(shù)據(jù)增強(qiáng)技術(shù)處理,擴(kuò)充后的蘋果樹葉數(shù)據(jù)集有健康葉片4 824張,銹病葉片 3 826 張,黑星病葉片5 125張,多病癥葉片3 572張,灰斑病葉片4 027張,白粉病葉片3 721張。
2 蘋果樹葉病害識(shí)別模型設(shè)計(jì)
2.1 MV2模塊
由于移動(dòng)設(shè)備的運(yùn)算能力和存儲(chǔ)能力有限,若將蘋果樹葉病害識(shí)別模型部署到移動(dòng)端,需要參數(shù)量較小的模型來滿足設(shè)備的資源設(shè)置。MV2(inverted residual block)模塊[11]通過深度可分離卷積降低模型參數(shù)以減少網(wǎng)絡(luò)規(guī)模,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。該網(wǎng)絡(luò)結(jié)構(gòu)首先通過1×1卷積進(jìn)行升維,然后通過3×3卷積進(jìn)行深度卷積(DW卷積),最后通過1×1卷積進(jìn)行降維(PW卷積),在最后1×1卷積降維操作后,由于輸出的是低維特征,故使用Linear線性激活函數(shù)。在卷積操作過程中,若卷積步長等于1(Stride=1)且輸入特征矩陣的維度與輸出特征矩陣的維度相同時(shí),需要進(jìn)行特征拼接。
該網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)于傳統(tǒng)卷積而言,假設(shè)輸入特征矩陣的高為H,寬為W,通道數(shù)為M,卷積核的大小為K,輸出特征矩陣的通道數(shù)為N,傳統(tǒng)卷積的計(jì)算量如式(1)所示,深度可分離卷積的計(jì)算量如式(2)所示,由式(3)可知,理論上傳統(tǒng)卷積的計(jì)算量是深度可分離卷積的K2倍,即3×3大小的卷積核的9倍,因此,利用深度可分離卷積代替普通卷積可大大減少參數(shù)量,從而減少模型占用內(nèi)存的空間,更有利于將模型部署。
F1=K×K×M×N×H×W;(1)
F2=K×K×M×H×W+M×N×H×W;(2)
F2F1=1N+1K2。(3)
2.2 MobileViT模塊
蘋果樹葉病害識(shí)別模型在降低模型大小的同時(shí)應(yīng)保證擁有較高的識(shí)別準(zhǔn)確率。但通過MV2模塊進(jìn)行卷積運(yùn)算只能提取病害的局部特征,為了得到較高的識(shí)別準(zhǔn)確率,可通過MobileViT模塊提取病害的全局信息。該模塊主要由普通卷積、Transformer[12]模塊、全局池化以及全連接層組成,如圖4所示。對(duì)于輸入的寬為W,高為H,通道數(shù)為C的特征圖表示為X[H,W,C],通過大小為3×3的卷積核進(jìn)行卷積操作,提取蘋果樹葉病害圖像特征,然后通過1×1的卷積放縮通道數(shù)為d,得到 X′[H,W,d]。其中,3×3卷積編碼X的局部空間信息,1×1卷積用于升維(d>C)。然后將X′[H,W,d]展開為序列X″[P,N,d]送入L個(gè)Transformer模塊中進(jìn)行并行運(yùn)算提取全局空間信息,輸出Y″[P,N,d],接著將得到的特征序列折疊成原特征圖 Y′[H,W,d],其中P=H×W,N=H×W/P,每個(gè)序列patch[P,1,d]有H×W個(gè)像素位置,共有N個(gè)patch。最后通過 1×1 的卷積再次調(diào)整通道數(shù),將Y″[H,W,d]調(diào)整為[H,W,C],并與X[H,W,C]進(jìn)行拼接(shortcut),通過3×3 的卷積進(jìn)行特征通道融合得到最終的特征圖Y。
MobileViT模塊中的Transformer能夠獲取更多需要關(guān)注蘋果樹葉病害的細(xì)節(jié)信息,而抑制其他無用信息。Layer Normalization操作能夠?qū)⑤斎氲奶卣餍畔⑦M(jìn)行標(biāo)準(zhǔn)化;接著通過多頭注意力機(jī)制(muti-head-attention)對(duì)不同的特征信息賦予不同的權(quán)重,將得到的特征信息與一開始輸入的特征信息進(jìn)行相加操作實(shí)現(xiàn)特征融合,再次進(jìn)行Layer Normalization操作,通過MLP模塊與Dropout層,將得到的特征信息與得到的融合特征信息再次進(jìn)行相加操作,實(shí)現(xiàn)特征融合。
2.3 SMU激活函數(shù)
激活函數(shù)在卷積操作運(yùn)算后將神經(jīng)網(wǎng)絡(luò)模型中的線性變換轉(zhuǎn)換為非線性變換,使網(wǎng)絡(luò)模型擁有更強(qiáng)的學(xué)習(xí)能力。
SMU(smooth maximum unit)函數(shù)于2022年被提出[13],可以平滑逼近一般的激活函數(shù),且最大函數(shù)在原點(diǎn)處不平滑,在網(wǎng)絡(luò)的訓(xùn)練和性能上均超越Swish函數(shù)[14],優(yōu)于廣泛使用的激活函數(shù),具有較好的泛化能力和穩(wěn)定的優(yōu)化能力。其計(jì)算公式如式(4)、式(5)所示。因此,為了提高模型的泛化能力、穩(wěn)定性以及蘋果樹葉病害識(shí)別的精度和速度,將原MobileViT模塊中的Swish激活函數(shù)替換為SMU激活函數(shù)。
fSMU(x,αx;μ)=(1-α)x+(1-α)x·erf[μ(1-α)x]2;(4)
erf(x)=2π∫x0e-t2dt。(5)
式中:α表示超參數(shù);μ表示可訓(xùn)練參數(shù);erf(x)表示高斯誤差函數(shù)。在蘋果樹葉病害模型訓(xùn)練時(shí)α的取值為0.25;μ通過調(diào)用Pytorch中的API實(shí)現(xiàn)前向傳播,初始值設(shè)置為1.0,通過微分自動(dòng)更新參數(shù)。
2.4 MobileViT網(wǎng)絡(luò)改進(jìn)
為了得到輕量、識(shí)別準(zhǔn)確率高且易于部署的蘋果樹葉病害識(shí)別模型。本研究在MobileViT網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,添加MV2,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示(↓2表示對(duì)特征圖進(jìn)行下采樣)。主干網(wǎng)絡(luò)由5個(gè)模塊組成,每個(gè)模塊由MV2、MobileViT組成。利用MV2提取局部特征,提供位置偏執(zhí),利用MobileViT block提取全局特征,各個(gè)模塊結(jié)構(gòu)參數(shù)如表1所示。將MobileViT模塊中的Swish激活函數(shù)替換為SMU激活函數(shù);并在網(wǎng)絡(luò)結(jié)構(gòu)的全連接層后添加Dropout層防止數(shù)據(jù)過擬合,最后通過SoftMax函數(shù)輸出蘋果樹葉病害結(jié)果的預(yù)測(cè)值。
3 試驗(yàn)結(jié)果分析與應(yīng)用
3.1 試驗(yàn)環(huán)境及相關(guān)配置
本試驗(yàn)是在實(shí)驗(yàn)室服務(wù)器運(yùn)行完成的,試驗(yàn)時(shí)間為2022年10月至2023年3月,環(huán)境配置如表2所示。
3.2 模型參數(shù)設(shè)置
對(duì)進(jìn)行數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)按照8 ∶2 的比例劃分為訓(xùn)練集和測(cè)試集。將圖片大小調(diào)整為256像素×256像素,劃分好的數(shù)據(jù)集送入蘋果樹葉病害識(shí)別模型進(jìn)行訓(xùn)練,訓(xùn)練迭代次數(shù)的大小設(shè)置為30,batch_size的大小設(shè)置為32,學(xué)習(xí)率通過使用余弦退火算法進(jìn)行動(dòng)態(tài)衰減,即通過余弦函數(shù)降低學(xué)習(xí)率,優(yōu)化器設(shè)置為Adam,損失函數(shù)設(shè)置為交叉熵?fù)p失函數(shù),改進(jìn)MobileViT網(wǎng)絡(luò)結(jié)構(gòu)中的Dropout設(shè)置為0.3。
3.3 評(píng)價(jià)指標(biāo)
為評(píng)價(jià)蘋果樹葉病害識(shí)別模型的可行性,采用準(zhǔn)確率(Accuracy)、參數(shù)數(shù)量、單張?zhí)O果樹葉病害圖片響應(yīng)時(shí)間作為模型的評(píng)價(jià)指標(biāo)。準(zhǔn)確率的計(jì)算公式如式(6)所示。其中 TP代表正確分類為正樣本的數(shù)量,TN代表正確分類為負(fù)樣本的數(shù)量,F(xiàn)N代表錯(cuò)誤分類為負(fù)樣本的數(shù)量,F(xiàn)P代表錯(cuò)誤分類為正樣本的數(shù)量。
Accuracy=TP+TNTP+FP+TN+FN。(6)
3.4 結(jié)果分析與對(duì)比
3.4.1 改進(jìn)后的MobileViT模型與原模型試驗(yàn)效果對(duì)比 為了驗(yàn)證改進(jìn)后的網(wǎng)絡(luò)模型是否得到了有效提升,與原MobileViT網(wǎng)絡(luò)模型進(jìn)行試驗(yàn)對(duì)比。在其他試驗(yàn)?zāi)P蛥?shù)設(shè)置保持一致的情況下,得到的驗(yàn)證集與測(cè)試集的準(zhǔn)確率與損失函數(shù)圖像如圖6所示。從準(zhǔn)確率變化曲線得知,訓(xùn)練集上2種模型的識(shí)別準(zhǔn)確率都在99%以上;測(cè)試集上改進(jìn)后的網(wǎng)絡(luò)模型識(shí)別的準(zhǔn)確率高于原模型,改進(jìn)后的網(wǎng)絡(luò)模型在第5代完全收斂,原網(wǎng)絡(luò)模型在第10代完全收斂。從損失函數(shù)變化曲線來看,訓(xùn)練集與測(cè)試集上改進(jìn)后的網(wǎng)絡(luò)模型的損失更接近0,改進(jìn)后的網(wǎng)絡(luò)模型的變化曲線有較小波動(dòng)且收斂速度較快 原網(wǎng)絡(luò)模型有較大波動(dòng)且收斂速度較慢。因此,本研究提出的改進(jìn)后的網(wǎng)絡(luò)模型相比原網(wǎng)絡(luò)模型擁有較強(qiáng)的魯棒性、穩(wěn)定性、識(shí)別準(zhǔn)確率和泛化能力。
3.4.2 改進(jìn)MobileViT模型與其他網(wǎng)絡(luò)模型效果對(duì)比 為了驗(yàn)證改進(jìn)后的MobileViT網(wǎng)絡(luò)模型的有效性,本研究選擇輕量級(jí)CNN模型、重量級(jí)CNN模型以及Transformer模型進(jìn)行試驗(yàn)對(duì)比,其中輕量級(jí)CNN模型包括MobileNet[15]、MobileNet v2、ShuffleNet[16]、ShuffleNet v2[17],重量級(jí)CNN模型包括VGG16[18]、ResNet-18[19]、DenseNet-121[20],Transformer模型包括ViT、ConViT[21]。各模型的評(píng)價(jià)指標(biāo)如表3所示,DenseNet-121模型在測(cè)試集的識(shí)別準(zhǔn)確率達(dá)到最高,高出改進(jìn)后的MobileViT網(wǎng)絡(luò)模型1.02百分點(diǎn),但同時(shí)參數(shù)量達(dá)到最高,是改進(jìn)后的MobileViT網(wǎng)絡(luò)模型參數(shù)量的3倍,對(duì)于內(nèi)存空間較小的移動(dòng)端并不適用;輕量級(jí)網(wǎng)絡(luò)模型ShuffleNet、ShuffleNet v2的參數(shù)量最小,但對(duì)圖片的識(shí)別率僅僅在92%左右,低于改進(jìn)后的MobileViT網(wǎng)絡(luò)模型3百分點(diǎn)左右;MobileNet v2模型單張圖片識(shí)別最快,但是識(shí)別準(zhǔn)確率較低。綜合考慮,改進(jìn)后MobileViT模型在保證模型較小的同時(shí)擁有較高的準(zhǔn)確率,能夠滿足移動(dòng)端的內(nèi)存大小和算力要求。
為了進(jìn)一步得到改進(jìn)后的MobileViT網(wǎng)絡(luò)模型與其他模型對(duì)6種蘋果樹葉識(shí)別的情況,11種網(wǎng)絡(luò)模型在測(cè)試集上對(duì)6種蘋果樹葉分類準(zhǔn)確率的混淆矩陣如圖7所示。按照8 ∶2的比例劃分訓(xùn)練集與測(cè)試集,測(cè)試集中6種蘋果樹葉的數(shù)量分別為健康965張,多病癥715張,黑星病1 025張,銹病765張,灰斑病805張,白粉病744張。對(duì)于健康葉片與多病癥葉片而言,2種葉片的特征較為明顯,但ShuffleNetV2網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確度最低,正確識(shí)別健康葉片僅為832張,其他網(wǎng)絡(luò)模型正確識(shí)別均接近900張;由于灰斑病和銹病的病斑特征具有某些相似性,11種網(wǎng)絡(luò)模型將小部分灰斑病錯(cuò)誤分類為銹病,對(duì)灰斑病與銹病正確識(shí)別的結(jié)果較低,但改進(jìn)后的MobileViT網(wǎng)絡(luò)模型相對(duì)于其他輕量級(jí)網(wǎng)絡(luò)模型而言,對(duì)灰斑病與銹病正確識(shí)別的結(jié)果較高,有效地驗(yàn)證了改進(jìn)后的MobileViT網(wǎng)絡(luò)模型能夠高效地編碼葉片的局部和全局信息,對(duì)蘋果樹葉病害圖片進(jìn)行有效識(shí)別。
3.4.3 消融試驗(yàn) 為了證明蘋果樹葉病害識(shí)別模型的改進(jìn)對(duì)性能的提高,分別對(duì)不同的改進(jìn)進(jìn)行消融試驗(yàn),共分為4組。以MobileViT作為主干網(wǎng)絡(luò),試驗(yàn)數(shù)據(jù)集和其他試驗(yàn)參數(shù)均保持不變,結(jié)果如表4所示,其中“√”表示添加,“×”表示未添加。由表4可以得知,在原網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上添加MV2模塊雖然導(dǎo)致參數(shù)量和識(shí)別時(shí)間有所提高,但是蘋果樹葉病害識(shí)別的準(zhǔn)確率提升了0.52百分點(diǎn);在全連接層添加Dropout層有效地提升了單張圖片的識(shí)別速度,將Swish激活函數(shù)替換為SMU激活函數(shù)在一定程度提高了識(shí)別的準(zhǔn)確率和單張圖片的識(shí)別速度;同時(shí)添加MV2、Dropout以及替換為SMU激活函數(shù)使網(wǎng)絡(luò)性能有了較大提升,使網(wǎng)絡(luò)具有較強(qiáng)的泛化能力。
3.5 蘋果樹病害識(shí)別移動(dòng)端設(shè)計(jì)及應(yīng)用
將訓(xùn)練好的改進(jìn)MobileViT模型通過Pytorch Mobile加速推理框架完成模型文件格式的轉(zhuǎn)換、模型的量化剪枝處理以及模型的加載;通過Android Studio開發(fā)工具、JDK和SDK完成UI界面設(shè)計(jì)和模型的調(diào)用與調(diào)試工作并運(yùn)行生成 .APK 文件。軟件調(diào)試使用的手機(jī)機(jī)型為小米9,其蘋果樹葉病害識(shí)別頁面如圖8所示,通過點(diǎn)擊上傳圖片按鈕或者通過掃一掃調(diào)用攝像頭完成蘋果樹葉圖片的識(shí)別,并將蘋果樹葉圖片的識(shí)別結(jié)果顯示在圖片下方。
4 結(jié)束語
為了滿足移動(dòng)端的內(nèi)存空間大小和算力要求,并同時(shí)提高識(shí)別準(zhǔn)確率和縮小識(shí)別時(shí)間,本研究基于蘋果樹葉病蟲害的特點(diǎn),提出了一種基于改進(jìn)輕量化網(wǎng)絡(luò)MobileViT的網(wǎng)絡(luò)模型。 該模型通過引入MV2模塊、SMU激活函數(shù),Dropout層對(duì)MobileViT進(jìn)行了改進(jìn),通過消融試驗(yàn)驗(yàn)證了不同改進(jìn)的必要性,在同一個(gè)數(shù)據(jù)集上與原網(wǎng)絡(luò)模型、其他網(wǎng)絡(luò)模型進(jìn)行對(duì)比試驗(yàn),結(jié)果表明,改進(jìn)后的MobileViT網(wǎng)絡(luò)模型在與重量級(jí)網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率相差僅為
1.02百分點(diǎn)的情況下由于其網(wǎng)絡(luò)模型的輕量性更易于部署在移動(dòng)端,其泛化能力和穩(wěn)定性均優(yōu)于其他網(wǎng)絡(luò),最終將模型部署在移動(dòng)端驗(yàn)證了改進(jìn)后MobileViT網(wǎng)絡(luò)模型的有效性和可行性,接下來的研究將針對(duì)更多復(fù)雜場(chǎng)景的數(shù)據(jù)進(jìn)行識(shí)別以及應(yīng)用到具體場(chǎng)景。
參考文獻(xiàn):
[1]霍學(xué)喜,劉天軍,劉軍弟,等.? 2020年度中國蘋果產(chǎn)業(yè)發(fā)展報(bào)告(精簡(jiǎn)版)[J]. 中國果菜,2022,42(2):1-6.
[2]郭文娟,馮 全,李相周. 基于農(nóng)作物病害檢測(cè)與識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)模型研究進(jìn)展 [J]. 中國農(nóng)機(jī)化學(xué)報(bào),2022,43(10):157-166.
[3]Zhong Y,Zhao M. Research on deep learning in apple leaf disease recognition [J]. Computers and Electronics in Agriculture,2020,168:105146.
[4]Chao X F,Sun G Y,Zhao H K,et al. Identification of apple tree leaf diseases based on deep learning models [J]. Symmetry,2020,12(7):1065.
[5]Wang P,Niu T,Mao Y R,et al. Identification of apple leaf diseases by improved deep convolutional neural networks with an attention mechanism [J]. Frontiers in Plant Science,2021,12:723294.
[6]Li L L,Zhang S J,Wang B. Apple leaf disease identification with a small and imbalanced dataset based on lightweight convolutional networks [J]. Sensors,2021,22(1):173.
[7]Yu H L,Cheng X H,Li Z Q,et al. Disease recognition of apple leaf using lightweight multi-scale network with ECANet [J]. Computer Modeling in Engineering & Sciences,2022,132(3):711-738.
[8]Mehta S,Rastegari M. Mobilevit:light-weight,general-purpose,and mobile-friendly vision transformer [EB/OL]. (2021-10-05) [2023-03-23]. https://arxiv. org/abs/2110.02178.
[9]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16x16 words:transformers for image recognition at scale [C]//Proceedings of the international conference on learning representations. Virtual Event:PMLR,2021:10096-10106.
[10]Thapa R,Zhang K,Snavely N,et al. The plant pathology challenge 2020 data set to classify foliar disease of apples [J]. Applications in Plant Sciences,2020,8(9):e11390.
[11]Sandler M,Howard A,Zhu M L,et al. MobileNetV2:inverted residuals and linear bottlenecks [C]//Proceedings of the IEEE conference on computer vision and patternrecognition. Salt Lake City,USA:IEEE,2018:4510-4520.
[12]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]//Proceeding of the 31st international conference on neural information processing systems. Long Beach,California,USA. New York:ACM,2017,30:5998-6008.
[13]Biswas K,Kumar S,Banerjee S,et al. SMU:smooth activation function for deep networks using smoothing maximum technique [EB/OL]. (2022-10-31) [2023-03-23]. https://arxiv. org/abs/2111.04682.
[14]Ramachandran P,Zoph B,Le Q V,et al. Swish:a self-gated activation function [EB/OL]. (2017-10-16) [2023-03-23]. https://arxiv. org/abs/1710.05941v1.
[15]Howard A G,Zhu M,Chen B,et al. Mobilenets:efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017-04-17) [2023-03-23]. http://arxiv. org/abs/1704.04861.
[16]Zhang X,Zhou X,Lin M,et al. Shufflenet:an extremely efficient convolutional neural network for mobile devices [C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City,USA:IEEE,2018:6848-6856.
[17]Ma N N,Zhang X Y,Zheng H T,et al. ShuffleNet V2:practical guidelines for efficient CNN architecture design [C]//Computer Vision-ECCV 2018:15th european conference. New York:ACM,2018:122-138.
[18]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2014-09-04) [2023-03-23]. https://arxiv. org/abs/1409.1556.
[19]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition [C]//Proceedings of 2016 conference on computer vision and pattern recognition(CVPR). Piscataway,NJ,USA:IEEE,2016:770-778.
[20]Huang G,Liu Z,Van Der Maaten L,et al. Densely connected convolutional networks [C]//Proceedings of 2017 conference on computer vision and pattern recognition(CVPR). Las Vegas:IEEE,2017:4700-4708.
[21]dAscoli S,Touvron H,Leavitt M L,et al. ConViT:improving vision transformers with soft convolutional inductive biases [EB/OL]. (2021-03-19) [2023-3-23]. https://arxiv. org/abs/2103.10697.