楊森森,張 昊,興 陸,杜 勇
(東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,哈爾濱 150030)
雜草繁殖速度快,生長(zhǎng)周期短,會(huì)與早期生長(zhǎng)階段的作物競(jìng)爭(zhēng)光照、水分和營(yíng)養(yǎng)物質(zhì),若不及時(shí)控制,會(huì)對(duì)作物的產(chǎn)量和品質(zhì)造成嚴(yán)重影響[1]?;瘜W(xué)除草是目前農(nóng)戶使用最廣泛的除草方法[2],但其作業(yè)精度無(wú)法保證,會(huì)導(dǎo)致除草劑的嚴(yán)重浪費(fèi)和潛在的生態(tài)環(huán)境污染問(wèn)題。此外,大劑量的農(nóng)藥噴施會(huì)使部分雜草產(chǎn)生抗藥性,導(dǎo)致雜草難以被徹底清除[3-4]。因此,能夠精準(zhǔn)噴施作業(yè)的自動(dòng)除草系統(tǒng)成為研究的熱點(diǎn)[5]。基于計(jì)算機(jī)視覺(jué)技術(shù)的自動(dòng)雜草識(shí)別方法能夠提供準(zhǔn)確的田間雜草分布信息,是實(shí)現(xiàn)自動(dòng)化精準(zhǔn)除草作業(yè)的前提[6]。傳統(tǒng)的雜草自動(dòng)識(shí)別方法主要依靠手工設(shè)計(jì)的形狀、紋理等特征,通過(guò)結(jié)合支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型,取得了一定的效果[7-9]。由于人工設(shè)計(jì)的特征無(wú)法較好地表達(dá)雜草種類信息,這些方法只能在形態(tài)差異較大的數(shù)據(jù)樣本上表現(xiàn)良好,難以實(shí)際應(yīng)用于識(shí)別準(zhǔn)確率要求較高的田間除草作業(yè)。
卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在雜草識(shí)別上取得了較好的表現(xiàn)[10-11]。OLSEN 等構(gòu)建了包含多類別雜草的DeepWeeds數(shù)據(jù)集,用于訓(xùn)練InceptionV3 和ResNet-50 模型對(duì)雜草進(jìn)行識(shí)別,最高準(zhǔn)確率為95%[12]。AHMAD 等[13]評(píng)估了3 種流行模型的雜草識(shí)別性能,其中VGG-16 模型準(zhǔn)確率最高,達(dá)到98.9%。趙輝等[14]在DenseNet 網(wǎng)絡(luò)基礎(chǔ)上引入了通道注意力機(jī)制與DropBlock 正則化模塊,在玉米幼苗和伴生雜草的數(shù)據(jù)集上平均準(zhǔn)確率可達(dá)98.63%。王璨等[15]提出了一種基于雙重注意力語(yǔ)義分割網(wǎng)絡(luò)的玉米幼苗識(shí)別方法,并實(shí)現(xiàn)了玉米幼苗的精準(zhǔn)分割,該模型的平均交并比和平均像素識(shí)別準(zhǔn)確率分別達(dá)到了94.16%和95.68%。
上述基于深度學(xué)習(xí)的雜草識(shí)別方法識(shí)別精度良好,但模型參數(shù)和計(jì)算量較大,導(dǎo)致算法部署速度緩慢。因此部分工作者從模型輕量化的角度開(kāi)展了相關(guān)研究。其中,孫俊等[16]通過(guò)多尺度特征融合,利用空洞卷積與全局池化對(duì)AlexNet 模型進(jìn)行了改進(jìn),在大幅減少模型參數(shù)的同時(shí)保證了較高的雜草識(shí)別準(zhǔn)確率;亢潔等[17]提出了一種基于輕量網(wǎng)絡(luò)MobileNet 的雜草檢測(cè)模型,采用多尺度融合模塊和通道注意力機(jī)制SENet 提升小目標(biāo)檢測(cè)效果并進(jìn)行特征增強(qiáng)。在保證了檢測(cè)精度的同時(shí)大幅提高了檢測(cè)速度。以上通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上的改進(jìn),使模型能夠?qū)崿F(xiàn)精度與速度的平衡以滿足實(shí)際作業(yè)需求,但由于卷積得到的是局部性特征表達(dá),其網(wǎng)絡(luò)結(jié)構(gòu)難以同時(shí)學(xué)習(xí)到反映待識(shí)別主體形態(tài)與細(xì)節(jié)的全局性語(yǔ)義特征,從而造成外觀相似的不同雜草之間以及雜草與作物間的誤識(shí)。
近年來(lái),視覺(jué)Transformer 在多個(gè)視覺(jué)任務(wù)中取得了超過(guò)卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)[18-21]。視覺(jué)Transformer 將自注意力機(jī)制直接應(yīng)用于圖像塊序列從而捕獲圖像中的重要區(qū)域[22],同卷積神經(jīng)網(wǎng)絡(luò)相比能夠?qū)W習(xí)到更豐富的語(yǔ)義信息。得益于視覺(jué)Transformer 的優(yōu)秀性能,其在農(nóng)業(yè)領(lǐng)域也得到了廣泛關(guān)注。徐艷蕾等[23]將視覺(jué)Transformer和卷積網(wǎng)絡(luò)相結(jié)合,采用雙分支結(jié)構(gòu),分別提取全局特征和局部特征,實(shí)現(xiàn)了針對(duì)蘋果葉片的病害識(shí)別。也有學(xué)者將視覺(jué)Transformer 應(yīng)用于雜草識(shí)別研究上。王璨等[24]提出了基于位移窗口Transformer 網(wǎng)絡(luò)的雜草識(shí)別方法,使用改進(jìn)Swin transformer 作為主干網(wǎng)絡(luò)對(duì)交疊遮擋情況下的玉米和雜草目標(biāo)進(jìn)行識(shí)別,實(shí)現(xiàn)了玉米與雜草的精細(xì)分割。上述工作在識(shí)別準(zhǔn)確率上均表現(xiàn)優(yōu)秀,但由于自注意力機(jī)制的引入帶來(lái)了龐大的計(jì)算量以及模型對(duì)大規(guī)模訓(xùn)練數(shù)據(jù)的需求,需要更長(zhǎng)的訓(xùn)練時(shí)間和更多的計(jì)算資源,且在實(shí)際部署時(shí)識(shí)別速度較慢,無(wú)法滿足田間雜草識(shí)別的實(shí)時(shí)性要求。
為解決上述問(wèn)題,本研究提出了一種基于改進(jìn)MobileViT 網(wǎng)絡(luò)的輕量化田間雜草識(shí)別方法。MobileViT是一種適用于移動(dòng)設(shè)備的輕量級(jí)視覺(jué)Transformer[25],其結(jié)合了CNN 與ViT 的優(yōu)勢(shì),通過(guò)自注意力機(jī)制將卷積學(xué)習(xí)到的局部語(yǔ)義信息建模成全局語(yǔ)義信息,從而能夠在更少計(jì)算量的條件下學(xué)習(xí)到足夠好的圖像特征。同時(shí),由于MobileViT 中很好地融入了卷積的特性,其與ViT相比大幅減小了模型訓(xùn)練時(shí)對(duì)數(shù)據(jù)量的需求,更加適用于數(shù)據(jù)規(guī)模相對(duì)較小的雜草識(shí)別問(wèn)題。本研究通過(guò)卷積和MobileViT 模塊混合的結(jié)構(gòu)學(xué)習(xí)雜草圖像中具有辨別細(xì)微差異能力的細(xì)粒度特征,以期待獲得高準(zhǔn)確率與實(shí)時(shí)性的識(shí)別性能,為嵌入式實(shí)時(shí)系統(tǒng)中雜草識(shí)別方法的設(shè)計(jì)提供參考。
本研究采用公共雜草數(shù)據(jù)集Corn Weed[26]進(jìn)行模型訓(xùn)練與評(píng)估,以驗(yàn)證本研究提出的輕量化雜草識(shí)別方法的有效性。該數(shù)據(jù)集由玉米幼苗及其主要伴生雜草圖像組成,包括玉米幼苗及莎草、藜、刺兒菜、早熟禾共5 類5 998 張圖像。數(shù)據(jù)集中的作物與雜草樣本拍攝于不同的時(shí)間、光照與土壤環(huán)境下,均為農(nóng)田環(huán)境下具有復(fù)雜背景的雜草圖像,部分玉米幼苗及雜草圖像樣本如圖1 所示。
圖1 Corn Weed 數(shù)據(jù)集中部分玉米與雜草圖像示例Fig.1 Example images of maize and weed on Corn Weed Dataset
從圖1 中可以看到,早熟禾、玉米幼苗、莎草的圖像樣本間存在較大形態(tài)相似性,這對(duì)準(zhǔn)確區(qū)分這3 類的圖像樣本造成了一定的難度。
將數(shù)據(jù)集中不同尺寸圖像的分辨率統(tǒng)一轉(zhuǎn)換為256×256×3 以適應(yīng)模型的輸入大小。數(shù)據(jù)集的劃分遵循文獻(xiàn)[26]的設(shè)置,按照7:3 的比例劃分為訓(xùn)練集和測(cè)試集,其中玉米、莎草、藜和刺兒菜的訓(xùn)練集圖像數(shù)量為840 張,測(cè)試集圖像數(shù)量為360 張,早熟禾的訓(xùn)練集和測(cè)試集圖像數(shù)量為839 和359 張。各個(gè)類別的樣本分布均衡且數(shù)目充足,能夠滿足模型訓(xùn)練時(shí)對(duì)數(shù)據(jù)的需求,所以本研究未使用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)雜草及玉米幼苗圖像數(shù)據(jù)進(jìn)行擴(kuò)充。
為了保證模型在輕量化的同時(shí)能夠準(zhǔn)確地區(qū)分形態(tài)相似的雜草與玉米幼苗,本研究構(gòu)建了一種基于改進(jìn)MobileViT 網(wǎng)絡(luò)的輕量化雜草識(shí)別方法,該方法采用MobileViT 模塊和卷積混合結(jié)構(gòu)作為雜草特征提取網(wǎng)絡(luò),其中MobileViT 模塊包含自注意力機(jī)制,可建模雜草與玉米幼苗圖像中的長(zhǎng)距離語(yǔ)義信息,以捕捉更具辨別力的細(xì)粒度特征。標(biāo)準(zhǔn)卷積和深度可分離卷積可在學(xué)習(xí)局部信息的同時(shí)對(duì)特征圖下采樣形成多尺度特征,然后使用ECA 模塊進(jìn)一步加強(qiáng)對(duì)特征圖關(guān)鍵位置的關(guān)注,最終損失函數(shù)用于模型參數(shù)優(yōu)化,分類層負(fù)責(zé)輸出雜草的預(yù)測(cè)類別。本文方法在對(duì)原始MobileViT 網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)整的基礎(chǔ)上,引入了ECA 機(jī)制,以進(jìn)一步提高模型的識(shí)別能力,從而更好地實(shí)現(xiàn)了識(shí)別精度與速度的平衡。
MobileViT 模塊使用標(biāo)準(zhǔn)卷積與Transformer 機(jī)制分別學(xué)習(xí)特征圖中局部與全局信息,是本研究提出的輕量化雜草識(shí)別方法的核心,其結(jié)構(gòu)如圖2 所示。假設(shè)MobileViT 模塊的輸入特征圖X大小為H×W×C,(H為輸入特征圖的高度,W為輸入特征圖的寬度,C為輸入特征圖的通道數(shù)),3×3 大小的卷積核被用于建模特征圖中局部的空間信息,接下來(lái)1×1 大小的卷積將特征圖映射到更高的d維特征空間,以豐富卷積學(xué)習(xí)到的語(yǔ)義信息。
圖2 MobileViT block 結(jié)構(gòu)圖Fig.2 MobileViT block structure diagram
經(jīng)過(guò)兩次卷積操作后輸入特征圖X變換為大小相等的局部特征圖XL。然后將XL劃分為N個(gè)大小相等的圖像塊,每個(gè)圖像塊中包含P個(gè)像素,再將其展開(kāi)為一組大小為P×N×d的特征序列XU,以學(xué)習(xí)特征圖中全局語(yǔ)義信息,其中P=w×h,N=(H×W)/P(w和h是預(yù)設(shè)好的圖像塊的寬度和高度,d是特征維度),XU中不同圖像塊間相同位置的像素點(diǎn)特征通過(guò)連續(xù)的L組Transformer 模塊處理得到全局特征序列XG:
XG是經(jīng)過(guò)Transformer 模塊處理后得到的全局特征序列,大小為P×N×d,p是每個(gè)圖像塊中第p個(gè)位置的像素特征。不同于原始的視覺(jué)Transformer,MobileViT并未丟失圖像塊內(nèi)部像素與圖像塊之間的位置信息,所以,計(jì)算自注意力時(shí)不需要位置編碼來(lái)添加位置信息,之后將XG折疊得到特征圖XF,XF的大小為H×W×d,其中H、W與X的H、W相等,以上的展開(kāi)與折疊操作均通過(guò)Transpose 與Reshape 函數(shù)組合來(lái)實(shí)現(xiàn)。然后XF被1×1 大小的卷積映射到和MobileViT 模塊輸入特征圖X相同的維度C,此時(shí)XF的大小為H×W×C,可與輸入特征圖X并聯(lián)疊加成維度為2C的新特征圖,最后使用一個(gè)3×3 大小的卷積核融合并聯(lián)后的新特征圖,并將新特征圖維度映射回C。
MobileViT 模塊對(duì)全局信息學(xué)習(xí)的有效性如圖3 所示,圖中紅色像素點(diǎn)通過(guò)Transformer 與藍(lán)色像素點(diǎn)建立聯(lián)系,而藍(lán)色像素點(diǎn)已經(jīng)通過(guò)卷積與周圍的臨近像素建立了聯(lián)系,因此,XU(p)可以代表卷積所覆蓋的3×3 大小區(qū)域的局部語(yǔ)義信息,XG(p)則編碼了不同圖像塊間第p個(gè)位置的全局語(yǔ)義信息,也就是說(shuō)XG中每個(gè)像素均能對(duì)X中所有像素進(jìn)行編碼,本研究設(shè)置h=w=2從而保證MobileViT 模塊的有效感受野能夠覆蓋空間分辨率為H×W的輸入特征圖。
圖3 MobileViT 模塊中像素點(diǎn)之間關(guān)系Fig.3 Relationship between pixel points in the MobileViT block
本研究采用的雜草特征提取網(wǎng)絡(luò)基于原始的MobileViT 網(wǎng)絡(luò)結(jié)構(gòu),共包括5 個(gè)階段,如圖4 所示。算法輸入為RGB 三通道圖像。在階段1 部分,通過(guò)步長(zhǎng)為4 的4×4 卷積將256×256×3 大小的輸入圖片下采樣地映射成64×64×16 大小的特征圖以便于后續(xù)計(jì)算,然后,一個(gè)ECA 模塊被用于特征圖增強(qiáng);不同于原始MobileViT結(jié)構(gòu),本研究并未采用步長(zhǎng)為2 的3×3 卷積,這是因?yàn)樵趫D像被映射為特征圖的階段中,更大的卷積核與卷積步長(zhǎng)能更好地考慮到圖像中的冗余性[27]。本研究采用的ECA 模塊結(jié)構(gòu)如圖5 所示,ECA 模塊通過(guò)對(duì)特征圖中不同通道的交互實(shí)現(xiàn)重要特征的加強(qiáng)。在階段2 中,先將特征圖送入到兩個(gè)疊加的MobileNetv2 模塊中,在進(jìn)行下采樣的同時(shí)進(jìn)一步提取特征,與階段1 相同,階段2同樣使用ECA 模塊增強(qiáng)下采樣后的特征圖。階段3 由多組MobileViT 模塊和下采樣的MobileNetv2 模塊構(gòu)成,MobileViT 模塊負(fù)責(zé)在學(xué)習(xí)局部語(yǔ)義特征的同時(shí)捕捉到全局語(yǔ)義特征,MobileNetv2 模塊負(fù)責(zé)將特征圖下采樣并在通道上升維以形成多尺度的特征表達(dá)。階段4 和階段5 與階段3 功能上相同,但在MobileViT 模塊內(nèi)部的參數(shù)設(shè)置與MobileNetv2 模塊數(shù)量上有所不同?;诟倪M(jìn)MobileViT 的特征提取網(wǎng)絡(luò)內(nèi)部參數(shù)如表1 所示。
表1 基于改進(jìn)MobileViT 的特征提取網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Internal parameters of feature extraction network
圖4 基于改進(jìn)MobileViT 網(wǎng)絡(luò)的輕量化雜草識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Diagram of light-weighted weed recognition method based on improved MobileViT network
圖5 ECA 模塊結(jié)構(gòu)圖Fig.5 Efficient channel attention(ECA) module structure diagram
本研究使用了僅包含卷積、池化和全連接層的簡(jiǎn)單分類層以區(qū)分不同類別的雜草。如圖4 中分類層與損失函數(shù)部分所示,首先,通過(guò)1×1 大小的卷積對(duì)輸入特征圖的通道數(shù)進(jìn)行升維,隨后,使用全局平均值池化求得長(zhǎng)度為384 的特征編碼,然后送入線性分類層進(jìn)行最終分類。
交叉熵?fù)p失函數(shù)(Lcross)被用于本研究中輕量化雜草識(shí)別模型的參數(shù)優(yōu)化,計(jì)算式如下:
式中V為訓(xùn)練集中所有樣本的集合,Y為訓(xùn)練集中所有樣本真實(shí)標(biāo)簽的集合,n為數(shù)據(jù)集中樣本總數(shù),p(vi)為訓(xùn)練集中第i個(gè)樣本通過(guò)網(wǎng)絡(luò)得到的輸出。
本研究中所有網(wǎng)絡(luò)模型均在AI Studio 軟件環(huán)境下使用深度學(xué)習(xí)工具箱Paddle Paddle 進(jìn)行訓(xùn)練。硬件配置如下,內(nèi)存大小100 GB,CPU 型號(hào)為Intel(R) Xeon(R) Gold 6 148 CPU @ 2.40 GHz,顯卡型號(hào)為NVIDIA Tesla V100,顯存為32 GB。模型訓(xùn)練超參數(shù)設(shè)置如下,batch size 設(shè)置為64,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí)優(yōu)化器采用動(dòng)量為0.9 的SGD,訓(xùn)練本文方法和MobileViT 時(shí)優(yōu)化器選用AdamW[28],學(xué)習(xí)率均初始化為0.001,學(xué)習(xí)率變化策略為余弦退火,所有網(wǎng)絡(luò)模型訓(xùn)練時(shí)最大迭代次數(shù)為50。
本研究以識(shí)別準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、和F1 分?jǐn)?shù)4 個(gè)評(píng)價(jià)指標(biāo)[29]。為了衡量模型在實(shí)際部署時(shí)的性能,本研究還使用了推理時(shí)間毫秒(ms)作為評(píng)價(jià)指標(biāo),推理時(shí)間表示網(wǎng)絡(luò)模型在CPU上預(yù)測(cè)單張圖片所需要的時(shí)間。
為驗(yàn)證本研究提出的輕量化雜草識(shí)別方法的性能優(yōu)勢(shì),本研究訓(xùn)練了多個(gè)對(duì)比的卷積網(wǎng)絡(luò)模型,包括以往雜草識(shí)別研究中性能較好的VGG-16[30]、ResNet-50[31]、Dense-Net161[32]網(wǎng)絡(luò)模型,以及在輕量化圖像識(shí)別任務(wù)中表現(xiàn)出色的MobileNetv1[33]、MobileNetv2[34]、MobileNetv3[35]和ShuffleNet[36]網(wǎng)絡(luò)模型。對(duì)比試驗(yàn)中所有卷積網(wǎng)絡(luò)模型均使用在ImageNet 數(shù)據(jù)集的預(yù)訓(xùn)練模型上微調(diào)的方式進(jìn)行訓(xùn)練,本文方法由于較原始的MobileViT 做了部分改動(dòng),沒(méi)有可直接調(diào)用的預(yù)訓(xùn)練模型,故采用模型參數(shù)隨機(jī)初始化的方式從頭訓(xùn)練。選擇測(cè)試集中最高識(shí)別準(zhǔn)確率對(duì)應(yīng)輪次得到的模型作為最終模型,對(duì)比試驗(yàn)結(jié)果如表2 所示。
表2 不同模型雜草識(shí)別結(jié)果對(duì)比Table 2 Comparison of weed recognition results using different models
從表2 中可以看到,對(duì)于類別間形態(tài)相似的雜草識(shí)別,通用卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率明顯高于輕量化卷積神經(jīng)網(wǎng)絡(luò),而結(jié)合全局語(yǔ)義信息學(xué)習(xí)能力的本文方法識(shí)別效果要好于所有卷積神經(jīng)網(wǎng)絡(luò)模型,本文方法在識(shí)別準(zhǔn)確率、精準(zhǔn)度、召回率和F1 分?jǐn)?shù)上均為最高,識(shí)別準(zhǔn)確率99.61%,較通用卷積網(wǎng)絡(luò)DenseNet-161 模型提高了約0.5 個(gè)百分點(diǎn),較輕量化卷積網(wǎng)絡(luò)MobileNetv2 提高了1.78 個(gè)百分點(diǎn),表明本文方法具有較大的雜草識(shí)別性能優(yōu)勢(shì)。MobileNetv3 的識(shí)別準(zhǔn)確率率僅為91.55%,遠(yuǎn)不及MobileNetv2 的識(shí)別準(zhǔn)確率,可能的原因是MobileNetv3 的結(jié)構(gòu)是通過(guò)神經(jīng)網(wǎng)絡(luò)架構(gòu)在ImageNet 數(shù)據(jù)集上搜索得到的,并不適用于本研究的雜草識(shí)別任務(wù)。圖6 展示了不同雜草識(shí)別模型在測(cè)試集上識(shí)別結(jié)果的混淆矩陣,圖6a 為文獻(xiàn)[26]中GCN-ResNet-101 模型識(shí)別結(jié)果的混淆矩陣,圖6b 為本文方法識(shí)別結(jié)果的混淆矩陣。在圖6 中,對(duì)于玉米、莎草、早熟禾,本文方法的識(shí)別精度為99.44%、99.17%、99.72%,分別高于GCNResNet-101 模型2.34、1.97、1.52 個(gè)百分點(diǎn),在形態(tài)差異較大的藜上,本文方法的精度更是達(dá)到了100%。得益于全局語(yǔ)義信息的加入,本文方法也明顯地降低了玉米幼苗、莎草和刺兒菜之間的識(shí)別錯(cuò)誤率。以上結(jié)果表明本文方法能夠有效地學(xué)習(xí)到更具辨別能力的雜草細(xì)粒度特征,在區(qū)分自然場(chǎng)景下高相似度的作物與雜草上有更高的識(shí)別精度。
圖6 不同模型在Corn Weed 測(cè)試集上的混淆矩陣Fig.6 Confusion matrix of different models on Corn Weed test set
雖然通用卷積神經(jīng)網(wǎng)絡(luò)有良好的雜草識(shí)別精度,但由于其模型較為復(fù)雜且計(jì)算量龐大、并不適合部署在有實(shí)時(shí)性要求的田間雜草識(shí)別系統(tǒng)上;而輕量化卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別速度雖快,但是識(shí)別精度往往較低。本研究希望通過(guò)使用改進(jìn)MobileViT 網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)模型僅有較少參數(shù)的同時(shí)保持高的識(shí)別精度。為此,本文方法與主流卷積網(wǎng)絡(luò)的識(shí)別效率進(jìn)行了對(duì)比,以驗(yàn)證本文方法的有效性,結(jié)果如表2 所示。通過(guò)模型大小、準(zhǔn)確率、推理時(shí)間的對(duì)比結(jié)果可以看到,本文方法有著和輕量化卷積神經(jīng)網(wǎng)絡(luò)相近的識(shí)別速度,單張圖像推理時(shí)間僅為83 ms,能夠滿足除草作業(yè)的實(shí)時(shí)性要求,同時(shí),該方法的準(zhǔn)確率不僅高于具有其數(shù)倍模型大小與推理時(shí)間的DenseNet-161 通用卷積網(wǎng)絡(luò),且遠(yuǎn)高于MobileNetv2 輕量化網(wǎng)絡(luò)。本文方法通過(guò)卷積和Transformer 的巧妙結(jié)合,實(shí)現(xiàn)了識(shí)別精度與識(shí)別速度的權(quán)衡,能夠很好地應(yīng)用于田間雜草識(shí)別。
考慮到MobileViT 的原始結(jié)構(gòu)是針對(duì)ImageNet 數(shù)據(jù)集設(shè)計(jì),直接遷移到本文任務(wù)上可能存在模型結(jié)構(gòu)不適配的問(wèn)題,為此,本研究對(duì)MobileViT 網(wǎng)絡(luò)進(jìn)行了部分改進(jìn),在網(wǎng)絡(luò)的第一步卷積中采用了更大的步長(zhǎng)與卷積核,并通過(guò)ECA 模塊加強(qiáng)對(duì)特征圖中重要信息的關(guān)注。MobileViT 的原始網(wǎng)絡(luò)根據(jù)網(wǎng)絡(luò)的規(guī)模和參數(shù)量的不同分為MobileViT-S、MobileViT-XS 和MobileViTXXS,本文方法與3 個(gè)原始版本的MobileViT 網(wǎng)絡(luò)的識(shí)別性能比較結(jié)果如表3 所示。在表3 中可以看到,本文方法與MobileViT-S 有著相似的識(shí)別準(zhǔn)確率,但在單張圖像推理時(shí)間上明顯小于MobileViT-S,相較于MobileViT-XXS,本文方法在準(zhǔn)確率上提高了0.39 個(gè)百分點(diǎn),但由于本文方法參數(shù)設(shè)置是基于MobileViT-XS網(wǎng)絡(luò)的,因此推理時(shí)間略有增加。盡管如此,本文方法的推理速度仍足以滿足田間除草的實(shí)時(shí)性要求。
表3 本文方法與原始MobileViT 識(shí)別性能對(duì)比Table 3 Comparison of performance between our method and MobileViT
本文在Corn Weed 測(cè)試集每個(gè)類別中抽取一幅圖像,分別在MobileNetv2,DenseNet-161 與本文方法上使用梯度類激活映射方法[37]進(jìn)行可視化分析。為了獲得更好的可視化結(jié)果,在生成激活熱力圖時(shí)僅使用了正確的標(biāo)簽,對(duì)網(wǎng)絡(luò)模型最后一個(gè)卷積層輸出的特征圖求梯度以得到激活分布,并用熱力圖的形式將激活分布疊加在原圖片上呈現(xiàn),可視化結(jié)果如圖7 所示。
圖7 不同識(shí)別方法的可視化結(jié)果Fig.7 Visualization results of different methods
從可視化結(jié)果中能夠看到,本文算法可以很好地關(guān)注到圖像中雜草與玉米幼苗所在區(qū)域,與對(duì)比的卷積神經(jīng)網(wǎng)絡(luò)相比熱力圖覆蓋效果更加精準(zhǔn)。本文方法對(duì)早熟禾、莎草和玉米圖像可視化效果中,葉片、莖稈等關(guān)鍵部分有著較高的激活值,這對(duì)區(qū)分形態(tài)相似的雜草與作物有著顯著幫助。同時(shí),通過(guò)不同模型對(duì)藜的圖像可視化效果可以看到即使存在其他類別雜草的干擾,本文方法得到的整體熱力圖也能聚焦于藜所在的位置,而DenseNet-161 與MobileNetv2 未能準(zhǔn)確覆蓋到目標(biāo)區(qū)域。可視化結(jié)果表明,本研究提出的雜草識(shí)別方法能夠加強(qiáng)對(duì)重要雜草特征的提取,抑制對(duì)背景特征的提取,可以有效地解決農(nóng)田環(huán)境下的雜草識(shí)別問(wèn)題。
本小節(jié)旨在驗(yàn)證本文方法在實(shí)際農(nóng)田環(huán)境下的預(yù)測(cè)效果,使用本文方法對(duì)具有復(fù)雜背景的圖像進(jìn)行了識(shí)別以及試驗(yàn)對(duì)比。在實(shí)際田間環(huán)境下存在著多種干擾因素,如背景干擾,光照不均等,因此除了識(shí)別模型本身,往往還需要對(duì)目標(biāo)進(jìn)行預(yù)定位。預(yù)定位可以使用傳統(tǒng)的圖像處理技術(shù)或增加子網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)。本小節(jié)的試驗(yàn)是在統(tǒng)一的植株目標(biāo)預(yù)定位處理之后進(jìn)行的。本研究的數(shù)據(jù)采集地點(diǎn)位于黑龍江省哈爾濱市的東北農(nóng)業(yè)大學(xué)試驗(yàn)田,采集時(shí)間為2022 年5 月,主要集中在上午10:00 和下午03:00 進(jìn)行采集,以代表實(shí)際應(yīng)用場(chǎng)景中植株在不同生長(zhǎng)環(huán)境及光照條件下的狀態(tài)。為了更真實(shí)地模擬實(shí)際場(chǎng)景,拍攝時(shí)采用了不同的角度對(duì)植株進(jìn)行拍攝,并且設(shè)備到植株的距離在20~60 cm 內(nèi)隨機(jī)變化,以模擬實(shí)際作業(yè)時(shí)不同地形對(duì)數(shù)據(jù)采集的影響。采集類別包括早熟禾、藜、玉米、刺兒菜和莎草5 類。由于考慮到實(shí)際田間環(huán)境的復(fù)雜性,采集的數(shù)據(jù)涵蓋了不同天氣條件和作物生長(zhǎng)環(huán)境,測(cè)試圖像選取包括葉片交疊、背景雜亂等復(fù)雜區(qū)域的自然場(chǎng)景圖像。在本方法中,待檢測(cè)圖像首先通過(guò)預(yù)定位模塊,將玉米和其余雜草框選出來(lái),然后對(duì)預(yù)定位得到的植株,包括作物和雜草,分別使用不同的模型進(jìn)行分類對(duì)比。圖8 中展示了部分樣本圖像的預(yù)定位結(jié)果和不同模型的預(yù)測(cè)概率。
圖8 本文方法實(shí)際田間識(shí)別效果預(yù)測(cè)圖Fig.8 Predicted performance of the proposed method for field recognition
從圖8 中可以看出,本文方法的預(yù)測(cè)概率普遍高于DenseNet-161 網(wǎng)絡(luò)模型。其中圖8a 和圖8b 中背景顏色均與待識(shí)別目標(biāo)接近,本文方法不僅正確識(shí)別出目標(biāo),且對(duì)比DenseNet-161 網(wǎng)絡(luò)模型,在正確類別上的預(yù)測(cè)概率顯著提高。同時(shí),得益于自注意力機(jī)制的引入,即使在背景與待識(shí)別目標(biāo)外形接近且存在葉片重疊的情況下,本文方法也能準(zhǔn)確識(shí)別目標(biāo),并提高正確預(yù)測(cè)概率,這對(duì)于識(shí)別形態(tài)差異較小的田間雜草具有重要意義。在其余圖像上,本文方法同樣擁有更好的預(yù)測(cè)結(jié)果。未來(lái)的研究工作可以包括自主拍攝、預(yù)定位和分類模型的集成和改進(jìn)等方面,以進(jìn)一步提高田間雜草識(shí)別的性能。
為了在保證識(shí)別精度的前提下,提高實(shí)際田間環(huán)境中玉米與雜草識(shí)別的實(shí)時(shí)性,本研究提出了一種基于MobileViT 網(wǎng)絡(luò)的輕量化雜草識(shí)別方法,利用MobileViT網(wǎng)絡(luò)的全局信息學(xué)習(xí)能力可以捕捉到作物與雜草圖像中最具辨別力的區(qū)域。
1)在農(nóng)田環(huán)境下,該方法對(duì)玉米植株及其4 類伴生雜草的識(shí)別準(zhǔn)確率高達(dá)99.61%,對(duì)比表現(xiàn)最好的通用卷積網(wǎng)絡(luò)模型DenseNet-161,該方法的準(zhǔn)確率提高了約0.5 個(gè)百分點(diǎn),較輕量化卷積網(wǎng)絡(luò)模型MobileNetv2 準(zhǔn)確率提高了1.78 個(gè)百分點(diǎn)。本文方法能夠準(zhǔn)確地區(qū)分出形態(tài)較為相似的玉米幼苗與雜草,對(duì)比基于卷積神經(jīng)網(wǎng)絡(luò)的現(xiàn)有雜草識(shí)別方法優(yōu)勢(shì)顯著。
2)本文方法單幅圖像識(shí)別耗時(shí)僅為83 ms,能夠滿足實(shí)時(shí)性要求,相對(duì)于原始的MobileViT 結(jié)構(gòu),該方法在雜草識(shí)別精度和速度之間能夠更好地取得平衡??蔀橹悄艹菰O(shè)備提供高效的雜草分布信息指導(dǎo)。
3)通過(guò)可視化分析可以看到本文方法很好地關(guān)注到了圖像中葉片、莖稈等關(guān)鍵部分,進(jìn)一步驗(yàn)證了該方法的有效性和可解釋性。本文工作也驗(yàn)證了在復(fù)雜田間環(huán)境下使用改進(jìn)MobileViT 網(wǎng)絡(luò)進(jìn)行田間雜草識(shí)別的有效性,為真實(shí)農(nóng)業(yè)場(chǎng)景下的雜草識(shí)別提供了可行方案。