亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        卷積協(xié)同注意力模型下的作物幼苗與雜草識(shí)別

        2024-12-31 00:00:00閆可張聰陳新波成濘伸魏志慧
        江蘇農(nóng)業(yè)科學(xué) 2024年13期
        關(guān)鍵詞:特征提取雜草注意力

        摘要:在農(nóng)作物的雜草防治中,部分雜草與作物幼苗的形態(tài)相似且顏色相近,導(dǎo)致雜草不易被快速準(zhǔn)確識(shí)別。針對田間作物幼苗與雜草識(shí)別精度不高的問題,提出了一種卷積協(xié)同注意力模型(CCA-ViT)。該模型以視覺Transformer模型為基礎(chǔ),采用跨尺度金字塔架構(gòu),加強(qiáng)圖像淺層信息與深層語義的交互。為提高相似作物與雜草的特征判別能力,在特征提取網(wǎng)絡(luò)中構(gòu)建了卷積協(xié)同注意力機(jī)制,優(yōu)先關(guān)注葉片的紋理和邊緣細(xì)小特征,獲取局部信息注意力權(quán)重后協(xié)同全局特征進(jìn)行建模。并在全局建模前引入可移動(dòng)位置編碼捕獲感受野的同時(shí)降低模型的復(fù)雜度。將該模型用于識(shí)別小麥、玉米等6種作物幼苗與雀麥、豬殃殃等6種雜草上,識(shí)別準(zhǔn)確率比同類規(guī)模的視覺Transformer模型提高了1.91百分點(diǎn),達(dá)到了97.81%。同時(shí)該模型用于田間小麥和玉米幼苗的實(shí)際預(yù)測準(zhǔn)確率也能達(dá)到80%以上。體現(xiàn)出該模型可用于復(fù)雜背景下具有紋理細(xì)小特征的作物幼苗與雜草的識(shí)別,能夠?qū)π螒B(tài)相似、顏色相近的作物幼苗與雜草進(jìn)行有效區(qū)分。

        關(guān)鍵詞:作物幼苗與雜草識(shí)別;跨尺度金字塔架構(gòu);卷積協(xié)同注意力機(jī)制;可移動(dòng)位置編碼;Transformer模型

        中圖分類號(hào):S126;TP391.41" 文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1002-1302(2024)13-0188-09

        在農(nóng)作物生長過程中,田間雜草會(huì)與作物幼苗爭奪養(yǎng)分,影響作物進(jìn)行光合作用[1]。同時(shí),由于雜草繁殖速度快,若不及時(shí)發(fā)現(xiàn)并處理,會(huì)使幼苗出現(xiàn)生長緩慢和病蟲害等問題,進(jìn)而導(dǎo)致農(nóng)作物的質(zhì)量降低和產(chǎn)量減少。目前,解決上述問題的常用方法是使用化學(xué)農(nóng)藥進(jìn)行人工除草[2]。但因雜草的種類繁多且與部分農(nóng)作物幼苗形態(tài)相似,單靠肉眼無法快速精確地識(shí)別,只能大面積噴灑化學(xué)農(nóng)藥,但這樣更會(huì)危害周圍的生態(tài)環(huán)境和影響人體健康[3-4]。因此,自動(dòng)化識(shí)別雜草并對其精準(zhǔn)噴施作業(yè)成為研究的熱點(diǎn)。

        隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,許多學(xué)者將深度學(xué)習(xí)應(yīng)用在識(shí)別作物和雜草上[5-8]。王麗君等基于支持向量機(jī)(SVM)原理,提取葉片圖像的顏色、形狀和紋理特征對作物種類進(jìn)行識(shí)別[9]。劉彩玲于2016年構(gòu)建了交織PCANet卷積神經(jīng)網(wǎng)絡(luò)模型[10],使用主成分分析法對網(wǎng)絡(luò)各層權(quán)值進(jìn)行初始化后通過減小圖像分片向量構(gòu)成的矩陣重構(gòu)誤差來訓(xùn)練權(quán)值,并在網(wǎng)絡(luò)低層對特征進(jìn)行組合后稀疏連接至高層以提取圖像的整體性特征來對雜草進(jìn)行了識(shí)別。李彧等使用全卷積神經(jīng)網(wǎng)絡(luò)(FCN)對玉米田間雜草進(jìn)行識(shí)別分割[11]。但受卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取較小感受野的限制,這些方法的識(shí)別準(zhǔn)確率還有較大的提升空間。為了緩解上述卷積帶來的局限性,2020年Google團(tuán)隊(duì)嘗試將Transformer應(yīng)用到計(jì)算機(jī)視覺領(lǐng)域,提出了Vision Transformer(ViT)[12]。它不使用傳統(tǒng)的CNN,而是使用自注意力機(jī)制(self-attention)來實(shí)現(xiàn)特征提取。由于自注意力機(jī)制較卷積網(wǎng)絡(luò)來說可以獲得更大范圍的感受野,ViT在大型目標(biāo)圖像上的表現(xiàn)超過了當(dāng)時(shí)性能最佳的卷積神經(jīng)網(wǎng)絡(luò),許多研究開始著重對ViT進(jìn)行改進(jìn)使其更適用于各種應(yīng)用[13-16]。魯浪使用基于視覺Transformer的遷移學(xué)習(xí)方法對柑橘進(jìn)行分類[17],提高了分類的準(zhǔn)確率。徐勵(lì)興利用具有注意力機(jī)制的Transformer編碼器關(guān)注時(shí)序間數(shù)據(jù)特征的關(guān)系程度對玉米作物進(jìn)行有效識(shí)別[18]。

        上述研究表明,相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)而言,視覺Transformer模型在農(nóng)作物的識(shí)別研究上取得了更好的研究進(jìn)展,但依然沒有解決對形態(tài)相似、顏色相近的田間作物識(shí)別效果不佳的問題。針對上述問題,本研究提出了一種卷積協(xié)同注意力模型CCA-ViT。該模型首先采用跨尺度金字塔架構(gòu),對輸入圖像信息進(jìn)行動(dòng)態(tài)迭代,捕捉圖片像素位置信息的同時(shí)減少序列長度。針對部分作物幼苗葉片與雜草葉片形狀相似但紋理細(xì)節(jié)不同的特點(diǎn),本研究在特征提取網(wǎng)絡(luò)中構(gòu)造了卷積協(xié)同注意力機(jī)制(ConvCo-attention),優(yōu)先關(guān)注輸入信息中難以被注意到的局部和邊緣紋理細(xì)小特征,再將局部信息整合后進(jìn)行全局特征建模,用以捕獲圖片整體信息。這樣可以在減少模型復(fù)雜度的同時(shí),對作物幼苗葉片形態(tài)紋理和雜草進(jìn)行更精確的識(shí)別和區(qū)分。本研究使用該模型對12種作物幼苗與雜草進(jìn)行識(shí)別,驗(yàn)證該模型的有效性。

        1 材料與方法

        1.1 數(shù)據(jù)來源

        本研究所用的作物幼苗與雜草的數(shù)據(jù)集來源于Kaggle平臺(tái)上的Plant Seedlings Classification開源競賽數(shù)據(jù)庫,該數(shù)據(jù)庫包含多種農(nóng)作物幼苗與雜草的數(shù)據(jù)集。本研究從中選取了小麥、玉米、淡甘菊、薺菜、天竺葵、甜菜這6種作物幼苗和黑色沿階草、野芥、豬殃殃、繁縷、藜、雀麥這6種雜草共5 515張圖片進(jìn)行訓(xùn)練并測試模型,樣本信息如圖1所示。根據(jù)訓(xùn)練要求,將圖片大小統(tǒng)一調(diào)整為224像素×224像素后,按照訓(xùn)練集與驗(yàn)證集4 ∶1 的比例將數(shù)據(jù)集隨機(jī)劃分,其中,訓(xùn)練集用于模型的訓(xùn)練,驗(yàn)證集用于對模型的性能評估。劃分后的訓(xùn)練集有 4 417 張,驗(yàn)證集有1 098張。

        1.2 傳統(tǒng)的視覺Transformer模型

        視覺Transformer模型(ViT)是一種基于Transformer架構(gòu)的計(jì)算機(jī)視覺模型,它使用自注意力機(jī)制來實(shí)現(xiàn)特征提取。圖2所示為ViT模型的簡要結(jié)構(gòu)。對于一幅RGB圖像,ViT首先將該圖像矩陣劃分成一組大小相同的塊,對每個(gè)圖像塊應(yīng)用線性投影,將圖像塊的像素值轉(zhuǎn)換為一個(gè)可學(xué)習(xí)的向量表示。然后將這些向量和一組位置編碼一同輸入到由多個(gè)Transformer模塊堆疊組成的Transformer編碼器中,每個(gè)模塊包括一個(gè)多頭自注意力機(jī)制(multi-head self-attention)和一個(gè)前饋神經(jīng)網(wǎng)絡(luò)(feed forward network,F(xiàn)FN)。這些模塊同時(shí)對小塊向量進(jìn)行特征提取和組合,如式(1)所示,并生成一個(gè)代表整個(gè)圖像的特征向量。最后,該特征向量被輸入到一個(gè)全連接層中,通過softmax函數(shù)將其映射到不同的類別上。

        Atention(Q,K,V)=softmaxQKTdkV。(1)

        式中:Q、K、V分別表示Query、Key、Value。V表示輸入特征的向量,Q和K是計(jì)算權(quán)重的特征向量。對當(dāng)前的Query和所有的Key計(jì)算相似度,將這個(gè)相似度值通過Softmax層得到一組權(quán)重,根據(jù)這組權(quán)重與對應(yīng)Value的乘積求和得到Attention下的Value值。dk是防止內(nèi)積過大導(dǎo)致梯度不穩(wěn)定的縮放系數(shù)。

        ViT模型的特征提取過程依賴于自注意力機(jī)制,這種機(jī)制能夠?qū)W習(xí)到輸入序列中各個(gè)位置之間的依賴關(guān)系,從而能夠在不考慮輸入序列順序的情況下進(jìn)行特征提取。這種方法使得模型能夠?qū)θ痔卣鬟M(jìn)行建模。但這同樣也帶來了計(jì)算量大和缺乏局部表示能力的問題[19]。這一限制使視覺Transformer模型難以在細(xì)小特征識(shí)別方面發(fā)揮潛力,在作物精準(zhǔn)識(shí)別領(lǐng)域上,盡管Transformer的識(shí)別準(zhǔn)確率有所提升,但仍難以區(qū)分部分形態(tài)相似顏色相近的作物幼苗與雜草。

        1.3 卷積協(xié)同注意力模型(CCA-ViT)

        針對視覺Transformer模型存在的問題,本研究提出的CCA-ViT模型整體結(jié)構(gòu)如圖3所示,將ViT的柱狀結(jié)構(gòu)改為跨尺度金字塔架構(gòu)。在每一層中都先對圖像Token塊進(jìn)行空間下采樣,然后輸入到特征提取網(wǎng)絡(luò)中進(jìn)行特征提取,提取到的特征信息被重塑為二維映射后再作為下一層的輸入。特征提取網(wǎng)絡(luò)采用卷積協(xié)同注意力機(jī)制,通過多頭卷積對圖像局部信息產(chǎn)生注意力權(quán)重后[20],協(xié)同改進(jìn)的自注意力機(jī)制進(jìn)行全局特征建模,這樣在進(jìn)行全局信息提取之前,就能將注意力集中在圖像的局部和邊緣細(xì)節(jié)上。最后,在金字塔頂端的分類Token輸出上使用MLP(全連接層)來預(yù)測類別。下面將分別介紹跨尺度金字塔架構(gòu)、卷積協(xié)同注意力機(jī)制和可移動(dòng)位置編碼的內(nèi)容。

        1.3.1 跨尺度金字塔架構(gòu)

        由圖4可知,ViT為了滿足序列輸入將圖像分割為固定大小的圖像塊,使得其后續(xù)只能輸出單一尺度的特征圖,無法注意到不同尺度范圍的特征信息。為彌補(bǔ)這一不足,本研究采用了跨尺度金字塔架構(gòu)將輸入圖像淺層淺語義特征與深層強(qiáng)語義特征建模,通過3個(gè)不同尺度的卷積操作來逐層降低特征圖的尺寸,靈活捕捉像素之間的位置關(guān)系。具體操作如下:

        給定上一層xi-1∈RHi-1×Wi-1×Ci-1的二維圖像(或二維重塑的輸出Token)作為第i層的輸入,經(jīng)過二維卷積運(yùn)算后新Token映射xi∈RHi×Wi×Ci的高度和寬度如式(2)所示。

        Hi=Hi-1+2p-ks+1」,Wi=Wi-1+2p-ks+1」。(2)

        再將xi平鋪為HiWi×Ci大小,并通過層歸一化操作輸入到第i層的特征提取網(wǎng)絡(luò)中。第1層采用7×7的卷積核減少特征圖尺寸,使得第一次經(jīng)過特征提取網(wǎng)絡(luò)后重塑為token的數(shù)量減少。第2層和第3層都采用3×3大小的卷積核,對上一層輸出的圖像信息進(jìn)一步提煉細(xì)節(jié)特征。跨尺度金字塔架構(gòu)不僅可以使模型捕獲位置信息,還可以逐步減少序列長度和增加特征維度,實(shí)現(xiàn)空間下采樣和豐富的表達(dá)能力。

        1.3.2 卷積協(xié)同注意力機(jī)制

        識(shí)別特征對于分類識(shí)別任務(wù)至關(guān)重要,尤其在對作物幼苗與雜草進(jìn)行識(shí)別時(shí),部分幼苗與雜草的葉片形狀和顏色極其相近,使得分類網(wǎng)絡(luò)對目標(biāo)特征難以提取與區(qū)分。盡管自注意力機(jī)制能夠捕獲長距離依賴關(guān)系,但其往往會(huì)忽略局部信息中的重要細(xì)節(jié),尤其是當(dāng)這些信息與全局背景相矛盾時(shí)。這種局限性阻礙了根據(jù)葉片的細(xì)節(jié)紋理特征來正確識(shí)別作物和雜草。針對這一問題,本研究提出一種卷積協(xié)同注意力機(jī)制,將卷積局部處理的良好性能加入到特征提取中[21],有效解決了精細(xì)紋理特征的識(shí)別需求。

        圖5為卷積協(xié)同注意力機(jī)制中使用多頭卷積獲取局部注意力權(quán)重的過程。多頭卷積由分組卷積和逐點(diǎn)卷積組成,通過多頭卷積將輸入特征信息在通道維度上劃分為多頭形式從多個(gè)并行表示子空間捕獲信息,在不同位置共同關(guān)注來自不同表征子空間的信息,以實(shí)現(xiàn)有效的局部表征學(xué)習(xí)。采用高效的BatchNorm (BN)和ReLU激活函數(shù),進(jìn)一步加快推理速度。具體公式如下所示。

        MHConv(z)=Concat[Conv1(z1),Conv2(z2),…,Convh(zh)]WO。(3)

        式中:h表示將輸入特征信息劃分為h個(gè)并行表示子空間;WO表示促進(jìn)頭部之間信息交互的可訓(xùn)練參數(shù);Conv表示多頭卷積的單頭形式,定義如下。

        Conv(z)=W·(Tm,Tn)。(4)

        式中:Tm和Tn是輸入特征z中的相鄰Token。將可訓(xùn)練參數(shù)W與輸入token T{m,n}進(jìn)行內(nèi)積運(yùn)算,通過迭代優(yōu)化可訓(xùn)練參數(shù)W來學(xué)習(xí)局部接受域中不同Token之間的親和性。

        研究表明,Transformer在計(jì)算機(jī)視覺領(lǐng)域顯示出巨大的潛力,原因不僅是其具有基于自注意力的Token mixer模塊,同時(shí)還歸功于MetaFormer的范式結(jié)構(gòu)[22]。圖6所示為范式結(jié)構(gòu)的相關(guān)應(yīng)用,PoolFormer根據(jù)MetaFormer所提出的通用架構(gòu),使用簡單的pool(池化)操作代替了自注意力,達(dá)到了較好的效果。因此,本研究將多頭卷積應(yīng)用到通用的范式架構(gòu)中,多頭卷積學(xué)習(xí)到細(xì)節(jié)表征后通過MLP模塊中的全連接層來對特征向量進(jìn)行變換和映射,使得不同維度的信息能夠相互作用和融合,進(jìn)而協(xié)同自注意力對葉片特征進(jìn)行識(shí)別。

        1.3.3 可移動(dòng)位置編碼

        為了更好地服務(wù)于實(shí)際環(huán)境中的作物幼苗,避免局部特征產(chǎn)生的豐富細(xì)節(jié)注意力在線性投影過程中被壓縮或混合,降低模型對局部信息的感知能力。本研究使用深度可分離卷積(depthwise separable convolution)代替ViT的線性投影來捕獲感受野及其附近相鄰空間的位置信息[23],同時(shí)作為可移動(dòng)位置編碼將輸入信息送入Transformer模塊對全局信息進(jìn)行建模,圖7為可移動(dòng)位置編碼的結(jié)構(gòu)。ViT的線性投影依賴于圖像塊的像素值和大小,當(dāng)分辨率較高或者圖像塊較大時(shí),線性投影所轉(zhuǎn)換后的低維特征向量的參數(shù)量就會(huì)顯著增加,使訓(xùn)練和推理過程更加耗時(shí),同時(shí)轉(zhuǎn)換后的向量需要額外加入一個(gè)位置編碼獲取位置信息,所以需要既能捕獲位置信息又不顯著增加參數(shù)量的結(jié)構(gòu)來代替。深度可分離卷積可分為逐通道卷積(depthwise convolution)和逐點(diǎn)卷積(pointwise convolution)2個(gè)步驟,逐通道卷積僅在通道維度上進(jìn)行卷積操作,用以捕捉通道間的特征關(guān)系,而逐點(diǎn)卷積則在每個(gè)通道上應(yīng)用逐點(diǎn)乘積操作,可以保持特征圖的空間分辨率,提取局部特征。這種組合有效擴(kuò)大了感受野,增強(qiáng)模型對圖像中不同尺度和空間位置的特征感知能力,幫助模型更好地捕捉圖像中的細(xì)節(jié)和上下文信息,同時(shí)大幅減少了模型的參數(shù)量。

        2 結(jié)果與分析

        2.1 評價(jià)指標(biāo)

        本研究選取了圖像識(shí)別中常用的評估指標(biāo)對模型進(jìn)行評估,包括識(shí)別準(zhǔn)確率(Top1-Acc)、參數(shù)量、每秒幀數(shù)(frames per second,F(xiàn)PS)以及浮點(diǎn)運(yùn)算數(shù)(floating-point operations per second,F(xiàn)LOPs)。同時(shí)使用混淆矩陣和熱力圖深入了解模型的表現(xiàn)效果。

        識(shí)別準(zhǔn)確率是指分類正確的樣本數(shù)量與總樣本數(shù)量的比例,其計(jì)算公式表示為

        Acciracy=TP+FNTP+TN+FP+FN。(5)

        式中:TP(true positives)預(yù)測為正樣本,實(shí)際為正樣本的數(shù)量;

        FP(1 positives)預(yù)測為正樣本,實(shí)際為負(fù)樣本的數(shù)量;

        FN(1 negatives)預(yù)測為負(fù)樣本,實(shí)際為正樣本的數(shù)量;

        TN(true negatives)預(yù)測為負(fù)樣本,實(shí)際為負(fù)樣本的數(shù)量。

        每秒幀數(shù)(FPS)為評估模型的識(shí)別速度指標(biāo),表示模型在識(shí)別中每秒可以處理的圖片數(shù)量,F(xiàn)PS越大,模型的識(shí)別速度就越快,其計(jì)算公式表示為

        FPS=1T。(6)

        式中:T是指對單張圖像進(jìn)行識(shí)別所花費(fèi)的平均時(shí)間。

        參數(shù)量是指模型中需要學(xué)習(xí)的參數(shù)總數(shù),參數(shù)量越大,所需計(jì)算量越大。浮點(diǎn)運(yùn)算數(shù)是指模型執(zhí)行的浮點(diǎn)運(yùn)算的總數(shù),用于衡量模型的計(jì)算復(fù)雜度,浮點(diǎn)運(yùn)算數(shù)越多,計(jì)算成本越高。

        2.2 試驗(yàn)環(huán)境與配置

        本試驗(yàn)使用Pytorch 1.11.0框架,Win 10操作系統(tǒng),Python 3.7 版本,處理器為 4.0 GHz 的 Intel Core i5-12400F,GPU 為 NVIDIA GeForce RTX 3060。在試驗(yàn)過程中,根據(jù)顯卡性能和訓(xùn)練效果,將批量大?。╞atch size)設(shè)置為8,使用批量歸一化(Batch Normalization,BN)來加快模型的收斂速度。參數(shù)優(yōu)化器采用AdamW[24],初始學(xué)習(xí)率設(shè)置為0.02,迭代次數(shù)(epoch)設(shè)置為300次。此次試驗(yàn)于2023年6月6日在武漢輕工大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院東八402實(shí)驗(yàn)室完成。

        2.3 試驗(yàn)結(jié)果與分析

        為驗(yàn)證本研究提出的CCA-ViT模型對于相似作物幼苗與雜草的識(shí)別效果,使用“1.1”節(jié)中的數(shù)據(jù)集進(jìn)行消融試驗(yàn)和對比試驗(yàn),并使用評估指標(biāo)來驗(yàn)證模型的有效性。

        2.3.1 損失分析

        損失值是衡量模型預(yù)測值與實(shí)際值之間的差距或錯(cuò)誤程度的指標(biāo),損失值越低代表差距越小,識(shí)別效果越好。圖8為本研究模型訓(xùn)練集和驗(yàn)證集的損失變化曲線。可以看出,在25個(gè)迭代之前訓(xùn)練集和驗(yàn)證集的損失驟降,后續(xù)迭代開始逐漸趨于平穩(wěn),在200個(gè)迭代之后,訓(xùn)練集損失值穩(wěn)定在0.25左右,驗(yàn)證集損失值穩(wěn)定在0.3左右,說明模型訓(xùn)練結(jié)果較為理想。

        2.3.2 消融試驗(yàn)

        表1展示了CCA-ViT采用卷積協(xié)同注意力機(jī)制對目標(biāo)特征提取的性能效果。當(dāng)使用普通自注意力機(jī)制進(jìn)行特征提取時(shí),模型的參數(shù)量為20.0 M,準(zhǔn)確率為96.57%,改進(jìn)為卷積協(xié)同注意力機(jī)制后,模型的參數(shù)量增加了1.5 M,而準(zhǔn)確率提升了1.24百分點(diǎn)。這驗(yàn)證了卷積協(xié)同注意力機(jī)制對模型局部信息提取的有效性,可以在不增加過多參數(shù)量的同時(shí),提升模型分類的準(zhǔn)確度。

        表2展示了CCA-ViT分別使用原始線性投影與位置編碼以及使用本研究提出的可移動(dòng)位置編碼的不同性能比較。相較于改進(jìn)前的ViT,使用可移動(dòng)位置編碼后,參數(shù)量上升了0.1 M,F(xiàn)LOPs下降了0.11 G,準(zhǔn)確率提升了1.0百分點(diǎn)。這是因?yàn)閂iT使用一個(gè)可訓(xùn)練的線性層將圖像塊的像素值轉(zhuǎn)換為可學(xué)習(xí)的向量表示,再與位置編碼一同送入Transformer Block中。這種做法沒有增加參數(shù)量,卻因?yàn)檩斎雸D像塊的大小影響到轉(zhuǎn)換后的序列長度,從而增加了計(jì)算成本。而可移動(dòng)位置編碼擁有卷積獲取局部感受野的空間信息能力和參數(shù)量較小的優(yōu)點(diǎn),使得CCA-ViT在略微增加參數(shù)量的基礎(chǔ)上提升了識(shí)別準(zhǔn)確率。

        2.3.3 不同模型之間的性能比較

        本研究將 CCA-ViT 與目前性能較好、參數(shù)量相近的卷積神經(jīng)網(wǎng)絡(luò)和Transformer模型進(jìn)行對比試驗(yàn)。由表3可知,在卷積神經(jīng)網(wǎng)絡(luò)模型中,雖然MobileNet的參數(shù)量和計(jì)算量是所有對比模型中最小的[25],但對于識(shí)別相似程度較高的作物幼苗與雜草,其準(zhǔn)確率僅為86.10%和86.48%,遠(yuǎn)遠(yuǎn)低于其他模型。而ResNet-50和ConvNeXt-T的準(zhǔn)確率分別比 CCA-ViT 模型低1.53百分點(diǎn)和1.45百分點(diǎn)[26],參數(shù)量也分別多3.5 M和7.5 M。

        對于Transformer模型和卷積與Transformer結(jié)合的模型,在參數(shù)量相近的情況下,CCA-ViT的準(zhǔn)確率分別比Swin-T、CvT-13和MobileViTv2-2.0高出2.56、1.31、1.1百分點(diǎn)。本研究還與ViT的2種變體進(jìn)行了對比試驗(yàn),ViT-L在參數(shù)量大且計(jì)算復(fù)雜度高的同時(shí),對于小目標(biāo)作物幼苗與雜草的識(shí)別準(zhǔn)確度比較低,ViT-B在 ViT-L 的基礎(chǔ)上減少了參數(shù)量和FLOPs,識(shí)別準(zhǔn)確率相較于ViT-L增加了3.46百分點(diǎn),但相較 CCA-ViT 還是下降了1.91百分點(diǎn)。這是因?yàn)閂iT過于依賴數(shù)據(jù)本身,需要在數(shù)據(jù)量龐大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,同時(shí)還需要對數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)才能增加識(shí)別精度。圖9直觀地可視化了除MobileNet和ViT之外的其他試驗(yàn)結(jié)果。上述對比結(jié)果表明,CCA-ViT針對Transformer模型對目標(biāo)局部紋理細(xì)小特征識(shí)別不佳的問題在識(shí)別相似程度較高的小目標(biāo)作物幼苗與雜草上是有效的。

        2.3.4 可視化評估模型

        熱力圖是一種通過對色塊著色來統(tǒng)計(jì)數(shù)據(jù)的圖表,用來顯示輸入圖像中哪個(gè)部分對圖像最終的分類判斷起到了作用。圖10顯示了CCA-ViT模型針對12種作物幼苗與雜草的可視化熱力圖,可以看出,模型較為準(zhǔn)確地關(guān)注到了每一類目標(biāo)的形態(tài)特征,甚至對形狀纖細(xì)不易被發(fā)現(xiàn)的雀麥和黑色沿階草也能較為完整地提取到特征信息。

        此外,圖11提供了CCA-ViT模型的混淆矩陣圖,顯示了模型針對每一類目標(biāo)的識(shí)別準(zhǔn)確度和錯(cuò)分率,可以看出,對于雀麥和黑色沿階草的錯(cuò)分率較其他10種目標(biāo)稍高。這是由于雀麥和黑色沿階草過于相似,以至于識(shí)別難度較大。以上試驗(yàn)結(jié)果表明,CCA-ViT在作物幼苗與雜草識(shí)別中表現(xiàn)較好,能夠通過提取紋理細(xì)小特征來有效識(shí)別形態(tài)相似顏色相近的作物與雜草,進(jìn)而提升模型的識(shí)別性能。

        2.4 模型實(shí)際效果預(yù)測

        為驗(yàn)證本研究提出的CCA-ViT模型對實(shí)際田間作物幼苗的預(yù)測效果,分別于2022年11月8日和2023年4月7日從田間拍攝光照和霜降下的小麥幼苗各70張、光照和黑暗下的玉米幼苗各65張共270張作為測試圖片。 圖12為采集的部分效果圖,其中黑暗下玉米幼苗識(shí)別準(zhǔn)確率為65.18%,效果不佳的原因可能是照片為夜晚拍攝,光線較暗導(dǎo)致紋理特征和邊緣信息采集較不清晰。霜降下的小麥幼苗被錯(cuò)誤識(shí)別成了黑色沿階草,可能是由于霜降覆蓋在葉片表面導(dǎo)致小麥幼苗葉片輪廓和表面紋理特征模糊,從而被識(shí)別成了形狀相似的黑色沿階草。相反,光照下小麥和玉米的測試準(zhǔn)確率較高,分別為96.6%和80.7%。 由上述可知,CCA-ViT可以被用于識(shí)別真實(shí)田間環(huán)境的作物幼苗與雜草。

        3 結(jié)論

        本研究提出了一種CCA-ViT模型用于實(shí)際田間的作物幼苗與雜草識(shí)別,該模型針對部分作物與雜草形態(tài)相似顏色相近而導(dǎo)致識(shí)別難度大的問題,不僅可以跨尺度捕捉作物圖像的位置信息,還能夠重點(diǎn)關(guān)注局部和邊緣紋理細(xì)小特征,有效提升了對實(shí)際田間作物與雜草的識(shí)別準(zhǔn)確率。

        為了提高相似作物與雜草的特征判別能力,本研究模型采用了跨尺度金字塔架構(gòu),有效地捕獲像素位置信息。在特征提取網(wǎng)絡(luò)中構(gòu)建了卷積協(xié)同注意力機(jī)制,加強(qiáng)了局部細(xì)小特征的關(guān)注度。同時(shí),將原有位置編碼改為可移動(dòng)的位置編碼,大幅降低了模型的參數(shù)量。模型在識(shí)別12種作物幼苗與雜草的準(zhǔn)確率上較同類規(guī)模的視覺Transformer模型提高了1.91百分點(diǎn)。

        本研究還將模型用于實(shí)際田間小麥和玉米幼苗的識(shí)別預(yù)測,小麥和玉米幼苗的識(shí)別準(zhǔn)確率分別為96.6%和80.7%,表明該模型擁有著較強(qiáng)的魯棒性和泛化性,能夠?qū)π螒B(tài)相似、顏色相近的作物幼苗與雜草進(jìn)行有效區(qū)分。在接下來的研究中,如何提高惡劣環(huán)境下作物幼苗與雜草的識(shí)別精度是需要挑戰(zhàn)的難點(diǎn)。

        參考文獻(xiàn):

        [1]孫 俊,何小飛,譚文軍,等. 空洞卷積結(jié)合全局池化的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別作物幼苗與雜草[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(11):159-165.

        [2]謝志堅(jiān),李海藍(lán),徐昌旭,等. 兩種除草劑的土壤生態(tài)效應(yīng)及其對后茬作物生長的影響[J]. 土壤學(xué)報(bào),2014,51(4):880-887.

        [3]齊 月,李俊生,閆 冰,等. 化學(xué)除草劑對農(nóng)田生態(tài)系統(tǒng)野生植物多樣性的影響[J]. 生物多樣性,2016,24(2):228-236.

        [4]李志臣. 基于機(jī)器視覺的雜草對準(zhǔn)噴藥控制系統(tǒng)研究[D]. 南京:南京農(nóng)業(yè)大學(xué),2007.

        [5]李東升,胡文澤,蘭玉彬,等. 深度學(xué)習(xí)在雜草識(shí)別領(lǐng)域的研究現(xiàn)狀與展望[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2022,43(9):137-144.

        [6]王 璨,武新慧,張燕青,等. 基于雙注意力語義分割網(wǎng)絡(luò)的田間苗期玉米識(shí)別與分割[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(9):211-221.

        [7]樊湘鵬,周建平,許 燕,等. 基于優(yōu)化Faster R-CNN的棉花苗期雜草識(shí)別與定位[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(5):26-34.

        [8]許 燕,溫德圣,周建平,等. 基于Faster R-CNN的新疆棉花幼苗與雜草識(shí)別方法[J]. 排灌機(jī)械工程學(xué)報(bào),2021,39(6):602-607.

        [9]王麗君,淮永建,彭月橙. 基于葉片圖像多特征融合的觀葉植物種類識(shí)別[J]. 北京林業(yè)大學(xué)學(xué)報(bào),2015,37(1):55-61.

        [10]劉彩玲. 基于交織PCANet的雜草種子識(shí)別方法研究[D]. 楊凌:西北農(nóng)林科技大學(xué),2016.

        [11]李 彧,余心杰,郭俊先. 基于全卷積神經(jīng)網(wǎng)絡(luò)方法的玉米田間雜草識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2022,50(6):93-100.

        [12]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16×16 words:transformers for image recognition at scale[EB/OL]. (2020-11-29)[2022-06-23]. http://arxiv.org/abs/2010.11929.

        [13]Touvron H,Cord M,Douze M,et al. Training data-efficient image transformers amp; distillation through attention[C]//International conference on machine learning. PMLR,2021:10347-10357.

        [14]Liu Z,Lin Y T,Cao Y,et al. Swin Transformer:hierarchical Vision Transformer using Shifted Windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal,QC,Canada.IEEE,2021:9992-10002.

        [15]Yuan L,Chen Y P,Wang T,et al. Tokens-to-token ViT:training vision transformers from scratch on ImageNet[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal,QC,Canada.IEEE,2021:538-547.

        [16]Wang W H,Xie E Z,Li X,et al. Pyramid vision transformer:a versatile backbone for dense prediction without convolutions[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal,QC,Canada.IEEE,2021:548-558.

        [17]魯 浪. 基于視覺Transformer的柑橘分類檢測系統(tǒng)[D]. 重慶:重慶三峽學(xué)院,2023.

        [18]徐勵(lì)興. 基于深度學(xué)習(xí)的內(nèi)蒙古沿黃平原區(qū)玉米作物識(shí)別方法研究[D]. 呼和浩特:內(nèi)蒙古農(nóng)業(yè)大學(xué),2022.

        [19]Li K C,Wang Y L,Zhang J H,et al. UniFormer:unifying convolution and self-attention for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(10):12581-12600.

        [20]Li J S,Xia X,Li W,et al. Next-ViT:next generation vision transformer for efficient deployment in realistic industrial scenarios[EB/OL]. (2022-07-01)[2023-9-1]. http://arxiv.org/abs/2207.05501.

        [21]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas,NV,USA.IEEE,2016:770-778.

        [22]Yu W,Luo M,Zhou P,et al. Metaformer is actually what you need for vision[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022:10819-10829.

        [23]Chollet F X,editor X. Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 1251-1258.

        [24]Loshchilov I,Hutter F. Decoupled weight decay regularization[EB/OL]. (2017-11-14)[2023-10-09]. http://arxiv.org/abs/1711.05101.

        [25]Howard A G,Zhu M L,Chen B,et al. MobileNets:efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-04-17)[2023-10-09]. https://arxiv.org/abs/1704.04861v1.

        [26]Liu Z,Mao H Z,Wu C Y,et al. A ConvNet for the 2020s[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans,LA,USA.IEEE,2022:11966-11976.

        猜你喜歡
        特征提取雜草注意力
        拔雜草
        讓注意力“飛”回來
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        Bagging RCSP腦電特征提取算法
        A Beautiful Way Of Looking At Things
        水稻田幾種難防雜草的防治
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        雜草圖譜
        雜草為何年年除年年生?
        日本高清一区二区三区不卡| 精品国产一区二区三区av免费| 国产精品一区二区三区播放| 国产成人av三级在线观看韩国| 可以直接在线看国产在线片网址| 少妇被黑人整得嗷嗷叫视频| 狠狠躁夜夜躁av网站中文字幕| 特黄大片又粗又大又暴| 色爱av综合网站| 久久精品女人天堂av| 又黄又爽又色的视频| 亚洲精品一区网站在线观看| 欧美日韩高清一本大道免费| 蜜臀av一区二区三区精品 | 国产真人无遮挡作爱免费视频| 色偷偷88888欧美精品久久久 | 按摩师玩弄少妇到高潮hd| 日本岛国一区二区三区| 国产视频在线播放亚洲| 中文字幕中文字幕三区| 日本按摩偷拍在线观看| 精品人妻一区二区三区在线观看| 97成人精品视频在线| 中国人妻与老外黑人| 区二区三区玖玖玖| 无码精品国产va在线观看| 69天堂国产在线精品观看| 亚洲精品在线观看自拍| 真实夫妻露脸爱视频九色网| 精品无码av一区二区三区| gv天堂gv无码男同在线观看| 欧美婷婷六月丁香综合色| 国产精品一区区三区六区t区| 丰满人妻无套内射视频| 美丽的小蜜桃在线观看| 亚洲自偷精品视频自拍| 亚洲日韩av无码一区二区三区人| 秋霞鲁丝片av无码| 97色偷偷色噜噜狠狠爱网站97| 午夜男女视频一区二区三区| 九色91精品国产网站|