魏志慧 張聰 成濘伸 陳新波 閆可
摘要:在水稻害蟲的防治中,往往會因為田間背景雜亂、葉片與害蟲顏色相似、害蟲個頭較小導致水稻害蟲不易被察覺。針對田間水稻害蟲檢測精度不高的問題,提出一種多尺度均衡級聯(lián)檢測模型(ME-Cascade)。為更好地提取水稻害蟲這種小目標的特征,該模型以級聯(lián)神經(jīng)網(wǎng)絡(Cascade RCNN)為基礎,引入多尺度骨干網(wǎng)絡結(jié)構Res2Net,實現(xiàn)單個殘差塊中構建類似殘差的分層連接。然后在區(qū)域生成網(wǎng)絡中加入跨通道特征融合層,降低訓練過程中背景葉片與目標害蟲顏色相似帶來的干擾,增強候選區(qū)域定位的準確性。并在級聯(lián)檢測器中使用樣本均衡化采樣,解決目標害蟲與背景特征數(shù)量差異大帶來的正負樣本不均衡問題,減少小目標的錯檢漏檢。最后,為避免深層網(wǎng)絡在小樣本檢測中梯度爆炸和過擬合的發(fā)生,在梯度下降中使用梯度裁剪技術。將該模型用于公開發(fā)表的水稻蟲害數(shù)據(jù)集上,mAP達到了96.9%,比原始 Cascade RCNN模型提高了2.7百分點,驗證了該模型在真實田間的水稻害蟲上具有更好的識別效果。
關鍵詞:田間水稻害蟲;小目標檢測;多尺度骨干網(wǎng)絡;跨通道特征融合;均衡采樣;梯度裁剪
中圖分類號:S435.112;TP391.41文獻標志碼:A
文章編號:1002-1302(2024)09-0232-09
水稻在我國糧食作物中占據(jù)重要地位,其產(chǎn)量與我國的糧食安全問題緊密相連,但它在生長過程中經(jīng)常會遇到蟲害的威脅。受各種環(huán)境影響,水稻害蟲的發(fā)生逐年加重,對水稻的產(chǎn)量和安全造成了十分嚴重的損害,蟲害防治也成為了水稻生長中的首要問題。傳統(tǒng)的除蟲方法主要是通過人工識別和誘殺,這不僅耗時耗力,還會因為農(nóng)藥噴灑不當造成水稻進一步減產(chǎn)。因此,精準識別田間復雜環(huán)境下的水稻蟲害是至關重要的。只有精準除殺害蟲,才能使水稻產(chǎn)量得到保障。
為解決農(nóng)作物蟲害問題,國內(nèi)外學者在蟲害檢測方面做過很多研究。早期主要圍繞著傳統(tǒng)機器學習和經(jīng)典神經(jīng)網(wǎng)絡,蔣龍泉等提出一種基于多特征融合和SVM分類器的植物病蟲害檢測方法,將提取到的植物葉片的各種特征進行融合,有效地提高了單特征訓練對于植物病蟲害檢測的正確率[1]。Ebrahimi等將圖像處理技術與支持向量機相結(jié)合來識別溫室草莓薊馬,通過選擇合適的區(qū)域和顏色指數(shù)成功檢測到了目標[2]。葉聰?shù)冉Y(jié)合了圖像處理算法與人工神經(jīng)網(wǎng)絡分類技術,實現(xiàn)了目標害蟲的早期檢測與分類[3]。近年來,隨著深度學習的發(fā)展,其模型在目標檢測任務中取得了良好的效果,正逐步應用于農(nóng)作物蟲害。郭陽等提出了基于YOLO v3的水稻蟲害圖像識別方法,有效解決了葉片遮擋目標和相似背景等問題,驗證了將深度學習算法引入復雜環(huán)境下水稻蟲害識別的可行性[4]。溫艷蘭等針對復雜背景下傳統(tǒng)蟲害圖像識別方法準確率和效率低等問題,提出了一種基于遷移學習和改進殘差網(wǎng)絡的蟲害圖像識別方法,有效提高了復雜環(huán)境下害蟲識別的準確性[5]。姚青等通過優(yōu)化RetinaNet中的特征金字塔網(wǎng)絡(FPN)結(jié)構和使用組歸一化來精確識別水稻背景稻飛虱和二化螟的水稻危害狀況[6]。Li等在YOLO v5模型的基礎上提出了點線距離損失函數(shù),并在網(wǎng)絡中加入注意力模塊,在保證檢測精度的同時實現(xiàn)了檢測速度的提升[7]。
上述研究表明,雖然已有的目標檢測算法在復雜環(huán)境下蟲害的識別上取得了一些進展,但田間雜亂的背景和目標體積較小等給水稻害蟲檢測帶來的干擾并沒有被解決。針對以上問題,本研究提出一種多尺度均衡級聯(lián)檢測模型(ME-Cascade),引入了Res2Net網(wǎng)絡和跨通道特征融合,并對采樣方法做了正負樣本均衡化的改進,為防止小樣本帶來的梯度爆炸和過擬合還采用了梯度裁剪操作。最后用該模型對常見的水稻害蟲稻螟蛉、水稻大螟、稻綠蝽等進行識別,驗證該模型的有效性。
1 材料與方法
1.1 試驗數(shù)據(jù)集
從1.8萬張水稻蟲害圖片(由安徽省農(nóng)業(yè)科學院農(nóng)業(yè)經(jīng)濟與信息研究所提供)選取3種常見的水稻害蟲稻螟蛉(Naranga aenesscens)、水稻大螟(Sesamia inferens)、稻綠蝽(Nezara viridula)共1 800張,每種害蟲的圖片600張,經(jīng)過數(shù)據(jù)增強處理后擴增到4 700張。根據(jù)COCO數(shù)據(jù)集格式對其進行格式化,并使用LabelImg標記圖片中害蟲的類別和坐標信息。然后在數(shù)據(jù)集中隨機抽取80%作為訓練集,10%作為驗證集,剩下的作為測試集,其中訓練集3 760張,驗證集和測試集各470張。訓練集完成模型參數(shù)訓練,在驗證集上來確定網(wǎng)絡結(jié)構以及模型參數(shù),測試集檢驗最終選擇性能最優(yōu)的模型,并對試驗結(jié)果進行對比。圖1為部分害蟲圖像示例。
1.2 傳統(tǒng)的級聯(lián)神經(jīng)網(wǎng)絡(Cascade RCNN)
級聯(lián)神經(jīng)網(wǎng)絡(Cascade RCNN)是一個多重級聯(lián)結(jié)構的二階段目標檢測模型,由Faster RCNN改進而來[8-9]。其基本結(jié)構如圖2所示,由特征提取網(wǎng)絡ResNet101、特征金字塔網(wǎng)絡(feature pyramid network,簡稱FPN)、區(qū)域生成網(wǎng)絡(region proposal network,簡稱RPN)和級聯(lián)檢測器組成[10-12]。ResNet101將特征提取后,把每一層輸出的特征圖由深至淺進行特征融合,然后將融合后的特征圖輸入?yún)^(qū)域生成網(wǎng)絡RPN得到候選目標區(qū)域。在檢測階段,Cascade RCNN由一組IoU不斷增加的檢測器組成,每個階段的檢測器重點檢測 IoU 在不同范圍內(nèi)的候選框,把前一個檢測器輸出的邊框回歸B作為后一個檢測器的輸入,逐步提升IoU閾值訓練,過濾掉一些誤檢框,得到新的分類得分C和邊框回歸B,最終得到更高質(zhì)量的預測和網(wǎng)絡訓練效果。
雖然Cascade RCNN[HJ2mm]對小目標的檢測精度有一定提升,但仍存在以下問題:首先,如果要更大程度上解決水稻害蟲小目標的檢測問題,提高小目標的檢測精度,[HJ]原有的特征提取網(wǎng)絡并不能很好地滿足這一需求,還需要進一步擴大感受野。其次,由于小目標與背景占比差距大,特征數(shù)量非常少,如果按照Cascade RCNN中的正負樣本隨機采樣,很有可能會漏掉小目標的特征,從而造成小目標的漏檢。最后,圖片背景環(huán)境中的噪聲也是一個需要解決的問題,例如水稻葉片與害蟲顏色相似等,會使網(wǎng)絡提取到很多錯誤特征,導致目標害蟲錯檢。所以該網(wǎng)絡仍然不能夠很好地解決水稻害蟲小目標的錯檢漏檢問題。
1.3 多尺度均衡級聯(lián)檢測模型(ME-Cascade)
針對原始網(wǎng)絡存在的問題,提出的ME-Cascade模型結(jié)構如圖3所示。輸入的圖片首先通過特征提取網(wǎng)絡Res2Net101在更細粒度級別提取特征,生成多尺度特征圖[13]。經(jīng)過改進的特征金字塔網(wǎng)絡進行特征增強后,將特征圖送到區(qū)域生成網(wǎng)絡(RPN)中通過跨通道特征融合篩選出更加精確的建議區(qū)域,并映射到原圖上生成較為準確的RoI(region of interesting),送入到RoI Align層中池化[14]。將其轉(zhuǎn)變?yōu)楣潭ňS度的特征后,通過全連接層進行訓練和回歸,利用損失函數(shù)進行目標物體的類別分類和回歸定位,使用多個級聯(lián)檢測器進行正負樣本均衡化重采樣,避免正負樣本數(shù)量差異大帶來的影響,從而提高分類和回歸的精確度。最后在網(wǎng)絡中加入梯度裁剪來防止過擬合。本節(jié)將分別介紹模型中用于提取多尺度特征的Res2Net卷積神經(jīng)網(wǎng)絡、跨通道特征融合層、正負樣本均衡采樣和梯度裁剪技術。
1.3.1 Res2Net卷積神經(jīng)網(wǎng)絡
在真實的田地里,水稻害蟲相較于稻田目標小且種類繁多。低分辨率的小目標可視化信息少,難以提取到具有鑒別力的特征,進而導致檢測模型難以精準定位和識別小目標[15]。對此本研究引入Res2Net卷積神經(jīng)網(wǎng)絡,通過類殘差的連接方式對不同尺度上的顏色、形狀、紋理等特征進行提取,并將多個尺度的特征傳入特征金字塔進行融合,通過擴大感受野來增強模型對于小目標的感知能力。
Res2Net網(wǎng)絡是對ResNet網(wǎng)絡的改進,區(qū)別如圖4所示,其中左邊是ResNet殘差塊,右邊是Res2Net殘差塊。
Res2Net殘差塊用較小的過濾器組替換ResNet中3×3的過濾器,同時以類似分層殘差的方式連接不同的過濾器組。這種拆分混合連接的結(jié)構,相當于在每個殘差塊內(nèi)部構建特征金字塔結(jié)構,在特征層內(nèi)部進行多尺度的卷積,形成不同感受野,獲得不同細粒度的特征。Res2Net模塊的詳細計算過程可以用如下的公式來表示:
式(1)中,先將經(jīng)過1×1卷積輸出后的特征圖按通道數(shù)均分為s(圖4-B中s=4)組,分別記作xi[i∈(1,2,…,s)],每組特征圖的通道數(shù)均為輸入特征圖通道數(shù)的1/s 。然后,x1組不做處理,其他組的特征圖都會經(jīng)過一個3×3的卷積層,將這個卷積操作記為Ki。每組卷積后的輸出會形成2條線路,一條繼續(xù)作為該組輸出,用yi表示,一條則傳入下一組特征圖與其相加之后再進行Ki()操作。最后,將這s組的輸出(y1,y2,…,ys)在通道維度拼接,進行1×1的卷積操作。Res2Net模塊更好地融合了不同規(guī)模的信息,更加有效地提取全局特征和局部特征。
1.3.2 跨通道特征融合層
判別特征對于分類和定位任務都至關重要,小目標通常分辨率低,外觀質(zhì)量差,因此很難從其扭曲的結(jié)構中進行區(qū)分學習。同時,小目標的區(qū)域特征容易受到背景和其他情況的污染,如背景葉片與目標害蟲顏色相似、標簽噪聲(帶有正標簽的特征可能位于背景或遮擋物上)等。RPN的本質(zhì)是基于滑窗的無類別物體檢測器,通過輸入的特征圖篩選出一系列的矩形預選框。上述的噪聲干擾會使得在訓練過程中,生成在目標害蟲上的預選框數(shù)量遠少于生成在背景上的,導致水稻害蟲難以精準檢測。為了提升候選區(qū)域初步定位的準確性以及對前景和背景的判別能力,在RPN中加入了跨通道特征融合層,其結(jié)構如圖5所示。
在RPN中3×3卷積層前后都加入跨通道特征融合層,通過對多通道圖像做1×1卷積,將輸入的特征圖在每個通道乘以卷積系數(shù)后加在一起,來實現(xiàn)信息的跨通道整合和交互,獲取更多的上下文信息,使得在訓練過程中來自非目標區(qū)域(背景或被遮擋區(qū)域)的特征和非判別行特征的貢獻降低,目標區(qū)域特征增強,小目標水稻害蟲能夠被更好地關注到??缤ǖ捞卣魅诤蠈舆M行的降維和升維操作,在保持特征圖尺寸不變(即不損失分辨率)的前提下大幅增加了非線性特性,既可以把網(wǎng)絡做得很深,也可以提升網(wǎng)絡的表達能力,還沒有增加模型參數(shù)。
1.3.3 樣本均衡采樣
根據(jù)Cascade RCNN的級聯(lián)特性可知,其思想就是在保證樣本數(shù)量不減少的情況下,通過不斷地提高閾值訓練出效果最好的檢測器,將級聯(lián)回歸作為一種重采樣機制,不同級采用不同IoU閾值通過重新計算正負樣本和采樣策略來逐漸提高bbox質(zhì)量,使得目標害蟲的檢測效果達到最佳。原始級聯(lián)結(jié)構中,為了保證樣本的質(zhì)量,采用了隨機采樣的方式在每個階段進行重采樣。但對水稻田間的小目標害蟲檢測使用這種采樣方式,會提取到很多無用特征的樣本,導致訓練效果變差[16]。背景的斑駁使得目標害蟲的特征數(shù)量遠小于背景特征的數(shù)量,由于負樣本數(shù)量較多且本身IoU的不平衡,當采用隨機采樣后,會出現(xiàn)難負(IoU在0.5附近)和易負(IoU接近0)樣本不平衡的情況,大量容易負樣本被采樣不提供有用的學習信息,目標害蟲的特征不能有效學習,從而造成小目標錯檢漏檢,因此本研究提出ME-Cascade模型,通過樣本均衡采樣的方式進行重采樣[17]。公式如下所示:
式中:K指將原有負樣本的采樣區(qū)間分成K個區(qū)間;N為總采樣的負樣本數(shù);Mk為每個區(qū)間候選抽樣的數(shù)量;pk為最終算出每個區(qū)間采樣的概率。
對負樣本按照IoU劃分k個區(qū)間,每個區(qū)間再進行隨機采樣,保證易學習負樣本和難負樣本比例盡量平衡,避免學習到大量無用特征。該方法解決了回歸預測時正負樣本不平衡的問題,能有效提高小目標的檢測精度。
1.3.4 梯度裁剪
ME-Cascade模型選取了Res2Net101作為特征提取網(wǎng)絡,這在提高精度的同時,也增加了網(wǎng)絡的深度。在深度學習中,訓練模型時通常使用反向傳播算法來計算梯度,并使用梯度下降等優(yōu)化算法來更新模型參數(shù)。隨著網(wǎng)絡層數(shù)的增加,訓練過程的不穩(wěn)定性增大,會出現(xiàn)梯度爆炸和過擬合的問題。
本研究使用梯度裁剪技術來解決這一問題。梯度裁剪與其他正則化方法不同,它不是通過對模型參數(shù)進行限制來達到正則化的效果,而是通過限制梯度大小來達到正則化的效果。在反向傳播過程中,如果梯度的范數(shù)超過了一個預先設定的閾值,就將梯度裁剪到這個閾值之內(nèi)。這樣可以保證梯度的大小不會過大,避免了模型的梯度爆炸和過擬合問題,從而提高模型的穩(wěn)定性和泛化能力。梯度裁剪過程可以用如下公式來描述:
式中:g為梯度向量;‖g‖為裁剪后梯度的L2范數(shù);θ為設定裁剪的閾值。
從上述公式可以看出,梯度裁剪就是當梯度太大時強行把梯度縮小(通過乘以一個小于1的數(shù),即(θ[]‖g‖)),當梯度不是很大時,保持原樣g,從而達到限制梯度大小的目的。
2 結(jié)果與分析
2.1 評價指標
選取目標檢測中常用的評估指標對模型進行評估,包含各類水稻蟲害的損失值、平均精準度(average precision,簡稱AP)、平均精度均值(mean average precision,簡稱mAP) 、精度-召回曲線(precision-recall曲線)、檢測速度(frames per second,簡稱FPS)和模型復雜度(floating-point operations per second,簡稱FLOPs)[18]。
精確率是指正確預測正樣本的數(shù)量與所有預測框數(shù)量的比值,其計算公式可以表示為
召回率是指正確預測正樣本的數(shù)量與所有實際正樣本數(shù)量的比值,其計算公式可表示為
式中:TP為正確檢測到水稻害蟲的數(shù)量;FP為檢測為水稻害蟲實則為背景的數(shù)量;FN為檢測為背景實則為水稻害蟲的數(shù)量;TN為正確檢測為背景的數(shù)量。其中TP+FP=所有預測框的數(shù)量。
平均精準度(AP)是由召回率(Recall)為橫坐標,精準率(Precision)為縱坐標所繪的某一個類別的P-R曲線下的面積而計算得成,封閉面積越大,模型的性能越好。其計算公式如下:
mAP是目標檢測的主要評價指標,用來評估多類別對象檢測模型,是通過將所有類別的AP值相加并取平均值而獲得的,mAP越大則模型的檢測精度越高。計算公式表示如下:
其中,S是類的數(shù)量。
除了這些表示準確率的指標之外,評估模型的檢測速度指標幀率(FPS)用于表示在對象檢測中模型每秒可以處理的圖片數(shù)量。FPS值越大,模型的檢測速度就越快。計算公式如下:
其中,T是檢測圖片所需的時間。
參數(shù)量(Params)是指深度學習模型中所有可學習權重和偏置參數(shù)的總數(shù)。這些參數(shù)包括但不限于卷積層的卷積核權重、全連接層的權重矩陣以及所有層的偏置項。參數(shù)量是衡量模型復雜度和模型大小的一個直接指標,反映了模型的容量和對數(shù)據(jù)擬合的潛在能力。
復雜度是指計算量,通常以浮點運算次數(shù)FLOPs為單位,衡量的是模型進行一次前向傳播或反向傳播時所需的理論浮點運算次數(shù),代表了模型在推理或訓練時的時間復雜度,是評估模型運行效率和硬件需求的重要依據(jù)。為了進一步表達大規(guī)模的運算量,可能會使用更大的單位來表示復雜度,如MFLOPs(百萬次浮點運算)、GFLOPs(十億次浮點運算)、TFLOPs(萬億次浮點運算)、PFLOPs(千萬億次浮點運算)等。
2.2 試驗環(huán)境與試驗設置
本試驗使用Pytorch 1.12.1框架,Linux操作系統(tǒng),python 3.8版本,處理器為4.7 GHz的AMD R7-6800H,GPU為NVIDIA GeForce RTX 2080Ti。
試驗過程中,通過遷移學習使用ImageNet模型的預訓練權重以達到更好的訓練效果[19]。將批量大?。╞atch size)設置為8,為降低batch size過小帶來的影響,使用批量歸一化(batch normalization,簡稱BN)來加快模型的收斂速度[20]。迭代次數(shù)(epoch)設置為60次,分類損失函數(shù)采用交叉熵損失函數(shù),參數(shù)優(yōu)化器采用隨機梯度下降優(yōu)化算法(stochastic gradient descent,簡稱SGD),動量參數(shù)設置為0.9[21]。采用動態(tài)更新學習率的訓練策略,初始學習率設置為0.001,并在迭代的第17、20次將學習率降低90%。此次試驗于2023年5月6日在武漢輕工大學數(shù)學與計算機學院東八402實驗室完成。
2.3 試驗結(jié)果與分析
為驗證本研究提出的模型的有效性,本節(jié)使用“1.1”節(jié)中的數(shù)據(jù)集進行比較試驗。首先,將數(shù)據(jù)集按8 ∶1 ∶1的比例劃分為訓練集、驗證集和測試集;其次,使用經(jīng)過訓練的模型來測試測試集。最后,使用“2.1”節(jié)中的評估指標來驗證提出的模型。
2.3.1 損失分析
損失值是衡量模型訓練好壞的重要指標,損失值越低代表著預測框與真實框之間的差距越小,目標檢測效果越好。圖6顯示了Cascade RCNN和ME-Cascade在訓練過程中的損失變化圖,其中橫坐標是迭代次數(shù),縱坐標是損失值。從圖中可以看出,迭代4 000次后,損失明顯減少。這是因為本研究使用等間隔學習率調(diào)整方法,32 000 次迭代對應于第1次學習率調(diào)整(即第17次epoch),這顯示了引入等間隔學習率來訓練模型的優(yōu)點。此外,經(jīng)過55 000次迭代,2個模型的損失逐漸收斂,可以看出本研究提出的ME-Cascade模型的損失收斂值有明顯的降低,改進之后的檢測效果有明顯提升。
2.3.2 消融試驗
消融試驗的結(jié)果見表1,以Cascade RCNN模型為基礎,與依次加入多尺度特征提取網(wǎng)絡Res2Net、跨通道特征融合層和樣本均衡采樣的3種模型在確保試驗環(huán)境和其他參數(shù)一致的前提下進行對比試驗,并通過mAP、幀率(FPS)、參數(shù)量、復雜度等指標來分析模型性能。
由表1可知,在原模型上增加了多尺度特征提取網(wǎng)絡Res2Net的Case1,相比較Cascade RCNN而言mAP值增長了2.1百分點,F(xiàn)PS下降了6.71幀/s,參數(shù)量增長了0.66 M,模型復雜度增加了 2.64 GFLOPs。由此可以看出,Case1在犧牲了少量的訓練時間的前提下,獲得了比較明顯的精度提升,也表明了Res2Net有利于小目標的檢測。在Case2中,加入了跨通道特征融合層,使得mAP值達到96.6%,比Case1中高出了0.3百分點。這是因為通過跨通道特征融合層可以更好地融合多個特征圖,增強網(wǎng)絡對不同大小目標的感知能力,從而降低對小目標的漏檢問題。與Case1相比,參數(shù)的數(shù)量并沒有變化,訓練時間也變化不大,這是因為跨通道特征融合層沒有添加新的參數(shù),它相當于在3×3的卷積前后都加入了1×1的卷積,只是為了獲取更多的上下文信息,增加網(wǎng)絡表達能力。最后,ME-Cascade在Case2的前提下加入了樣本均衡采樣,解決了小目標帶來的正負樣本數(shù)量差距大的問題,mAP漲到了96.9%,相比較Cascade RCNN、Case1和Case2,分別增長了2.7、0.6、0.3百分點。
在當前的目標檢測算法中,通常以IoU閾值為0.5或0.75時的 AP值作為參考標準。所以根據(jù)實驗結(jié)果,分別繪制了交并比(IoU)閾值為0.5和0.75時不同改進點模型的PR圖,如圖7所示。無論IoU閾值是0.5還是0.75,都可以看出,ME-Cascade的PR曲線圖所包圍的區(qū)域,即平均精度,要高于其他3個模型。進一步說明了多尺度特征提取、跨通道特征融合和樣本均衡采樣的有效性和合理性。
此外,圖8、圖9提供了原始模型Cascade RCNN和本研究提出模型ME-Cascade的混淆矩陣圖,矩陣的每一行代表預測的類別,每一列代表真實的類別,主對角線上的元素屬于正確檢測樣本所占比例,從混淆矩陣可以直觀地看出改進后的模型在檢測的準確率上有所提高,錯檢率明顯降低。
以上試驗結(jié)果表明,ME-Cascade在復雜環(huán)境的水稻害蟲檢測上,可以高質(zhì)量地提取小目標害蟲的特征,減少周圍環(huán)境對害蟲檢測的干擾,進而提升模型的檢測性能。
2.3.3 不同模型之間的性能比較
選取經(jīng)典的目標檢測模型Faster RCNN、RetinaNet[22]、YOLOF[23]、VFNet[24]和現(xiàn)有的用于害蟲檢測的模型YOLOF_PD[23]、MSRSALU-Net[25],以及原始模型Cascade RCNN與本研究提出的ME-Cascade模型分別進行對比試驗,驗證該模型的有效性。不同模型的mAP值變化對比如圖10、圖11所示,可以看出ME-Cascade的檢測精度不管是訓練開始還是到最后收斂,都要高于其他的幾種對比模型。
由表2可知,從檢測精度的角度來看,ME-Cascade模型要遠高于其他的目標檢測模型,mAP達到了96.9%。尤其是水稻害蟲稻螟蛉這一類的漲幅最為明顯,平均精度漲了5.7百分點,因為此類害蟲的體積最小,本研究提出的針對于小目標檢測的模型有效解決了這一類害蟲的識別。從檢測速度的角度來看,單階段模型的檢測速度最快,但是他們的檢測精度卻最低,ME-Cascade模型雖然慢,但是卻得到了更好的檢測效果。無論是與經(jīng)典模型,還是與現(xiàn)有的害蟲檢測模型進行對比,ME-Cascade模型的檢測精度都要高很多。由上述可得,本研究提出的模型相較于原始模型在每張圖片損失了0.005 s速度的同時,得到了2.7百分點的精度提升,更適用于真實復雜環(huán)境下的水稻害蟲檢測。
3 結(jié)論
本研究提出一種ME-Cascade模型用于復雜環(huán)境下的水稻害蟲檢測,該模型在檢測過程中針對水稻害蟲體積小、背景雜亂而產(chǎn)生的錯檢漏檢等問題,不僅能在更細粒的程度上提取小目標的特征,而且能降低真實田地環(huán)境給小目標檢測的帶來的噪聲干擾,為復雜環(huán)境下的水稻害蟲檢測提供了一種新的思路。
針對復雜環(huán)境下蟲害目標較小的問題,本研究模型引入了Res2Net卷積神經(jīng)網(wǎng)絡用于多個尺度特征的提取,mAP值較原始模型提高了2.1百分點。然后為解決環(huán)境噪聲問題,在RPN中加入了跨通道融合層,并將重采樣方式改為樣本均衡采樣,減少了對無用特征的提取而更加關注于小目標,緩解了錯檢和漏檢的問題,mAP值提高了0.6百分點。
本研究提出的ME-Cascade模型mAP值達到了96.9%,檢測性能遠優(yōu)于對比模型Faster RCNN、RetinaNet、YOLOF、VFNet、Cascade RCNN、YOLOF_PD和MSRSALU-Net。但本研究在試驗中選取的水稻害蟲種類不多、模型參數(shù)量大,在接下來的研究中,如何在檢測更多的水稻害蟲種類時保持較高的檢測精度,并將檢測模型輕量化用于移動設備方便現(xiàn)場實操是需要挑戰(zhàn)的難點。
參考文獻:
[1]蔣龍泉,魯 帥,馮 瑞,等. 基于多特征融合和SVM分類器的植物病蟲害檢測方法[J]. 計算機應用與軟件,2014,31(12):186-190.
[2]Ebrahimi M A,Khoshtaghaza M H,Minaei S,et al. Vision-based pest detection based on SVM classification method[J]. Computers and Electronics in Agriculture,2017,137:52-58.
[3]葉 聰,沈金龍. 基于圖像灰度頻率與人工神經(jīng)網(wǎng)絡的病蟲害防治[J]. 電子器件,2018,41(1):250-255.
[4]郭 陽,許貝貝,陳桂鵬,等. 基于卷積神經(jīng)網(wǎng)絡的水稻蟲害識別方法[J]. 中國農(nóng)業(yè)科技導報,2021,23(11):99-109.
[5]溫艷蘭,陳友鵬,王克強,等. 基于遷移學習和改進殘差網(wǎng)絡的復雜背景下害蟲圖像識別[J]. 江蘇農(nóng)業(yè)科學,2023,51(8):171-177.
[6]姚 青,谷嘉樂,呂 軍,等. 改進RetinaNet的水稻冠層害蟲為害狀自動檢測模型[J]. 農(nóng)業(yè)工程學報,2020,36(15):182-188.
[7]Li K S,Wang J C,Jalil H,et al. A fast and lightweight detection algorithm for passion fruit pests based on improved YOLO v5[J]. Computers and Electronics in Agriculture,2023,204:107534.
[8]Cai Z W,Vasconcelos N. Cascade R-CNN:delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA:IEEE,2018:6154-6162.
[9]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[10]Wicaksono G W,Andreawan V. ResNet101 model performance enhancement in classifying rice diseases with leaf images[J]. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi),2023,7(2):345-352.
[11]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA:IEEE,2017:936-944.
[12]Liu L,Ouyang W L,Wang X G,et al. Deep learning for generic object[KG*2/3]detection:a[KG*2/3]survey[J].[KG*2/3]International Journal of ComputerVision,2020,128(2):261-318.
[13]Gao S H,Cheng M M,Zhao K,et al. Res2Net:a new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(2):652-662.
[14]岳有軍,田博凱,王紅君,等. 基于改進Mask RCNN的復雜環(huán)境下蘋果檢測研究[J]. 中國農(nóng)機化學報,2019,40(10):128-134.
[15]高新波,莫夢竟成,汪海濤,等. 小目標檢測研究進展[J]. 數(shù)據(jù)采集與處理,2021,36(3):391-417.
[16]蔣心璐,陳天恩,王 聰,等. 農(nóng)業(yè)害蟲檢測的深度學習算法綜述[J]. 計算機工程與應用,2023,59(6):30-44.
[17]Pang J M,Chen K,Shi J P,et al. Libra R-CNN:towards balanced learning for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA:IEEE,2019:821-830.
[18]徐 聰,王旭啟,劉 裕. 一種改進可形變FCN的農(nóng)作物害蟲檢測方法[J]. 江蘇農(nóng)業(yè)科學,2022,50(9):211-219.
[19]何雨霜,王 琢,王湘平,等. 深度學習在農(nóng)作物病害圖像識別中的研究進展[J]. 中國農(nóng)機化學報,2023,44(2):148-155.
[20]Garbin C,Zhu X Q,Marques O. Dropout vs. batch normalization:an empirical study of their impact to deep learning[J]. Multimedia Tools and Applications,2020,79(19/20):12777-12815.
[21]鄭顯潤,鄭 鵬,王文秀,等. 基于多尺度特征提取深度殘差網(wǎng)絡的水稻害蟲識別[J]. 華南農(nóng)業(yè)大學學報,2023,44(3):438-446.
[22]Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice,Italy:IEEE,2017:2980-2988.
[23]彭紅星,徐慧明,高宗梅,等. 基于改進YOLOF模型的田間農(nóng)作物害蟲檢測方法[J]. 農(nóng)業(yè)機械學報,2023,54(4):285-294,303.
[24]Zhang H Y,Wang Y,Dayoub F,et al. VarifocalNet:an IoU-aware dense object detector[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville,TN,USA:IEEE,2021:8510-8519.
[25]李 萍,劉 裕,師曉麗,等. 基于多尺度殘差空間注意力輕量化U-Net的農(nóng)業(yè)害蟲檢測方法[J]. 江蘇農(nóng)業(yè)科學,2023,51(3):187-196.
收稿日期:2023-07-15
基金項目:國家自然科學基金面上項目(編號:61272278);湖北省重大科技專項(編號:2018ABA099);湖北省教育廳科學研究計劃重點項目(編號:D20201601)
作者簡介:魏志慧(1998—),女,湖北武漢人,碩士研究生,主要從事農(nóng)業(yè)圖像識別研究。E-mail:1559480513@qq.com。
通信作者:張 聰,博士,教授,主要從事多媒體信息處理及網(wǎng)絡通信、人工智能與大數(shù)據(jù)等研究。E-mail:hb_wh_zc@163.com。