亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合輕量化網(wǎng)絡(luò)與注意力機(jī)制的果園環(huán)境下蘋(píng)果檢測(cè)方法

        2022-02-06 00:53:20胡廣銳周建國(guó)李傳林孫麗娟
        關(guān)鍵詞:特征檢測(cè)模型

        胡廣銳,周建國(guó),陳 超,李傳林,孫麗娟,陳 雨,張 碩,陳 軍

        融合輕量化網(wǎng)絡(luò)與注意力機(jī)制的果園環(huán)境下蘋(píng)果檢測(cè)方法

        胡廣銳,周建國(guó),陳 超,李傳林,孫麗娟,陳 雨,張 碩,陳 軍※

        (西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院,楊凌 712100)

        為提高復(fù)雜果園環(huán)境下蘋(píng)果檢測(cè)的綜合性能,降低檢測(cè)模型大小,通過(guò)對(duì)單階段檢測(cè)網(wǎng)絡(luò)YOLOX-Tiny的拓?fù)浣Y(jié)構(gòu)進(jìn)行了優(yōu)化與改進(jìn),提出了一種適用于復(fù)雜果園環(huán)境下輕量化蘋(píng)果檢測(cè)模型(Lightweight Apple Detection YOLOX-Tiny Network,Lad-YXNet)。該模型引入高效通道注意力(Efficient Channel Attention,ECA)和混洗注意力(Shuffle Attention,SA)兩種輕量化視覺(jué)注意力模塊,構(gòu)建了混洗注意力與雙卷積層(Shuffle Attention and Double Convolution Layer,SDCLayer)模塊,提高了檢測(cè)模型對(duì)背景與果實(shí)特征的提取能力,并通過(guò)測(cè)試確定Swish與帶泄露修正線性單元(Leaky Rectified Linear Unit,Leaky-ReLU)作為主干與特征融合網(wǎng)絡(luò)的激活函數(shù)。通過(guò)消融試驗(yàn)探究了Mosaic增強(qiáng)方法對(duì)模型訓(xùn)練的有效性,結(jié)果表明圖像長(zhǎng)寬隨機(jī)扭曲對(duì)提高模型綜合檢測(cè)性能貢獻(xiàn)較高,但圖像隨機(jī)色域變換由于改變訓(xùn)練集中蘋(píng)果的顏色,使模型檢測(cè)綜合性能下降。為提高模型檢測(cè)蘋(píng)果的可解釋性,采用特征可視化技術(shù)提取了Lad-YXNet模型的主干、特征融合網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)的主要特征圖,探究了Lad-YXNet模型在復(fù)雜自然環(huán)境下檢測(cè)蘋(píng)果的過(guò)程。Lad-YXNet經(jīng)過(guò)訓(xùn)練在測(cè)試集下的平均精度為94.88%,分別比SSD、YOLOV4-Tiny、YOLOV5-Lite和YOLOX-Tiny模型提高了3.10個(gè)百分點(diǎn)、2.02個(gè)百分點(diǎn)、2.00個(gè)百分點(diǎn)和0.51個(gè)百分點(diǎn)。Lad-YXNet檢測(cè)一幅圖像的時(shí)間為10.06 ms,模型大小為16.6 MB,分別比YOLOX-Tiny減少了20.03%與18.23%。該研究為蘋(píng)果收獲機(jī)器人在復(fù)雜果園環(huán)境下準(zhǔn)確、快速地檢測(cè)蘋(píng)果提供了理論基礎(chǔ)。

        圖像處理;可視化;蘋(píng)果檢測(cè);收獲機(jī)器人;卷積網(wǎng)絡(luò);視覺(jué)注意力機(jī)制

        0 引 言

        蘋(píng)果收獲是季節(jié)性強(qiáng)、勞動(dòng)密集型的農(nóng)業(yè)活動(dòng)?,F(xiàn)階段,鮮食果實(shí)采收作業(yè)仍為人工采收,效率低,且勞動(dòng)強(qiáng)度大[1-2]。Verbiest等[3]調(diào)查表明每年紡錘形蘋(píng)果園人工采摘?jiǎng)趧?dòng)時(shí)間為466 h/hm2,約占總?cè)斯趧?dòng)時(shí)間的67%。越來(lái)越高的勞動(dòng)力成本、較低的市場(chǎng)價(jià)格和缺乏合格的勞動(dòng)力給果業(yè)經(jīng)濟(jì)收益帶來(lái)了越來(lái)越大的壓力[4]。蘋(píng)果收獲機(jī)器人技術(shù)作為提高蘋(píng)果生產(chǎn)效率與質(zhì)量、解放果園勞動(dòng)力的關(guān)鍵要素,對(duì)降低勞動(dòng)成本、緩解果園勞動(dòng)力短缺具有重要意義[2, 5]。果實(shí)檢測(cè)是蘋(píng)果收獲機(jī)器人實(shí)現(xiàn)自動(dòng)化采收的重要步驟之一,精度高、速度快、適應(yīng)性強(qiáng)的檢測(cè)方法更有利于提高蘋(píng)果收獲機(jī)器人的整體性能[6-7]。

        視覺(jué)傳感器作為主要的感知設(shè)備被廣泛應(yīng)用在收獲機(jī)器人系統(tǒng)中[7-8]。國(guó)內(nèi)外眾多學(xué)者針對(duì)果園環(huán)境中果實(shí)檢測(cè)問(wèn)題,運(yùn)用視覺(jué)技術(shù)展開(kāi)研究工作,開(kāi)發(fā)了針對(duì)不同水果的檢測(cè)算法,如柑橘[9]、番茄[10-11]、獼猴桃[12-13]、芒果[14]、蘋(píng)果[15-18]等。目標(biāo)果實(shí)檢測(cè)方法根據(jù)驅(qū)動(dòng)類(lèi)型可分為基于目標(biāo)果實(shí)特征驅(qū)動(dòng)的檢測(cè)方法和基于數(shù)據(jù)驅(qū)動(dòng)的檢測(cè)方法[19]?;谔卣黩?qū)動(dòng)的檢測(cè)方法主要依靠人類(lèi)經(jīng)驗(yàn)提取RGB圖像中目標(biāo)果實(shí)的顏色、幾何形狀、紋理信息等特征以實(shí)現(xiàn)目標(biāo)果實(shí)的檢測(cè)[8]。Wu等[20]使用 SVM(Support Vector Machine)融合HSV果實(shí)顏色和3D幾何特征識(shí)別果實(shí),試驗(yàn)表明該方法的果實(shí)識(shí)別精度為80.1%。孫建桐等[11]針對(duì)番茄識(shí)別不準(zhǔn)確的問(wèn)題,提出了一種融合幾何形態(tài)學(xué)與迭代隨機(jī)圓的番茄識(shí)別方法,識(shí)別正確率為85.1%。基于特征驅(qū)動(dòng)的檢測(cè)方法易于實(shí)現(xiàn)且具有較快的檢測(cè)速度,但收獲機(jī)器人在園間作業(yè)時(shí)基于特征的檢測(cè)方法精度不足,且易受光照變化的影響。

        為增強(qiáng)視覺(jué)檢測(cè)方法對(duì)環(huán)境的適應(yīng)性,基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)目標(biāo)檢測(cè)方法受到越來(lái)越多研究者的關(guān)注[19,21-24]。其實(shí)現(xiàn)的基本步驟:1)獲取大量圖像,標(biāo)注目標(biāo)制作數(shù)據(jù)集;2)構(gòu)建卷積網(wǎng)絡(luò)模型;3)配置模型參數(shù);4)反向傳播,訓(xùn)練模型;5)前向推理,測(cè)試網(wǎng)絡(luò),實(shí)現(xiàn)應(yīng)用[25-26]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)在訓(xùn)練階段從大量圖像中自動(dòng)提取目標(biāo)果實(shí)特征,實(shí)現(xiàn)果實(shí)檢測(cè),具有適應(yīng)性強(qiáng)、魯棒性好、精度高等優(yōu)點(diǎn)[27-28]。以Faster-RCNN[29-30]等為代表的兩階段目標(biāo)檢測(cè)方法,檢測(cè)精度較高,但會(huì)消耗大量計(jì)算資源,檢測(cè)時(shí)間較長(zhǎng)。Gao等[29]基于Faster-RCNN(VGG16)提出了一種適用SNAP(Simple, Narrow, Accessible, Productive)蘋(píng)果園的多類(lèi)蘋(píng)果檢測(cè)方法,平均精度為87.9%,模型大小為533 MB,檢測(cè)一幅圖像時(shí)間為0.241 s。針對(duì)果園環(huán)境下果實(shí)快速檢測(cè)問(wèn)題,研究學(xué)者基于YOLO系列[12,31]、FCOS[32-33]等單階段檢測(cè)模型在保持檢測(cè)精度的同時(shí),提高了檢測(cè)速度。趙德安等[34]基于YOLOV3(You Only Look Once Version 3)模型實(shí)現(xiàn)了復(fù)雜環(huán)境下對(duì)套袋、未成熟、成熟蘋(píng)果的檢測(cè),平均檢測(cè)精度為87.71%,檢測(cè)一幅圖像時(shí)間為16.69 ms。為進(jìn)一步提高單階段檢測(cè)模型的檢測(cè)精度,研究人員基于YOLO系列模型引入了卷積塊注意模塊(Convolutional Block Attention Module,CBAM)、擠壓激發(fā)模塊(Squeeze-and- Excitation block)、非局部塊(Non-Local block)等視覺(jué)注意力機(jī)制[15,35-36]。改進(jìn)后的模型在檢測(cè)精度上均有所提升,但模型大小有所增加。收獲機(jī)器人面向復(fù)雜果園等非結(jié)構(gòu)化環(huán)境,其檢測(cè)方法不僅需適應(yīng)天氣與光照的變化、枝葉遮擋、背景復(fù)雜等因素的干擾,還受到有限的計(jì)算資源與存儲(chǔ)資源的限制。上述研究多注重模型精度與速度平衡,對(duì)模型大小考慮較少,不利于其部署在資源有限的收獲機(jī)器人上。

        綜上,蘋(píng)果采摘機(jī)器人在果園環(huán)境下進(jìn)行蘋(píng)果檢測(cè)時(shí),模型應(yīng)能適應(yīng)復(fù)雜、多變的果園環(huán)境,準(zhǔn)確、快速地檢測(cè)目標(biāo)蘋(píng)果,且檢測(cè)模型規(guī)模要盡可能小,以方便在嵌入式設(shè)備中部署。然而目前蘋(píng)果檢測(cè)模型多是不同部分的交叉引用組合,缺少對(duì)模型的可解釋性與綜合性能考慮,因此本研究為提高復(fù)雜果園環(huán)境下蘋(píng)果檢測(cè)性能并降低模型大小,對(duì)單階段檢測(cè)網(wǎng)絡(luò)YOLOX-Tiny的拓?fù)浣Y(jié)構(gòu)進(jìn)行了優(yōu)化與改進(jìn),引入輕量化視覺(jué)注意力模塊,并應(yīng)用特征可視化技術(shù)提高模型的可解釋性,提出一種適用復(fù)雜果園環(huán)境下輕量化蘋(píng)果檢測(cè)網(wǎng)絡(luò)Lad-YXNet(Lightweight apple detection YOLOX-Tiny Network),為蘋(píng)果采摘機(jī)器人在果園環(huán)境下檢測(cè)蘋(píng)果提供參考。

        1 材料與方法

        1.1 圖像獲取

        本研究獲取了“煙富”和“蜜脆”兩個(gè)品種的蘋(píng)果圖像,拍攝時(shí)間為2021年9月蘋(píng)果收獲季節(jié),拍攝地點(diǎn)為中國(guó)陜西寶雞鳳翔區(qū)雨嘉果業(yè)果園(34°35′N(xiāo) 107°23′E)。兩種果樹(shù)的種植模式為紡錘形,種植行距約為3.5 m,株距約為1.2 m,具有相同的水肥管理?xiàng)l件。這兩個(gè)品種的樹(shù)冠與果實(shí)具有明顯的差異,“煙富”蘋(píng)果樹(shù)冠較大,枝葉更豐茂,果形適中,“蜜脆”蘋(píng)果樹(shù)冠較小,枝葉較少,果形較大。圖像使用手機(jī)進(jìn)行拍攝,獲取圖像的寬高比統(tǒng)一裁剪為1∶1,像素大小為1 024×1 024像素。根據(jù)收獲機(jī)器人視覺(jué)傳感器安裝位置,選擇拍照距離為距果樹(shù)為1~2 m,面向果樹(shù)直立拍攝,以模擬收獲場(chǎng)景。光線變化會(huì)對(duì)蘋(píng)果檢測(cè)結(jié)果造成較大影響,陰天或使用照明裝置輔助的夜間具有較為穩(wěn)定的光照條件,降低了蘋(píng)果檢測(cè)的難度,但晴天不同時(shí)間段的光照條件差異較大,對(duì)穩(wěn)定、快速檢測(cè)蘋(píng)果提出了更高的要求。因此本研究在晴朗天氣下,拍攝全天的順光與逆光圖像。從采集的圖像中選取了1 200張圖像制作數(shù)據(jù)集,其中順光與逆光圖像各600張,如圖1所示。數(shù)據(jù)集中包括枝葉遮擋的果實(shí)、果實(shí)簇、不同光照強(qiáng)度的果實(shí)、運(yùn)動(dòng)模糊和高密集的果實(shí)。每幅圖像中包括一個(gè)或多個(gè)干擾因素,以驗(yàn)證本研究模型的抗干擾能力。

        a. 逆光環(huán)境下蜜脆蘋(píng)果a. Micui apple in backlightb. 順光環(huán)境下蜜脆蘋(píng)果b. Micui apple in nature lightc. 逆光環(huán)境下煙富蘋(píng)果c. Yanfu apple in backlightd. 順光環(huán)境下煙富蘋(píng)果d. Yanfu apple in nature light

        1.2 圖像預(yù)處理

        本研究提出的蘋(píng)果檢測(cè)模型主要服務(wù)于蘋(píng)果收獲機(jī)器人,蘋(píng)果收獲機(jī)器人在采收過(guò)程中會(huì)根據(jù)果實(shí)的位置選擇可采摘的果實(shí),隔行果樹(shù)上的果實(shí)因距收獲機(jī)器人較遠(yuǎn)將不會(huì)被采摘,因此標(biāo)注圖像時(shí)隔行果樹(shù)上的蘋(píng)果將不會(huì)被標(biāo)注。使用LabelImg對(duì)蘋(píng)果圖像進(jìn)行標(biāo)注,按照PASCAL VOC數(shù)據(jù)集格式保存圖像類(lèi)別和目標(biāo)矩形框,生成XML格式的標(biāo)注文件。選取水果暴露面積的最小外接矩形來(lái)標(biāo)注蘋(píng)果,以減少背景像素。模型訓(xùn)練集和測(cè)試集的樣本數(shù)比為8∶2。

        在線Mosaic增強(qiáng)方法是在訓(xùn)練過(guò)程中隨機(jī)將圖像進(jìn)行增強(qiáng)變換后送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。該方法廣泛應(yīng)用在深度卷積模型訓(xùn)練中,以增強(qiáng)模型的檢測(cè)精度與泛化性能。在線Mosaic包含的增強(qiáng)方法有:1)隨機(jī)翻轉(zhuǎn)圖像;2)圖像隨機(jī)色域變換;3)圖像長(zhǎng)寬隨機(jī)扭曲;4)圖像隨機(jī)組合,在訓(xùn)練集中隨機(jī)選取4張圖像組合成1張圖像。在訓(xùn)練蘋(píng)果數(shù)據(jù)集中采用在線Mosaic增強(qiáng)方式進(jìn)行訓(xùn)練。但由于Mosaic增強(qiáng)的圖像脫離自然,因此在訓(xùn)練中前280 epoch使用在線Mosaic增強(qiáng)方法,隨后關(guān)閉Mosaic增強(qiáng)方法。為了驗(yàn)證在線Mosaic增強(qiáng)方法是否對(duì)檢測(cè)結(jié)果有影響,本研究在保證訓(xùn)練集數(shù)量一致的前提下對(duì)Mosaic增強(qiáng)方法進(jìn)行了消融試驗(yàn)。依次去除在線Mosaic中一種的增強(qiáng)方法,訓(xùn)練YOLOX-Tiny與Lad-YXNet模型,以驗(yàn)證增強(qiáng)方法的效果。通過(guò)在線增強(qiáng)的圖像如圖2所示。

        a. 原始的在線Mosaica. Original online Mosaic b. 取消隨機(jī)圖像翻轉(zhuǎn)b. Removing random image flipc. 取消圖像隨機(jī)色域變換c. Removing image random color gamut transformd. 取消圖像長(zhǎng)寬隨機(jī)扭曲d. Removing random distortion of image length and widthe. 取消圖像隨機(jī)組合e. Removing random image combinations

        1.3 改進(jìn)模型

        YOLO(You Only Look Once)網(wǎng)絡(luò)是典型的單階段目標(biāo)檢測(cè)模型,該模型根據(jù)輸入圖像的目標(biāo)特征來(lái)預(yù)測(cè)每個(gè)目標(biāo)的邊界框。經(jīng)典的YOLO網(wǎng)絡(luò),如YOLOV3、YOLOV4、YOLOV5,采用基于先驗(yàn)框的方法檢測(cè)目標(biāo)。該種網(wǎng)絡(luò)將輸入圖像劃分為具有3種不同網(wǎng)格尺寸的特征圖,每個(gè)特征圖又具有3個(gè)用于預(yù)測(cè)目標(biāo)邊界框的先驗(yàn)框,預(yù)測(cè)信息由5部分組成:邊界框中心偏離特征圖網(wǎng)格點(diǎn)的橫縱坐標(biāo)、邊界框的寬高和置信度。

        YOLOX是基于YOLOV3-SPP和YOLOV5的改進(jìn)網(wǎng)絡(luò)[31]。該網(wǎng)絡(luò)模型打破了傳統(tǒng)YOLO系列基于先驗(yàn)框的檢測(cè)方式,采用SimOTA(Simplified Optimal Transport Assignment)為不同大小的目標(biāo)動(dòng)態(tài)匹配正樣本的方式,構(gòu)建了基于無(wú)先驗(yàn)框的目標(biāo)檢測(cè)網(wǎng)絡(luò)。網(wǎng)絡(luò)輸出預(yù)測(cè)結(jié)果的總參數(shù)如式(1)所示。

        式中out為網(wǎng)絡(luò)輸出的預(yù)測(cè)總參數(shù);,為輸入圖像的寬與高;F1、F2、F3為3個(gè)特征圖的下采樣倍數(shù);reg為確定目標(biāo)框位置和大小的參數(shù)個(gè)數(shù),reg=4;obj為目標(biāo)框中含有目標(biāo)的置信度分?jǐn)?shù)的個(gè)數(shù),obj=1;cls為目標(biāo)框預(yù)測(cè)目標(biāo)的類(lèi)別個(gè)數(shù);arc為每個(gè)特征圖的先驗(yàn)框個(gè)數(shù),基于先驗(yàn)框的經(jīng)典YOLO網(wǎng)絡(luò)中arc=3,YOLOX網(wǎng)絡(luò)中arc=1。YOLOX輸出預(yù)測(cè)結(jié)果的總參數(shù)是經(jīng)典YOLO網(wǎng)絡(luò)的三分之一,使YOLOX具有更快的檢測(cè)速度。

        YOLOX網(wǎng)絡(luò)共包含了4個(gè)標(biāo)準(zhǔn)網(wǎng)絡(luò)和兩個(gè)輕量化網(wǎng)絡(luò)。輕量化網(wǎng)絡(luò)結(jié)構(gòu)的YOLOX很好地平衡了檢測(cè)速度與精度,具有應(yīng)用在田間收獲機(jī)器人上的潛力。因此,本研究綜合考慮模型大小、檢測(cè)精度和檢測(cè)速度,基于輕量化模型對(duì)田間復(fù)雜環(huán)境下蘋(píng)果目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行了改進(jìn)設(shè)計(jì)。

        YOLOX-Tiny網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)主要由主干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和預(yù)測(cè)網(wǎng)絡(luò)組成。主干網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)借鑒了YOLOV5網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),采用CSPDarknet作為骨干網(wǎng)絡(luò)提取圖像特征;使用PANet(Path Aggregation Network)對(duì)輸入特征進(jìn)一步融合,輸出3個(gè)不同尺寸(80×80、40×40和20×20)的特征圖,特征圖通道數(shù)依次為96,192,384。預(yù)測(cè)網(wǎng)絡(luò)采用3個(gè)解耦頭對(duì)輸入特征圖進(jìn)行預(yù)測(cè),每個(gè)解耦頭輸出一個(gè)6通道(1類(lèi)別分?jǐn)?shù)+1置信度分?jǐn)?shù)+4個(gè)預(yù)測(cè)框參數(shù))張量,整合3個(gè)不同尺寸特征圖后,最終輸出8 400×6的預(yù)測(cè)信息。

        蘋(píng)果檢測(cè)網(wǎng)絡(luò)需要在保證檢測(cè)速度和精度的前提下盡量減少模型參數(shù),以便模型移植到嵌入式設(shè)備中。改進(jìn)的Lad-YXNet的結(jié)構(gòu)如圖3所示。主干網(wǎng)絡(luò)主要是提取目標(biāo)特征。蘋(píng)果的淺層特征主要是顏色、大小、紋理等,因此將原CSPDarknet主干的Focus結(jié)構(gòu)改進(jìn)為Stem結(jié)構(gòu)。Stem結(jié)構(gòu)中使用兩個(gè)分支,一個(gè)分支采用6×6的卷積核擴(kuò)大卷積的感受野,1×1和3×3的卷積核調(diào)整通道數(shù)增加網(wǎng)絡(luò)非線性;另一個(gè)分支加入最大池化操作,有利于提取蘋(píng)果的淺層特征,然后將兩個(gè)分支在通道維度上進(jìn)行融合。隨著主干網(wǎng)絡(luò)的加深,提取圖像的抽象特征,但深層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)增多,不利于提高模型的檢測(cè)速度與降低模型大小。因此,Lad-YXNet的主干網(wǎng)絡(luò)中僅使用3次CSPLayer,且每層CSPLayer中殘差單元(Residual Unit)僅重復(fù)一次,從而降低網(wǎng)絡(luò)整體參數(shù)與深度。在主干網(wǎng)絡(luò)的尾部引入了快速空間金字塔池化(Spatial Pyramid Pooling Fast,SPPF)模塊[37]。SPPF結(jié)構(gòu)繼承了空間金字塔池化(Spatial Pyramid Pooling,SPP)的優(yōu)點(diǎn),通過(guò)SPPF模塊實(shí)現(xiàn)了局部特征和全局特征融合,豐富了特征圖的表達(dá)能力,有利于檢測(cè)圖像中不同大小目標(biāo),且具有更快計(jì)算速度。

        注:CBS為卷積、BN層和Swish激活函數(shù)的組合;ECA為高效通道注意力;SA為混洗注意力;SPPF為快速空間金字塔池化;CBL為卷積、BN層和Leaky-ReLU激活函數(shù)的組合。

        考慮到蘋(píng)果特征與圖像背景(天空、地面、樹(shù)干、枝葉)的不同,加入視覺(jué)注意力機(jī)制讓網(wǎng)絡(luò)更好地提取蘋(píng)果特征。本研究提出的Lad-YXNet模型在主干網(wǎng)絡(luò)中第一個(gè)CSPLayer前引入高效通道注意力(Efficient Channel Attention,ECA)模塊[38],第三個(gè)CSPLayer后引入混洗注意力(Shuffle Attention,SA)模塊[39]。ECA是一種輕量化通道注意力模塊,其結(jié)構(gòu)如圖4a所示。

        ECA模塊將輸入特征通過(guò)平均池化操作得到通道維度的統(tǒng)計(jì)值。通道的統(tǒng)計(jì)值經(jīng)過(guò)一層自適應(yīng)卷積和Sigmod函數(shù)操作后與原通道相乘,以增強(qiáng)貢獻(xiàn)多的通道,弱化貢獻(xiàn)少的通道。其中自適應(yīng)卷積核大小的計(jì)算方法如式(2)所示。

        式中ksize為自適應(yīng)卷積核的大?。籆in為輸入特征的通道數(shù);| |odd表示取最接近的奇數(shù)。

        SA是一種輕量化通道與空間注意力模塊,其結(jié)構(gòu)如圖4b所示。注意力函數(shù)如式(3)所示。

        式中in為函數(shù)輸入;為注意力函數(shù)的權(quán)重,維度為1×in×1×1;bias為注意力函數(shù)的偏置,維度為1×in×1×1;in為in的通道數(shù)。

        本研究應(yīng)用SA模塊將輸入特征進(jìn)行分組計(jì)算,從而降低整體計(jì)算量。每組分割成兩個(gè)分支,每個(gè)分支的通道數(shù)降為原通道的十六分之一。一個(gè)分支通過(guò)平均池化與注意力函數(shù)得到通道統(tǒng)計(jì)值,通道統(tǒng)計(jì)值與原通道相乘后得到通道注意力特征;另一個(gè)分支通過(guò)組正則化與注意力函數(shù)得到空間統(tǒng)計(jì)值,空間統(tǒng)計(jì)值與原通道相乘后得到空間注意力特征;將兩個(gè)分支的結(jié)果在通道維度上進(jìn)行拼接,再聚合所有組的特征,最后采用通道混洗操作實(shí)現(xiàn)不同組間的信息流通,增強(qiáng)卷積網(wǎng)絡(luò)的特征提取能力。

        淺層網(wǎng)絡(luò)感受野較小,提取的細(xì)節(jié)特征豐富,但提取抽象特征能力弱,去噪能力差。隨著網(wǎng)絡(luò)的加深能更好地提取圖像的抽象特征,但會(huì)降低圖像的分辨率,導(dǎo)致圖像細(xì)節(jié)特征越來(lái)越模糊。為了解決這個(gè)問(wèn)題,借鑒路徑聚合網(wǎng)絡(luò)(Pyramid Attention Networks,PANet)和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)結(jié)構(gòu)構(gòu)建特征融合模塊,融合來(lái)自淺層、中間層和深層的信息,構(gòu)建了CSPLayer-2和SDCLayer(Shuffle attention and double convolution layer)模塊對(duì)PANet和PFN進(jìn)行輕量化改進(jìn),其結(jié)構(gòu)如圖3所示。CSPLayer-2將輸入特征分為兩部分,并通過(guò)短接操作增加了輸入特征的復(fù)用。SDCLayer包含一個(gè)SA模塊和兩個(gè)1×1的卷積,以增加特征融合模塊的非線性。SA模塊使卷積網(wǎng)絡(luò)更關(guān)注待檢測(cè)目標(biāo)的特征,1×1卷積等效于跨通道池化操作,跨通道操作可以增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)圖像復(fù)雜特征的能力。CSPLayer-2和SDCLayer改善了特征融合流程,有助于加強(qiáng)特征提取能力,并提高模型的檢測(cè)速度。

        激活函數(shù)的選擇對(duì)提高卷積網(wǎng)絡(luò)模型的準(zhǔn)確性與速度至關(guān)重要。激活函數(shù)如ReLU(Rectified Linear Unit)、Leaky-ReLU(Leaky Rectified Linear Unit)、Swish和Hard-Swish等已廣泛使用在各種目標(biāo)檢測(cè)模型中。Leaky-ReLU激活函數(shù)是在ReLU的基礎(chǔ)上引入修正項(xiàng),使得輸出負(fù)值的信息不會(huì)全部丟失,緩解了深度神經(jīng)網(wǎng)絡(luò)梯度為0的現(xiàn)象。Leaky-ReLU激活函數(shù)的表達(dá)式如式(4)所示。

        式中l(wèi)為修正參數(shù),取l=0.01。

        相關(guān)研究表明使用Swish函數(shù)代替ReLU、Leaky-ReLU等激活函數(shù)將顯著提高卷積網(wǎng)絡(luò)的性能,但Swish函數(shù)存在次冪運(yùn)算增加了計(jì)算成本,其表達(dá)式如式(5)所示。

        式中s為修正系數(shù),取s=1。

        為平衡網(wǎng)絡(luò)性能與檢測(cè)速度,主干網(wǎng)絡(luò)中使用Swish激活函數(shù)以保證主干網(wǎng)絡(luò)具有良好的特征提取性能,特征融合網(wǎng)絡(luò)中使用Leaky-ReLU激活函數(shù)以提高網(wǎng)絡(luò)檢測(cè)速度。

        1.4 模型訓(xùn)練

        試驗(yàn)硬件平臺(tái)為Dell工作站,處理器型號(hào)為英特爾Xeon E5-1620,內(nèi)存32GB,顯卡型號(hào)為Nvidia GeForce RTX 2080Ti。操作系統(tǒng)為Ubuntu18.04,深度學(xué)習(xí)框架采用Pytorch1.2,Python3.6。

        本研究在網(wǎng)絡(luò)訓(xùn)練中采用自適應(yīng)動(dòng)量估計(jì)法更新參數(shù),輸入圖像為640×640像素,權(quán)重衰減設(shè)為5×10-4,動(dòng)量因子設(shè)為0.937,學(xué)習(xí)率衰減采用預(yù)熱訓(xùn)練與余弦退火組合的方式,更新公式如式(6)所示。

        式中t為訓(xùn)練總輪數(shù),取t=400;warm為預(yù)熱訓(xùn)練總輪數(shù),取warm=3;cos為使用余弦退火方法訓(xùn)練總輪數(shù),取cos=385;cur為當(dāng)前訓(xùn)練輪數(shù),每完成一個(gè)周期的訓(xùn)練自增1;t為當(dāng)前訓(xùn)練輪數(shù)的學(xué)習(xí)率;max為學(xué)習(xí)率最大值,取max=2.5×10-4;min為學(xué)習(xí)率最小值,取min=2.5×10-6;為預(yù)熱訓(xùn)練衰減率,取=0.1。

        為了評(píng)價(jià)Lad-YXNet的準(zhǔn)確性、魯棒性和穩(wěn)定性,在相同的數(shù)據(jù)集下訓(xùn)練了其他四種目標(biāo)檢測(cè)網(wǎng)絡(luò),包括SSD,YOLOV4-Tiny,YOLOV5-Lite,YOLOX-Tiny。

        1.5 評(píng)價(jià)參數(shù)

        本研究通過(guò)平均精度AP、1值、召回率、精度和檢測(cè)速度對(duì)模型檢測(cè)效果進(jìn)行評(píng)估,計(jì)算公式如式(7)~(10)所示。檢測(cè)速度為模型檢測(cè)單張圖像需要消耗的時(shí)間。

        式中P表示模型正確檢測(cè)蘋(píng)果的數(shù)量,P表示模型將背景檢測(cè)成蘋(píng)果的數(shù)量,N表示模型未檢測(cè)出蘋(píng)果的數(shù)量,AP表示以召回率為橫坐標(biāo),精度為縱坐標(biāo)繪制的-曲線與坐標(biāo)軸間的面積,能綜合反映模型性能。

        2 結(jié)果與分析

        2.1 模型訓(xùn)練結(jié)果與分析

        訓(xùn)練過(guò)程中,Lad-YXNet與YOLOX-Tiny模型在訓(xùn)練集與驗(yàn)證集上的損失曲線如圖5所示。

        圖5 Lad-YXNet與YOLOX-Tiny模型訓(xùn)練損失曲線

        由損失曲線可知,兩種模型的損失值均能快速收斂,Lad-YXNet的在訓(xùn)練集與測(cè)試集上的收斂速度更快,且在測(cè)試集上的損失較低。這表明Lad-YXNet比YOLOX-Tiny模型具有更強(qiáng)的學(xué)習(xí)蘋(píng)果特征的能力。訓(xùn)練完成后,Lad-YXNet與YOLOX-Tiny模型的-曲線如圖6所示,Lad-YXNet的-曲線與坐標(biāo)軸間的面積比YOLOX-Tiny模型更大,表明Lad-YXNet較YOLOX-Tiny具有更好的綜合性能。

        圖6 Lad-YXNet與YOLOX-Tiny模型P-R曲線

        本研究在相同的數(shù)據(jù)集下訓(xùn)練了SSD、YOLOV4-Tiny、YOLOV5-Lite、YOLOX-Tiny和Lad-YXNet模型。在測(cè)試模型檢測(cè)時(shí)間時(shí),SSD模型輸入圖像為512×512像素,其余模型輸入圖像均采用640×640像素,結(jié)果如表1所示。

        表1 5種模型蘋(píng)果檢測(cè)性能對(duì)比

        注:P表示模型正確檢測(cè)蘋(píng)果的數(shù)量,P表示模型將背景檢測(cè)成蘋(píng)果的數(shù)量,N表示模型未檢測(cè)出蘋(píng)果的數(shù)量。

        Note:Pis the number of apples correctly detected by the model.Pis the number of apples that model background errors.Nis the number of apples missed by the model.

        由表1可知,Lad-YXNet的平均精度AP、1值和召回率均高于其他模型。Lad-YXNet的平均精度AP、1值和召回率較SSD、YOLOV4-Tiny、YOLOV5-Lite和YOLOX-Tiny模型均有提升,其中平均精度AP分別提高了3.10個(gè)百分點(diǎn)、2.02個(gè)百分點(diǎn)、2.00個(gè)百分點(diǎn)和0.51個(gè)百分點(diǎn)。SSD模型的檢測(cè)精度最高,為93.45%,但模型漏檢蘋(píng)果個(gè)數(shù)最高,約為L(zhǎng)ad-YXNet的2倍,且模型大小為95 MB,不利于部署到嵌入式設(shè)備中;YOLOV4-Tiny模型檢測(cè)一張圖像的時(shí)間最短,為6.87 ms,但檢測(cè)精度最低,為89.62%,將背景誤檢測(cè)成蘋(píng)果的個(gè)數(shù)最高,較Lad-YXNet多117。Lad-YXNet檢測(cè)一幅圖像的時(shí)間為10.06 ms,較YOLOX-Tiny提高了20.03%,Lad-YXNet模型大小為16.6 MB,較YOLOX-Tiny減少了18.23%。這表明Lad-YXNet很好地平衡了模型大小、檢測(cè)精度和檢測(cè)速度,為部署在嵌入式設(shè)備中提供了基礎(chǔ)。

        5種模型在兩種光照環(huán)境下(逆光與順光)對(duì)兩種蘋(píng)果(煙富與蜜脆)的檢測(cè)結(jié)果如圖7所示。由圖7可知SSD模型在逆光和順光環(huán)境下漏檢蘋(píng)果數(shù)(模型未檢測(cè)出目標(biāo)蘋(píng)果的個(gè)數(shù))最多,表明在面對(duì)密集的檢測(cè)目標(biāo)和光照變化的環(huán)境,SSD模型易產(chǎn)生漏檢情況。YOLOV4-Tiny模型對(duì)密集目標(biāo)檢測(cè)能力有所提升,但不易檢測(cè)出被枝葉嚴(yán)重遮擋的小目標(biāo)。YOLOX-Tiny模型在逆光環(huán)境下漏檢蘋(píng)果數(shù)為7,誤檢蘋(píng)果數(shù)(模型將背景錯(cuò)誤檢測(cè)成蘋(píng)果)為1,在順光環(huán)境下漏檢蘋(píng)果數(shù)少于YOLOV5-Lite,相較于SSD、YOLOV4-Tiny模型能很好地適應(yīng)不同光照條件,同時(shí)能檢測(cè)出相互遮擋的果實(shí)與被枝葉遮擋的果實(shí)。Lad-YXNet模型繼承了YOLOX-Tiny的優(yōu)點(diǎn)并減少了漏檢與誤檢,在逆光和順光環(huán)境下漏檢蘋(píng)果數(shù)分別為4與1,進(jìn)一步提升了蘋(píng)果的檢測(cè)性能。

        本研究根據(jù)光照環(huán)境將測(cè)試集圖像分為逆光圖像與順光圖像,其中逆光圖像114張,蘋(píng)果數(shù)為1 578;順光圖像126張,蘋(píng)果數(shù)為3 948。根據(jù)果實(shí)品種分為“煙富”與“蜜脆”,其中“煙富”72張,蘋(píng)果數(shù)為1 546;“蜜脆”168張,蘋(píng)果數(shù)為3 980。順光圖像中“富士”約占38.10%,逆光圖像中“富士”約占21.05%。Lad-YXNet模型在兩種光照環(huán)境下(逆光與順光)對(duì)兩種蘋(píng)果(煙富與蜜脆)的檢測(cè)結(jié)果如表2所示。

        注:藍(lán)色框?yàn)?種模型的檢測(cè)框,黃色方框與圓框分別為手動(dòng)標(biāo)注的漏檢框與誤檢框。

        表2 Lad-YXNet模型在不同圖像上的檢測(cè)結(jié)果

        由表2可知,“蜜脆”的1值較“煙富”高2.33個(gè)百分點(diǎn)?!盁煾弧碧O(píng)果樹(shù)冠較大,枝葉更豐茂,果實(shí)受遮擋嚴(yán)重,導(dǎo)致“煙富”更不易被檢測(cè)。在逆光環(huán)境的1值較順光環(huán)境高1.64個(gè)百分點(diǎn),這與“富士”在順光圖像占比較高有關(guān)。

        2.2 不同激活函數(shù)的試驗(yàn)結(jié)果與分析

        激活函數(shù)是增加卷積網(wǎng)絡(luò)非線性能力的重要組成部分,本研究選擇3種激活函數(shù)(Swish,Hard-Swish,Leaky-ReLU)探究主干和特征融合網(wǎng)絡(luò)采用不同激活函數(shù)時(shí)對(duì)蘋(píng)果檢測(cè)模型性能的影響,試驗(yàn)結(jié)果如表3所示。

        由表3可知,不同激活函數(shù)的組合方式對(duì)檢測(cè)模型的檢測(cè)精度與速度均有較大的影響。與Swish激活函數(shù)相比,當(dāng)主干網(wǎng)絡(luò)采用Leaky-ReLU激活函數(shù)時(shí),檢測(cè)模型的平均精度偏低;而當(dāng)Leaky-ReLU作為特征融合網(wǎng)絡(luò)的激活函數(shù)時(shí),檢測(cè)模型都具有較高的平均檢測(cè)精度。當(dāng)主干采用Swish激活函數(shù),檢測(cè)模型的1值均高于Hard-Swish激活函數(shù),特征融合網(wǎng)絡(luò)采用Leaky-ReLU激活函數(shù)具有最高的平均檢測(cè)精度為94.88%和最高的1值為90.40%。與Leaky-ReLU相比,主干或特征融合層采用Hard-Swish激活函數(shù)時(shí)雖能將檢測(cè)精度提升至92.38%,但會(huì)明顯降低模型檢測(cè)速度與召回率,當(dāng)主干和特征融合都采用Hard-Swish激活函數(shù)時(shí),模型的檢測(cè)時(shí)間最長(zhǎng),為12.51 ms。由此可見(jiàn),本研究所提出的蘋(píng)果檢測(cè)模型Lad-YXNet主干采用Swish激活函數(shù),特征融合網(wǎng)絡(luò)采用Leaky-ReLU激活函數(shù),檢測(cè)模型具有較好綜合性能與檢測(cè)速度。

        表3 不同激活函數(shù)的蘋(píng)果檢測(cè)模型性能對(duì)比

        2.3 在線增強(qiáng)方法的消融試驗(yàn)結(jié)果與分析

        YOLOX-Tiny與Lad-YXNet模型在相同的數(shù)據(jù)集和不同在線增強(qiáng)方法上進(jìn)行訓(xùn)練,在測(cè)試集上檢測(cè)結(jié)果如圖8所示。

        注:①取消圖像隨機(jī)翻轉(zhuǎn);②取消圖像隨機(jī)色域變換;③取消圖像長(zhǎng)寬隨機(jī)扭曲;④取消圖像隨機(jī)組合;⑤原始的在線Mosaic增強(qiáng)處理。

        由圖8可知,與完整的在線Mosaic增強(qiáng)方法相比,去除圖像隨機(jī)翻轉(zhuǎn)與圖像長(zhǎng)寬隨機(jī)扭曲后,Lad-YXNet模型的平均檢測(cè)精度AP分別下降了0.89個(gè)百分點(diǎn)與3.81個(gè)百分點(diǎn);1值分別下降了0.91個(gè)百分點(diǎn)和1.95個(gè)百分點(diǎn);精度分別下降2.21個(gè)百分點(diǎn)和2.99個(gè)百分點(diǎn)。YOLOX-Tiny模型具有類(lèi)似的規(guī)律性,其中去除圖像長(zhǎng)寬隨機(jī)扭曲對(duì)兩種模型的綜合性能影響較大,表明了圖像長(zhǎng)寬隨機(jī)扭曲對(duì)提高模型綜合檢測(cè)性能貢獻(xiàn)較高。與在線Mosaic增強(qiáng)方法相比,去除隨機(jī)圖像組合后Lad-YXNet與YOLOX-Tiny模型的檢測(cè)精度雖有提升,但平均精度AP分別下降了0.56個(gè)百分點(diǎn)和0.07個(gè)百分點(diǎn),1值分別下降了0.68個(gè)百分點(diǎn)和1.15個(gè)百分點(diǎn),召回率分別下降了2.35個(gè)百分點(diǎn)和4.49個(gè)百分點(diǎn),表明訓(xùn)練過(guò)程中使用隨機(jī)圖像組合有助于提升模型泛化能力;去除圖像隨機(jī)色域變換后Lad-YXNet與YOLOX-Tiny模型的平均精度AP分別增加了0.38個(gè)百分點(diǎn)與0.10個(gè)百分點(diǎn);精度分別增加了0.85個(gè)百分點(diǎn)與0.84個(gè)百分點(diǎn),表明在線Mosaic增強(qiáng)方法中的圖像隨機(jī)色域變換不利于兩個(gè)模型的訓(xùn)練。顏色是蘋(píng)果的主要特征之一,圖像隨機(jī)色域變換會(huì)改變圖像中蘋(píng)果的顏色,模型不易提取蘋(píng)果的顏色特征,導(dǎo)致兩個(gè)的模型的綜合檢測(cè)性能下降。因此,在訓(xùn)練蘋(píng)果檢測(cè)模型時(shí),去除圖像隨機(jī)色域變換有利于提取蘋(píng)果的顏色特征。

        2.4 視覺(jué)注意力機(jī)制分析

        為進(jìn)一步探究視覺(jué)注意力機(jī)制在卷積網(wǎng)絡(luò)中的有效性,本研究進(jìn)行了去除Lad-YXNet中兩種視覺(jué)注意力模塊和交換Lad-YXNet中兩種視覺(jué)注意力模塊位置的試驗(yàn)。試驗(yàn)結(jié)果如表4所示。

        表4 不同視覺(jué)注意力模塊的蘋(píng)果檢測(cè)模型對(duì)比

        由表4可知,與Lad-YXNet模型相比,交換了兩種注意力機(jī)制位置的模型精度僅提高了0.04個(gè)百分點(diǎn),而、1、AP分別降低了0.78個(gè)百分點(diǎn)、0.39個(gè)百分點(diǎn)和0.13個(gè)百分點(diǎn)。不使用注意力模塊的模型比Lad-YXNet的、、1、AP值分別降低了1.15個(gè)百分點(diǎn)、0.64個(gè)百分點(diǎn)、0.89個(gè)百分點(diǎn)和0.46個(gè)百分點(diǎn)。當(dāng)交換兩種注意力模塊的位置時(shí),模型的綜合性能指標(biāo)下降,表明Lad-YXNet模型中兩種注意力模塊的位置設(shè)計(jì)合理。當(dāng)不使用注意力模塊時(shí),模型的檢測(cè)時(shí)間降低為9.41 ms,但檢測(cè)精度與綜合性能均有不同程度的下降,其中檢測(cè)精度降低最為明顯。與不使用注意力模塊相比,僅使用SA模塊與僅使用ECA模塊的、、1、AP值均有所提升,其中僅使用ECA模塊的1與AP值分別提高了0.75個(gè)百分點(diǎn)與0.24個(gè)百分點(diǎn),表明引入SA與ECA兩種注意力模塊增強(qiáng)了Lad-YXNet提取蘋(píng)果特征的能力,有利于提升模型的綜合檢測(cè)精度。

        2.5 模型的可解釋性與特征可視化

        目前,CNN檢測(cè)物體的過(guò)程缺乏相應(yīng)的解釋?zhuān)瑢?duì)卷積網(wǎng)絡(luò)學(xué)習(xí)的物體特征的理解有限,這阻礙了模型結(jié)構(gòu)的進(jìn)一步優(yōu)化。有研究者采用特征可視化技術(shù)來(lái)提高模型的可解釋性,即將不同卷積層輸出的特征轉(zhuǎn)換為可視化圖像,通過(guò)可視化圖像展現(xiàn)出不同卷積層提取的特征[21,40]。本研究采用特征圖可視化技術(shù)提取了Lad-YXNet的主干、特征融合網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)的特征圖,探究Lad-YXNet檢測(cè)蘋(píng)果的過(guò)程。將主干網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò)3個(gè)尺寸(80×80、40×40和20×20)的輸出特征映射為相同尺寸(640×640)的偽彩圖,并與原圖像進(jìn)行疊加,即得到輸出特征的可視化圖像,其可視化示例如圖9所示。

        注:顏色越紅表示卷積層的輸出值越大,下同。

        由圖9可知,主干網(wǎng)絡(luò)80×80的淺層特征圖提取細(xì)粒度強(qiáng),提取到雜亂的背景信息。隨著網(wǎng)絡(luò)的加深,主干網(wǎng)絡(luò)40×40的特征圖中的特征逐漸變得模糊和抽象。由主干網(wǎng)絡(luò)20×20的特征圖可知,深層網(wǎng)絡(luò)更注重提取果實(shí)所在的圖像區(qū)域。主干提取的特征送入特征融合網(wǎng)絡(luò)將圖像特征進(jìn)一步融合,以增強(qiáng)模型的特征提取性能。特征融合網(wǎng)絡(luò)的特征圖如圖9所示。經(jīng)過(guò)特征融合網(wǎng)絡(luò),80×80和40×40的特征圖中分別突出顯示了蘋(píng)果背景區(qū)域與蘋(píng)果所在區(qū)域。由特征融合網(wǎng)絡(luò)20×20的特征圖可知,隨著特征融合的加強(qiáng),提取的特征包括平滑的背景信息與果實(shí)抽象特征,這有助于在檢測(cè)階段過(guò)濾背景信息,突顯目標(biāo)果實(shí)。

        檢測(cè)網(wǎng)絡(luò)輸出的特征圖可視化如圖10所示。由圖10可知,大量背景信息已被去除,并在特征圖中顯現(xiàn)出蘋(píng)果形態(tài)。由此可見(jiàn),Lad-YXNet模型的主干網(wǎng)絡(luò)提取果實(shí)與背景的顏色與紋理等特征,并確定果實(shí)和背景所在區(qū)域;隨著網(wǎng)絡(luò)深度的增加與特征的融合,進(jìn)一步提取果實(shí)的抽象特征并平滑背景信息;最終在檢測(cè)網(wǎng)絡(luò)中融合所有特征信息,去除背景信息并顯現(xiàn)蘋(píng)果形態(tài)。本研究從特征提取的角度,展現(xiàn)了Lad-YXNet在復(fù)雜自然環(huán)境下檢測(cè)蘋(píng)果所提取的特征,解釋了卷積網(wǎng)絡(luò)檢測(cè)果實(shí)的過(guò)程。

        圖10 Lad-YXNet的檢測(cè)網(wǎng)絡(luò)特征圖可視化示例

        3 結(jié) 論

        本研究為提高復(fù)雜果園環(huán)境下蘋(píng)果檢測(cè)性能、速度并降低模型大小,引入ECA(Efficient Channel Attention)和SA(Shuffle Attention)兩種輕量化視覺(jué)注意力模塊,提出一種適用復(fù)雜果園環(huán)境下輕量化蘋(píng)果檢測(cè)網(wǎng)絡(luò)Lad-YXNet(Lightweight apple detection YOLOX-Tiny Network),較好地平衡了蘋(píng)果檢測(cè)模型的檢測(cè)速度、精度和模型大小。本研究主要結(jié)論如下:

        1)Lad-YXNet的平均精度AP為94.88%,與SSD、YOLOV4-Tiny、YOLOV5-Lite和YOLOX-Tiny模型相比,分別提高了3.10個(gè)百分點(diǎn)、2.02個(gè)百分點(diǎn)、2.00個(gè)百分點(diǎn)和0.51個(gè)百分點(diǎn)。Lad-YXNet檢測(cè)一幅圖像的時(shí)間為10.06 ms,較YOLOX-Tiny減少了20.03%,Lad-YXNet模型大小為16.6 MB,較YOLOX-Tiny減少了18.23%,為部署在嵌入式設(shè)備中提供了基礎(chǔ)。

        2)為探究在線Mosaic增強(qiáng)方法對(duì)模型訓(xùn)練的有效性,本研究設(shè)計(jì)了消融試驗(yàn)。消融試驗(yàn)結(jié)果表明,圖像長(zhǎng)寬隨機(jī)扭曲對(duì)提高模型綜合檢測(cè)性能貢獻(xiàn)較高,圖像隨機(jī)色域變換由于改變訓(xùn)練集中蘋(píng)果的顏色,使模型檢測(cè)綜合性能下降。因此使用在線Mosaic增強(qiáng)方法時(shí),去除圖像隨機(jī)色域變換更有利于模型的訓(xùn)練。

        [1] 王丹丹,宋懷波,何東健. 蘋(píng)果采摘機(jī)器人視覺(jué)系統(tǒng)研究進(jìn)展[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(10):59-69.

        Wang Dandan, Song Huaibo, He Dongjian. Research advance on vision system of apple picking robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(10): 59-69. (in Chinese with English abstract)

        [2] 苑進(jìn). 選擇性收獲機(jī)器人技術(shù)研究進(jìn)展與分析[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(9):1-17.

        Yuan Jin. Research progress analysis of robotics selective harvesting technologies[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(9): 1-17. (in Chinese with English abstract)

        [3] Verbiest R, Ruysen K, Vanwalleghem T, et al. Automation and robotics in the cultivation of pome fruit: Where do we stand today?[J]. Journal of Field Robotics, 2020, 38(4): 513-531.

        [4] Wang Z, Xun Y, Wang Y, et al. Review of smart robots for fruit and vegetable picking in agriculture[J]. International Journal of Agricultural and Biological Engineering, 2022, 15(1): 33-54.

        [5] 楊睿,王應(yīng)寬,王寶濟(jì). 基于Web of Science文獻(xiàn)計(jì)量學(xué)和知識(shí)圖譜的農(nóng)業(yè)機(jī)器人進(jìn)展與趨勢(shì)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,38(1):53-62.

        Yang Rui, Wang Yingkuan, Wang Baoji. Progress and trend of agricultural robots based on WoS bibliometrics and knowledge graph[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 38(1): 53-62. (in Chinese with English abstract)

        [6] Montoya-Cavero L-E, Díaz De León Torres R, Gómez-Espinosa A, et al. Vision systems for harvesting robots: Produce detection and localization[J]. Computers and Electronics in Agriculture, 2022, 192: 106562.

        [7] 鄭太雄,江明哲,馮明馳. 基于視覺(jué)的采摘機(jī)器人目標(biāo)識(shí)別與定位方法研究綜述[J]. 儀器儀表學(xué)報(bào),2021,42(9):28-51.

        Zheng Taixiong, Jiang Mingzhe, Feng Mingchi. Vision based target recognition and location for picking robot: A review[J]. Chinese Journal of Scientific Instrument, 2021, 42(9): 28-51. (in Chinese with English abstract)

        [8] Fu L, Gao F, Wu J, et al. Application of consumer RGB-D cameras for fruit detection and localization in field: A critical review[J]. Computers and Electronics in Agriculture, 2020, 177: 105687.

        [9] 呂石磊,盧思華,李震,等. 基于改進(jìn)YOLOv3-LITE輕量級(jí)神經(jīng)網(wǎng)絡(luò)的柑橘識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(17):205-214.

        Lü Shilei, Lu Sihua, Li Zhen, et al. Orange recognition method using improved YOLOv3-LITE lightweight neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(17): 205-214. (in Chinese with English abstract)

        [10] 龍潔花,趙春江,林森,等. 改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):100-108.

        Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract)

        [11] 孫建桐,孫意凡,趙然,等. 基于幾何形態(tài)學(xué)與迭代隨機(jī)圓的番茄識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(S1):22-26,61.

        Sun Jiantong, Sun Yifan, Zhao Ran, et al. Tomato recognition method based on iterative random circle and geometric morphology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(S1): 22-26, 61. (in Chinese with English abstract)

        [12] Fu L, Feng Y, Wu J, et al. Fast and accurate detection of kiwifruit in orchard using improved YOLOv3-tiny model[J]. Precision Agriculture, 2021, 22(3): 754-776.

        [13] 傅隆生,馮亞利,Elkamil T,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(2):205-211.

        Fu Longsheng, Feng Yali, Elkamil T, et al. Image recognition method of multi-cluster kiwifruit in field based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(2): 205-211. (in Chinese with English abstract)

        [14] Zheng C, Chen P, Pang J, et al. A mango picking vision algorithm on instance segmentation and key point detection from RGB images in an open orchard[J]. Biosystems Engineering, 2021, 206: 32-54.

        [15] Lu S, Chen W, Zhang X, et al. Canopy-attention- YOLOv4-based immature/mature apple fruit detection on dense-foliage tree architectures for early crop load estimation[J]. Computers and Electronics in Agriculture, 2022, 193: 106696.

        [16] 劉天真,滕桂法,苑迎春,等. 基于改進(jìn)YOLO v3的自然場(chǎng)景下冬棗果實(shí)識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(5):17-25.

        Liu Tianzhen, Teng Guifa, Yuan Yingchun, et al. Winter jujube fruit recognition method based on improved YOLO v3 under natural scene[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(5): 17-25. (in Chinese with English abstract)

        [17] Kang H, Chen C. Fast implementation of real-time fruit detection in apple orchards using deep learning [J]. Computers and Electronics in Agriculture, 2020, 168: 105108.

        [18] Jiang M, Song L, Wang Y, et al. Fusion of the YOLOv4 network model and visual attention mechanism to detect low-quality young apples in a complex environment[J]. Precision Agriculture, 2022, 23(2): 559-577.

        [19] Wang X, Tang J, Whitty M. Data-centric analysis of on-tree fruit detection: Experiments with deep learning[J]. Computers and Electronics in Agriculture, 2022, 194: 106748.

        [20] Wu G, Li B, Zhu Q, et al. Using color and 3D geometry features to segment fruit point cloud and improve fruit recognition accuracy[J]. Computers and Electronics in Agriculture, 2020, 174: 105475.

        [21] Bai Y, Guo Y, Zhang Q, et al. Multi-network fusion algorithm with transfer learning for green cucumber segmentation and recognition under complex natural environment[J]. Computers and Electronics in Agriculture, 2022, 194: 106789.

        [22] Wang Z, Jin L, Wang S, et al. Apple stem/calyx real-time recognition using YOLO-v5 algorithm for fruit automatic loading system[J]. Postharvest Biology and Technology, 2022, 185: 111808.

        [23] Wang D, He D. Channel pruned YOLO V5s-based deep learning approach for rapid and accurate apple fruitlet detection before fruit thinning[J]. Biosystems Engineering, 2021, 210: 271-281.

        [24] Roy A M, Bose R, Bhaduri J. A fast accurate fine-grain object detection model based on YOLOv4 deep neural network[J]. Neural Computing and Applications, 2022, 34(5): 3895-3921.

        [25] 張政馗,龐為光,謝文靜,等. 面向?qū)崟r(shí)應(yīng)用的深度學(xué)習(xí)研究綜述[J]. 軟件學(xué)報(bào),2020,31(9):2654-2677.

        Zhang Zhengkui, Pang Weiguang, Xie Wenjing, et al. Deep learning for real-time applications: A survey[J]. Journal of Software, 2020, 31(9): 2654-2677. (in Chinese with English abstract)

        [26] 葛道輝,李洪升,張亮,等. 輕量級(jí)神經(jīng)網(wǎng)絡(luò)架構(gòu)綜述[J]. 軟件學(xué)報(bào),2020,31(9):2627-2653.

        Ge Daohui, Li Hongsheng, Zhang Liang, et al. Survey of lightweight neural network[J]. Journal of Software, 2020, 31(9): 2627-2653. (in Chinese with English abstract)

        [27] Tian H, Wang T, Liu Y, et al. Computer vision technology in agricultural automation: A review[J]. Information Processing in Agriculture, 2020, 7(1): 1-19.

        [28] Tang Y, Chen M, Wang C, et al. Recognition and localization methods for vision-based fruit picking robots: A Review[J]. Frontiers in Plant Science, 2020, 11(510): 1-17.

        [29] Gao F, Fu L, Zhang X, et al. Multi-class fruit-on-plant detection for apple in SNAP system using Faster R-CNN[J]. Computers and Electronics in Agriculture, 2020, 176: 105634.

        [30] 閆建偉,趙源,張樂(lè)偉,等. 改進(jìn)Faster-RCNN自然環(huán)境下識(shí)別刺梨果實(shí)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(18):143-150.

        Yan Jianwei, Zhao Yuan, Zhang Lewei, et al. Recognition of Rosa roxbunghii in natural environment based on improved Faster RCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 143-150. (in Chinese with English abstract)

        [31] Ge Z, Liu S, Wang F, et al. YOLOX: Exceeding YOLO series in 2021[C]//Kuala Lumpur: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.

        [32] Tian Z, Shen C, Chen H, et al. Fully convolutional one-stage object detection[C]//Seoul: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 9626-9635.

        [33] 龍燕,李南南,高研,等. 基于改進(jìn)FCOS網(wǎng)絡(luò)的自然環(huán)境下蘋(píng)果檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(12):307-313.

        Long Yan, Li Nannan, Gao Yan, et al. Apple fruit detection under natural condition using improved FCOS network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(12): 307-313. (in Chinese with English abstract)

        [34] 趙德安,吳任迪,劉曉洋,等. 基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機(jī)器人采摘蘋(píng)果定位[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(3):164-173.

        Zhao Dean, Wu Rendi, Liu Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract)

        [35] Yan B, Fan P, Lei X, et al. A Real-time apple targets detection method for picking robot based on improved YOLOv5[J]. Remote Sensing, 2021, 13(9): 1619.

        [36] 宋懷波,江梅,王云飛,等. 融合卷積神經(jīng)網(wǎng)絡(luò)與視覺(jué)注意機(jī)制的蘋(píng)果幼果高效檢測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(9):297-303.

        Song Huaibo, Jiang Mei, Wang Yunfei, et al. Efficient detection method for young apples based on the fusion of convolutional neural network and visual attention mechanism[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(9): 297-303. (in Chinese with English abstract)

        [37] Jocher G. YOLOV5[EB/OL]. (2020-06-26) [2022-03-10]. https://github.com/ultralytics/yolov5.

        [38] Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]// Seattle: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

        [39] Zhang Q, Yang Y. SA-Net: Shuffle attention for deep convolutional neural networks[C]// Toronto: Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021: 2235-2239.

        [40] Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]//Venice: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

        Fusion of the lightweight network and visual attention mechanism to detect apples in orchard environment

        Hu Guangrui, Zhou Jianguo, Chen Chao, Li Chuanlin, Sun Lijuan, Chen Yu, Zhang Shuo, Chen Jun※

        (,,712100)

        Apple harvesting is a highly seasonal and labor-intensive activity in modern agriculture. Fortunately, a harvesting robot is of great significance to improve the productivity and quality of apples, further alleviating the labor shortage in orchards. Among them, the detection model of the harvesting robot is also required to accurately and rapidly detect the target apples in the complex and changing orchard environment. It is a high demand for the small size to be deployed in the embedded device. This study aims to improve the speed and comprehensive performance of apple detection in a complex orchard environment. A Lightweight apple detection YOLOX-Tiny Network (Lad-YXNet) model was proposed to reduce the size of the original model. Some images of “Yanfu” and “Micui” apples were obtained during the apple harvest season in 2021. The images were uniformly clipped to the 1024×1024 pixels. As such, 1 200 images were selected to make the dataset, including the fruits with shaded branches and leaves, fruit clusters, varying degrees of illumination, blurred motion, and high density. This model was then used to optimize the topology of the single-stage detection network YOLOX-Tiny. Two lightweight visual attention modules were added to the model, including Efficient Channel Attention (ECA), and Shuffle Attention (SA). The Shuffle attention and double convolution layer (SDCLayer) was constructed to extract the background and fruit features. Swish and Leaky Rectified Linear Unit (Leaky-ReLU) was identified as the activation functions for the backbone and feature fusion network. A series of ablation experiments were carried out to evaluate the effectiveness of Mosaic enhancement in the model training. The average precision of the Lad-YXNet model decreased by 0.89 percent and 3.81 percent, respectively, after removing random image flipping and random image length width distortion. The1-socre also decreased by 0.91 percent and 1.95 percent, respectively, where the precision decreased by 2.21 percent and 2.99 percent, respectively. There was a similar regularity of the YOLOX-Tiny model. After removing the image random combination, the average precision of the Lad-YXNet and the YOLOX-Tiny model decreased by 0.56 percent and 0.07 percent, the1-socre decreased by 0.68 percent and 1.15 percent, as well as the recall rate decreased by 2.35 percent and 4.49 percent, respectively. The results showed that the random distortion of image length and width greatly contributed to the performance of model detection. But the random color gamut transformation of the image decreased the performance of model detection, due to the change of apple color in the training set. Two specific tests were conducted to explore the effectiveness of visual attention mechanisms in convolution networks. Specifically, one was to remove the visual attention modules from the Lad-YXNet, and another was to exchange the position of visual attention modules from the Lad-YXNet. Compared with the Lad-YXNet, the precision of the improved model to exchange the position of the visual attention modules only increased by 0.04 percent, while the recall,1-socre, and average precision decreased by 0.78 percent, 0.39 percent, and 0.13 percent, respectively. The precision, recall,1-socre, and average precision of the models without the attention module were reduced by 1.15 percent, 0.64 percent, 0.89 percent, and 0.46 percent, respectively, compared with the Lad-YXNet. Consequently, the SA and ECA enhanced the ability of the Lad-YXNet to extract the apple features, in order to improve the comprehensive detection accuracy of the model. The main feature maps of Lad-YXNet's backbone, feature fusion, and detection network were extracted by the feature visualization technology. A systematic investigation was made to determine the process of detecting apples with the Lad-YXNet in the complex natural environment, particularly from the point of feature extraction. As such, improved interpretability was achieved in the apple detection with the Lad-YXNet model. The Lad-YXNet was trained to be an average accuracy of 94.88% in the test set, which was 3.10 percent, 2.02 percent, 2.00 percent, and 0.51 percent higher than SSD, YOLOV4-Tiny, YOLOV5-Lite, and YOLOX-Tiny models, respectively. The detection time of an image was achieved in 10.06 ms with a model size of 16.6 MB, which was 20.03% and 18.23% less than YOLOX-Tiny, respectively. Therefore, the Lad-YXNet was well balanced with the size, precision, and speed of the apple detection model. The finding can provide a theoretical basis to accurately and quickly detect the apples for the harvesting robot in the complex orchard environment.

        image processing; visualization; apple detection; harvesting robot; convolutional network; visual attention mechanism

        10.11975/j.issn.1002-6819.2022.19.015

        TP691.4

        A

        1002-6819(2022)-19-0131-12

        胡廣銳,周建國(guó),陳超,等. 融合輕量化網(wǎng)絡(luò)與注意力機(jī)制的果園環(huán)境下蘋(píng)果檢測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(19):131-142.doi:10.11975/j.issn.1002-6819.2022.19.015 http://www.tcsae.org

        Hu Guangrui, Zhou Jianguo, Chen Chao, et al.Fusion of the lightweight network and visual attention mechanism to detect apples in orchard environment[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(19): 131-142. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.19.015 http://www.tcsae.org

        2022-06-01

        2022-09-29

        國(guó)家自然科學(xué)基金項(xiàng)目(No. 32272001);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(No. 2018YFD0701102);國(guó)家自然科學(xué)基金項(xiàng)目(No. 32001428)

        胡廣銳,博士生,研究方向?yàn)橹悄芑麍@裝備。Email:2017050952@nwsuaf.edu.cn

        陳軍,博士,教授,博士生導(dǎo)師,研究方向?yàn)橹悄芑r(nóng)業(yè)裝備。Email:chenjun_jdxy@nwsuaf.edu.cn

        猜你喜歡
        特征檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        欧洲人妻丰满av无码久久不卡| 国产精品久久婷婷六月丁香| 不卡一区二区黄色av| 国产真实乱对白精彩久久老熟妇女 | 东京热日本av在线观看| 伊人久久大香线蕉av不卡| 国产剧情国产精品一区| 亚洲图片第二页| 日本视频在线播放一区二区| 免费乱理伦片在线观看| 成人网站免费大全日韩国产| 日本高清色惰www在线视频| 国产一区二区三区小向美奈子 | 成 人 免费 在线电影| 福利一区在线观看| 国产又粗又猛又黄色呦呦| 一区二区三区中文字幕脱狱者| 成人精品视频一区二区三区尤物 | 久久精品有码中文字幕1| 亚洲一区二区国产一区| 99热爱久久99热爱九九热爱| 日韩AVAV天堂AV在线| 日本最新一区二区三区视频| 国产毛女同一区二区三区| 熟女体下毛毛黑森林| 精品亚洲国产探花在线播放| 精品国产精品久久一区免费| 久久影院午夜理论片无码| 黄色视频在线免费观看| 午夜无码片在线观看影院y| 国产黑丝美女办公室激情啪啪| 国产 麻豆 日韩 欧美 久久| 国产鲁鲁视频在线播放| 亚洲黄片av在线免费观看| 国产精品久久久福利| 国产zzjjzzjj视频全免费| 大陆啪啪福利视频| 久久夜色国产精品噜噜亚洲av| 亚洲中文字幕在线观看| 国产在线不卡免费播放| 99伊人久久精品亚洲午夜|