摘要:針對(duì)無人機(jī)航拍圖像中油茶果實(shí)小且互相遮擋的問題,提出改進(jìn)YOLOv5s模型。首先,使用SPD-Conv代替YOLOv5s模型中池化操作,使模型在執(zhí)行下采樣操作時(shí)能夠保留更多細(xì)粒度信息。然后,在YOLOv5s模型的頸部網(wǎng)絡(luò)末端引入坐標(biāo)注意力機(jī)制CA,提高模型對(duì)遮擋目標(biāo)的魯棒性。另外,改進(jìn)YOLOv5s模型使用NWD邊界框損失函數(shù)替換YOLOv5s中的CIOU邊界框損失函數(shù),以提升模型對(duì)無人機(jī)航拍圖像中小油茶果實(shí)的檢測(cè)能力。改進(jìn)YOLOv5s模型的精確率、召回率、F1分?jǐn)?shù)和平均精度均值分別達(dá)到93.1%、90.5%、91.78%和91.2%,與YOLOv5s模型相比,平均精度均值提升3.6個(gè)百分點(diǎn)。試驗(yàn)表明,改進(jìn)YOLOv5s對(duì)航拍圖像中較小的油茶果實(shí)和遮擋果實(shí)有更強(qiáng)的檢測(cè)能力??蔀槔脽o人機(jī)進(jìn)行油茶果實(shí)的產(chǎn)量估計(jì)研究提供參考。
關(guān)鍵詞:油茶果實(shí);無人機(jī)航拍;YOLOv5s;坐標(biāo)注意力機(jī)制;邊界框損失函數(shù)
中圖分類號(hào):S24
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553(2024)12-0238-07收稿日期:2023年11月6日
修回日期:2024年1月29日
*基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃(2019YFD1002401)
第一作者:沈德宇,男,1999年生,河北滄州人,碩士;研究方向?yàn)榱謽I(yè)信息監(jiān)測(cè)。E-mail:Sdy196823@bjfu.edu.cn
通訊作者:陳鋒軍,女,1977年生,河北保定人,博士,教授,碩導(dǎo);研究方向?yàn)榱謽I(yè)信息監(jiān)測(cè)。E-mail:chenfj227@bjfu.edu.cn
Camellia oleifera fruit detection based on UAV aerial photography and improved YOLOv5s
Shen Deyu1, 2, Chen Fengjun1, 2, Zhu Xueyan1, 2, Zhang Xinwei1, Chen Chuang2
(1. College of Engineering, Beijing Forestry University, Beijing, 100083, China;2. National Key Laboratory for Efficient Production of Forest Resources, Beijing, 100083, China)
Abstract: Aiming at the problem that the fruit of Camellia oleifera is small and occluding each other in UAV aerial images, an improved YOLOv5s model is proposed. Firstly, SPD-Conv is used to replace the pooling operation in the YOLOv5s model, so that the model can retain more fine-grained information during the down-sampling operation. Then, Coordinate Attention (CA) is introduced at the end of the neck network of YOLOv5s model to improve the robustness of the model to occluding targets. Additionally, the improved YOLOv5s model replaces the YOLOv5s CIOU bounding box loss function with the NWD (Normalized Gaussian Wasserstein) bounding box loss function to improve its ability to detect small Camellia oleifera fruits in drone aerial images. The precision, recall, F1 score, and mean average precision of the improved YOLOv5s model are 93.1%, 90.5%, 91.78% and 91.2%, respectively. Compared to the YOLOv5s model, the improved YOLOv5s model’s mean average precision has increased by 3.6 percentage points. The experiments indicate that the improved YOLOv5s has stronger detection capabilities for smaller and occluded Camellia oleifera fruits in aerial images. This research can provide a reference for the estimation of Camellia oleifera fruit yield by using drones.
Keywords: Camellia oleifera; UAV aerial photography; YOLOv5s; coordinate attention mechanism; bounding box loss function
0 引言
油茶是我國特有的油料作物,以油茶果實(shí)作為原料生產(chǎn)出的茶油更是有“東方”橄欖油的美譽(yù)[1]。高效完成油茶采收任務(wù)是保證油茶產(chǎn)業(yè)利益的重要環(huán)節(jié),由于油茶生長的地形多為我國南方的高山丘陵,且其特殊的采摘要求,導(dǎo)致現(xiàn)階段的油茶采收尚未實(shí)現(xiàn)大規(guī)模機(jī)械化[2]。當(dāng)前油茶采收環(huán)節(jié)以人工為主,并且油茶的采收期較短,工作量大[3]。如果可以提前預(yù)知油茶種植地的油茶果實(shí)產(chǎn)量,就可以合理分配勞動(dòng)力資源,避免錯(cuò)過最佳采收期,提高油茶采收的效率。無人機(jī)行動(dòng)靈活,不受崎嶇地形的限制,使用無人機(jī)拍攝油茶冠層果實(shí),并開發(fā)一種高效準(zhǔn)確的油茶冠層果實(shí)檢測(cè)方法,為油茶果實(shí)產(chǎn)量估計(jì)提供參考。但是自然掛枝狀態(tài)下的油茶果實(shí)體積較小,并且存在較多枝葉遮擋和果實(shí)之間互相遮擋的情況,為檢測(cè)帶來了困難。
近年來,深度學(xué)習(xí)技術(shù)的進(jìn)步為研究自然掛枝條件下果實(shí)的目標(biāo)檢測(cè)提供了新的方法。以深度學(xué)習(xí)為基礎(chǔ)的方法逐漸成為自然環(huán)境中果實(shí)檢測(cè)的主流方法。深度學(xué)習(xí)方法在柚子[4]、芒果[5]和蘋果[6]等水果的檢測(cè)中被廣泛使用。Wu等[7]先對(duì)自然狀態(tài)下油茶果實(shí)圖像使用剪切、翻轉(zhuǎn)、添加噪聲以及Mosaic等數(shù)據(jù)增強(qiáng)操作構(gòu)成數(shù)據(jù)集,再將數(shù)據(jù)集送入YOLOv7網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后得到了96.3%的平均精準(zhǔn)度。Tang等[8]使用YOLOv4-Tiny網(wǎng)絡(luò)對(duì)掛枝狀態(tài)的油茶果實(shí)進(jìn)行檢測(cè)并結(jié)合雙目相機(jī)和三角測(cè)量原理對(duì)油茶果實(shí)進(jìn)行空間定位,平均準(zhǔn)確率達(dá)到了92.07%。呂帥朝等[9]將照度調(diào)整模塊和夜間隱性知識(shí)模塊集成到Y(jié)OLOv3網(wǎng)絡(luò)中,用于夜間檢測(cè)油茶果實(shí),最終平均精準(zhǔn)度達(dá)到了94.37%,為夜間非結(jié)構(gòu)化環(huán)境的油茶果采摘提供了支持。宋懷波等[10]使用YOLOv5s模型在復(fù)雜自然場(chǎng)景的油茶果實(shí)檢測(cè)中分別達(dá)到了90.37%的準(zhǔn)確率和98.38%的召回率,這種方法為復(fù)雜環(huán)境中進(jìn)行果實(shí)采摘和檢測(cè)小目標(biāo)果實(shí)提供了參考。Chen等[11]在YOLOv5s框架下引入K-means++聚類算法,并重新評(píng)估數(shù)據(jù)集,在油茶果實(shí)存在多重遮擋的自然環(huán)境下達(dá)到了94.10%的平均精準(zhǔn)度。然而,以上研究均針對(duì)油茶樹中的局部果實(shí)進(jìn)行檢測(cè),并未涉及整樹樹冠的油茶果實(shí)的檢測(cè)。嚴(yán)恩萍等[12]使用Mask R-CNN結(jié)合無人機(jī)影像對(duì)自然狀態(tài)的油茶進(jìn)行產(chǎn)量估計(jì),該模型最終的平均F1值達(dá)89.91%,試驗(yàn)表明,由網(wǎng)絡(luò)預(yù)測(cè)的冠層果數(shù)與油茶樣木單株果數(shù)之間具有良好的一致性,擬合決定系數(shù)R2達(dá)0.871。這說明將無人機(jī)航拍圖像用于果實(shí)產(chǎn)量預(yù)估的可行性。
本文采集數(shù)據(jù)的油茶園為非結(jié)構(gòu)化果園,自然生長下的油茶果實(shí)目標(biāo)往往存在枝葉遮擋和果實(shí)之間互相遮擋的情況。除此之外,無人機(jī)航拍圖像中的油茶果實(shí)也存在目標(biāo)較小的情況。YOLOv5s模型作為一種輕量化、高精度的目標(biāo)檢測(cè)網(wǎng)絡(luò),具有較強(qiáng)的特征融合能力和對(duì)不同尺度目標(biāo)的檢測(cè)能力[13],對(duì)檢測(cè)航拍圖像中的小目標(biāo)油茶果實(shí)很有優(yōu)勢(shì)。因此,選擇YOLOv5s作為基礎(chǔ)網(wǎng)絡(luò),并在原模型基礎(chǔ)上進(jìn)行改進(jìn),對(duì)無人機(jī)航拍圖像中的油茶果實(shí)檢測(cè)展開研究。
1 數(shù)據(jù)集采集與處理
研究區(qū)域位于湖南省邵陽市黃草坪國有油茶林場(chǎng),黃草坪國有油茶林場(chǎng)的占地面積約為211 hm2,主要種植了華碩、華鑫、華金、湘林1號(hào)、湘林27號(hào)、湘林63號(hào)等10余個(gè)優(yōu)質(zhì)油茶品種。以華鑫油茶品種為研究對(duì)象,使用大疆精靈4無人機(jī)對(duì)油茶樹冠進(jìn)行圖像采集,圖像采集時(shí)間為2021年10—11月,分別于8:00—10:00、12:00—14:00和16:00—18:00時(shí)間段進(jìn)行數(shù)據(jù)采集。無人機(jī)搭載2 000萬像素的相機(jī),鏡頭焦距20 mm,鏡頭成像角度為-90°~30°,像元尺寸為2.4 μm,照片分辨率為4 000像素×3 000像素,拍攝高度為1.5~2 m。共采集不同角度和光照情況的油茶果實(shí)圖片共1 506張。部分?jǐn)?shù)據(jù)集圖像如圖1所示。
以采集的1 506幅油茶果實(shí)圖像搭建油茶果實(shí)檢測(cè)數(shù)據(jù)集。按照8∶1∶1將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,得到訓(xùn)練集圖像1 204張,驗(yàn)證集圖像151張和測(cè)試集圖像151張。Chen等[14]將單個(gè)目標(biāo)面積占圖像總面積的0.05%~0.58%之間的目標(biāo)定義為小目標(biāo),對(duì)數(shù)據(jù)集目標(biāo)的尺寸進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如下:數(shù)據(jù)集中共有57 211個(gè)油茶果實(shí)目標(biāo),其中小目標(biāo)占比為84.6%。為豐富數(shù)據(jù)集,并增強(qiáng)模型對(duì)小目標(biāo)和遮擋目標(biāo)的魯棒性,選擇使用Mosaic和Mixup等數(shù)據(jù)增強(qiáng)方式對(duì)被劃分為訓(xùn)練集的圖像進(jìn)行增強(qiáng),增強(qiáng)效果如圖2所示。
2 研究方法
2.1 改進(jìn)YOLOv5s模型
YOLOv5是基于YOLOv4目標(biāo)檢測(cè)模型改進(jìn)的版本。YOLOv5網(wǎng)絡(luò)由主干網(wǎng)絡(luò),頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)3部分組成。輸入圖像在進(jìn)入主干網(wǎng)絡(luò)之前會(huì)先進(jìn)行預(yù)處理,包括調(diào)整圖像大小、歸一化和圖像增強(qiáng)等操作。經(jīng)過預(yù)處理的圖像會(huì)輸入到主干網(wǎng)絡(luò)中,經(jīng)過Focus模塊,Conv模塊和C3模塊進(jìn)行特征提取,在通過特征金字塔池化后,進(jìn)入頸部網(wǎng)絡(luò)利用PANet進(jìn)行特征融合,最后得到三種不同尺度的特征圖,頭部網(wǎng)絡(luò)的作用是針對(duì)提取到的特征圖,進(jìn)行目標(biāo)位置回歸和目標(biāo)種類預(yù)測(cè),最后經(jīng)過非極大值抑制(NMS)操作去除重疊的預(yù)測(cè)框,得到最終的檢測(cè)結(jié)果。它在YOLOv4的基礎(chǔ)上增加了自適應(yīng)錨框計(jì)算和自適應(yīng)圖片縮放操作,其主干和頸部主要由跨階段局部網(wǎng)絡(luò)構(gòu)成,并使用了路徑聚合網(wǎng)絡(luò)進(jìn)行特征融合和新型損失函數(shù)。為了適應(yīng)不同場(chǎng)景的需求,YOLOv5開發(fā)者提供了多個(gè)版本,如YOLOv5s、YOLOv5m和YOLOv5l。YOLOv5s作為輕量化模型,在保證檢測(cè)精度的同時(shí),也具備高準(zhǔn)確性,適用檢測(cè)無人機(jī)航拍圖像中的油茶果實(shí)的應(yīng)用場(chǎng)景。
由于無人機(jī)航拍的油茶果實(shí)圖像中的油茶果實(shí)目標(biāo)較小,并且存在較多遮擋的情況,本文針對(duì)以上問題主要對(duì)YOLOv5s模型進(jìn)行以下改進(jìn)(圖3)。
首先,在主干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)中使用SPD-Conv取代YOLOv5s模型中的池化層[15],以減少特征圖在經(jīng)過池化層后的信息損失,增強(qiáng)模型對(duì)小目標(biāo)特征的提取能力,然后,在模型的頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)之間加入坐標(biāo)注意力模塊[16],該注意力機(jī)制專門為輕量化模型設(shè)計(jì),可以獲取特征圖的通道信息而且還能結(jié)合位置信息,能增強(qiáng)模型對(duì)遮擋目標(biāo)的檢測(cè)能力。最后,采用NWD邊界框損失函數(shù)[17]替換YOLOv5s模型原有的CIOU 損失函數(shù)。增強(qiáng)模型對(duì)小目標(biāo)的預(yù)測(cè)框的回歸能力,可以幫助模型更加準(zhǔn)確定位小目標(biāo)。
2.2 SPD-Conv
使用YOLOv5s模型對(duì)自然場(chǎng)景下無人機(jī)航拍的油茶果實(shí)圖像進(jìn)行目標(biāo)檢測(cè),屬于小目標(biāo)檢測(cè)的范疇。傳統(tǒng)CNN模型中的步長卷積操作和池化操作會(huì)造成特征圖的細(xì)粒度信息的丟失。對(duì)小目標(biāo)檢測(cè)任務(wù)來說,這會(huì)造成低效的學(xué)習(xí),從而影響模型檢測(cè)的性能。因此解決果實(shí)目標(biāo)在進(jìn)入目標(biāo)檢測(cè)網(wǎng)絡(luò)傳播的過程中的細(xì)粒度信息的損失問題,就可以提升目標(biāo)檢測(cè)模型對(duì)小目標(biāo)檢測(cè)性能。Sajjadi等[18]將一種圖像轉(zhuǎn)化技術(shù)運(yùn)用到CNN網(wǎng)絡(luò)中,在對(duì)特征圖進(jìn)行下采樣的操作上,提出了使用SPD-Conv來代替?zhèn)鹘y(tǒng)CNN網(wǎng)絡(luò)中的池化操作和步長卷積操作,最終在小目標(biāo)檢測(cè)任務(wù)中得到有效的性能提升。
SPD-Conv模塊通過SPD層將輸入大小為 S×S×C1 特征圖X在空間維度進(jìn)行切片(S代表特征圖的長和寬, C1 代表特征圖的通道數(shù)),將其分割成 scale2 個(gè)大小為 (S/scale)×(S/scale)×C1 的中間特征圖, scale 表示下采樣因子,其大小決定了SPD-Conv模塊對(duì)特征圖的下采樣倍率。為了能夠盡可能保留特征圖的信息,SPD層還會(huì)對(duì)被分割的子特征圖沿著通道維度進(jìn)行拼接,生成一個(gè)大小為 (S/scale)×(S/scale)×scale2C1 的子特征圖 X′, 再對(duì)中間特征圖 X′ 進(jìn)行非步長卷積的操作,最終輸出一個(gè)大小為 (S/scale)×(S/scale)×C2 的輸出特征圖 X″。 圖4為 scale=2 時(shí),SPD-Conv的原理圖。
2.3 坐標(biāo)注意力機(jī)制
為了減少遮擋情況的影響,且讓改進(jìn)YOLOv5s模型能夠更加精確地定位和識(shí)別油茶果實(shí),采用將坐標(biāo)注意力機(jī)制嵌入到Y(jié)OLOv5s的頸部網(wǎng)絡(luò)中的方法來提升模型對(duì)無人機(jī)航拍圖像中的油茶果實(shí)的檢測(cè)能力。坐標(biāo)注意力機(jī)制(Coordinate Attention,CA)的原理圖如圖5所示。
對(duì)輸入維度為 C×H×W 的特征圖X,坐標(biāo)注意力機(jī)制(Coordinate Attention,CA)先對(duì)特征圖進(jìn)行精準(zhǔn)的空間位置信息編碼。它會(huì)使用卷積核大小為1×H和W×1的池化卷積模塊分別對(duì)特征圖沿高度和寬度方向進(jìn)行編碼,得到兩個(gè)空間感知的注意力特征 Zh∈?C×1×H 和 Zw∈?C×W×1, 其中 ?表示多維矩陣。之后網(wǎng)絡(luò)會(huì)將上述兩個(gè)注意力特征進(jìn)行拼接,然后通過一個(gè)1×1的共享卷積模塊得到中間特征圖 f∈?C/r×W×1, 其中r為下采樣比例系數(shù),計(jì)算如式(1)所示。
f=δ(F1([Zh,Zw])) (1)
式中: [Zh,Zw] ——將特征圖沿空間維度拼接;
F1 ——1×1卷積操作;
δ ——非線性激活操作。
之后會(huì)對(duì)中間特征圖 f 沿空間方向進(jìn)行切片操作,得到兩個(gè)張量 fh∈?C/r×1×H 和 fw∈?C/r×W×1。 fh 和 fw 分別經(jīng)過兩個(gè)1×1的共享卷積模塊后送入Sigmoid激活函數(shù)中,得到最后的注意力權(quán)重 gh, gw, 如式(2)所示。
gh=σ(Fh(fh))
gw=σ(Fw(fw)) (2)
式中: Fh、Fw ——沿垂直方向和水平方向的1×1卷積操作;
gh ——沿垂直方向的注意力權(quán)重;
gw ——沿水平方向的注意力權(quán)重;
σ ——Sigmoid激活函數(shù)。
最后輸出的附加了坐標(biāo)注意力權(quán)重的特征圖 X′ 如式(3)所示。
X′(i,j)=X(i,j)×gh(i)×gw(j) (3)
2.4 NWD邊界框損失函數(shù)
YOLO系列模型全部采用基于IOU的邊界框損失函數(shù)來衡量預(yù)測(cè)框和真實(shí)框的匹配程度。如圖6所示,可以看出,使用基于IOU的損失函數(shù)檢測(cè)小目標(biāo)時(shí),會(huì)因?yàn)槠鋵?duì)位置敏感的特性,影響損失函數(shù)收斂性能。
NWD(Normalized Gaussian Wasserstein)邊界框損失是一種專門為小目標(biāo)檢測(cè)設(shè)計(jì)的邊界框損失函數(shù)。將目標(biāo)的邊界框建模為二維高斯分布,通過計(jì)算預(yù)測(cè)框與真實(shí)框?qū)?yīng)的Wassserstein距離來衡量二者之間高斯分布的相似性。
將真實(shí)框 A=(cxa,cya,wa,ha) 和預(yù)測(cè)框 B=(cxb,cyb,wb,hb) 建模為高斯分布 Ng 和 Np, 真實(shí)框和預(yù)測(cè)框之間的二階Wasserstein距離可化簡為式(4)。
式中: cxa、cya ——框A中心點(diǎn)的橫縱坐標(biāo);
cxb、cyb ——框B中心點(diǎn)的橫縱坐標(biāo);
wa、ha ——框A的寬度和高度;
wb、hb ——框B的寬度和高度。
W22(Ng,Np) 作為一個(gè)距離度量,無法直接用于評(píng)價(jià)兩個(gè)框之間的相似度,還需要對(duì)其進(jìn)行歸一化操作,最后得到NWD邊界框損失函數(shù),如式(5)所示。
式中:C——常數(shù),在一定范圍內(nèi)對(duì)小目標(biāo)檢測(cè)任務(wù)是較為有效的。
經(jīng)過本文數(shù)據(jù)集訓(xùn)練測(cè)試,將C設(shè)定為12。在本文設(shè)計(jì)的YOLOv5s網(wǎng)絡(luò)中,將原網(wǎng)絡(luò)中CIOU邊界框損失函數(shù),替換為NWD邊界框損失函數(shù),如式(6)所示。
Lnwd=1-NWD(Np,Ng) (6)
相比基于IOU的邊界框損失函數(shù),NWD損失函數(shù)在小目標(biāo)檢測(cè)任務(wù)中的主要優(yōu)勢(shì):對(duì)預(yù)測(cè)框和真實(shí)框的相對(duì)位置關(guān)系不敏感,即使它們之間重疊的部分較小,也一樣能平滑地展示它們之間分布的相似性。
2.5 模型訓(xùn)練與評(píng)價(jià)指標(biāo)
本文所研究的場(chǎng)景需要目標(biāo)檢測(cè)模型兼顧檢測(cè)速度和檢測(cè)精度,因此,選用精確率P、召回率R、F1分?jǐn)?shù)(F1-Score)、平均精度均值mAP和平均檢測(cè)時(shí)間MDT,作為模型的評(píng)價(jià)指標(biāo)。其中,在評(píng)價(jià)mAP時(shí),檢測(cè)框與真實(shí)框的IOU閾值為0.5。精確率、召回率、F1分?jǐn)?shù)和平均精度均值的計(jì)算如式(7)~式(10)所示。
式中: TP ——被正確檢測(cè)到的油茶果實(shí)的數(shù)量;
FP ——背景被錯(cuò)誤識(shí)別成油茶果實(shí)的數(shù)量;
FN ——漏檢的油茶果實(shí)的數(shù)量;
M——目標(biāo)的總數(shù)。
試驗(yàn)全部在一臺(tái)GPU服務(wù)器上完成,搭載Ubuntu 20.04操作系統(tǒng),CPU配置為Intel Xeon Gold 5220R。GPU配置為NVIDIA 3090顯卡,顯存為24 G。具體的軟件環(huán)境為Python 3.7,CUDA版本為11.3,Pytorch版本為1.11。改進(jìn)YOLOv5s模型訓(xùn)練的超參數(shù)設(shè)置如下,初始學(xué)習(xí)率設(shè)置為0.01,使用余弦退火的方式調(diào)整學(xué)習(xí)率,設(shè)置余弦退火參數(shù)為0.16。動(dòng)量參數(shù)設(shè)置為0.937,Batchsize設(shè)置為16。在模型訓(xùn)練初始階段使用warm-up的方式預(yù)熱學(xué)習(xí)率,設(shè)置的初始預(yù)熱學(xué)習(xí)率為0.02,預(yù)熱動(dòng)量為0.8。改進(jìn)前后YOLOv5s模型在訓(xùn)練過程中的曲線如圖7所示。
由圖7可知,在損失值方面,改進(jìn)后的模型在訓(xùn)練前期損失值的下降速度略低于原模型,但是改進(jìn)后模型的損失值一直處于下降趨勢(shì),并且在模型訓(xùn)練后期逐漸收斂于0.021,低于原模型的損失值。在訓(xùn)練過程中的各項(xiàng)精度方面,改進(jìn)后模型的精確率、召回率和平均精度均值的收斂值均高于原模型。
3 結(jié)果與分析
3.1 檢測(cè)結(jié)果
為測(cè)試改進(jìn)YOLOv5s模型對(duì)無人機(jī)航拍的油茶果實(shí)圖像檢測(cè)的有效性,使用測(cè)試集中151張圖像對(duì)模型進(jìn)行性能測(cè)試。改進(jìn)YOLOv5s模型在測(cè)試集中的檢測(cè)結(jié)果,如圖8所示,可以看出,改進(jìn)YOLOv5s模型可以準(zhǔn)確檢測(cè)到圖像中的小目標(biāo),并且對(duì)被遮擋的果實(shí)也有良好的檢測(cè)效果。
3.2 消融試驗(yàn)
檢測(cè)結(jié)果表明,改進(jìn)后的YOLOv5s模型對(duì)無人機(jī)航拍圖像中的油茶果實(shí)有較好的檢測(cè)效果,并且面對(duì)環(huán)境中存在枝葉遮擋果實(shí)的情況也有較好的魯棒性。但是SPD-Conv坐標(biāo)注意力機(jī)制和NWD邊界框損失函數(shù)對(duì)模型檢測(cè)性能的具體提升還尚待探究。因此,對(duì)改進(jìn)YOLOv5s進(jìn)行消融試驗(yàn),定量分析以上三處改進(jìn)點(diǎn)對(duì)模型帶來的性能提升。改進(jìn)YOLOv5s模型的消融試驗(yàn)結(jié)果如表1所示。
由表1可知,基于YOLOv5s模型提出的三個(gè)改進(jìn)措施在對(duì)無人機(jī)航拍圖像中的油茶果實(shí)檢測(cè)性能中均有提升,總體表現(xiàn)都優(yōu)于消融試驗(yàn)其他方法。當(dāng)使用SPD-Conv取代原始YOLOv5s網(wǎng)絡(luò)中的池化操作時(shí),精確率、召回率、F1分?jǐn)?shù)和平均精度均值分別提升1.9%、0.8%、1.33%和0.5%,并且平均檢測(cè)時(shí)間僅增加了0.3 ms。這表明SPD-Conv可以避免傳統(tǒng)池化操作所造成的細(xì)粒度信息損失,從而提升模型檢測(cè)小目標(biāo)果實(shí)的能力。在YOLOv5s網(wǎng)絡(luò)中同時(shí)引入SPD-Conv和坐標(biāo)注意力機(jī)制時(shí),精確率、召回率、F1分?jǐn)?shù)和平均精度均值分別提升4.2%、2.3%、3.22%和1.7%,平均檢測(cè)速度增加了2.9 ms。這表明坐標(biāo)注意力機(jī)制可以提升模型對(duì)檢測(cè)遮擋果實(shí)的魯棒性有所提升。當(dāng)SPD-Conv、坐標(biāo)注意力機(jī)制和NWD邊界框損失函數(shù)同時(shí)引入YOLOv5s網(wǎng)絡(luò)中時(shí),精確率、召回率、F1分?jǐn)?shù)和平均精度均值分別提升5.6%、4.2%、4.88%和3.6%,且平均檢測(cè)時(shí)間僅增加了3.1 ms。這表明NWD邊界框損失函數(shù)可以提高模型對(duì)小目標(biāo)的檢測(cè)能力。以上三點(diǎn)改進(jìn)可以在保證網(wǎng)絡(luò)檢測(cè)速度的同時(shí),有效提升網(wǎng)絡(luò)對(duì)無人機(jī)航拍圖像中油茶果實(shí)的檢測(cè)能力。
3.3 對(duì)比試驗(yàn)
為了充分驗(yàn)證改進(jìn)YOLOv5s模型對(duì)航拍圖像中的油茶果實(shí)的檢測(cè)能力,選用YOLOv3,YOLOv4和RetinaNet進(jìn)行對(duì)比試驗(yàn)。以上網(wǎng)絡(luò)均設(shè)有多尺度檢測(cè)層,對(duì)目標(biāo)尺度的變化比較敏感,相比于其他目標(biāo)檢測(cè)網(wǎng)絡(luò)更加適用于小目標(biāo)檢測(cè)任務(wù)。對(duì)比試驗(yàn)結(jié)果如表2所示。
由表2可知,改進(jìn)YOLOv5s在測(cè)試集上達(dá)到了93.1%的精確率,90.5%的召回率,91.78%的F1分?jǐn)?shù)和91.2%的平均精度均值,可以看出,改進(jìn)后YOLOv5s網(wǎng)絡(luò)的檢測(cè)精度均優(yōu)于其他模型,并且對(duì)每張圖片的平均檢測(cè)時(shí)間僅為31.7 ms,能夠達(dá)到實(shí)時(shí)檢測(cè)的速度要求。改進(jìn)后的YOLOv5s網(wǎng)絡(luò)對(duì)每張圖像的平均檢測(cè)時(shí)間分別比原YOLOv5s模型和YOLOv4模型高出3.1 ms和6.6 ms,但是改進(jìn)YOLOv5s的檢測(cè)精確率、召回率、F1分?jǐn)?shù)和平均精度均值比原YOLOv5s模型高出了5.6%、4.2%、4.88%和3.6%,比YOLOv4模型高出了6.2%、4.6%、5.38%和3.7%??梢钥闯觯m然改進(jìn)后的YOLOv5s模型的檢測(cè)速度有所下降,但是航拍圖像中油茶果實(shí)的檢測(cè)能力得到了有效提升。與RetinaNet和YOLOv3網(wǎng)絡(luò)相比,改進(jìn)后的YOLOv5s網(wǎng)絡(luò)的檢測(cè)速度和檢測(cè)精度均優(yōu)于以上兩種網(wǎng)絡(luò),在平均精度均值方面分別達(dá)到5.6%和2.9%的提升。改進(jìn)后的檢測(cè)結(jié)果與對(duì)比試驗(yàn)其他模型的檢測(cè)結(jié)果如圖9所示。
4 結(jié)論
1)針對(duì)無人機(jī)航拍圖像中油茶果實(shí)的目標(biāo)檢測(cè)任務(wù)中存在果實(shí)目標(biāo)小,并且有較多遮擋的情況,導(dǎo)致對(duì)其精確檢測(cè)存在困難的問題。對(duì)YOLOv5s進(jìn)行三點(diǎn)改進(jìn):(1)使用SPD-Conv替換網(wǎng)絡(luò)中的池化操作。(2)在頸部網(wǎng)絡(luò)與頭部網(wǎng)絡(luò)的連接處加入坐標(biāo)注意力模塊。(3)引入NWD邊界框損失函數(shù)。最終實(shí)現(xiàn)對(duì)無人機(jī)圖像中的油茶果實(shí)準(zhǔn)確高效地檢測(cè)。
2)改進(jìn)后的YOLOv5s模型對(duì)測(cè)試集的檢測(cè)精確度達(dá)到93.1%,召回率達(dá)到90.5%,F(xiàn)1分?jǐn)?shù)達(dá)到91.78%,平均精度均值達(dá)到91.2%。對(duì)比試驗(yàn)表明,改進(jìn)后的YOLOv5s網(wǎng)絡(luò)的平均精度均值相比YOLOv3、YOLOv4,YOLOv5s和RetinaNet網(wǎng)絡(luò)分別高出2.9%、3.7%,3.6%和5.6%。改進(jìn)后的YOLOv5s對(duì)圖像中的小目標(biāo)油茶果實(shí)和遮擋狀態(tài)下的油茶果實(shí)的檢測(cè)能力有明顯提升。
3)消融試驗(yàn)表明,在YOLOv5s模型中使用SPD-Conv,坐標(biāo)注意力機(jī)制和NWD邊界框損失函數(shù)對(duì)原模型檢測(cè)小目標(biāo)和遮擋目標(biāo)能力得到有效提升。
參 考 文 獻(xiàn)
[1] 羅凡, 費(fèi)學(xué)謙, 郭少海. 油茶果采收及干燥方式對(duì)油茶籽油品質(zhì)的影響[J]. 中國油脂, 2015, 40(11): 69-73.
Luo Fan, Fei Xueqian, Guo Shaohai. Effects of harvest time and drying methods on quality of oil-tea camellia seed oil [J]. China Oils and Fats, 2015, 40(11): 69-73.
[2] 閆鋒欣, 李許杰, 楊永霞, 等. 手持沖擊梳刷式油茶果采摘裝置設(shè)計(jì)與試驗(yàn)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2023, 54(12):129-140.
Yan Fengxin, Li Xujie, Yang Yongxia, et al. Design and experiment of hand-held impacting comb-type Camellia oleifera fruit harvester [J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(12): 129-140.
[3] 伍德林, 楊俊華, 劉蕓, 等. 我國油茶果采摘裝備研究進(jìn)展與趨勢(shì)[J]. 中國農(nóng)機(jī)化學(xué)報(bào), 2022, 43(1): 186-194.
Wu Delin, Yang Junhua, Liu Yun,et al. Research progress and trend of camellia fruit picking equipment in China [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(1): 186-194.
[4] Yuan H, Huang K, Ren C, et al. Pomelo tree detection method based on attention mechanism and cross-layer feature fusion [J]. Remote Sensing, 2022, 14(16): 3902.
[5] Koirala A, Walsh K B, Wang Z, et al. Deep learning for real-time fruit detection and orchard fruit load estimation: Benchmarking of ‘MangoYOLO’ [J]. Precision Agriculture, 2019, 20(6): 1107-1135.
[6] 趙輝, 喬艷軍, 王紅君, 等. 基于改進(jìn)YOLOv3的果園復(fù)雜環(huán)境下蘋果果實(shí)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(16): 127-135.
Zhao Hui, Qiao Yanjun, Wang Hongjun, et al. Apple fruit recognition in complex orchard environment based on improved YOLOv3 [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(16): 127-135.
[7] Wu D, Jiang S, Zhao E, et al. Detection of Camellia oleifera fruit in complex scenes by using YOLOv7 and data augmentation [J]. Applied Sciences, 2022, 12(22): 11318.
[8] Tang Y, Zhou H, Wang H, et al. Fruit detection and positioning technology for a Camellia oleifera C. Abel orchard based on improved YOLOv4-tiny model and binocular stereo vision [J]. Expert Systems with Applications, 2023, 211: 118573.
[9] 呂帥朝, 馬寶玲, 宋磊, 等. 基于YOLON網(wǎng)絡(luò)的多形態(tài)油茶果實(shí)夜間檢測(cè)方法研究[J]. 西北農(nóng)林科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2023(8): 141-154.
Lü Shuaichao, Ma Baoling, Song Lei, et al. Nighttime detection method of polymorphic Camellia oleifera fruits based on YOLON network [J]. Journal of Northwest A amp; F University (Natural Science Edition), 2023(8): 141-154.
[10] 宋懷波, 王亞男, 王云飛, 等. 基于YOLO v5s的自然場(chǎng)景油茶果識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022, 53(7): 234-242.
Song Huaibo, Wang Yanan, Wang Yunfei, et al. Camellia oleofera fruit detection in natural scene based on YOLOv5s [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(7): 234-242.
[11] Chen S, Zou X, Zhou X, et al. Study on fusion clustering and improved YOLOv5 algorithm based on multiple occlusion of Camellia oleifera fruit [J]. Computers and Electronics in Agriculture, 2023, 206: 107706.
[12] 嚴(yán)恩萍, 棘玉, 尹顯明, 等. 基于無人機(jī)影像自動(dòng)檢測(cè)冠層果的油茶快速估產(chǎn)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(16): 39-46.
Yan Enping, Ji Yu, Yin Xianming, et al. Rapid estimation of camellia oleifera yield based on automatic detection of canopy fruits using UAV images [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(16): 39-46.
[13] 尹川, 蘇議輝, 潘勉, 等. 基于改進(jìn)YOLOv5s的名優(yōu)綠茶品質(zhì)檢測(cè)算法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2023, 39(8): 179-187.
Yin Chuang, Su Yihui, Pan Mian, et al. Detection of the quality of famous green tea based on improved YOLOv5s [J]. Transactions of the Chinese Society of Agricultural Engineering, 2023, 39(8): 179-187.
[14] Chen C, Liu M Y, Tuzel O, et al. R-CNN for small object detection [C]. Computer Vision-ACCV 2016: 13th Asian Conference on Computer Vision, 2017: 214-230.
[15] Sunkara R, Luo T. No more strided convolutions or pooling: A new CNN building block for low-resolution images and small objects [C]. Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 2022: 443-459.
[16] Hou Q, Zhou D, Feng J. Coordinate attention for efficient mobile network design [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13713-13722.
[17] Xu C, Wang J, Yang W, et al. Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 190: 79-93.
[18] Sajjadi M S M, Vemulapalli R, Brown M. Frame-recurrent video super-resolution [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 6626-6634.
中國農(nóng)機(jī)化學(xué)報(bào)2024年12期