摘 "要: 為實現(xiàn)無人農(nóng)機在行駛過程中對田間移動型障礙物的實時檢測,提出一種基于YOLOv5s的目標(biāo)檢測模型,用于檢測田間行人和其他協(xié)同作業(yè)的農(nóng)機設(shè)備。該目標(biāo)檢測模型以YOLOv5s模型為基礎(chǔ)框架,進行了以下三點改進:第一,為了減少模型的參數(shù)量和計算復(fù)雜度,提高推理速度,將YOLOv5s網(wǎng)絡(luò)模型中的卷積模塊和C3模塊替換為Ghost卷積和C3Ghost模塊;第二,為了彌補模型參數(shù)量減少所造成的精度下降的損失,提升對目標(biāo)的檢測能力,在主干網(wǎng)絡(luò)輸出的特征層中引入CBAM注意力機制;第三,采用BiFPN特征金字塔結(jié)構(gòu),實現(xiàn)多尺度特征加權(quán)融合。實驗結(jié)果表明,YOLOv5s模型的參數(shù)量為7.02×106,計算復(fù)雜度為15.8 GB,平均檢測精度為94%,生成權(quán)重文件大小為13.7 MB,單幅圖像的檢測速度為71.43 f/s;改進后的模型參數(shù)量為4.04×106,下降了42.45%,計算復(fù)雜度縮減為8.5 GB,平均檢測精度達到了93.2%,僅僅下降了0.8%,權(quán)重文件大小為8.1 MB,單幅圖像的檢測速度為77.52 f/s。以上數(shù)據(jù)證明,改進后的模型能夠滿足對田間移動型障礙物的實時檢測,且更加易于部署到移動端設(shè)備。
關(guān)鍵詞: 移動型障礙物; YOLOv5s; 無人農(nóng)機; 目標(biāo)檢測; CBAM注意力機制; 雙向特征金字塔網(wǎng)絡(luò)(BiFPN)
中圖分類號: TN911.73?34; TP391.4; S24 " " " " " " 文獻標(biāo)識碼: A " " " " " " " 文章編號: 1004?373X(2024)06?0171?08
Detection of improved YOLOv5s based mobile obstacles in field
HOU Yanlin, ARKIN Hamdulla, LI Henan
(College of Mechanical Engineering, Xinjiang University, Urumqi 830017, China)
Abstract: In order to realize the real?time detection of movable obstacles in the field during the operation of unmanned agricultural machinery, an object detection model based on YOLOv5s is proposed, which is used to detect people and other agricultural machineries with collaborative operations in the farmland. In the object detection model, the YOLOv5s is used as the basic framework to conduct three improvements. In order to reduce the number of parameters and computational complexity of the model, and improve inference speed, the convolution module and C3 module in the YOLOv5s network model are replaced with Ghost convolution and C3Ghost modules. In order to compensate for the loss of accuracy caused by the reduction of model parameters and improve the detection ability of targets, CBAM attention mechanism is introduced in the feature layer output by the backbone network. The BiFPN feature pyramid structure is used to achieve multi?scale feature weighted fusion. The experimental results show that the parameter size of the YOLOv5s model is 7.02×106, the computational complexity is 15.8 GB, the average detection accuracy is 94%, the generated weight file size is 13.7 MB, and the detection speed of a single image is 71.43 f/s. The parameter size of the improved model is 4.04×106, with a decrease of 42.45%, the computational complexity is 8.5 GB, the average detection accuracy is 93.2%, with a decrease of 0.8%, the generated weight file size is 8.1 MB, and the detection speed of a single image is 77.52 f/s. The above data proves that the improved model can meet the real?time detection of mobile obstacles in the field and is easier to deploy to mobile devices.
Keywords: mobile obstacles; YOLOv5s; unmanned agricultural machinery; object detection; CBAM attention mechanism; bidirectional feature pyramid network (BiFPN)
0 "引 "言
作為智能農(nóng)業(yè)的重要發(fā)展動力,無人駕駛農(nóng)機技術(shù)已經(jīng)成為農(nóng)業(yè)數(shù)字化、智能化的重要標(biāo)志和發(fā)展新潮流[1]。自動導(dǎo)航技術(shù)是無人農(nóng)機自主作業(yè)的關(guān)鍵,農(nóng)機在田間作業(yè)時會遇到其他協(xié)同作業(yè)的農(nóng)機與行人,精確快速識別這些障礙物是實現(xiàn)農(nóng)機自動導(dǎo)航的前提與基礎(chǔ)。國內(nèi)許多研究學(xué)者針對農(nóng)機設(shè)備如何識別田間障礙物并實現(xiàn)自動導(dǎo)航問題進行了深入研究。袁文濤等針對農(nóng)田典型障礙物——樹木和拖拉機,提出一種基于激光測距儀的自主導(dǎo)航拖拉機前方障礙物檢測方法,該方法對障礙物數(shù)據(jù)進行處理,實現(xiàn)了對拖拉機前方障礙物的方位和距離等信息的識別[2]。茍琴等通過對左右場景視差圖進行閾值過濾,完成了試驗田下障礙物的檢測與定位[3]。孫柯等采用雙毫米波雷達協(xié)同作業(yè)的方法,完成了對障礙物前方和側(cè)方距離的檢測[4]。楊洋等利用激光雷達建立拖拉機在行進方向上的動態(tài)識別區(qū)域,用于感知障礙物,然后利用該方向上的障礙物位置建立雷達坐標(biāo)系下的避障路徑簇,并從中選取最優(yōu)路徑,以此實現(xiàn)農(nóng)機自主避障[5]。郭成洋等利用激光傳感器獲得障礙物相對于農(nóng)機的距離信息,通過優(yōu)化人工勢場函數(shù)完成了農(nóng)機的自主避障[6]。深度學(xué)習(xí)的發(fā)展為田間障礙物識別提供了新方向[7]。劉艷平等采用ResNet152作為Mask RCNN檢測模型的主干網(wǎng)絡(luò),實現(xiàn)了對柑橘和障礙物的檢測[8]。薛金林等提出一種基于CNN的農(nóng)業(yè)車輛障礙物檢測方法,實現(xiàn)了田間環(huán)境下農(nóng)機與行人識別[9]。陳斌等為實現(xiàn)自主農(nóng)機導(dǎo)航,對YOLOv3?tiny檢測模型進行重構(gòu),提高了對田間行人和其他農(nóng)機的檢測精度[10]。蔡舒平等為降低模型參數(shù)量,將YOLOv4網(wǎng)絡(luò)模型中的卷積替換為深度可分離卷積,同時為提高算法對密集區(qū)域下目標(biāo)的識別能力,采用軟性非極大值抑制算法,更好地實現(xiàn)了對果園障礙物的檢測[11]。王新彥等以YOLOv5s模型為基礎(chǔ),將SE注意力機制和分層殘差模塊進行融合后,替換Bottleneck中的殘差模塊,以更好地提取目標(biāo)特征信息;同時為了減少模型參數(shù)量,對改進后的模型進行剪枝處理。實驗結(jié)果表明,改進后的模型能夠?qū)崿F(xiàn)割草機器人對于障礙物的實時檢測[12]。為了實現(xiàn)無人農(nóng)機在自主導(dǎo)航過程中對田間行人和其他農(nóng)機的實時檢測,本文提出一種基于YOLOv5s的目標(biāo)檢測算法。為了減少參數(shù)量和計算復(fù)雜度,提高對田間障礙物的檢測速度,設(shè)計一種輕量化網(wǎng)絡(luò),并在網(wǎng)絡(luò)結(jié)構(gòu)中融入CBAM注意力機制和BiFPN結(jié)構(gòu),以提升模型的檢測精度。
1 "YOLOv5s目標(biāo)檢測模型
YOLOv5s目標(biāo)檢測模型是Ultralytics公司推出的YOLOv5算法中最小的一個檢測模型,主要用于輕量化研究。YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)主要由主干網(wǎng)絡(luò)、Neck網(wǎng)絡(luò)和預(yù)測輸出層三部分構(gòu)成,如圖1所示。
圖1中,主干網(wǎng)包括Conv、CSP和SPPF模塊。Focus通過切片處理增加圖像通道,加快運算速度;CSP結(jié)構(gòu)[13]在減少網(wǎng)絡(luò)參數(shù)的同時,能夠有效提取特征信息;SPPF用于實現(xiàn)局部特征信息與全局特征信息的拼接融合。Neck網(wǎng)絡(luò)中采用了FPN[14]和PAN[15]結(jié)構(gòu),將不同尺度的特征信息融合在一起,有效加強了檢測器的特征提取性能。
預(yù)測輸出層包括3個特征輸出層,完成目標(biāo)的分類和預(yù)測。
2 "改進的YOLOv5檢測算法
本文以半封閉農(nóng)田中行人與農(nóng)機作為移動障礙物,在YOLOv5s基礎(chǔ)上提出一種輕量化的檢測模型,其模型結(jié)構(gòu)如圖2所示,主要進行3個方面的改進。
2.1 "模型結(jié)構(gòu)輕量化
為了減少YOLOv5s模型的參數(shù)量和計算復(fù)雜度,本文參照GhostNet[16],將網(wǎng)絡(luò)中的Conv替換為Ghost卷積,同時將主干網(wǎng)絡(luò)中的C3模塊替換為C3Ghost模塊。Ghost卷積的操作過程如圖3所示,可分為兩個執(zhí)行步驟:首先,利用傳統(tǒng)卷積對輸入圖像信息進行計算,得到部分原始特征圖,輸出的特征圖具有較好的通道;隨后,對以上輸出的特征圖進行線性變換,得到冗余特征圖,在通道方向上將輸出的冗余特征圖和原始特征圖進行拼接,這樣就得到了最終的輸出特征圖。
假設(shè)輸入特征圖的大小為[H?W?C],采用卷積核的大小為[C?K?N?N],輸出特征圖的大小為[H?W?N],利用傳統(tǒng)卷積所得到的計算量為[P=H?W?N?C?K?K];在采用Ghost卷積時,假設(shè)存在單個恒等映射,并且線性運算的個數(shù)是[M·S-1=NS?S?S-1],線性運算中采用卷積核大小均設(shè)定為[D?D],則卷積計算量大小為[Q=NS?H?W?N?C?K?K+S-1?NS?H?W?D?D]。二者參數(shù)量之比[Rate]公式如下:
[Rate=PQ≈S?CS+C-1≈S] (1)
通過公式(1)可知,Ghost卷積能夠有效減少模型參數(shù)計算量,加快推理速度。因此,可以將Ghost模塊與C3模塊進行融合,獲得新模塊C3Ghost。C3Ghost結(jié)構(gòu)如圖4所示。
2.2 "CBAM注意力機制嵌入
在神經(jīng)網(wǎng)絡(luò)模型中引入注意力機制,可以有效增強模型的檢測性能。為了減緩模型輕量化后造成的檢測精度下降,本文在主干網(wǎng)絡(luò)的特征輸出層嵌入CBAM注意力機制[17],其結(jié)構(gòu)如圖5所示。CBAM機制能夠使網(wǎng)絡(luò)模型在通道和空間兩個方向上重點關(guān)注檢測目標(biāo)信息,從而提高模型的檢測能力。
CBAM機制包括通道注意力機制和空間注意力機制,圖6和圖7分別為通道注意力機制和空間注意力機制結(jié)構(gòu)。
對于輸入的特征圖[F∈RH×W×C],CBAM機制進行以下兩個部分的操作。
首先在通道注意力機制模塊中將全局平均池化和全局最大池化處理后的特征圖送入多層感知器(MLP);然后將MLP輸出的特征圖進行相加并經(jīng)過[Sigmoid]函數(shù),這樣得到輸入特征層的每一個通道的權(quán)值(0~1之間);之后將獲得的權(quán)值乘以原輸入特征層,這樣就得到了通道注意力特征圖[McF],表達式如下:
[McF=σMLPAvgPoolF+MLPMaxPoolF=σW1W0Fcavg+W1W0Fcmax] (2)
式中:[σ]為[Sigmoid]函數(shù);[W0]和[W1]表示多層感知器的參數(shù)。
然后,將通道注意力特征圖[McF]與特征圖[F∈RH×W×C]進行直積處理得到[F]。在空間注意力機制模塊,將輸入特征[F]依次進行全局最大池化處理和平均池化處理,生成兩個大小為[H×W×1]的特征圖,在通道方向上對其進行拼接后,再進行[7×7]卷積操作,降維得到一個通道。然后利用非線性函數(shù)[Sigmoid]進行激活,得到輸入特征層上每一個特征點的權(quán)值(0~1之間)。之后將獲得的權(quán)值乘以原輸入特征層,就得到了空間注意力特征圖[MsF],表達式如下:
[MsF=σf7×7AvgPoolF;MaxPoolF=σf7×7F′avg;F′max] (3)
將[F]與空間注意力特征圖[MsF]進行直積處理就得到了最終輸出特征圖[F]。
2.3 "加權(quán)特征信息融合
YOLOv5s頸部網(wǎng)絡(luò)結(jié)構(gòu)采用了FPN和PAFPN網(wǎng)絡(luò),如圖8a)和8b)所示,二者將骨干網(wǎng)絡(luò)輸出的特征信息進行多尺度融合,但是該結(jié)構(gòu)會破壞不同尺度信息的一致性,從而影響對農(nóng)機設(shè)備和行人的檢測精度。采用BiFPN[18]網(wǎng)絡(luò)能夠有效實現(xiàn)多尺度特征信息融合,結(jié)構(gòu)如圖8c)所示,該結(jié)構(gòu)采用了跨尺度連接方式,將PAFPN結(jié)構(gòu)中對于特征融合作用較小的節(jié)點剔除,并且可以在相同尺度的輸入和輸出節(jié)點直接進行連接。
此外,該結(jié)構(gòu)能夠?qū)崿F(xiàn)加權(quán)特征融合,對不同尺度特征圖的貢獻度進行調(diào)節(jié)。BiFPN加權(quán)特征融合計算公式如下:
[O=iWie+jWjIi] (4)
式中:[e]表示學(xué)習(xí)率,取0.000 1;[Wi]和[Wj]表示特征權(quán)重;[Ii]表示輸入特征圖。
3 "實驗與分析
3.1 "數(shù)據(jù)集采集
通過視頻截取、手機拍攝和網(wǎng)絡(luò)爬蟲等多種方法獲取圖像共計8 623張,包括農(nóng)機和田間行人兩個類別,利用標(biāo)注工具對其進行目標(biāo)標(biāo)注后,按照8∶1∶1的比例進行劃分,最終獲得6 898張訓(xùn)練集圖像、863張測試集圖像和862張驗證集圖像。
3.2 "實驗環(huán)境與參數(shù)設(shè)置
本文實驗是在Windows 11操作系統(tǒng)上完成,CPU型號為12th Gen Intel i7?12700H,內(nèi)存為32 GB,GPU為NVIDIA GTX 3070Ti顯卡,顯卡內(nèi)存為8 GB,編譯語言采用Python 3.10,CUDA版本為12.0,深度學(xué)習(xí)框架采用Pytorch 1.13.1,編輯器采用Vscode。模型訓(xùn)練參數(shù)設(shè)置如表1所示。
3.3 "模型評價指標(biāo)
本文采用精確率(P)、召回率(R)、F1值以及平均識別準(zhǔn)確率(AP)作為模型的檢測精度評估指標(biāo)。以權(quán)重文件(Weight)作為模型大小的評價指標(biāo),以浮點數(shù)計算量(FLOPs)作為模型復(fù)雜度的評價指標(biāo),以每秒檢測幀數(shù)作為模型檢測速度的評估指標(biāo)。各指標(biāo)的計算公式如下:
[P=TPTP+FP] (5)
[R=TPTP+FN] (6)
[AP=TP+TNTP+FP+TN+FN] (7)
[F1=2PR(P+R)] (8)
式中:TP表示樣本被分為正樣本且分類正確;TN表示樣本被分為負樣本且分類正確;FP表示樣本被分為正樣本但分類錯誤;FN表示樣本被分為負樣本但分類錯誤。
3.4 "模型訓(xùn)練分析
改進后的網(wǎng)絡(luò)模型在訓(xùn)練過程中的各類損失函數(shù)曲線以及平均識別精度曲線如圖9所示。
根據(jù)圖9a)可以看出,整個訓(xùn)練過程,模型的各個損失函數(shù)曲線呈下降趨勢。其中,邊界框損失函數(shù)值下降尤為明顯,而置信度損失函數(shù)曲線和分類損失函數(shù)曲線在100輪之后較為平緩。
由圖9b)可知,在驗證過程的前75輪左右,模型的三種損失函數(shù)曲線處于下降狀態(tài),在之后的125輪中,損失函數(shù)值變化幅度很小,表明模型已經(jīng)到達擬合狀態(tài)。
由圖9c)可以看出,在訓(xùn)練過程中的前75輪,模型的AP值快速增長,這是因為模型在此之前處于高速擬合過程;在此之后的125輪中,由于學(xué)習(xí)率數(shù)值變化極小,AP曲線已經(jīng)收斂,但是仍然存在輕微振蕩。最終獲得模型的平均識別精度為93.2%,PR曲線如圖9d)所示。
3.5 "消融實驗
為了驗證各個模塊對模型性能的影響,本文設(shè)計了5組對比實驗,驗證情況如表2所示。
根據(jù)表2可以看出,YOLOv5網(wǎng)絡(luò)中引入了C3Ghost模塊和Ghost卷積之后,模型的參數(shù)量和計算復(fù)雜度分別減少了48.34%和48.1%,模型對于單張圖像的推理速度提升至12 ms,平均識別精度下降了1.5%,生成模型大小為7.4 MB,是原始模型大小的54%。融入CBAM注意力機制后,模型的精度提升至94.2%,表明模型能夠進一步關(guān)注于行人及農(nóng)機目標(biāo)區(qū)域。此外,引入BiFPN模塊后的模型平均識別精度提升了0.7%,表明該結(jié)構(gòu)能夠保證不同目標(biāo)特征的一致性。改進后的網(wǎng)絡(luò)模型在識別精度僅僅下降0.8%的情況下,參數(shù)量和計算復(fù)雜度卻下降了42.45%和46.2%。檢測單幅圖像的時間為12.9 ms,能夠滿足對田間行人和其他農(nóng)機障礙物的實時檢測。
3.6 "不同模型對比實驗
為了驗證模型的有效性,本文在同一數(shù)據(jù)集下對深度學(xué)習(xí)領(lǐng)域中常見的主流檢測模型進行訓(xùn)練,并記錄實驗結(jié)果,然后同本文模型進行對比,對比結(jié)果如表3所示。
根據(jù)表3可知:本文所提出的目標(biāo)檢測模型識別精度達到93.2%,同Retinanet[19]、Faster R?CNN[20]、SSD[21]、YOLOv3[22]、YOLOv4[23]以及YOLOX[24]相比,分別提升了14.1%、13.3%、4%、4.3%、2.4%和2%;同YOLOv5s相比,平均識別精度僅僅下降了0.8%,能夠滿足檢測要求。同時,經(jīng)過改進后的模型的參數(shù)量大小為4.04×106,浮點運算次數(shù)為8.5 GB,相對于以上對比的檢測模型均有了大幅度下降;生成的權(quán)重文件大小僅為8.1 MB,更加易于實現(xiàn)向移動端部署。此外,改進后的模型在單幅圖像上測試的檢測速度為77.52 f/s,高于其他模型,能夠滿足對行人及其他協(xié)作農(nóng)機設(shè)備的實時性檢測。圖10是改進模型檢測效果。
由圖10可知,改進后的模型能夠準(zhǔn)確識別田間移動障礙物。
4 "結(jié) "語
為了實現(xiàn)無人農(nóng)機在田間作業(yè)過程中對移動型障礙物的實時檢測,本文提出一種基于YOLOv5s的輕量化目標(biāo)檢測模型。在YOLOv5s的架構(gòu)基礎(chǔ)上,通過采用Ghost卷積和C3Ghost模塊來減少模型參數(shù)及計算量,同時融入CBAM機制和BiFPN結(jié)構(gòu)來彌補輕量化所造成的精度損失。利用自制數(shù)據(jù)集對模型進行訓(xùn)練和驗證,實驗結(jié)果表示,經(jīng)過改進后的模型的參數(shù)量約下降了42.45%,計算復(fù)雜度由原來的15.8 GB下降至8.5 GB,識別精度僅僅下降了0.8%,達到93.2%,單幅圖像檢測速度為77.52 f/s,更易于向移動端設(shè)備移植。
注:本文通訊作者為艾爾肯·亥木都拉。
參考文獻
[1] 南農(nóng).國內(nèi)外無人化農(nóng)業(yè)發(fā)展現(xiàn)狀[J].南方農(nóng)機,2020,51(21):6.
[2] 袁文濤,劉卉,胡書鵬.面向自動導(dǎo)航拖拉機的農(nóng)田障礙物識別研究[J].農(nóng)機化研究,2018,40(10):247?251.
[3] 茍琴,耿楠,張志毅.基于視差圖的未知環(huán)境下農(nóng)田障礙物檢測方法[J].計算機工程與設(shè)計,2013,34(2):707?710.
[4] 孫柯,吳開華,王亞濤,等.基于毫米波雷達的植保無人機避障系統(tǒng)研究[J].傳感器與微系統(tǒng),2020,39(6):73?76.
[5] 楊洋,溫興,馬強龍,等.基于貝塞爾曲線的動態(tài)識別區(qū)農(nóng)機避障路徑實時規(guī)劃[J].農(nóng)業(yè)工程學(xué)報,2022,38(6):34?43.
[6] 郭成洋,劉美辰,高澤寧,等.基于改進人工勢場法的農(nóng)機避障方法研究[J].中國農(nóng)機化學(xué)報,2020,41(3):152?157.
[7] 張陽婷,黃德啟,王東偉,等.基于深度學(xué)習(xí)的目標(biāo)檢測算法研究與應(yīng)用綜述[J].計算機工程與應(yīng)用,2023,59(18):1?13.
[8] 劉艷平.柑橘采摘機器人障礙物識別與定位方法研究[D].重慶:重慶理工大學(xué),2019.
[9] 薛金林,李雨晴,曹梓建.基于深度學(xué)習(xí)的模糊農(nóng)田圖像中障礙物檢測技術(shù)[J].農(nóng)業(yè)機械學(xué)報,2022,53(3):234?242.
[10] 陳斌,張漫,徐弘禎,等.基于改進YOLO v3?tiny的全景圖像農(nóng)田障礙物檢測[J].農(nóng)業(yè)機械學(xué)報,2021,52(z1):58?65.
[11] 蔡舒平,孫仲鳴,劉慧,等.基于改進型YOLOv4的果園障礙物實時檢測方法[J].農(nóng)業(yè)工程學(xué)報,2021,37(2):36?43.
[12] 王新彥,易政洋.基于改進YOLOv5的割草機器人工作環(huán)境障礙物檢測方法研究[J].中國農(nóng)機化學(xué)報,2023,44(3):171?176.
[13] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN [C]// Proceeding of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle: IEEE, 2020: 1571?1580.
[14] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 936?944.
[15] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 8759?8768.
[16] HAN K, WANG Y H, TIAN Q, et al. GhostNet: More features from cheap operations [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020: 1577?1586.
[17] WOO S Y, PARK J C, LEE T Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the 15th European Conference on Computer Vision. Munich: Springer, 2018: 3?19.
[18] TAN M, PANG R, LE Q V. EfficientDet: scalable and efficient object detection [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE. 2020: 10778?10787.
[19] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [J]. IEEE transactions on pattern analysis amp; machine intelligence, 2017(99): 2999?3007.
[20] REN S, HE K, GIRSHICK R, et al. Faster R?CNN: towards real-time object detection with region proposal networks [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 2577031.
[21] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multi box detector [EB/OL]. [2023?01?14]. https://doc.taixueshu.com/patent/arXiv151202325.html.
[22] REDMON J, FARHADI A. YOLOv3: An incremental improvement [EB/OL]. [2023?04?12]. https://arxiv.org/abs/1804.02767.
[23] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLO v4: optimal speed and accuracy of object detection [EB/OL]. [2022?12?07]. https://arxiv.org/abs/2004.10934.
[24] GE Z, LIU S, WANG F, et al. YOLO X: Exceeding YOLO series in 2021 [EB/OL]. [2023?04?14]. https://arxiv.org/abs/2107.08430.