牛洪超,胡曉兵,羅耀俊
(1.四川大學(xué) 機(jī)械工程學(xué)院,四川 成都 610065; 2.四川大學(xué) 宜賓產(chǎn)業(yè)技術(shù)研究院,四川 宜賓 644000)
隨著計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展,促進(jìn)了智能醫(yī)療、智能安檢、智能機(jī)器人和自動駕駛等領(lǐng)域的快速飛躍,尤其是在自動駕駛領(lǐng)域,如何研究出精準(zhǔn)高效的目標(biāo)檢算法是一項(xiàng)具有重大意義與充滿挑戰(zhàn)的研究工作。自動駕駛檢測的目標(biāo)主要分為靜態(tài)與動態(tài)目標(biāo),靜態(tài)目標(biāo)如交通標(biāo)志、障礙物等;動態(tài)目標(biāo)如車輛、行人等,目前所存在的難點(diǎn)主要有:①待檢測的目標(biāo)存在遮擋且密集的情況;②遠(yuǎn)處的目標(biāo)在圖像中存在模糊且所占據(jù)的像素點(diǎn)少的情況;③外界天氣環(huán)境的干擾;④檢測速度與精度的要求。如何解決上述問題,是自動駕駛領(lǐng)域目標(biāo)檢測算法設(shè)計(jì)的基準(zhǔn)。
由于傳統(tǒng)的特征提取都是人工設(shè)計(jì),存在較大的局限性,并且在檢測的時候易受外部環(huán)境的干擾,其整體檢測精度較差,無法應(yīng)用于自動駕駛這種復(fù)雜的場景中。近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)具有能夠自主完成對目標(biāo)特征提取的能力?;谀壳白詣玉{駛領(lǐng)域所存在問題,同時考慮到自動駕駛對算法性能與效率的要求,本文選擇對一階段算法YOLOv5進(jìn)行探索改進(jìn),將其應(yīng)用于自動駕駛領(lǐng)域,同時為了比較算法在自動駕駛上性能的提升,使用公開的自動駕駛數(shù)據(jù)集BDD100K進(jìn)行分析驗(yàn)證。
現(xiàn)階段的目標(biāo)檢測算法可以分為兩種,一種是分為兩步來完成的,如Cascade R-CNN[1]、Faster R-CNN[2]等,這類算法首先利用網(wǎng)絡(luò)提取可能存在目標(biāo)的候選區(qū)域,再利用后續(xù)的卷積神經(jīng)網(wǎng)絡(luò)完成分類與邊界框預(yù)測。這類算法的精度一般比較高,但檢測時間較長。另一種是單階段算法,如SSD[3]、YOLO[4]等。這類算法利用目標(biāo)回歸的思想,直接得出預(yù)測的邊界框與類別的信息。這類算法的運(yùn)行速度往往較快,滿足實(shí)時性需求,因SSD算法對圖片分辨率敏感,且檢測效果不如YOLO系列,目前YOLO系列已發(fā)展至YOLOv5系列,其性能有了巨大的提升。因此本文選擇通過改進(jìn)YOLOv5[5]模型來進(jìn)行實(shí)驗(yàn)。
YOLO系列算法首先將輸入圖片進(jìn)行劃分單元格,在每個單元格里進(jìn)行候選框的判斷,若目標(biāo)的中心落在這個單元格中,則這個單元格就負(fù)責(zé)預(yù)測這個目標(biāo),正是這種基于單元格的檢測方式,使得YOLO系列算法的檢測速度較為快速。目前YOLO系列算法已更新至YOLOv5,其中YOLOv5s為其系列中最小的模型,因此本文從YOLOv5s模型入手,探究更好的YOLO模型,其結(jié)構(gòu)如圖1所示。
圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
相比于YOLOv3[6],YOLOv5更加復(fù)雜。從上圖可知,YOLOv5s網(wǎng)絡(luò)可以分為3個模塊,第一個是主干網(wǎng)絡(luò),其組成部分為Focus模塊、BottlenCSP1模塊和SPP模塊組成。BottlenCSP1模塊是在殘差網(wǎng)絡(luò)基礎(chǔ)上加入CSPNet[7]結(jié)構(gòu),將梯度的變化集成到特征圖上,只需要將輸入的特征分為兩部分,一部分進(jìn)行卷積,另一部分與上一次的結(jié)果進(jìn)行拼接融合,BottlenCSP1結(jié)構(gòu)不僅可以減少整體的計(jì)算量,同時也有效增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。SPP模塊是通過空間金字塔池化操作來增加網(wǎng)絡(luò)整體的感受野。第二個為頸部(Neck)網(wǎng)絡(luò),所采用的模塊是PANet[8]結(jié)構(gòu)。第三個為頭部(Head)網(wǎng)絡(luò),用于輸出不同大小物體的檢測結(jié)果。
雖然YOLOv5具有良好的檢測能力,但是它是以COCO數(shù)據(jù)集為基礎(chǔ),如果應(yīng)用于自動駕駛領(lǐng)域,存在著對小目標(biāo)的檢測能力不足,尤其是在目標(biāo)存在模糊、密集以及遮擋等情況下。同時,YOLOv5中的特征增強(qiáng)模塊PANet側(cè)重于深度特征圖的融合,削弱了對小目標(biāo)的檢測能力,且上采樣操作間接增加干擾噪聲,而在自動駕駛領(lǐng)域中,及時發(fā)現(xiàn)小目標(biāo)或者遠(yuǎn)處的目標(biāo),對于其安全性有著重大的作用。因此,本文通過對模型進(jìn)行改進(jìn),進(jìn)一步提高模型在自動駕駛領(lǐng)域的檢測能力。
根據(jù)上述YOLOv5的不足之處,分別從主干網(wǎng)絡(luò)、特征增強(qiáng)網(wǎng)絡(luò)以及后處理上對YOLOv5進(jìn)行改進(jìn),改進(jìn)后的M-YOLO網(wǎng)絡(luò)模型如圖2所示。
目前基于深度學(xué)習(xí)的目標(biāo)檢測模型無不依賴于CNN分類網(wǎng)絡(luò)作為特征提取器,如SSD采用卷積神經(jīng)網(wǎng)絡(luò)VGGNet,YOLOv3采用殘差ResNet網(wǎng)絡(luò)等。殘差網(wǎng)絡(luò)ResNet是目標(biāo)檢測領(lǐng)域最常用的主干網(wǎng)絡(luò),但是殘差網(wǎng)絡(luò)提取的特征不具有細(xì)粒度,提取特征的能力不夠強(qiáng)。DenseNet[9]是通過密集連接的方式將具有不同感受野的中間特征進(jìn)行融合。ResNet和DenseNet的主要區(qū)別是在于它們聚合特征的方式不同,Resnet通過求和的方式來聚合,而DenseNet通過密集連接的方式,原始的特征信息在相加的時候會被覆蓋掉,而利用連接的方式可以將原始的信息持續(xù)傳下去。一些研究表明,具有多個感受野的抽象特征可以捕獲不同尺度的視覺信息,正是因?yàn)檫@樣,DenseNet保留和積累了更多不同感受野的特征,比ResNet具有更好、更多樣化的特征表達(dá)能力。因此在提取特征能力上比ResNet更強(qiáng),而且參數(shù)與計(jì)算量更少,但是由于DenseNet中密集連接所導(dǎo)致高內(nèi)存訪問成本與能量消耗,使得其預(yù)測速度較慢。針對上述問題,最近提出的網(wǎng)絡(luò)模型VOVNet[10]在DenseNet基礎(chǔ)上,刪除密集連接,只在最后一層聚合前面所有層的信息,這不僅繼承了DenseNet的優(yōu)點(diǎn),同時有效解決了內(nèi)存訪問問題和充分利用了GPU的并行計(jì)算能力,其性能表現(xiàn)也超越DenseNet與ResNet。其中VOVNet網(wǎng)絡(luò)中的OSA(one-shot aggregation)模塊如圖3(a)所示。
本文使用改進(jìn)的OSA模塊替代YOLOv5網(wǎng)絡(luò)中的BottlenCSP1結(jié)構(gòu),其結(jié)構(gòu)如圖3(b)所示。改進(jìn)的OSA模塊是在OSA模塊基礎(chǔ)上添加殘差連接與改進(jìn)的注意力機(jī)制,增加殘差連接,可以訓(xùn)練出性能更加強(qiáng)大的網(wǎng)絡(luò)。另外,在最后的特征層上加上esenet模塊來進(jìn)一步增強(qiáng)特征,原始的注意力機(jī)制包含兩個全連接層,其中中間的全連接層主要是為了降維,這在一定程度上會造成信息的損失,因此在esenet模塊中去掉這個中間層,其結(jié)構(gòu)如圖3(c)所示。
圖2 M-YOLO結(jié)構(gòu)
圖3 改進(jìn)的VOVNet網(wǎng)絡(luò)
針對于自動駕駛場景中行人、汽車、交通燈等目標(biāo)數(shù)量多和尺度差異大的特點(diǎn),首先將YOLOv5s中原有的3個尺度檢測擴(kuò)展至4個尺度檢測結(jié)構(gòu),再進(jìn)行特征增強(qiáng)模塊的改進(jìn)。本文所設(shè)定的4個檢測尺度分別為160×160,80×80,40×40和20×20,其中160×160的尺度用來檢測小目標(biāo),如遠(yuǎn)處的目標(biāo)或者交通燈等;80×80與40×40的尺度用來檢測中等目標(biāo),20×20的尺度用來檢測大目標(biāo),通過設(shè)計(jì)4個尺度來滿足不同大小的物體檢測,顯著提升模型的整體性能表現(xiàn)。
頸部網(wǎng)絡(luò)(Neck)主要負(fù)責(zé)特征增強(qiáng)。目前,特征金字塔網(wǎng)絡(luò)(FPN)在特征增強(qiáng)模塊中是應(yīng)用最廣泛的深度神經(jīng)網(wǎng)絡(luò)之一,如FSSD、YOLOv3和DSSD等均使用FPN結(jié)構(gòu),其結(jié)構(gòu)如圖4(a)所示。FPN結(jié)構(gòu)可以在深度卷積神經(jīng)網(wǎng)絡(luò)的不同卷積層中提取不同尺度的特征圖,從而實(shí)現(xiàn)多尺度目標(biāo)的檢測,且這種自頂向下的結(jié)構(gòu),將深層語義信息傳送到淺層網(wǎng)絡(luò)層中,有效提高了對小目標(biāo)的檢測能力;但是FPN結(jié)構(gòu)對大中型目標(biāo)的檢測不夠重視,而且為了調(diào)整不同特征圖的尺度,需要對小尺度特征圖進(jìn)行上采樣,對大尺度特征圖進(jìn)行下采樣。前者增加了噪聲,而后者導(dǎo)致詳細(xì)信息的丟失,從而限制了模型性能的進(jìn)一步提升。針對此問題,YOLOv5采用的方法是PANet結(jié)構(gòu),其結(jié)構(gòu)如圖4(b)所示,此結(jié)構(gòu)可以有效提升大中型目標(biāo)的檢測能力。但是由于該方法側(cè)重于深度特征圖的增強(qiáng),削弱了對小目標(biāo)的檢測強(qiáng)度,且小尺度上采樣與大尺度卷積所帶來的信息損失并沒有得到緩解。為解決上述的缺點(diǎn),本文提出一種用于目標(biāo)檢測的新穎特征增強(qiáng)模型,其結(jié)構(gòu)如圖5所示。
圖4 常用的特征增強(qiáng)模塊
圖5 改進(jìn)后的PANet結(jié)構(gòu)
從圖5可以看出:改進(jìn)后的PANet網(wǎng)絡(luò),是通過兩個串聯(lián)的特征金字塔網(wǎng)絡(luò)和兩條跨層連接結(jié)構(gòu)組成,以此來實(shí)現(xiàn)更豐富的多尺度上下文特征融合。我們把左邊的第一個特征金字塔網(wǎng)絡(luò)稱為F金字塔,第二個特征金字塔網(wǎng)絡(luò)稱為S金字塔。整個網(wǎng)絡(luò)結(jié)構(gòu)包括4個上下卷積階段,本文用 {C2,C3,C4,C5} 表示主干網(wǎng)絡(luò)第2、3、4、5階段生成的特征圖,分別對應(yīng)于對輸入圖像下采樣4、8、16和32倍; {B2,B3,B4,B5} 分別表示F金字塔對應(yīng)的輸出特征圖。S金字塔也包括兩部分:自下而上的結(jié)構(gòu)和自上而下的結(jié)構(gòu)。自下而上的結(jié)構(gòu)產(chǎn)生 {P2,P3,P4,P5}, 分別對應(yīng)于F金字塔中的 {B2,B3,B4,B5}; 自上而下的結(jié)構(gòu)產(chǎn)生 {Q2,Q3,Q4,Q5}, 對應(yīng)于4個檢測頭,用于最終的目標(biāo)檢測。除了雙金字塔結(jié)構(gòu)外,改進(jìn)后的PANet網(wǎng)絡(luò)還包含兩條獨(dú)立的自底向上的跨層結(jié)構(gòu),稱為A1和A2模塊。
圖6 金字塔網(wǎng)絡(luò)結(jié)構(gòu)
自頂而下的結(jié)構(gòu):如圖6(a)所示,每次融合操作都包含個輸入映射,一個來自于經(jīng)過上采樣操作的低分辨率特征,另一個來自于對應(yīng)的特征映射,再利用BottlenCSP2結(jié)構(gòu)對融合后的特征進(jìn)行卷積處理,生成新的特征層。
自下而上的結(jié)構(gòu):如圖6(b)所示,每次融合操作都包含個輸入映射,一個來自于經(jīng)過卷積操作的高分辨率特征,另一個來自于對應(yīng)的特征映射,再利用BottlenCSP2結(jié)構(gòu)對融合后的特征進(jìn)行卷積處理,生成新的特征層。
如上所述:原來的FPN結(jié)構(gòu)可以很好處理小目標(biāo),而PANet結(jié)構(gòu)可以很好地用于大目標(biāo)和中等目標(biāo)的檢測。為了在不同尺度的目標(biāo)檢測上取得良好的整體性能,我們提出改進(jìn)的PANet結(jié)構(gòu),由雙金字塔網(wǎng)絡(luò)與A1A2模塊組成。第一個F特征金字塔與FPN結(jié)構(gòu)一致,通過頂層的上采樣操作將深層的語義信息與淺層的信息逐步融合,得到 {B2,B3,B4,B5}。 S金字塔網(wǎng)絡(luò)相比于PANet網(wǎng)絡(luò)多了一條自頂而下的結(jié)構(gòu),首先第一條自下而上的結(jié)構(gòu),通過底層的卷積降采樣操作將底層豐富的位置信息分步傳送至深層,增強(qiáng)深層的特征表達(dá)能力,得到 {P2,P3,P4,P5}; 為了保證對小目標(biāo)的檢測能力,通過引入一條自頂而下的結(jié)構(gòu),將豐富的深層信息進(jìn)一步傳送至底層,增強(qiáng)底層的信息表達(dá)能力,得到用于預(yù)測的特征 {Q2,Q3,Q4,Q5}。 為緩解上采樣與降采樣所造成的信息損失,引入兩條跨層結(jié)構(gòu),將主干網(wǎng)絡(luò)中的輸出 {C3,C4} 作為輸入,送入到最后一層 {Q3,Q4} 中,用來指導(dǎo)特征的生成,融合更多尺度的特征。改進(jìn)后的PANet網(wǎng)絡(luò)在保留PANet網(wǎng)絡(luò)的優(yōu)點(diǎn)之上,進(jìn)一步增強(qiáng)對小目標(biāo)的檢測能力,豐富每一層的特征以及減少信息的損失,使得特征增強(qiáng)模塊具有更強(qiáng)的增強(qiáng)作用,便于后面檢測頭的預(yù)測處理。
圖7 重疊目標(biāo)
非極大值抑制(non-maximum suppression,NMS)算法是通過直接判斷交并比(intersection over union,IOU)是否大于設(shè)定閾值,來對重疊的預(yù)測候選框進(jìn)行篩選,用于目標(biāo)檢測的后處理過程。但是當(dāng)面對密集、遮擋等目標(biāo)時,這種算法刪除了被遮擋目標(biāo)的預(yù)測框,不利于自動駕駛目標(biāo)的檢測,如圖7所示,自動駕駛在實(shí)際的場景往往存在汽車相互遮擋的情況,圖中右側(cè)虛線框與實(shí)線框的IOU值若是大于設(shè)定的閾值,使用傳統(tǒng)的NMS算法來處理多余的候選框,將保留得分更高的置信度,并將設(shè)置其余的候選框的置信度為0,導(dǎo)致重疊目標(biāo)只能檢測出一個。
本文嘗試使用soft-nms[11]算法來解決傳統(tǒng)NMS算法不能準(zhǔn)確檢測遮擋密集型目標(biāo)的問題。如果是傳統(tǒng)的NMS算法,先計(jì)算交叉比IOU(M,bi), 若是IOU(M,bi) 值大于設(shè)定的閾值,則將這個候選框刪除;而對于soft-nms算法,則是將IOU(M,bi) 值送入下面的函數(shù)Si中,再將函數(shù)的輸出值與其候選框的置信度相乘,作為最終這個候選框的置信度得分,最后再經(jīng)過最低閾值進(jìn)行刪除置信度得分較低的候選框。此算法所采用的函數(shù)如下
(1)
式中:Si為高斯平滑后的置信度得分,i為類別標(biāo)簽,M為置信度得分較大的預(yù)測框,bi為預(yù)測對象的預(yù)測框,IOU(M,bi) 為M與bi的交集比,IOU(M,bi) 越大,函數(shù)Si的得分就越低。
優(yōu)化后的NMS算法處理流程如圖8所示。首先,對回歸產(chǎn)生的N個預(yù)測框,根據(jù)置信度分值大小進(jìn)行排序,選擇置信度分值最大的預(yù)測框,計(jì)算與其它預(yù)測框的IOU值;然后將IOU值作為輸入送到式(1),重新計(jì)算置信度得分,將計(jì)算后的置信度放入存儲單元中,對剩余的預(yù)測框繼續(xù)執(zhí)行上述步驟,直至處理完所有的預(yù)測框;最后,刪除儲存單元中置信度得分小于閾值的預(yù)測框,顯示置信度得分大于閾值的預(yù)測框,這就是最終檢測結(jié)果。作為一種尋找局部最優(yōu)解的方法,NMS算法通過簡單的閾值比較對預(yù)測框進(jìn)行過濾,本文通過利用IOU值對置信度進(jìn)行高斯平滑衰減,在一定程度上避免了遮擋目標(biāo)預(yù)測框的錯誤刪除。
圖8 NMS算法的優(yōu)化
本文所使用的數(shù)據(jù)集是伯克利大學(xué)發(fā)布的BDD100K[12]自動駕駛數(shù)據(jù)集,包含10萬段高清視頻、10萬張關(guān)鍵圖片(每個視頻的第10 s關(guān)鍵幀)以及對應(yīng)的標(biāo)注信息。本文的道路目標(biāo)共分為13個類別,分別為:person,rider,car,bus,truck,bike,motor,Traffic light green,Traffic light red,Traffic light yellow,Traffic light none,Traffic sign,train,總共約有184萬個標(biāo)定框。針對目標(biāo)邊界框標(biāo)注,10萬張圖像數(shù)據(jù)分為7萬張訓(xùn)練集、2萬張測試集和1萬張驗(yàn)證集。
為提高模型的泛化性和魯棒性,針對訓(xùn)練數(shù)據(jù)集使用了如下的數(shù)據(jù)增強(qiáng)技術(shù):
(1)Mosaic數(shù)據(jù)增強(qiáng)[13]
將訓(xùn)練集中2張或者4張圖片進(jìn)行隨機(jī)裁剪,然后再拼接到一張圖片上作為訓(xùn)練數(shù)據(jù),增加了訓(xùn)練過程中batch的數(shù)量和樣本多樣性,減少訓(xùn)練過程中batch_size的大小,降低對硬件的要求,同時增加了很多的困難樣本用于提高模型的檢測能力。
(2)數(shù)據(jù)歸一化處理
因數(shù)據(jù)的平均亮度與像素值的分布范圍有較大的差異,為減少這些差異,使數(shù)據(jù)具有相似的分布,加快訓(xùn)練模型的收斂速度,提高其模型檢測精度,需要對數(shù)據(jù)進(jìn)行歸一化處理。本文選擇使用Z-Score標(biāo)準(zhǔn)化方法,即通過計(jì)算數(shù)據(jù)的均值和方差來對數(shù)據(jù)進(jìn)行歸一化處理,經(jīng)過處理的圖像數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,方差為1,其計(jì)算公式為
(2)
其中,u為所有樣本數(shù)據(jù)的均值,σ為所有樣本標(biāo)簽的方差。在訓(xùn)練過程中,通過數(shù)據(jù)加載器對訓(xùn)練集進(jìn)行加載,采用上述增強(qiáng)技術(shù)進(jìn)行處理。
本文實(shí)驗(yàn)的硬件環(huán)境為CPU Core(TM) 1.80 GHz,GPU NVIDIA GeForce RTX 2080Ti,內(nèi)存11 G,軟件環(huán)境為python 3.7,Torch 1.6.0。整個訓(xùn)練過程使用隨機(jī)梯度下降法(SGD)來學(xué)習(xí)和更新網(wǎng)絡(luò)參數(shù)。初始學(xué)習(xí)率為0.01,學(xué)習(xí)率下降參數(shù)為0.0001,動量(momentum)為0.937,權(quán)重衰減系數(shù)為0.0005,訓(xùn)練的批處理大小batch為8,訓(xùn)練集中全部樣本的訓(xùn)練次數(shù)(epoch)為200次,圖像輸入尺寸為640×640,通過調(diào)整飽和度、曝光量以及色調(diào)來增加訓(xùn)練樣本。
本文用召回率(recall)、查準(zhǔn)率(precision)、平均準(zhǔn)確率均值(mAP)以及各個類別的平均準(zhǔn)確率(AP)來對實(shí)驗(yàn)結(jié)果進(jìn)行評估,其中召回率與查準(zhǔn)率的計(jì)算公式如下
(3)
(4)
其中,TP(true positives)為正樣本數(shù)據(jù)集中被正確識別出的數(shù)量,F(xiàn)N(false negatives)為正樣本數(shù)據(jù)集中被錯誤識別的數(shù)量。AP與mAP計(jì)算公式如下
(5)
(6)
3.3.1 M-YOLO與YOLOv5s的對比實(shí)驗(yàn)
本文的實(shí)驗(yàn)結(jié)果如下表所示,其中表1列出YOLOv5s與M-YOLO兩個模型的查準(zhǔn)率、召回率、mAP以及推理時間的對比值。表2列出了兩種模型對13類目標(biāo)的平均準(zhǔn)確率的對比值。
表1 兩種模型的性能對比
從表1可以看出,本文的改進(jìn)M-YOLO模型的平均準(zhǔn)確率均值mAP達(dá)到了56.84%,其檢測時間為0.012 s;比起原YOLOv5s,M-YOLO的查準(zhǔn)率提升了2.64%,召回率提升了10.65%,平均準(zhǔn)確率均值mAP提升了8.51%,雖然檢測時間比YOLOv5s有所增加,但依然滿足實(shí)時性能的要求。從表2可以看出本文方法對每類目標(biāo)的AP值都得到了提升,尤其是car類提升6%,Traffic light green提升10%,M-YOLO與YOLOv5s模型的檢測對比如圖9所示。
從圖9可以看出:當(dāng)設(shè)置置信度閾值為0.6時,原YOLOv5s網(wǎng)絡(luò)均有大量的漏檢現(xiàn)象出現(xiàn),且置信度低于
表2 目標(biāo)的平均準(zhǔn)確率比較
圖9 YOLOv5s與M-YOLOv5檢測對比
M-YOLO,尤其是遠(yuǎn)處的小目標(biāo),比如在第一組圖中,交通燈與遠(yuǎn)處的車輛均未正確檢測出來;第二組圖中遠(yuǎn)處的車輛未檢測出來;第三組圖與第四組圖中存在較多的小目標(biāo)以及遮擋目標(biāo)均未檢測出來??芍焊倪M(jìn)后的YOLOv5s(M-YOLO)在實(shí)際檢測上均有大幅度的提升,不僅正確檢測出目標(biāo),且置信度也高于原YOLOv5s。
3.3.2 M-YOLO與其它模型的對比
本文對比其它模型在BDD100K數(shù)據(jù)集的實(shí)驗(yàn),其結(jié)果見表3。
表3 M-YOLO與其它模型的對比實(shí)驗(yàn)
從表3可以看出:相比于Faster R-CNN與SSD,M-YOLO分別提升了25%與34.7%;相比于FCOS、ATSS與Cascade R-CNN,M-YOLO分別提升2.9%,0.6%與1%;可見:M-YOLO相比于這些模型都有著較為顯著的優(yōu)勢,且滿足自動駕駛實(shí)時檢測的需求。
本文提出的M-YOLO網(wǎng)絡(luò)通過在原YOLOv5s的主干網(wǎng)絡(luò)中融入具有不同感受野的VOVNet模塊,以此來增強(qiáng)模型的細(xì)粒度表現(xiàn),提取出更豐富的信息;在特征增強(qiáng)模塊使用改進(jìn)的PANet模塊,使得融合后的特征更具有代表性,同時減少上采樣和降采樣所造成的信息損失;最后通過soft-nms算法進(jìn)行后處理,有效緩解密集遮擋型目標(biāo)的檢測問題。經(jīng)過上述改進(jìn)后,M-YOLO的檢測性能整體得到提升。但是,不管M-YOLO,還是其它模型,對BDD100K的平均準(zhǔn)確率都比較低,因此后續(xù)需要對其開展進(jìn)一步的研究;同時,本次實(shí)驗(yàn)只對YOLOv5s進(jìn)行改進(jìn),后續(xù)將研究如何將這些改進(jìn)更好應(yīng)用到Y(jié)OLOv5的其它系列,進(jìn)一步提升網(wǎng)絡(luò)的檢測能力。