郭 飛,郝 琨,趙 璐
(天津城建大學(xué)計(jì)算機(jī)與信息工程學(xué)院,天津 300384)
目標(biāo)檢測(cè)的任務(wù)是找出圖像中所有感興趣的目標(biāo),并確定它們的位置和類別,它給圖像分類、圖像分割和視頻理解提供了豐富的信息,因此受到廣泛的關(guān)注.同時(shí)作為眾多實(shí)踐領(lǐng)域的核心技術(shù),目標(biāo)檢測(cè)也被廣泛應(yīng)用于無(wú)人駕駛、視頻監(jiān)控、交通安全等眾多領(lǐng)域,尤其是在檢測(cè)日常生活場(chǎng)景中的對(duì)象(人、動(dòng)物、交通車輛和家具用品等)具有重要的研究意義.
近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)[1](convolutional neural network,CNN)的出現(xiàn),圖像目標(biāo)檢測(cè)取得了顯著的成就,在基于深度學(xué)習(xí)的目標(biāo)檢測(cè)時(shí)代,現(xiàn)有的圖像目標(biāo)檢測(cè)方法大多數(shù)遵循“兩階段”和“一階段”兩種模式,前者是一個(gè)由粗略到精細(xì)的過(guò)程,而后者則是一步到位完成.目前經(jīng)典兩階段目標(biāo)檢測(cè)方法有RCNN、SPPNet、Fast R-CNN 和Faster R-CNN 等,文獻(xiàn)[2]中首次提出了具有CNN 特征的候選區(qū)域網(wǎng)絡(luò)(regioncnn,R-CNN),利用selective search[3]區(qū)域建議方法對(duì)可能存在目標(biāo)位置進(jìn)行篩選,并對(duì)每個(gè)建議框進(jìn)一步縮放,將建議框輸入到提前訓(xùn)練好的CNN 模型中進(jìn)行特征的提取,借助分類器判斷各個(gè)區(qū)域中是否含有特定類型目標(biāo),最后通過(guò)非極大值抑制、邊框位置回歸等后處理操作得到最終目標(biāo)的位置;文獻(xiàn)[4]提出空間金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling networks,SPPNet),通過(guò)引入空間金字塔池化來(lái)解決R-CNN 重復(fù)計(jì)算大量重疊候選區(qū)域的問(wèn)題,從而避免了卷積特征的重復(fù)計(jì)算;針對(duì)空間金字塔網(wǎng)絡(luò)的訓(xùn)練過(guò)程仍是一個(gè)多階段過(guò)程,文獻(xiàn)[5]提出Fast R-CNN,實(shí)現(xiàn)了檢測(cè)器和邊框回歸器的同步訓(xùn)練,另外通過(guò)共享計(jì)算加速特征提取,使得檢測(cè)速度比R-CNN 快將近200 倍;文獻(xiàn)[6]中采用區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)和共享跨階段特征的方案,實(shí)現(xiàn)了第一個(gè)接近實(shí)時(shí)的端到端的深度學(xué)習(xí)檢測(cè)器,突破了目標(biāo)檢測(cè)速度的瓶頸.雖然經(jīng)典的兩階段目標(biāo)檢測(cè)方法實(shí)現(xiàn)了較高的精確度,但檢測(cè)速度還有待提升.針對(duì)檢測(cè)速度慢的問(wèn)題,研究者提出YOLO 系列、Focal Loss、Cornernet和FoveaBox 等一階段目標(biāo)檢測(cè)方法.文獻(xiàn)[7]首次提出完全不同于R-CNN 系列的一階段目標(biāo)檢測(cè)方法YOLO(youonlylookonce:unified,real-timeobjectdetection),代替了兩階段目標(biāo)檢測(cè)方法的“proposal detection +verification”模式,將整張?jiān)紙D像劃分為多個(gè)區(qū)域后直接預(yù)測(cè)每個(gè)區(qū)域的邊界框和類別置信度值.盡管YOLO 的檢測(cè)速度提升了很多,但與兩級(jí)檢測(cè)器相比,檢測(cè)精度卻有所下降,接著YOLOv2[8]和YOLOv3[9]相繼被提出,在保持較高檢測(cè)速度的同時(shí),檢測(cè)能力進(jìn)一步得到提高;針對(duì)正負(fù)樣本分布不均衡的問(wèn)題,文獻(xiàn)[10]中提出用焦點(diǎn)損失函數(shù)來(lái)進(jìn)一步解決正樣本和負(fù)樣本之間的不平衡問(wèn)題,從而提升一階段目標(biāo)檢測(cè)方法的準(zhǔn)確率;文獻(xiàn)[11]首次將檢測(cè)目標(biāo)框變成了一對(duì)關(guān)鍵點(diǎn)的定位問(wèn)題,消除了對(duì)錨框的依賴,同時(shí)利用角點(diǎn)池化技術(shù)更有效地定位角點(diǎn);針對(duì)Cornernet 中需對(duì)識(shí)別的關(guān)鍵點(diǎn)進(jìn)行正確的分類,文獻(xiàn)[12]將實(shí)例類和邊界框關(guān)聯(lián)在一起直接預(yù)測(cè)框和類,避免了不同實(shí)例的分隔.雖然一階段類目標(biāo)檢測(cè)方法摒棄了提取建議區(qū)域的過(guò)程,整個(gè)神經(jīng)網(wǎng)絡(luò)可以直接應(yīng)用于完整圖像,只需一步就完成了識(shí)別/回歸,速度較快,但因訓(xùn)練過(guò)程中正負(fù)樣本分布的不均衡性,使得檢測(cè)精度遠(yuǎn)遠(yuǎn)比不上兩階段目標(biāo)檢測(cè)器.
綜上,針對(duì)目標(biāo)檢測(cè)方法中存在正負(fù)樣本分布不均衡、檢測(cè)精度低等問(wèn)題,本文提出一種基于混合池化YOLO 的目標(biāo)檢測(cè)方法(object detection method based on mixed-pooling YOLO,ODMMP-YOLO).ODMMPYOLO 設(shè)計(jì)并使用含有混合池化的特征提取網(wǎng)絡(luò)DMP(darknet based on mixed pooling,DMP),避免了因網(wǎng)絡(luò)過(guò)深而造成的過(guò)擬合問(wèn)題,同時(shí)也可減少特征空間信息丟失;利用GIoU(generalized intersection over union,GIoU)來(lái)衡量真實(shí)邊框與預(yù)測(cè)邊框之間的差距,進(jìn)一步優(yōu)化邊框之間無(wú)重疊的部分,以獲得更好的定位精度;在計(jì)算目標(biāo)置信度loss 權(quán)重時(shí),給予誤分檢測(cè)框更多的loss 懲罰,從而減少正樣本和負(fù)樣本之間的不平衡問(wèn)題,達(dá)到提升檢測(cè)精度的目的.
YOLOv3 目標(biāo)檢測(cè)方法是將含有特定目標(biāo)的圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,直接在輸出層回歸預(yù)測(cè)邊界框的位置及其所屬類別,在保證準(zhǔn)確率較高的前提下,僅使用一個(gè)卷積網(wǎng)絡(luò)就實(shí)現(xiàn)了目標(biāo)的快速識(shí)別[13].
YOLOv3 在YOLOv1、YOLOv2 的基礎(chǔ)上進(jìn)行了一些適應(yīng)性的改進(jìn),包括多標(biāo)簽分類、尺度預(yù)測(cè)、損失函數(shù)的調(diào)整等,提出了一種Darknet-53 模型.YOLOv3中將原始圖像進(jìn)行縮放,充分借鑒FPN[14](feature pyramid networks,F(xiàn)PN)網(wǎng)絡(luò)的思想,將淺層特征與深層特征融合以獲得更容易識(shí)別的深層特征,完成對(duì)不同大小尺寸目標(biāo)的識(shí)別.將輸入的圖像分成S×S 等大的網(wǎng)格單元,目標(biāo)的中心落在哪個(gè)網(wǎng)格單元中,那么這個(gè)網(wǎng)格單元就負(fù)責(zé)檢測(cè)這個(gè)目標(biāo).因?yàn)槊總€(gè)網(wǎng)格都會(huì)預(yù)測(cè)固定數(shù)量的邊框,采用IoU(intersection over union,IoU)來(lái)衡量預(yù)測(cè)邊框和真實(shí)邊框之間的距離,選取和真實(shí)目標(biāo)的置信度值最大的那個(gè)預(yù)測(cè)邊框作為最終預(yù)測(cè)邊框,如果預(yù)測(cè)邊框與真實(shí)邊框的重疊率大于某一值,但又不是最大,則忽略該預(yù)測(cè)邊框.如果預(yù)測(cè)邊框中沒(méi)有包含目標(biāo)對(duì)象,則在計(jì)算定位損失時(shí)可以忽略不計(jì).最理想的情況是IoU=1,即預(yù)測(cè)邊框與真實(shí)邊框重疊.計(jì)算真實(shí)邊框集合GT(GroundTruth)與預(yù)測(cè)邊框集合DR(DetectionResult)的交集與并集之比,最終得出IoU 值
YOLOv3 在每個(gè)單元格上給出對(duì)應(yīng)邊框的4 個(gè)預(yù)測(cè)值,記為(tx,ty,tw,th),若目標(biāo)網(wǎng)格偏離圖像左上角的邊距為cx,cy,且它對(duì)應(yīng)錨框的寬和高為pw,ph,則最終預(yù)測(cè)邊框的值為(bx,by,bw,bh),如圖1 所示.
(bx,by,bw,bh)公式如下
式中:cx,cy是目標(biāo)網(wǎng)格偏移圖像的偏移量;pw,ph是對(duì)應(yīng)錨框的寬和高;(bx,by,bw,bh)為最終預(yù)測(cè)得到的邊框坐標(biāo)值;(tx,ty,tw,th)為特征提取網(wǎng)絡(luò)學(xué)習(xí)目標(biāo);x,y為目標(biāo)對(duì)象的中心位置坐標(biāo);w,h 為目標(biāo)對(duì)象坐標(biāo)相對(duì)于網(wǎng)格偏移的寬度和高度.為了數(shù)據(jù)處理方便,x,y,w,h 均作歸一化處理.
損失函數(shù)是用來(lái)衡量模型預(yù)測(cè)和真實(shí)標(biāo)簽之間的差異,YOLOv3 的損失函數(shù)為[15]
式中:λ 為損失權(quán)重;S×S 為網(wǎng)格大小;N 為每個(gè)網(wǎng)格中的候選邊框數(shù);Iijobj表示判斷第i 個(gè)單元格的第j 個(gè)邊框是否存在目標(biāo),若存在值為1,反之為0;Iijnoobj表示第i 個(gè)單元格的第j 個(gè)先驗(yàn)框不存在目標(biāo)值為1,反之為分別為預(yù)測(cè)邊框的橫坐標(biāo)、縱坐標(biāo)、高度、寬度、類別預(yù)測(cè)值、置信度值,xi,yi,wi,hi,pi,Ci分別為其對(duì)應(yīng)的真實(shí)值.YOLOv3 的損失由目標(biāo)定位損失Ibbox、目標(biāo)置信度損失Iconf、目標(biāo)分類損失Iprob三者求和得到.
YOLOv3 中采用大量簡(jiǎn)化的殘差塊代替原有的1×1 和3×3 卷積核的卷積層和引入確定性連接的“shortcut”模塊,解決了網(wǎng)絡(luò)中梯度消失或梯度彌散的問(wèn)題,但是使用帶步長(zhǎng)的卷積下采樣操作依舊屬于局部鄰域的線性計(jì)算,沒(méi)考慮到鄰域之間的空間關(guān)系,所以YOLOv3 仍沒(méi)有解決YOLOv2 中因采用最大池化而導(dǎo)致空間特征信息丟失的問(wèn)題.
因此,在隨機(jī)Dropout 和Drop-Connect 兩種技術(shù)的啟發(fā)下,ODMMP-YOLO 采用“混合池化”方式完成特征圖的下采樣,整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示.ODMMPYOLO 在Darknet-53 網(wǎng)絡(luò)基礎(chǔ)上將原來(lái)3×3 下采樣卷積層替換成混合池化層,構(gòu)造出一種新穎的DMP特征提取網(wǎng)絡(luò)模型,如圖2 中實(shí)線框位置所示.Darknet-53 中卷積核大小為3×3、步長(zhǎng)為2 的卷積層替換成Mixed-Pooling 層,可以最大概率保留特征圖空間信息.
DMP 特征提取網(wǎng)絡(luò)模型的下采樣層中采用混合池化,先使用步長(zhǎng)為1 的最大池化(利用不對(duì)稱式填充,僅在特征圖的右側(cè)和下側(cè)填充像素0),得到一張與特征圖大小相同的特征圖,再使用混合池化方式進(jìn)行特征圖的下采樣.圖3 為使用窗口為2、步長(zhǎng)為2 的下采樣混合池化過(guò)程,混合池化比例系數(shù)取0.5,這樣既能夠降低特征映射的分辨率,也能夠?qū)崿F(xiàn)特征的平移不變性和旋轉(zhuǎn)不變性.池化層中最為常見的池化方式有兩種:average pooling、max pooling,但是采用單獨(dú)的池化方式均有各自的缺陷:最大池化僅考慮區(qū)域中的最大元素而忽略其他區(qū)域的值,這樣會(huì)造成不可預(yù)料的結(jié)果.例如,如果池化區(qū)域的大多數(shù)元素都是高量級(jí)的,則池化后會(huì)出現(xiàn)特征消失的現(xiàn)象.對(duì)于平均池化,它計(jì)算的是池化區(qū)域內(nèi)所有元素的平均值,并將所有低量級(jí)元素也考慮在內(nèi),池化后造成新特征圖對(duì)比度降低,最嚴(yán)重的是如果零元素太多,則新特征圖的特性就會(huì)大大降低.
因此,ODMMP-YOLO 的下采樣層中采用最大池化和平均池化相組合的下采樣方式,下采樣后輸出第k 個(gè)特征圖的大小yk,i,j為
式中:λ 為混合池化比例系數(shù);xk,p,q為池化區(qū)域Ri,j中位于(p,q)處的元素,該元素表示位置(i,j)周圍的局部鄰域.
下采樣階段采用混合池化隱式地增加了訓(xùn)練數(shù)據(jù),使得學(xué)習(xí)模型具有更強(qiáng)的泛化能力,與使用帶步長(zhǎng)的卷積方式進(jìn)行特征圖像壓縮相比,混合池化不會(huì)引入額外參數(shù).DMP 特征提取網(wǎng)絡(luò)模型中先使用步長(zhǎng)為1 的最大池化方法(見圖1),保留特征圖之間更多的空間關(guān)系,再使用混合池化在每個(gè)2×2 的區(qū)域內(nèi)進(jìn)行下采樣,最后輸出下采樣之后的特征圖(見表1).DMP 特征提取網(wǎng)絡(luò)模型不僅可以解決訓(xùn)練過(guò)程中因網(wǎng)絡(luò)過(guò)深而造成的過(guò)擬合問(wèn)題,也可以減少在下采樣階段特征空間信息的丟失,進(jìn)而有效提升識(shí)別精度.
表1 DMP 特征提取網(wǎng)絡(luò)
此外,混合池化技術(shù)可以與任何其他形式的正則化(權(quán)重衰減、Dropout、數(shù)據(jù)增強(qiáng)等)結(jié)合使用,混合池化方法優(yōu)于傳統(tǒng)的最大池化和均值池化的方法,其先進(jìn)的性能已在CIFAR-10、CIFAR-100 和SVHN(street view house numbers)數(shù)據(jù)集上得到了驗(yàn)證.ODMMPYOLO 巧妙利用混合池化技術(shù),解決了過(guò)擬合問(wèn)題并提升了檢測(cè)精度.混合池化技術(shù)所需的開銷可忽略不計(jì),也不需要調(diào)整任何超參數(shù)(如學(xué)習(xí)率),因此可以廣泛應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò).
損失函數(shù)是衡量期望結(jié)果與真實(shí)結(jié)果之間差異的重要標(biāo)準(zhǔn),選擇一個(gè)合適的損失函數(shù)需要考慮是否有離群點(diǎn)、運(yùn)行梯度下降的時(shí)間效率、是否容易找到損失函數(shù)的導(dǎo)數(shù)等眾多因素,那么如何設(shè)計(jì)合適的損失函數(shù)獲得優(yōu)異的預(yù)測(cè)結(jié)果也成為模型優(yōu)化的重要方向[16].
ODMMP-YOLO 利用GIoU 來(lái)替換邊框回歸損失函數(shù),對(duì)原有的目標(biāo)定位損失函數(shù)進(jìn)行重構(gòu).采用IoU來(lái)直接衡量?jī)蓚€(gè)邊界框的相似性時(shí)會(huì)出現(xiàn)一些極端情況:當(dāng)真實(shí)邊框和預(yù)測(cè)邊框之間相互重合且IoU 值相同時(shí),檢測(cè)效果卻存在較大差異;當(dāng)真實(shí)邊框和預(yù)測(cè)邊框之間沒(méi)有重疊時(shí),IoU 的值為0,就會(huì)導(dǎo)致優(yōu)化損失函數(shù)的梯度為0,則無(wú)法進(jìn)行下一步優(yōu)化.采用GIoU 不僅關(guān)注到重疊區(qū)域,也關(guān)注到其他非重疊區(qū)域,更好地反映了真實(shí)邊框和預(yù)測(cè)邊框的重合度.當(dāng)真實(shí)邊框和預(yù)測(cè)邊框無(wú)限重合時(shí),GIoU 取最大值為1;當(dāng)真實(shí)邊框和預(yù)測(cè)邊框無(wú)重疊且無(wú)限遠(yuǎn)時(shí),GIoU 取最小值為-1.因此本文采用GIoU 來(lái)衡量真實(shí)邊框和預(yù)測(cè)邊框之間的距離,選取和真實(shí)目標(biāo)的置信度值最大的預(yù)測(cè)邊框作為最終預(yù)測(cè)邊框,如果預(yù)測(cè)邊框和真實(shí)邊框的重疊率大于某一值,但又不是最大,則忽略這個(gè)預(yù)測(cè)邊框.如果某預(yù)測(cè)邊框中不包含目標(biāo)對(duì)象,則在計(jì)算定位損失時(shí)忽略該預(yù)測(cè)邊框的損失.找到真實(shí)邊框集合GT(GroundTruth)與預(yù)測(cè)邊框集合DR(DetectionResult)的最小閉包區(qū)域面積C,最終計(jì)算的GIoU 為
由于訓(xùn)練過(guò)程中,目標(biāo)檢測(cè)方法中存在正負(fù)樣本不均衡的問(wèn)題,其中含有大量易分類且大多數(shù)均為背景的負(fù)樣本,且易分類的負(fù)樣本對(duì)Loss 梯度更新方向起著主導(dǎo)作用,這樣就造成無(wú)法準(zhǔn)確地識(shí)別目標(biāo).針對(duì)上述問(wèn)題,本文對(duì)目標(biāo)置信度的損失提出如下改進(jìn):
step1:定義二值交叉熵CE(p,y)
step2:計(jì)算損失權(quán)重Lweight
step3:計(jì)算置信度的損失Lconf(p,y)
式中:p 為前景概率;α 為權(quán)重參數(shù),α∈[0,1],本文取為1;y 為真實(shí)標(biāo)簽的值,為1 或0.
無(wú)論是針對(duì)前景類還是背景類,p 值越大,那么權(quán)重(1-p)2就越小,則就可以通過(guò)權(quán)重對(duì)易分類樣本進(jìn)行抑制.損失函數(shù)Lconf既解決了正負(fù)樣本不平衡問(wèn)題,也解決了易分類與難挖掘樣本的不平衡問(wèn)題.對(duì)于那些數(shù)量龐大,但容易分類的純背景類,在計(jì)算目標(biāo)置信度的損失時(shí),通過(guò)減少易分類樣本損失的權(quán)重Lweight,使模型在訓(xùn)練時(shí)更加專注于難分類的樣本,這樣可有效減少正樣本和負(fù)樣本之間的不平衡問(wèn)題,從而有效提升檢測(cè)精度.
ODMMP-YOLO 損失函數(shù)如下
本文利用PASCAL VOC 07++12[17]數(shù)據(jù)集進(jìn)行訓(xùn)練,其中包含20 類對(duì)象,由于原始數(shù)據(jù)量較少,本文所用圖像數(shù)據(jù)集進(jìn)行3 種方式的預(yù)處理操作,分別為①隨機(jī)水平翻轉(zhuǎn):將圖像進(jìn)行水平翻轉(zhuǎn),得到新圖像;②隨機(jī)裁剪:與縮放不同,裁剪是從原始圖像中隨機(jī)抽取一個(gè)部分,之后將此部分的大小調(diào)整為原始圖像的大小,得到新圖像;③隨機(jī)平移:將圖像在水平和豎直方向上隨機(jī)移動(dòng),可以使特征提取網(wǎng)絡(luò)能夠看到圖像的所有角落.通過(guò)上述的數(shù)據(jù)增強(qiáng)方法得到16 551張訓(xùn)練圖像用于本文后續(xù)實(shí)驗(yàn).
實(shí)驗(yàn)硬件環(huán)境配置為Intel(R)Core(TM)i7-7700 CPU@3.60 GHz 處理器,模型在具有8 GB 內(nèi)存NVIDIA Tesla K20M GPU 上進(jìn)行訓(xùn)練.
訓(xùn)練時(shí)ODMMP-YOLO 采用以較低學(xué)習(xí)率逐漸增大至較高學(xué)習(xí)率的方式來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)模型訓(xùn)練的“預(yù)熱”階段,從而避免因較小的學(xué)習(xí)率導(dǎo)致模型訓(xùn)練緩慢的問(wèn)題.但是如果一直使用較高學(xué)習(xí)率會(huì)使權(quán)重的梯度來(lái)回震蕩,造成訓(xùn)練的損失難以達(dá)到全局最低,因此本文采用consine learning decay[18]方式逐漸減小學(xué)習(xí)率.整個(gè)訓(xùn)練過(guò)程學(xué)習(xí)率的變化曲線如圖4 所示,當(dāng)?shù)綌?shù)大于200 000 時(shí),學(xué)習(xí)率曲線趨于平緩并達(dá)到最低值.
為了更好地驗(yàn)證ODMMP-YOLO 在識(shí)別與定位人、常見動(dòng)物、交通車輛以及家具用品等目標(biāo)的可行性與有效性,本文利用PASCAL VOC 2007 測(cè)試數(shù)據(jù)集對(duì)ODMMP-YOLO 和YOLOv3 方法進(jìn)行實(shí)驗(yàn)結(jié)果的對(duì)比,并利用平均精度AP(average precision)與均值平均精度mAP(mean average precision)值兩項(xiàng)指標(biāo)對(duì)ODMMP-YOLO 的模型進(jìn)行評(píng)估.
AP 值采用PASCAL VOC CHALLENGE 的計(jì)算方式,假設(shè)M 個(gè)樣本中有F 個(gè)正例,將得到F 個(gè)召回率值R(1/F,2/F,…,F(xiàn)/F),對(duì)每個(gè)R 值取最大的精準(zhǔn)率P值,然后對(duì)這F 個(gè)P 值求平均即得到每類對(duì)象的AP,之后計(jì)算所有對(duì)象類別的平均AP 值即得到mAP.
式中:Nclasses表示所有對(duì)象類別的數(shù)目.
表2列出了YOLOv3、YOLOv3+Loss、YOLOv3+MaxPool、DMP-YOLO 和ODMMP-YOLO 的mAP 值對(duì)比結(jié)果.DMP-YOLO 中采用混合池化技術(shù),當(dāng)閾值大于0.75 時(shí),mAP 值由73.65%提升到78.49%,增加4.84%;YOLOv3+MaxPool 在下采樣層中只使用最大池化時(shí),mAP 值由73.65%提升到76.37%;YOLOv3+Loss利用新?lián)p失函數(shù)進(jìn)行檢測(cè)對(duì)象時(shí),mAP 值由73.65%提升到75.43%,提升約1.8%,驗(yàn)證了混合池化技術(shù)和損失函數(shù)的有效性.
表2 目標(biāo)檢測(cè)算法消融實(shí)驗(yàn)對(duì)比%
圖5 展示了ODMMP-YOLO 在測(cè)試數(shù)據(jù)集上各類別目標(biāo)的檢測(cè)結(jié)果以及所有類別的mAP 值.在每類對(duì)象中檢測(cè)正確和檢測(cè)錯(cuò)誤的對(duì)象數(shù)量對(duì)比結(jié)果,如圖5a 所示.從圖5b 中可以發(fā)現(xiàn)檢測(cè)人、摩托車以及火車等部分單獨(dú)類別時(shí)AP 值可達(dá)到約90%,檢測(cè)所有類別的mAP 值為80.39%,因此驗(yàn)證了ODMMP-YOLO方法的有效性.
表3 列出了兩階段檢測(cè)方法(Fast R-CNN、FasterR-CNN)、一階段檢測(cè)方法(YOLO、YOLOv2、YOLOv3)與ODMMP-YOLO 檢測(cè)方法的實(shí)驗(yàn)對(duì)比結(jié)果.從表3中可以看出,相對(duì)于YOLOv3 算法,ODMMP-YOLO 在識(shí)別船只等部分單獨(dú)對(duì)象類別時(shí),AP 值提升約15%;在識(shí)別所有類別時(shí)的mAP 值由75.28%提升到80.39%,提升約5%,能夠準(zhǔn)確地識(shí)別與定位生活場(chǎng)景中的目標(biāo)對(duì)象的類別與位置.
表3 目標(biāo)檢測(cè)算法性能評(píng)估結(jié)果對(duì)比%
為了更加直觀展示ODMMP-YOLO 識(shí)別的視覺效果,本文隨機(jī)尋找一組圖片進(jìn)行測(cè)試,其中包含了日常生活場(chǎng)景中的人、動(dòng)物、交通車輛和室內(nèi)家具用品等一些常見的對(duì)象,ODMMP-YOLO 測(cè)試結(jié)果如圖6 所示.如圖6 中第一列圖所示,ODMMP-YOLO 能夠從背面和側(cè)面較好地識(shí)別動(dòng)物目標(biāo);如圖6 中第二列圖所示,ODMMP-YOLO 在識(shí)別不同光照背景下的目標(biāo)時(shí),可以較好地適應(yīng)光照變化并獲得良好的檢測(cè)精度,同時(shí)針對(duì)小目標(biāo)也有較好的識(shí)別效果;如圖6中第三列圖所示,ODMMP-YOLO 在識(shí)別室外或室內(nèi)存在嚴(yán)重遮擋或密集的目標(biāo)時(shí),也具有良好的檢測(cè)效果.可以看出ODMMP-YOLO 在識(shí)別與定位遮擋嚴(yán)重或外觀極其相似或較小的目標(biāo)時(shí)具有良好效果.
圖7給出了ODMMP-YOLO 檢測(cè)方法與傳統(tǒng)YOLOv3目標(biāo)檢測(cè)方法的實(shí)驗(yàn)圖對(duì)比結(jié)果.圖7 中第一列為檢測(cè)原圖、第二列為傳統(tǒng)YOLOv3 的實(shí)驗(yàn)結(jié)果圖、第三列為ODMMP-YOLO 的實(shí)驗(yàn)結(jié)果圖,從第二列和第三列兩組實(shí)驗(yàn)圖對(duì)比中可以看出,ODMMP-YOLO 的檢測(cè)結(jié)果明顯優(yōu)于傳統(tǒng)YOLOv3 方法,尤其是在檢測(cè)部分存在遮擋或重疊的物體時(shí)有很好的識(shí)別效果,如圖7c 第一幅圖所示,ODMMP-YOLO 可以很好地檢測(cè)YOLOv3未識(shí)別到的汽車目標(biāo);圖7c 第二幅圖主要識(shí)別YOLOv3未檢測(cè)到的公交車內(nèi)重疊的乘客目標(biāo);如圖7c 第三幅圖主要識(shí)別目標(biāo)為遠(yuǎn)處的船只.ODMMP-YOLO 在識(shí)別存在遮擋或重疊的小物體時(shí),整體檢測(cè)效果更好.
本文對(duì)現(xiàn)存的檢測(cè)方法進(jìn)行分析,提出一種基于混合池化YOLO 的目標(biāo)檢測(cè)方法(ODMMP-YOLO),并在PASCAL VOC 2007 數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)表明,DMP 特征提取網(wǎng)絡(luò)模型能夠更好保留特征圖之間的空間關(guān)系和特征信息,使提取到的特征信息更加豐富;對(duì)原有的損失函數(shù)重構(gòu)之后減小了目標(biāo)定位損失與置信度損失,精度及模型收斂速度均得到了有效的提升;基于混合池化的YOLO 目標(biāo)檢測(cè)方法的mAP 值提升大約5%,能夠獲得良好的檢測(cè)效果.后續(xù)工作中,將采用遷移學(xué)習(xí)的方法,并對(duì)模型進(jìn)行進(jìn)一步的壓縮與簡(jiǎn)化,將其應(yīng)用到實(shí)時(shí)視頻目標(biāo)檢測(cè)中.