亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于混合池化YOLO 的目標(biāo)檢測(cè)方法

2022-05-20 09:16:06郭飛，郝琨，趙璐

天津城建大學(xué)學(xué)報(bào) 2022年2期

郭飛，郝琨，趙璐

（天津城建大學(xué)計(jì)算機(jī)與信息工程學(xué)院，天津 300384）

目標(biāo)檢測(cè)的任務(wù)是找出圖像中所有感興趣的目標(biāo)，并確定它們的位置和類別，它給圖像分類、圖像分割和視頻理解提供了豐富的信息，因此受到廣泛的關(guān)注.同時(shí)作為眾多實(shí)踐領(lǐng)域的核心技術(shù)，目標(biāo)檢測(cè)也被廣泛應(yīng)用于無(wú)人駕駛、視頻監(jiān)控、交通安全等眾多領(lǐng)域，尤其是在檢測(cè)日常生活場(chǎng)景中的對(duì)象（人、動(dòng)物、交通車輛和家具用品等）具有重要的研究意義.

近年來(lái)，隨著卷積神經(jīng)網(wǎng)絡(luò)[1]（convolutional neural network，CNN）的出現(xiàn)，圖像目標(biāo)檢測(cè)取得了顯著的成就，在基于深度學(xué)習(xí)的目標(biāo)檢測(cè)時(shí)代，現(xiàn)有的圖像目標(biāo)檢測(cè)方法大多數(shù)遵循“兩階段”和“一階段”兩種模式，前者是一個(gè)由粗略到精細(xì)的過(guò)程，而后者則是一步到位完成.目前經(jīng)典兩階段目標(biāo)檢測(cè)方法有RCNN、SPPNet、Fast R-CNN 和Faster R-CNN 等，文獻(xiàn)[2]中首次提出了具有CNN 特征的候選區(qū)域網(wǎng)絡(luò)（regioncnn，R-CNN），利用selective search[3]區(qū)域建議方法對(duì)可能存在目標(biāo)位置進(jìn)行篩選，并對(duì)每個(gè)建議框進(jìn)一步縮放，將建議框輸入到提前訓(xùn)練好的CNN 模型中進(jìn)行特征的提取，借助分類器判斷各個(gè)區(qū)域中是否含有特定類型目標(biāo)，最后通過(guò)非極大值抑制、邊框位置回歸等后處理操作得到最終目標(biāo)的位置；文獻(xiàn)[4]提出空間金字塔池化網(wǎng)絡(luò)（spatial pyramid pooling networks，SPPNet），通過(guò)引入空間金字塔池化來(lái)解決R-CNN 重復(fù)計(jì)算大量重疊候選區(qū)域的問(wèn)題，從而避免了卷積特征的重復(fù)計(jì)算；針對(duì)空間金字塔網(wǎng)絡(luò)的訓(xùn)練過(guò)程仍是一個(gè)多階段過(guò)程，文獻(xiàn)[5]提出Fast R-CNN，實(shí)現(xiàn)了檢測(cè)器和邊框回歸器的同步訓(xùn)練，另外通過(guò)共享計(jì)算加速特征提取，使得檢測(cè)速度比R-CNN 快將近200 倍；文獻(xiàn)[6]中采用區(qū)域建議網(wǎng)絡(luò)（region proposal network，RPN）和共享跨階段特征的方案，實(shí)現(xiàn)了第一個(gè)接近實(shí)時(shí)的端到端的深度學(xué)習(xí)檢測(cè)器，突破了目標(biāo)檢測(cè)速度的瓶頸.雖然經(jīng)典的兩階段目標(biāo)檢測(cè)方法實(shí)現(xiàn)了較高的精確度，但檢測(cè)速度還有待提升.針對(duì)檢測(cè)速度慢的問(wèn)題，研究者提出YOLO 系列、Focal Loss、Cornernet和FoveaBox 等一階段目標(biāo)檢測(cè)方法.文獻(xiàn)[7]首次提出完全不同于R-CNN 系列的一階段目標(biāo)檢測(cè)方法YOLO（youonlylookonce：unified，real-timeobjectdetection），代替了兩階段目標(biāo)檢測(cè)方法的“proposal detection +verification”模式，將整張?jiān)紙D像劃分為多個(gè)區(qū)域后直接預(yù)測(cè)每個(gè)區(qū)域的邊界框和類別置信度值.盡管YOLO 的檢測(cè)速度提升了很多，但與兩級(jí)檢測(cè)器相比，檢測(cè)精度卻有所下降，接著YOLOv2[8]和YOLOv3[9]相繼被提出，在保持較高檢測(cè)速度的同時(shí)，檢測(cè)能力進(jìn)一步得到提高；針對(duì)正負(fù)樣本分布不均衡的問(wèn)題，文獻(xiàn)[10]中提出用焦點(diǎn)損失函數(shù)來(lái)進(jìn)一步解決正樣本和負(fù)樣本之間的不平衡問(wèn)題，從而提升一階段目標(biāo)檢測(cè)方法的準(zhǔn)確率；文獻(xiàn)[11]首次將檢測(cè)目標(biāo)框變成了一對(duì)關(guān)鍵點(diǎn)的定位問(wèn)題，消除了對(duì)錨框的依賴，同時(shí)利用角點(diǎn)池化技術(shù)更有效地定位角點(diǎn)；針對(duì)Cornernet 中需對(duì)識(shí)別的關(guān)鍵點(diǎn)進(jìn)行正確的分類，文獻(xiàn)[12]將實(shí)例類和邊界框關(guān)聯(lián)在一起直接預(yù)測(cè)框和類，避免了不同實(shí)例的分隔.雖然一階段類目標(biāo)檢測(cè)方法摒棄了提取建議區(qū)域的過(guò)程，整個(gè)神經(jīng)網(wǎng)絡(luò)可以直接應(yīng)用于完整圖像，只需一步就完成了識(shí)別/回歸，速度較快，但因訓(xùn)練過(guò)程中正負(fù)樣本分布的不均衡性，使得檢測(cè)精度遠(yuǎn)遠(yuǎn)比不上兩階段目標(biāo)檢測(cè)器.

綜上，針對(duì)目標(biāo)檢測(cè)方法中存在正負(fù)樣本分布不均衡、檢測(cè)精度低等問(wèn)題，本文提出一種基于混合池化YOLO 的目標(biāo)檢測(cè)方法（object detection method based on mixed-pooling YOLO，ODMMP-YOLO）.ODMMPYOLO 設(shè)計(jì)并使用含有混合池化的特征提取網(wǎng)絡(luò)DMP（darknet based on mixed pooling，DMP），避免了因網(wǎng)絡(luò)過(guò)深而造成的過(guò)擬合問(wèn)題，同時(shí)也可減少特征空間信息丟失；利用GIoU（generalized intersection over union，GIoU）來(lái)衡量真實(shí)邊框與預(yù)測(cè)邊框之間的差距，進(jìn)一步優(yōu)化邊框之間無(wú)重疊的部分，以獲得更好的定位精度；在計(jì)算目標(biāo)置信度loss 權(quán)重時(shí)，給予誤分檢測(cè)框更多的loss 懲罰，從而減少正樣本和負(fù)樣本之間的不平衡問(wèn)題，達(dá)到提升檢測(cè)精度的目的.

1 YOLOv3 目標(biāo)檢測(cè)方法

1.1 檢測(cè)過(guò)程

YOLOv3 目標(biāo)檢測(cè)方法是將含有特定目標(biāo)的圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入，直接在輸出層回歸預(yù)測(cè)邊界框的位置及其所屬類別，在保證準(zhǔn)確率較高的前提下，僅使用一個(gè)卷積網(wǎng)絡(luò)就實(shí)現(xiàn)了目標(biāo)的快速識(shí)別[13].

YOLOv3 在YOLOv1、YOLOv2 的基礎(chǔ)上進(jìn)行了一些適應(yīng)性的改進(jìn)，包括多標(biāo)簽分類、尺度預(yù)測(cè)、損失函數(shù)的調(diào)整等，提出了一種Darknet-53 模型.YOLOv3中將原始圖像進(jìn)行縮放，充分借鑒FPN[14]（feature pyramid networks，F(xiàn)PN）網(wǎng)絡(luò)的思想，將淺層特征與深層特征融合以獲得更容易識(shí)別的深層特征，完成對(duì)不同大小尺寸目標(biāo)的識(shí)別.將輸入的圖像分成S×S 等大的網(wǎng)格單元，目標(biāo)的中心落在哪個(gè)網(wǎng)格單元中，那么這個(gè)網(wǎng)格單元就負(fù)責(zé)檢測(cè)這個(gè)目標(biāo).因?yàn)槊總€(gè)網(wǎng)格都會(huì)預(yù)測(cè)固定數(shù)量的邊框，采用IoU（intersection over union，IoU）來(lái)衡量預(yù)測(cè)邊框和真實(shí)邊框之間的距離，選取和真實(shí)目標(biāo)的置信度值最大的那個(gè)預(yù)測(cè)邊框作為最終預(yù)測(cè)邊框，如果預(yù)測(cè)邊框與真實(shí)邊框的重疊率大于某一值，但又不是最大，則忽略該預(yù)測(cè)邊框.如果預(yù)測(cè)邊框中沒(méi)有包含目標(biāo)對(duì)象，則在計(jì)算定位損失時(shí)可以忽略不計(jì).最理想的情況是IoU=1，即預(yù)測(cè)邊框與真實(shí)邊框重疊.計(jì)算真實(shí)邊框集合GT（GroundTruth）與預(yù)測(cè)邊框集合DR（DetectionResult）的交集與并集之比，最終得出IoU 值

YOLOv3 在每個(gè)單元格上給出對(duì)應(yīng)邊框的4 個(gè)預(yù)測(cè)值，記為（tx，ty，tw，th），若目標(biāo)網(wǎng)格偏離圖像左上角的邊距為cx，cy，且它對(duì)應(yīng)錨框的寬和高為pw，ph，則最終預(yù)測(cè)邊框的值為（bx，by，bw，bh），如圖1 所示.

（bx，by，bw，bh）公式如下

式中：cx，cy是目標(biāo)網(wǎng)格偏移圖像的偏移量；pw，ph是對(duì)應(yīng)錨框的寬和高；（bx，by，bw，bh）為最終預(yù)測(cè)得到的邊框坐標(biāo)值；（tx，ty，tw，th）為特征提取網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)；x，y為目標(biāo)對(duì)象的中心位置坐標(biāo)；w，h 為目標(biāo)對(duì)象坐標(biāo)相對(duì)于網(wǎng)格偏移的寬度和高度.為了數(shù)據(jù)處理方便，x，y，w，h 均作歸一化處理.

1.2 損失函數(shù)

損失函數(shù)是用來(lái)衡量模型預(yù)測(cè)和真實(shí)標(biāo)簽之間的差異，YOLOv3 的損失函數(shù)為[15]

式中：λ 為損失權(quán)重；S×S 為網(wǎng)格大小；N 為每個(gè)網(wǎng)格中的候選邊框數(shù)；Iijobj表示判斷第i 個(gè)單元格的第j 個(gè)邊框是否存在目標(biāo)，若存在值為1，反之為0；Iijnoobj表示第i 個(gè)單元格的第j 個(gè)先驗(yàn)框不存在目標(biāo)值為1，反之為分別為預(yù)測(cè)邊框的橫坐標(biāo)、縱坐標(biāo)、高度、寬度、類別預(yù)測(cè)值、置信度值，xi，yi，wi，hi，pi，Ci分別為其對(duì)應(yīng)的真實(shí)值.YOLOv3 的損失由目標(biāo)定位損失Ibbox、目標(biāo)置信度損失Iconf、目標(biāo)分類損失Iprob三者求和得到.

2 ODMMP-YOLO 目標(biāo)檢測(cè)方法

2.1 網(wǎng)絡(luò)模型

YOLOv3 中采用大量簡(jiǎn)化的殘差塊代替原有的1×1 和3×3 卷積核的卷積層和引入確定性連接的“shortcut”模塊，解決了網(wǎng)絡(luò)中梯度消失或梯度彌散的問(wèn)題，但是使用帶步長(zhǎng)的卷積下采樣操作依舊屬于局部鄰域的線性計(jì)算，沒(méi)考慮到鄰域之間的空間關(guān)系，所以YOLOv3 仍沒(méi)有解決YOLOv2 中因采用最大池化而導(dǎo)致空間特征信息丟失的問(wèn)題.

因此，在隨機(jī)Dropout 和Drop-Connect 兩種技術(shù)的啟發(fā)下，ODMMP-YOLO 采用“混合池化”方式完成特征圖的下采樣，整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示.ODMMPYOLO 在Darknet-53 網(wǎng)絡(luò)基礎(chǔ)上將原來(lái)3×3 下采樣卷積層替換成混合池化層，構(gòu)造出一種新穎的DMP特征提取網(wǎng)絡(luò)模型，如圖2 中實(shí)線框位置所示.Darknet-53 中卷積核大小為3×3、步長(zhǎng)為2 的卷積層替換成Mixed-Pooling 層，可以最大概率保留特征圖空間信息.

2.2 下采樣層

DMP 特征提取網(wǎng)絡(luò)模型的下采樣層中采用混合池化，先使用步長(zhǎng)為1 的最大池化（利用不對(duì)稱式填充，僅在特征圖的右側(cè)和下側(cè)填充像素0），得到一張與特征圖大小相同的特征圖，再使用混合池化方式進(jìn)行特征圖的下采樣.圖3 為使用窗口為2、步長(zhǎng)為2 的下采樣混合池化過(guò)程，混合池化比例系數(shù)取0.5，這樣既能夠降低特征映射的分辨率，也能夠?qū)崿F(xiàn)特征的平移不變性和旋轉(zhuǎn)不變性.池化層中最為常見的池化方式有兩種：average pooling、max pooling，但是采用單獨(dú)的池化方式均有各自的缺陷：最大池化僅考慮區(qū)域中的最大元素而忽略其他區(qū)域的值，這樣會(huì)造成不可預(yù)料的結(jié)果.例如，如果池化區(qū)域的大多數(shù)元素都是高量級(jí)的，則池化后會(huì)出現(xiàn)特征消失的現(xiàn)象.對(duì)于平均池化，它計(jì)算的是池化區(qū)域內(nèi)所有元素的平均值，并將所有低量級(jí)元素也考慮在內(nèi)，池化后造成新特征圖對(duì)比度降低，最嚴(yán)重的是如果零元素太多，則新特征圖的特性就會(huì)大大降低.

因此，ODMMP-YOLO 的下采樣層中采用最大池化和平均池化相組合的下采樣方式，下采樣后輸出第k 個(gè)特征圖的大小yk，i，j為

式中：λ 為混合池化比例系數(shù)；xk，p，q為池化區(qū)域Ri，j中位于（p，q）處的元素，該元素表示位置（i，j）周圍的局部鄰域.

下采樣階段采用混合池化隱式地增加了訓(xùn)練數(shù)據(jù)，使得學(xué)習(xí)模型具有更強(qiáng)的泛化能力，與使用帶步長(zhǎng)的卷積方式進(jìn)行特征圖像壓縮相比，混合池化不會(huì)引入額外參數(shù).DMP 特征提取網(wǎng)絡(luò)模型中先使用步長(zhǎng)為1 的最大池化方法（見圖1），保留特征圖之間更多的空間關(guān)系，再使用混合池化在每個(gè)2×2 的區(qū)域內(nèi)進(jìn)行下采樣，最后輸出下采樣之后的特征圖（見表1）.DMP 特征提取網(wǎng)絡(luò)模型不僅可以解決訓(xùn)練過(guò)程中因網(wǎng)絡(luò)過(guò)深而造成的過(guò)擬合問(wèn)題，也可以減少在下采樣階段特征空間信息的丟失，進(jìn)而有效提升識(shí)別精度.

表1 DMP 特征提取網(wǎng)絡(luò)

此外，混合池化技術(shù)可以與任何其他形式的正則化（權(quán)重衰減、Dropout、數(shù)據(jù)增強(qiáng)等）結(jié)合使用，混合池化方法優(yōu)于傳統(tǒng)的最大池化和均值池化的方法，其先進(jìn)的性能已在CIFAR-10、CIFAR-100 和SVHN（street view house numbers）數(shù)據(jù)集上得到了驗(yàn)證.ODMMPYOLO 巧妙利用混合池化技術(shù)，解決了過(guò)擬合問(wèn)題并提升了檢測(cè)精度.混合池化技術(shù)所需的開銷可忽略不計(jì)，也不需要調(diào)整任何超參數(shù)（如學(xué)習(xí)率），因此可以廣泛應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò).

2.3 損失函數(shù)分析與改進(jìn)

損失函數(shù)是衡量期望結(jié)果與真實(shí)結(jié)果之間差異的重要標(biāo)準(zhǔn)，選擇一個(gè)合適的損失函數(shù)需要考慮是否有離群點(diǎn)、運(yùn)行梯度下降的時(shí)間效率、是否容易找到損失函數(shù)的導(dǎo)數(shù)等眾多因素，那么如何設(shè)計(jì)合適的損失函數(shù)獲得優(yōu)異的預(yù)測(cè)結(jié)果也成為模型優(yōu)化的重要方向[16].

ODMMP-YOLO 利用GIoU 來(lái)替換邊框回歸損失函數(shù)，對(duì)原有的目標(biāo)定位損失函數(shù)進(jìn)行重構(gòu).采用IoU來(lái)直接衡量?jī)蓚€(gè)邊界框的相似性時(shí)會(huì)出現(xiàn)一些極端情況：當(dāng)真實(shí)邊框和預(yù)測(cè)邊框之間相互重合且IoU 值相同時(shí)，檢測(cè)效果卻存在較大差異；當(dāng)真實(shí)邊框和預(yù)測(cè)邊框之間沒(méi)有重疊時(shí)，IoU 的值為0，就會(huì)導(dǎo)致優(yōu)化損失函數(shù)的梯度為0，則無(wú)法進(jìn)行下一步優(yōu)化.采用GIoU 不僅關(guān)注到重疊區(qū)域，也關(guān)注到其他非重疊區(qū)域，更好地反映了真實(shí)邊框和預(yù)測(cè)邊框的重合度.當(dāng)真實(shí)邊框和預(yù)測(cè)邊框無(wú)限重合時(shí)，GIoU 取最大值為1；當(dāng)真實(shí)邊框和預(yù)測(cè)邊框無(wú)重疊且無(wú)限遠(yuǎn)時(shí)，GIoU 取最小值為-1.因此本文采用GIoU 來(lái)衡量真實(shí)邊框和預(yù)測(cè)邊框之間的距離，選取和真實(shí)目標(biāo)的置信度值最大的預(yù)測(cè)邊框作為最終預(yù)測(cè)邊框，如果預(yù)測(cè)邊框和真實(shí)邊框的重疊率大于某一值，但又不是最大，則忽略這個(gè)預(yù)測(cè)邊框.如果某預(yù)測(cè)邊框中不包含目標(biāo)對(duì)象，則在計(jì)算定位損失時(shí)忽略該預(yù)測(cè)邊框的損失.找到真實(shí)邊框集合GT（GroundTruth）與預(yù)測(cè)邊框集合DR（DetectionResult）的最小閉包區(qū)域面積C，最終計(jì)算的GIoU 為

由于訓(xùn)練過(guò)程中，目標(biāo)檢測(cè)方法中存在正負(fù)樣本不均衡的問(wèn)題，其中含有大量易分類且大多數(shù)均為背景的負(fù)樣本，且易分類的負(fù)樣本對(duì)Loss 梯度更新方向起著主導(dǎo)作用，這樣就造成無(wú)法準(zhǔn)確地識(shí)別目標(biāo).針對(duì)上述問(wèn)題，本文對(duì)目標(biāo)置信度的損失提出如下改進(jìn)：

step1：定義二值交叉熵CE（p，y）

step2：計(jì)算損失權(quán)重Lweight

step3：計(jì)算置信度的損失Lconf（p，y）

式中：p 為前景概率；α 為權(quán)重參數(shù)，α∈[0，1]，本文取為1；y 為真實(shí)標(biāo)簽的值，為1 或0.

無(wú)論是針對(duì)前景類還是背景類，p 值越大，那么權(quán)重（1-p）2就越小，則就可以通過(guò)權(quán)重對(duì)易分類樣本進(jìn)行抑制.損失函數(shù)Lconf既解決了正負(fù)樣本不平衡問(wèn)題，也解決了易分類與難挖掘樣本的不平衡問(wèn)題.對(duì)于那些數(shù)量龐大，但容易分類的純背景類，在計(jì)算目標(biāo)置信度的損失時(shí)，通過(guò)減少易分類樣本損失的權(quán)重Lweight，使模型在訓(xùn)練時(shí)更加專注于難分類的樣本，這樣可有效減少正樣本和負(fù)樣本之間的不平衡問(wèn)題，從而有效提升檢測(cè)精度.

ODMMP-YOLO 損失函數(shù)如下

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

本文利用PASCAL VOC 07++12[17]數(shù)據(jù)集進(jìn)行訓(xùn)練，其中包含20 類對(duì)象，由于原始數(shù)據(jù)量較少，本文所用圖像數(shù)據(jù)集進(jìn)行3 種方式的預(yù)處理操作，分別為①隨機(jī)水平翻轉(zhuǎn)：將圖像進(jìn)行水平翻轉(zhuǎn)，得到新圖像；②隨機(jī)裁剪：與縮放不同，裁剪是從原始圖像中隨機(jī)抽取一個(gè)部分，之后將此部分的大小調(diào)整為原始圖像的大小，得到新圖像；③隨機(jī)平移：將圖像在水平和豎直方向上隨機(jī)移動(dòng)，可以使特征提取網(wǎng)絡(luò)能夠看到圖像的所有角落.通過(guò)上述的數(shù)據(jù)增強(qiáng)方法得到16 551張訓(xùn)練圖像用于本文后續(xù)實(shí)驗(yàn).

3.2 學(xué)習(xí)率設(shè)置

實(shí)驗(yàn)硬件環(huán)境配置為Intel（R）Core（TM）i7-7700 CPU@3.60 GHz 處理器，模型在具有8 GB 內(nèi)存NVIDIA Tesla K20M GPU 上進(jìn)行訓(xùn)練.

訓(xùn)練時(shí)ODMMP-YOLO 采用以較低學(xué)習(xí)率逐漸增大至較高學(xué)習(xí)率的方式來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)模型訓(xùn)練的“預(yù)熱”階段，從而避免因較小的學(xué)習(xí)率導(dǎo)致模型訓(xùn)練緩慢的問(wèn)題.但是如果一直使用較高學(xué)習(xí)率會(huì)使權(quán)重的梯度來(lái)回震蕩，造成訓(xùn)練的損失難以達(dá)到全局最低，因此本文采用consine learning decay[18]方式逐漸減小學(xué)習(xí)率.整個(gè)訓(xùn)練過(guò)程學(xué)習(xí)率的變化曲線如圖4 所示，當(dāng)?shù)綌?shù)大于200 000 時(shí)，學(xué)習(xí)率曲線趨于平緩并達(dá)到最低值.

3.3 檢測(cè)結(jié)果定量評(píng)估

為了更好地驗(yàn)證ODMMP-YOLO 在識(shí)別與定位人、常見動(dòng)物、交通車輛以及家具用品等目標(biāo)的可行性與有效性，本文利用PASCAL VOC 2007 測(cè)試數(shù)據(jù)集對(duì)ODMMP-YOLO 和YOLOv3 方法進(jìn)行實(shí)驗(yàn)結(jié)果的對(duì)比，并利用平均精度AP（average precision）與均值平均精度mAP（mean average precision）值兩項(xiàng)指標(biāo)對(duì)ODMMP-YOLO 的模型進(jìn)行評(píng)估.

AP 值采用PASCAL VOC CHALLENGE 的計(jì)算方式，假設(shè)M 個(gè)樣本中有F 個(gè)正例，將得到F 個(gè)召回率值R（1/F，2/F，…，F(xiàn)/F），對(duì)每個(gè)R 值取最大的精準(zhǔn)率P值，然后對(duì)這F 個(gè)P 值求平均即得到每類對(duì)象的AP，之后計(jì)算所有對(duì)象類別的平均AP 值即得到mAP.

式中：Nclasses表示所有對(duì)象類別的數(shù)目.

表2列出了YOLOv3、YOLOv3+Loss、YOLOv3+MaxPool、DMP-YOLO 和ODMMP-YOLO 的mAP 值對(duì)比結(jié)果.DMP-YOLO 中采用混合池化技術(shù)，當(dāng)閾值大于0.75 時(shí)，mAP 值由73.65%提升到78.49%，增加4.84%；YOLOv3+MaxPool 在下采樣層中只使用最大池化時(shí)，mAP 值由73.65%提升到76.37%；YOLOv3+Loss利用新?lián)p失函數(shù)進(jìn)行檢測(cè)對(duì)象時(shí)，mAP 值由73.65%提升到75.43%，提升約1.8%，驗(yàn)證了混合池化技術(shù)和損失函數(shù)的有效性.

表2 目標(biāo)檢測(cè)算法消融實(shí)驗(yàn)對(duì)比%

圖5 展示了ODMMP-YOLO 在測(cè)試數(shù)據(jù)集上各類別目標(biāo)的檢測(cè)結(jié)果以及所有類別的mAP 值.在每類對(duì)象中檢測(cè)正確和檢測(cè)錯(cuò)誤的對(duì)象數(shù)量對(duì)比結(jié)果，如圖5a 所示.從圖5b 中可以發(fā)現(xiàn)檢測(cè)人、摩托車以及火車等部分單獨(dú)類別時(shí)AP 值可達(dá)到約90%，檢測(cè)所有類別的mAP 值為80.39%，因此驗(yàn)證了ODMMP-YOLO方法的有效性.

表3 列出了兩階段檢測(cè)方法（Fast R-CNN、FasterR-CNN）、一階段檢測(cè)方法（YOLO、YOLOv2、YOLOv3）與ODMMP-YOLO 檢測(cè)方法的實(shí)驗(yàn)對(duì)比結(jié)果.從表3中可以看出，相對(duì)于YOLOv3 算法，ODMMP-YOLO 在識(shí)別船只等部分單獨(dú)對(duì)象類別時(shí)，AP 值提升約15%；在識(shí)別所有類別時(shí)的mAP 值由75.28%提升到80.39%，提升約5%，能夠準(zhǔn)確地識(shí)別與定位生活場(chǎng)景中的目標(biāo)對(duì)象的類別與位置.

表3 目標(biāo)檢測(cè)算法性能評(píng)估結(jié)果對(duì)比%

3.4 檢測(cè)結(jié)果定性評(píng)估

為了更加直觀展示ODMMP-YOLO 識(shí)別的視覺效果，本文隨機(jī)尋找一組圖片進(jìn)行測(cè)試，其中包含了日常生活場(chǎng)景中的人、動(dòng)物、交通車輛和室內(nèi)家具用品等一些常見的對(duì)象，ODMMP-YOLO 測(cè)試結(jié)果如圖6 所示.如圖6 中第一列圖所示，ODMMP-YOLO 能夠從背面和側(cè)面較好地識(shí)別動(dòng)物目標(biāo)；如圖6 中第二列圖所示，ODMMP-YOLO 在識(shí)別不同光照背景下的目標(biāo)時(shí)，可以較好地適應(yīng)光照變化并獲得良好的檢測(cè)精度，同時(shí)針對(duì)小目標(biāo)也有較好的識(shí)別效果；如圖6中第三列圖所示，ODMMP-YOLO 在識(shí)別室外或室內(nèi)存在嚴(yán)重遮擋或密集的目標(biāo)時(shí)，也具有良好的檢測(cè)效果.可以看出ODMMP-YOLO 在識(shí)別與定位遮擋嚴(yán)重或外觀極其相似或較小的目標(biāo)時(shí)具有良好效果.

圖7給出了ODMMP-YOLO 檢測(cè)方法與傳統(tǒng)YOLOv3目標(biāo)檢測(cè)方法的實(shí)驗(yàn)圖對(duì)比結(jié)果.圖7 中第一列為檢測(cè)原圖、第二列為傳統(tǒng)YOLOv3 的實(shí)驗(yàn)結(jié)果圖、第三列為ODMMP-YOLO 的實(shí)驗(yàn)結(jié)果圖，從第二列和第三列兩組實(shí)驗(yàn)圖對(duì)比中可以看出，ODMMP-YOLO 的檢測(cè)結(jié)果明顯優(yōu)于傳統(tǒng)YOLOv3 方法，尤其是在檢測(cè)部分存在遮擋或重疊的物體時(shí)有很好的識(shí)別效果，如圖7c 第一幅圖所示，ODMMP-YOLO 可以很好地檢測(cè)YOLOv3未識(shí)別到的汽車目標(biāo)；圖7c 第二幅圖主要識(shí)別YOLOv3未檢測(cè)到的公交車內(nèi)重疊的乘客目標(biāo)；如圖7c 第三幅圖主要識(shí)別目標(biāo)為遠(yuǎn)處的船只.ODMMP-YOLO 在識(shí)別存在遮擋或重疊的小物體時(shí)，整體檢測(cè)效果更好.

4 結(jié)語(yǔ)

本文對(duì)現(xiàn)存的檢測(cè)方法進(jìn)行分析，提出一種基于混合池化YOLO 的目標(biāo)檢測(cè)方法（ODMMP-YOLO），并在PASCAL VOC 2007 數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)，實(shí)驗(yàn)表明，DMP 特征提取網(wǎng)絡(luò)模型能夠更好保留特征圖之間的空間關(guān)系和特征信息，使提取到的特征信息更加豐富；對(duì)原有的損失函數(shù)重構(gòu)之后減小了目標(biāo)定位損失與置信度損失，精度及模型收斂速度均得到了有效的提升；基于混合池化的YOLO 目標(biāo)檢測(cè)方法的mAP 值提升大約5%，能夠獲得良好的檢測(cè)效果.后續(xù)工作中，將采用遷移學(xué)習(xí)的方法，并對(duì)模型進(jìn)行進(jìn)一步的壓縮與簡(jiǎn)化，將其應(yīng)用到實(shí)時(shí)視頻目標(biāo)檢測(cè)中.