亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

改進(jìn)YOLOv3模型對(duì)航拍汽車(chē)的目標(biāo)檢測(cè)

2019-11-27 05:23:28謝曉竹

裝甲兵工程學(xué)院學(xué)報(bào) 2019年3期

謝曉竹，薛帥

(陸軍裝甲兵學(xué)院信息通信系，北京 100072)

在小型無(wú)人機(jī)云臺(tái)上加載高清攝像機(jī)進(jìn)行圖像和視頻拍攝，已經(jīng)成為其應(yīng)用方式之一[1]。人們通過(guò)分析無(wú)人機(jī)拍攝回來(lái)的圖像和視頻，對(duì)感興趣的目標(biāo)對(duì)象進(jìn)行分析，進(jìn)而獲取有用的信息。根據(jù)自動(dòng)化程度的高低，獲取有用信息的方式可區(qū)分為人工手段和智能手段。人工手段是指將無(wú)人機(jī)傳回的圖像和視頻通過(guò)專(zhuān)業(yè)人員逐個(gè)檢測(cè)，進(jìn)而得到分析結(jié)果。但隨著大數(shù)據(jù)時(shí)代的到來(lái)，當(dāng)面臨海量的數(shù)據(jù)時(shí)，這種方式不僅工作效率低，而且耗費(fèi)了大量的人力和物力，已經(jīng)不能適應(yīng)時(shí)代的發(fā)展。智能手段是計(jì)算機(jī)輔助分析的一種方式，其中目標(biāo)檢測(cè)是其主要的研究?jī)?nèi)容和應(yīng)用前提。

在計(jì)算機(jī)視覺(jué)領(lǐng)域中，目標(biāo)檢測(cè)是指通過(guò)計(jì)算機(jī)分析圖像和視頻，對(duì)感興趣的目標(biāo)進(jìn)行識(shí)別，進(jìn)而獲取目標(biāo)的類(lèi)別和準(zhǔn)確位置。傳統(tǒng)的目標(biāo)檢測(cè)算法有很多，如Haar+Adaboost[2]、HOG(Histogram of Oriented Gradient)+SVM(Support Vector Machine)[3]和DPM(Deformable Parts Model)[4]等，這些算法的共同缺陷是需要手工設(shè)計(jì)特征，難以適應(yīng)目標(biāo)的多樣性變化，檢測(cè)模型的魯棒性不強(qiáng)。深度學(xué)習(xí)方法以構(gòu)建多層卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)，通過(guò)對(duì)海量的數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練，進(jìn)而得出優(yōu)化的網(wǎng)絡(luò)模型參數(shù)，以此來(lái)實(shí)現(xiàn)目標(biāo)的檢測(cè)。相對(duì)于傳統(tǒng)的方法，該方法不僅在檢測(cè)準(zhǔn)確率上有了很大提高，其對(duì)復(fù)雜背景(如光照、陰影、霧氣等)下的目標(biāo)檢測(cè)也有很好的檢測(cè)效果。因此，深度學(xué)習(xí)方法已成為目標(biāo)檢測(cè)的主流。

基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法可分為2大類(lèi)：一類(lèi)是基于區(qū)域建議的方法，通常稱為兩階段檢測(cè)，該方法首先提取可能存在目標(biāo)的候選區(qū)域，而后對(duì)提取的候選區(qū)域進(jìn)行分類(lèi)和邊界位置回歸，其優(yōu)點(diǎn)是檢測(cè)準(zhǔn)確率高，不足是速度慢，很難滿足實(shí)時(shí)性要求；另一類(lèi)是端到端的目標(biāo)檢測(cè)方法，也稱作一階段檢測(cè)，相對(duì)于兩階段檢測(cè)，其主要優(yōu)勢(shì)是速度快、實(shí)時(shí)性強(qiáng)。筆者基于端到端的目標(biāo)檢測(cè)YOLOv3模型[5]，以無(wú)人機(jī)航拍汽車(chē)為檢測(cè)對(duì)象，結(jié)合無(wú)人機(jī)航拍的應(yīng)用場(chǎng)景特點(diǎn)，提出改進(jìn)的模型，為無(wú)人機(jī)交通監(jiān)管智能化提供前期的探索性研究參考。

1 YOLOv3模型

YOLOv3模型是當(dāng)前YOLO(YouOnlyLookOnce)模型[6]的最新改進(jìn)版本。該模型采用稱作Darknet-53的全卷積網(wǎng)絡(luò)結(jié)構(gòu)作為主結(jié)構(gòu)，擁有52個(gè)卷積層和1個(gè)池化層。同時(shí)借鑒了殘差網(wǎng)絡(luò)(Residual neural Network,ResNet)[7]和特征金字塔(Feature Pyramid Networks,FPN)[8]，可實(shí)現(xiàn)多尺度目標(biāo)的預(yù)測(cè)。其算法基本思想是：當(dāng)訓(xùn)練模型時(shí)，利用全卷積網(wǎng)絡(luò)提取輸入圖像特征，獲取3種尺度大小的特征圖，分別為N1×N1、N2×N2和N3×N3，相當(dāng)于將輸入圖像分別劃分為N1×N1、N2×N2和N3×N3個(gè)單元格。如果輸入圖像中的被檢測(cè)物體中心點(diǎn)落入某個(gè)單元格，那么就由該單元格負(fù)責(zé)預(yù)測(cè)該目標(biāo)。該單元格在3種尺度下分別選取和標(biāo)簽框最大的交并比IOU(Intersection Over Union)進(jìn)行預(yù)測(cè)，同時(shí)使用多個(gè)邏輯分類(lèi)器進(jìn)行回歸，從而訓(xùn)練出網(wǎng)絡(luò)結(jié)構(gòu)的每一層權(quán)重參數(shù)。當(dāng)預(yù)測(cè)時(shí)，利用訓(xùn)練好的網(wǎng)絡(luò)模型對(duì)輸入圖像即可實(shí)現(xiàn)一次性輸出，即實(shí)現(xiàn)目標(biāo)的分類(lèi)和定位，其模型結(jié)構(gòu)如圖1所示。

圖1 YOLOv3模型結(jié)構(gòu)

輸入圖像在經(jīng)過(guò)79層卷積后有3個(gè)分支：第1個(gè)分支經(jīng)過(guò)3個(gè)卷積層生成第一種尺度(大小為13×13像素)的特征圖，相對(duì)于原輸入圖像大小，下采樣倍數(shù)為32，感受野最大，主要用來(lái)檢測(cè)圖像中相對(duì)尺寸較大的物體；第2分支經(jīng)過(guò)1個(gè)卷積層卷積后，進(jìn)行2倍上采樣操作，然后與卷積層第61層進(jìn)行特征融合，即相同大小的特征圖維度相加，而后經(jīng)過(guò)一系列卷積后形成第2種尺度(大小為26×26像素)的特征圖，相對(duì)于原始輸入圖像大小，下采樣倍數(shù)為16，主要用來(lái)檢測(cè)圖像中中等尺寸大小的物體；第3分支采用同樣的原理，通過(guò)融合91層與36層，形成第3種尺度(大小為52×52像素)的特征圖，下采樣倍數(shù)為8，感受野最小，適合檢測(cè)圖像中尺寸較小的物體。

2 模型的改進(jìn)

2.1 航拍汽車(chē)目標(biāo)的特點(diǎn)

與普通拍攝相比，航拍汽車(chē)具有如下特點(diǎn)[9]：

1) 汽車(chē)目標(biāo)相對(duì)尺度多樣。由于拍攝的高度及角度不同，如50 m高空拍攝與300 m高空拍攝，正上方拍攝和側(cè)上方拍攝，會(huì)形成圖像或視頻幀中的汽車(chē)目標(biāo)大小不一，形狀各異，這是檢測(cè)的難點(diǎn)之一。

2) 拍攝圖像質(zhì)量差異多變。萬(wàn)里晴空下，成像質(zhì)量較高。不良?xì)夂蛳拢艿斤L(fēng)力及無(wú)人機(jī)自身飛行穩(wěn)定性能的限制，雖然有云臺(tái)發(fā)揮作用，但抖動(dòng)還是不可避免。同時(shí)，受陰雨、霧霾等不良天氣的影響，成像畫(huà)面模糊，汽車(chē)特征不明顯。

3) 拍攝視野廣。航拍的圖像或視頻幀中包含很多與檢測(cè)目標(biāo)無(wú)關(guān)的干擾信息，并且通常情況下一張圖像或視頻幀中包含的檢測(cè)目標(biāo)也較多，增大了檢測(cè)的難度。

2.2 YOLOv3模型的改進(jìn)

傳統(tǒng)的YOLOv3模型通過(guò)在3個(gè)尺度中實(shí)現(xiàn)高層特征與低層特征的融合，形成了類(lèi)似于金字塔式的語(yǔ)義信息，增強(qiáng)了網(wǎng)絡(luò)的表示能力。相對(duì)于YOLOv2模型[10]，雖然提升了對(duì)多尺度目標(biāo)的檢測(cè)能力，但對(duì)小目標(biāo)的檢測(cè)精度還不是很高，定位時(shí)IOU較低。結(jié)合單類(lèi)別目標(biāo)檢測(cè)的特點(diǎn)和航拍汽車(chē)檢測(cè)的實(shí)際應(yīng)用場(chǎng)景需要，筆者對(duì)YOLOv3模型主要進(jìn)行如下2個(gè)方面的改進(jìn)。

2.2.1 增強(qiáng)分支融合

在YOLO系列模型思想中，網(wǎng)格分得越細(xì)，對(duì)尺寸較小的目標(biāo)檢測(cè)能力越強(qiáng)，但同時(shí)也會(huì)帶來(lái)網(wǎng)絡(luò)參數(shù)的成倍增加，增大了模型的訓(xùn)練難度和復(fù)雜度，進(jìn)而會(huì)影響模型的實(shí)際檢測(cè)精度和速度。綜合衡量，為增強(qiáng)對(duì)小目標(biāo)檢測(cè)能力，提高定位精度，筆者提出了改進(jìn)大尺度分支網(wǎng)絡(luò)結(jié)構(gòu)的模型，命名為ZQ-YoloNet，主要是通過(guò)加強(qiáng)第3分支的語(yǔ)義表征能力和位置信息，進(jìn)而優(yōu)化檢測(cè)效果。改進(jìn)的模型依然使用YOLOv3的主結(jié)構(gòu)，在其他2個(gè)分支結(jié)構(gòu)不變的情況下，卷積層(第79層)特征圖經(jīng)過(guò)4倍上采樣后與第36層特征圖進(jìn)行級(jí)聯(lián)融合，而后再與經(jīng)過(guò)2倍上采樣后的卷積層(第91層)特征圖進(jìn)行級(jí)聯(lián)融合，最后與經(jīng)過(guò)數(shù)次卷積后的卷積層(第11層)進(jìn)行級(jí)聯(lián)融合，最終構(gòu)成尺度3分支結(jié)構(gòu)，改進(jìn)模型的結(jié)構(gòu)如圖2所示。

圖2 改進(jìn)模型的結(jié)構(gòu)

2.2.2 優(yōu)化生成錨點(diǎn)框(anchors)

YOLOv3模型使用k-means聚類(lèi)(dimension clusters)方法自動(dòng)生成錨點(diǎn)框，默認(rèn)輸入圖像大小為416×416像素，使用距離公式為

d(box,centroid)=1-IOU(box,centroid)，

(1)

式中：d(box,centroid)為標(biāo)簽框與中心框的距離；IOU(box,centroid)為標(biāo)簽框與中心框的交并比。因?yàn)閼?yīng)用場(chǎng)景的差異，原模型使用的錨點(diǎn)框是由COCO(Common Objects Context)數(shù)據(jù)集中得出的，并不適用于本文訓(xùn)練使用的數(shù)據(jù)集，因此需要分析k值的大小并重新生成相應(yīng)的錨點(diǎn)框。與原模型不同，本文使用k-means++聚類(lèi)[11]方法，其算法基本流程如下：

1) 初始化。獲取訓(xùn)練數(shù)據(jù)集中標(biāo)簽框坐標(biāo)(xi,yi,wi,hi),i=1,2,…,n，其中n為訓(xùn)練集中標(biāo)簽框的總數(shù)，(xi,yi)為標(biāo)簽框中心坐標(biāo)，wi、hi分別為標(biāo)簽框的寬和高。同時(shí)從數(shù)據(jù)集中隨機(jī)選定一個(gè)樣本作為聚類(lèi)中心C。

3) 重復(fù)第2)步，直至選出k個(gè)聚類(lèi)中心，對(duì)應(yīng)的大小為(Wj,Hj),j=1,2,…,k，其中Wj、Hj分別為中心框的寬和高。

4) 計(jì)算每個(gè)標(biāo)簽框與中心框的距離：d=1-IOU((xi,yi,wi,hi),(xi,yi,Wj,Hj))，將標(biāo)簽框歸為距離最小的那個(gè)中心框類(lèi)。

6) 返回第4)、5)步重新計(jì)算，直至(Wj,Hj)變化趨于0。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)平臺(tái)和數(shù)據(jù)集

實(shí)驗(yàn)環(huán)境配置如表1所示。

構(gòu)建的數(shù)據(jù)集共有1 300張圖像，其中訓(xùn)練集1 000張，驗(yàn)證集300張。圖像最小為528×278像素，最大為1 280×720像素，標(biāo)注工具使用yolo_mark軟件。

表1 實(shí)驗(yàn)環(huán)境配置

3.2 模型的訓(xùn)練

3.2.1 生成錨點(diǎn)框

使用K-means++聚類(lèi)方法生成錨點(diǎn)框。首先求取不同k值對(duì)應(yīng)生成的錨點(diǎn)框和標(biāo)簽框的平均IOU，該值反映了錨點(diǎn)框與標(biāo)簽框的相似程度。當(dāng)平均IOU越大時(shí)，選取的錨點(diǎn)框越接近標(biāo)簽框，越有利于模型的初始訓(xùn)練。同時(shí)，簇?cái)?shù)k值越大，模型越復(fù)雜，訓(xùn)練中也就越難收斂。這里取k值為1～15，得出k與平均IOU關(guān)系曲線，如圖3所示。

圖3 k與平均IOU關(guān)系曲線

考慮到模型的訓(xùn)練復(fù)雜度和錨點(diǎn)框初始化的效果，這里選取k=9，并進(jìn)行錨點(diǎn)框的生成，聚類(lèi)生成圖如圖4所示。

圖4 k=9的聚類(lèi)生成圖

3.2.2 改進(jìn)模型的訓(xùn)練

采用多尺度訓(xùn)練模式，模型初始輸入大小為416×416像素，每4個(gè)迭代循環(huán)后，從320～608，步長(zhǎng)為32的范圍中隨機(jī)選擇一個(gè)數(shù)值作為新的輸入，使用darknet53.conv.74作為初始化訓(xùn)練權(quán)重參數(shù)[12]，共迭代5 000次。訓(xùn)練過(guò)程主要參數(shù)選取如表2所示。

表2 訓(xùn)練過(guò)程參數(shù)選取表

訓(xùn)練中根據(jù)迭代次數(shù)動(dòng)態(tài)調(diào)整學(xué)習(xí)率。初始學(xué)習(xí)率隨機(jī)指定，當(dāng)?shù)螖?shù)>1 000次時(shí)，采用指定策略更新學(xué)習(xí)率。更新策略為：迭代次數(shù)在區(qū)間(1 000,2 000]時(shí)，學(xué)習(xí)率為0.001；在區(qū)間(2 000,3 000]時(shí)，學(xué)習(xí)率為0.000 1；在區(qū)間(3 000,5 000]時(shí)，學(xué)習(xí)率為0.000 01。訓(xùn)練收斂曲線如圖5所示，平均IOU與訓(xùn)練迭代次數(shù)關(guān)系曲線如圖6所示。

圖5 訓(xùn)練收斂曲線

圖6 平均IOU與迭代次數(shù)關(guān)系曲線

3.3 模型評(píng)測(cè)與分析

3.3.1 模型的評(píng)判標(biāo)準(zhǔn)

目標(biāo)檢測(cè)領(lǐng)域中，檢測(cè)模型的評(píng)價(jià)指標(biāo)通常包括平均精度mAP(mean Average Precision)、精確率P(precision)、召回率R(recall)和交并比IOU。結(jié)合本文的應(yīng)用場(chǎng)景，具體評(píng)價(jià)指標(biāo)計(jì)算如下：

當(dāng)檢測(cè)目標(biāo)為單一類(lèi)別時(shí)，平均精度mAP即為AP，其計(jì)算公式為

(2)

式中：ci為單張圖像中目標(biāo)檢測(cè)的準(zhǔn)確率；m為圖像總數(shù)。

P=TP/(TP+FP)，

(3)

R=TP/(TP+FN)，

(4)

式中：TP為被正確檢出的數(shù)量；FP為錯(cuò)誤檢出的數(shù)量；FN為漏檢的數(shù)量。

IOU=A/U，

(5)

式中：A為預(yù)測(cè)框與標(biāo)簽框重疊的面積；U為預(yù)測(cè)框與標(biāo)簽框的并集面積。

除此之外，P和R的調(diào)和平均數(shù)F-Score也是一種評(píng)價(jià)指標(biāo)，它綜合衡量了精確率P與召回率R，其計(jì)算公式為

F-Score=(β2+1)×P×R/(β2×P+R)，

(6)

式中：β為調(diào)和系數(shù)，本文取β=1，即使用F1-Score評(píng)價(jià)標(biāo)準(zhǔn)。

3.3.2 模型對(duì)比分析

使用同樣的數(shù)據(jù)集和訓(xùn)練參數(shù)對(duì)原YOLOv3模型進(jìn)行訓(xùn)練，在驗(yàn)證集中進(jìn)行分析比較，改進(jìn)后的YOLOv3模型ZQ-YoloNet和原模型性能參數(shù)對(duì)比如表3所示。

表3 模型性能參數(shù)對(duì)比 %

由表3可以看出：改進(jìn)后的ZQ-YoloNet模型平均精度比原YOLOv3模型提高了0.2%，F(xiàn)1-Score指標(biāo)提升了0.19%，平均IOU提升了2.18%，說(shuō)明改進(jìn)后的模型綜合性能更好，檢測(cè)準(zhǔn)確率和定位精度更高。當(dāng)對(duì)大小為1 280×720像素的mp4格式的視頻進(jìn)行檢測(cè)時(shí)，幀速率不低于40幀/s，相對(duì)于PAL(Phase Alteration Line)制式和NTSC(National Television Standards Committee)標(biāo)準(zhǔn)，可以滿足對(duì)視頻實(shí)時(shí)檢測(cè)的要求。

圖7、8分別展示了對(duì)圖像和視頻的測(cè)試效果?？梢钥闯觯涸Ｐ驮跈z測(cè)目標(biāo)時(shí)標(biāo)出的矩形框范圍過(guò)大，即定位不夠準(zhǔn)確。改進(jìn)的模型在檢測(cè)目標(biāo)時(shí)標(biāo)出的矩形框范圍相對(duì)合理，即定位較為準(zhǔn)確，并且物體的置信度百分比也比原模型有所提高。經(jīng)過(guò)驗(yàn)證，改進(jìn)的模型對(duì)小型無(wú)人機(jī)航拍圖像和視頻中汽車(chē)的檢測(cè)具有良好的效果。

圖7 模型改進(jìn)前后圖像檢測(cè)效果對(duì)比

圖8 模型改進(jìn)前后視頻檢測(cè)效果對(duì)比

4 結(jié)論

筆者提出的ZQ-YoloNet模型,在驗(yàn)證集中獲得了較好的檢測(cè)精確率和定位精度,同時(shí)通過(guò)對(duì)數(shù)據(jù)集之外的小型無(wú)人機(jī)航拍圖片和視頻進(jìn)行驗(yàn)證檢測(cè)，也得到了良好的檢測(cè)效果。由于自身?xiàng)l件限制，本文制作的數(shù)據(jù)集圖像分辨率不高，這在一定程度上降低了訓(xùn)練模型的性能。在后續(xù)學(xué)習(xí)中，將在研究深度學(xué)習(xí)模型結(jié)構(gòu)的同時(shí)，制作出高分辨率的圖像數(shù)據(jù)集，以此獲得更好的試驗(yàn)效果。