唐 悅, 吳 戈, 樸 燕
(長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院,吉林 長(zhǎng)春 130022)
隨著國(guó)家經(jīng)濟(jì)飛躍式的增長(zhǎng),人民的生活水平也在不斷地提高,在城市道路上,可以看見(jiàn)機(jī)動(dòng)車(chē)幾乎人人都在使用,而隨著互聯(lián)網(wǎng)科技的發(fā)展,大多數(shù)人都用餓了么、美團(tuán)外賣(mài)進(jìn)行訂餐,這種足不出戶叫外賣(mài)的生活方式導(dǎo)致了騎電動(dòng)摩托車(chē)的人也多了起來(lái)。機(jī)動(dòng)車(chē)和非機(jī)動(dòng)車(chē)(電動(dòng)車(chē)、摩托車(chē))的出現(xiàn)改變了人們的生活方式,它取代了原始的人力車(chē)和步行的出行方式。在給人們的出行帶來(lái)極大的方便之時(shí),也給交警部門(mén)的工作人員對(duì)道路上車(chē)流的監(jiān)管帶來(lái)了較大的挑戰(zhàn)。機(jī)動(dòng)車(chē)和非機(jī)動(dòng)車(chē)數(shù)量的增加,導(dǎo)致了交通事故的頻頻出現(xiàn),間接地造成了人員的傷亡以及財(cái)產(chǎn)損失。
深度學(xué)習(xí)在目標(biāo)檢測(cè)中被廣泛應(yīng)用,特別是對(duì)遠(yuǎn)小近大和運(yùn)動(dòng)速度不同的目標(biāo),在背景復(fù)雜的交通場(chǎng)景中,進(jìn)行準(zhǔn)確并實(shí)時(shí)的檢測(cè)是最具挑戰(zhàn)性的任務(wù)[1-7]。深度學(xué)習(xí)也取得了質(zhì)的發(fā)展,第一類(lèi)是兩階段基于區(qū)域的檢測(cè)算法,以Fast RCNN(Fast Region Convolutional Neural Networks)、Faster RCNN(Faster Region Convolutional Neural Networks)、Mask RCNN(Mask Region Convolutional Neural Networks)為主要代表的算法,這類(lèi)算法對(duì)目標(biāo)的檢測(cè)準(zhǔn)確度很高,但是檢測(cè)速度稍慢。第二類(lèi)是單階段基于回歸方法的檢測(cè)算法,將檢測(cè)事件當(dāng)作回歸事件進(jìn)行解決,可以直接將檢測(cè)目標(biāo)的位置和類(lèi)別預(yù)測(cè)出來(lái)。該類(lèi)算法可以達(dá)到實(shí)時(shí)性檢測(cè),但檢測(cè)的準(zhǔn)確度顯然不如第一類(lèi)算法。主要以YOLO(You Only Look Once)、SSD512(Single ShotMultiBox Detector512)、YOLOV2(You Only Look Oncev2)、YOLOV3(You Only Look Oncev3)為代表性的網(wǎng)絡(luò)為主。
使用卷積神經(jīng)網(wǎng)絡(luò)所提取到的前景目標(biāo)的特征,確實(shí)要比傳統(tǒng)方法提取到的特征要好得多,可以避免許多缺點(diǎn)?;贑NN(Convolutional Neural Networks)的目標(biāo)檢測(cè)算法被應(yīng)用于道路車(chē)輛監(jiān)管、農(nóng)業(yè)果實(shí)采摘、輔助駕駛等方面。文獻(xiàn)[8]將VGG(Visual Geometry Group)網(wǎng)絡(luò)提取特征,經(jīng)過(guò)初步二分類(lèi)和回歸后得到一系列預(yù)選框,將此預(yù)選框輸入到特征金字塔結(jié)構(gòu)中,并構(gòu)建注意力掩模模塊自適應(yīng)地學(xué)習(xí)有效特征,同時(shí)融合特征金字塔結(jié)構(gòu)與注意力掩模模塊得到更具表征性的特征;文獻(xiàn)[9]提出了一種多尺度聚類(lèi)卷積神經(jīng)網(wǎng)絡(luò)算法,來(lái)實(shí)現(xiàn)對(duì)行人的識(shí)別與檢測(cè),該算法是對(duì)YOLOV3進(jìn)行改進(jìn),為了得到相應(yīng)的特征圖,首先通過(guò)簡(jiǎn)單聚類(lèi)對(duì)圖像特征進(jìn)行提取,然后通過(guò)抽樣K-means聚類(lèi)算法結(jié)合核函數(shù)確定錨點(diǎn)位置,以達(dá)到更好的聚類(lèi);文獻(xiàn)[10]將利用VGG16網(wǎng)絡(luò)作為微調(diào)網(wǎng)絡(luò),并添加部分深層網(wǎng)絡(luò),通過(guò)提取目標(biāo)淺層特征與深層特征進(jìn)行聯(lián)合訓(xùn)練,克服檢測(cè)過(guò)程中定位與識(shí)別相互矛盾的問(wèn)題。
本文以基于回歸的目標(biāo)檢測(cè)方法中的深度卷積網(wǎng)絡(luò)YOLOV3為基礎(chǔ),首先為了解決場(chǎng)景中運(yùn)動(dòng)目標(biāo)尺寸大小不一的問(wèn)題,將視頻圖像中的運(yùn)動(dòng)物體作為待檢測(cè)目標(biāo)。本文基于YOLOV3算法,針對(duì)視頻圖像中的運(yùn)動(dòng)目標(biāo)對(duì)YOLOV3算法做了優(yōu)化及改進(jìn),并設(shè)計(jì)搭建了一個(gè)用道路監(jiān)控場(chǎng)景中目標(biāo)檢測(cè)的CNN網(wǎng)絡(luò)。使用3種不同的數(shù)據(jù)集混合[11]訓(xùn)練,可以解決單個(gè)類(lèi)別檢測(cè)效果差的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的GDT-YOLOV3(GIOU Densenet Transition Module)網(wǎng)絡(luò)與SSD512、YOLOV2與YOLOV3比較,檢測(cè)效果有了明顯提升。
本文首先提出了將GIOU(Generalized Intersection over Union) Loss引入到Y(jié)OLOV3檢測(cè)算法中,解決了原IOU(Intersection over Union)無(wú)法直接優(yōu)化非重疊部分的問(wèn)題。搭建一個(gè)緊密連接的GDT-YOLOV3網(wǎng)絡(luò),使尺度1、尺度2、尺度3在進(jìn)行預(yù)測(cè)之前,能夠收到Denseblock輸出的多層卷積特征,最大化地實(shí)現(xiàn)特征的復(fù)用及融合。使用密集連接塊提高了CNN層間的連接,可用Max Pooling前一個(gè)密集模塊間的輸出,可更好地增強(qiáng)DenseNet區(qū)塊間的連接,可解決CNN網(wǎng)絡(luò)的退化問(wèn)題。針對(duì)道路監(jiān)控中的運(yùn)動(dòng)目標(biāo),例如騎電動(dòng)車(chē)的行人數(shù)據(jù)集比較少的現(xiàn)象,制作了相關(guān)數(shù)據(jù)集。
YOLO(You Only Look Once)算法最初是Redmon[12]等在2016年提出的一種基于回歸的目標(biāo)識(shí)別方法,到2018年發(fā)展到了第3代,所以被命名YOLOV3,它的思想是端到端的回歸方法,對(duì)比先選取候選區(qū)域,再特征提取做分類(lèi)的雙階段算法,它是一種輕快高效的檢測(cè)方法。
YOLOV3網(wǎng)絡(luò)仍然保持著YOLOV2[13]網(wǎng)絡(luò)的優(yōu)點(diǎn),不僅在檢測(cè)速度上有了提升,而且在對(duì)目標(biāo)的檢出率也有了提升,尤其在距離視頻監(jiān)控遠(yuǎn)的小目標(biāo)的檢測(cè)方面,檢出率有顯著的提升。
YOLOV3網(wǎng)絡(luò)使用anchor boxes[14]的思想,使用了3個(gè)尺度在COCO數(shù)據(jù)集上進(jìn)行了預(yù)測(cè),每一個(gè)尺度有3個(gè)anchor boxes,小的先驗(yàn)框被尺度大的特征圖使用,可以根據(jù)要檢測(cè)的目標(biāo)挑選合適的先驗(yàn)框anchor boxes,最后根據(jù)準(zhǔn)備預(yù)測(cè)的尺度對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修改。
目前COCO數(shù)據(jù)集的應(yīng)用較為廣泛,尤其在目標(biāo)檢測(cè)、語(yǔ)義分割及目標(biāo)識(shí)別等方面,更是被廣泛應(yīng)用,這個(gè)數(shù)據(jù)集包含了自然景象圖片,以及生活中隨處可見(jiàn)的一些背景復(fù)雜和簡(jiǎn)單的圖片,而且COCO數(shù)據(jù)集的數(shù)量比較多。
在深度學(xué)習(xí)中,數(shù)據(jù)集質(zhì)量選取的好壞,以及樣本數(shù)量是否處于一個(gè)平衡狀態(tài)直接影響最終檢測(cè)效果的高低,大量的樣本讓網(wǎng)絡(luò)能夠充分學(xué)習(xí)到需要檢測(cè)的目標(biāo)特征。但是本實(shí)驗(yàn)中所使用的數(shù)據(jù)集中騎電動(dòng)車(chē)、摩托車(chē)或行人的樣本相對(duì)于機(jī)動(dòng)車(chē)較少,也就會(huì)產(chǎn)生樣本失衡的問(wèn)題。因此會(huì)有過(guò)擬合問(wèn)題的出現(xiàn),且最終得到的檢測(cè)模型在訓(xùn)練后泛化能力比較差。
為了避免這一問(wèn)題的出現(xiàn),本文在實(shí)驗(yàn)中采用訓(xùn)練整合數(shù)據(jù)集的方法,首先通過(guò)視頻圖像提取出含有騎車(chē)人的圖像,然后進(jìn)行人工標(biāo)注樣本個(gè)數(shù);為了保證樣本數(shù)量的最佳平衡,同時(shí)下載KITTI數(shù)據(jù)集,并將這個(gè)數(shù)據(jù)集的格式轉(zhuǎn)換為COCO數(shù)據(jù)集的格式,選擇使用這個(gè)數(shù)據(jù)集的原因是,它包含了各種場(chǎng)景下由車(chē)載攝像頭采集的道路車(chē)輛實(shí)際情況,KITTI數(shù)據(jù)集中分為8個(gè)類(lèi)別:汽車(chē)、行人、廂式貨車(chē)、坐著的行人、騎車(chē)的人、雜項(xiàng)、電車(chē)。本文對(duì)KITTI數(shù)據(jù)集原有的8類(lèi)標(biāo)簽信息進(jìn)行處理,保留實(shí)驗(yàn)需要的3個(gè)類(lèi)別標(biāo)簽,即Car、Pedestrian和Cyclist。
本文最終將從3個(gè)數(shù)據(jù)集選取共9 698張圖片,同時(shí)用于訓(xùn)練視頻監(jiān)控場(chǎng)景下的運(yùn)動(dòng)目標(biāo)檢測(cè)模型。測(cè)試集采用人工標(biāo)注的圖片約2 000張。
如果初始候選框選取不好,網(wǎng)絡(luò)的學(xué)習(xí)速度也會(huì)變得較差。對(duì)于本文使用的數(shù)據(jù)集來(lái)說(shuō),它包含的種類(lèi)非常多,每個(gè)目標(biāo)在圖片中的姿勢(shì)、所處位置、大小都略有不同;而對(duì)于行人以及騎車(chē)的行人數(shù)據(jù)集來(lái)說(shuō),它的基本特點(diǎn)都是長(zhǎng)寬比明顯不同。在Faster R-CNN和SSD中需要人為事先設(shè)置好先驗(yàn)框,主觀性比較強(qiáng)。對(duì)于人為設(shè)置的先驗(yàn)框,在設(shè)置先驗(yàn)框時(shí),選擇一個(gè)維度適合的先驗(yàn)框是非常重要的,如果選擇的先驗(yàn)框很好,網(wǎng)絡(luò)就可以進(jìn)行相對(duì)容易的學(xué)習(xí)過(guò)程,從而得到更好的預(yù)測(cè)。
本文在YOLOV3網(wǎng)絡(luò)中使用K-means算法,將視頻監(jiān)控場(chǎng)景下捕獲的運(yùn)動(dòng)目標(biāo)做成數(shù)據(jù)集,并將數(shù)據(jù)集中的真實(shí)邊框進(jìn)行聚類(lèi),可以獲得初始候選邊框的參數(shù)信息。原始的K-means算法分別使用了以下幾個(gè)距離度量方法:曼哈頓距離、歐氏距離以及切比雪夫距離,用其計(jì)算兩點(diǎn)之間的距離。設(shè)置先驗(yàn)框是為了使predict boxes與ground truth 的GIOU更好。
圖1 YOLOV3網(wǎng)絡(luò)多尺度預(yù)測(cè)方式Fig.1 YOLOV3 network multi-scale prediction method
本文選取了K=1,2,3,........,9,分別對(duì)訓(xùn)練集使用K-means聚類(lèi)分析,最終選取的候選邊框數(shù)量為9,具體參數(shù)為:(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326)。YOLOV3網(wǎng)絡(luò)在數(shù)據(jù)集上采用3個(gè)尺度分別進(jìn)行預(yù)測(cè),具體方式如圖1所示。
本文針對(duì)道路監(jiān)控的運(yùn)動(dòng)目標(biāo)進(jìn)行檢測(cè),對(duì)圖像中的車(chē)和人進(jìn)行目標(biāo)檢測(cè),對(duì)YOLOV3提出了3點(diǎn)改進(jìn)。
目標(biāo)檢測(cè)的中心思想是,如何準(zhǔn)確輸出圖片里物體的類(lèi)別及所在位置,對(duì)于以上兩個(gè)問(wèn)題,需要進(jìn)行位置回歸和分類(lèi)的訓(xùn)練。在位置回歸中,使用頻率最高的是Bounding box和Ground Truth框的交并比,通過(guò)計(jì)算兩個(gè)框的交集與并集之比,可以預(yù)測(cè)當(dāng)前的predict box位置與ground truth之間的誤差,并在訓(xùn)練過(guò)程中逐漸回歸出一個(gè)更好的框。
在位置回歸中,通過(guò)對(duì)L2損失函數(shù)的分析發(fā)現(xiàn),即使有好的局部最優(yōu)值,但這個(gè)值也未必會(huì)是IOU的局部最優(yōu)值,也進(jìn)一步說(shuō)明了回歸損失與交并比值之間仍有差距。用IOU做loss的弊端是,當(dāng)兩個(gè)目標(biāo)框無(wú)重疊時(shí),交并比(IOU)值為0,如果直接把IOU=0作為loss,梯度不會(huì)回傳,則對(duì)訓(xùn)練來(lái)講是毫無(wú)意義的,在實(shí)際情況中,這個(gè)0是非常重要的,它證明了兩個(gè)框的距離比較遠(yuǎn)。為了解決IOU的缺點(diǎn),本文提出了GIOU,該算法的具體過(guò)程如下:對(duì)于A、B兩個(gè)框,首先要找到最小邊界框來(lái)涵蓋A、B區(qū)域;其次計(jì)算最小框C去除了A、B外的面積在C中所占總面積的比值,最后得到GIOU的值就是IOU減這個(gè)比值,GIOU為兩個(gè)框度量準(zhǔn)則的算法,如表1所示。
表1 預(yù)測(cè)框和真實(shí)框的度量準(zhǔn)則算法Tab.1 Metric algorithm for prediction box and real box
表1中A為預(yù)測(cè)框,B為真實(shí)框,S是全部框的集合,C是包含A與B的最小框,C也屬于S集合。
在對(duì)目標(biāo)進(jìn)行檢測(cè)中,本文提出了使用廣義的交并比GIOU取代原始損失,解決了原IOU無(wú)法直接優(yōu)化非重疊部分的問(wèn)題。
在YOLOV3中,Redmon[7]等人通過(guò)參考?xì)埐罹W(wǎng)絡(luò),設(shè)計(jì)了Darknet53網(wǎng)絡(luò)。為了實(shí)現(xiàn)對(duì)道路監(jiān)控中運(yùn)動(dòng)目標(biāo)的準(zhǔn)確檢測(cè),本文使用了Darknet53,它通過(guò)ResNet結(jié)構(gòu)使得訓(xùn)練的復(fù)雜度降低,采用了1×1卷積核及3×3/2,stride為2的卷積核取代了Max Pooling,降低了參數(shù)的數(shù)量。
2017年,Huang等人提出了新的網(wǎng)絡(luò)Densenet[15],這個(gè)網(wǎng)絡(luò)借鑒了Resnet[16]思想,通過(guò)對(duì)圖像特征的最大化利用,可達(dá)到更好的效果和參數(shù)。在保證了網(wǎng)絡(luò)中層與層之間最大化的信息傳輸后,將每個(gè)Denseblock中的每一個(gè)層連接起來(lái)。Densenet網(wǎng)絡(luò)結(jié)構(gòu)中有3個(gè)密集卷積塊,3個(gè)密集卷積塊中包含12個(gè)卷積層,在每個(gè)密集卷積塊中,每一個(gè)卷積層可以得到所有之前的卷積層的輸出作為輸入,卷積層+池化層連接了毗鄰的卷積層,密集卷積塊的結(jié)構(gòu)如圖2所示。
圖2 密集卷積塊結(jié)構(gòu)圖Fig.2 Structure of dense convolution block
通過(guò)引入這種密集卷積塊,可以緩解梯度消失的問(wèn)題,緊密的連接結(jié)構(gòu)可以提高圖片特征的信息傳遞,在某種程度上降低了參數(shù)信息的數(shù)目。
本文在基于Darknet53網(wǎng)絡(luò)的基礎(chǔ)上使用密集相連增強(qiáng),Darknet53的密集連接版本稱(chēng)為Darknet53-Dense。Darknet53-Dense由3個(gè)密集相連模塊和4個(gè)Transition module構(gòu)成,每個(gè)密集相連模塊間都有一個(gè)Transition module,可將特征圖的尺寸降低。如圖3所示,Transition module中分別對(duì)上一個(gè)Dense module的輸出做步長(zhǎng)為2的Max Pooling后與使用Stride為2的卷積核的輸出進(jìn)行串行連接,作為下一個(gè)Dense module的輸入,以這種方式使Densenet的模塊間連接得到增強(qiáng),可增強(qiáng)特征的重復(fù)使用,減少跨模塊間的特征傳遞損失,使網(wǎng)絡(luò)可更好地檢測(cè)到視頻圖像中的運(yùn)動(dòng)目標(biāo)。圖3為過(guò)渡模塊的圖解。
圖3 過(guò)渡模塊的圖解Fig.3 Diagram of the transition module
在拍攝視頻圖像過(guò)程中會(huì)有許多因素的影響,比如相機(jī)的內(nèi)部配件、光照條件及天氣因素的影響,尤其在對(duì)小目標(biāo)的檢測(cè)中,有時(shí)人眼都難以準(zhǔn)確地看到運(yùn)動(dòng)的目標(biāo)。為了使網(wǎng)絡(luò)在這些單幀圖像上仍然可以有較好的檢出率,本文借鑒了Densenet網(wǎng)絡(luò)的思想,將YOLOV3網(wǎng)絡(luò)中尺度1、尺度2及尺度3進(jìn)行預(yù)測(cè)輸入的3組Resnet模塊替換成自定義的Densenet模塊,搭建一個(gè)緊密連接的GDT-YOLOV3網(wǎng)絡(luò),使尺度1、尺度2、尺度3在進(jìn)行預(yù)測(cè)之前,能夠收到Denseblock輸出的多層卷積特征,最大化地實(shí)現(xiàn)特征的復(fù)用及融合。改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Improved GDT-YOLOV3 network structure
(a)尺度1(a) Scale1
(b)尺度2(b) Scale2
(c)尺度3(c) Scale3圖5 密集網(wǎng)絡(luò)塊結(jié)構(gòu)圖Fig.5 Dense network block structure
這3個(gè)Denseblock的具體結(jié)構(gòu)如圖5所示,首先設(shè)定x0為模塊輸入的特征圖,xn為第n個(gè)模塊的輸出特征圖,[x0,x1,x2...,xn-1]表示對(duì)x0,x1,x2...,xn-1的連接。H( )代表BN-RELU-CONV(3,3)與BN-RELU-CONV(1,1)的連接,Denseblock的計(jì)算公式為:
xn=Hn([x0,x1,....,xn-1]),n=1,2.....,8 .
(3)
通過(guò)推導(dǎo)得出,更改后的Dense-YOLOV3網(wǎng)絡(luò)結(jié)構(gòu)將會(huì)在尺度2的預(yù)測(cè)網(wǎng)絡(luò)中輸入2 304個(gè)特征圖,在尺度3的預(yù)測(cè)網(wǎng)絡(luò)中輸入4 608個(gè)特征圖,在尺度1的預(yù)測(cè)網(wǎng)絡(luò)中輸入2 560個(gè)特征圖。
本實(shí)驗(yàn)分別選用另外4種網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)仿真。實(shí)驗(yàn)的軟硬件平臺(tái)配置如下:深度學(xué)習(xí)框架是darknet53和caffe;操作系統(tǒng)是ubuntu16.04.2,cuda版本是8.0.44;電腦配置是I7-800CPU,16 G RAM;顯卡是NVIDIA GeForce GTX 1070Ti。
本文采用了動(dòng)量項(xiàng)是0.9的異步隨機(jī)梯度下降,設(shè)置subdivisions為16,權(quán)重的衰減系數(shù)為5×10-5,權(quán)值的初始學(xué)習(xí)率為10-3,由于顯卡的限制,在訓(xùn)練階段設(shè)置batch=32,每次訓(xùn)練的batch是32/16=2,輸入的圖像大小為416×416。在SSD512網(wǎng)絡(luò)、YOLOV2、YOLOV3網(wǎng)絡(luò)和改進(jìn)的GDT-YOLOV3分別訓(xùn)練350 000次,分別在簡(jiǎn)單和復(fù)雜交通場(chǎng)景下進(jìn)行試驗(yàn)。測(cè)試結(jié)果表明,當(dāng)對(duì)網(wǎng)絡(luò)訓(xùn)練的迭代次數(shù)超過(guò)一定值時(shí),則會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象,為了以后測(cè)試最佳權(quán)重文件更方便,在訓(xùn)練時(shí)本文選擇每40 000次迭代保存一次網(wǎng)絡(luò)的權(quán)重文件。選擇的測(cè)試集為前2 000張圖片,使用4種網(wǎng)絡(luò)分別對(duì)其所有的權(quán)重進(jìn)行測(cè)試,計(jì)算召回率的公式為:
R=Tp/(Tp+FN),
(4)
式中:Tp表示正確檢測(cè)出來(lái)的目標(biāo)個(gè)數(shù);FN代表沒(méi)有被檢測(cè)出來(lái)的目標(biāo)個(gè)數(shù)。測(cè)試的部分結(jié)果如表2所示。
表2 部分網(wǎng)絡(luò)召回率與迭代次數(shù)關(guān)系的對(duì)比
從表2可以看出,YOLOV3網(wǎng)絡(luò)迭代最好的次數(shù)為300 000次左右,改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò)迭代最好也是在260 000左右,可以發(fā)現(xiàn)改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò)在檢測(cè)目標(biāo)時(shí)要比YOLOV2、YOLOV3網(wǎng)絡(luò)和SSD512網(wǎng)絡(luò)的效果好。
本文選取了4種網(wǎng)絡(luò)的最佳迭代次數(shù)對(duì)4種網(wǎng)絡(luò)進(jìn)行對(duì)比與測(cè)試。表3為本文的網(wǎng)絡(luò)檢測(cè)模型與其他優(yōu)秀的目標(biāo)檢測(cè)模型的檢測(cè)精度對(duì)比,所有的模型都是采用混合訓(xùn)練集訓(xùn)練的。其中本文的模型檢測(cè)精度要遠(yuǎn)高于SSD512網(wǎng)絡(luò)、YOLOV2和YOLOV3網(wǎng)絡(luò),雖然檢測(cè)速度不如YOLOV3和YOLOV2,但也完全滿足既實(shí)時(shí)又準(zhǔn)確的要求。
本文對(duì)2 000張圖像進(jìn)行測(cè)試,用這4種網(wǎng)絡(luò)對(duì)圖像中的目標(biāo)進(jìn)行檢測(cè)。實(shí)驗(yàn)結(jié)果表明,4種網(wǎng)絡(luò)均能準(zhǔn)確地檢測(cè)出道路上的車(chē)輛、電動(dòng)車(chē)和行人,雖然原始的SSD512,YOLOV2、YOLOV3網(wǎng)絡(luò)都有較高的檢測(cè)速度,但是與本文改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò)的檢測(cè)精度和速度相比,可發(fā)現(xiàn)其他4種網(wǎng)絡(luò)明顯不如本文改進(jìn)的網(wǎng)絡(luò)模型,而且GDT-YOLOV3網(wǎng)絡(luò)幾乎不會(huì)發(fā)生誤檢和漏檢現(xiàn)象,實(shí)驗(yàn)效果如圖6和圖7所示。
表3 不同檢測(cè)模型精度的對(duì)比Tab.3 Comparison of the accuracy of different detection models
(a)原圖像(a) original image
(b)SSD512網(wǎng)絡(luò)(b) SSD512 network
(c)YOLOV2網(wǎng)絡(luò)(c) YOLOV2 network
(d) YOLOV3網(wǎng)絡(luò)(d) YOLOV3 network
(e) 改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò)(e) Improved GDT-YOLOV3 network圖6 簡(jiǎn)單交通情境下實(shí)驗(yàn)檢測(cè)的對(duì)比結(jié)果圖Fig.6 Comparison results of experimental tests in a simple traffic situation
這2 000張圖片包含51 700個(gè)目標(biāo),用這4種網(wǎng)絡(luò)在數(shù)據(jù)集上進(jìn)行測(cè)試,然后計(jì)算檢測(cè)5種目標(biāo)類(lèi)別的準(zhǔn)確率,準(zhǔn)確率的計(jì)算公式:
P=Tp/(Tp+Fp)
.
(5)
(a)原圖像(a) Original image
(b)SSD512網(wǎng)絡(luò)(b) SSD512 network
(c)YOLOV2網(wǎng)絡(luò)(c) YOLOV2 network
(d)YOLOV3網(wǎng)絡(luò)(d) YOLOV3 network
(e)改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò)(e) Improved GDT-YOLOV3 network圖7 復(fù)雜交通情境下實(shí)驗(yàn)檢測(cè)的對(duì)比結(jié)果圖Fig.7 Comparison results of experimental tests in complex traffic situations
經(jīng)過(guò)計(jì)算得出SSD512網(wǎng)絡(luò)誤檢車(chē)輛個(gè)數(shù)為6 260個(gè),行人誤檢個(gè)數(shù)為7 468個(gè),電動(dòng)車(chē)誤檢個(gè)數(shù)12 811個(gè),公共汽車(chē)誤檢個(gè)數(shù)為9 864個(gè),卡車(chē)誤檢個(gè)數(shù)為11 270個(gè);YOLOV2網(wǎng)絡(luò)車(chē)輛誤檢車(chē)輛個(gè)數(shù)為3 282個(gè),行人誤檢個(gè)數(shù)為3 955個(gè),電動(dòng)車(chē)誤檢個(gè)數(shù)10 567個(gè),公共汽車(chē)誤檢個(gè)數(shù)為8 358個(gè),卡車(chē)誤檢個(gè)數(shù)為9 471個(gè);YOLOV3網(wǎng)絡(luò)誤檢車(chē)輛的個(gè)數(shù)為2 476,行人的誤檢個(gè)數(shù)為3 541,電動(dòng)車(chē)誤檢個(gè)數(shù)為7 160個(gè),公共汽車(chē)誤檢個(gè)數(shù)為6 969個(gè),卡車(chē)誤檢個(gè)數(shù)為6 653個(gè);GDT-YOLOv3網(wǎng)絡(luò)誤檢車(chē)輛的個(gè)數(shù)為1 897,行人的誤檢個(gè)數(shù)為2 078,電動(dòng)車(chē)誤檢個(gè)數(shù)為4 027個(gè),公共汽車(chē)誤檢個(gè)數(shù)為5 378個(gè),卡車(chē)誤檢個(gè)數(shù)為5 315個(gè)。從實(shí)驗(yàn)結(jié)果可知,本文改進(jìn)的GDT-YOLOV3檢測(cè)效果更好,與SSD512相比分別在車(chē)輛、行人、電動(dòng)車(chē)、公共汽車(chē)和卡車(chē)的檢測(cè)準(zhǔn)確率分別提升了8.44%、10.46%、16.99%、8.66%、11.52%;與YOLOV2相比在車(chē)輛、行人、電動(dòng)車(chē)、公共汽車(chē)和卡車(chē)的檢測(cè)準(zhǔn)確率分別提升了2.68%、3.63%、6.06%、5.8%、8.06%;與YOLOV3相比在車(chē)輛、行人、電動(dòng)車(chē)、公共汽車(chē)和卡車(chē)的檢測(cè)準(zhǔn)確率提升了1.12%、2.83%、6.06%、3.06%、2.4%,檢測(cè)速度滿足需求。
本文采用K-means算法聚類(lèi)初始目標(biāo)邊框,以YOLOV3算法為基礎(chǔ),根據(jù)混合數(shù)據(jù)集的特點(diǎn),對(duì)網(wǎng)絡(luò)進(jìn)行了改進(jìn)。本文設(shè)計(jì)了一種改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò),并分別對(duì)SSD512、YOLOV2及YOLOV3和改進(jìn)的GDT-YOLOV3網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測(cè)試。實(shí)驗(yàn)結(jié)果表明,本文方法的平均檢出率與SSD512、YOLOV2、YOLOV3相比分別提高了11.22%、6.57%、2.11%,可以對(duì)交通場(chǎng)景下不同尺寸的目標(biāo)有較高的檢出率。但是本模型對(duì)更復(fù)雜的交通場(chǎng)景或重疊的運(yùn)動(dòng)目標(biāo)檢測(cè)效果不是特別好,在未來(lái)會(huì)將上述問(wèn)題作為重點(diǎn)的研究方向。