劉力冉,曹 杰,楊 磊,仇男豪
(1.南京航空航天大學(xué)電子信息工程學(xué)院,江蘇 南京 210016; 2.南京航空航天大學(xué)無人機(jī)研究院,江蘇 南京 210016)
圖像的分類、定位、檢測以及分割是計(jì)算機(jī)視覺領(lǐng)域的4大重要研究方向。其中目標(biāo)檢測的目的是尋找圖像中所有的目標(biāo)物體,并且確定目標(biāo)物體的位置[1]。由于光照的影響、遮擋物干擾以及圖像中的各類物體本身形狀各異,導(dǎo)致目標(biāo)檢測一直是最具有挑戰(zhàn)性的問題。
目前目標(biāo)檢測主流算法主要是基于深度學(xué)習(xí)模型,分為下述2大類:
1)Two-stage檢測算法。此方法包括2個(gè)階段。首先產(chǎn)生Region Proposal(候選區(qū)域),在此基礎(chǔ)上對(duì)候選區(qū)域進(jìn)行分類[2]。這類算法的代表是基于候選區(qū)域的R-CNN系列算法,如R-CNN、Fast R-CNN、Faster R-CNN等。
2)One-stage檢測算法[3]。除去Two-stage算法的候選區(qū)域階段,直接得出物體的位置坐標(biāo)值以及類別概率,代表性的算法如YOLO和SSD。
精度和速度是目標(biāo)檢測中2個(gè)重要的性能指標(biāo)。隨著近幾年研究發(fā)展,這2類算法在速度和精度上都得到了提升。
R-CNN、Fast R-CNN、Faster R-CNN同屬于R-CNN系列,算法的精度較高且發(fā)展成熟,目前已在許多行業(yè)中應(yīng)用。YOLOv2和YOLOv3算法[4]在速度上得到很大提升,但是在實(shí)際的應(yīng)用中需要耗費(fèi)較大的GPU顯存。針對(duì)速度、精度、GPU顯存[5]3個(gè)問題,本文選用YOLOv3-Tiny算法,并對(duì)其作出改進(jìn),使得網(wǎng)絡(luò)可以在保證精度和速度的同時(shí)不占用過多的GPU顯存。
目標(biāo)檢測技術(shù)應(yīng)用場景豐富,但在實(shí)際場景中環(huán)境較為復(fù)雜,包括目標(biāo)的形變、相似目標(biāo)的干擾等,導(dǎo)致各類算法性能參差不齊,此時(shí)需要引入相關(guān)參數(shù)來評(píng)價(jià)評(píng)價(jià)參數(shù)[6]。本文主要選用IOU、mAP作為評(píng)價(jià)指標(biāo)。
目標(biāo)檢測需要定位出圖像中物體所在區(qū)域,這個(gè)區(qū)域稱為bounding box,譯為候選框。針對(duì)候選框的定位精度,引出定位精度評(píng)價(jià)公式:IOU(Intersection-over-Union,交并比)。
IOU[7]定義2個(gè)候選框重疊度,將真實(shí)框記為A,預(yù)測框記為B。重疊度IOU計(jì)算公式為:
(1)
IOU代表2個(gè)矩形框重疊面積與兩者并集的面積之比,SA代表A框的面積,SB代表B框的面積,SA∩B代表A框與B框交集部分的面積,IOU的值在0~1之間,通常來說值越接近于1,代表重疊度越高,相應(yīng)的候選框更精確。
Average-Precision簡稱AP[9],即平均精度。精度表示在識(shí)別出的圖片中被正確識(shí)別出的比例,召回率是測試集中所有正樣本樣例中被正確識(shí)別為正樣本的比例。AP表示Precision-Recall曲線下面的面積,如果召回率值增長的同時(shí),精度的值保持在高水平,表示分類器的性能比較好,AP值越高。mAP稱為均值平均精度,表示多個(gè)類別AP的平均值,“mean”意思是對(duì)每個(gè)類的AP再次求平均值。mAP大小在[0,1]區(qū)間內(nèi),值越大分類器性能越好。
YOLOv3-Tiny算法是YOLO系列的簡化版,具有更少的卷積層同時(shí)檢測速度較快。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
YOLOv3-Tiny的主干網(wǎng)絡(luò)主要有7個(gè)大小為3×3的卷積層[10](Convolution)以及6個(gè)池化層(maxpooling)。6個(gè)池化層中的前5個(gè)層的步長是2,最后一層的步長是1,整體網(wǎng)絡(luò)的輸出大小為13×13。在卷積神經(jīng)網(wǎng)絡(luò)中,通常輸入圖像大小不同,輸出大小也各不相同。YOLOv3-Tiny網(wǎng)絡(luò)由淺層網(wǎng)絡(luò)以及深層網(wǎng)絡(luò)構(gòu)成。具有淺的卷積層的深度網(wǎng)絡(luò),更容易表征小目標(biāo)物體;與之相反地,具有深的卷積層的深度網(wǎng)絡(luò),更容易表征大目標(biāo)物體[11]。YOLOv3-Tiny采用的即為這種思想,利用兩尺度預(yù)測的方式:1)在卷積神經(jīng)網(wǎng)絡(luò)之后再連接一個(gè)卷積層,這時(shí)尺度為13×13,這種方式易于檢測大目標(biāo)物體[12];2)在第1種方式中的倒數(shù)第二層進(jìn)行上采樣,得到的特征與上一層得到的26×26層特征相加再通過卷積層輸出[13],這時(shí)尺度為26×26,該方式易于檢測小目標(biāo)物體。
圖1 YOLOv3-Tiny網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv3-Tiny算法計(jì)算量小、速度快,針對(duì)多種目標(biāo)有較好的檢測效果[14],但是并不完全適用于行車的檢測,對(duì)此本文對(duì)YOLOv3-Tiny算法的網(wǎng)絡(luò)提出改進(jìn):
1)改變網(wǎng)絡(luò)輸入圖片像素值大小;
2)改進(jìn)YOLOv3-Tiny網(wǎng)絡(luò)結(jié)構(gòu)。
在對(duì)車子的識(shí)別研究中表明,車輛信息在水平方向上分布較多,相對(duì)地在豎直方向上的信息較少。本文采用改變輸入圖像尺寸的方式,使得橫向信息特征得到更好的表征。具體將輸入尺寸從416×416改為672×224,可以保證提取橫向信息的同時(shí)不影響算法的速度。目標(biāo)檢測算法會(huì)將檢測圖像劃分成小圖像塊,目標(biāo)的中心在其中某個(gè)小圖像塊之內(nèi),則此小圖像塊負(fù)責(zé)預(yù)測目標(biāo)。輸入圖像像素值優(yōu)化就是涉及小圖像塊的數(shù)量變化。
圖2 輸入圖像示例
本文選用KITTI數(shù)據(jù)集中的圖片,輸入圖像示例如圖2所示,該數(shù)據(jù)集中圖片像素值大小為1238×375,當(dāng)圖片輸入到Y(jié)OLOv3-Tiny網(wǎng)絡(luò)中,像素值將被調(diào)整為416×416,同時(shí)檢測圖像劃分成13×13個(gè)小圖像塊。
圖3 YOLOv3-Tiny網(wǎng)絡(luò)輸入圖像示意圖
輸入圖像在進(jìn)入YOLOv3-Tiny網(wǎng)絡(luò)后,網(wǎng)絡(luò)的橫向信息被壓縮,具體如圖3所示,這樣不利于該網(wǎng)絡(luò)對(duì)行車目標(biāo)信息的學(xué)習(xí)。對(duì)此,本文提出改進(jìn)思路,將小圖像塊的數(shù)量從13×13改為21×7,改進(jìn)后的小圖像塊示意圖如圖4所示。
圖4 改進(jìn)后的YOLOv3-Tiny網(wǎng)絡(luò)輸入圖像示意圖
通過圖4可以看出,改進(jìn)后的小圖像塊數(shù)量,基本上維持了原輸入圖像的形狀比例大小,將小圖像塊的數(shù)量對(duì)應(yīng)到圖像像素的大小,得出輸入圖像的像素改為672×224,基于小圖像塊須保持正方形的比例,提出改進(jìn)輸入圖像像素的思路,這樣使得輸入圖像的橫向信息尤其是行車目標(biāo)的信息得到更好的表征,為改進(jìn)后網(wǎng)絡(luò)的訓(xùn)練提供幫助。
在計(jì)算機(jī)視覺中基于圖像的目標(biāo)識(shí)別技術(shù)指將目標(biāo)從圖像中檢測并標(biāo)注出來,判斷目標(biāo)物體的類別、位置以及大小。在現(xiàn)實(shí)生活中實(shí)際目標(biāo)識(shí)別的過程中發(fā)現(xiàn)預(yù)設(shè)候選框[15](anchor)的大小以及個(gè)數(shù)的選定,對(duì)目標(biāo)識(shí)別速度和精度有重要影響。在訓(xùn)練網(wǎng)絡(luò)的過程中調(diào)整邊界框?qū)捀呔S度可以得到預(yù)測框[15](bounding box)。對(duì)此提出一種思路,在訓(xùn)練階段時(shí)選擇較好的預(yù)設(shè)候選框,為網(wǎng)絡(luò)預(yù)測準(zhǔn)確的位置提供幫助。
本文對(duì)YOLOv3-Tiny算法在anchor方面做出調(diào)整,通過維度聚類確定出最優(yōu)anchor個(gè)數(shù)及寬高維度[16]。以KITTI數(shù)據(jù)集中行車的數(shù)據(jù)集為例,使改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)車輛類(car)的識(shí)別更為精準(zhǔn)。處理輸入圖像時(shí)采用網(wǎng)格對(duì)其進(jìn)行分割,在每個(gè)網(wǎng)格中設(shè)置k個(gè)參考anchor,訓(xùn)練以GroundTruth(真實(shí)框)作為基準(zhǔn)計(jì)算分類與回歸損失[16]。k個(gè)anchor boxes對(duì)應(yīng)k個(gè)不同尺度,都具有獨(dú)立分類結(jié)果,優(yōu)化了網(wǎng)絡(luò)的準(zhǔn)確率,找到最優(yōu)anchor寬高維度和最優(yōu)k值[17]。維度聚類分析采用k-means算法,步驟如下:
1)數(shù)據(jù)集中隨機(jī)選取k個(gè)聚類中心點(diǎn);
2)遍歷數(shù)據(jù)集中所有數(shù)據(jù)與每個(gè)中心點(diǎn)的距離,將每個(gè)數(shù)據(jù)分別劃分到距離最近的中心點(diǎn)所在的集合中[18];
3)求每個(gè)聚類集合的所有數(shù)據(jù)各個(gè)維度[19]的平均值,求得的值作為新的聚類中心;
4)重復(fù)步驟2、步驟3,直到聚類中心位置不再發(fā)生變化。
k-means算法的距離函數(shù)如下:
(2)
實(shí)驗(yàn)過程中選取k值的方法采用爬山法[20],隨著k值大小的增加,目標(biāo)函數(shù)d在某拐點(diǎn)之后變化趨于平緩[21],此處的k值就是聚類個(gè)數(shù)。其中i表示聚類的類別數(shù),j表示數(shù)據(jù)集的數(shù)據(jù),Box[i]表示每個(gè)聚類中心預(yù)設(shè)框的尺寸大小,Truth[j]表示數(shù)據(jù)集中行車框的尺寸大小。圖5展示的是利用k-means算法對(duì)KITTI數(shù)據(jù)集聚類的結(jié)果圖,具體是交并比IOU隨聚類數(shù)目k值的變化曲線圖。
圖5 IOU與k的關(guān)系圖
在本文實(shí)驗(yàn)中識(shí)別的物體只有一類物體,如果出現(xiàn)樣本點(diǎn)在空間中混雜在一起時(shí),可以通過改變k值的大小選取最適合的k值進(jìn)行聚類。依據(jù)圖5所示,在k值大于6之后,曲線的變化相對(duì)平緩,故選取k的值為6,即該聚類為6類,代表初始候選框有6種。初始候選框(預(yù)設(shè)候選框)的具體數(shù)值大小如表1所示。
表1 初始候選框具體數(shù)值大小
初始候選框長寬123.930119.0013252.535834.4162392.689954.03954112.785883.76955145.195288.15816202.8699127.5400
YOLOv3-Tiny網(wǎng)絡(luò)結(jié)構(gòu)中有7個(gè)卷積層,在一定層面上對(duì)某些目標(biāo)物體的特征提取有限,在實(shí)際的應(yīng)用場景中對(duì)檢測的精度有一定的要求。一般來說,層次越深的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)特征提取的效果會(huì)更好,針對(duì)YOLOv3-Tiny網(wǎng)絡(luò)卷積層較少的問題,本文提出增加卷積層的改進(jìn)方式。
圖6 改進(jìn)的YOLOv3-Tiny網(wǎng)絡(luò)結(jié)構(gòu)
常用的卷積核大小有3種類型:3×3、5×5、7×7,2個(gè)大小為3×3的卷積核堆疊可以替代5×5的卷積核,3個(gè)大小為3×3的卷積核堆疊可以替代7×7的卷積核[13]。網(wǎng)絡(luò)的層數(shù)過深存在梯度爆炸或者梯度消失的問題,網(wǎng)絡(luò)層數(shù)過淺則不能充分學(xué)習(xí)目標(biāo)的特征,改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)是在原來的主干網(wǎng)絡(luò)基礎(chǔ)上增加3個(gè)3×3的卷積層,達(dá)到加深網(wǎng)絡(luò)的效果。由于網(wǎng)絡(luò)層數(shù)的增加會(huì)導(dǎo)致網(wǎng)絡(luò)的運(yùn)算量以及模型參數(shù)的增加,改進(jìn)的網(wǎng)絡(luò)中引入大小為1×1的卷積層[22],目的是減少模型參數(shù)并提高網(wǎng)絡(luò)的學(xué)習(xí)能力。改進(jìn)的YOLOv3-Tiny網(wǎng)絡(luò)結(jié)構(gòu)圖如圖6所示。
實(shí)驗(yàn)依據(jù)實(shí)際需要,硬件設(shè)備包含計(jì)算機(jī)和無人機(jī)。無人機(jī)底部配備攝像頭,利用無線圖傳技術(shù),可實(shí)現(xiàn)距離2~7 km內(nèi)的720 p分辨率實(shí)時(shí)圖傳。
系統(tǒng)的搭建同樣依賴于軟件平臺(tái)的數(shù)據(jù)處理。表2是本文實(shí)驗(yàn)電腦配置情況。
表2 實(shí)驗(yàn)電腦配置
名稱相關(guān)配置操作系統(tǒng)Windows 10中央處理器(CPU)/GHzIntel Core i5-7500內(nèi)存/GB8GPU1060GPU加速庫CUDA 9.1,CUDNN 7.1深度學(xué)習(xí)框架Darknet
本文采用無人機(jī)獲取圖像,用到的無人機(jī)是四旋翼無人機(jī),型號(hào)采用掠食者680,機(jī)載單目攝像頭型號(hào)是飛瑩8s,像素大小為1280×720。本文利用無線圖傳技術(shù)將無人機(jī)機(jī)載攝像頭實(shí)時(shí)拍攝的圖像傳輸至電腦中,圖像顯示在PC端,運(yùn)行程序可以實(shí)時(shí)接收無人機(jī)機(jī)載攝像頭拍攝的圖像信息。
本實(shí)驗(yàn)選擇的數(shù)據(jù)集是KITTI數(shù)據(jù)集中的行車數(shù)據(jù)集,包含了訓(xùn)練集(樣本5984張)和測試集(樣本748張)。KITTI行車數(shù)據(jù)集背景也較為復(fù)雜,存在車輛遮擋等情況。為了使KITTI數(shù)據(jù)集適用于YOLOv3-Tiny算法,對(duì)數(shù)據(jù)集進(jìn)行格式轉(zhuǎn)化,首先將KITTI的行車數(shù)據(jù)集轉(zhuǎn)化為VOC格式的數(shù)據(jù)集,在此基礎(chǔ)上轉(zhuǎn)化為適用于改進(jìn)網(wǎng)絡(luò)的數(shù)據(jù)集格式。
完成數(shù)據(jù)集格式轉(zhuǎn)換之后,在深度學(xué)習(xí)框架Darknet上搭建改進(jìn)的YOLOv3-Tiny模型。Darknet是應(yīng)用較為廣泛的框架,對(duì)多種格式的輸入圖片均可適用。本文采用的KITTI行車數(shù)據(jù)集是PNG格式,像素大小是1238×375。
本文分別使用YOLOv3-Tiny算法和改進(jìn)的YOLOv3-Tiny算法對(duì)KITTI行車數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。首先利用聚類算法對(duì)數(shù)據(jù)集進(jìn)行聚類分析,本實(shí)驗(yàn)中通過k-means算法得到的聚類值是6類,然后進(jìn)行模型訓(xùn)練,訓(xùn)練大約經(jīng)過10 h,通過訓(xùn)練得到了新的模型,利用模型對(duì)KITTI數(shù)據(jù)集中的測試集進(jìn)行測試,并對(duì)測試的結(jié)果進(jìn)行對(duì)比分析。采用的評(píng)價(jià)指標(biāo)是均值平均精度召回率,實(shí)驗(yàn)結(jié)果如表3所示。
表3 KITTI行車數(shù)據(jù)集測試結(jié)果
檢測方法mAP/%Recall/%YOLOv3-Tiny84.7883改進(jìn)的YOLOv3-Tiny87.9785
可以發(fā)現(xiàn),本文改進(jìn)的YOLOv3-Tiny算法的mAP為87.97%,比YOLOv3-Tiny算法提高了3.19個(gè)百分點(diǎn),召回率提高了2個(gè)百分點(diǎn),大大提高了目標(biāo)識(shí)別的精度。
圖7 行車檢測P-R曲線圖
圖7是2種網(wǎng)絡(luò)的行車檢測P-R曲線圖(Car Detection P-R Curve),其中縱坐標(biāo)表示精度(Precision),橫坐標(biāo)表示召回率(Recall),虛線表示YOLOv3-Tiny算法檢測結(jié)果,實(shí)線表示本文改進(jìn)的YOLOv3-Tiny算法檢測結(jié)果。由此可看出圖中實(shí)線較虛線精度更高,即本文改進(jìn)的YOLOv3-Tiny網(wǎng)絡(luò)精度較高。
為了對(duì)改進(jìn)后算法的識(shí)別精度作更為嚴(yán)謹(jǐn)?shù)脑u(píng)價(jià),引入YOLO系列的簡化版本中的其他2種算法的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比分析,具體結(jié)果如表4所示。
表4 4種算法在KITTI數(shù)據(jù)集上的測試結(jié)果
檢測方法mAP/%Recall/%Tiny-YOLO78.5776YOLOv2-Tiny73.6571YOLOv3-Tiny84.7883改進(jìn)的YOLOv3-Tiny87.9785
通過表4中的數(shù)據(jù)可以看出,改進(jìn)后的YOLOv3-Tiny算法的mAP值比Tiny-YOLO算法高出9.4個(gè)百分點(diǎn),比YOLOv2-Tiny算法的mAP高出14.32個(gè)百分點(diǎn);在召回率Recall方面,改進(jìn)后的算法較Tiny-YOLO算法提高9個(gè)百分點(diǎn),較YOLOv2-Tiny算法提高14個(gè)百分點(diǎn)。與此同時(shí)可以發(fā)現(xiàn),原算法YOLOv3-Tiny在mAP和Recall上也均高于Tiny-YOLO算法和YOLOv2-Tiny算法。本文改進(jìn)后的算法提高了原算法的均值平均精度以及召回率,進(jìn)一步提高了原算法對(duì)行車目標(biāo)識(shí)別的精度。
本文將平均交并比IOU作為評(píng)價(jià)指標(biāo),用來評(píng)價(jià)本文改進(jìn)網(wǎng)絡(luò)的定位精度,并以YOLOv3-Tiny算法、Tiny-YOLO算法、YOLOv2-Tiny算法的IOU作為比照,結(jié)果如表5所示。
表5 平均交并比測試結(jié)果
檢測方法平均交并比IOU/%Tiny-YOLO64.73YOLOv2-Tiny67.56YOLOv3-Tiny70.88本文改進(jìn)的YOLOv3-Tiny74.88
結(jié)果顯示,對(duì)比YOLOv3-Tiny網(wǎng)絡(luò),本文改進(jìn)的YOLOv3-Tiny網(wǎng)絡(luò)交并比提高了4.00個(gè)百分點(diǎn)。表明在測試集上,本文改進(jìn)的網(wǎng)絡(luò)產(chǎn)生的預(yù)測框和真實(shí)框(GroundTruth)的重疊率更高,對(duì)目標(biāo)車的識(shí)別精度更高。與此同時(shí)改進(jìn)后的YOLOv3-Tiny算法比Tiny-YOLO算法的交并比提高了10.15個(gè)百分點(diǎn),比YOLOv2-Tiny算法的交并比提高了7.32個(gè)百分點(diǎn)。通過這3組數(shù)據(jù)的對(duì)比結(jié)果表明,改進(jìn)后的YOLOv3-Tiny算法提升了算法在檢測框上的定位精度
由于要將本文改進(jìn)的YOLOv3-Tiny網(wǎng)絡(luò)應(yīng)用于無人機(jī)的實(shí)時(shí)目標(biāo)檢測,本文使用720 p的視頻檢測網(wǎng)絡(luò)的速度,視頻的分辨率為1280×720。以YOLOv3-Tiny網(wǎng)絡(luò)做對(duì)照,以Tiny-YOLO算法和YOLOv2-Tiny算法結(jié)果作為補(bǔ)充說明,實(shí)驗(yàn)結(jié)果如表6所示。
表6 檢測速度測試
檢測方法檢測速度/(幀·s-1)Tiny-YOLO232YOLOv2-Tiny208YOLOv3-Tiny29.7改進(jìn)的YOLOv3-Tiny27.5
在通常情況下檢測速度在25幀/s以上即可達(dá)到目標(biāo)識(shí)別實(shí)時(shí)性的要求,實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)的YOLOv3-Tiny網(wǎng)絡(luò)在檢測速度上較原網(wǎng)絡(luò)有所下降,速度為27.5幀·s-1,這是由于改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)增加了網(wǎng)絡(luò)層數(shù),但改進(jìn)后的算法可以滿足對(duì)無人機(jī)圖像實(shí)時(shí)檢測的要求。結(jié)合表4、表5和表6的數(shù)據(jù),可以看出Tiny-YOLO算法和YOLOv2-Tiny算法雖然在檢測速度上有較大的優(yōu)勢,但是2種算法的檢測框定位精度與識(shí)別精度較低。綜合算法性能來看,改進(jìn)后的YOLOv-Tiny算法可以在保證目標(biāo)識(shí)別速度的情況下提高識(shí)別的精度,由此本文改進(jìn)的算法適用于實(shí)際目標(biāo)識(shí)別的場景中。
為了驗(yàn)證本文改進(jìn)的YOLOv3-Tiny算法在實(shí)際應(yīng)用中的效果,對(duì)該算法的性能有更加直觀的理解,本文選取無人機(jī)拍攝的幾幅圖像,包含小目標(biāo)、目標(biāo)互相遮擋等情況,選取KITTI行車測試數(shù)據(jù)集中的圖像作為補(bǔ)充,得到的檢測結(jié)果如圖8所示。
(a) KITTI數(shù)據(jù)集測試圖片a
(b) KITTI數(shù)據(jù)集測試圖片b
(c) KITTI數(shù)據(jù)集測試圖片c圖8 KITTI測試集測試結(jié)果
在實(shí)際應(yīng)用中,目標(biāo)檢測存在檢測物體的被遮擋的難點(diǎn),在車輛相互遮擋的情況下,信息會(huì)丟失和不完整,有很大的可能性導(dǎo)致檢測算法對(duì)目標(biāo)物體的漏檢。
(a) 無遮擋情況測試圖
(b) 小目標(biāo)情況測試圖
(c) 有遮擋情況測試圖圖9 無人機(jī)拍攝圖像測試
本文對(duì)3幅無人機(jī)拍攝的圖像應(yīng)用本文改進(jìn)的網(wǎng)絡(luò)檢測算法進(jìn)行檢測,圖9中(a)圖像為無遮擋情況,(b)圖像為大目標(biāo)和小目標(biāo)情況,(c)圖像為遮擋情況??梢园l(fā)現(xiàn)運(yùn)用無人機(jī)拍攝的圖像進(jìn)行測試,效果較好。檢測小目標(biāo)物體時(shí),檢測結(jié)果精準(zhǔn),但檢測大物體和遮擋物體時(shí)檢測框出現(xiàn)了部分偏移,沒有KITTI測試集檢測出的效果好,基本可以滿足檢測的要求。
由于本文選取的KITTI數(shù)據(jù)集樣本的分辨率為1238×375,相比較無人機(jī)機(jī)載攝像頭拍攝圖片的分辨率1280×720,KITTI數(shù)據(jù)集的圖像形狀更扁,橫向信息更為豐富。故用本文改進(jìn)的檢測算法對(duì)無人機(jī)拍攝的圖像進(jìn)行檢測大目標(biāo)物體和遮擋物體時(shí),檢測框出現(xiàn)了部分偏移,但是檢測小目標(biāo)物體精度依然較高,并且運(yùn)行速度較快,依然能滿足目標(biāo)檢測實(shí)時(shí)性的要求。
本文基于YOLOv3-Tiny算法提出了改進(jìn)的行車目標(biāo)檢測算法。針對(duì)目前深度學(xué)習(xí)目標(biāo)檢測算法存在的實(shí)時(shí)性差、硬件要求高等問題,本文在YOLOv3-Tiny算法的基礎(chǔ)上,對(duì)數(shù)據(jù)集進(jìn)行聚類,改變網(wǎng)絡(luò)輸入圖像尺寸大小并改進(jìn)網(wǎng)絡(luò)的結(jié)構(gòu),使得網(wǎng)絡(luò)更加容易學(xué)習(xí)車輛的特征信息。依據(jù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文改進(jìn)的檢測算法運(yùn)用在KITTI數(shù)據(jù)集上有很好的檢測效果,有較好的精度、實(shí)時(shí)性和定位精度。對(duì)比改進(jìn)之前的YOLOv3-Tiny算法,交并比IOU提高了4.00個(gè)百分點(diǎn)、均值平均精度提高了3.19個(gè)百分點(diǎn)、召回率提高了2個(gè)百分點(diǎn),實(shí)驗(yàn)數(shù)據(jù)表明改進(jìn)的YOLOv3-Tiny算法提高了檢測的性能。
綜合性能對(duì)比實(shí)驗(yàn)、KITTI數(shù)據(jù)集測試集檢測結(jié)果、無人機(jī)拍攝圖像測試結(jié)果,本文改進(jìn)的YOLOv3-Tiny算法較原算法,在保證檢測識(shí)別速度的情況下,提高了識(shí)別精度,且對(duì)硬件設(shè)備要求不高,可滿足現(xiàn)實(shí)場景中目標(biāo)識(shí)別的要求。