侯 濤,蔣 瑜
成都信息工程大學(xué) 軟件工程學(xué)院,成都610200
遙感是指非接觸的遠(yuǎn)距離探測(cè)技術(shù)。高分辨率的衛(wèi)星與航空?qǐng)D像技術(shù)提供了高分辨率的遙感圖像,這為遙感圖像的目標(biāo)檢測(cè)開(kāi)辟了更好的前景[1]。遙感圖像中飛機(jī)目標(biāo)的檢測(cè)在民用與軍事方面有著重要且廣泛的應(yīng)用。在軍事方面,可以為軍隊(duì)在作戰(zhàn)時(shí)帶來(lái)巨大的優(yōu)勢(shì)[2]。在民用方面,可以使航空業(yè)更好地對(duì)飛機(jī)進(jìn)行監(jiān)管,并且可以更加快速地搜尋失去聯(lián)絡(luò)的飛機(jī)。
對(duì)遙感圖像中飛機(jī)目標(biāo)檢測(cè)最早使用基于模板匹配的方法,Liu等人[3]構(gòu)建了一個(gè)全局最小化活動(dòng)輪廓模型(SGACM),用來(lái)檢測(cè)遙感圖像中飛機(jī)、油罐等具有規(guī)則形狀的目標(biāo),但模板匹配方法對(duì)復(fù)雜場(chǎng)景的目標(biāo)檢測(cè)效果不佳。傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要人工設(shè)計(jì)目標(biāo)的特征。Sun等[4]針對(duì)高分辨率遙感圖像中形狀復(fù)雜的物體檢測(cè)任務(wù),提出了一種基于空間稀疏編碼詞袋模型的檢測(cè)方法,工作人員設(shè)計(jì)的特征會(huì)顯著影響分類與檢測(cè)的準(zhǔn)確性。
近年來(lái),基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法發(fā)展迅速,深度學(xué)習(xí)模型具有更強(qiáng)的特征表示能力和特征抽象能力[5]。Alganci等人[6]對(duì)基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法在遙感圖像中飛機(jī)目標(biāo)檢測(cè)任務(wù)中的性能進(jìn)行了比較評(píng)估,F(xiàn)aster-RCNN[7]取得了最高的精確度,但是檢測(cè)速度很慢,不能滿足實(shí)時(shí)檢測(cè)的需求[8],SSD[9]算法檢測(cè)性能最低[10],YOLOv3[11]在準(zhǔn)確性和檢測(cè)速度之間取得了平衡。綜合來(lái)看YOLO系列的算法相對(duì)于RCNN算法與SSD算法更能夠滿足實(shí)時(shí)高效的要求。與YOLOv3相比,YOLOv4[12]擁有更高的精確度且檢測(cè)速度沒(méi)有下降。但YOLOv4在檢測(cè)小目標(biāo)時(shí),用于檢測(cè)大目標(biāo)的特征層會(huì)丟失目標(biāo)的語(yǔ)義信息。用于檢測(cè)小目標(biāo)的特征層提取目標(biāo)的特征信息能力較差。所以本文對(duì)YOLOv4做出改進(jìn),提升對(duì)遙感圖像中的飛機(jī)目標(biāo)檢測(cè)的性能。
目前已有很多文獻(xiàn)對(duì)YOLO算法應(yīng)用于遙感目標(biāo)檢測(cè)做出了一些改進(jìn)。董彪等人[13]提出了一種基于改進(jìn)YOLOv3的遙感建筑物檢測(cè)模型,該模型去除了YOLOv3中用于檢測(cè)大目標(biāo)的特征層,并且減少了特征融合部分的卷積層,這樣大大減少了網(wǎng)絡(luò)模型的語(yǔ)義信息丟失,這對(duì)形狀特征相對(duì)簡(jiǎn)單的建筑物檢測(cè)效果很好,但在對(duì)形狀特征與背景相對(duì)復(fù)雜的飛機(jī)目標(biāo)檢測(cè)時(shí),飛機(jī)目標(biāo)的特征提取不夠充分。戴偉聰?shù)热薣14]提出的基于改進(jìn)YOLOv3的遙感飛機(jī)檢測(cè)模型中,在神經(jīng)網(wǎng)絡(luò)深度較淺的第二個(gè)殘差模塊后輸出了分辨率更高的特征圖來(lái)作為新的檢測(cè)尺度,雖然較淺的特征圖擁有更高的分辨率,但是提取的特征信息能力較弱。Xu等人[15]提出的基于改進(jìn)YOLOv3的遙感圖像目標(biāo)檢測(cè)模型,為了減輕特征金字塔中五次卷積模塊帶來(lái)的梯度消失問(wèn)題,使用ResNeT殘差單元替換了五次卷積層模塊,但如果可以在減少梯度消失問(wèn)題的同時(shí)增強(qiáng)網(wǎng)絡(luò)的特征提取能力將會(huì)很大提升網(wǎng)絡(luò)的性能。
本文從以上文獻(xiàn)得到思路,對(duì)YOLOv4進(jìn)行改進(jìn)。改進(jìn)YOLOv4的多尺度檢測(cè),減少網(wǎng)絡(luò)模型的語(yǔ)義丟失,增強(qiáng)檢測(cè)遙感圖像中尺寸偏小的飛機(jī)目標(biāo)的能力。使用密集鏈接網(wǎng)絡(luò)復(fù)用特征,減少梯度消失問(wèn)題,加強(qiáng)特征傳遞與特征提取。提取遙感數(shù)據(jù)集中含有飛機(jī)目標(biāo)的圖像作為訓(xùn)練集與測(cè)試集,對(duì)訓(xùn)練集使用K-means算法得到適用于遙感圖像目標(biāo)檢測(cè)的先驗(yàn)框尺寸,并將YOLOv4每個(gè)檢測(cè)尺度的先驗(yàn)框數(shù)量調(diào)整為4個(gè)。
YOLOv4采用CSPDarknet53[16]作為主干特征提取網(wǎng)絡(luò),共五個(gè)殘差模塊。最后三個(gè)殘差模塊的輸出會(huì)輸入到特征金字塔結(jié)構(gòu)中,YOLOv4的特征金字塔部分采用了PANet結(jié)構(gòu)[17]對(duì)特征層進(jìn)行了特征融合。
經(jīng)過(guò)特征融合后,輸出的三種特征層尺寸分別為原輸入尺寸的1/8、1/16和1/32,相當(dāng)于將圖片劃分成尺寸為S×S網(wǎng)格,如圖1所示。在每個(gè)單元格中,都有三個(gè)不同尺寸的先驗(yàn)框。最后通過(guò)預(yù)測(cè)值來(lái)對(duì)先驗(yàn)框進(jìn)行調(diào)整來(lái)得到邊界框(bounding box)。
圖1 19×19特征圖網(wǎng)格單元示意圖
目標(biāo)邊界框的預(yù)測(cè)值為邊界框的置信度(confidence score)和位置信息。置信度的公式為公式(1)。Pr(Object)是該邊界框包含目標(biāo)的可能性,為邊界框與實(shí)際框(groundtruth)的IOU(Intersection Over Union)交并比。
當(dāng)面對(duì)分類問(wèn)題,每邊界框還要給出預(yù)測(cè)的C個(gè)類別的分?jǐn)?shù),這些概率值是在各個(gè)邊界框置信度下的條件概率,即Pr(class i|Object)。使用公式(2)計(jì)算各個(gè)邊界框類別置信度(class-specific confidence scores)。
邊界框位置信息的預(yù)測(cè)值為t x、t y、t w和t h。圖2展示了YOLOv4網(wǎng)絡(luò)得到最終預(yù)測(cè)結(jié)果的過(guò)程。虛線框?yàn)橄闰?yàn)框,實(shí)線框?yàn)檫吔缈颍琧 x和c y表示對(duì)先驗(yàn)框所處的網(wǎng)格點(diǎn)相對(duì)于左上角的偏移量,pw和ph分別表示先驗(yàn)框的寬和高,b w和b h表示預(yù)測(cè)得到的邊界框的寬和高,b x和b y表示邊界框相對(duì)于網(wǎng)格點(diǎn)左上角的偏移量,邊界框的值通過(guò)公式(3)得到:
圖2 得到預(yù)測(cè)結(jié)果
對(duì)于608×608的輸入圖像,YOLOv4的三個(gè)特征層的網(wǎng)格的尺寸分別為76×76、38×38和19×19。卷積神經(jīng)網(wǎng)絡(luò)越深,得到的特征圖的神經(jīng)元感受野(Receptive Field)越大,這也意味著每個(gè)神經(jīng)元蘊(yùn)含更為全局、語(yǔ)義層次高的特征,但是局部特征與細(xì)節(jié)特征會(huì)出現(xiàn)丟失。相反,當(dāng)卷積神經(jīng)網(wǎng)絡(luò)較淺時(shí),特征圖的神經(jīng)元所包含的特征會(huì)更趨向于局部和細(xì)節(jié)。圖3(a)、(b)、(c)分別為76×76、38×38和19×19特征圖,可以看出檢測(cè)大目標(biāo)的尺寸為19×19的特征層在檢測(cè)遙感圖像中的飛機(jī)時(shí)語(yǔ)義丟失嚴(yán)重,特征圖中已經(jīng)完全無(wú)法查看到飛機(jī)的邊緣特征,所以在與前面的兩層進(jìn)行特征融合時(shí)會(huì)帶來(lái)更多的不利影響。
圖3 殘差塊輸出的特征圖
為了減少網(wǎng)絡(luò)模型的語(yǔ)義丟失,將主干特征提取網(wǎng)絡(luò)的最后一個(gè)殘差模塊取消,去除了尺寸為19×19的特征層,保留了尺寸為38×38和76×76的特征層。這樣不僅減少了網(wǎng)絡(luò)的參數(shù)量,還減少了語(yǔ)義信息的丟失。原YOLOv4將SPP結(jié)構(gòu)放置在第5個(gè)殘差卷積塊后,本文將尺度最大的特征層取消后,將SPP結(jié)構(gòu)重新放置到第4個(gè)殘差卷積塊后。
取消了用于檢測(cè)大目標(biāo)的特征圖后,需要加強(qiáng)網(wǎng)絡(luò)模型的特征提取能力,使高分辨率的特征圖擁有更多的目標(biāo)的特征信息。
隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的前傳信號(hào)和梯度信號(hào)在經(jīng)過(guò)很多層之后可能會(huì)逐漸消失。如果卷積網(wǎng)絡(luò)在靠近輸入層和靠近輸出層之間包含更短的連接,則可以訓(xùn)練得更深、更準(zhǔn)確和有效。Huang等人[18]提出了一種更為有效網(wǎng)絡(luò)DenseNet。為了確保網(wǎng)絡(luò)中各層間信息流量最大化,DenseNet將所有層直接相互連接,每個(gè)層都從所有先前的層中獲取輸入,并將自身的特征圖傳遞給所有后續(xù)層,有效減輕了網(wǎng)絡(luò)的梯度消失問(wèn)題。并且DenseNet提升了梯度的反向傳播,使得網(wǎng)絡(luò)更容易訓(xùn)練。
使用DenseNet模塊代替特征金字塔中的五次卷積模塊,不僅有效減輕了梯度消失問(wèn)題,而且DenseNet通過(guò)Concatenate特征來(lái)實(shí)現(xiàn)短路連接,讓特征圖在channel維度上連接,實(shí)現(xiàn)了特征復(fù)用(feature reuse),更好地利用了特征信息,并提高了信息在層之間的傳遞,加強(qiáng)了模型對(duì)遙感圖像中尺寸較小的飛機(jī)目標(biāo)的特征提取。此外,DenseNet具有正則化效果,從而減少了過(guò)擬合的問(wèn)題。在檢測(cè)網(wǎng)絡(luò)階段,使用兩個(gè)DenseNet模塊來(lái)分別代替特征金字塔中的兩個(gè)五次卷積層模塊。
卷積,歸一化和激活函數(shù)構(gòu)成了CBL模塊,兩個(gè)CBL模塊構(gòu)成Double-CBL(DCBL)模塊。在兩個(gè)DenseNet模塊中,每個(gè)圖層特征圖通道的增量分別是256和128。DenseNet模塊中采用了bottleneck層來(lái)減少計(jì)算量,結(jié)構(gòu)中增加1×1卷積。兩個(gè)Densenet模塊結(jié)構(gòu)如圖4所示,圖中X0、X1、X2表示輸出層的特征圖;H1、H2表示非線性變換。表1和表2給出了兩個(gè)DenseNet模塊的詳細(xì)結(jié)構(gòu)。
圖4 DenseNet模塊結(jié)構(gòu)
表1 DenseNet1結(jié)構(gòu)
表2 DenseNet2結(jié)構(gòu)
圖5展示了使用DenseNet模塊前后的對(duì)比,圖5(a)左邊為未使用DenseNet2模塊,使用連續(xù)5次卷積模塊卷積后的結(jié)果,可以看出飛機(jī)的邊緣特征沒(méi)有得到很好的提取。圖5(a)右邊為使用DenseNet2模塊改進(jìn)后的特征提取結(jié)果,飛機(jī)的特征信息與背景被明顯地區(qū)分開(kāi)來(lái),飛機(jī)的邊緣特征也得到了很好的提取。圖5(b)左邊為未使用DenseNet1模塊,使用連續(xù)5次卷積模塊卷積后的結(jié)果,圖5(a)右邊為使用DenseNet1模塊改進(jìn)后的特征提取結(jié)果,同樣DengNet1更好地提取了飛機(jī)的特征信息。由此可見(jiàn),DenseNet模塊增強(qiáng)了模型的特征提取能力。
圖5 改進(jìn)前后對(duì)比
圖6 、圖7和圖8展示了改進(jìn)YOLOv4的完整結(jié)構(gòu)。圖8(a)為第一個(gè)CSPResNet的結(jié)構(gòu),圖8(b)為剩余4個(gè)CSPResNet的結(jié)構(gòu),n C為輸出的通道數(shù),N為殘差堆疊的次數(shù)。
圖6 網(wǎng)絡(luò)中模塊的詳細(xì)結(jié)構(gòu)
圖7 改進(jìn)后的YOLOv4網(wǎng)絡(luò)
圖8 特征提取網(wǎng)絡(luò)結(jié)構(gòu)
從YOLOv2開(kāi)始,YOLO系列算法引入了先驗(yàn)框的思想,用來(lái)獲取更加準(zhǔn)確的邊界框。YOLOv4中,每個(gè)特征圖中的網(wǎng)格點(diǎn)都有3種不同尺寸的先驗(yàn)框,共9種不同尺寸的先驗(yàn)框。針對(duì)遙感圖像中飛機(jī)目標(biāo)尺寸偏小的情況,對(duì)YOLOv4的3個(gè)檢測(cè)尺度做出改進(jìn),去除用于檢測(cè)大目標(biāo)特征圖后,先驗(yàn)框的數(shù)量有所改變,并且,由于遙感圖像中目標(biāo)尺寸偏小,針對(duì)常規(guī)目標(biāo)的先驗(yàn)框尺寸不再適用,所以需要得到新的先驗(yàn)框尺寸。通過(guò)對(duì)遙感圖像數(shù)據(jù)集使用K-means算法得到適用于改進(jìn)后的YOLOv4網(wǎng)絡(luò)以及遙感圖像中飛機(jī)目標(biāo)的先驗(yàn)框。
數(shù)據(jù)集中的邊界框由左上角頂點(diǎn)的坐標(biāo)和右下角頂點(diǎn)的坐標(biāo)表示,在對(duì)目標(biāo)的邊界框做聚類時(shí),需要以邊界框的寬和高作為特征。由于數(shù)據(jù)中圖片的尺寸不同,所以要對(duì)圖片的寬高和邊界框的寬高做歸一化,公式如下:
因?yàn)?,在聚類過(guò)程中,只需要關(guān)心先驗(yàn)框(anchor)與邊界框(box)的IOU,不用關(guān)心邊界框的大小,所以使用IOU作為度量。設(shè)先驗(yàn)框anchor=(w a,ha),邊界框box=(w b,h b),先驗(yàn)框與邊界框的IOU為IOU(box,anchor)。計(jì)算先驗(yàn)框與邊界框的IOU如圖9所示,公式如下。
圖9 先驗(yàn)框與邊界框IOU
顯然,IOU(box,anchor)的取值在0到1之間,兩個(gè)框越相似,值越大,所以最終的度量公式為:
對(duì)box進(jìn)行K-means的步驟如下:
(1)隨機(jī)選取K個(gè)box作為初始anchor。
(2)使用度量公式(5),將每個(gè)box分配給與其距離最近的anchor。
(3)計(jì)算每個(gè)簇中所有box寬和高的均值,更新anchor。
(4)重復(fù)(2)、(3)步,知道anchor不再變化,或達(dá)到了最大迭代次數(shù)。
參考原YOLOv4的9個(gè)先驗(yàn)框尺寸,考慮到數(shù)據(jù)集飛機(jī)尺寸的復(fù)雜性,以及改進(jìn)后的特征層變?yōu)閮蓪?,最終選擇的K值為8。兩個(gè)不同尺度的特征圖中分別有4種不同尺寸的先驗(yàn)框,這樣可以為目標(biāo)分配更加準(zhǔn)確的先驗(yàn)框,以此來(lái)得到更加準(zhǔn)確的邊界框。
使用K-means算法對(duì)訓(xùn)練集進(jìn)行聚類分析,用于檢驗(yàn)最小的目標(biāo)的特征層的先驗(yàn)框尺寸為(11,11),(18,17),(25,25),(34,29);另一個(gè)特征層的先驗(yàn)框尺寸為(34,38),(51,49),(76,76),(142,140)。
實(shí)驗(yàn)平臺(tái)配置如圖10所示,本文采用臺(tái)式計(jì)算機(jī)配置為Iterl?Xeon?CPU,內(nèi)存64 GB,顯卡NVIDIA TITAN Xp,64位Windows 10操作系統(tǒng);開(kāi)發(fā)環(huán)境為tensorflow-gpu1.14、opencv4.1、python3.6、cuda10.0。
圖10 實(shí)驗(yàn)平臺(tái)信息
3.2.1 遙感數(shù)據(jù)集特點(diǎn)
遙感圖像具有以下特殊性。
(1)規(guī)模具有多樣性。不同拍攝高度的遙感圖像讓不同圖像中的飛機(jī)具有不同的大小和特征。
(2)視角具有特殊性。遙感圖像都是從空中俯視地面所拍攝,這與通常看待目標(biāo)時(shí)的視角有很大的不同,所以遙感圖像數(shù)據(jù)集中物體與常規(guī)數(shù)據(jù)集中物體的特征是不同的。
(3)小目標(biāo)。遙感圖像中的目標(biāo)大多體積都很小,在經(jīng)過(guò)若干層卷積神經(jīng)網(wǎng)絡(luò)的下采樣之后,目標(biāo)的特征信息容易丟失。
(4)復(fù)雜的背景。遙感圖像拍攝時(shí)的高度很高,影響的范圍領(lǐng)域也比較大,所以背景會(huì)很復(fù)雜,會(huì)對(duì)目標(biāo)的檢測(cè)造成干擾。
基于上述特點(diǎn),通過(guò)常規(guī)數(shù)據(jù)集訓(xùn)練出的目標(biāo)檢測(cè)模型無(wú)法完成遙感圖像的目標(biāo)檢測(cè)任務(wù)。
3.2.2 數(shù)據(jù)集分析
綜合考慮這些因素后,本文使用RSOD數(shù)據(jù)集[19]與DIOR數(shù)據(jù)集[20]中包含飛機(jī)的圖像來(lái)作為數(shù)據(jù)集。RSOD數(shù)據(jù)集由武漢大學(xué)在2015年發(fā)布,DIOR數(shù)據(jù)集是由西工大韓軍偉課題組提出的一種用于光學(xué)遙感圖像中目標(biāo)檢測(cè)的大規(guī)?;鶞?zhǔn)數(shù)據(jù)集。
數(shù)據(jù)集中,目標(biāo)的尺寸大多較小,并且分布較為密集。由于拍攝原因造成遙感圖像模糊(圖11(a)),并且飛機(jī)顏色與背景顏色相近,導(dǎo)致很難識(shí)別。在遙感圖像中,機(jī)場(chǎng)環(huán)境設(shè)施復(fù)雜,飛機(jī)旁邊會(huì)有登機(jī)橋與運(yùn)輸車輛距離很近(圖11(b)、(c)),并且飛機(jī)尺寸較小,在數(shù)據(jù)集標(biāo)注與目標(biāo)檢測(cè)時(shí),背景物體會(huì)與飛機(jī)一起被框出,對(duì)訓(xùn)練與識(shí)別造成困難。表3展示了訓(xùn)練集與測(cè)試集的數(shù)據(jù)。
圖11 數(shù)據(jù)集樣本
表3 訓(xùn)練集和測(cè)試集信息
本文根據(jù)召回率、精確率、mAP和Time來(lái)作為評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)模型的性能。
召回率與精確率的公式如下:
其中,TP(True Positive)為真正例,F(xiàn)P為假正例,F(xiàn)N為假負(fù)例,TP為真負(fù)例。召回率表示模型檢測(cè)出的目標(biāo)數(shù)量占所有目標(biāo)數(shù)量的比例,體現(xiàn)了模型識(shí)別目標(biāo)的能力;精確率表示模型檢測(cè)正確的目標(biāo)數(shù)量的比例,體現(xiàn)了模型檢測(cè)的準(zhǔn)確性。但是,由于精確率與召回率受置信度的影響,單獨(dú)采用精確率與召回率作為評(píng)價(jià)指標(biāo)會(huì)有局限性,所以,在實(shí)驗(yàn)中引入了平均精確度mAP作為評(píng)價(jià)指標(biāo),它是評(píng)價(jià)目標(biāo)檢測(cè)算法性能的最重要的指標(biāo)之一。
在YOLOv4和本文改進(jìn)后YOLOv4的訓(xùn)練階段,采用了余弦退火學(xué)習(xí)率衰減(CosineAnnealing)方法。余弦退火可以通過(guò)余弦函數(shù)來(lái)降低學(xué)習(xí)率。這種下降模式和學(xué)習(xí)率配合,以一種十分有效的計(jì)算方式來(lái)產(chǎn)生很好的效果。
初始學(xué)習(xí)率設(shè)置為0.000 1,最小學(xué)習(xí)率為0.000 01,最大學(xué)習(xí)率為0.001,訓(xùn)練epoch設(shè)置為100。圖12為loss值下降曲線,橫軸為訓(xùn)練epoch,縱軸為loss值。
圖12 loss值下降曲線
3.5.1 實(shí)驗(yàn)結(jié)果對(duì)比
為了評(píng)估算法的性能,將本文所提出的改進(jìn)后的YOLOv4算法命名為Improved-YOLOv4,并與YOLOv4、YOLOv3、Faster-RCNN在各方面進(jìn)行了對(duì)比。算法對(duì)比實(shí)驗(yàn)均采用相同的訓(xùn)練集與測(cè)試集,相同的訓(xùn)練批次,圖像在訓(xùn)練前尺寸調(diào)整為608×608。性能對(duì)比見(jiàn)表4。計(jì)算召回率和精確率時(shí),閾值設(shè)置為0.6,IOU設(shè)置為0.5。
表4 算法性能對(duì)比
從實(shí)驗(yàn)結(jié)果可以看出,YOLOv4算法在對(duì)遙感圖像中飛機(jī)目標(biāo)進(jìn)行檢測(cè)時(shí),效果要優(yōu)于YOLOv3算法。Improved-YOLOv4精確率為95.4%,較原YOLOv4提升了0.3個(gè)百分點(diǎn),Improved-YOLOv4召回率為86.04%,相對(duì)于原YOLOv4提升了4.68個(gè)百分點(diǎn),Improved-YOLOv4在平均精確率方面,較原YOLOv4提升了5.27個(gè)百分點(diǎn)。Improved-YOLOv4在保證精確率的同時(shí),提升了對(duì)遙感圖像中飛機(jī)目標(biāo)的召回率。雖然檢測(cè)速度比原YOLOv4慢了0.02 s,但是仍然滿足實(shí)時(shí)檢測(cè)的要求。
3.5.2 網(wǎng)絡(luò)模型對(duì)比分析
圖13 實(shí)驗(yàn)結(jié)果對(duì)比
針對(duì)遙感圖像中飛機(jī)目標(biāo)的特殊性,在測(cè)試集中選取了具有代表性的圖片來(lái)展開(kāi)對(duì)比分析。在圖13(a)中,飛機(jī)的目標(biāo)尺寸偏小,并且白色的飛機(jī)與灰白色的背景在顏色上較難區(qū)分,僅有Improved-YOLOv4可以檢測(cè)到所有飛機(jī)目標(biāo)。由于YOLOv4和YOLOv3的第三個(gè)特征層的對(duì)小目標(biāo)的語(yǔ)義丟失嚴(yán)重,在特征金字塔層進(jìn)行特征融合后,帶來(lái)了更多不利的影響,使得與背景顏色相似且密集的小目標(biāo)不能被檢測(cè)出來(lái),YOLOv4檢測(cè)出了一部分目標(biāo),而YOLOv3則只能識(shí)別中等尺寸的目標(biāo)。Improved-YOLOv4去掉了檢測(cè)大目標(biāo)的特征層,減少了語(yǔ)義丟失,相對(duì)較淺的卷積神經(jīng)網(wǎng)絡(luò)對(duì)邊緣信息更加敏感,即使目標(biāo)顏色與背景顏色相似,網(wǎng)絡(luò)還是可以識(shí)別出目標(biāo)的細(xì)節(jié)特征。在圖13(b)中,飛機(jī)尺寸中等,但是部分飛機(jī)與登機(jī)橋距離很近,很容易干擾到模型對(duì)飛機(jī)的檢測(cè)。YOLOv3對(duì)相對(duì)偏小且背景復(fù)雜的目標(biāo)依然無(wú)法識(shí)別,在登機(jī)橋的干擾下,YOLOv3識(shí)別目標(biāo)變得更加困難。YOLOv4雖然識(shí)別出了大部分目標(biāo),但對(duì)與登機(jī)橋相連的飛機(jī)出現(xiàn)了漏檢。Improved-YOLOv4使用DenseNet加強(qiáng)了特征提取,并且DenseNet的正則化效果減輕了網(wǎng)絡(luò)的過(guò)擬合,使模型具有更高的泛化性,所以Improved-YOLOv4對(duì)連接著登機(jī)橋的飛機(jī)的檢測(cè)效果更好。在圖13(c)中,飛機(jī)目標(biāo)的背景更為復(fù)雜,Improved-YOLOv4的優(yōu)勢(shì)更加明顯,YOLOv4還是無(wú)法對(duì)距離登機(jī)橋太近的飛機(jī)以及目標(biāo)顏色與背景顏色相近的飛機(jī)進(jìn)行識(shí)別,YOLOv3依然只能對(duì)尺寸中等的目標(biāo)進(jìn)行識(shí)別。
本文針對(duì)遙感圖像中飛機(jī)目標(biāo)尺寸偏小,檢測(cè)難度大的問(wèn)題進(jìn)行研究,提出了基于YOLOv4的改進(jìn)算法,通過(guò)調(diào)整特征層,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),調(diào)整先驗(yàn)框,加強(qiáng)了對(duì)小目標(biāo)的檢測(cè)能力,得到了更適合檢測(cè)遙感圖像中的飛機(jī)的目標(biāo)檢測(cè)算法。實(shí)驗(yàn)結(jié)果表明,Improved-YOLOv4算法滿足實(shí)時(shí)檢測(cè)的需求;精確率、召回率和平均精確度分別較原YOLOv4算法均有提升,有效地優(yōu)化了YOLOv4算法對(duì)遙感圖像中的飛機(jī)目標(biāo)檢測(cè)的問(wèn)題。但對(duì)遙感圖像中遮擋部分較大的目標(biāo)不能進(jìn)行精確的檢測(cè),后續(xù)工作將優(yōu)化對(duì)遮擋飛機(jī)目標(biāo)的檢測(cè)效果。