裴 偉,許晏銘,朱永英,王鵬乾,魯明羽,李 飛
1(大連海事大學(xué) 環(huán)境科學(xué)與工程學(xué)院,遼寧 大連 116026)
2(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)
3(大連海洋大學(xué) 海洋與土木工程學(xué)院,遼寧 大連 116023)
近年來(lái),目標(biāo)檢測(cè)和識(shí)別技術(shù)一直是業(yè)界研究的熱點(diǎn).目標(biāo)檢測(cè)技術(shù)主要有兩種研究方向:1) 基于傳統(tǒng)方法的目標(biāo)檢測(cè).主要步驟為目標(biāo)特征提取、訓(xùn)練分類器、輸出結(jié)果,對(duì)標(biāo)注的訓(xùn)練樣本進(jìn)行特征提取并將其送到分類器中進(jìn)行訓(xùn)練;2) 基于深度學(xué)習(xí)的目標(biāo)檢測(cè).
目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)主要分為基于候選區(qū)域的目標(biāo)檢測(cè)算法和基于回歸的目標(biāo)檢測(cè)算法:
基于候選區(qū)域的目標(biāo)檢測(cè)算法的計(jì)算過(guò)程是:首先,根據(jù)區(qū)域選擇算法從輸入圖像中提取出N(N遠(yuǎn)大于真實(shí)提取出的目標(biāo)個(gè)數(shù))個(gè)感興趣區(qū)域(region of interest,簡(jiǎn)稱 ROI);然后,利用多層卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡(jiǎn)稱 CNN)對(duì)上述的感興趣區(qū)域進(jìn)行特征提取,對(duì)提取到的特征進(jìn)行分類;最后,利用 Boundingbox回歸器對(duì)輸出窗口進(jìn)行更正,得到最終結(jié)果.2014年,Girshick提出了 Region CNN[1](R-CNN)目標(biāo)檢測(cè)算法;2015年,Girshick提出了Fast R-CNN[2]和Faster R-CNN[3];2017年,何凱明提出了基于Faster-RCNN框架的Mask R-CNN[4]目標(biāo)檢測(cè)算法等.
上述的基于候選區(qū)域的目標(biāo)檢測(cè)算法雖然精度很高,但實(shí)時(shí)性差,而不使用 RPN(region proposal network)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法在速度方面更具優(yōu)勢(shì),即基于回歸的目標(biāo)檢測(cè)算法:對(duì)于給定的輸入圖像,直接在圖像的多個(gè)位置上回歸出這個(gè)位置的目標(biāo)邊框以及目標(biāo)類別.Redmon在2016年提出了YOLO[5]目標(biāo)檢測(cè)算法.隨后,在此基礎(chǔ)上,作者提出了改進(jìn)版的YOLOv2[6].2016年,Liu提出的SSD[7]算法結(jié)合了YOLO速度快和Faster R-CNN候選區(qū)域的優(yōu)點(diǎn),SSD在不同特征圖上進(jìn)行分割,然后采用類似RPN的方式進(jìn)行回歸,在VOC2007數(shù)據(jù)集上最高可達(dá)到74.3%的準(zhǔn)確率,處理速度為46幀/s.該算法不僅保證了檢測(cè)速度,也提高了檢測(cè)的準(zhǔn)確率. 2017年提出的DSOD[8]基于SSD算法引入DenseNet[9]思想,mAP(mean average precision)為77.7%,與SSD300相當(dāng),但檢測(cè)速度為17.4幀/s,較SSD300的46幀尚有較大差距[10].2017年,Jeong提出Rainbow SSD[11]算法對(duì)傳統(tǒng)的SSD算法進(jìn)行了改進(jìn),一方面利用分類網(wǎng)絡(luò)增加了不同特征層之間的關(guān)聯(lián)度,有效減少了重復(fù)區(qū)域;另一方面增加了特征金字塔中的特征圖的個(gè)數(shù),使其適用于小目標(biāo)檢測(cè),其 mAP達(dá)到了 77.1%,同時(shí),速度也提高到 48.3幀/s,效果比較明顯.但該算法在融合不同特征層的特征信息時(shí)覆蓋了整個(gè)網(wǎng)絡(luò)結(jié)構(gòu),這樣勢(shì)必會(huì)引入冗余信息,增加了計(jì)算的復(fù)雜度.2018年提出的YOLOv3[12]算法通過(guò)多級(jí)預(yù)測(cè)方式改善了小目標(biāo)檢測(cè)精度差的問(wèn)題,同時(shí),采用簡(jiǎn)化的residual block取代了原來(lái)1×1和3×3的block,為無(wú)人機(jī)目標(biāo)檢測(cè)的應(yīng)用場(chǎng)景的落地提供了更多的可能.
無(wú)人機(jī)技術(shù)的快速發(fā)展,使得無(wú)人機(jī)地面目標(biāo)檢測(cè)技術(shù)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向,無(wú)人機(jī)在軍事偵察、交通管制等場(chǎng)景中具有普遍的應(yīng)用價(jià)值.國(guó)外很早便開(kāi)展了針對(duì)無(wú)人機(jī)檢測(cè)跟蹤系統(tǒng)的研究.1997年,美國(guó)就啟動(dòng)了VSAM(video surveillance and monitoring)項(xiàng)目,在高處架設(shè)攝像機(jī)對(duì)地面目標(biāo)進(jìn)行全方位的檢測(cè)和跟蹤.2006年,美國(guó)DAPRA部門設(shè)計(jì)了一套無(wú)人機(jī)監(jiān)控系統(tǒng)COCOA,該系統(tǒng)能對(duì)無(wú)人機(jī)下視的車輛、行人等目標(biāo)進(jìn)行實(shí)時(shí)的檢測(cè)、識(shí)別和跟蹤,捕獲目標(biāo)的連續(xù)運(yùn)動(dòng)序列,使用幀間對(duì)齊技術(shù)對(duì)運(yùn)動(dòng)序列進(jìn)行背景補(bǔ)償,然后對(duì)其進(jìn)行背景建模并最終實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)的跟蹤[13].Ibrahim 于 2010年提出了 MODAT(moving objects detection and tracking)系統(tǒng),使用SIFT特征進(jìn)行航拍目標(biāo)的檢測(cè)和跟蹤[14].
雖然國(guó)內(nèi)該方面的相關(guān)研究起步較晚,但發(fā)展速度很快[15].2008年,張恒設(shè)計(jì)了一套無(wú)人機(jī)平臺(tái)運(yùn)動(dòng)目標(biāo)檢測(cè)和跟蹤系統(tǒng),能對(duì)無(wú)人機(jī)拍攝圖像進(jìn)行特征提取,并對(duì)機(jī)載相機(jī)運(yùn)動(dòng)進(jìn)行自適應(yīng)消除[16].譚熊等人于 2011年提出了基于區(qū)域的航拍目標(biāo)跟蹤算法,該算法計(jì)算速度快、精度高,能滿足實(shí)時(shí)運(yùn)算的要求[17].2013年,董晶等人設(shè)計(jì)了一套地面運(yùn)動(dòng)目標(biāo)實(shí)時(shí)監(jiān)測(cè)及跟蹤系統(tǒng),提取特征點(diǎn)進(jìn)行運(yùn)動(dòng)目標(biāo)的檢測(cè),并將檢測(cè)和跟蹤相結(jié)合來(lái)進(jìn)行移動(dòng)目標(biāo)的定位,適用于誤檢和目標(biāo)跟蹤失效的情況[18].湯軼等人設(shè)計(jì)的無(wú)人機(jī)視頻中,運(yùn)動(dòng)目標(biāo)檢測(cè)與跟蹤系統(tǒng)使用RANSAC算法對(duì)背景運(yùn)動(dòng)進(jìn)行補(bǔ)償,粒子群優(yōu)化算法進(jìn)行目標(biāo)中心位置的定位,該思路確保了算法的準(zhǔn)確性和實(shí)時(shí)性[19].
無(wú)人機(jī)產(chǎn)業(yè)發(fā)展日益蓬勃,其應(yīng)用領(lǐng)域仍在不斷拓展.但無(wú)人機(jī)在執(zhí)行軍事偵察、消防、救災(zāi)、搜救等實(shí)時(shí)任務(wù)時(shí),目標(biāo)檢測(cè)的精度和實(shí)時(shí)性決定了無(wú)人機(jī)飛行任務(wù)是以機(jī)毀人亡,還是以生命財(cái)產(chǎn)的延續(xù)而結(jié)束,成敗就在一瞬間.受到負(fù)載、續(xù)航、航行環(huán)境、計(jì)算力等限制,無(wú)人機(jī)目標(biāo)檢測(cè)在這方面的研究進(jìn)展緩慢,已成為制約無(wú)人機(jī)發(fā)展的瓶頸問(wèn)題之一.當(dāng)前,無(wú)人機(jī)目標(biāo)檢測(cè)算法面臨以下難點(diǎn)和問(wèn)題[20].
(1) 無(wú)人機(jī)快速移動(dòng)的不穩(wěn)定性造成航拍圖像具有圖像模糊、噪聲多、運(yùn)動(dòng)目標(biāo)可提取的特征信息少、易出現(xiàn)重復(fù)檢測(cè)、目標(biāo)誤檢等問(wèn)題;
(2) 無(wú)人機(jī)從制高點(diǎn)進(jìn)行圖像采集時(shí),圖像中的檢測(cè)目標(biāo)一般較小,易出現(xiàn)小目標(biāo)漏檢情況;
(3) 隨著無(wú)人機(jī)的不斷移動(dòng),外界環(huán)境(比如光照、云、霧、雨等)的變化將會(huì)導(dǎo)致圖像中目標(biāo)特征的劇烈變化,增加了后續(xù)特征提取的難度[21];
(4) 無(wú)人機(jī)目標(biāo)檢測(cè)算法需要快速準(zhǔn)確地檢測(cè)出運(yùn)動(dòng)目標(biāo),因此算法應(yīng)滿足實(shí)時(shí)計(jì)算的要求.
針對(duì)無(wú)人機(jī)場(chǎng)景下目標(biāo)分辨率低、目標(biāo)遮擋和光照變化等導(dǎo)致的可提取特征不多的問(wèn)題,本文在 SSD目標(biāo)檢測(cè)算法的基礎(chǔ)上對(duì)原始基準(zhǔn)網(wǎng)絡(luò)VGG-16[22]進(jìn)行替換,提出了基于深度殘差網(wǎng)絡(luò)(deep residual network,簡(jiǎn)稱Resnet[23])的航拍目標(biāo)檢測(cè)方法(R-SSD),增強(qiáng)網(wǎng)絡(luò)的特征提取能力;同時(shí),針對(duì)SSD算法目標(biāo)重復(fù)檢測(cè)和小樣本漏檢問(wèn)題,本文為特征提取層選取高層的語(yǔ)義信息和低層的視覺(jué)信息進(jìn)行特征融合,提出一種基于特征融合的航拍目標(biāo)檢測(cè)方法(CI-SSD).
SSD的速度優(yōu)勢(shì)在于:該算法是在前饋CNN網(wǎng)絡(luò)的基礎(chǔ)上實(shí)現(xiàn)的,把網(wǎng)絡(luò)的計(jì)算量封裝在一個(gè)端到端的單通道中.針對(duì)單枚輸入圖像,SSD會(huì)產(chǎn)生多個(gè)固定大小的Bounding Box和框中對(duì)象類別的得分,然后進(jìn)行非極大值抑制(non-maximum suppression,簡(jiǎn)稱NMS)操作,得到最后的預(yù)測(cè)結(jié)果,顯著提高了檢測(cè)速度.網(wǎng)絡(luò)前半部分為基礎(chǔ)網(wǎng)絡(luò),主要用來(lái)進(jìn)行圖像分類;網(wǎng)絡(luò)后半部分為多尺度卷積層,卷積層尺寸逐層減少,主要用于多尺度下目標(biāo)特征的提取和檢測(cè).
SSD網(wǎng)絡(luò)中的任何一個(gè)特征層都使用一組卷積過(guò)濾器與輸入進(jìn)行卷積操作,產(chǎn)生一系列固定的預(yù)測(cè)集合,該集合包括預(yù)測(cè)目標(biāo)框的4個(gè)偏移量和21個(gè)種類的置信度得分.
每個(gè)特征圖都與一組不同尺度的默認(rèn)邊界框相綁定,在每個(gè)單元格中,預(yù)測(cè)結(jié)果為相對(duì)于默認(rèn)邊界框的位置偏移和類別得分.如在某個(gè)已知位置的k個(gè)邊界框中,每個(gè)邊界框都需計(jì)算相對(duì)于當(dāng)前位置的4個(gè)坐標(biāo)偏移量和c個(gè)類的分?jǐn)?shù),因此每個(gè)位置都有(c+4)×k個(gè)過(guò)濾器,對(duì)于m×n的輸入圖像,該操作總計(jì)會(huì)產(chǎn)生k×m×n×(c+4)個(gè)結(jié)果.如圖1所示:圖1(a)為含有真實(shí)坐標(biāo)框的輸入圖像,圖1(b)和圖1(c)分別是尺度為8×8和4×4的特征圖.
Fig.1 SSD framework for detection圖1 SSD的檢測(cè)結(jié)構(gòu)
在進(jìn)行卷積操作時(shí),每個(gè)位置都需要進(jìn)行默認(rèn)框(如圖1(b)和圖1(c)中4個(gè)不同寬高比的邊界框)的計(jì)算,預(yù)測(cè)所有類別的得分和坐標(biāo)偏移值.
SSD算法中,目標(biāo)損失函數(shù)的思想類似于 MultiBox[24],但 SSD將其擴(kuò)展為可處理多個(gè)類別的目標(biāo)函數(shù).代表針對(duì)類別p,第i個(gè)默認(rèn)框和第j個(gè)真實(shí)框的結(jié)果保持一致;表示不一致.則表示對(duì)于類別p的第j個(gè)真實(shí)標(biāo)簽框,可能有多個(gè)默認(rèn)框與之匹配.總的目標(biāo)損失函數(shù)為
其中,N為與真實(shí)標(biāo)簽框相匹配的默認(rèn)框的個(gè)數(shù),Lloc和Lconf分別為位置和置信度的損失量,α為兩者的權(quán)重,x為輸入圖像,c為目標(biāo)類別,l為預(yù)測(cè)框,g為真實(shí)標(biāo)簽框.
深度殘差網(wǎng)絡(luò)(ResNet)是在2015年ILSVRC(ImageNet Large Scale Visual Recognition Challenge)大賽上由微軟亞洲研究院(MSRA)何凱明團(tuán)隊(duì)提出的一種卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)贏得了當(dāng)年圖像分類、檢測(cè)、定位和分割的第 1名.如圖2所示,隨著網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)結(jié)構(gòu)的特征提取能力越來(lái)越強(qiáng),識(shí)別錯(cuò)誤率也越來(lái)越低.ResNet在ImageNet數(shù)據(jù)集上可達(dá)到3.57%的識(shí)別錯(cuò)誤率,遠(yuǎn)低于VGG網(wǎng)絡(luò)和人眼實(shí)測(cè)的錯(cuò)誤率,這為后續(xù)的殘差網(wǎng)絡(luò)替換提供了研究基礎(chǔ).殘差網(wǎng)絡(luò)最深可達(dá)152層,與傳統(tǒng)網(wǎng)絡(luò)相比,深度網(wǎng)絡(luò)帶來(lái)了更好的泛化能力,同時(shí)還具有更低的復(fù)雜性.
Fig.2 Top-5 error rate (%) of ILSVRC over the years圖2 ILSVRC歷年的Top-5錯(cuò)誤率(%)
殘差網(wǎng)絡(luò)引入了一種殘差學(xué)習(xí)框架來(lái)應(yīng)對(duì)傳統(tǒng)網(wǎng)絡(luò)的退化問(wèn)題.如圖3所示,該學(xué)習(xí)策略對(duì)多層的殘差映射進(jìn)行擬合,H(x)稱為幾個(gè)網(wǎng)絡(luò)層堆疊的期望映射,x為當(dāng)前堆疊塊的入口,relu激活函數(shù)的使用縮短了學(xué)習(xí)周期.假設(shè)n個(gè)非線性層可近似地表達(dá)為某個(gè)復(fù)雜函數(shù)(殘差函數(shù)),則把堆疊的網(wǎng)絡(luò)層擬合成另一個(gè)映射F(x)=H(x)-x,那么最終的基礎(chǔ)映射便為H(x)=F(x)+x.與通過(guò)疊加網(wǎng)絡(luò)層來(lái)擬合期望的原始映射相比,盡管這兩種方式都能近似得到殘差函數(shù),但殘差映射更容易調(diào)優(yōu).通過(guò)構(gòu)建殘差學(xué)習(xí),殘差網(wǎng)絡(luò)可將多個(gè)非線性連接的系數(shù)逼近零來(lái)近似成更優(yōu)的期望映射.
圖3中,公式H(x)=F(x)+x可由帶有跳躍連接(跳過(guò)一層以上的層間連接)的前饋神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),跳躍連接執(zhí)行恒等映射并將計(jì)算結(jié)果添加至其指向的輸出層,這種計(jì)算方式?jīng)]有導(dǎo)入其他系數(shù),計(jì)算量沒(méi)有明顯的增加.殘差學(xué)習(xí)框架的引入,可大幅降低提取特征的重復(fù)度,減少網(wǎng)絡(luò)模型的計(jì)算量.這種跨層共享參數(shù)和重復(fù)利用中間特征的方式,可解決層數(shù)增加之后出現(xiàn)的性能退化問(wèn)題.
Fig.3 Comparison of common structure and residual structure圖3 普通結(jié)構(gòu)和殘差結(jié)構(gòu)對(duì)比
SSD使用的基準(zhǔn)網(wǎng)絡(luò)VGG16的結(jié)構(gòu)如圖4(a)所示,用3×3的卷積核來(lái)增大網(wǎng)絡(luò)的感受野范圍,用多個(gè)包含過(guò)濾器的卷積層來(lái)減少參數(shù)的引入和提高網(wǎng)絡(luò)的擬合能力.VGG16共16層,網(wǎng)絡(luò)的前半部分為卷積層的疊加,后半部分為全連接層,最后為進(jìn)行歸一化的Softmax層.
Fig.4 Comparison of network architectures圖4 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比圖
圖4(b)所示為Resnet-50的網(wǎng)絡(luò)結(jié)構(gòu),圖中虛線框?yàn)椴煌瑢訅K的殘差結(jié)構(gòu),ResNet中的每個(gè)卷積塊都包含不同數(shù)目的殘差單元,每個(gè)殘差單元進(jìn)行3次卷積操作.殘差網(wǎng)絡(luò)使用身份快捷連接(identity shortcut connection)進(jìn)行卷積層的跨連,它解決了網(wǎng)絡(luò)層數(shù)加深但檢測(cè)精度不升反降的問(wèn)題.與傳統(tǒng) VGG相比,殘差網(wǎng)絡(luò)具有更少的濾波器和更低的計(jì)算代價(jià),這也是將基準(zhǔn)網(wǎng)絡(luò)替換為殘差網(wǎng)絡(luò)的原因.
用于圖像分類的標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)稱為前置網(wǎng)絡(luò)(base network),前置網(wǎng)絡(luò)的理論基礎(chǔ)是生成模型,生成模型可自適應(yīng)地從輸入圖像中學(xué)習(xí)重要特征,這在很大程度上解決了某些模型(如傳統(tǒng)的全連接網(wǎng)絡(luò))特征提取能力不足的問(wèn)題.但生成模型提取到的特征信息冗余太多,有用信息提取困難.因此,通過(guò)前置網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,為后續(xù)網(wǎng)絡(luò)層提供輸入信息,可加快后續(xù)訓(xùn)練速度,提高網(wǎng)絡(luò)的表達(dá)能力.
ResNet通過(guò)引入殘差學(xué)習(xí)來(lái)提高模型的檢測(cè)性能,合并n個(gè)堆疊塊,進(jìn)而構(gòu)造一個(gè)殘差學(xué)習(xí)模塊.構(gòu)造塊定義為
其中,x和y分別為當(dāng)前計(jì)算層的輸入和輸出,函數(shù)F(x,Wi)代表當(dāng)前網(wǎng)絡(luò)想要學(xué)習(xí)的殘差結(jié)構(gòu).如圖3所示,第1層公式F=W2σ(W1x)中,σ為Relu激活函數(shù);第2層則通過(guò)快捷連接來(lái)執(zhí)行F+x操作.公式(2)中的輸入向量x和函數(shù)F的維度應(yīng)保持一致,否則,我們需要對(duì)輸入向量x執(zhí)行線性投影來(lái)實(shí)現(xiàn)維度匹配:
對(duì)無(wú)人機(jī)下視目標(biāo)圖像采集速度和機(jī)載硬件計(jì)算能力進(jìn)行綜合考慮,本文選用Resnet-50殘差結(jié)構(gòu)進(jìn)行網(wǎng)絡(luò)替換.選取的特征提取層為 conv2_x(分別使用大小為 1×1×64,3×3×64,1×1×256 的卷積核),conv3_x(分別使用大小為 1×1×128,3×3×128,1×1×512 的卷積核),conv4_x(分別使用大小為 1×1×256,3×3×256,1×1×1024 的卷積核),conv5_x(分別使用大小為 1×1×512,3×3×512,1×1×2048 的卷積核),conv7_x,conv8_x,conv9_x.Resnet中的身份快捷連接沒(méi)有增加額外計(jì)算量,因此,我們可以公正地對(duì)原始網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比.圖5為原始的SSD和經(jīng)過(guò)網(wǎng)絡(luò)替換的R-SSD的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比圖.
Fig.5 Comparison of SSD network and R-SSD network圖5 SSD網(wǎng)絡(luò)和R-SSD網(wǎng)絡(luò)對(duì)比
(1) 選擇默認(rèn)框參數(shù)
為了能對(duì)不同尺度的目標(biāo)進(jìn)行正確檢測(cè),某些算法將輸入圖像轉(zhuǎn)為不同的尺度,然后對(duì)轉(zhuǎn)換后的圖像進(jìn)行處理,并將檢測(cè)結(jié)果進(jìn)行融合[25,26].使用若干個(gè)不同輸出尺寸的特征圖進(jìn)行預(yù)測(cè),同樣可以得到上述的輸出結(jié)果,而且在端對(duì)端的單一網(wǎng)絡(luò)中可以進(jìn)行參數(shù)的共享傳遞,轉(zhuǎn)換效率更高.
在一個(gè)卷積神經(jīng)網(wǎng)絡(luò)中,位于不同層的特征圖有著不同大小的感受域(特征圖上輸出的某個(gè)節(jié)點(diǎn),其對(duì)應(yīng)的輸入圖像中的某塊區(qū)域).在此處采用的策略是默認(rèn)框不用一對(duì)一的與特征圖的感受域相映射,不同位置的默認(rèn)框?qū)?yīng)不同的區(qū)域和目標(biāo)尺寸.假設(shè)用來(lái)預(yù)測(cè)的特征圖有m個(gè),則每個(gè)特征圖中默認(rèn)框的尺寸為
其中,Smin為網(wǎng)絡(luò)結(jié)構(gòu)中最底層的默認(rèn)框尺度,值為0.2;Smax為最高層的默認(rèn)框尺度,值為0.95,不同層以一定規(guī)則間隔排序.默認(rèn)框的寬高比取值ar∈{1,2,3,1/2,1/3},則每一個(gè)默認(rèn)框的寬、高分別為
(2) 確定匹配策略
在生成R-SSD檢測(cè)模型時(shí),需要為每個(gè)真實(shí)標(biāo)簽框都選擇默認(rèn)框與其進(jìn)行匹配.原始的MultiBox匹配思想是從所有的候選默認(rèn)框中為每一個(gè)真實(shí)標(biāo)簽框找到一個(gè)最高的Jaccard(用于比較樣本之間的相似性和差異性)重疊值,該方法確保了每個(gè)真實(shí)標(biāo)簽框都有一個(gè)與其匹配的默認(rèn)框.本文的匹配策略是在MultiBox思想的基礎(chǔ)上將 Jaccard重疊系數(shù)調(diào)整為 0.5,這一調(diào)整弱化了學(xué)習(xí)過(guò)程,允許網(wǎng)絡(luò)模型自適應(yīng)地計(jì)算多個(gè)默認(rèn)框的重疊情況,而不只限于Jaccard重疊率最高的那個(gè)默認(rèn)框.
(3) 選擇損失函數(shù)
在進(jìn)行模型訓(xùn)練時(shí),始終存在一個(gè)目標(biāo)函數(shù),算法持續(xù)對(duì)該函數(shù)進(jìn)行優(yōu)化,直至損失值最低,這個(gè)目標(biāo)函數(shù)稱為損失函數(shù).損失函數(shù)用來(lái)衡量網(wǎng)絡(luò)模型的輸出值和真實(shí)值yi的差異程度,損失函數(shù)的目的是使損失值最小化,其公式為
本文基于深度學(xué)習(xí)框架Caffe[27]建立了R-SSD訓(xùn)練模型,通過(guò)對(duì)比實(shí)驗(yàn)選擇了Softmax作為損失函數(shù),其公式為
其中,Sj為類別j的得分,yi為目標(biāo)的真實(shí)標(biāo)簽.不同類別上的目標(biāo)分值離散程度越高,損失值越低,模型性能越好.針對(duì)航拍數(shù)據(jù)特點(diǎn),對(duì)公式(8)進(jìn)行如下變形可進(jìn)一步提高精度:
通過(guò)計(jì)算損失函數(shù)Li,得到一個(gè)用于分類的Softmax模型.
在訓(xùn)練階段,首先對(duì)輸入的目標(biāo)圖像進(jìn)行預(yù)處理操作,包括數(shù)據(jù)增強(qiáng)和圖像去霧等,然后對(duì)輸入圖像中的目標(biāo)信息進(jìn)行標(biāo)注,得到真實(shí)目標(biāo)的位置信息和類別信息,再進(jìn)行模型的訓(xùn)練,生成最終的R-SSD目標(biāo)檢測(cè)模型.
在檢測(cè)階段,每枚測(cè)試圖像都生成N個(gè)可能包含目標(biāo)的框圖,利用訓(xùn)練階段生成的R-SSD模型對(duì)其進(jìn)行真實(shí)坐標(biāo)偏移和所屬類別得分的計(jì)算,每枚圖像都會(huì)得到N個(gè)分類結(jié)果,再利用非極大值抑制算法輸出最終結(jié)果.整體流程如圖6所示.
Fig.6 Flow diagram of object detection based on aerial photography圖6 航拍目標(biāo)檢測(cè)流程圖
上一節(jié)提出了一種基于殘差網(wǎng)絡(luò)的航拍目標(biāo)檢測(cè)算法 R-SSD,使用 Resnet-50網(wǎng)絡(luò)替換原始前置網(wǎng)絡(luò)VGG-16,在原始SSD算法的基礎(chǔ)上提高了精度,但實(shí)時(shí)性差,還存在誤檢、小目標(biāo)漏檢、重復(fù)檢測(cè)的問(wèn)題.傳統(tǒng)的SSD目標(biāo)檢測(cè)算法在速度和精度方面表現(xiàn)出色,充分利用了多卷積層的優(yōu)勢(shì)來(lái)對(duì)目標(biāo)進(jìn)行檢測(cè),對(duì)目標(biāo)的尺度變化具有較好的魯棒性.但SSD網(wǎng)絡(luò)結(jié)構(gòu)的缺點(diǎn)是對(duì)小目標(biāo)漏檢,如圖7所示,每個(gè)卷積層都當(dāng)作后續(xù)分類網(wǎng)絡(luò)的輸入,即每個(gè)層對(duì)應(yīng)一個(gè)目標(biāo)的尺度,忽略了層與層之間的關(guān)聯(lián)關(guān)系.如圖7中的conv4_3特征層,從該層開(kāi)始,隨著網(wǎng)絡(luò)層數(shù)和深度的增加,卷積層的尺度逐步減小,表征能力越來(lái)越強(qiáng),語(yǔ)義信息也越來(lái)越豐富,但底層的conv4_3沒(méi)有利用高層的語(yǔ)義信息,導(dǎo)致檢測(cè)小目標(biāo)效果較差.因此,本文利用特征融合技術(shù)對(duì)該網(wǎng)絡(luò)進(jìn)行改進(jìn).
Fig.7 SSD extra feature layer圖7 SSD提取特征層
當(dāng)把圖像輸入到用于分割的FCN網(wǎng)絡(luò)[28]時(shí),FCN網(wǎng)絡(luò)會(huì)先進(jìn)行卷積操作再進(jìn)行池化(通過(guò)縮小圖像尺寸來(lái)增大感受野范圍)操作,然后將池化后尺寸變小的圖像進(jìn)行上采樣增大到原始圖像尺寸進(jìn)行結(jié)果預(yù)測(cè).但在圖像尺寸縮小再增大的過(guò)程中,池化層會(huì)造成圖像部分信息的缺失.如果沒(méi)有池化層,高層網(wǎng)絡(luò)中尺寸較小的卷積層其感受野范圍也相對(duì)較小,缺少圖像的整體特征,模型學(xué)不到全局信息;如果加上池化層,圖像原有的信息特征會(huì)遭受損失,降低模型的精度.所以我們采用空洞卷積方法(dilated convolution)[29]來(lái)解決這一問(wèn)題,空洞卷積在不損失信息的前提下加大了卷積層的感受野范圍.SSD結(jié)構(gòu)的缺點(diǎn)在于缺少圖像的全局信息,利用空洞卷積進(jìn)行特征下采樣可以改善小目標(biāo)檢測(cè)精度不高的問(wèn)題.
圖8(a)是卷積核大小為3×3、擴(kuò)張(dilation)為1的空洞卷積操作,該操作等同于卷積操作,3×3的點(diǎn)狀區(qū)域?yàn)楫?dāng)前卷積的感受野范圍.圖8(b)是卷積核大小為3×3、擴(kuò)張為2的空洞卷積操作,即一個(gè)7×7的區(qū)域但只有9個(gè)點(diǎn)和 3×3大小的卷積核發(fā)生了卷積操作,其余點(diǎn)的權(quán)值為 0.雖然該操作的卷積核大小只有 3×3,但與圖8(a)相比,感受野范圍擴(kuò)大到了7×7.執(zhí)行空洞卷積之后感受野的大小為
其中,擴(kuò)張值為當(dāng)前卷積核中每個(gè)計(jì)算點(diǎn)的半徑.如圖8(b)中擴(kuò)張值為2,則Fdilation=7×7.
Fig.8 Dilated convolution operation圖8 空洞卷積操作
本文將圖7中不同層之間的相互關(guān)系考慮在內(nèi),較低層的特征圖通過(guò)空洞卷積操作連接到較高層的特征圖上,并對(duì)其進(jìn)行尺度歸一操作,保持通道數(shù)目不變,改進(jìn)之后的結(jié)構(gòu)如圖9所示.
Fig.9 Extra feature layer after dilated convolution圖9 空洞卷積操作之后的提取特征層
為了讓訓(xùn)練模型學(xué)到更多的上文信息,對(duì)分類特征層執(zhí)行反卷積(deconvolution)[30]操作,卷積操作可以用來(lái)對(duì)高維向量進(jìn)行低維特征的計(jì)算.圖10(a)是輸入尺寸為5×5、濾波器大小為3×3、步長(zhǎng)為2、擴(kuò)充為1的卷積計(jì)算過(guò)程,輸出尺寸為3×3.反卷積操作剛好相反,它可以將低維的局部特征映射成高維向量,因SSD網(wǎng)絡(luò)結(jié)構(gòu)中高層(低維特征)的特征圖含有豐富的語(yǔ)義特征,我們可對(duì)其進(jìn)行反卷積操作映射到低層網(wǎng)絡(luò)中,用來(lái)增強(qiáng)卷積層的表征能力.圖10(b)為卷積操作所對(duì)應(yīng)的反卷積過(guò)程,其輸入尺寸為3×3.在給定的特征單元之間進(jìn)行0值的插入上采樣,然后采用步長(zhǎng)間隔為1的3×3的濾波器進(jìn)行反卷積計(jì)算,反卷積的輸入輸出關(guān)系為
其中,s為移動(dòng)步長(zhǎng),i為輸入的特征大小,k為濾波器大小,p為擴(kuò)充值.例如圖10(b)中i為3,s為1,k為3,p為0,則Fdecon=5×5.
Fig.10 Convolution and deconvolution operation圖10 卷積與反卷積操作
上采樣的方式將語(yǔ)義信息更強(qiáng)的高層特征融入到低層特征圖中,增強(qiáng)了網(wǎng)絡(luò)的辨識(shí)度.反卷積操作不僅增加了特征圖大小,也使低層特征可以學(xué)到更為豐富的語(yǔ)義信息.在原始SSD網(wǎng)絡(luò)的基礎(chǔ)上,將較高層的特征圖通過(guò)反卷積操作連接到較低層的特征圖上,并對(duì)其進(jìn)行尺度歸一操作,保持通道數(shù)目不變,改進(jìn)之后的結(jié)構(gòu)如圖11所示.
Fig.11 Extra feature layer after deconvolution圖11 反卷積操作之后的提取特征層
原始SSD算法沒(méi)有計(jì)算不同尺度特征層之間的映射關(guān)系,在對(duì)同一目標(biāo)進(jìn)行檢測(cè)時(shí),SSD會(huì)生成多個(gè)不同尺度的預(yù)測(cè)框,對(duì)小目標(biāo)檢測(cè)效果差.本文提出的CI-SSD網(wǎng)絡(luò)結(jié)構(gòu)在SSD目標(biāo)檢測(cè)算法的基礎(chǔ)上進(jìn)行了改進(jìn),保留了該算法的前置網(wǎng)絡(luò)VGG-16,將conv4_ci,conv7_ci,conv8_ci,conv9_ci,conv10_ci,conv11_ci作為預(yù)測(cè)的特征層.CI-SSD充分利用了不同特征層之間的相互關(guān)系,用空洞卷積操作將低層的特征圖和高層的特征圖融合,可顯著提高分類網(wǎng)絡(luò)的感受野范圍,有利于模型學(xué)習(xí)到更多的全局信息;反卷積操作將高層的特征圖和低層的特征圖融合,有助于低層特征層進(jìn)行小目標(biāo)的檢測(cè),增強(qiáng)了模型的語(yǔ)義表征能力.這種連接方式使 CI-SSD網(wǎng)絡(luò)可在同一特征層上將目標(biāo)的不同尺度考慮在內(nèi),增強(qiáng)模型的泛化能力.
如圖12所示,conv4_ci特征層由512個(gè)38×38的特征圖組成,其中:前256個(gè)特征圖是由conv4_3經(jīng)過(guò)卷積運(yùn)算生成的,所用的卷積核大小為 3×3,步長(zhǎng)為 1,擴(kuò)充為 1,特征圖尺度未發(fā)生變化;后 256個(gè)特征圖是由 conv7經(jīng)過(guò)反卷積上采樣操作生成的,所用的卷積核大小為2×2,步長(zhǎng)為2,擴(kuò)充為0,特征圖尺度擴(kuò)大一倍.
Fig.12 CI-SSD object detection network圖12 CI-SSD目標(biāo)檢測(cè)網(wǎng)絡(luò)
conv7_ci特征層由1 024個(gè)19×19的特征圖組成,其中:前256個(gè)特征圖是由conv4_3經(jīng)過(guò)空洞卷積下采樣運(yùn)算生成的,所用的擴(kuò)張值為 2,卷積核大小為 3×3,步長(zhǎng)為2,擴(kuò)充為 2,特征圖尺度減少一倍;中間的512個(gè)特征圖是由conv7經(jīng)過(guò)卷積運(yùn)算生成的,所用的卷積核大小為3×3,步長(zhǎng)為1,擴(kuò)充為1,特征圖尺度未發(fā)生變化;后256個(gè)特征圖是由conv8_2經(jīng)過(guò)反卷積上采樣操作生成的,所用的卷積核大小為3×3,步長(zhǎng)為2,擴(kuò)充為1,特征圖尺度擴(kuò)大一倍,其余特征層類似.conv7_ci的多層融合如圖13所示.
Fig.13 Multi-layer fusion of conv7_ci layer圖13 conv7_ci層的多層融合
為使conv4_3層和conv8_2層的特征圖尺寸與conv7層相同,我們對(duì)conv4_3層進(jìn)行下采樣空洞卷積操作,對(duì)conv8_2層進(jìn)行上采樣反卷積操作,然后使用3×3的卷積層學(xué)習(xí)融合特征.因VGG-16基礎(chǔ)網(wǎng)絡(luò)的低特征層與高層數(shù)據(jù)維度分布差距較大,直接融合效果不好,所以加入BN層(batch normalization layer)進(jìn)行歸一化處理,3個(gè)特征圖在融合之前進(jìn)行激活操作,最后使用1×1的卷積核進(jìn)行降維操作,生成最終的特征融合層.
第5.1節(jié)介紹實(shí)驗(yàn)的運(yùn)行環(huán)境及算法評(píng)估指標(biāo);第5.2節(jié)為基于殘差網(wǎng)絡(luò)的航拍目標(biāo)檢測(cè)算法R-SSD的對(duì)比實(shí)驗(yàn);第5.3節(jié)為基于特征融合的航拍目標(biāo)檢測(cè)算法CI-SSD的對(duì)比實(shí)驗(yàn).
實(shí)驗(yàn)運(yùn)行環(huán)境見(jiàn)表1.
Table 1 Runtime environment of this experiment表1 實(shí)驗(yàn)運(yùn)行環(huán)境
本文所用的算法評(píng)估指標(biāo)如下所述:mAP由精度、召回率和平均值這3部分組成.
· 精度 P(precision)也稱正確率,廣泛應(yīng)用在信息檢索領(lǐng)域.正確率指返回結(jié)果中相關(guān)類別占總返回結(jié)果的比例,定義為正確率=返回結(jié)果中相關(guān)類別的數(shù)目?總返回結(jié)果的數(shù)目;
· 與正確率一同使用的是召回率 Recall,召回率指返回結(jié)果中相關(guān)類別占總的相關(guān)類別的比例,定義為召回率=返回結(jié)果中相關(guān)類別的數(shù)目?總的相關(guān)類別的數(shù)目;
· 由正確率和召回率可求出每一類別的AP曲線,再對(duì)所有類的AP取平均值,即可求得mAP:
其中,N代表測(cè)試集中圖像數(shù),P(k)表示識(shí)別k枚圖像的精度值,Δr(k)表示識(shí)別圖像枚數(shù)從k-1變化到k時(shí)Recall值的變化量,m為所有圖像的類別數(shù).
本文所用的實(shí)驗(yàn)數(shù)據(jù)來(lái)自UAV123(包括行人和車輛共13.7G)[31],VEDAI(1 270枚圖像)[32]等公共數(shù)據(jù)集和大疆M100無(wú)人機(jī)在大連海事大學(xué)心海湖附近拍攝的圖像數(shù)據(jù)(1 600枚),將數(shù)據(jù)分為汽車、卡車、船、飛機(jī)、行人等5個(gè)類別,訓(xùn)練樣本如圖14所示,其中,訓(xùn)練樣本為19 256枚,測(cè)試樣本為3 000枚.
Fig.14 Training image sample圖14 訓(xùn)練圖像示例
訓(xùn)練參數(shù)設(shè)置見(jiàn)表2.
Table 2 Training parameter setting表2 訓(xùn)練參數(shù)設(shè)置
(1) 前置網(wǎng)絡(luò)替換實(shí)驗(yàn)
前置網(wǎng)絡(luò)主要用來(lái)進(jìn)行特征提取,并將產(chǎn)生的目標(biāo)特征傳遞到后續(xù)的卷積層中進(jìn)行模型訓(xùn)練.針對(duì)航拍圖像目標(biāo)尺度小、分辨率低等問(wèn)題,我們將原始SSD算法的前置網(wǎng)絡(luò)VGG-16替換為Resnet50,對(duì)輸入圖像進(jìn)行歸一化處理,并增加特征提取層數(shù)來(lái)提高特征提取能力.前置網(wǎng)絡(luò)VGG-16和Resnet50的具體結(jié)構(gòu)見(jiàn)表3,其中,每個(gè)單元塊的值為選擇的特征提取層和對(duì)應(yīng)的輸出尺寸.
Table 3 Pre-network parameter comparison table表3 前置網(wǎng)絡(luò)參數(shù)對(duì)比表
如圖15所示,使用Resnet50網(wǎng)絡(luò)的模型與原始SSD算法相比具有更高的mAP值,尤其在卡車、飛機(jī)這兩類數(shù)據(jù)集上精度提升比較明顯.
Fig.15 Comparison of detection accuracy of different models圖15 不同模型的檢測(cè)準(zhǔn)確率對(duì)比
表4統(tǒng)計(jì)了使用不同基礎(chǔ)網(wǎng)絡(luò)(VGG-16和 Resnet50)的兩種算法在無(wú)人機(jī)數(shù)據(jù)集上的目標(biāo)檢測(cè)結(jié)果,測(cè)試集為包含5大類別的3 000枚圖像.使用Resnet50作為前置網(wǎng)絡(luò)的R-SSD模型取得了85.2%的mAP.兩個(gè)模型在檢測(cè)較大物體時(shí)(如飛機(jī)、卡車等)都有較高的準(zhǔn)確率,在識(shí)別飛機(jī)這一類別上,R-SSD模型達(dá)到了最高的mAP值,為88.6%,高于SSD模型的86.4%,提高了2.2%.這是因?yàn)镽esnet50網(wǎng)絡(luò)層更深,特征提取能力更強(qiáng),檢測(cè)效果也更好.對(duì)于行人這一類,兩個(gè)模型的表現(xiàn)都不是很好,因無(wú)人機(jī)下拍攝的行人目標(biāo)較小,發(fā)生形變,不利于特征的提取和表達(dá).
Table 4 R-SSD object detection results表4 R-SSD目標(biāo)檢測(cè)結(jié)果
(2) 默認(rèn)框參數(shù)實(shí)驗(yàn)
默認(rèn)框的參數(shù)設(shè)置直接影響著模型處理不同尺度目標(biāo)的檢測(cè)性能,默認(rèn)框橫寬比r的分布也會(huì)影響目標(biāo)的檢測(cè)準(zhǔn)確率.當(dāng)r分布較為集中時(shí),網(wǎng)絡(luò)計(jì)算負(fù)擔(dān)加重但檢測(cè)精度卻沒(méi)有明顯的提升;當(dāng)r分布較為分散時(shí),模型的表征學(xué)習(xí)能力不足.為了測(cè)試不同尺寸和橫寬比的默認(rèn)框?qū)δP偷挠绊?本文設(shè)計(jì)了如下實(shí)驗(yàn).
如圖16所示,橫坐標(biāo)為使用的默認(rèn)框橫寬比的集合,例如,r=[1/2,1,2]時(shí)表示針對(duì)當(dāng)前輸入圖像采用的默認(rèn)框的橫寬比分別為1/2,1,2(如圖17所示,實(shí)線框?yàn)槟繕?biāo)的真實(shí)坐標(biāo)框,虛線框?yàn)檫x取的默認(rèn)框的范圍).因R-SSD模型使用了7個(gè)卷積層作為后續(xù)目標(biāo)分類網(wǎng)絡(luò)的輸入,所以圖16中的4條折線分別代表了當(dāng)前選取的卷積層使用的不同默認(rèn)框的個(gè)數(shù),其中,折線[3×7]代表7個(gè)卷積層中默認(rèn)框的個(gè)數(shù)都為 3,即默認(rèn)框橫寬比分布為[1/2,1,2].當(dāng)默認(rèn)框個(gè)數(shù)n和默認(rèn)框橫寬比分布r取值為([3,5×6],[1/3,1/2,1,2,3])和([5×7],[1/3,1/2,1,2,3])時(shí)mAP值較高,準(zhǔn)確率分別為85.2%和85.4%.但采用[5×7]分布的模型與[3,5×6]相比需額外計(jì)算6 272個(gè)檢測(cè)框,這增加了計(jì)算復(fù)雜度,但性能卻只提高了0.2%,得不償失.因此,本文選擇的默認(rèn)框參數(shù)見(jiàn)表5.
Fig.16 Comparison of detection accuracy of different default boxes aspect ratio圖16 不同默認(rèn)框橫寬比的檢測(cè)準(zhǔn)確率對(duì)比
Fig.17 Sample of default boxes aspect ratio圖17 默認(rèn)框橫寬比樣例
Table 5 Model detection results表5 默認(rèn)框的數(shù)量及橫寬比
(3) 綜合性能對(duì)比
為了綜合評(píng)估模型的檢測(cè)能力,本文將R-SSD模型與SIFT+SVM和Faster R-CNN等目前較為流行的檢測(cè)算法進(jìn)行對(duì)比,得到的結(jié)果見(jiàn)表6.
Table 6 Accuracy comparison of different methods表6 不同方法的準(zhǔn)確率對(duì)比
從表6可以看出:本文改進(jìn)的方法無(wú)論在原始數(shù)據(jù)集(未進(jìn)行數(shù)據(jù)增強(qiáng))還是在增強(qiáng)的數(shù)據(jù)集上都取得了較好的檢測(cè)效果,分別取得了 82.5%和 85.2%的準(zhǔn)確率,準(zhǔn)確率比傳統(tǒng)方法高出近 30個(gè)百分點(diǎn).但在速度方面,R-SSD沒(méi)有SSD和傳統(tǒng)方法速度快,這是由于R-SSD為了提高特征提取能力,增加了特征提取層數(shù),犧牲了算法速度.圖18為 R-SSD算法的部分實(shí)驗(yàn)截圖,圖中的矩形框?yàn)槟P皖A(yù)測(cè)的目標(biāo)全局位置,矩形框左上方為預(yù)測(cè)的類別和分值.
Fig.18 Detection result of R-SSD algorithm圖18 R-SSD算法檢測(cè)結(jié)果圖
圖19分別為R-SSD算法的目標(biāo)誤檢圖、小樣本漏檢圖和目標(biāo)重復(fù)檢測(cè)圖.
Fig.19 Error detection result of R-SSD algorithm圖19 R-SSD算法的誤檢結(jié)果圖
(1) 目標(biāo)類別檢測(cè)實(shí)驗(yàn)
CI-SSD算法的類別檢測(cè)結(jié)果如圖20所示,與傳統(tǒng)的SSD算法相比,CI-SSD目標(biāo)檢測(cè)算法在各個(gè)類別的檢測(cè)精度上均有了大幅度的提升,其中,行人類別的準(zhǔn)確率提升最為明顯,提高了6%.這是因?yàn)镃I-SSD網(wǎng)絡(luò)結(jié)構(gòu)融合了高層特征向量的語(yǔ)義信息和低層特征向量的位置和邊緣信息,使得模型在保持原有檢測(cè)精度的前提下對(duì)行人等小目標(biāo)檢測(cè)具有更強(qiáng)的適應(yīng)性.
Fig.20 Comparison of detection accuracy of different models圖20 不同模型的檢測(cè)準(zhǔn)確率對(duì)比
表7統(tǒng)計(jì)了SSD和CI-SSD兩種算法在無(wú)人機(jī)數(shù)據(jù)集上的目標(biāo)檢測(cè)結(jié)果.本文的CI-SSD目標(biāo)檢測(cè)算法的準(zhǔn)確率達(dá)到了87.8%,較SSD算法提高了3.6%,較上一節(jié)的R-SSD算法提高了2.6%.
Table 7 SSD and CI-SSD object detection results表7 SSD和CI-SSD目標(biāo)檢測(cè)結(jié)果
(2) 特征融合實(shí)驗(yàn)
為驗(yàn)證本文特征融合的有效性,設(shè)計(jì)了以下幾組對(duì)比實(shí)驗(yàn).
· 第1組為SSD-Diconv:在CI-SSD網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上去掉反卷積上采樣,保留特征圖空洞卷積下采樣操作,網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示;
· 第2組為 SSD-Deconv:在CI-SSD網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上去掉空洞卷積下采樣,保留特征圖反卷積上采樣操作,網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示;
· 第3組為 SSD-Pooling:在CI-SSD網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上去掉反卷積上采樣和空洞卷積下采樣操作,用池化層進(jìn)行特征圖下采樣操作.
改進(jìn)后的CI-SSD算法與SSD-Diconv,SSD-Deconv,SSD-Pooling結(jié)果對(duì)比如圖21所示.
Fig.21 Comparison of experimental results圖21 實(shí)驗(yàn)結(jié)果對(duì)比
由圖21可以看出,SSD-Diconv,SSD-Deconv和 SSD-Pooling在檢測(cè)精度方面表現(xiàn)均優(yōu)于 SSD,其中,SSDDeconv表現(xiàn)最為優(yōu)秀,達(dá)到87%的準(zhǔn)確率,這說(shuō)明高層的語(yǔ)義和低層的邊緣紋理等信息均能提高模型的檢測(cè)精度.其中,SSD-Deconv精度高于SSD-Pooling,說(shuō)明本文采用的空洞卷積操作與池化操作相比,在進(jìn)行特征融合時(shí)保存了更多的圖像信息.實(shí)驗(yàn)結(jié)果表明,本文提出的基于特征融合的航拍目標(biāo)檢測(cè)算法 CI-SSD準(zhǔn)確率最高,為87.8%.
(3) 綜合性能對(duì)比
為了評(píng)估CI-SSD算法的綜合性能,本節(jié)將CI-SSD與SSD,R-SSD進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果見(jiàn)表8.本文改進(jìn)的方法無(wú)論在原始數(shù)據(jù)集上還是在增強(qiáng)數(shù)據(jù)集上都取得了最高的檢測(cè)精度,分別為 84.1%和 87.8%.在速度方面,因需要進(jìn)行不同特征層的信息融合,速度略有下降,但高于R-SSD算法的處理速度,滿足實(shí)時(shí)性的要求.
Table 8 Comprehensive comparison of different methods表8 不同方法的綜合對(duì)比
圖22為部分實(shí)驗(yàn)截圖,測(cè)試數(shù)據(jù)集與上節(jié)相同,圖中的矩形框?yàn)槟P皖A(yù)測(cè)的目標(biāo)位置,矩形框左上方為預(yù)測(cè)的類別和分值,不同的邊框顏色代表不同的目標(biāo)分類.
Fig.22 Comparison of detection result between R-SSD and CI-SSD圖22 R-SSD和CI-SSD的檢測(cè)結(jié)果對(duì)比
Fig.22 Comparison of detection result between R-SSD and CI-SSD (Continued)圖22 R-SSD和CI-SSD的檢測(cè)結(jié)果對(duì)比(續(xù))
圖22(a)中,R-SSD誤將地標(biāo)建筑檢測(cè)成車,CI-SSD糾正了這一誤標(biāo).在圖22(b)中,針對(duì)卡車這一目標(biāo),R-SSD將其檢測(cè)為卡車和車,出現(xiàn)了重復(fù)檢測(cè),而 CI-SSD沒(méi)有出現(xiàn)該錯(cuò)誤.圖22(d)中,R-SSD漏檢了上方小車,CI-SSD成功將其檢測(cè)成車.與傳統(tǒng) SSD目標(biāo)檢測(cè)算法相比,CI-SSD算法檢測(cè)精度更高,尤其在小目標(biāo)物體的檢測(cè)上更有優(yōu)勢(shì).實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)的算法有效提高了無(wú)人機(jī)圖像中目標(biāo)檢測(cè)的準(zhǔn)確率.
針對(duì)無(wú)人機(jī)目標(biāo)檢測(cè)分辨率低、遮擋、小目標(biāo)漏檢、重復(fù)檢測(cè)、誤檢等精度低下問(wèn)題,本文在 SSD算法的基礎(chǔ)上,用表征能力更強(qiáng)的殘差網(wǎng)絡(luò)進(jìn)行基準(zhǔn)網(wǎng)絡(luò)的替換,用殘差學(xué)習(xí)降低網(wǎng)絡(luò)訓(xùn)練難度,提高目標(biāo)檢測(cè)精度;引入跳躍連接機(jī)制降低提取特征的冗余度,解決層數(shù)增加出現(xiàn)的性能退化問(wèn)題;引入不同分類層的特征融合機(jī)制,把網(wǎng)絡(luò)結(jié)構(gòu)中低層視覺(jué)特征與高層語(yǔ)義特征有機(jī)地結(jié)合在一起.算法的準(zhǔn)確率達(dá)到了87.8%,較SSD算法提高了3.6%.實(shí)驗(yàn)結(jié)果表明,圖像預(yù)處理、特征融合能夠提高目標(biāo)檢測(cè)的精度,滿足實(shí)時(shí)性要求;增加網(wǎng)絡(luò)層次和深度雖能提高目標(biāo)檢測(cè)的精度,但是計(jì)算量的增加嚴(yán)重影響了目標(biāo)檢測(cè)實(shí)時(shí)性.接下來(lái),將裁減基礎(chǔ)網(wǎng)絡(luò),優(yōu)化特征融合的程度,以期進(jìn)一步提高檢測(cè)精度和實(shí)時(shí)性,促進(jìn)無(wú)人機(jī)核心技術(shù)的快速發(fā)展.